« Googleでソースコード検索 | トップページ | 玄箱 - MUSASHIをつかってみる »

2006年10月 7日 (土)

玄箱 - MUSASHIをインストールしてみる

MUSASHIは、データマイニングで必要なデータ処理を行うためのコマンド群です。
最近データマイニングを勉強しているので、データマイニングツールがほしいと思っているんですが、データマイニングツールってとても高価なのです。もうボクには当然買えませんというような額なんですが、このMUSASHIはオープンソースで、且つボクの好きなコマンドライン操作でもってデータ処理ができるというすばらしいソフトです。

MUSASHIはLinux環境で動作するため、玄箱にインストールしてみようかと思いました。しかし大量データ処理用のソフトなので、果たして玄箱のハードスペックで足りるのかどうか疑問です。

そんなこともあって、最初Cygwinに入れてみたんですが、文字コードの問題等でちょっと使用感が悪いなという感じだったので、まあどれくらい処理してくれるものか気にもなったので試しに玄箱Debian環境にインストールしてみることにしました。

MUSASHIのインストールにはncursesとlibxml2が必要です。

nucursesがない場合はインストールします。

---
# aptitude install ncurses
---

次にlibxml2をインストールします。

---
# aptitude install libxml2 libxml2-dev
---

コンパイルにはC++を使うので、ない場合はインストールしておきましょう。

---
# aptitude install g++
---

http://musashi.sourceforge.jp/
よりMUSASHIとモジュール類の最新版をダウンロード。
現行では

musashi-core-1.0.4.tar.gz
musashi-man-20041206.tar.gz
musashi-module-20041206.tar.gz
musashi-scenario-20041206.tar.gz
musashi-check-20041206-2.tar.gz

となっています。

まず、coreを展開してconfigure make make installします。
---
# tar zxvf musashi-core-1.0.4.tar.gz
# cd musashi-core-1.0.4
# ./configure
# make
# make install
---

setdocenc.shを実行してからconfigure、make、install。
---
$ ./setdocenc.sh
$ ./configure
$ make
$ make install
---

インストール後コマンドヘルプを表示して文字出力を確認します。

---
# xtcut -h
NAME:
xtcut version: 1.2 項目の選択

USAGE:
xtcut -f 抜き出す項目名リスト [-r] [-i 入力ファイル名] [-o 出力ファイル名] [-z] [-t]

SUMMARY:
項目リストで指定した項目を、その順番で選択する

OPTION:
-r: 項目削除
-z: 標準出力の圧縮
-t: plain text

EXAMPLES:
xtcut -f 顧客,数量,金額 -i dat.xt -o rsl.xt
xtcut -f 顧客,数量,金額 -r -i dat.xt -o rsl.xt

INFORMATION: <http://musashi.sourceforge.jp>
BUG  REPORT: <musashi-users@lists.sourceforge.jp>

#
---

次に、manをインストールします。

---
# tar zxvf musashi-man-20041206.tar.gz
# cd musashi-man-20041206
# ./Install.sh
---

次にmoduleをインストールします。

---
# tar zxvf musashi-module-20041206.tar.gz
# cd musashi-module-20041206
# ./Install.sh
---

インストールが終わったらsampleディレクトリのサンプルを実行してみます。

---
# cd sample
# ./abc.sh
# ./mvavg.sh
---

sample/outdatに実行結果が出力されるので、確認します。

次に、scenarioをインストールします。

---
# tar zxvf musashi-scenario-20041206.tar.gz
# cd musashi-scenario-20041206
# ./Install.sh
---

テンプレートスクリプトをsampleにコピー

---
# ./InstallTmp.sh
---

サンプルを実行してみます。

---
# cd sample
# ./mssRFM_tmp.sh
---

最後に各コマンドの動作確認スクリプトmusashi-checkの実行です。

---
# tar zxvf musashi-check-20041206.tar.gz
# cd musashi-check-20041206
---

check.shを実行します。これによりほぼ全てのMUSASHIスクリプトについて動作チェックが行われます。

---
# ./check.sh
---

チェック終了後に同ディレクトリに生成されるlogファイルに対してNGやERRがないか検索します。

---
# cat log | grep -E 'ERR|NG'
---

なければ、コマンドはすべて正常に実行されています。
エラーがあれば、同ディレクトリのdiffListファイル内のエラー内容をチェックしてみてください。

エラーがなければ終了です。

サンプルコマンドを実行したりしてみましたが、思ったより処理速度が速いです。データ保存に十分な空き容量さえあれば玄箱でもデータマイニング作業ができるかもしれません。少なくとも、お勉強のための環境ということなら十分だと思いました。

企画をお客様に提案するときなんかでも、提案の根拠となるデータは必要で、そのためのデータ分析ってのがけっこう成功の鍵になってたりするわけです。データの分析手法も様々あるんですが、分析のためのデータ整理にはけっこう手間がかかるんですよね。

MUSASHIみたいにデータマイニングに特化したソフトで大量のデータを素早く処理できるのは仕事上かなりありがたいです。MUSASHIも触り始めたばかりなのでこれからなんですが、もう少し勉強してから記事にもしていこうと思います。

|

« Googleでソースコード検索 | トップページ | 玄箱 - MUSASHIをつかってみる »

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/125677/3710518

この記事へのトラックバック一覧です: 玄箱 - MUSASHIをインストールしてみる:

« Googleでソースコード検索 | トップページ | 玄箱 - MUSASHIをつかってみる »