hamadakoichi blog

Mahout 導入手順

mahout

データマイニングで Mahoutも使い始めてみた。
Mahoutは、Hadoop上で動くデータマイニング・機械学習の各種アルゴリズムが実装されているライブラリ。

導入手順を以下に記載します。
第５回データマイニング+WEB勉強会＠東京で id:gogokarubi さんの手順紹介と第3回パターン認識と機械学習(PRML)復習レーンでのアドバイスを含む、日頃からの karubiさんのアドバイスに感謝。

Mahout Download Mirror

Apache Download Mirrors

Version選択

http://ftp.riken.jp/net/apache/lucene/mahout/
03を選択

JAR, Sourceのダウンロード

JARもソースもダウンロードできる

mahout-0.3.zip
mahout-0.3-src.zip

JARを入れる

ダウンロードした mahout-0.3.zip を解凍し、mahout-0.3 下のJAR、mahout-0.3\lib 下のJAR、をReferenced Librariesに入れる

mahout-0.3 下のJAR

mahout-0.3\lib 下のJAR

Referenced Libraries

Referenced Libraries

※解凍したソース下の \examples\src\main に各種サンプルソースも入っている。

Windows上でのHadoop実行

Windows 上で Hadoop を動かす場合には、cygwin をインストールする。

cygwinをインストール
Cygwinの/binにパスを通す

JVM 最大ヒープサイズ設定

HeapErrorが出る場合実行オプションでJVMの最大ヒープサイズを設定する。
Eclipseでは、VM argumentsを設定。Run->Run Configuration->Argumentsタブ->VM argumentで Xmx設定 (-Xmx1024m 等)。

関連リンク