Mahout 導入手順

データマイニングで Mahoutも使い始めてみた。
Mahoutは、Hadoop上で動くデータマイニング機械学習の各種アルゴリズムが実装されているライブラリ。


導入手順を以下に記載します。
第5回データマイニング+WEB勉強会@東京id:gogokarubi さんの手順紹介と第3回 パターン認識と機械学習(PRML)復習レーンでのアドバイスを含む、日頃からの karubiさんのアドバイスに感謝。

Mahout Download Mirror


Apache Download Mirrors

JAR, Sourceのダウンロード


JARもソースもダウンロードできる

  • mahout-0.3.zip
  • mahout-0.3-src.zip

JARを入れる

ダウンロードした mahout-0.3.zip を解凍し、mahout-0.3 下のJAR、mahout-0.3\lib 下のJAR、をReferenced Librariesに入れる

mahout-0.3 下のJAR

mahout-0.3\lib 下のJAR

Referenced Libraries


Referenced Libraries

※解凍した ソース下の \examples\src\main に各種サンプルソースも入っている。

Windows上でのHadoop実行

Windows 上で Hadoop を動かす場合には、cygwin をインストールする。

  • cygwinをインストール
  • Cygwinの/binにパスを通す

JVM 最大ヒープサイズ設定

HeapErrorが出る場合 実行オプションでJVMの最大ヒープサイズを設定する。
Eclipseでは、VM argumentsを設定。Run->Run Configuration->Argumentsタブ->VM argumentで Xmx設定 (-Xmx1024m 等)。