Mahout
「Mobageを支える技術」が 6/13 に発売されました。DeNAの11人の著者によりMobageの各技術領域の執筆が行われています。私は13章の「大規模データマイニング」を執筆しました。Mobageを支える技術 ~ソーシャルゲームの舞台裏~ (WEB+DB PRESS plus)作者: DeNA…
2012年度が始まり1ヶ月が経ちました。2011年度は、大規模分散処理技術・データ基盤の普及が広く進んだ年だったと思います。2012年はそれら蓄積された大規模データを活用しデータマイニング・機械学習を用い、ビジネス・サービス洗練を大きく広げていく年では…
電子情報通信学会「パターン認識とメディア理解研究会 (PRMU: Pattern Recognition and Media Understanding)」@幕張メッセ国際会議場 で招待講演をしてきました。 「Mobageの大規模データマイニング」に関して、話しています。 Large Scale Data Mining of…
最近、Perl も書き始めてみたので、Hadoop 上で分散実行できる Perl での MapReduce 実装を紹介する。大規模データマイニング・機械学習のライブラリ Apache Mahout の Parallel Frequent Pattern Mining の入力データを生成する Perl MapReduce 実装の紹介…
Apache Mahout は、Hadoop上で動作する大規模分散データマイニング・機械学習のライブラリ。 Random Forest は大規模データで高精度の分類・判別を実現するアルゴリズム。 Random Forestを、"R言語での実行のように容易"に "大規模分散 学習・判別"できるよ…
Hadoop上で動作する 大規模データマイニング・機械学習ライブラリ Apache Mahout に関し、技術情報まとめ・発信よる活用の裾野を広げることを目的としMahout JPを立ち上げました。私も含め TokyoWebminingでMahoutに関する各種講師をしていたメンバーや、Tok…
2011/02/22 Hadoop Conference Japan 2011に登壇してきました。35分の Main Talk。 『モバゲーの大規模データマイニング基盤におけるHadoop活用』に関して話しています。『モバゲーの大規模データマイニング基盤におけるHadoop活用』−Hadoop Conference Japa…
MahoutのCanopyとK-Meansを用い、Canopy生成しCanopy Centroidを用いたK-Means Clustering実行できる Driverの実装法を解説します。次のようなコマンドライン呼び出しで、質の良い Canopy+K-Meansの一連のClusteringの手続きを実行できます。以下では、org.a…
Mahout Clustering 実行の入力形式へ変換する DataConverter を実装してみた。以下に Source Code、Command line 実行方法も含め紹介します。Mahout は Hadoop上で動作する大規模 Data Mining/Machine Learning の Library。Mahout Clustering Packageには、…
「樹木モデルとランダムフォレスト−機械学習による分類・予測−」 の講師資料です。 Tree-based Models, Random Forests の入門的な内容です。「樹木モデルとランダムフォレスト−機械学習による分類・予測−」−データマイニングセミナーView more presentation…
Mahout でのデータマイニング。mahout.clustering.kmeans を使ったクラスター分析を実装してみた。Mahoutは、Hadoop上で動くデータマイニング・機械学習の各種アルゴリズムが実装されているライブラリ。 クラスター分析 クラスター分析の方法論自体の内容は…
データマイニングで Mahoutも使い始めてみた。 Mahoutは、Hadoop上で動くデータマイニング・機械学習の各種アルゴリズムが実装されているライブラリ。 導入手順を以下に記載します。 第5回データマイニング+WEB勉強会@東京で id:gogokarubi さんの手順紹介…