Hadoop

「Mobageを支える技術」を執筆しました

「Mobageを支える技術」が 6/13 に発売されました。DeNAの11人の著者によりMobageの各技術領域の執筆が行われています。私は13章の「大規模データマイニング」を執筆しました。Mobageを支える技術 ~ソーシャルゲームの舞台裏~ (WEB+DB PRESS plus)作者: DeNA…

「Mobageの大規模データマイニング」- #PRMU 2011 Big Data and Cloud で講演してきました

電子情報通信学会「パターン認識とメディア理解研究会 (PRMU: Pattern Recognition and Media Understanding)」@幕張メッセ国際会議場 で招待講演をしてきました。 「Mobageの大規模データマイニング」に関して、話しています。 Large Scale Data Mining of…

Perl で MapReduce - Mahout Frequent Pattern Mining Data -

最近、Perl も書き始めてみたので、Hadoop 上で分散実行できる Perl での MapReduce 実装を紹介する。大規模データマイニング・機械学習のライブラリ Apache Mahout の Parallel Frequent Pattern Mining の入力データを生成する Perl MapReduce 実装の紹介…

Mahout RandomForest Driver 実装法 -大規模分散 機械学習・判別 -

Apache Mahout は、Hadoop上で動作する大規模分散データマイニング・機械学習のライブラリ。 Random Forest は大規模データで高精度の分類・判別を実現するアルゴリズム。 Random Forestを、"R言語での実行のように容易"に "大規模分散 学習・判別"できるよ…

Mahout JP を立ち上げました #MahoutJP

Hadoop上で動作する 大規模データマイニング・機械学習ライブラリ Apache Mahout に関し、技術情報まとめ・発信よる活用の裾野を広げることを目的としMahout JPを立ち上げました。私も含め TokyoWebminingでMahoutに関する各種講師をしていたメンバーや、Tok…

「モバゲーの大規模データマイニング基盤におけるHadoop活用」−Hadoop Conference Japan 2011 #hcj2011 で登壇してきました

2011/02/22 Hadoop Conference Japan 2011に登壇してきました。35分の Main Talk。 『モバゲーの大規模データマイニング基盤におけるHadoop活用』に関して話しています。『モバゲーの大規模データマイニング基盤におけるHadoop活用』−Hadoop Conference Japa…

Mahout: Canopy and K-means Clustering

MahoutのCanopyとK-Meansを用い、Canopy生成しCanopy Centroidを用いたK-Means Clustering実行できる Driverの実装法を解説します。次のようなコマンドライン呼び出しで、質の良い Canopy+K-Meansの一連のClusteringの手続きを実行できます。以下では、org.a…

Mahout: Data Converter for Clustering

Mahout Clustering 実行の入力形式へ変換する DataConverter を実装してみた。以下に Source Code、Command line 実行方法も含め紹介します。Mahout は Hadoop上で動作する大規模 Data Mining/Machine Learning の Library。Mahout Clustering Packageには、…

R言語で MapReduce −Hadoop Streaming−

統計解析・データマイニングに特化した言語である R言語。 Hadoop Streaming を使った R言語でのMapReduce実装を以下に紹介。 Hadoop Streaming で標準入出力を用いデータの受け渡しを行い、files オプションで R の mapper, reducer を配布し実行。 例えば…