「Mobageを支える技術」を執筆しました

Mahout Hadoop

「Mobageを支える技術」が 6/13 に発売されました。DeNAの11人の著者によりMobageの各技術領域の執筆が行われています。私は13章の「大規模データマイニング」を執筆しました。Mobageを支える技術 ~ソーシャルゲームの舞台裏~ (WEB+DB PRESS plus)作者: DeNA…

2012-05-04

大規模データマイニング・機械学習 Mahout 活用に向けて読んでおきたい12のプレゼン資料

Mahout

2012年度が始まり1ヶ月が経ちました。2011年度は、大規模分散処理技術・データ基盤の普及が広く進んだ年だったと思います。2012年はそれら蓄積された大規模データを活用しデータマイニング・機械学習を用い、ビジネス・サービス洗練を大きく広げていく年では…

2011-12-29

「Mobageの大規模データマイニング」- #PRMU 2011 Big Data and Cloud で講演してきました

Mahout Hadoop

電子情報通信学会「パターン認識とメディア理解研究会 (PRMU: Pattern Recognition and Media Understanding)」＠幕張メッセ国際会議場で招待講演をしてきました。「Mobageの大規模データマイニング」に関して、話しています。 Large Scale Data Mining of…

2011-05-16

Perl で MapReduce - Mahout Frequent Pattern Mining Data -

Perl Hadoop Mahout

最近、Perl も書き始めてみたので、Hadoop 上で分散実行できる Perl での MapReduce 実装を紹介する。大規模データマイニング・機械学習のライブラリ Apache Mahout の Parallel Frequent Pattern Mining の入力データを生成する Perl MapReduce 実装の紹介…

2011-05-07

Mahout RandomForest Driver 実装法 -大規模分散機械学習・判別 -

Mahout Hadoop

Apache Mahout は、Hadoop上で動作する大規模分散データマイニング・機械学習のライブラリ。 Random Forest は大規模データで高精度の分類・判別を実現するアルゴリズム。 Random Forestを、"R言語での実行のように容易"に "大規模分散学習・判別"できるよ…

2011-05-01

Mahout JP を立ち上げました #MahoutJP

Mahout Hadoop

Hadoop上で動作する大規模データマイニング・機械学習ライブラリ Apache Mahout に関し、技術情報まとめ・発信よる活用の裾野を広げることを目的としMahout JPを立ち上げました。私も含め TokyoWebminingでMahoutに関する各種講師をしていたメンバーや、Tok…

2011-02-22

「モバゲーの大規模データマイニング基盤におけるHadoop活用」−Hadoop Conference Japan 2011 #hcj2011 で登壇してきました

Hadoop Mahout

2011/02/22 Hadoop Conference Japan 2011に登壇してきました。35分の Main Talk。『モバゲーの大規模データマイニング基盤におけるHadoop活用』に関して話しています。『モバゲーの大規模データマイニング基盤におけるHadoop活用』−Hadoop Conference Japa…

2011-02-03

Mahout: Canopy and K-means Clustering

Mahout Hadoop

MahoutのCanopyとK-Meansを用い、Canopy生成しCanopy Centroidを用いたK-Means Clustering実行できる Driverの実装法を解説します。次のようなコマンドライン呼び出しで、質の良い Canopy+K-Meansの一連のClusteringの手続きを実行できます。以下では、org.a…

2011-01-12

Mahout: Data Converter for Clustering

Mahout Hadoop

Mahout Clustering 実行の入力形式へ変換する DataConverter を実装してみた。以下に Source Code、Command line 実行方法も含め紹介します。Mahout は Hadoop上で動作する大規模 Data Mining/Machine Learning の Library。Mahout Clustering Packageには、…

2010-10-11

樹木モデルとランダムフォレスト−機械学習による分類・予測−

Webmining R mahout

「樹木モデルとランダムフォレスト−機械学習による分類・予測−」の講師資料です。 Tree-based Models, Random Forests の入門的な内容です。「樹木モデルとランダムフォレスト−機械学習による分類・予測−」−データマイニングセミナーView more presentation…

2010-07-18

Mahout Programming : K-Means Clustering

mahout

Mahout でのデータマイニング。mahout.clustering.kmeans を使ったクラスター分析を実装してみた。Mahoutは、Hadoop上で動くデータマイニング・機械学習の各種アルゴリズムが実装されているライブラリ。クラスター分析クラスター分析の方法論自体の内容は…

2010-07-03

Mahout 導入手順

mahout

データマイニングで Mahoutも使い始めてみた。 Mahoutは、Hadoop上で動くデータマイニング・機械学習の各種アルゴリズムが実装されているライブラリ。導入手順を以下に記載します。第５回データマイニング+WEB勉強会＠東京で id:gogokarubi さんの手順紹介…