2011-01-01から1年間の記事一覧

「Mobageの大規模データマイニング」- #PRMU 2011 Big Data and Cloud で講演してきました

電子情報通信学会「パターン認識とメディア理解研究会 (PRMU: Pattern Recognition and Media Understanding)」@幕張メッセ国際会議場 で招待講演をしてきました。 「Mobageの大規模データマイニング」に関して、話しています。 Large Scale Data Mining of…

第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました

2011/11/27 "第16回 データマイニング+WEB 勉強会@東京−リアルタイム分散 Web解析・自然言語処理 祭り−"を開催しました。 第16回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り−: Eventbrite Go…

第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました

2011/11/06 "第15回 データマイニング+WEB 勉強会@東京−統計・ビジネス活用 祭り−"を開催しました。 第15回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 15th)−大規模分散データマイニング 祭り−: Eventbrite Google グループ 会場提供し運営を手…

第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました

2011/10/16 "第14回 データマイニング+WEB 勉強会@東京"を開催しました。 第14回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 14th)−大規模分散データマイニング 祭り−: Eventbrite Google グループ 会場提供し運営を手伝って下さった ニフティ株…

第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました

2011/06/26 "第13回 データマイニング+WEB 勉強会@東京−Mahout・大規模解析・ビジネス展開 祭り−"を開催しました。 第13回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り−: Eventbrite Google グルー…

第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました

2011/06/19 "第12回 データマイニング+WEB 勉強会@東京−機械学習MapReduce・大規模R解析 祭り−"を開催しました。 第12回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り−: Eventbrite Google グループ 会…

第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました

2011/06/12 "第11回 データマイニング+WEB 勉強会@東京−Mahout・Graphical Model・学術 祭り−"を開催しました。 第11回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 11th)−Mahout・Graphical Model・学術 祭り−: Eventbrite Google グループ 会場…

Perl で MapReduce - Mahout Frequent Pattern Mining Data -

最近、Perl も書き始めてみたので、Hadoop 上で分散実行できる Perl での MapReduce 実装を紹介する。大規模データマイニング・機械学習のライブラリ Apache Mahout の Parallel Frequent Pattern Mining の入力データを生成する Perl MapReduce 実装の紹介…

Mahout RandomForest Driver 実装法 -大規模分散 機械学習・判別 -

Apache Mahout は、Hadoop上で動作する大規模分散データマイニング・機械学習のライブラリ。 Random Forest は大規模データで高精度の分類・判別を実現するアルゴリズム。 Random Forestを、"R言語での実行のように容易"に "大規模分散 学習・判別"できるよ…

Mahout JP を立ち上げました #MahoutJP

Hadoop上で動作する 大規模データマイニング・機械学習ライブラリ Apache Mahout に関し、技術情報まとめ・発信よる活用の裾野を広げることを目的としMahout JPを立ち上げました。私も含め TokyoWebminingでMahoutに関する各種講師をしていたメンバーや、Tok…

R言語による多変量時系列分析−Dynamic Conditional Correlation GARCH Model

R

R言語による多変量時系列分析。 複数グループ・複数項目の時系列データで時系列間の関係性・影響を明らかにする。 以下、実行可能なR言語ソースコードを用い紹介する。 例:複数時系列間の関係性・影響 農家ごとの農地の肥沃度・人の各仕事の労働量・各肥料…

R言語による多変量時系列分析−Panel Linear Model

R

R言語による多変量時系列分析。 複数グループ・複数項目の時系列データで時系列間の関係性・影響を明らかにする。 以下、実行可能なR言語ソースコードも用い紹介する。 例:複数時系列間の関係性・影響 農家ごとの農地の肥沃度・人の各仕事の労働量・各肥料…

第2回 さくさくテキストマイニング勉強会に参加してきた #sakuTextMining

4/16(土)「第2回 さくさくテキストマイニング勉強会」に参加してきました。ATND: 第2回「にこにこ」改め さくさくテキストマイニング勉強会 : ATND 運営、講師のみなさんお疲れさまでした。先週の第10回TokyoWebmining−2nd Week−大規模分散 機械学習 祭り−…

第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り−

2011/04/10 "第10回 データマイニング+WEB 勉強会@東京−2nd Week−大規模分散 機械学習 祭り−"を開催しました。 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)−2nd Week−大規模分散 機械学習 祭り−: Eventbrite Google グループ 会場提…

第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−

2011/02/27 "第10回 データマイニング+WEB 勉強会@東京−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−"を開催しました。 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)−1st Week−広告ネットワーク・グラフ解析・並列機…

「モバゲーの大規模データマイニング基盤におけるHadoop活用」−Hadoop Conference Japan 2011 #hcj2011 で登壇してきました

2011/02/22 Hadoop Conference Japan 2011に登壇してきました。35分の Main Talk。 『モバゲーの大規模データマイニング基盤におけるHadoop活用』に関して話しています。『モバゲーの大規模データマイニング基盤におけるHadoop活用』−Hadoop Conference Japa…

第1回 にこにこテキストマイニング勉強会 ( #nicoTextMining #1) に参加してきた

「第1回 にこにこテキストマイニング勉強会 (#nicoTextMining)」([Twitter:@toilet_lunch] さん, [Twitter:@AntiBayesian] さん 主催) に参加してきた。実際にどう活用するかを目的した会。最近、毎週トークをしていましたが、今週は聴講者。ATND: 第1回 に…

Mahout: Canopy and K-means Clustering

MahoutのCanopyとK-Meansを用い、Canopy生成しCanopy Centroidを用いたK-Means Clustering実行できる Driverの実装法を解説します。次のようなコマンドライン呼び出しで、質の良い Canopy+K-Meansの一連のClusteringの手続きを実行できます。以下では、org.a…

「R言語による Random Forest 徹底入門−集団学習による分類・予測−」− #TokyoR #11 で講師をしてきました

2011/01/29 第11回R勉強会@東京(Tokyo.R #11) で講師をしてきました。 「R言語による Random Forest 徹底入門 −集団学習による分類・予測−」。 Random Forest は"機械学習"の方法論で、集団学習により精度高い判別・予測を実現します。 双方向の進行で、質…

第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました

2011/01/23 "第9回 データマイニング+WEB 勉強会@東京−2nd Week−方法論・ソーシャル祭り−"を開催しました。 第9回 データマイニング+WEB 勉強会@東京 ( TokyoWebmining 9)−2ndW−方法論・ソーシャル祭り−: ATND Google グループ ※会場参加者ID写真(id:bo…

第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました

2011/01/16 "第9回 データマイニング+WEB 勉強会@東京−1st Week− 大規模解析・機械学習・クオンツ 祭り−"を開催しました。 第9回 データマイニング+WEB 勉強会@東京 ( TokyoWebmining 9)−1st Week− 大規模解析・機械学習・クオンツ 祭り−: ATND Google …

Mahout: Data Converter for Clustering

Mahout Clustering 実行の入力形式へ変換する DataConverter を実装してみた。以下に Source Code、Command line 実行方法も含め紹介します。Mahout は Hadoop上で動作する大規模 Data Mining/Machine Learning の Library。Mahout Clustering Packageには、…

R言語で MapReduce −Hadoop Streaming−

統計解析・データマイニングに特化した言語である R言語。 Hadoop Streaming を使った R言語でのMapReduce実装を以下に紹介。 Hadoop Streaming で標準入出力を用いデータの受け渡しを行い、files オプションで R の mapper, reducer を配布し実行。 例えば…