第14回データマイニング+WEB 勉強会＠東京( #TokyoWebmining 14th)−大規模分散データマイニング祭り− を開催しました

近年、柔軟かつ重厚な階層ベイズ的確率モデルが画像・文書・データマイニング、バイオインフォマティクス、脳科学、行動学など多様なデータの科学の領域で提案されています。これらの一つの潮流に、データ生成に関わる複雑な事物の関係性や時系列性をできる限りありのままに捉えようと試みる向きがあります。大げさに言って現象の数理モデルを追及し現象を説明するといういわゆる「科学」の流れを汲む試みと捉えています。
一方で重厚なモデリングは主に推論に要する計算コストのために、学術寄りの解析、もしくはかなり時間とお金をかけてもいい領域にとどまっているのかもしれません。しかしいくつかの問題が解決されれば、豊富なプロファイルを組み込むことで、より高次の解析を可能にし、日々の解析を向上させる有用な方法になりうると思っています。
今回は最近提案されている確率モデルをご紹介しモデリング技術の向かう先を見つつ
・今、現場の解析で解きたい問題と研究で問題にされる問いとのギャップ
・どのような問題がどれくらいの時間と労力で解けたら実際使えるのか
などを考えていけたらいいなと思います。

モデルは使い捨ての時代。
○○はベストは流動的。
- サービスが変わればデータは変わる。
- 1サービスに1手法であってもよい。
アクティブラーニング: 重要だがラベルのついていないデータを機械から指摘。
Causal Inference：原因探し。
興味・関心の割合。User行動を文書であらわす。各行動にトピックがついている。
- 興味の推移。面白い。
- 興味・トピックの変化の追い方。トピックの特徴量は変わっていく。経済のトピックは変わらないが話題は移り変わっていく。
- 広告興味の推移
- Scalable Distributed Inference of Dynamic User Interests for Behavioral Targeting

4. 「Large-Scale Graph Processing」 (講師: [Twitter:@doryokujin]） (発表35分 + 議論35分)

Large-Scale Graph Processing〜Introduction〜(完全版)

View more presentations from Takahiro Inoue

グラフデータの大規模処理はMapReduceモデルよりも効率の良い計算モデルが提案され、BSPをグラフに実装したPregel・Hama等のプロジェクトにおいて実装が進められています。今回はグラフの大規模処理とはどのようなものかをMap ReduceとBSPを比較してお話しします。時間があればGraphLabについてもお話しします

BSP: Bulk Synchronous Parallel, 1990-
Local Computation 間でMessage Passing。Synchronizationのフェーズも経る。
Google Pregel: Graph で BSP Model実装。
- Directed Graph。頂点がCompute関数を適用。
- グラフ分割し、各頂点で計算、メッセージ送信する。
- ネットワーク通信はメッセージのみ。
Hama, GoldenOrg, Giraph、Hadoop上で動く。

■声・議論：

D. 「参加者の声・ディスカッション」 (60分)

進行： id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果（継続したい良かった点、改善点、次回AGENDA）。
http://www.xmind.net/share/_embed/hamadakoichi/no-14-views-data-mining-web-tokyo-continues-and-you-wan/

講師募集

データマイニング+WEB勉強会＠東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。

連絡先：

hamadakoichi blog