第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました

2011/10/16 "第14回 データマイニング+WEB 勉強会@東京"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

以下、全講師資料、関連資料、ツイートまとめです。


AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(70分)

進行 :[Twitter:@hamadakoichi]

1.「Mahout Recommendation」 (講師: [Twitter:@hamadakoichi])  (発表35分 + 議論35分)

Hadoop上で動作する大規模分散データマイニング機械学習ライブラリ Mahout。今回、レコメンデーションの導入的な内容から実行法までお話しします。

  • トーク以外にも50分ほど活発な議論を行えました。ありがとうございました。

参考文献:

Mahout in Action

Mahout in Action

2.「RHIPE 徹底入門」 (講師: @jinbay ) (発表25分 + 議論25分)

資料: RHIPE徹底入門 - Speaker Deck

R言語にて手軽にMapReduceを記述するためのパッケージ、RHIPEについて説明します。インストール方法から使い方、Hadoop Streamingと比較してのメリット、Tipsや将来性について語ります。

  • RHIPE全てのクラスタに入れないといけない。
  • 擬似分散か完全分散で動かす。
  • rhinit(T,T)はスクリプトの先頭に必ずいる。エラーログ、Infor出力。
  • rhwrite(filepath), rhread(filepath)。
  • map/reduce、expressionで記述する。
  • RHIVEも出てきている。

3. 「近年のデータマイニングにおけるベイズ法のサーベイ 」 (講師: [Twitter:@suzuvie_re] ) (発表25分 + 議論25分)

近年、柔軟かつ重厚な階層ベイズ的確率モデルが画像・文書・データマイニングバイオインフォマティクス脳科学、行動学など多様なデータの科学の領域で提案されています。これらの一つの潮流に、データ生成に関わる複雑な事物の関係性や時系列性をできる限りありのままに捉えようと試みる向きがあります。大げさに言って現象の数理モデルを追及し現象を説明するといういわゆる「科学」の流れを汲む試みと捉えています。
一方で重厚なモデリングは主に推論に要する計算コストのために、学術寄りの解析、もしくはかなり時間とお金をかけてもいい領域にとどまっているのかもしれません。しかしいくつかの問題が解決されれば、豊富なプロファイルを組み込むことで、より高次の解析を可能にし、日々の解析を向上させる有用な方法になりうると思っています。
今回は最近提案されている確率モデルをご紹介しモデリング技術の向かう先を見つつ
・今、現場の解析で解きたい問題と研究で問題にされる問いとのギャップ
・どのような問題がどれくらいの時間と労力で解けたら実際使えるのか
などを考えていけたらいいなと思います。

  • モデルは使い捨ての時代。
  • ○○はベストは流動的。
    • サービスが変わればデータは変わる。
    • 1サービスに1手法であってもよい。
  • アクティブラーニング: 重要だがラベルのついていないデータを機械から指摘。
  • Causal Inference:原因探し。
  • 興味・関心の割合。User行動を文書であらわす。各行動にトピックがついている。

4. 「Large-Scale Graph Processing」 (講師: [Twitter:@doryokujin]) (発表35分 + 議論35分)

グラフデータの大規模処理はMapReduceモデルよりも効率の良い計算モデルが提案され、BSPをグラフに実装したPregel・Hama等のプロジェクトにおいて実装が進められています。今回はグラフの大規模処理とはどのようなものかをMap ReduceとBSPを比較してお話しします。時間があればGraphLabについてもお話しします

  • BSP: Bulk Synchronous Parallel, 1990-
  • Local Computation 間でMessage Passing。Synchronizationのフェーズも経る。
  • Google Pregel: Graph で BSP Model実装。
    • Directed Graph。頂点がCompute関数を適用。
    • グラフ分割し、各頂点で計算、メッセージ送信する。
    • ネットワーク通信はメッセージのみ。
  • Hama, GoldenOrg, Giraph、Hadoop上で動く。

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果(継続したい良かった点、改善点、次回AGENDA)。
http://www.xmind.net/share/_embed/hamadakoichi/no-14-views-data-mining-web-tokyo-continues-and-you-wan/

推薦文献

Hadoop徹底入門

Hadoop徹底入門

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第14回 データマイニング+WEB 勉強会@東京−大規模分散データマイニング 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第14回 データマイニング+WEB@東京 ( #TokyoWebmining #14)-大規模分散データマイニング 祭り- - Togetter

講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: