第18回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 18th)−大規模分散処理 最前線 祭り− を開催しました

2012/06/09 "第18回 データマイニング+WEB 勉強会@東京−大規模分散処理 最前線 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

参加者Twitter List:Twitter List TokyoWebmining#18 (@horihorioさんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(75分)

進行 :[Twitter:@hamadakoichi]

1.「分散ファイルシステムと分散アプリケーションの研究最新トピックス」 (講師: [Twitter:@nukamu] ) (発表20分 + 議論40分)


複雑なデータマイニングを効率よく行うために、分散ファイルシステムや分散アプリケーションの力を借りることがよくあると思います。今回は分散ファイルシステム周りの話を研究者目線からします。

2.「分散グラフシステムとその周辺」(講師: Twitter:@smly] ) (発表20分 + 議論40分)


発表資料: Distributed Graph System & Related Topics -- TokyoWebMining18

分散グラフシステムの実装やグラフマイニングへの応用についてしゃべります。

  • Edgeデータ規模
    • FacebookのEdge : 1 TB
    • Pregelの想定 : 7.2TB
  • Pregel
  • Open Source実装
  • GIRAPH : http://incubator.apache.org/giraph/
  • 活用
    • 分散すればメモリに乗る場合。
    • Edgeによる処理が多い場合 (少ない場合は GraphDB)。
  • ソーシャルグラフでのABテストの提案
    • L. Backstrom and J. Kleinberg, Network Bucket Testing (WWW 2011) (PDF)
    • 問題の定式化、テストフレームワーク/サンプリング方法の提案
    • テストセットをどうやって作るか
    • 前提:グラフ上で隣接するユーザは同じ行動を行いやすい
    • 目標:全ユーザ展開でどのくらいの影響があるか
    • 確率変数:効果あるか否かの二値変数
    • 和の期待値を知りたい。何人に効果があるか。
    • 分散を小さくする形でつくる。
    • ランダムな始点から適切にランダムウォークする
    • 制約をつける
      • d人以上の友人がいる場合をかんがえる。
      • テストサンプルは多くてもk。
      • core, fringe
        • lu :実際の訪問回数
        • pu : 回数の期待値
        • du : uの頂点時数
    • 最新手法
      • Metroporis
        • 繊維先の時数が多き場合は、次数に従う確率で遷移しない
      • Weighted Walk
        • 重みをつける。
      • Weighted Triangle-closing
    • 重みの並列分散処理が可能
    • ※疑問メモ(今度、質問する):効果とともに、属性、行動特徴等、均等に対象ユーザ分割されるのか?

3.「2chテキストマイニングまとめサイトの自動生成」 ([Twitter:@tkm2261]) (発表20分 + 議論40分)

発表資料: 2chテキストマイニングとまとめサイトの自動生成(Dropbox, PDF) (※Dropbox、期間限定公開です)

日本が誇るビックデータ2chテキストマイニングについて、自動まとめサイトを作った経験を通して発表します。「テキストマイニングに挑戦したいけど・・・」という方に、ハードルを極限まで下げられればと思っています。
サイト: 2ch完全自動まとめブログ

  • 重要なレスだけ抽出
  • 口コミ要約
  • ソース含まれていて、レスに含まれる単語を高くスコアリング
  • アンカー構造、子が抽出されていたら、親も抽出
  • 勢い= 書き込み/時間。敷居値あまり関係なかったので今全部を対象としている。
  • ニュースを対象
  • 8000PV/day。

4.「リアルタイム広告システム最前線」 (講師: [Twitter:@yamaz] ) (発表20分 + 議論40分)

Rtb30min
View more PowerPoint from yamaz2

現在のオンライン広告システムのエコシステムととりまく要素技術についての解説を行います。
(※参考資料: 30分でわかる広告エンジンの作り方 (TokyoWebmining 6th 2010)

  • Real time Bidding
    • impressinごとのオークション
    • オークション開始から広告が来るまで 100ミリ秒くらい
    • SSP(売り手側)
    • DSP(買い手側)
    • 月間 500億回のオークション
    • ビッディング: セカンドプライスオークション
    • ビッディング戦略:適切な価格算定がなにより大事
    • 各種ターゲティング、何でもやる。
      • リターゲティング:あるアクションを行ったユーザに対してターゲティング(広告クリック、サイト来訪、等)
      • 逆リターゲティング:あるアクションを行わないユーザに対してターゲティング(非会員、等)
      • オーディエンス拡張:似たユーザに対して行うことにより、対象を増やす。
      • フリーケンシ―コントロール:広告を見せる回数をコントロール(1日単位、キャンペーン単位)
      • リセンシ―コントロール:一定期間あかないと出さない
    • 配信コントロール
      • クリックレート、予算消化、均等配信、スムーズデリバリング
    • 集計
      • 勝ち負けともに分析
      • ユーザ分析
    • その他話題。
    • アトリビューション分析
      • conversionがなくてもor低くても、別の効果があるのではないかと算出。
    • 日本で6社

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA

http://www.xmind.net/share/_embed/hamadakoichi/no-18-times-mining-web-tokyo-and-want-to-continue-that/

推薦文献

DSP/RTBオーディエンスターゲティング入門 (Next Publishing)

DSP/RTBオーディエンスターゲティング入門 (Next Publishing)

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第18回 データマイニング+WEB 勉強会@東京−大規模分散処理 最前線 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第18回 データマイニング+WEB@東京 ( #TokyoWebmining #18)-大規模分散処理 最前線 祭り- - Togetter

講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: