第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました

2012/05/20 "第17回 データマイニング+WEB 勉強会@東京−分散機械学習・ビジネス展開 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

参加者Twitter List: Twitter List TokyoWebmining#17 (@horihorioさんに感謝)

以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(75分)

進行 :[Twitter:@hamadakoichi]

1.「Jubatus Online Recommendation」 (講師: [Twitter:@unnonouno] ) (発表30分 + 議論30分)

リアルタイム・分散処理・機械学習、という3つのキーワードを同時に実現するためのOSS、Jubatusの解説を行います。特に、最近公開された近傍探索(レコメンド)技術に関して解説します。

  • Jubatus
    • リアルタイム、分散、深い解析
    • 展望:5分前のTV番組影響を反映した広告推薦 等
    • 高レスポンス
    • 分散
    • 機械学習
    • update/ analyze/ mix の処理分割で効率のよいアルゴリズムをJubatusのスコープとする。
    • model部分は現在、C++のみ。
    • 他言語でも実装可能にするとより普及広がるのでは?→今後の社内会議で 他言語の実装も検討する( @unnnonouno さん)。
  • Jubatus Recommendation 近傍探索
    • 近傍探索
    • F(q, p) が高い
    • 類似度:cosine: 余弦, Jaccard:共通項目
    • 転置インデクス
      • 疎行列と疎ベクトルの内積計算
      • 転置インデクスを
    • LSH(Local Sensitive Hashing)
      • cosine類似度の近似計算
      • vector x に対して、ランダムベクトル{r1, .., rk}との内積の正負を計算 H(x) = {sign(xT r1), …, sign(xT, rk)}
      • H(x)だけ保存すればよいので1データあたりkビット
      • メモリ効率向上
    • minHash
      • Jaccord係数の近似計算
      • ハッシュ関数を複数用意したとき m(X)=m(Y) となる回数を数えるとJacc(X,Y)に収束する。
      • ハッシュ関数の適切な数、データ量に依存 : Jubatus では今、64で固定。今後パラメータ化。
      • メモリ効率向上
      • 重み付きJaccord係数:重みで割り算出。
    • 差分更新、Mix、までモデル更新。結構重い。
    • Real time レコメンドが高効果想定のユースケース: 広告配信、異常検知。

2.「Optimizing for conversion in display advertising campaigns」 (講師: [Twitter:@tsubosaka] ) (発表30分 + 議論30分)

今年のWSDMで発表された最新の広告コンバージョン最適化の手法について発表する。 なお本発表は4月に行われたWSDM勉強会の内容とほぼ同一となっています。
参考資料:WSDM 2012読み会資料

  • 興味の推定
  • コンバージョンしたユーザをもとに近いユーザをターゲットとする
  • クリック最適化
  • コンバージョン最適化
  • ユーザの過去の向上履歴からコンバージョン起こしそうなユーザを発見
  • コンバージョンを起こしそうなユーザを発見することにより適切な広告配信
  • 有無を0, 1で表す
  • Landing Pageのテキスト情報を用いる
  • どういった単語を持ているユーザがどういう単語の広告コンバージョンしているか
  • Merge-based global model
    • 一般的にコンバージョンしやすいユーザ
  • Interaction-based global model
  • 変数選択で次元を下げる
    • KLダイバージェンス
    • qic: 特徴料i をもったユーザがキャンペーンcにコンバージョンする確率
    • qi: 特徴料i をもったユーザがコンバージョンする確率
  • SVM, Logistic は正則化定数によって大きく変わる
  • NaiveBayesはRobust。
  • ユーザの特徴ベクトル。クエリ、サイトキーワード。
  • データの期間、4週間。
  • Mergeしたけど精度はあまりあがらなかった。
  • 負例をサンプリングし、正例と同数での算出

話題にあがった本: DSP/RTBオーディエンスターゲティング入門 (Next Publishing)

3.「データ分析と企業意思決定 〜ノギスで測り、チョークで印をつけて、斧で切る〜」(講師: @garmy ) (発表30分 + 議論30分)

資料(公開版): データ分析と企業意思決定 〜ノギスで測り、チョークで印をつけて、斧で切る〜

データマイニングはそれ自体が目的ではなく、あくまで企業の様々なレイヤーの意思決定の判断材料を得る手段です。その意思決定にどう活かすのかという課題について、経験談をお話ししながら、アナリスト・エンジニアがどう動くとよりよい仕事が出来るのかを考えたいと考えています。

  • 100%の確信がなくてもうごくからこそ成果がでかい。
  • 勘や感覚でも事業の醍醐味
  • いつもノギスで測った結果を、意思決定者に斧で切られていないか。
  • 意思決定者のレイヤー
    • 役員レベル:組織ミッションの定義、経営資源の再配分
    • 事業部レベル: 商品・サービス戦略
    • 部/日常レベル:日々の活動
  • 役員
    • マッピングし俯瞰する
    • グラデーション:チョークで印
    • 投資領域の決定:斧
  • 事業部
    • 重大性(影響度)、発生可能性(頻度)
    • 自己認識(問題あり・なし)と結果(事故件数)のマップ
    • ほどよく
  • 部・日常レベル
    • 相手のニーズに会わない場合
    • 顧客が感じていることが正しいか、手法が適切か
    • 結果の解釈を広げ・緩めるか
    • 経営者視点の話題

4.「時系列解析の使い方」 (講師: @horihorio ) (発表30分 + 議論30分)

時系列解析を実際のデータやビジネスに適用する場合には、教科書で学んだ理論体系とは異なった発想の順序や勘所があるのでは?との問題意識と検討中の案を紹介いたします。

  • 問題意識
    • ビジネス適用を念頭に置いた、時系列解析の考え方、使い方
  • 問題設定の立案
    • 分析設計
    • 時系列分析
    • 60データ程度が必要
    • 入力も出力も自分自身
    • 分析の背景/目的/方法を明確にし、結論を想定する。
    • 分析→報告・行動がその場限り: 時系列での検出。
    • 分析→報告・行動まで、反復がある:
      • →時系列以外の選択肢もあるのでは。状態空間モデル。全体・母集団が変わる場合。
    • 状態空間モデル
      • イメージ:好景気、不景気、どちらの状態かを決める。
    • 多変量時系列モデル: VAR: Vector Auto Regression
      • 相互共分散・相関:他変数との影響が先行/一致/遅行なのか分かる
      • Granger Causality: Xが起きたことによりYが起きたか、を検定
    • データ加工
      • 定常時系列への変換
      • 差分、対数、平方根への変換。
      • 単位根検定、回避方法
    • モデリング

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA

MindMap:
第17回データマイニング+WEB@東京 継続したい点・改善点・次回AGENDA - XMind - Social Brainstorming and Mind Mapping


推薦文献

DSP/RTBオーディエンスターゲティング入門 (Next Publishing)

DSP/RTBオーディエンスターゲティング入門 (Next Publishing)

Rによる時系列分析入門

Rによる時系列分析入門

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第17回 データマイニング+WEB 勉強会@東京−分散機械学習・ビジネス展開 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第17回 データマイニング+WEB@東京 ( #TokyoWebmining #17)-分散機械学習・ビジネス展開 祭り- - Togetter


講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: