2012-05-20

2012/05/20 "第17回データマイニング+WEB 勉強会＠東京−分散機械学習・ビジネス展開祭り−"を開催しました。

会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧：

参加者Twitter List: Twitter List TokyoWebmining#17 (@horihorioさんに感謝）

以下、全講師資料、関連資料、ツイートまとめです。

AGENDA：

■Opening Talk：

O1.「データマイニング+WEB勉強会＠東京について」(15分)

講師： id:hamadakoichi [Twitter:@hamadakoichi]

オープニングトーク − 創設の思い・目的・進行方針 −データマイニング+WEB勉強会＠東京

View more presentations from Koichi Hamada

O2.「参加者全員自己紹介」(75分)

進行：[Twitter:@hamadakoichi]

1.「Jubatus Online Recommendation」 (講師： [Twitter:@unnonouno] ) (発表30分 + 議論30分)

Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17

View more presentations from Yuya Unno

リアルタイム・分散処理・機械学習、という3つのキーワードを同時に実現するためのOSS、Jubatusの解説を行います。特に、最近公開された近傍探索（レコメンド）技術に関して解説します。

Jubatus
- リアルタイム、分散、深い解析
- 展望：5分前のTV番組影響を反映した広告推薦等
- 高レスポンス
- 分散
- 機械学習
- update/ analyze/ mix の処理分割で効率のよいアルゴリズムをJubatusのスコープとする。
- model部分は現在、C++のみ。
- 他言語でも実装可能にするとより普及広がるのでは？→今後の社内会議で他言語の実装も検討する( @unnnonouno さん)。
Jubatus Recommendation 近傍探索
- 近傍探索
- F(q, p) が高い
- 類似度：cosine: 余弦, Jaccard:共通項目
- 転置インデクス
  - 疎行列と疎ベクトルの内積計算
  - 転置インデクスを
- LSH(Local Sensitive Hashing)
  - cosine類似度の近似計算
  - vector x に対して、ランダムベクトル{r1, .., rk}との内積の正負を計算 H(x) = {sign(xT r1), …, sign(xT, rk)}
  - H(x)だけ保存すればよいので1データあたりkビット
  - メモリ効率向上
- minHash
  - Jaccord係数の近似計算
  - ハッシュ関数を複数用意したとき m(X)=m(Y) となる回数を数えるとJacc(X,Y)に収束する。
  - ハッシュ関数の適切な数、データ量に依存 : Jubatus では今、64で固定。今後パラメータ化。
  - メモリ効率向上
  - 重み付きJaccord係数：重みで割り算出。
- 差分更新、Mix、までモデル更新。結構重い。
- Real time レコメンドが高効果想定のユースケース: 広告配信、異常検知。

2.「Optimizing for conversion in display advertising campaigns」 (講師: [Twitter:@tsubosaka] ) (発表30分 + 議論30分)

Tokyowebmining2012

View more presentations from tsubosaka

今年のWSDMで発表された最新の広告コンバージョン最適化の手法について発表する。なお本発表は4月に行われたWSDM勉強会の内容とほぼ同一となっています。
参考資料：WSDM 2012読み会資料

興味の推定
コンバージョンしたユーザをもとに近いユーザをターゲットとする
クリック最適化
コンバージョン最適化
ユーザの過去の向上履歴からコンバージョン起こしそうなユーザを発見
コンバージョンを起こしそうなユーザを発見することにより適切な広告配信
有無を0, 1で表す
Landing Pageのテキスト情報を用いる
どういった単語を持ているユーザがどういう単語の広告コンバージョンしているか
Merge-based global model
- 一般的にコンバージョンしやすいユーザ
Interaction-based global model
変数選択で次元を下げる
- KLダイバージェンス
- qic: 特徴料i をもったユーザがキャンペーンcにコンバージョンする確率
- qi: 特徴料i をもったユーザがコンバージョンする確率
SVM, Logistic は正則化定数によって大きく変わる
NaiveBayesはRobust。
ユーザの特徴ベクトル。クエリ、サイトキーワード。
データの期間、４週間。
Mergeしたけど精度はあまりあがらなかった。
負例をサンプリングし、正例と同数での算出

話題にあがった本: DSP/RTBオーディエンスターゲティング入門 (Next Publishing)

3.「データ分析と企業意思決定　〜ノギスで測り、チョークで印をつけて、斧で切る〜」(講師: @garmy ) (発表30分 + 議論30分)

資料（公開版）：データ分析と企業意思決定　〜ノギスで測り、チョークで印をつけて、斧で切る〜

データマイニングはそれ自体が目的ではなく、あくまで企業の様々なレイヤーの意思決定の判断材料を得る手段です。その意思決定にどう活かすのかという課題について、経験談をお話ししながら、アナリスト・エンジニアがどう動くとよりよい仕事が出来るのかを考えたいと考えています。

100%の確信がなくてもうごくからこそ成果がでかい。
勘や感覚でも事業の醍醐味
いつもノギスで測った結果を、意思決定者に斧で切られていないか。
意思決定者のレイヤー
- 役員レベル：組織ミッションの定義、経営資源の再配分
- 事業部レベル: 商品・サービス戦略
- 部/日常レベル：日々の活動
役員
- マッピングし俯瞰する
- グラデーション：チョークで印
- 投資領域の決定：斧
事業部
- 重大性（影響度）、発生可能性（頻度）
- 自己認識（問題あり・なし）と結果（事故件数）のマップ
- ほどよく
部・日常レベル
- 相手のニーズに会わない場合
- 顧客が感じていることが正しいか、手法が適切か
- 結果の解釈を広げ・緩めるか
- 経営者視点の話題

4.「時系列解析の使い方」 (講師: @horihorio ) (発表30分 + 議論30分)

時系列解析を実際のデータやビジネスに適用する場合には、教科書で学んだ理論体系とは異なった発想の順序や勘所があるのでは？との問題意識と検討中の案を紹介いたします。

How to use TimeSeries - TokyoWebMining #17

View more presentations from horihorio

問題意識
- ビジネス適用を念頭に置いた、時系列解析の考え方、使い方
問題設定の立案
- 分析設計
- 時系列分析
- 60データ程度が必要
- 入力も出力も自分自身
- 分析の背景／目的／方法を明確にし、結論を想定する。
- 分析→報告・行動がその場限り: 時系列での検出。
- 分析→報告・行動まで、反復がある:
  - →時系列以外の選択肢もあるのでは。状態空間モデル。全体・母集団が変わる場合。
- 状態空間モデル
  - イメージ：好景気、不景気、どちらの状態かを決める。
- 多変量時系列モデル: VAR: Vector Auto Regression
  - 相互共分散・相関：他変数との影響が先行／一致／遅行なのか分かる
  - Granger Causality: Xが起きたことによりYが起きたか、を検定
- データ加工
  - 定常時系列への変換
  - 差分、対数、平方根への変換。
  - 単位根検定、回避方法
- モデリング
  - 他資料参照を参照。
  - 参考資料：
  - RでGarchモデル : @horihorio さんの過去資料
  - R言語による時系列分析 : @horihorio さんが何度もオススメしてくれていた hamadakoichi 資料。

■声・議論：

D. 「参加者の声・ディスカッション」 (60分)

進行： id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

継続したい良かった点
改善点アクション
次回AGENDA

MindMap:
第17回データマイニング+WEB＠東京継続したい点・改善点・次回AGENDA - XMind - Social Brainstorming and Mind Mapping

講師募集

データマイニング+WEB勉強会＠東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。

連絡先：

hamadakoichi blog