第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました
2012/05/20 "第17回 データマイニング+WEB 勉強会@東京−分散機械学習・ビジネス展開 祭り−"を開催しました。
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
参加者ID・バックグラウンド一覧:
参加者Twitter List: Twitter List TokyoWebmining#17 (@horihorioさんに感謝)
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(15分)
講師 : id:hamadakoichi [Twitter:@hamadakoichi]
オープニングトーク − 創設の思い・目的・進行方針 −データマイニング+WEB勉強会@東京
O2.「参加者全員自己紹介」(75分)
進行 :[Twitter:@hamadakoichi]
1.「Jubatus Online Recommendation」 (講師: [Twitter:@unnonouno] ) (発表30分 + 議論30分)
リアルタイム・分散処理・機械学習、という3つのキーワードを同時に実現するためのOSS、Jubatusの解説を行います。特に、最近公開された近傍探索(レコメンド)技術に関して解説します。
2.「Optimizing for conversion in display advertising campaigns」 (講師: [Twitter:@tsubosaka] ) (発表30分 + 議論30分)
今年のWSDMで発表された最新の広告コンバージョン最適化の手法について発表する。 なお本発表は4月に行われたWSDM勉強会の内容とほぼ同一となっています。
参考資料:WSDM 2012読み会資料
- 興味の推定
- コンバージョンしたユーザをもとに近いユーザをターゲットとする
- クリック最適化
- コンバージョン最適化
- ユーザの過去の向上履歴からコンバージョン起こしそうなユーザを発見
- コンバージョンを起こしそうなユーザを発見することにより適切な広告配信
- 有無を0, 1で表す
- Landing Pageのテキスト情報を用いる
- どういった単語を持ているユーザがどういう単語の広告コンバージョンしているか
- Merge-based global model
- 一般的にコンバージョンしやすいユーザ
- Interaction-based global model
- 変数選択で次元を下げる
- KLダイバージェンス
- qic: 特徴料i をもったユーザがキャンペーンcにコンバージョンする確率
- qi: 特徴料i をもったユーザがコンバージョンする確率
- SVM, Logistic は正則化定数によって大きく変わる
- NaiveBayesはRobust。
- ユーザの特徴ベクトル。クエリ、サイトキーワード。
- データの期間、4週間。
- Mergeしたけど精度はあまりあがらなかった。
- 負例をサンプリングし、正例と同数での算出
3.「データ分析と企業意思決定 〜ノギスで測り、チョークで印をつけて、斧で切る〜」(講師: @garmy ) (発表30分 + 議論30分)
資料(公開版): データ分析と企業意思決定 〜ノギスで測り、チョークで印をつけて、斧で切る〜
データマイニングはそれ自体が目的ではなく、あくまで企業の様々なレイヤーの意思決定の判断材料を得る手段です。その意思決定にどう活かすのかという課題について、経験談をお話ししながら、アナリスト・エンジニアがどう動くとよりよい仕事が出来るのかを考えたいと考えています。
- 100%の確信がなくてもうごくからこそ成果がでかい。
- 勘や感覚でも事業の醍醐味
- いつもノギスで測った結果を、意思決定者に斧で切られていないか。
- 意思決定者のレイヤー
- 役員レベル:組織ミッションの定義、経営資源の再配分
- 事業部レベル: 商品・サービス戦略
- 部/日常レベル:日々の活動
- 役員
- マッピングし俯瞰する
- グラデーション:チョークで印
- 投資領域の決定:斧
- 事業部
- 重大性(影響度)、発生可能性(頻度)
- 自己認識(問題あり・なし)と結果(事故件数)のマップ
- ほどよく
- 部・日常レベル
- 相手のニーズに会わない場合
- 顧客が感じていることが正しいか、手法が適切か
- 結果の解釈を広げ・緩めるか
- 経営者視点の話題
4.「時系列解析の使い方」 (講師: @horihorio ) (発表30分 + 議論30分)
時系列解析を実際のデータやビジネスに適用する場合には、教科書で学んだ理論体系とは異なった発想の順序や勘所があるのでは?との問題意識と検討中の案を紹介いたします。
- 問題意識
- ビジネス適用を念頭に置いた、時系列解析の考え方、使い方
- 問題設定の立案
- 分析設計
- 時系列分析
- 60データ程度が必要
- 入力も出力も自分自身
- 分析の背景/目的/方法を明確にし、結論を想定する。
- 分析→報告・行動がその場限り: 時系列での検出。
- 分析→報告・行動まで、反復がある:
- →時系列以外の選択肢もあるのでは。状態空間モデル。全体・母集団が変わる場合。
- 状態空間モデル
- イメージ:好景気、不景気、どちらの状態かを決める。
- 多変量時系列モデル: VAR: Vector Auto Regression
- 相互共分散・相関:他変数との影響が先行/一致/遅行なのか分かる
- Granger Causality: Xが起きたことによりYが起きたか、を検定
- データ加工
- 定常時系列への変換
- 差分、対数、平方根への変換。
- 単位根検定、回避方法
- モデリング
- 他資料参照を参照。
- 参考資料:
- RでGarchモデル : @horihorio さんの過去資料
- R言語による時系列分析 : @horihorio さんが何度もオススメしてくれていた hamadakoichi 資料。
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi [Twitter:@hamadakoichi]
参加者全員での振返り結果MindMap
- 継続したい良かった点
- 改善点アクション
- 次回AGENDA
MindMap:
第17回データマイニング+WEB@東京 継続したい点・改善点・次回AGENDA - XMind - Social Brainstorming and Mind Mapping
推薦文献
DSP/RTBオーディエンスターゲティング入門 (Next Publishing)
- 作者: 横山隆治,菅原健一,楳田良輝
- 出版社/メーカー: インプレスR&D
- 発売日: 2012/05/17
- メディア: オンデマンド (ペーパーバック)
- 購入: 4人 クリック: 58回
- この商品を含むブログ (10件) を見る
- 作者: 田中孝文
- 出版社/メーカー: シーエーピー出版
- 発売日: 2008/06/01
- メディア: 単行本
- 購入: 12人 クリック: 113回
- この商品を含むブログ (19件) を見る
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (64件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (277件) を見る
関連ツイート(Togetter)
「第17回 データマイニング+WEB 勉強会@東京−分散機械学習・ビジネス展開 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第17回 データマイニング+WEB@東京 ( #TokyoWebmining #17)-分散機械学習・ビジネス展開 祭り- - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog
- 第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました - hamadakoichi blog
- 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました - hamadakoichi blog
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog