第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました
2011/11/27 "第16回 データマイニング+WEB 勉強会@東京−リアルタイム分散 Web解析・自然言語処理 祭り−"を開催しました。
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(15分)
講師 : id:hamadakoichi [Twitter:@hamadakoichi]
オープニングトーク − 創設の思い・目的・進行方針 −データマイニング+WEB勉強会@東京
O2.「参加者全員自己紹介」(75分)
進行 :[Twitter:@hamadakoichi]
1.「Kafka によるリアルタイム分散処理」 (講師: [Twitter:@yanaoki] ) (発表30分 + 議論30分)
- リアルタイム分散処理
- Facebook Insights
- PUMA (Scribe/HDFS/ pTail/HBase/Thrift)
- Twitter
- Rainbird(ZooKeeper/Cassandra)
- Storm (Zookeeper)
- Google Analytics
- 非公開
- Linkedin
- Kafka (ZooKeeper)
- ランキング、関連情報
- 検索インデクスへ反映
- ユーザー数1億以上
- Kafka
- Kafkaの動作
- プロデューサ、ブローカ、コンシューマ、ZooKeepr
- コンシューマからブローカにデータを取りに行くことでPeformanceを維持。メッセージ処理の状態をコンシューマが持つ。
- メッセージ設計
- Publish : メッセージがブロデューサによって作られ、ブローカに「トピック」として公開
- Subscribe: 要求のみで応答の同期は行わない
- コンシューマグループ定義しておく。
- コンシューマはパーティションを処理する
- コンシューマはどのトピックを処理するか決めておく
- 難しい処理はコンシューマ
2.「データマイニング現場 24時」 (講師: [Twitter:@kan_yukiko])(発表30分 + 議論30分)
- データマイニング現場
- レコメンドエンジン
- レコメンドエンジンのチューニングとそれに必要なデータ分析
- 顧客からの分析依頼対応
- 100万以上〜
- 感性
- セレンティビティはどうか
- コンサルティング
- 大規模: 商品点数 80万〜100万点、ユーザー 400〜500万人
- 広告配信最適化のためのデータマイニング
- どのAdnetworkにどのタイミングで、どの広告を出していけばいいのか
- 超大規模データ、変数多数、リアルタイム性
- その他一切
- マーケティングリサーチ結果の分析
- レコメンドアルゴリズム等の研究開発
- 直観やひらめきを行うにはどうすればいいか
- 分析対象・データに対する理解を深める
- 分析手法についての理解
- 結果に対する判断力
- 想定外の結果が出たときにこそ、何かあるのではないか。
- 大胆に変える
- データ形式を変える
- 1/0 データ ⇔ n/0 データ
- 顧客がカテゴリごとに、購入したか否か (1/0) ⇒何個購入しているか(n/0)。
- カテゴリごとの分布をみると偏りすぎている。
- 集計データを用いた分析
- Matrix変換。全購入アイテム、個々の購入アイテムごと。
- 商品ID単位の集計ではなく1レイヤー、2レイヤー上での分析
- アイテム間関係ではあらわれないが、アイテムのカテゴリ間では共起が見える。
- 分析に耐えうるデータでないばあ、データ階層を変える
- タグが2000種類があるが、ほとんどのタグが
- ⇒タグを分析し、意味があり履歴数が一定以上になるよう階層構造を持たせるデータに変換し考える。
- ジャンル⇒大ジャンル。意味に整合性があるかを判断。商品カテゴリ⇒大商品カテゴリのルールを人手で作ってみる。
- ジャンル推定。オントロジー。
- 大ジャンルレベルでの推薦: おむつ ⇒ ビール
- Category, Taste, Brand (CTB) 分析
- 新カテゴリが生まれたとき。今までの大ジャンルへの追加か、新大ジャンルを作る。
- データ形式を変える
- ソリューションとして提供できるか
- 事例紹介
- 買ってくれるお客さんはどんな人
- Frequency Monetery:ロイヤルカスタマー分析
- 「優良顧客になるきっかけになるアイテム」
- 顧客別の購入金額で上位 20%を優良とみなし、どのカテゴリを購入しているか
- 顧客別の購入金額で下位 20%が、どのカテゴリを購入しているか
- 購入タイミングの分析
- ライトタイムマーケティング
- 最適な顧客に最適商品を最適なタイミング・チャネルで送る。
- 過去の購入からこの秋になにが売れるかの流行を予測。
- 気づけた新カテゴリ:衛生商品が売れる。
- カテゴリごとに優良顧客定義。ステップアップを追うステップの区分は決め。
- 短期間に複数回購入されるカテゴリ
- 短期間に複数回購入のないカテゴリ
- ⇒それぞれに合う推薦方法
- データ分析ビジネス
- お客さまの課題
- データはあるが分析できない。
- データ量が多すぎる/分析者がいない/難しそう ⇒顧客分析、商品分析レポート
- 分析結果からのアクションが思いつかない ⇒分析結果の再検証、ソリューション提供
- 分析負荷が高いのでアウトソースしたい。
- データはあるが分析できない。
- 施策に活かされやすい分析
3「機械学習を使った英語習熟度の推定」 (講師: [Twitter:@langstat]) (発表30分 + 議論30分)
参考文献:
- 作者: シルヴィアン・グレンジャー,望月通子,船城道雄
- 出版社/メーカー: 研究社
- 発売日: 2008/02/28
- メディア: 単行本(ソフトカバー)
- クリック: 2回
- この商品を含むブログ (4件) を見る
- 作者: 金明哲
- 出版社/メーカー: 岩波書店
- 発売日: 2009/04/28
- メディア: 単行本
- 購入: 4人 クリック: 93回
- この商品を含むブログ (12件) を見る
- 研究の思い
- 習熟度の推定
- 文書と習熟度の教師データ
- コンテキストに応じた
- 学習者コーパス
- なにが変化していくか
- 説明変数(単語や文法項目の頻度など)を特定
- 結果変数(習熟度)を判定
- 英語科学論文、適切な表現が用いられているか
- Random Forestを用いた
4. 「テキストマイニングで発掘!?売上とユーザーレビューの相関分析」 (講師: @stakemura ) (発表30分 + 議論30分)
参考文献:
- 作者: 三室克哉,鈴村賢治,神田晴彦
- 出版社/メーカー: オーム社
- 発売日: 2007/05
- メディア: 単行本
- 購入: 1人 クリック: 10回
- この商品を含むブログ (3件) を見る
- 評判分析による予測
- 既存のタイトルがどのくらい伸びるか。ユーザーのレビュー情報のテキストマイニングから予測。
- 評判分析
- ある文章からこの文章が肯定的なのか否定的なのか判別する
- レイティングはバイアスが大きい。
- Sponge Bob Effect
- オスカーよりドラマのSponge Bobのレイティングが高い。認知度が低いものは、熱狂的な少数の人の好評価の影響を大きく受ける。
- OSSを活用し評判分析を行う
- 辞書作成を自動化する
- 採点済のユーザーレビューから、教師あり学習
- Lucene
- ベクトル空間モデル
- Naive Bayes vs 最大エントロピー法:
- Ngram: Unigram から 4-gram。Unigramが一番だった。Trigram以上がスパース過ぎた。
- どのキーワードが
- BM25
- ユーザーの複数評価
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi [Twitter:@hamadakoichi]
参加者全員での振返り結果MindMap
- 継続したい良かった点
- 改善点アクション
- 次回AGENDA
MindMap: http://bit.ly/u0RiYN
推薦文献
- 作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗
- 出版社/メーカー: 翔泳社
- 発売日: 2011/01/28
- メディア: 大型本
- 購入: 14人 クリック: 668回
- この商品を含むブログ (43件) を見る
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (64件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (277件) を見る
関連ツイート(Togetter)
「第16回 データマイニング+WEB 勉強会@東京−リアルタイム分散 Web解析・自然言語処理 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第16回 データマイニング+WEB@東京 ( #TokyoWebmining #16)-リアルタイム分散 Web解析・自然言語処理 祭り- - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました - hamadakoichi blog
- 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました - hamadakoichi blog
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog