第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました

2011/11/27 "第16回 データマイニング+WEB 勉強会@東京−リアルタイム分散 Web解析・自然言語処理 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(75分)

進行 :[Twitter:@hamadakoichi]

1.「Kafka によるリアルタイム分散処理」 (講師: [Twitter:@yanaoki] ) (発表30分 + 議論30分)

リアルタイム分析が流行しつつあるなかで、先発のミドルウェアであるkafkaがどう設計・実装・応用されているかご紹介します。Hadoopとの連携に関しても紹介したいと思います。

  • リアルタイム分散処理
  • Facebook Insights
    • PUMA (Scribe/HDFS/ pTail/HBase/Thrift)
  • Twitter
    • Rainbird(ZooKeeper/Cassandra)
    • Storm (Zookeeper)
  • Google Analytics
    • 非公開
  • Linkedin
    • Kafka (ZooKeeper)
    • ランキング、関連情報
    • 検索インデクスへ反映
    • ユーザー数1億以上
  • Kafka
    • Scalaで書かれている
    • 2010/11 Source公開
    • 2011/07 Apache インキュベータプロジェクト
  • Kafkaの動作
    • プロデューサ、ブローカ、コンシューマ、ZooKeepr
    • コンシューマからブローカにデータを取りに行くことでPeformanceを維持。メッセージ処理の状態をコンシューマが持つ。
    • メッセージ設計
    • Publish : メッセージがブロデューサによって作られ、ブローカに「トピック」として公開
    • Subscribe: 要求のみで応答の同期は行わない
    • コンシューマグループ定義しておく。
      • コンシューマはパーティションを処理する
      • コンシューマはどのトピックを処理するか決めておく
      • 難しい処理はコンシューマ

2.「データマイニング現場 24時」 (講師: [Twitter:@kan_yukiko])(発表30分 + 議論30分)

Web解析・実際のデータマイニングの現場で行っている各種工夫をお話しします。ALBERTの最新分析事例や直感やひらめきの方法論、それらが重要な分析パターンも含め、赤裸々にお話しします。

  • データマイニング現場
  • レコメンドエンジン
    • レコメンドエンジンのチューニングとそれに必要なデータ分析
    • 顧客からの分析依頼対応
    • 100万以上〜
    • 感性
    • セレンティビティはどうか
  • コンサルティング
    • 大規模: 商品点数 80万〜100万点、ユーザー 400〜500万人
  • 広告配信最適化のためのデータマイニング
    • どのAdnetworkにどのタイミングで、どの広告を出していけばいいのか
    • 超大規模データ、変数多数、リアルタイム性
  • その他一切
  • 直観やひらめきを行うにはどうすればいいか
    1. 分析対象・データに対する理解を深める
    2. 分析手法についての理解
    3. 結果に対する判断力
      • 想定外の結果が出たときにこそ、何かあるのではないか。
  • 大胆に変える
    • データ形式を変える
      • 1/0 データ ⇔ n/0 データ
      • 顧客がカテゴリごとに、購入したか否か (1/0) ⇒何個購入しているか(n/0)。
      • カテゴリごとの分布をみると偏りすぎている。
    • 集計データを用いた分析
      • Matrix変換。全購入アイテム、個々の購入アイテムごと。
    • 商品ID単位の集計ではなく1レイヤー、2レイヤー上での分析
      • アイテム間関係ではあらわれないが、アイテムのカテゴリ間では共起が見える。
    • 分析に耐えうるデータでないばあ、データ階層を変える
      • タグが2000種類があるが、ほとんどのタグが
      • ⇒タグを分析し、意味があり履歴数が一定以上になるよう階層構造を持たせるデータに変換し考える。
      • ジャンル⇒大ジャンル。意味に整合性があるかを判断。商品カテゴリ⇒大商品カテゴリのルールを人手で作ってみる。
      • ジャンル推定。オントロジー
      • 大ジャンルレベルでの推薦: おむつ ⇒ ビール
      • Category, Taste, Brand (CTB) 分析
      • 新カテゴリが生まれたとき。今までの大ジャンルへの追加か、新大ジャンルを作る。
  • ソリューションとして提供できるか
  • 事例紹介
  • 買ってくれるお客さんはどんな人
    • Frequency Monetery:ロイヤルカスタマー分析
    • 「優良顧客になるきっかけになるアイテム」
    • 顧客別の購入金額で上位 20%を優良とみなし、どのカテゴリを購入しているか
    • 顧客別の購入金額で下位 20%が、どのカテゴリを購入しているか
  • 購入タイミングの分析
    • ライトタイムマーケティング
    • 最適な顧客に最適商品を最適なタイミング・チャネルで送る。
    • 過去の購入からこの秋になにが売れるかの流行を予測。
    • 気づけた新カテゴリ:衛生商品が売れる。
    • カテゴリごとに優良顧客定義。ステップアップを追うステップの区分は決め。
    • 短期間に複数回購入されるカテゴリ
    • 短期間に複数回購入のないカテゴリ
    • ⇒それぞれに合う推薦方法
  • データ分析ビジネス
  • お客さまの課題
    • データはあるが分析できない。
      • データ量が多すぎる/分析者がいない/難しそう ⇒顧客分析、商品分析レポート
      • 分析結果からのアクションが思いつかない ⇒分析結果の再検証、ソリューション提供
      • 分析負荷が高いのでアウトソースしたい。
  • 施策に活かされやすい分析

3「機械学習を使った英語習熟度の推定」 (講師: [Twitter:@langstat]) (発表30分 + 議論30分)

所謂「英語力」のような言語習熟度の自動判定は、機械学習パターン認識による分類問題に帰着します。ただ、その際に問題となるのは、どのような言語的特徴を素性として用いるかという点です。今回は、主に、談話表現に注目した分析例をご紹介します。
参考文献:
英語学習者コーパス入門 SLAとコーパス言語学の出会い

英語学習者コーパス入門 SLAとコーパス言語学の出会い

  • 作者: シルヴィアン・グレンジャー,望月通子,船城道雄
  • 出版社/メーカー: 研究社
  • 発売日: 2008/02/28
  • メディア: 単行本(ソフトカバー)
  • クリック: 2回
  • この商品を含むブログ (4件) を見る
テキストデータの統計科学入門

テキストデータの統計科学入門

  • 研究の思い
  • 習熟度の推定
    • 文書と習熟度の教師データ
  • コンテキストに応じた
  • 学習者コーパス
  • なにが変化していくか
  • 説明変数(単語や文法項目の頻度など)を特定
  • 結果変数(習熟度)を判定
  • 英語科学論文、適切な表現が用いられているか
  • Random Forestを用いた

4. 「テキストマイニングで発掘!?売上とユーザーレビューの相関分析」 (講師: @stakemura ) (発表30分 + 議論30分)

売上予測やニーズ分析に、非定型データであるクチコミを活用するのは大変難しい課題ですが、果敢に取り組んでいる研究もあります。今回は、そんな予測の要となる技術である評判分析について軽くお話します。
参考文献:
顧客の声マネジメント―テキストマイニングで本音を「見る」

顧客の声マネジメント―テキストマイニングで本音を「見る」

  • 評判分析による予測
  • 既存のタイトルがどのくらい伸びるか。ユーザーのレビュー情報のテキストマイニングから予測。
  • 評判分析
    • ある文章からこの文章が肯定的なのか否定的なのか判別する
    • レイティングはバイアスが大きい。
  • Sponge Bob Effect
    • オスカーよりドラマのSponge Bobのレイティングが高い。認知度が低いものは、熱狂的な少数の人の好評価の影響を大きく受ける。
  • OSSを活用し評判分析を行う
  • 辞書作成を自動化する
  • 採点済のユーザーレビューから、教師あり学習
  • Lucene
  • ベクトル空間モデル
  • Naive Bayes vs 最大エントロピー法:
  • Ngram: Unigram から 4-gram。Unigramが一番だった。Trigram以上がスパース過ぎた。
  • どのキーワードが
  • BM25
  • ユーザーの複数評価

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA

MindMap: http://bit.ly/u0RiYN


推薦文献

Hadoop徹底入門

Hadoop徹底入門

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第16回 データマイニング+WEB 勉強会@東京−リアルタイム分散 Web解析・自然言語処理 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第16回 データマイニング+WEB@東京 ( #TokyoWebmining #16)-リアルタイム分散 Web解析・自然言語処理 祭り- - Togetter

講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: