第25回データマイニング+WEB＠東京( #TokyoWebmining 25th) −大規模分散高速解析・ユーザ徹底理解祭り− を開催しました

2013/3/23 "第25回データマイニング+WEB＠東京−大規模分散高速解析・ユーザ徹底理解祭り−"を開催しました。

会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧：

参加者Twitter List: Twitter List TokyoWebmining 25th
参加者セキココ：第25回データマイニング+WEB ＠東京セキココ
(作成してくれた @komiya_atsushi さんに感謝）

以下、全講師資料、関連資料、ツイートまとめです。

AGENDA：

■Opening Talk：

O1.「データマイニング+WEB勉強会＠東京について」(15分)

講師： id:hamadakoichi [Twitter:@hamadakoichi]

オープニングトーク − 創設の思い・目的・進行方針　−データマイニング+WEB勉強会＠東京 from Koichi Hamada

O2.「参加者全員自己紹介」(75分)

進行：[Twitter:@hamadakoichi]

「カジュアルにHadoop」 (講師: @teruu ) (発表20分 + 議論35分)

TokyoWebminig カジュアルなHadoop from Teruo Kawasaki

Amazon Elastic MapReduceを利用したお手軽Hadoop入門に関し、お話しします。

Amazon AWSの設定方法
接続・利用方法
Hive概要
WebHive
AWS でのHive 環境

※今回特別に、議論時間の中で @iakiyama さんから「Hadoop 活用最前線の○○xx」の数字もお見せ頂けました！(非公開)" 基地外と言われ続けた用法が、実運用になり始めた軌跡と、奇跡を少しだけ紹介します" (@iakiyama)

「Impala 徹底入門 -データサイエンティストのための高速大規模分散基盤- 」 (講師: @shiumachi ) (発表25分 + 議論30分)

Impala データサイエンティストのための高速大規模分散基盤 #tokyowebmining from Sho Shimauchi

Impalaに関しデモを踏まえ説明致します。

Impala: アフリカにしかいない
速い Hive: 10倍〜30倍。悪くても 2〜3倍。
デモ
- 5億行 select count(*) : Hive37分、Impala 3-4秒。
- 5億行 group by : Hive40分、Impala 17秒。143倍。
Cloudera Manager構築簡単
Impara メタデータ更新後 refresh 必要。impala shellでやる。
どんなデータ規模、どんなデータサイズ
Imparaアーキテクチャ特徴
- Hiveと異なり、直接 Slave にアクセスする
- Impala SQL : 現時点では DMLのみサポート
- 機能制限
- Join : Hash Join。大規模データにJoinする対象のテーブルはマスタ等の１ノードの上メモリにのる量に限られる。Join前に集計しておけば何段階でもJoin可能。将来、撤廃される。
賢い使い方: Hiveと共存。１次分析はImpala、定常集計
課題

「レコメンデーション運用の視点〜赤裸々な24時のすべて〜」(講師: @hid_tanaka ) (発表25分 + 議論30分)

レコメンドエンジンASP運用の現場でおきる様々な事件・出来事を赤裸々にお話ししします。

資料：講師公開後、追記します（広報チェック後に公開）

参考URL: Logreco（ログレコ）

WEBレコメンド
導入作業(3週間): 仕様決定、ログ収集タグ発行・設定、商品データ連携、ログ収集、表示タグ発行・設定テスト、表示開始
導入箇所：
- 商品詳細：この商品を見たしとはこんな商品も見ています。
- カートor購買：こんな商品を勝った人はこんな商品も勝っています
- Topページ：あなたにおすすめ（最近チェックした商品から）、最近チェックした商品（効果高い）
市場
- 国内市場では飽和状態
- ECのデフォルト機能として標準装備や、安価なサービスがある
- 月額10万。メール、リターゲティングのマルチチャネル拡大。ハイクラス。
コンペ事例
- 2ヶ月ABテストで、数社ロジック出し分け、売上げでコンペ
- 行った施策：短期の勝負
  - 購買から・閲覧から、の双方のレコメンドの重複商品を削除
  - カートページのキー商品(推薦の元データ) を10件から、2件へ(最近の購入から推薦)
  - 詳細ページ購買ログベースに、閲覧ルール補填（数を増やす）
  - 推薦結果の中から低評価商品の除外
  - 価格フィルタリング(1000円未満表示を禁止) (売上げをあげる)
  - アイテムの所属カテゴリ別に、カテゴリ優先ルール適用（アイテムレベルではなく、カテゴリのベースでも）
  - アイテムの所属カテゴリ別に、カテゴリ禁止ルール適用（女性下着を買った人には、男性下着は出さない）
  - カテゴリベースでも
- 凄く効いた
  - カテゴリ間共起
  - 購買レコメンドに閲覧レコメンド混ぜる
- 案件獲得後の展開
  - 重複排除
  - 優待会員ページでのレコメンド稼働開始
  - サーバー専用化
  - 詳細ページの表示件数を25件に低下
- 海外
  - 韓国: 最大級のコマースサイト、アパレル専門大手サイト
  - 韓国では自社開発がほとんど。商習慣・言語の違い。３日後導入したい。
  - 連絡なしのいきなり表示開始でサーバが死にかけた
- トラブルになりやすい
  - インフラ：多数クライアントを複数サーバを上長かしてリアルタイム管理している
  - クライアント連携：レコメンド表示・商品データの連携等、クライアントに作業してもらう。
チューニング
- 表示クリエイティブ調整：ページ内表示個所、タイトルデザイン、表示件数、表示項目（価格産む等）
- ロジック指数チューニング：季節変動、商品改廃の激しい商品の場合：売れ筋商品の出力比率Up
- ログ参照期間：長い(直近90日) 、メリット：長期間のログを参照するため多くの商品にルールが関連づけられる。ニッチ商品も入れられる。
- ログ参照期間：短い(直近14日) 、メリット：流行商品が推薦されやすい。商品改廃頻度の高い商品の傾向をとらえられる（春もの、夏もの、入れ替わり）
- 効果感：ロジック、参照期間。ニッチ。
分析
- ユーザクラスタリング：レコメンド、メール、コールセンター等、クラスタごとに興味を持たれやすい商品を提供
- RFM分析・ロイヤルカスタマー分析：優良顧客の特徴(コピー用紙を買う、安めの設定で定期的に買う、等)を分析し、ロイヤルカスタマー化を推進。ロイヤル良く買っている商品を推薦する。
- 季節トレンド分析：各ユーザが近い将来、購入しやすい
- カテゴリ間共起分析：クロスセル
- リピート商材購買頻度分析：前の購入から、次いつ購入されそうか。

「リサーチモニターの調査に対する意識・態度と回答行動の分析」(講師: @mshino55 ) (発表25分 + 議論30分)

資料：講師公開後、追記します（広報チェック後に公開）

同一調査モニターの回答ログと調査に対する意識アンケートを用いた、構造方程式モデリングによる分析に関しお話しします。

モニターの脱落防止
調査協力の同期づけ
目的: 情緒に与えるアプローチ(インセンティブ以外、達成感、等)は品質管理上、有効になりうるか。情緒に与える影響を、回答ログと意識アンケートで解明する。
データ：
- Web協力行動データ: 調査ページへのアクセス率、調査途中でアンケートやめた比率、モニター継続日数
- 調査への意識・態度データ：調査に対する意識態度項目、施策維持施策への評価
アクティブな人へのアンケート。アクティブな人を離脱させないようにするためにはどうしたらよいか。
構造方程式モデリング(SEM)
- 記述的なモデル
- 要素間の関係の分析。構成概念を表現できる。共分散構造分析
- ex) 構成概念として、"風味"、"感触"を想定。潜在変数 "風味" の好みは観測されないが説明しやすい。推定する。
ポイント欲しい人、中止率が低い。頑張って継続。
情緒的つながりが強い場合、中止率が高い。調査楽しんでいる人もいて、そういう人が面白くない調査だと途中でやめてしまう。