第22回データマイニング+WEB＠東京( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化祭り− を開催しました

2012/09/23 "第22回データマイニング+WEB＠東京−広告最適化・アクセス解析・可視化祭り−"を開催しました。

会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧：

参加者Twitter List: Twitter List TokyoWebmining #22
参加者セキココ：第22回データマイニング+WEB ＠東京セキココ
(作成してくれた @komiya_atsushi さんに感謝）

以下、全講師資料、関連資料、ツイートまとめです。

AGENDA：

■Opening Talk：

O1.「データマイニング+WEB勉強会＠東京について」(15分)

講師： id:hamadakoichi [Twitter:@hamadakoichi]

オープニングトーク − 創設の思い・目的・進行方針　−データマイニング+WEB勉強会＠東京 from Koichi Hamada

O2.「参加者全員自己紹介」(75分)

進行：[Twitter:@hamadakoichi]

1. 「広告クリエイティブの最適化の実際」(講師: @kan_yukiko ) (発表25分 + 議論30分)

TokyoWebmining 22nd　発表資料 from kan_yukiko

バナー広告を中心としたディスプレイ広告は、そのクリエイティブデザインによってクリック率が異なりますが、どのようにして最適なクリエイティブを発見するかについて具体的な解析方法と結果についてご紹介します。

ディスプレイ広告
- その人の行動にあったものを出す
- その人にどんなバナーのクリエイティブを出すと評価されるか
市場
- インターネット広告６兆円。ネット広告6600億円、伸びている。
広告最適化
- 配信最適化
- クリエイティブ最適化
- 効果測定
効果の高いところに配信する
配信先最適化
- 媒体×地域×フィリーケンシー×時間
- 効果向上
クリエイティブ最適化
- 生成時のレイヤー構造：枠、キャッチコピー、サブキャッチ、ロゴ、メインビジュアル
- 実験計画法で絞っていく。
- どのくらいの imp で絞るか。30 Click 位欲しい。
コンジョイント分析
- 複合的な要素を組合せで評価する
- 買いたい順番をつける
- 直行表、絞っていく。配信パターンを絞っていきたい。
- 属性、水準で絞っていく。
- 買いたい順に順位をつけてもらう。順序尺度
重回帰分析
- クリック率算出
広告領域、どんな方法が効果高い、
全体的なクリエイティブの最適化、パーソナルな出しわけ・評価は今後行う
事例
- 168クリエイティブ、自動生成
- 影響度（効用値の最大値 - 最小値）の算出
- 分析結果算出までは自動、パラメータ反映の部分は手動で残している。目視で異常値に気づける。

2.「アクセス解析システムの裏側」(講師: @shun0102 ) (発表25分 + 議論30分)

アクセス解析システムの裏側（公開用） from shunsuke Mikami

専門的な知識を持っていなくても、直感的にわかるよう可視化
大規模データ
- 40億PV/月、将来 100億PV/月でも大丈夫なように。
- リアルタイムにデータをためる（ビーコン解析）。集計バッチ。
データ
- クッキー（サード、ファースト）、ユーザエージェント、端末名、リファラ、IP、画面サイズ、マウス位置、等。
- SP: iphone4, iphone5 判別：画面サイズ、px、等
基本的に指標
- PV:アクセス解析、VISIT：訪問回数、UU: ユニークユーザ（ユニークブラウザ）
セッション
- 一定時間(３０分が多い)途切れずに続く一連のアクセス
アクセス解析システム実装の悩み
- リアルタイム集計もするフロントエンド
- リアルタイムでやるには思い処理。Join等
- 離脱の判定などのセッション単位の集計
- 人気ページランキングなどの一日単位の大規模集計
- 全て１日一回のバッチで済ませれば構成はシンプルになるが、バッチが数時間かかるのはつらい
集計処理の分類
- リアルタイム、小バッチ（30分ごとの集計）、大バッチ集計（１日一回の集計）
機能実現
- カウントアップするためのストレージ
  - memcashd
  - 秒間 1000-2000アクセス
  - 1回のアクセスで数回のreadとwrite
- 直近のアクセスを見るためのストレージ
  - Mogo DB
  - readより write が多い
- ログリレー
  - fluentd
  - 次のfluentdい書き込めないときは待ってリトライ
  - MongoDBへの書き込みはチャンク単位で行う
小バッチ処理
- 離脱の判断
- 組織、ユーザデータのjoin
- 集計DBへの保存
大バッチ集計
- 足きりにしよう。
- 大規模解析
  - Java MapReduce: 性能はよい、工数かかる、一部ではアセンブリ言語と呼ばれる。
  - Hive: SQLライク、スキーマ定義必要、効率のよいファイルフォーマット。
  - Pig: 独自言語、スキーマ定義不要
  - Hadoop Streaming : 好きな言語でかける、性能は悪い。
- RC Fileに魅かれ、Hiveを使用。必要なファイルのみ読み込む。
- 流れ
  - hadoop⇒ JSONテキストログをRCfILEに変換⇒ランキング集計
- 集計
  - UDF: User-Defined Function
  - UDAF : User-Defined Aggregation Function。Groupしたものに対する処理。自由度高くなる。
    - 来たデータを上から順に数字を当てる

3.「データマイニングとビジュアライゼーション」(講師: @hongo3_5 ) (発表15分 + 議論30分)

データマイニングとビジュアライゼーション from Yutaka Hongo

研究における可視化と実際に使われる可視化のギャップ、そして可視化の際に注意すべきことなどを浅く広くご紹介します。

ビジュアライゼーション
- 人間の視覚・認知能力を活かす。価値あるパターンを発見。
ビジュアライゼーションと関係の強い項目
- データマイニング
- ネットワークサイエンス
- バイオインフォマティクス
大量なデータから価値あるものを見つける
ストーリーを語れることが重要。考察する。
学会
- VisWeek:
現実適用
- 見る人に対して付加的な知識を要求すべきではない。
重要要素
- Target: 見る人のことを第一に考える。
- Focus plus Context : 詳細情報と、情報間の関連。
- Story
  - 偉大なデータサイエンティストはストーリーを語れる
  - 目的、対象に対する知識、適切な可視化手法の選定
Tool
可視化の展開
- Dashboard
  - Line Chart, Histogram 低次元データを扱う一般的な手法
    - ⇒ Dashboardでさまざまな低次元データを同時閲覧
  - Parallec Cordinates, Chord Diagram
自作 or ツール
表面的なきれいさだけでなく、データをきちんと伝えられているか
データ、エンジニアリング、デザイン、ビジネスまで幅広い知識が必要
複雑なものよりシンプル

■声・議論：

D. 「参加者の声・ディスカッション」 (60分)

進行： id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

継続したい良かった点
改善点アクション
次回AGENDA

第22回データマイニング+WEB＠東京 (2012/09/23) 継続したい点・改善点・次回以降AGENDA - XMind - Mind Mapping Software

講師募集

データマイニング+WEB勉強会＠東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。

連絡先：

hamadakoichi blog