第26回データマイニング+WEB＠東京( #TokyoWebmining 26th) −オープンデータ活用・ソーシャル・アドテクノロジー祭り− を開催しました

2013/5/18 "第26回データマイニング+WEB＠東京−オープンデータ活用・ソーシャル・アドテクノロジー祭り−"を開催しました。

会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧：

参加者Twitter List: Twitter List TokyoWebmining 26th
参加者セキココ：第26回データマイニング+WEB ＠東京セキココ
(作成してくれた @komiya_atsushi さんに感謝）

以下、全講師資料、関連資料、ツイートまとめです。

AGENDA：

■Opening Talk：

O1.「データマイニング+WEB勉強会＠東京について」(15分)

講師： id:hamadakoichi [Twitter:@hamadakoichi]

オープニングトーク − 創設の思い・目的・進行方針　−データマイニング+WEB勉強会＠東京 from Koichi Hamada

O2.「参加者全員自己紹介」(75分)

進行：[Twitter:@hamadakoichi]

「DAUを評価指標から捨てたソーシャルゲーム会社の話」(講師: @tokoroten ) (発表20分 + 議論35分)

DAUを評価指標から捨てた会社の話 #tokyowebmining from Tokoroten Nakayama

ソーシャルゲームにおいてDAUは無くてはならないKPIとして取り扱われている。しかしDAUにはさまざまな問題があり、この指標をアプリ改善のために使うには適当ではない。そこで各社さまざまな工夫をしている。今回はドリコムにおいて利用している手法の紹介を行う。

DAU: Daily Active User
- DAU ノイズ大きい。ARPUのノイズを発生させる。収益に結びつかないユーザ。
- 中で話す、サービス改善が行いやすくなる、KPIを設定。
ホワイトノイズ：気が向いたときにログイン、曜日の活動。
- 弊害：昨日より高かった低かったで一喜一憂。
- 経験のないディレクター、偉い人。社内の方針がぶれる。
スパイクノイズ：広告によるインストール
- インストール後、１週間程度で落ち着く
- 弊害：偉い人が反応する。
- 「DAUが上がっているのに、ARPUが下がったら意味ないじゃないか」ARPUの本質を理解せず、ただの指標として利用
２つのノイズの対応
- 移動平均などはホワイトノイズは対応できるが、スパイクノイズには対応できない。
- 他社事例：
- gloops社：DAUをBUとFUに分解。BU: Base User インストール３０日継続、FW: Follow User インストール後３０日未満に分解。広告効果に測定に近い。
- コロプラ社：gloops社のBUのみを7日版で利用。7日継続したユーザのみを母数としてカウントする。広告によるスパイクノイズ除去。ホワイトノイズは消さない。既存ユーザで７日継続していた。
ドリコム社での解法：「定着ユーザDAU」：５日連続アクセスしたユーザをカウント
- BU+FUから着想
- 気まぐれアクセスのノイズを除去できる。
- DAUの75%程度の値。売上げの95%をこのユーザが占める。
- 良い点：ゲームが面白くなくなると、着実に減る数値。
- ドリコム社の全てのサービスで、定着ユーザDAUをKPI適用。DAUは見ない。
- 定着の過程も合わせて出力：過去５日中、１、２、３、４日アクセスのユーザ数をそれぞれ出力。
  - リリース直後の推移で、ユーザ定着増加状況が分かる。
  - ５日中、１日アクセスがはねるだけでなく、２、３、４もちゃんとはねているか。
  - 新規・休眠復活で分類。休眠復活はあきてやめたユーザなので定着悪い。
- 特徴
  - 失敗するとすぐ分かる。
  - 成功は５日かけて分かる。
  - 課題：定期メンテナンスがあると落ちうる数値。
- →５日中４日プレイ＋５日連続プレイのユーザ数を記載。
他に見ている指標
- 1日5分以上アクセスユーザ数。5分、プレイ時間のべき乗分布から。ログインボーナスだけのユーザを除去できる時間設定。
- プレイ時間を監視しのばす。気持ちよく長く遊べる。
- ネイティブのゲームアプリも同様に適用できた。
上記以外の議論
- イベントの期間あくと戻ってこない。
- ARPUの危機：衰退期はコアゲーマーが残るので単純にARPU上がる。
- ５日、各アクセスパターンと翌日の
- KPIを内部のひとがハックしてはいけない。自然にサービスをよくしてKPIが上がる。５日連続アクセスするとボーナスもらえる等はもちろん意味ない。６日後落ちる。面白いとおもって続けているわけではないから。

「オープンデータ徹底入門」(講師: @nezuq )(発表25分 + 議論30分)

オープンデータ徹底入門 from nezuQ

オープンデータ(オープンガバメント・データ)の概要と活用法を説明します。
オープンデータの定義、種類、活用事例を紹介。その後、ライセンス形態やファイルフォーマットを解説。

Open Dataの中で、Open Government Dataをメインに。
Open Goverment Data
- 再配布・再利用可能、商業利用可能な原則無料のデータ公開の施策
- 類似：e-Stat (政府統計の総合窓口）：ただ、商用利用の際は要相談。各部署の承認が必要になる。
- US: Data.gov, 英国：Data.gov.uk
市場規模 1.2兆円、波及効果5兆円
活用事例
- Where Does My Money Go
- Total Weather Insurance: 収穫リスクに応じた適切な保険料
- Live train map for the London Underground: 地下鉄の現在位置と次駅までの時間のリアルタイム表示
- Traffic London UK: 道路状況の画像が見える。渋滞状況把握
- Home Snap: 写真をとった家の評価額、周囲状況。位置情報、税金から評価額を推定
データの入手
- OPEN DATA METI
- 気象庁：過去の気象データ
- 東京電力：でんき予報
- 原子力規制委員会：放射線モニタリング情報
- 他、地方公共団体含め、公開している（資料内に各リンク）
ファイル形式
- RDF : Resource Description Framework
- SPARQL : SPARQL Protocol and RDF Query Language
RDF
- 主語・述語・目的語で構成されるデータモデル。リンク情報。
- 利点：世界中のデータとリンクさせることができる。
- 「太郎は花子を知っている」「花子のメールアドレスはhanako@xxx.co.jp だ」
SPARQL
- 標準形式
- Select:抽出、Ask:存在確認、CONSTRUCT: サブクエリ、DESCRIBE: 指定リソースの情報取得
実際につかってみた
- Google Fusion Table: CSV・SLSをアップするとグラフ描画できるサービス
- 気象データ取得・加工し、Google Fusion Table で表示
団体での進行状況
- まずは公開しやすい Execl, CSVで公開する。形式はその後。

参考文献：

「セクシー女優で学ぶ画像分類入門」(講師: @tkm2261 ) (発表25分 + 議論30分)

Tokyowebmining26 3 from tkm2261

DMMからのクローリング、画像からの特徴抽出（SURF）、BoVWによるベクトル量子化
、k-means法と階層的クラスタリングおよびMDSによる可視化。

目的
- DMMのアフィリエイト
- 女優のクラスタリングを行い、似た画像の女優を推薦したい
環境
- Python2.7, 少しR。Numpy, Scipy, OpenCV
- numpy, scipy、もうmatlabと同等に実装されている。
数値計算のバックグラウンドで動く：仕様
- Basic Linear Algebra Subprograms (BLAS)
- Linear Algebra PACKage (LAPACK)
実装
- Intel MKL、ATLAS、Goto BLAS2、OpenBLAS
- OpenBLAS: 凄く速い。最大で11倍。(Revolution評価)
- Intel MKLでbuild された numpy公開 : http://www.lfd.uci.edu/~gohlke/pythonlibs/
OpenCV: Open Source Computer Vision Library
- BSD。データもあり、デフォルトで顔認証等できる。
データ収集
- Bing Search API
- DMM の女優名鑑：顔画像、年齢、スリーサイズ、趣味、のクローリング。7092名。
画像からの特徴抽出
- 画像のベクトル表現。
- どんな特徴をベクトル構成できるかが最重要。ベクトル表現できるとできれば、各種データマイニング手法が使えるので。
画像特徴量
- SHIFT, SURF, HOG, HAAR-like
- 今回はSURFを使用。128次元の連続値ベクトル
- Open CVで２行で記述
- Bag of Keypoints: 各女優ごとにSURF 特徴点(128次元、ある女優で44個)がそれぞれ何回表示されたか。
女優のクラスタリング
- 似た画像の女優を推薦したい
- kmeans : 女優を10個のクラスタにわける
- クラスタ10はパネマジ(フォトショップ画像加工)クラスタか
- 2chにスレたてて聞いてみた
他議論
- ファッション領域でやったが画像サイズ小さく Bag of Keypointsがとりづらかった
サービス
- 数枚の女優の画像から選ぶと、次の女優写真、それを数回繰り返すと、オススメの女優がでる
- アドレス登録し、あなたにオススメの新作を月一度推薦

4.「アドファイブDSP/RTBのアーキテクチャ」(講師: @chiral )(発表25分 + 議論30分)

アドファイブDSP/RTBのアーキテクチャ from Masayuki Isobe

近年急速に普及が進んでいるディスプレイ広告のDSP/RTBについて、1. オープンソースのRTBKit、2. 弊社開発のアドファイブDSP、の２つのシステムそれぞれの具体的な実装方法を説明します。

RTBとDSP
- RTB : Real Time bidding , DSP : Demand Side Platform 広告主側
- DSP/RTBを使うメリット：各種データを使うことで、リッチなターゲティング広告が可能
構成
- DSP: 属性情報、クッキーDB(自社、他社、アクセス履歴)、各種DB(クロールデータ、パラメータ、ヒューリスティクス)、入札ロジック
処理の流れ
- リクエスト→ Webサーバ(入り口)、オークション情報デコード、入札処理、入札情報のエンコード→レスポンス
- 入札処理：属性情報の追加、ロジック適用、を行うと、処理がスムーズ。不要なデータ
オークションデータ例。ビッドリクエスト
RTBkit
- Open Source の RTB Core. Plug-in を追加し挙動を変える。
全体構成(自作)
- オーギュメンタ：属性追加。行動履歴、広告配信の履歴、マイニングしたデータ。
- 入札エージェント：複数エージェント
- 集計サーバー：入札エージェントのログを集計
Lua
- プログラムに組み込んで使うScript Code
LuaJIT
- Lua バイトコードを処理するJIT対応VM
Lupa
- Lua のPython Bindingだが、Lua Python 間でシームレスに動く
ZeroMQ
- Req-Res, Pub-Sub, Push-Pull

■声・議論：

D. 「参加者の声・ディスカッション」 (60分)

進行： id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

継続したい良かった点
改善点アクション
次回AGENDA

MindMap: 第26回データマイニング+WEB＠東京 (2013/05/18) 継続したい点・改善点・次回以降AGENDA - XMind - Mind Mapping Software

講師募集

データマイニング+WEB勉強会＠東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。

連絡先：

hamadakoichi blog