第26回 データマイニング+WEB@東京( #TokyoWebmining 26th) −オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り− を開催しました

2013/5/18 "第26回 データマイニング+WEB@東京−オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

参加者Twitter List: Twitter List TokyoWebmining 26th
参加者セキココ:第26回 データマイニング+WEB @東京 セキココ
(作成してくれた @komiya_atsushi さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(75分)

進行 :[Twitter:@hamadakoichi]

「DAUを評価指標から捨てたソーシャルゲーム会社の話」(講師: @tokoroten ) (発表20分 + 議論35分)

ソーシャルゲームにおいてDAUは無くてはならないKPIとして取り扱われている。しかしDAUにはさまざまな問題があり、この指標をアプリ改善のために使うには適当ではない。そこで各社さまざまな工夫をしている。今回はドリコムにおいて利用している手法の紹介を行う。

  • DAU: Daily Active User
    • DAU ノイズ大きい。ARPUのノイズを発生させる。収益に結びつかないユーザ。
    • 中で話す、サービス改善が行いやすくなる、KPIを設定。
  • ホワイトノイズ:気が向いたときにログイン、曜日の活動。
    • 弊害:昨日より高かった低かったで一喜一憂。
    • 経験のないディレクター、偉い人。社内の方針がぶれる。
  • スパイクノイズ:広告によるインストール
    • インストール後、1週間程度で落ち着く
    • 弊害:偉い人が反応する。
    • 「DAUが上がっているのに、ARPUが下がったら意味ないじゃないか」ARPUの本質を理解せず、ただの指標として利用
  • 2つのノイズの対応
    • 移動平均などはホワイトノイズは対応できるが、スパイクノイズには対応できない。
    • 他社事例:
    • gloops社:DAUをBUとFUに分解。BU: Base User インストール30日継続、FW: Follow User インストール後30日未満に分解。広告効果に測定に近い。
    • コロプラ社:gloops社のBUのみを7日版で利用。7日継続したユーザのみを母数としてカウントする。広告によるスパイクノイズ除去。ホワイトノイズは消さない。既存ユーザで7日継続していた。
  • ドリコム社での解法:「定着ユーザDAU」:5日連続アクセスしたユーザをカウント
    • BU+FUから着想
    • 気まぐれアクセスのノイズを除去できる。
    • DAUの75%程度の値。売上げの95%をこのユーザが占める。
    • 良い点:ゲームが面白くなくなると、着実に減る数値。
    • ドリコム社の全てのサービスで、定着ユーザDAUをKPI適用。DAUは見ない。
    • 定着の過程も合わせて出力:過去5日中、1、2、3、4日アクセスのユーザ数をそれぞれ出力。
      • リリース直後の推移で、ユーザ定着増加状況が分かる。
      • 5日中、1日アクセスがはねるだけでなく、2、3、4もちゃんとはねているか。
      • 新規・休眠復活で分類。休眠復活はあきてやめたユーザなので定着悪い。
    • 特徴
      • 失敗するとすぐ分かる。
      • 成功は5日かけて分かる。
      • 課題:定期メンテナンスがあると落ちうる数値。
    • →5日中4日プレイ+5日連続プレイのユーザ数を記載。
  • 他に見ている指標
    • 1日5分以上アクセスユーザ数。5分、プレイ時間のべき乗分布から。ログインボーナスだけのユーザを除去できる時間設定。
    • プレイ時間を監視しのばす。気持ちよく長く遊べる。
    • ネイティブのゲームアプリも同様に適用できた。
  • 上記以外の議論
    • イベントの期間あくと戻ってこない。
    • ARPUの危機:衰退期はコアゲーマーが残るので単純にARPU上がる。
    • 5日、各アクセスパターンと翌日の
    • KPIを内部のひとがハックしてはいけない。自然にサービスをよくしてKPIが上がる。5日連続アクセスするとボーナスもらえる等はもちろん意味ない。6日後落ちる。面白いとおもって続けているわけではないから。

「オープンデータ徹底入門」(講師: @nezuq )(発表25分 + 議論30分)

オープンデータ(オープンガバメント・データ)の概要と活用法を説明します。
オープンデータの定義、種類、活用事例を紹介。その後、ライセンス形態やファイルフォーマットを解説。

  • Open Dataの中で、Open Government Dataをメインに。
  • Open Goverment Data
    • 再配布・再利用可能、商業利用可能な原則無料のデータ公開の施策
    • 類似:e-Stat (政府統計の総合窓口):ただ、商用利用の際は要相談。各部署の承認が必要になる。
    • US: Data.gov, 英国:Data.gov.uk
  • 市場規模 1.2兆円、波及効果5兆円
  • 活用事例
    • Where Does My Money Go
    • Total Weather Insurance: 収穫リスクに応じた適切な保険料
    • Live train map for the London Underground: 地下鉄の現在位置と次駅までの時間のリアルタイム表示
    • Traffic London UK: 道路状況の画像が見える。渋滞状況把握
    • Home Snap: 写真をとった家の評価額、周囲状況。位置情報、税金から評価額を推定
  • データの入手
  • ファイル形式
    • RDF : Resource Description Framework
    • SPARQL : SPARQL Protocol and RDF Query Language
  • RDF
    • 主語・述語・目的語で構成されるデータモデル。リンク情報。
    • 利点:世界中のデータとリンクさせることができる。
    • 「太郎は花子を知っている」「花子のメールアドレスはhanako@xxx.co.jp だ」
  • SPARQL
    • 標準形式
    • Select:抽出、Ask:存在確認、CONSTRUCT: サブクエリ、DESCRIBE: 指定リソースの情報取得
  • 実際につかってみた
    • Google Fusion Table: CSV・SLSをアップするとグラフ描画できるサービス
    • 気象データ取得・加工し、Google Fusion Table で表示
  • 団体での進行状況
    • まずは公開しやすい Execl, CSVで公開する。形式はその後。

参考文献:

「セクシー女優で学ぶ画像分類入門」(講師: @tkm2261 ) (発表25分 + 議論30分)

DMMからのクローリング、画像からの特徴抽出(SURF)、BoVWによるベクトル量子化
、k-means法と階層的クラスタリングおよびMDSによる可視化。

  • 目的
  • 環境
    • Python2.7, 少しR。Numpy, Scipy, OpenCV
    • numpy, scipy、もうmatlabと同等に実装されている。
  • 数値計算のバックグラウンドで動く:仕様
    • Basic Linear Algebra Subprograms (BLAS)
    • Linear Algebra PACKage (LAPACK)
  • 実装
  • OpenCV: Open Source Computer Vision Library
    • BSD。データもあり、デフォルトで顔認証等できる。
  • データ収集
    • Bing Search API
    • DMM の女優名鑑:顔画像、年齢、スリーサイズ、趣味、のクローリング。7092名。
  • 画像からの特徴抽出
    • 画像のベクトル表現。
    • どんな特徴をベクトル構成できるかが最重要。ベクトル表現できるとできれば、各種データマイニング手法が使えるので。
  • 画像特徴量
    • SHIFT, SURF, HOG, HAAR-like
    • 今回はSURFを使用。128次元の連続値ベクトル
    • Open CVで2行で記述
    • Bag of Keypoints: 各女優ごとにSURF 特徴点(128次元、ある女優で44個)がそれぞれ何回表示されたか。
  • 女優のクラスタリング
  • 他議論
    • ファッション領域でやったが画像サイズ小さく Bag of Keypointsがとりづらかった
  • サービス
    • 数枚の女優の画像から選ぶと、次の女優写真、それを数回繰り返すと、オススメの女優がでる
    • アドレス登録し、あなたにオススメの新作を月一度推薦


4.「アドファイブDSP/RTBのアーキテクチャ」(講師: @chiral )(発表25分 + 議論30分)

近年急速に普及が進んでいるディスプレイ広告のDSP/RTBについて、1. オープンソースのRTBKit、2. 弊社開発のアドファイブDSP、の2つのシステムそれぞれの具体的な実装方法を説明します。

  • RTBとDSP
    • RTB : Real Time bidding , DSP : Demand Side Platform 広告主側
    • DSP/RTBを使うメリット:各種データを使うことで、リッチなターゲティング広告が可能
  • 構成
    • DSP: 属性情報、クッキーDB(自社、他社、アクセス履歴)、各種DB(クロールデータ、パラメータ、ヒューリスティクス)、入札ロジック
  • 処理の流れ
    • リクエスト→ Webサーバ(入り口)、オークション情報デコード、入札処理、入札情報のエンコード→レスポンス
    • 入札処理:属性情報の追加、ロジック適用、を行うと、処理がスムーズ。不要なデータ
  • オークションデータ例。ビッドリクエス
  • RTBkit
    • Open Source の RTB Core. Plug-in を追加し挙動を変える。
  • 全体構成(自作)
    • オーギュメンタ:属性追加。行動履歴、広告配信の履歴、マイニングしたデータ。
    • 入札エージェント:複数エージェント
    • 集計サーバー:入札エージェントのログを集計
  • Lua
    • プログラムに組み込んで使うScript Code
  • LuaJIT
  • Lupa
  • ZeroMQ
    • Req-Res, Pub-Sub, Push-Pull

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA
推薦文献

DSP/RTBオーディエンスターゲティング入門 (Next Publishing)

DSP/RTBオーディエンスターゲティング入門 (Next Publishing)

入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック

入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第26回 データマイニング+WEB 勉強会@東京−大規模データ・ソーシャル解析 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第26回 データマイニング+WEB@東京( #TokyoWebmining #26) -オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り- - Togetter

講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: