第26回 データマイニング+WEB@東京( #TokyoWebmining 26th) −オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り− を開催しました
2013/5/18 "第26回 データマイニング+WEB@東京−オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り−"を開催しました。
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
参加者Twitter List: Twitter List TokyoWebmining 26th
参加者セキココ:第26回 データマイニング+WEB @東京 セキココ
(作成してくれた @komiya_atsushi さんに感謝)
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(15分)
講師 : id:hamadakoichi [Twitter:@hamadakoichi]
O2.「参加者全員自己紹介」(75分)
進行 :[Twitter:@hamadakoichi]
「DAUを評価指標から捨てたソーシャルゲーム会社の話」(講師: @tokoroten ) (発表20分 + 議論35分)
ソーシャルゲームにおいてDAUは無くてはならないKPIとして取り扱われている。しかしDAUにはさまざまな問題があり、この指標をアプリ改善のために使うには適当ではない。そこで各社さまざまな工夫をしている。今回はドリコムにおいて利用している手法の紹介を行う。
- DAU: Daily Active User
- DAU ノイズ大きい。ARPUのノイズを発生させる。収益に結びつかないユーザ。
- 中で話す、サービス改善が行いやすくなる、KPIを設定。
- ホワイトノイズ:気が向いたときにログイン、曜日の活動。
- 弊害:昨日より高かった低かったで一喜一憂。
- 経験のないディレクター、偉い人。社内の方針がぶれる。
- スパイクノイズ:広告によるインストール
- 2つのノイズの対応
- ドリコム社での解法:「定着ユーザDAU」:5日連続アクセスしたユーザをカウント
- BU+FUから着想
- 気まぐれアクセスのノイズを除去できる。
- DAUの75%程度の値。売上げの95%をこのユーザが占める。
- 良い点:ゲームが面白くなくなると、着実に減る数値。
- ドリコム社の全てのサービスで、定着ユーザDAUをKPI適用。DAUは見ない。
- 定着の過程も合わせて出力:過去5日中、1、2、3、4日アクセスのユーザ数をそれぞれ出力。
- リリース直後の推移で、ユーザ定着増加状況が分かる。
- 5日中、1日アクセスがはねるだけでなく、2、3、4もちゃんとはねているか。
- 新規・休眠復活で分類。休眠復活はあきてやめたユーザなので定着悪い。
- 特徴
- 失敗するとすぐ分かる。
- 成功は5日かけて分かる。
- 課題:定期メンテナンスがあると落ちうる数値。
- →5日中4日プレイ+5日連続プレイのユーザ数を記載。
- 他に見ている指標
- 1日5分以上アクセスユーザ数。5分、プレイ時間のべき乗分布から。ログインボーナスだけのユーザを除去できる時間設定。
- プレイ時間を監視しのばす。気持ちよく長く遊べる。
- ネイティブのゲームアプリも同様に適用できた。
- 上記以外の議論
「オープンデータ徹底入門」(講師: @nezuq )(発表25分 + 議論30分)
オープンデータの定義、種類、活用事例を紹介。その後、ライセンス形態やファイルフォーマットを解説。
- Open Dataの中で、Open Government Dataをメインに。
- Open Goverment Data
- 再配布・再利用可能、商業利用可能な原則無料のデータ公開の施策
- 類似:e-Stat (政府統計の総合窓口):ただ、商用利用の際は要相談。各部署の承認が必要になる。
- US: Data.gov, 英国:Data.gov.uk
- 市場規模 1.2兆円、波及効果5兆円
- 活用事例
- Where Does My Money Go
- Total Weather Insurance: 収穫リスクに応じた適切な保険料
- Live train map for the London Underground: 地下鉄の現在位置と次駅までの時間のリアルタイム表示
- Traffic London UK: 道路状況の画像が見える。渋滞状況把握
- Home Snap: 写真をとった家の評価額、周囲状況。位置情報、税金から評価額を推定
- データの入手
- OPEN DATA METI
- 気象庁:過去の気象データ
- 東京電力:でんき予報
- 原子力規制委員会:放射線モニタリング情報
- 他、地方公共団体含め、公開している(資料内に各リンク)
- ファイル形式
- RDF
- 主語・述語・目的語で構成されるデータモデル。リンク情報。
- 利点:世界中のデータとリンクさせることができる。
- 「太郎は花子を知っている」「花子のメールアドレスはhanako@xxx.co.jp だ」
- SPARQL
- 標準形式
- Select:抽出、Ask:存在確認、CONSTRUCT: サブクエリ、DESCRIBE: 指定リソースの情報取得
- 実際につかってみた
- 団体での進行状況
- まずは公開しやすい Execl, CSVで公開する。形式はその後。
参考文献:
「セクシー女優で学ぶ画像分類入門」(講師: @tkm2261 ) (発表25分 + 議論30分)
DMMからのクローリング、画像からの特徴抽出(SURF)、BoVWによるベクトル量子化
、k-means法と階層的クラスタリングおよびMDSによる可視化。
- 目的
- 環境
- 数値計算のバックグラウンドで動く:仕様
- 実装
- Intel MKL、ATLAS、Goto BLAS2、OpenBLAS
- OpenBLAS: 凄く速い。最大で11倍。(Revolution評価)
- Intel MKLでbuild された numpy公開 : http://www.lfd.uci.edu/~gohlke/pythonlibs/
- OpenCV: Open Source Computer Vision Library
- BSD。データもあり、デフォルトで顔認証等できる。
- データ収集
- Bing Search API
- DMM の女優名鑑:顔画像、年齢、スリーサイズ、趣味、のクローリング。7092名。
- 画像からの特徴抽出
- 画像のベクトル表現。
- どんな特徴をベクトル構成できるかが最重要。ベクトル表現できるとできれば、各種データマイニング手法が使えるので。
- 画像特徴量
- 女優のクラスタリング
- 他議論
- ファッション領域でやったが画像サイズ小さく Bag of Keypointsがとりづらかった
- サービス
- 数枚の女優の画像から選ぶと、次の女優写真、それを数回繰り返すと、オススメの女優がでる
- アドレス登録し、あなたにオススメの新作を月一度推薦
4.「アドファイブDSP/RTBのアーキテクチャ」(講師: @chiral )(発表25分 + 議論30分)
近年急速に普及が進んでいるディスプレイ広告のDSP/RTBについて、1. オープンソースのRTBKit、2. 弊社開発のアドファイブDSP、の2つのシステムそれぞれの具体的な実装方法を説明します。
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi [Twitter:@hamadakoichi]
参加者全員での振返り結果MindMap
- 継続したい良かった点
- 改善点アクション
- 次回AGENDA
推薦文献
DSP/RTBオーディエンスターゲティング入門 (Next Publishing)
- 作者: 横山隆治,菅原健一,楳田良輝
- 出版社/メーカー: インプレスR&D
- 発売日: 2012/05/17
- メディア: オンデマンド (ペーパーバック)
- 購入: 4人 クリック: 58回
- この商品を含むブログ (10件) を見る
入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック
- 作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘
- 出版社/メーカー: オライリージャパン
- 発売日: 2011/11/26
- メディア: 大型本
- 購入: 18人 クリック: 779回
- この商品を含むブログ (42件) を見る
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (64件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (277件) を見る
関連ツイート(Togetter)
「第26回 データマイニング+WEB 勉強会@東京−大規模データ・ソーシャル解析 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第26回 データマイニング+WEB@東京( #TokyoWebmining #26) -オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り- - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第25回 データマイニング+WEB@東京( #TokyoWebmining 25th) −大規模分散 高速解析・ユーザ徹底理解 祭り− を開催しました - hamadakoichi blog
- 第24回 データマイニング+WEB@東京( #TokyoWebmining 24th) −大規模データ・ソーシャル解析 祭り− を開催しました - hamadakoichi blog
- 第23回 データマイニング+WEB@東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− を開催しました - hamadakoichi blog
- 第22回 データマイニング+WEB@東京( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化 祭り− を開催しました - hamadakoichi blog
- 第21回 データマイニング+WEB@東京( #TokyoWebmining 21th)−ソーシャルグラフ解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第20回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しました - hamadakoichi blog
- 第19回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 19th)−データ徹底活用・機械学習 祭り− を開催しました - hamadakoichi blog
- 第18回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 18th)−大規模分散処理 最前線 祭り− を開催しました - hamadakoichi blog
- 第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog
- 第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました - hamadakoichi blog
- 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました - hamadakoichi blog
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog