第27回 データマイニング+WEB@東京( #TokyoWebmining 27th) −WEB解析・オープンデータ・クラウド 祭り− を開催しました
2013/6/22 "第27回 データマイニング+WEB@東京−WEB解析・オープンデータ・クラウド 祭り−"を開催しました。
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
参加者Twitter List: Twitter List TokyoWebmining 27th
参加者セキココ:第27回 データマイニング+WEB @東京 セキココ
(作成してくれた @komiya_atsushi さんに感謝)
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(15分)
講師 : id:hamadakoichi [Twitter:@hamadakoichi]
O2.「参加者全員自己紹介」(75分)
進行 :[Twitter:@hamadakoichi]
1.「Webクローリング&スクレイピングの最前線〜ほこ×たてで語られなかった5万枚画像の真実〜」 (講師: @lumin ) (発表25分 + 議論30分)
日本から失われつつある技術、Webクローリングとスクレイピングを解説します。弱いクローラから、強いクローラまで、その後のスクレイピング技術など、実際に使っている例を紹介します。フジテレビのバラエティ番組「ほこ×たて」で触れた、短時間で5万枚の画像を集めたクローラも紹介します。
- CTFチャレンジジャパン CTF (ハッキング大会)優勝、Winny暗号初解読、TVでのセキュリティ解説、IPA受賞、政府情報保全委員会、等
- クローリング
- スクレイピング
- 応用例
- 話題
- ほこたて:守る側もゼロから6時間で設定
- P2Pクローラ
参考資料:
2.「オープンデータ・パーソナルデータビジネス最前線」 (講師: @ito_nao) (発表25分 + 議論30分)
安倍政権が日本経済の成長戦略の柱の一つと定めているIT戦略の中で、重要なキーとなっているのが、オープンデータ・ビッグデータ(パーソナルデータの流通・促進等)の利活用推進による新産業・新サービスの創出です。 これらに関する海外先進事例・ムーブメントや日本国内の現状についてご紹介します。
- Open Knowledge Foundation Japan
- 政府保有データを始め、多様なデータの生成・公開・利用を支援する
- オープンデータトーク:データ公開ニーズの深堀、オープンデータをめぐる最新動向の共有
- オープンデータとは
- 米国
- イノベーションを生み出すための取り組み
- データデフォルトで公開。大規模化したときのデータサイエンティストの育成がKey
- どのようなデータが、どのような分野で活用されているか、まとめられている
- Smart disclosureと4分類
- 各領域での活用方法例
- Donsumer.Data.gov
- Quantified Self: コンピュータやガジェットを用いて自分自身の行動や状態を提供し分析。新たな知見を得る。
- 健康の異常判定、医師にもっていく
- イギリス
- 政府によるオープンデータ活用支援が活発
- 4年で12のスタートアップ支援
- 例:クラウドサービスのコストと二酸化炭素排出量から顧客の好みにあったデータセンターの選択、公共交通データにアクセスするためのAPI・データ構築
- 消費者にとっての最適な選択:自分のデータを自分で分析し、アクションをとる
- CRM(Customer Relationship Management) では新のロイヤリティは得られない。VRM(Vender Relationship Management)
- TESCO、会員の購買習慣を販売。会員自身も自分のデータにアクセスできるようにしている。
- VRM: 企業からの一方的なレコメンド・広告ではなく、個々人が自分が渡すデータを選択できるようにする(Personal Data Store)
- 自分が良く知っている領域はVRMで自分で選択、分からない領域はCRMでまかす、か。
- パーソナルデータの保護と利活用
- 3rd Party: データエクスチェンジャーのデータマネジメント
- 4th Party: 消費者が自らデータ管理できるプラットフォーム(VRM)
- 日本のVRM : 情報銀行、Privacy Policy Manager...統合管理。個人情報リスク。Personal Life Repository (PLR).. それぞれが保持。
- 進行
-
- 2014年度、データサイエンティスト育成強化
- 日本でーオープンデータ活用
- ALFA: 味の素のエリアマーケティング
- R package "govStatJPN" (otani さん)
参考資料:
3.「クラウドネイティブなアーキテクチャでサクサク解析」 (講師: @imai_factory) (発表30分 + 議論35分)
Amazon.comでは現在、最大で1時間に1,079回という驚異的なスピードでデプロイを行っています。 これは既存のデータセンターでは考えられない数字でした。 この非常に速いデプロイサイクルを実現することを可能にしている、 クラウドサービス上でのアプリケーション/システムのデプロイと、そのメリットを解析やデータマイニングに活かす方法を考えてみます。
参考資料はAmazon.comのCTOが21世紀のアーキテクチャとはというテーマで話した講演のビデオです。 こちらの内容をベースにお話していきます。
- 平均 11.6秒に1回デプロイ、1回で平均1万台
- デプロイした後、ロードバランサー切り替え
- 問題があったら、元クラスターに振り向け直す
- 環境をCopy しABテストも容易
- Controllable: 柔軟なコントロール
- 粗結合して切り分ける
- Pintarest AWS、必要なときに必要なリソースを確保
- Resilient: 高い耐障害性
- Adaptive: 状況変化へのつい純正
- 何も過程しない、キャパシティプランニングは後から
- ソーシャルアプリの、週末、急激なのび
- Small Start も large Start もできる
- Data Driven: フィードバックループをまわす
- 全ての事象をロギング、フィードバックループをまわす
- クラウド上でデータ解析を行うために、理解しておくべきコンセプト
- Data First
- データサーバが2つつぶれても大丈夫。格納容量に制限がない。
- S3のデータ以外は State lessにできる。
- S3 -> EMR: ETL -> Redshift: BI Tool -> DynamoDB WebService
- S3にまず入れて、必要に応じて解析クラスタを構築
- AWS is Software
- user-data : EC2起動時にインスタンスを渡すための機能
- – Shell Script を渡して実行させることもできる
- Workload Driven
- 仕事に合わせて起動
- Data First
- まとめ
参考資料:
4.「大規模ログ分析におけるAmazon Web Servicesの活用」 (講師: @stakemura ) (発表20分 + 議論25分)
バンダイナムコスタジオのログ集計・分析基盤”Greco”では、Amazon RDSとEMR、そして最近では様々なデータウェアハウスを検証した上でRedshiftを活用しています。OLTPとOLAP、双方のニーズに応えるためにどんなシステム構成を取っているか、また分析に耐えうる正確なログ出力のためにどんな工夫が必要か、の2点を重点的にお伝えします。
- ソーシャルゲームでの活用 論文紹介
- ログ基盤 "Greco"
- Redshift
- DWH: Data Ware House: 大規模集計に特化したデータベース。数百万行の集計が高速。
- Columnar Database: 行単位で圧縮をかけながら集約。
- Massively Parallel Processing : MPP。急にログが増えても対応できる。
- ゲーム業界での採用
- 導入のネック:「一言でいうと高い」初期投資、数100万、アプライアンス製品なら1000万
- -> Redshift では桁が1桁2桁安い
- 導入してみて
- 集計が楽になった
- Redshiftのチューニング。B-Tree、
- DLL記述: 基本はテーブル設計時に決める。
- DBからのマイグレーション: Redshift の最大のボトルネックはinsert。同一リージョンのS3からしか Biuld Insertができない。
- 分析に耐えうるログを出力するために
- ログは出力するときに構造かされている
- 人為的なミスを取り除く
- 分析者と企画者の意見を反映した上で、ログ仕様を決める
参考資料:
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi [Twitter:@hamadakoichi]
参加者全員での振返り結果MindMap
- 継続したい良かった点
- 改善点アクション
- 次回AGENDA
- MindMap: 第27回データマイニング+WEB@東京 (2013/06/22) 継続したい点・改善点・次回以降AGENDA - XMind - Mind Mapping Software
推薦文献
インテンション・エコノミー 顧客が支配する経済 (Harvard business school press)
- 作者: ドク・サールズ,栗原潔
- 出版社/メーカー: 翔泳社
- 発売日: 2013/03/15
- メディア: 単行本(ソフトカバー)
- クリック: 1回
- この商品を含むブログ (11件) を見る
- 作者: Tom White,玉川竜司,兼田聖士
- 出版社/メーカー: オライリージャパン
- 発売日: 2011/07/23
- メディア: 大型本
- 購入: 9人 クリック: 182回
- この商品を含むブログ (24件) を見る
- 作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗
- 出版社/メーカー: 翔泳社
- 発売日: 2011/01/28
- メディア: 大型本
- 購入: 14人 クリック: 668回
- この商品を含むブログ (43件) を見る
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (64件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (277件) を見る
関連ツイート(Togetter)
「第27回 データマイニング+WEB 勉強会@東京−WEB解析・オープンデータ・クラウド 祭り− 」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第27回 データマイニング+WEB@東京( #TokyoWebmining #27) -WEB解析・オープンデータ・クラウド 祭り- - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第26回 データマイニング+WEB@東京( #TokyoWebmining 26th) −オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り− を開催しました - hamadakoichi blog
- 第25回 データマイニング+WEB@東京( #TokyoWebmining 25th) −大規模分散 高速解析・ユーザ徹底理解 祭り− を開催しました - hamadakoichi blog
- 第24回 データマイニング+WEB@東京( #TokyoWebmining 24th) −大規模データ・ソーシャル解析 祭り− を開催しました - hamadakoichi blog
- 第23回 データマイニング+WEB@東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− を開催しました - hamadakoichi blog
- 第22回 データマイニング+WEB@東京( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化 祭り− を開催しました - hamadakoichi blog
- 第21回 データマイニング+WEB@東京( #TokyoWebmining 21th)−ソーシャルグラフ解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第20回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しました - hamadakoichi blog
- 第19回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 19th)−データ徹底活用・機械学習 祭り− を開催しました - hamadakoichi blog
- 第18回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 18th)−大規模分散処理 最前線 祭り− を開催しました - hamadakoichi blog
- 第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog
- 第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました - hamadakoichi blog
- 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました - hamadakoichi blog
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog