第51回 データマイニング+WEB @東京( #TokyoWebmining 51st ) ー機械学習・分析基盤 祭りーを開催しました
2016/2/20 "第51回 データマイニング+WEB @東京( #TokyoWebmining 51st ) ー機械学習・分析基盤 祭りー" を開催しました。
会場提供して下さったSmartNewsさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。
参加者セキココ:第51回 データマイニング+WEB @東京 セキココ
(作成してくれた [Twitter:@komiya_atsushi] さんに感謝)
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O2.「参加者全員 自己紹介 (興味・活動)」(進行:[Twitter:@hamadakoichi])
※内容は上記ホワイトボード写真参照
1.「リクルートにおける Capture Everything Project での分析基盤構築と活用」(講師: [Twitter:@_stakaya] )(発表:30分+議論:30分)
リクルートライフスタイル全サービス横断でリアルタイムにログを収集・分析するための基盤を構築する「CET(Capture EveryThing)」プロジェクトにおける、データマイニングの活用について紹介します。特に、データマイニングを使っていく上で、実務において直面する種々の問題に対して、どう対応するべきかについて会場の皆さんと議論させていただきたいと考えいます。
2. 「Microsoft が推し進めるビッグデータの民主化 - Microsoft R Server/Power BI/Data Lake Analytics/Machine Learning - 」(講師: [Twitter:@kosasaki0]) (発表:50分+議論:40分)
マイクロソフトは より効率的、かつ大量のデータを使ったデータ分析のための基盤を急ピッチで拡充しています。分析自体やデータ準備の前処理における手段の1つとして使って頂くことを想定している各種製品・サービスについて説明します。具体的には、R の並列実行環境である Microsoft R Server、Power BI、並列処理基盤である Azure Data Lake Analytics、Azure Machine Learning を取り上げます。
参考文献
トピック・議論
- 毎年、500-600 のサービスをリリース
- AWSを超えるカバレッジ
- ユビキタスとIoTの違い:開発としては、Cloud Service、通信環境が整い、安価にできてきた。
- Power BI
- 操作可能なダッシュボード。Tableauと戦う領域。
- Open Source公開されている。毎週いろんな Dash Board が追加されている。
- 基本無償。有償版:オンプレミスのデータと連携できる。
- 値段、Open Sourceで自由に実装できる。
- Azure Data Lake Analytics
- Microsoft R Server
- Azure Machine Learning - Project Oxford
- GUIでデータ処理定義できる。
- Algorithm は、二十数個。クラス分類、クラスタリング、異常検知、回帰。
- MS Research が作っている。論文は公開されている。Source は非公開。
- Demo: Vision, Speech, Language API
- 精度がいい。安い。
- Language Model: Speech to Text、Text to Speech、Speaker Identification、日本語対応もまもなくされる。
- 色々なものが揃っている。
- 今後、Rも書けるようになる。
3. 「分析用汎用データマートの作成と、データイエンティストの憂鬱」(講師: [Twitter:@shoe116] )(発表:20分+議論:30分)
データ利用は、データマート(データを要件に合わせて抽出・整形とクレンジング)の作成が不可欠であるが、データマート作成の作業自体は価値を生まない。その一方でデータマート作成や作成したデータマートの確認が「データ分析の工数」の多くを占めることは珍しくない。
今回は、ビッグデータ分析を生業とするQubitalでの事例をもとに「汎用的に使えるデータマート」の設計とユースケース、そしてデータマート開発プロジェクトの進め方について知見・課題を共有する。
アジェンダ:
1. データ分析の価値は何で決まるか
2. データサイエンティストの憂鬱
3. どんなデータマートが“汎用”的に使えるのか
4. 汎用データマート作成プロジェクトについて
トピック・議論
- 既にある、家計簿 (Data Mart) から改善を提案することは誰でも出来る
- レシートから家計簿を作ることは重要。
- データ分析の価値を決めるのは、Do と Act。
- 「顧客が本当に必要だったもの」が難しい。
- 技術資産が溜まりづらい。分析者はデータを網羅的に扱わない。
- 価値の進捗が顧客から見えづらい。データ加工のときは価値が見えない。
- よくやる処理を行っておく。全員がそのデータから始める。イケてる中間データを作る。
- よかった:作業が減る。データの質が担保できる。
- よくなかった:データ量、データ処理量が増える。消そうとすると怒られる。
- アナリストと githubでのコミュニケーションに移行。issueでしか依頼を受けないようにした。メールでは依頼を受けない。
- 本当にやりたいことを聞く。
■ツイートまとめ (Togetter)
「第51回 データマイニング+WEB @東京( #TokyoWebmining 51st ) ー機械学習・分析基盤 祭りー」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
Togetter:
■関連エントリ
- データサイエンティストの憂鬱と退屈 - きっと、ずっと、会議は踊る (Talk 3. [Twitter:@shoe116] さんのエントリです!)
■講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
振返り:
振返りホワイトボード(Keep/Try/Talk候補):
■過去開催内容:
- 第50回 データマイニング+WEB @東京( #TokyoWebmining 50th ) ー機械学習 実活用 祭りーを開催しました - hamadakoichi blog
- 第49回 データマイニング+WEB @東京( #TokyoWebmining 49th ) ー機械学習 方法論 祭りーを開催しました - hamadakoichi blog
- 第48回 データマイニング+WEB @東京( #TokyoWebmining 48th ) ーAWS上での分析基盤アーキテクチャ最前線 祭りーを開催しました - hamadakoichi blog
- 第47回 データマイニング+WEB @東京( #TokyoWebmining 47th ) ー潜在モデリング 実活用 祭りーを開催しました - hamadakoichi blog
- 第46回 データマイニング+WEB @東京( #TokyoWebmining 46th ) ー統計モデリング 実活用 祭りーを開催しました - hamadakoichi blog
- 第45回 データマイニング+WEB @東京 ( #TokyoWebmining 45th ) − オープンデータ 最前線と未来 祭り −を開催しました - hamadakoichi blog
- 第44回 データマイニング+WEB @東京 ( #TokyoWebmining 44th ) − 大規模分散・パーソナライズ 実活用 祭り −を開催しました - hamadakoichi blog
- 第43回 データマイニング+WEB @東京( #TokyoWebmining 43rd )−マーケティングモデリング・評価設計 祭り−を開催しました - hamadakoichi blog
- 第42回 データマイニング+WEB @東京( #TokyoWebmining 42nd ) −深層学習・表現学習 徹底活用 祭り−を開催しました - hamadakoichi blog
- 第41回 データマイニング+WEB @東京( #TokyoWebmining 41st ) −モデリング・テキスト分析 祭り−を開催しました - hamadakoichi blog
- 第40回 データマイニング+WEB @東京( #TokyoWebmining 40th ) − ソーシャル最適化 祭り −を開催しました - hamadakoichi blog
- 第39回 データマイニング+WEB@東京( #TokyoWebmining 39th ) − 捗る機械学習・自然言語処理 祭り − を開催しました - hamadakoichi blog
- 第38回 データマイニング+WEB@東京( #TokyoWebmining 38th ) −マーケティング分析活用最前線 祭り− を開催しました - hamadakoichi blog
- 第37回 データマイニング+WEB@東京( #TokyoWebmining 37th ) −広告配信最適化・実運用 祭り− を開催しました - hamadakoichi blog
- 第36回 データマイニング+WEB@東京( #TokyoWebmining 36th ) −確率モデリング・サービス活用 祭り− を開催しました - hamadakoichi blog
- 第35回 データマイニング+WEB@東京( #TokyoWebmining 35th ) −サーベイ・オープンデータ活用祭り−を開催しました - hamadakoichi blog
- 第34回 データマイニング+WEB@東京( #TokyoWebmining 34th ) −パーソナライズ・マーケティング 祭り−を開催しました - hamadakoichi blog
- 第33回 データマイニング+WEB@東京( #TokyoWebmining 33rd ) − 大規模データ活用・サービス開発 祭り−を開催しました - hamadakoichi blog
- 第32回 データマイニング+WEB@東京( #TokyoWebmining 32nd ) −マーケティング最適化・最前線 祭り−を開催しました - hamadakoichi blog
- 第31回 データマイニング+WEB@東京( #TokyoWebmining 31st ) −大規模データ 活用・基盤・育成 祭り−を開催しました - hamadakoichi blog
- 第30回 データマイニング+WEB@東京( #TokyoWebmining 30th)−機械学習活用・マーケティング 祭り− を開催しました - hamadakoichi blog
- 第29回 データマイニング+WEB@東京( #TokyoWebmining 29th)−大規模解析・サービス活用 祭り− を開催しました - hamadakoichi blog
- 第28回 データマイニング+WEB@東京( #TokyoWebmining 28th) −データマイニング・機械学習とビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第27回 データマイニング+WEB@東京( #TokyoWebmining 27th) −WEB解析・オープンデータ・クラウド 祭り− を開催しました - hamadakoichi blog
- 第26回 データマイニング+WEB@東京( #TokyoWebmining 26th) −オープンデータ活用・ソーシャ ル・アドテクノロジー 祭り− を開催しました - hamadakoichi blog
- 第25回 データマイニング+WEB@東京( #TokyoWebmining 25th) −大規模分散 高速解析・ユーザ徹底理解 祭り− を開催しました - hamadakoichi blog
- 第24回 データマイニング+WEB@東京( #TokyoWebmining 24th) −大規模データ・ソーシャル解析 祭り− を開催しました - hamadakoichi blog
- 第23回 データマイニング+WEB@東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− を開催しました - hamadakoichi blog
- 第22回 データマイニング+WEB@東京( #TokyoWebmining 22nd)−広告最適化・アクセス解析・可視化 祭り− を開催しました - hamadakoichi blog
- 第21回 データマイニング+WEB@東京( #TokyoWebmining 21th)−ソーシャルグラフ解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第20回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しました - hamadakoichi blog
- 第19回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 19th)−データ徹底活用・機械学習 祭り− を開催しました - hamadakoichi blog
- 第18回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 18th)−大規模分散処理 最前線 祭り− を開催しました - hamadakoichi blog
- 第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog
- 第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました - hamadakoichi blog
- 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました - hamadakoichi blog
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog