第51回データマイニング+WEB ＠東京( #TokyoWebmining 51st ) ー機械学習・分析基盤祭りーを開催しました

2016/2/20 "第51回データマイニング+WEB ＠東京( #TokyoWebmining 51st ) ー機械学習・分析基盤祭りー" を開催しました。

会場提供して下さったSmartNewsさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

参加者セキココ：第51回データマイニング+WEB ＠東京セキココ
(作成してくれた [Twitter:@komiya_atsushi] さんに感謝）

以下、全講師資料、関連資料、ツイートまとめです。

AGENDA：

■Opening Talk：

O1.「データマイニング+WEB＠東京について」

講師：[Twitter:@hamadakoichi]

オープニングトーク − 創設の思い・目的・進行方針　−データマイニング+WEB勉強会＠東京 from Koichi Hamada

O2.「参加者全員自己紹介 (興味・活動)」(進行：[Twitter:@hamadakoichi])

※内容は上記ホワイトボード写真参照

1.「リクルートにおける Capture Everything Project での分析基盤構築と活用」(講師: [Twitter:@_stakaya] )(発表:30分+議論:30分)

CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線 from Recruit Lifestyle Co., Ltd.

リクルートライフスタイル全サービス横断でリアルタイムにログを収集・分析するための基盤を構築する「CET（Capture EveryThing）」プロジェクトにおける、データマイニングの活用について紹介します。特に、データマイニングを使っていく上で、実務において直面する種々の問題に対して、どう対応するべきかについて会場の皆さんと議論させていただきたいと考えいます。

2. 「Microsoft が推し進めるビッグデータの民主化 - Microsoft R Server/Power BI/Data Lake Analytics/Machine Learning - 」(講師: [Twitter:@kosasaki0]) (発表:50分+議論:40分)

20160220 MSのビッグデータ分析基盤 - データマイニング+WEB＠東京 from kosasaki

マイクロソフトはより効率的、かつ大量のデータを使ったデータ分析のための基盤を急ピッチで拡充しています。分析自体やデータ準備の前処理における手段の１つとして使って頂くことを想定している各種製品・サービスについて説明します。具体的には、R の並列実行環境である Microsoft R Server、Power BI、並列処理基盤である Azure Data Lake Analytics、Azure Machine Learning を取り上げます。

参考文献

Microsoft R Server: 資料1, 資料2
Power BI : 資料
Azure Data Lake Analytics: 資料
Machine Learning: 資料1, 資料2

トピック・議論

毎年、500-600 のサービスをリリース
AWSを超えるカバレッジ
ユビキタスとIoTの違い：開発としては、Cloud Service、通信環境が整い、安価にできてきた。
Power BI
- 操作可能なダッシュボード。Tableauと戦う領域。
- Open Source公開されている。毎週いろんな Dash Board が追加されている。
- 基本無償。有償版：オンプレミスのデータと連携できる。
- 値段、Open Sourceで自由に実装できる。
Azure Data Lake Analytics
- Microsoft の社内基盤(Cosmos, SCOPE) を外部公開。MS版のBigTable, BigQury, EMR的な内容の提供。18万台のサーバー
- 値段が安い。
Microsoft R Server
- Revolution R -> Microsoft R。Microsoft
- 分散実行で、Memory を意識せずに Rを書ける。
- 利用パッケージを変える。Rx ついたライブラリに差し替え、分散実行されるようにする。sumary -> rxSummary
- R Script をアップロードすると即時にREST APIとして利用可能。OSS。無償利用。Azureと異なり。オンプレでもできる。
Azure Machine Learning - Project Oxford
- GUIでデータ処理定義できる。
- Algorithm は、二十数個。クラス分類、クラスタリング、異常検知、回帰。
- MS Research が作っている。論文は公開されている。Source は非公開。
- Demo: Vision, Speech, Language API
  - Face API
  - Emotion API
- 精度がいい。安い。
  - MS Vision API、安い。価格:120円/1000回。(Google Vision API は 200円/1000回 )
- Language Model: Speech to Text、Text to Speech、Speaker Identification、日本語対応もまもなくされる。
- 色々なものが揃っている。
- 今後、Rも書けるようになる。

3. 「分析用汎用データマートの作成と、データイエンティストの憂鬱」(講師: [Twitter:@shoe116] )（発表:20分+議論:30分）

tokyo_webmining_no51 from Shu (shoe116)

データ利用は、データマート（データを要件に合わせて抽出・整形とクレンジング）の作成が不可欠であるが、データマート作成の作業自体は価値を生まない。その一方でデータマート作成や作成したデータマートの確認が「データ分析の工数」の多くを占めることは珍しくない。
今回は、ビッグデータ分析を生業とするQubitalでの事例をもとに「汎用的に使えるデータマート」の設計とユースケース、そしてデータマート開発プロジェクトの進め方について知見・課題を共有する。
アジェンダ：
　1. データ分析の価値は何で決まるか
　2. データサイエンティストの憂鬱
　3. どんなデータマートが“汎用”的に使えるのか
　4. 汎用データマート作成プロジェクトについて

トピック・議論

既にある、家計簿 (Data Mart) から改善を提案することは誰でも出来る
レシートから家計簿を作ることは重要。
データ分析の価値を決めるのは、Do と Act。
「顧客が本当に必要だったもの」が難しい。
技術資産が溜まりづらい。分析者はデータを網羅的に扱わない。
価値の進捗が顧客から見えづらい。データ加工のときは価値が見えない。
よくやる処理を行っておく。全員がそのデータから始める。イケてる中間データを作る。
よかった：作業が減る。データの質が担保できる。
よくなかった：データ量、データ処理量が増える。消そうとすると怒られる。
アナリストと githubでのコミュニケーションに移行。issueでしか依頼を受けないようにした。メールでは依頼を受けない。
本当にやりたいことを聞く。

■ツイートまとめ (Togetter)

「第51回データマイニング+WEB ＠東京( #TokyoWebmining 51st ) ー機械学習・分析基盤祭りー」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

Togetter:

Togetter-第51回データマイニング+WEB ＠東京( #TokyoWebmining 51st ) ー機械学習・分析基盤祭りー

■関連エントリ

データサイエンティストの憂鬱と退屈 - きっと、ずっと、会議は踊る (Talk 3. [Twitter:@shoe116] さんのエントリです！)

■講師募集

データマイニング+WEB勉強会＠東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。

連絡先：

■Wiki

TokyoWebmining

振返り：

振返りホワイトボード(Keep/Try/Talk候補):

hamadakoichi blog

第51回データマイニング+WEB ＠東京( #TokyoWebmining 51st ) ー機械学習・分析基盤祭りーを開催しました

■Opening Talk：

O1.「データマイニング+WEB＠東京について」

O2.「参加者全員自己紹介 (興味・活動)」(進行：[Twitter:@hamadakoichi])

1.「リクルートにおける Capture Everything Project での分析基盤構築と活用」(講師: [Twitter:@_stakaya] )(発表:30分+議論:30分)

2. 「Microsoft が推し進めるビッグデータの民主化 - Microsoft R Server/Power BI/Data Lake Analytics/Machine Learning - 」(講師: [Twitter:@kosasaki0]) (発表:50分+議論:40分)

参考文献

トピック・議論

3. 「分析用汎用データマートの作成と、データイエンティストの憂鬱」(講師: [Twitter:@shoe116] )（発表:20分+議論:30分）

トピック・議論

■ツイートまとめ (Togetter)

■関連エントリ

■講師募集

■Wiki

振返り：

■過去開催内容：

■Opening Talk：

O1.「データマイニング+WEB＠東京 について」

O2.「参加者全員 自己紹介 (興味・活動)」(進行：[Twitter:@hamadakoichi])

1.「リクルートにおける Capture Everything Project での分析基盤構築と活用」(講師: [Twitter:@_stakaya] )(発表:30分+議論:30分)

2. 「Microsoft が推し進めるビッグデータの民主化 - Microsoft R Server/Power BI/Data Lake Analytics/Machine Learning - 」(講師: [Twitter:@kosasaki0]) (発表:50分+議論:40分)

参考文献

トピック・議論

3. 「分析用汎用データマートの作成と、データイエンティストの憂鬱」(講師: [Twitter:@shoe116] )（発表:20分+議論:30分）

トピック・議論

■ツイートまとめ (Togetter)

■関連エントリ

■講師募集

■Wiki

振返り：

■過去開催内容：

O1.「データマイニング+WEB＠東京について」

O2.「参加者全員自己紹介 (興味・活動)」(進行：[Twitter:@hamadakoichi])