第51回 データマイニング+WEB @東京( #TokyoWebmining 51st ) ー機械学習・分析基盤 祭りーを開催しました

2016/2/20 "第51回 データマイニング+WEB @東京( #TokyoWebmining 51st ) ー機械学習・分析基盤 祭りー" を開催しました。

会場提供して下さったSmartNewsさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

参加者セキココ:第51回 データマイニング+WEB @東京 セキココ
(作成してくれた [Twitter:@komiya_atsushi] さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員 自己紹介 (興味・活動)」(進行:[Twitter:@hamadakoichi])

※内容は上記ホワイトボード写真参照

1.「リクルートにおける Capture Everything Project での分析基盤構築と活用」(講師: [Twitter:@_stakaya] )(発表:30分+議論:30分)

リクルートライフスタイル全サービス横断でリアルタイムにログを収集・分析するための基盤を構築する「CET(Capture EveryThing)」プロジェクトにおける、データマイニングの活用について紹介します。特に、データマイニングを使っていく上で、実務において直面する種々の問題に対して、どう対応するべきかについて会場の皆さんと議論させていただきたいと考えいます。


2. 「Microsoft が推し進めるビッグデータ民主化 - Microsoft R Server/Power BI/Data Lake Analytics/Machine Learning - 」(講師: [Twitter:@kosasaki0]) (発表:50分+議論:40分)

マイクロソフトは より効率的、かつ大量のデータを使ったデータ分析のための基盤を急ピッチで拡充しています。分析自体やデータ準備の前処理における手段の1つとして使って頂くことを想定している各種製品・サービスについて説明します。具体的には、R の並列実行環境である Microsoft R Server、Power BI、並列処理基盤である Azure Data Lake Analytics、Azure Machine Learning を取り上げます。

参考文献
トピック・議論
  • 毎年、500-600 のサービスをリリース
  • AWSを超えるカバレッジ
  • ユビキタスとIoTの違い:開発としては、Cloud Service、通信環境が整い、安価にできてきた。
  • Power BI
    • 操作可能なダッシュボード。Tableauと戦う領域。
    • Open Source公開されている。毎週いろんな Dash Board が追加されている。
    • 基本無償。有償版:オンプレミスのデータと連携できる。
    • 値段、Open Sourceで自由に実装できる。
  • Azure Data Lake Analytics
    • Microsoft の社内基盤(Cosmos, SCOPE) を外部公開。MS版のBigTable, BigQury, EMR的な内容の提供。18万台のサーバー
    • 値段が安い。
  • Microsoft R Server
    • Revolution R -> Microsoft R。Microsoft
    • 分散実行で、Memory を意識せずに Rを書ける。
    • 利用パッケージを変える。Rx ついたライブラリに差し替え、分散実行されるようにする。sumary -> rxSummary
    • R Script をアップロードすると即時にREST APIとして利用可能。OSS。無償利用。Azureと異なり。オンプレでもできる。
  • Azure Machine Learning - Project Oxford
    • GUIでデータ処理定義できる。
    • Algorithm は、二十数個。クラス分類、クラスタリング、異常検知、回帰。
    • MS Research が作っている。論文は公開されている。Source は非公開。
    • Demo: Vision, Speech, Language API
    • 精度がいい。安い。
    • Language Model: Speech to Text、Text to Speech、Speaker Identification、日本語対応もまもなくされる。
    • 色々なものが揃っている。
    • 今後、Rも書けるようになる。

3. 「分析用汎用データマートの作成と、データイエンティストの憂鬱」(講師: [Twitter:@shoe116] )(発表:20分+議論:30分)

データ利用は、データマート(データを要件に合わせて抽出・整形とクレンジング)の作成が不可欠であるが、データマート作成の作業自体は価値を生まない。その一方でデータマート作成や作成したデータマートの確認が「データ分析の工数」の多くを占めることは珍しくない。
今回は、ビッグデータ分析を生業とするQubitalでの事例をもとに「汎用的に使えるデータマート」の設計とユースケース、そしてデータマート開発プロジェクトの進め方について知見・課題を共有する。
アジェンダ
 1. データ分析の価値は何で決まるか
 2. データサイエンティストの憂鬱
 3. どんなデータマートが“汎用”的に使えるのか
 4. 汎用データマート作成プロジェクトについて

トピック・議論
  • 既にある、家計簿 (Data Mart) から改善を提案することは誰でも出来る
  • レシートから家計簿を作ることは重要。
  • データ分析の価値を決めるのは、Do と Act。
  • 「顧客が本当に必要だったもの」が難しい。
  • 技術資産が溜まりづらい。分析者はデータを網羅的に扱わない。
  • 価値の進捗が顧客から見えづらい。データ加工のときは価値が見えない。
  • よくやる処理を行っておく。全員がそのデータから始める。イケてる中間データを作る。
  • よかった:作業が減る。データの質が担保できる。
  • よくなかった:データ量、データ処理量が増える。消そうとすると怒られる。
  • アナリストと githubでのコミュニケーションに移行。issueでしか依頼を受けないようにした。メールでは依頼を受けない。
  • 本当にやりたいことを聞く。

■ツイートまとめ (Togetter)

「第51回 データマイニング+WEB @東京( #TokyoWebmining 51st ) ー機械学習・分析基盤 祭りー」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

Togetter:

■関連エントリ

■講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

振返り:

振返りホワイトボード(Keep/Try/Talk候補):

■過去開催内容: