第53回 データマイニング+WEB @東京( #TokyoWebmining 53rd )ーファッション・コマース 機械学習 祭りーを開催しました

2016/4/16 "第53回 データマイニング+WEB @東京( #TokyoWebmining 53rd ) ーファッション・コマース 機械学習 祭りー" を開催しました。

会場提供して下さったSmartNewsさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

参加者セキココ:第53回 データマイニング+WEB @東京 セキココ
(作成してくれた [Twitter:@komiya_atsushi] さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員 自己紹介 (興味・活動)」(進行:[Twitter:@hamadakoichi])

0. 「ファッションでの深層学習活用した体験提供 」: 実サービスを用いたデモ ( [Twitter:@hamadakoichi] )

  • MERYアプリ「関連商品」
    • 体験提供:『ユーザーひとりひとりが自分の好きなスタイル・テイストの商品に出会いファッションを楽しめる』
    • 距離算出に適した空間を構成する構造を持つ Convolutional Neural Networkの構築・学習
    • ファッションのスタイル・テイストが似ている商品をたどれる。
    • 「商品を着用した モデル画像」「商品画像」 区別なく 類似スタイル・テイストの商品をたどれる
      • 例:「サングラスをかけた モデル画像」から、モデルがかけているサングラスとスタイル・テイストが似ている「サングラス画像」をたどれる。
    • 全アプリ適用されているので実際に体験できる。
  • MERYアプリを実際にさわってみてると深層学習活用した提供体験がよく分かる。
  • 近々、上記内容を含む、"Experience Design Conference 2016" での登壇資料も公開予定です。
  • [開催後追記]:
    • KANEYAMAさんが素敵な体験動画をアップして下さいました。非常にわかりやすい動画なのでぜひご覧下さい(記載了承済)。

1.「Fashion Techのあんちょこ − 機械学習編 − 」(講師:[Twitter:@tn1031])(発表:30分 + 議論:45分)

ITを活用したファッション関連サービスの盛り上がりは、Fashion Techという言葉の誕生に象徴されます。Fashion Techが含む数あるテーマのうち、本発表では特に機械学習に焦点をあて、ファッションを対象にした研究事例について紹介します。

トピック・議論:
  • Fashioning Data: A 2015 Update - Data Innovations from the Fashion Industry: Fashioning Data: A 2015 Update [Book]
  • Styloko: https://www.styloko.com/
    • 柄の似たもの
  • deepomotic:Image Recognition and Computer Vision Software | Deepomatic
    • 画像からEC サイトから商品検索。
  • レコメンド
    • 行動、画像特徴、流行
  • Fashion Apparel Detection: The Role of Deep Convolutional Neural Network and Pose-dependent Priors
  • Fashionista: A Fashion-aware Graphical System for Exploring Visually Similar Items
    • 論文PDF
    • 画像検索
    • アマゾン購入(流行に用いる)
    • 画像特徴量: 学習済 CNN
    • Fashion Learner : Matrix Factorizationベースの手法。
      • アイテムの魅力についての時間推移:
        • 魅力:購入数
      • 視覚情報にたいするユーザ反応の推移:
        • Ups and Downs: Modeling the Visual Evolution of Fashion Trends with One-Class Collaborative Filtering
        • 論文PDF
      • ユーザごとの趣向の変化
    • 出力
      • アイテム類似度
      • 魅力の推移
  • Hi, magic closet, tell me what to wear!
    • 論文PDF
    • Youtubeデモ動画
    • 教師データ:上半身・下半身の、画像特徴量/属性(色とか)、Occation
    • 出力:Occationと属性の関連性
  • ファッションでの興味の一貫性はどのくらい続くのか。研究あるのか。
    • 全体傾向は11年みられた研究があるが、個人の興味の研究はあまりみない。
  • iQONアプリ:iOS, Android
参考文献:

2.「人工知能xファッション最前線」(講師: [Twitter:@kazukibs] )(発表:30分+議論:45分)

最近良くも悪くも話題の人工知能ですが、サービスにどのように応用できるのかファッションを例にご紹介したいと思います。実際にどういうところで上手く活用できていてどういうところに課題があるのかなどをお話しします。技術的には深層学習、画像解析、自然言語処理などの話題を織り交ぜつつ展開していく予定です。

トピック・議論
  • 単品・スナップ・色違い込み
  • CNNを用いて分類
    • 顔のあるなし判定: コーデ画像きれいに
    • 商品のテイスト分類(20種):ストリート、ガーリー、等
    • カテゴリ判定
      • サイトによってはとても粗い分類されている。コーデは特に重要。Tシャツ、シャツ、チュニック等が全てトップスになっていたりする。
  • セグメンテーション: 複数商品の写真から単品商品を取る
    • BING, Selective Search 等
  • 副産物:曖昧な抽出:
    • 例:春物のシャツが欲しい
      • 明るい服 : フィルタをかける。
  • 自然言語処理
    • レビュー・説明文
    • つらい:画像に説明文が入れられている。OCRが必要。
      • ブランドロゴを写真に入れているから、ブランド名を文章で入れていない。
  • ファッション固有の問題
    • 型番入っていない。ロジカルより感性的な自然言語表現。
    • 表現の名寄せ:サロペット/オーバーオール
  • ファッション自然言語処理の課題
    • 辞書つらい(新ブランド)
    • 名寄厳しい(表記)
    • SEO対策対策(関係ないけど、グッチ、プラダとか入っている)
  • 他の活動
    • ブランドの距離
      • ブランド単位での共起。アイテムレベルではスパースなので。好き・嫌い行動から。
      • 異性のブランドの評価、厳しい。
    • ファッション統計
      • アイテム・ブランドに対しユーザごとの好き・嫌い(好き判断回数/見られた回数)は数十倍レベルで異なる。
      • 金額に敏感な人は高額なブランドでは嫌い選択する場合が多い
    • コーディネート
      • 白シャツ→選択した 白シャツに合う、アイテムパンツ、小物、等を選択
      • 色の組合せ、目立つものの制限、等
    • コーディネートの方法の議論
      • コーディネートに対しても、ユーザが好き・嫌い評価。
      • ユーザがコーディネートするサービスでは、ユーザの作成が使える。このアイテムを用いたコーデを教えて欲しい、等
  • SENSYアプリ:iOS, Android
参考文献

深層学習 (機械学習プロフェッショナルシリーズ)

深層学習 (機械学習プロフェッショナルシリーズ)

トピックモデル (機械学習プロフェッショナルシリーズ)

トピックモデル (機械学習プロフェッショナルシリーズ)

最適化手法の基礎-力学モデルによる理解と実装 -

最適化手法の基礎-力学モデルによる理解と実装 -

3.「オークション市場における取引価格予測」(講師: [Twitter:@kos59125] )(発表:20分+議論: 35分)

[UST・資料]:【非公開】
オークション市場においては、日々様々な物品が取引されています。本発表で扱う商品(発表時のみ公開)は、その使用期間・商品特性・トレンドにより、比較的安定して価格の予測ができることが経験的に知られています。
本発表では、取引価格予測を中心に、発生した問題や解決の方法などの事例を紹介したいと考えています。

■ツイートまとめ (Togetter)

「第53回 データマイニング+WEB @東京( #TokyoWebmining 53rd ) ーファッション・コマース 機械学習 祭りー」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

■講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

振返り:

振返りホワイトボード(Keep/Try/Talk候補):

■過去開催内容:

第52回 データマイニング+WEB @東京( #TokyoWebmining 52nd )ー機械学習活用 祭りーを開催しました

2016/3/26 "第52回 データマイニング+WEB @東京( #TokyoWebmining 52nd ) ー機械学習活用 祭りー" を開催しました。

会場提供して下さったFreakOutさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

参加者セキココ:第52回 データマイニング+WEB @東京 セキココ
(作成してくれた [Twitter:@komiya_atsushi] さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員 自己紹介 (興味・活動)」(進行:[Twitter:@hamadakoichi])

※内容は上記ホワイトボード写真参照

1.「アドテクのラストリゾート〜テレビ視聴をビッグデータにできるか?」(講師: [Twitter:@shkali], [Twitter:@yoshikick_0518]) (発表:30分+議論:30分)

TVISION INSIGHTSというベンチャーです。テレビについて、けっこう誰も持っていないようなデータを持ってます。どう活用できるか、ぜひみなさんと議論していきたいです。
一言でいうと、3Dモーション・センシング・画像認識技術でのアルゴリズムを開発して、テレビにセンサーをセットして、その前に座る一人ひとりの視聴状況をデータとして取得できる技術を開発しました。そして、いま、この瞬間でも、けっこうな量のデータを取ってます。お話できることを楽しみにしております。

参考文献:

トピック・議論
  • TVの前にいるか、TVのほうを向いているか、TVをみているときの表情、の各種計測・分析。
  • 実際にどのくらい見られているかの計測
  • 関東でのTV計測の世帯数は TV視聴率計測(Video Research)を越えた
    • TV視聴率 : 600世帯
    • Vision Insights : 660世帯
  • 表情・態勢の認識、距離が重要。
  • チャンネル識別は音声認識から。

2. 「行動ベースレコメンデーションの最前線」(講師: [Twitter:@hamukazu]) (発表:35分+議論:35分)

トピック・議論
  • 世界中の人が読めるよう英語資料
  • Rating Prediction
  • Item Prediction
  • 教科書的なアルゴリズム
  • Matrix Factorization
    • 評価を潜在変数の線形結合で表現
    • Shopping(購入有無)ではそのままではうまく使えない
  • 対処
    • 制約をいれる
      • 0の要素も予測する方法
      • Elastic Net
    • 目的関数を変える
      • Ranking Prediction
      • 数値ではなくどちらが大きいかを学ぶ
      • Bayesian Probabilistic Ranking(BPR)
      • 順序集合を与えて、一致するようにする。
      • 探索空間を広くする (u, i, j ) ... U x I x I の空間
      • 探索空間広くなったので、Stocastic Gradient Descent で確率的に解く
      • Sampling する要素数は、要素と同じくらい
  • Open Source 実装
    • MyMediaLite
  • Practical Aspect of Recommendation Problem
  • 実適用でのHyper Paramter
    • 業界ごとに特徴ある
  • 行動ベースのオンライン学習
    • 論文あまりない

3. 「意味表現の素性への構造主義的アプローチ入門」(講師: [Twitter:@su_9qu]) (発表:35分+議論:35分)

日常の事象やテキストを、分析の対象にするとき、事象をどう表現すればいいんだろう?と立ち止まったことはありませんか?このことは、事象の意味とは何か?そして、意味とは何か?というところまで関係しているように思います。その不明瞭さを解く糸口の1つとして、構造主義の考えをご紹介します。素性の作り方には入りませんが、考え方のヒントになればと思います。
目次
(1)序論
(2)ソシュールの説
(3)批判者の説
(4)構造主義に関わるその他の研究
(5)まとめ

トピック・議論
  • 意味の保持の方法、意味の保持のプラットフォーム
  • 意味とはなにか
    • 要約が文の意味をいったことになるか
    • 人は文の意味をわかっている
  • ソシュールの説:意味を切り込む道具
    • ラング
      • 聞き取られ実践された決まり事
    • パロール
      • 思考を表現するために選択に任された組合せ
    • 対象は主体(話者)の外にある。名称は主体の中にある。
    • 「意味」にあたるものは「差異」からしか生まれない
    • ラングの中には差異しかない。記号の差異だけしかない。
    • 知覚されるものも差異のみ
  • 共時:タイムスライス、通時:時間軸
  • 構造論を推進するモチベーション、思想家と、機械にいみを持たせる技術者では異なる。

■ツイートまとめ (Togetter)

「第52回 データマイニング+WEB @東京( #TokyoWebmining 52nd ) ー機械学習活用 祭りー」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

■講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

■過去開催内容:

第51回 データマイニング+WEB @東京( #TokyoWebmining 51st ) ー機械学習・分析基盤 祭りーを開催しました

2016/2/20 "第51回 データマイニング+WEB @東京( #TokyoWebmining 51st ) ー機械学習・分析基盤 祭りー" を開催しました。

会場提供して下さったSmartNewsさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

参加者セキココ:第51回 データマイニング+WEB @東京 セキココ
(作成してくれた [Twitter:@komiya_atsushi] さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員 自己紹介 (興味・活動)」(進行:[Twitter:@hamadakoichi])

※内容は上記ホワイトボード写真参照

1.「リクルートにおける Capture Everything Project での分析基盤構築と活用」(講師: [Twitter:@_stakaya] )(発表:30分+議論:30分)

リクルートライフスタイル全サービス横断でリアルタイムにログを収集・分析するための基盤を構築する「CET(Capture EveryThing)」プロジェクトにおける、データマイニングの活用について紹介します。特に、データマイニングを使っていく上で、実務において直面する種々の問題に対して、どう対応するべきかについて会場の皆さんと議論させていただきたいと考えいます。


2. 「Microsoft が推し進めるビッグデータ民主化 - Microsoft R Server/Power BI/Data Lake Analytics/Machine Learning - 」(講師: [Twitter:@kosasaki0]) (発表:50分+議論:40分)

マイクロソフトは より効率的、かつ大量のデータを使ったデータ分析のための基盤を急ピッチで拡充しています。分析自体やデータ準備の前処理における手段の1つとして使って頂くことを想定している各種製品・サービスについて説明します。具体的には、R の並列実行環境である Microsoft R Server、Power BI、並列処理基盤である Azure Data Lake Analytics、Azure Machine Learning を取り上げます。

参考文献
トピック・議論
  • 毎年、500-600 のサービスをリリース
  • AWSを超えるカバレッジ
  • ユビキタスとIoTの違い:開発としては、Cloud Service、通信環境が整い、安価にできてきた。
  • Power BI
    • 操作可能なダッシュボード。Tableauと戦う領域。
    • Open Source公開されている。毎週いろんな Dash Board が追加されている。
    • 基本無償。有償版:オンプレミスのデータと連携できる。
    • 値段、Open Sourceで自由に実装できる。
  • Azure Data Lake Analytics
    • Microsoft の社内基盤(Cosmos, SCOPE) を外部公開。MS版のBigTable, BigQury, EMR的な内容の提供。18万台のサーバー
    • 値段が安い。
  • Microsoft R Server
    • Revolution R -> Microsoft R。Microsoft
    • 分散実行で、Memory を意識せずに Rを書ける。
    • 利用パッケージを変える。Rx ついたライブラリに差し替え、分散実行されるようにする。sumary -> rxSummary
    • R Script をアップロードすると即時にREST APIとして利用可能。OSS。無償利用。Azureと異なり。オンプレでもできる。
  • Azure Machine Learning - Project Oxford
    • GUIでデータ処理定義できる。
    • Algorithm は、二十数個。クラス分類、クラスタリング、異常検知、回帰。
    • MS Research が作っている。論文は公開されている。Source は非公開。
    • Demo: Vision, Speech, Language API
    • 精度がいい。安い。
    • Language Model: Speech to Text、Text to Speech、Speaker Identification、日本語対応もまもなくされる。
    • 色々なものが揃っている。
    • 今後、Rも書けるようになる。

3. 「分析用汎用データマートの作成と、データイエンティストの憂鬱」(講師: [Twitter:@shoe116] )(発表:20分+議論:30分)

データ利用は、データマート(データを要件に合わせて抽出・整形とクレンジング)の作成が不可欠であるが、データマート作成の作業自体は価値を生まない。その一方でデータマート作成や作成したデータマートの確認が「データ分析の工数」の多くを占めることは珍しくない。
今回は、ビッグデータ分析を生業とするQubitalでの事例をもとに「汎用的に使えるデータマート」の設計とユースケース、そしてデータマート開発プロジェクトの進め方について知見・課題を共有する。
アジェンダ
 1. データ分析の価値は何で決まるか
 2. データサイエンティストの憂鬱
 3. どんなデータマートが“汎用”的に使えるのか
 4. 汎用データマート作成プロジェクトについて

トピック・議論
  • 既にある、家計簿 (Data Mart) から改善を提案することは誰でも出来る
  • レシートから家計簿を作ることは重要。
  • データ分析の価値を決めるのは、Do と Act。
  • 「顧客が本当に必要だったもの」が難しい。
  • 技術資産が溜まりづらい。分析者はデータを網羅的に扱わない。
  • 価値の進捗が顧客から見えづらい。データ加工のときは価値が見えない。
  • よくやる処理を行っておく。全員がそのデータから始める。イケてる中間データを作る。
  • よかった:作業が減る。データの質が担保できる。
  • よくなかった:データ量、データ処理量が増える。消そうとすると怒られる。
  • アナリストと githubでのコミュニケーションに移行。issueでしか依頼を受けないようにした。メールでは依頼を受けない。
  • 本当にやりたいことを聞く。

■ツイートまとめ (Togetter)

「第51回 データマイニング+WEB @東京( #TokyoWebmining 51st ) ー機械学習・分析基盤 祭りー」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

Togetter:

■関連エントリ

■講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

振返り:

振返りホワイトボード(Keep/Try/Talk候補):

■過去開催内容:

第50回 データマイニング+WEB @東京( #TokyoWebmining 50th ) ー機械学習 実活用 祭りーを開催しました

2016/1/16 "第50回 データマイニング+WEB @東京( #TokyoWebmining 50th ) ー機械学習 実活用 祭りー" を開催しました。

会場提供し運営を手伝って下さった FreakOut のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

参加者セキココ:第50回 データマイニング+WEB @東京 セキココ
(作成してくれた [Twitter:@komiya_atsushi] さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員 自己紹介 (興味・活動)」(進行:[Twitter:@hamadakoichi]) (75分)

※内容は上記ホワイトボード写真参照

1.「データ・機械学習活用 アンカンファレンス」(進行: : [Twitter:@iakiyama])


アンカンファレンスとは、参加者が自分の議論したいトピックに関して話し、参加者が全員で議論・課題解決を行い、作りあげるカンファレンスです。TokyoWebmining には、データ・機械学習の各領域での実活用を行っているメンバーが集まっています。日頃、議論したいトピックをぜひ議論しましょう。

進行:

  • 14:00 - アンカンファレンステーマ投票 グループ3〜4つ
  • 14:20 - アンカンファレンス討議 
  • 14:50 - アンカンファレンス各チーム発表(5分x3〜4)
  • 15:00 - アンカンファレンス終了
ホワイトボード写真
1. "Deep Learning" Team


2. "機械学習" Team


2. 「子どもたちの未来を支える機械学習」(講師: [Twitter:@siero5335]) (発表:20分+議論:30分)

PCBs, Dioxinなどを始めとする有機ハロゲン化合物は、胎盤を通じて母体から胎児へ移行することが知られている。これらの化学物質は脳神経系の発達に悪影響をおよぼすことが報告されており、発生初期の曝露による胎児への影響が懸念されている。 既報により、母体血清中・臍帯血清中の有機ハロゲン化合物の濃度間には相関関係が認められ、化学物質ごとに母子間移行率が異なることが明らかになっている。
しかし、これら化合物の母子間移行率の差がどのような物理化学的特性に基づいているかを研究した例は限られている。
本研究では定量的構造物性相関(QSPR) により得た有機ハロゲン化合物の物理化学的特性と母子間移行率の関係を解析し、母子間移行率に関与する化学物質の物理化学的性質の特定を試みた。

参考文献:

3. 「パーソナル広告配信徹底入門」 (講師: @yskn67 ) (発表: 30分+議論: 40分)

インターネット上での広告表示はRTB (Real Time Bidding) の登場により、広告枠に対して表示する方法から人に対して表示する方法にシフトしています。
本発表ではRTBの基本的な概念からアナリティクスの使いどころについてご紹介します。
特に、ダイナミックリターゲティングと呼ばれるパーソナライズされたバナー広告について詳しくご紹介しようと思います。

参考文献:

ザ・アドテクノロジー データマーケティングの基礎からアトリビューションの概念まで

ザ・アドテクノロジー データマーケティングの基礎からアトリビューションの概念まで


各種トピック・議論

  • ダイナミックリターゲティング狙い
    • サイトへの来訪
    • 適合率。Serendipityより。
  • ダイナミックリターゲティングでのアルゴリズム
    • 協調フィルタ的なサービスが多い
    • ランキング:総合、カテゴリごと、も。
  • 広告主
    • EC、人材、旅行、など。
  • 評価指標
    • CTR, CVR でABテスト
  • 広告ターゲティングに効く特徴量選択、どのようにやると効果高いか
    • 影響度を見る。選択もABテストで決める。
  • 体制の議論
    • 機械学習のモデル設計からサービス適用の実装まで同じメンバーが担当している企業が多い
  • creteo が他のリターゲティング業者を倒した理由
    • リタゲ反映が早い。ブラウザバックでもう反映されている。

■ツイートまとめ (Togetter)

「第50回 データマイニング+WEB @東京( #TokyoWebmining 50th ) ー機械学習 実活用 祭りー」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

Togetter:

■講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

振返り:

振返りホワイトボード(Keep/Try/Talk候補):

第49回 データマイニング+WEB @東京( #TokyoWebmining 49th ) ー機械学習 方法論 祭りーを開催しました

2015/10/24 "第49回 データマイニング+WEB @東京( #TokyoWebmining 49th ) ー機械学習 方法論 祭りー" を開催しました。

会場提供し運営を手伝って下さった FreakOut のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

参加者Twitter List : tokyowebmining-48
参加者セキココ:第49回 データマイニング+WEB @東京 セキココ
(作成してくれた [Twitter:@komiya_atsushi] さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員 自己紹介 (興味・活動)」(進行:[Twitter:@hamadakoichi]) (75分)

※内容は上記ホワイトボード写真参照

1.「統計分析・機械学習に関わる線形代数の整理」(講師: [Twitter:@KennyISHIMURA] )(発表:20分+議論:25分)

統計分析や機械学習には、その理論の記述に線形代数が使用されることがよくある。
そして数式のそもそもの意味や概念をあまり知らない為に理解し難いこともある。
今回は線形代数の基本的な概念に関して直感的な理解を整理してまとめる。

参考文献:

2. 「階層ディリクレ過程とマルコフ確率場を利用した教師なし画像領域分割」 (講師: [Twitter:@tn1031] ) (発表:40分+議論:50分)

階層ディリクレ過程を事前分布とした確率モデルは、
「グループごとのばらつきを吸収する」階層ベイズモデルとしての能力と
「モデルの複雑さをデータから自動決定する」ノンパラメトリックモデルとしての能力の両方を獲得します。
本発表では、教師なし画像領域分割を例に、階層ディリクレ過程と画像データセットのモデル化について紹介します。
また、実問題への応用についてもディスカッションできればと思います。

参考文献:

Session で挙がった見るべき文献:

3. 「深層学習ライブラリの現在」 (講師: [Twitter:@yutakashino] ) (発表:30分+議論:35分)

雨後の筍のように出てくる深層学習における計算機フレームワーク・ライブラリについて,
それぞれの設計思想の差や具体的なコード実装のやりやすさや将来性などを比較検討します.
比較対象にするのは,Torch, Theano, Pylearn2, Keras, Lasagne, Caffe, Chainerなどを考えています.

参考文献:

Sessionで挙がった特に見るべき動画:

■ツイートまとめ (Togetter)

「第49回 データマイニング+WEB @東京( #TokyoWebmining 49th ) ー機械学習 方法論 祭りー」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

Togetter:

■講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

振返り:

振返りホワイトボード(Keep/Try/Talk候補):

■過去開催内容:

第48回 データマイニング+WEB @東京( #TokyoWebmining 48th ) ーAWS上での分析基盤アーキテクチャ最前線 祭りーを開催しました

2015/08/01 "第48回 データマイニング+WEB @東京( #TokyoWebmining 48th ) ーAWS上での分析基盤アーキテクチャ最前線 祭りー" を開催しました。

会場提供し運営を手伝って下さった FreakOut のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

参加者Twitter List : tokyowebmining-48
参加者セキココ:第48回 データマイニング+WEB @東京 セキココ
(作成してくれた [Twitter:@komiya_atsushi] さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員 自己紹介 (興味・活動)」(進行:[Twitter:@hamadakoichi]) (75分)

※内容は上記ホワイトボード写真参照

1.「AWSでのビッグデータ分析」(講師: [Twitter:@riywo] )(発表:40分+議論:30分)

AWSでは現在40を超えるサービスが提供され日々更新されていますが、その中からビッグデータ分析に関連するサービスを一挙にご紹介します。合わせて、可能な限り事例やデモを交えながら実践的な内容もお届けします。
参考文献:

2.「1000人規模で使う分析基盤構築 - Redshiftを活用したEUC - 」 (講師: [Twitter:@miyazima] )(発表:30分+議論:35分)

1000 人規模の会社におけるRedshiftを中心とした基幹データの活用事例についてお話します。ETL、データ運用、Redshiftのパフォーマンス測定 結果や利用Tips、運用ロールなど、全社でどのようにデータ活用を実施しているかに興味ある方には面白い内容かもしれません。

参考文献:

3.「SmartNews の Webmining を支えるプラットフォーム」 (講師: [Twitter:@nishiokamegane] )(発表:30分+議論:35分)

数百万のユーザーが毎日使ってくれている SmartNews。その裏側では、機械学習やインテリジェンジェントなデータ処理、別の言葉で言うと、WebMining が動いています。さらに、その裏側では、その WebMinging を支えるプラットフォームが動いています。そのプラットフォームも、AWS や Spark を使いこなしながら日々進化しています。そんなプラットフォームを中心に、WebMining 自身の話も交えながら、紹介します。

参考文献:

■講師立候補・振返り:

「講師立候補・タイトル決め」進行:[Twitter:@hamadakoichi] (30分)

「振返り・アクション決定」進行:[Twitter:@hamadakoichi](40分)

  • KEEP/TRY 内容確認
  • Keep/Try投票
  • 各位所感

振返りホワイトボード(Keep/Try/Talk候補):

■ツイートまとめ (Togetter)

「第48回 データマイニング+WEB @東京( #TokyoWebmining 48th ) ーAWS上での分析基盤アーキテクチャ最前線 祭りー」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

Togetter:

■講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

■過去開催内容:

第47回 データマイニング+WEB @東京( #TokyoWebmining 47th ) ー潜在モデリング 実活用 祭りーを開催しました

2015/06/27 "第47回 データマイニング+WEB @東京( #TokyoWebmining 47th ) ー潜在モデリング 実活用 祭りー" を開催しました。

会場提供し運営を手伝って下さった SmartNews のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧

参加者Twitter List : tokyowebmining-47
参加者セキココ:第47回 データマイニング+WEB @東京 セキココ
(作成してくれた [Twitter:@komiya_atsushi] さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員 自己紹介 (興味・活動)」(進行:[Twitter:@hamadakoichi]) (75分)

※内容は上記ホワイトボード写真参照

1.「分析のビジネス展開を考える―状態空間モデルを例に」(講師: [Twitter:@horihorio] ) (発表:30分+議論:40分)

本発表では状態空間モデルを例に、数理分析をビジネスに展開する際、モデルの仮定や前提条件などに留意する重要性を考えます。
ビジネスの問題を適切な数理モデルに翻訳すれば、その豊富な成果が解決策を与えることも多々あります。例えば状態空間モデルは、当初の状態制御への適用から、最近では広告の効果測定への適用例も見られます。これは、モデルに現場の知恵が導入しやすく、結果も分かりやすいためかと考えます。
ただし、モデルには仮定や前提条件なりがあります。それらを無視した適用は、大きな被害に繋がりかねません。今回は状態空間モデルで、それらに留意した分析設定、顧客からそれらの範囲外を求められた際の対応を考えます。

参考文献:

2.「トピックモデリングによる評判分析」 (講師: [Twitter:@I_eric_Y] )(発表:25分+議論:35分)

製品やサービスにおいてお客様の声を把握・分析し、改善に繋げることは重要です。このような営みにおいて、評判分析はお客様の声のデータから対象が好評か不評かという情報を自動的に抽出/決定できる有用な技術です。
評判分析においては様々なアプローチが存在しますが、本発表では2014年初頭までに提案されてきたトピックモデリングについてご紹介します。
トピックモデリングによる評判分析に注目した理由として、

  1. 潜在構造のモデリングによって観測データが内包するドメイン依存などの問題に対処できる可能性がある
  2. テキストと同時に観測されるサイドインフォメーション(ratingや商品分類タグなど)を統合的なモデリングによって有効活用できる可能性がある
  3. 評判の生成過程をトピックモデルのような階層ベイズ的確率モデルでモデル化することにより、複雑かつ定性的な可視化が比較的容易にできる

といった事柄があげられると考えています。

本発表は学術的な側面が強いですが、今回の発表を通じて実応用に対するギャップなども考えていけたらよいなと思います。

3.「SNPのオープンデータを覗き見る」 (講師: [Twitter:@pinmarch_t] )(発表:20分+議論:30分)

最近話題となっている遺伝子解析サービスについてさまざまな議論がされていますが、現在では一部の日本人について研究レベルで遺伝子解析の結果がオープンデータとして公開されているものもあります。
それらのデータから分かることと、分からないこととを見ながら臨床で行われている遺伝子解析の紹介もできればと思います。

参考文献:

■講師立候補・振返り:

「講師立候補・タイトル決め」進行:[Twitter:@hamadakoichi] (30分)

「振返り・アクション決定」進行:[Twitter:@hamadakoichi](40分)

  • KEEP/TRY 内容確認
  • Keep/Try投票
  • 各位所感

振返りホワイトボード(Keep/Try/Talk候補):

■ツイートまとめ (Togetter)

「第47回 データマイニング+WEB @東京( #TokyoWebmining 47th ) ー潜在モデリング 実活用 祭りー」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

Togetter:

■講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

■過去開催内容: