第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました

2011/11/06 "第15回 データマイニング+WEB 勉強会@東京−統計・ビジネス活用 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(75分)

進行 :[Twitter:@hamadakoichi]

1.「統計カリキュラム 第1回−一般化線形モデル−」 (講師: [Twitter:@isseing333さん]) (発表30分 + 議論30分)

日本初の統計学部を目指して、統計学に関するトピックを網羅的にレクチャーしたいと思います。第一回は様々な場面で応用することができる一般化線形モデルについて発表します。
参考資料:
ぼくのかんがえたとうけいがくぶかりきゅらむ
一般化線形モデル入門 原著第2版

一般化線形モデル入門 原著第2版

  • 予測精度が高くなるように、正則化項をいくつか試す
  • 一般線形モデル(GLM)
    • 線形重回帰
    • 分散分析(ANOVA): Xはカテゴリもしくはダミー変数
    • カテゴリと連続変数
  • 一般化線形モデル (GLIM)
    • GLMのyを変換すると一般"化"線形モデルになる
    • 説明変数が線形の形に変換できる、非線形モデル(指数型分布族に対する線形モデル)。
    • g[E[y]]=βX
    • g: リンク関数
    • y: 連続値 :GLM→変換なし
    • y: カウント値:ポアソン回帰→対数変換
  • 2値変数例
    • サービス加入者が1か月以内に辞めるか(1)否か(0)
    • ロジスティック回帰: 期待値にロジット変換。Logit(E[y])=βX
  • はずれ値判定
    • ?てこ比、?分散が均一か、?残差プロット
    • うまくまとまらない場合は層を分ける

2.「医療分野におけるデータマイニングを始める前に知っておきたいこと (講師: [Twitter:@dichika])(発表20分 + 議論20分)

資料:「一般非公開で、希望者のみに配布」という形となります。配布希望の方は 講師 [Twitter:@dichika] さんへご連絡下さい。
データマイニングは強力な武器ですが、「解くべき問題」をうまく設定して初めてその威力を発揮します。本発表では問題の設定につながるようなヒントを提示できればと思います。
関連資料:Big data: The next frontier for innovation, competition, and productivity (PDF)

  • 施策が打てるか
  • 目的を明確化する
    • receipt = レシート。正式名称: 診療報酬明細書。
  • 次の一手まで考える。
    • 分析して意志決定がなされた後のニーズを考える。
    • 施策ハイリスクな層から資源割当て。
    • 実験計画の必要性。

3.「複雑ネットワークとデータマイニング 徹底入門」 (講師: [Twitter:@milionsmile]) (発表30分 + 議論30分) (※USTREAM非公開)

複雑ネットワーク理論のビジネスへの応用について。次数分布、平均距離、クラスター係数、中心性などのネットワーク指標を用いることでどのようなデータ解析ができるのか概要をお話します。
参考文献:
複雑ネットワーク―基礎から応用まで

複雑ネットワーク―基礎から応用まで

「複雑ネットワーク」とは何か―複雑な関係を読み解く新しいアプローチ (ブルーバックス)

「複雑ネットワーク」とは何か―複雑な関係を読み解く新しいアプローチ (ブルーバックス)

  • 複雑ネットワークを用いると CTRが上がった事例がある
  • 最近、グラフ構造と情報を合わせて解析される
  • 本日は無向グラフ中心
  • スモールワールド実験 -平均距離 (ミリグラム 1960年代)
  • 平均距離 L ∝ LogN 的
  • 6次の隔たりで、世界中の人々へ到達。
  • クラスター係数: ノードi の友人どうしが友達である確率。
  • 次数相関: エッジ
  • 中心性
    • 次数中心性:エッジ本数
    • 近接中心性:広めやすさ
    • 媒介中心性:2つのグラフを連結している度合い。
    • 固有ベクトル中心性:参照関係。Google Page Rankで使用。
  • コミュニティ構造
  • モチーフ: グラフに含まれやすい三角形のパターン。
  • ランダムネットワーク
  • スケールフリーネットワーク
  • 複雑ネットワーク
    • 定義:現実の何かに対応するグラフ。人、タンパク質、等。
    • べき乗則に従う
  • 適用例
    • ウィルス感染
    • ネットワーク故障問題
    • 商品同時購入のグラフ。推薦。
    • ゲームのシミュレーション

4. 「エンジニア向けマーケティングリサーチ入門」 (講師: [Twitter:@tetsuroitoさん]) (発表20分 + 議論20分)

資料:11/6 Tokyo Wemining Marketing Research for Engeenier by Tetsuro Ito on Prezi]
ビジネスで必要なマーケティング活動において、ソーシャルメディアの普及などでマーケティングリサーチの必要性が高まっています。基本的な概念や分析手法をエンジニアの方にもわかりやすくご紹介したいと思います。
参考文献:

次世代マーケティングリサーチ

次世代マーケティングリサーチ

課題解決! マーケティング・リサーチ入門

課題解決! マーケティング・リサーチ入門

  • Money Look
  • 顧客にあった商品提供
  • マーケティングリサーチの業界売上規模は横ばい
  • Marketing 1.0/2.0/3.0
    • 1.0: 商品中心
    • 2.0: 顧客維持
    • 3.0: Value Driven。製品価値を正しい人に届ける。
      • インフルーエンサーの特定。適切なサービス・メッセージ配信。
  • マーケティングの肝
  • プロダクトアウト→マーケットインへ。
  • 心がまえ
    • 誰が何をするためのことを知りたいか
    • 何がわかると自分たちはうれしいか
    • 消費者や顧客を理解する方法も拡張が必要
  • 次世代マーケティングリサーチ
    • Marketing Research Online Community (MROC)
  • 共感覚
  • 行動心理学

5. 「2chイカ娘スレッドを時系列分析してみた」 (講師: [Twitter:@gepuro]) (発表20分+ 議論20分)

2ch
View more presentations from gepuro

2ちゃんねるには、長い年月に渡って、同じテーマのスレッドが作られています。これらに対して、テキストマイニングのアプローチとして、時系列に分析してみました。 
参考資料: JIN'S PAGE

  • 月ごとの語の発生頻度推移・各種統計解析

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果(継続したい良かった点、改善点、次回AGENDA)。
http://www.xmind.net/share/_embed/hamadakoichi/no-15-views-data-mining-web-tokyo-continues-and-you-wan/

推薦文献

Hadoop徹底入門

Hadoop徹底入門

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第15回 データマイニング+WEB 勉強会@東京−統計・ビジネス活用祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第15回 データマイニング+WEB@東京 ( #TokyoWebmining #15)-統計・ビジネス活用 祭り- - Togetter

講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: