第23回 データマイニング+WEB@東京( #TokyoWebmining 23rd)−大規模ソーシャルデータ・アクセス解析 祭り− を開催しました

2012/10/27 "第23回 データマイニング+WEB@東京−大規模ソーシャルデータ・アクセス解析 祭り− "を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

参加者Twitter List: Twitter List TokyoWebmining #23
参加者セキココ:第23回 データマイニング+WEB @東京 セキココ
(作成してくれた @komiya_atsushi さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(75分)

進行 :[Twitter:@hamadakoichi]

TwitterでのUser Recommendation」(講師: @americiumian ) (発表25分 + 議論30分)

Twitterユーザ推薦に関して、どのような研究が行われているかについて紹介します。
参考文献:

  • よいユーザとは?
  • 総合的に影響力高いユーザを推薦
  • 同じトピックを共有するユーザ
    • 各トピックの影響力高い:
    • リンク解析
    • ランダムにツイートを抽出、LDA:どのトピックの発言が多いか
    • ユーザ間の類似度を測る、関係グラフを構成、トピック頻度で重み付け
    • 効果:次の方法よりいい:Follower, Follower Graphによる Pageranki、Topic 頻度によらない Twitter Rank
  • 属性伝搬に着目した推薦
    • 同じ興味、所属のユーザを推薦
    • 前提:ユーザは同じ属性をもつユーザを友達にしやすい
    • ある属性をもつユーザN人以上にフォローされているユーザを抽出
    • そのユーザ群がフォローされているユーザを抽出していく
    • コミュニティの発見
  • TURKEYS (Twitter User Ranking using KEY word Search )
    • Retweet, Replay
    • クエリを含むツイート、リプライ。
    • クエリx ユーザ行列から、ユーザxユーザの隣接行列算出。HITSに似ている
  • 同じ語彙を使うユーザ、同じ場所にいたユーザ、共通フォロー先
  • ユーザ推薦の評価
    • 主観評価:ツイートを実際に見る。
    • 客観評価:推薦ユーザを見せ、質問にn 段階で答えてもらい、評価
      • フォローしたいか、目的にあったユーザか
    • ランキング全体の評価
      • DCG
  • ユーザ推薦
    • ユーザは興味にあった情報を得られる。企業にとってはプロモーション。

2. 「SIerビッグデータ解析ビジネスへ踏み出そう」(講師: @emmie_pp ) (発表25分 + 議論30分)

SIerビッグデータビジネスへの取組みと、その中で行ったmahoutを使ったソーシャルデータ分析トライアルについてご紹介します。
参考文献:

Mahout in Action

Mahout in Action

Hadoop 第2版

Hadoop 第2版

  • ビックデータ解析への取り組み
    • 見える、関係性、予測
    • 各種事例
      • Volume, Velocity, Variety (組合せの課題)
    • 10TB以上のデータを扱う28%
    • こんな効果が出せるんじゃないか、というイメージがまだ持てない
    • ベンダー:Volume、Velocity で勝負。Varietyはまだ。
    • SIer : AsIs、ToBe の整理。
    • 活用の議論
  • ソーシャルデータを用いた加盟店分析

3. 「Androidアプリ内蔵広告 徹底解析」(講師: @lumin ) (発表25分 + 議論30分)

  • セキュリティといえば lumin さん。何かあれば取材依頼が来て、テレビ出演 100回以上。
  • secroid の中の人 http://secroid.jp/
  • The Movie 系
  • 国電話帳の解析
  • 彼ログ、ミログ(廃業)、The Movie
  • 通信すると取れる情報
    • IPアドレス
      • 都道府県レベルの位置情報
      • 会社名
      • 同じアドレス、どの検索ワード、等
      • User Agent, Cookie、アプリの利用
    • crack 可能な個体識別番号
      • 電話番号、IMEI(機種ごと)、IMSI (国キャリア)、MACアドレス、ICCID(SIMシリアル番号)
      • GPGPU により crack 速度が向上。password 解析。数十億。電話番号解析 1秒
    • ハイジャック (セッション、ユーザ)
  • Android 広告
    • 利用者情報の利用目的と取得
    • Google プライバシーポリシー
    • secroid の中の人 http://secroid.jp/
    • AndroidId, UUIDを作成して識別情報を作る
    • 仕様する IDはSHA1 or MD5

4. 「ネットで個人はどこまで追われているか」(講師: @tomiyoichi ) (発表25分 + 議論30分)

ウェブマーケの業界動向と絡めて、どんな分析がされていてデータ取得はどこまでがOKなの?といったテーマで話しします。#数式は一切出さずに説明する予定です。

参考資料:
 - 消費者庁HP:個人情報の保護
 - 経済産業省HP:個人情報保護

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA
推薦文献

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第23回 データマイニング+WEB 勉強会@東京−大規模ソーシャルデータ・アクセス解析 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第23回 データマイニング+WEB@東京 ( #TokyoWebmining #23) -大規模ソーシャルデータ・アクセス解析 祭り- - Togetter

講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: