第20回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しました

2012/07/14 "第20回 データマイニング+WEB 勉強会@東京−ソーシャル・大規模解析 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

会場風景:

参加者Twitter List: Twitter List TokyoWebmining#20
参加者セキココ:第20回 データマイニング+WEB @東京 セキココ
(作成してくれた @Prunus1350 さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(75分)

進行 :[Twitter:@hamadakoichi]


1.「Twitterインフルエンサー影響力測定サービスの現状と課題」(講師: @hirosuke_asano ) (発表30分 + 議論30分)

インフルエンサーの影響力分析について紹介しつつ、マーケットでの現状と課題についての悩みをぶっちゃけます

  • インフルエンサー
    • 重要性:メディア・大量の広告に飽きて、届かない。
    • ユーザはソーシャルグラフから入ってきた情報を重視する。体験、名前の声。伝搬・バイラル。
    • 検索順位へも影響度が大きくなっている。Facebook Shareがトップ。ソーシャルでプレゼンスをあげる必要がある。
  • Twitterインフルエンサ―測定サービス
    • 発言が届く範囲
      • フォローワー数:あまり参考にならない。フォロースパムによる水増し。
  • KLOUT
    • 3つのスコア
      • True Reach:フォローワーから、スパム、ボット、休止アカウントを除いたもの
      • Amplification (増幅確率):いいね、リツイート、メンションがつく期待値
      • Network :リアクションしてくれる人の影響度
    • 2011年10月、Facebookの重みが大きくなり、日本人ユーザのスコアが下がった
  • Kred
    • TwitterFacebook、Linkedin
    • 総合スコア以外にジャンル別のスコアがある
    • インフルーエンス:つながりがある人の伝搬
    • アウトリーチ:つながりが何人へのリーチ
    • APIでアカウント以外にも、抽出可能
  • Qrust
    • 宇宙会社
    • 日本に合わせたチューニング
    • 日本人ユーザの600万アカウントを解析
    • 更新頻度高い。直近2週間データ
    • 評価指標:ミーハー、社交性、孤立性、スパム性
  • 影響力測定の考え方
    • データ:ユーザ情報、ソーシャルグラフ、アクティビティ
    • 自分からのアクション:話題の傾向、コミュニケーションスタイルを評価
    • まわりからのリアクション:影響力評価、リアクションあったツイート評価
    • たまたまのヒットより期待値。継続的な再現性。
    • ばらつきの考慮:正規分布やきれいな分布を前提としない。有名人で振り切れない。普通の人でも差がつく。
    • 正解はない。評価方針があるだけ。
  • 影響力測定の制約
    • APIのアクセス料制限:APIコール数、API制約が緩いアクセスホワイトリスト権限の取得は困難になってきた。
    • 1回あたりの取得制限:両が多いリストはアクセス数増
    • 情報の時間的な制約
    • 恒常的にかかるサーバコスト:分析・データ収集は常に動いている。利用コスト高い
    • オープン/クローズによる制約
  • Social-SIS: 最近の仕事
    • キーワード検索でインフルエンサ―を絞り込む
    • スコア
      • 総合的な影響力 (Qrust)
      • 得意なカテゴリ (Hotlink)
      • フォロワーのプロフィール構成(KDDI)
        • ツイートからプロフィール推定
  • 情報伝搬
    • 時系列伝搬
    • ネットワーク

2.「Large-Scale Machine Learning at Twitter」(講師: @showyou ) (発表30分 + 議論30分)


資料:Large-Scale Machine Learning at Twitter
デモソース:tokyowebmining20_pig

先日のHadoop Summit 2012で紹介されていた、Twitter社の大規模データ機械学習について、デモを交えて説明します。

  • Hadoop Summit 2012で発表
  • 理論
    • ロジスティック回帰で分類
    • 差分更新。更新率γ。
    • Pegasas: パラメータ更新の方法論。
    • アンサンブル法。
  • ソフト
    • Hadoop
    • Hadoopでの機械学習
    • Pig UDFを追加し、ロジスティック回帰、アンサンブル法で学習
      • UDF (非公開)
      • SVMLightStorage()
      • ClassifyWithLR, ClassifyWithEnsumble
      • ロジスティック回帰、+アンサンブル法つき
    • Pigで2行
      • テキスト読み込み、ロジスティック下記重み計算
      • アンサンブル学習
  • 活用例
    • 感情分析
    • 感情を表す文字でラベルづけを行い、オンライン学習。:)⇒positive, :<) ⇒negative
    • 100万〜1億のツイートで学習
    • 100万で判別
    • オンライン学習:単体よりアンサンブル学習のほうが精度高い
  • なぜMahoutではないか
    • 設計時期の問題:Twitterで学習システムを組み込もうと思ったときにMahoutがはじまった。
    • Pigによる集計システム(Oink)が出来上がったので、Pigで行った
  • なぜRではないか
    • HDFSから計算用マシンにファイルを集めるだけでも時間がかかる
    • Pigの場合全てがHDFS上で完結する
  • 感情分析、どう活用

参考文献:

パターン認識と機械学習 上

パターン認識と機械学習 上

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

Hadoop徹底入門

Hadoop徹底入門

論文:Large-Scale Machine Learning at Twitter(Paper)
スライド:Large-Scale Machine Learning at Twitter(Slide)

3.「Multi Agent Simulation 徹底入門」(講師: Naoki Shinbo ) (発表30分 + 議論30分)

マルチエージェントシミュレーションの基本概念についての解説および 古典的なモデルとソーシャル分野への適用例を紹介します。

  • マルチエージェントシミュレーション
    • 社会シミュレーション技法のひとつ
    • 分析対象は多様。2000年前後から登場
    • 自立的な行動と相互作用
  • エージェント
    • 認知・判断・行動決定
    • 意思決定ルール
    • 行動原理:自立性、反応性、社会性、自発性
  • マルチエージェントシミュレーションの方法
    • 環境設定、エージェント設定、エージェント間相互作用設定
    • 創発:大局的な特性が大きく変わる。臨界的な現象が起こる。株価暴落等。
  • モデルの方向性
    • 抽象型
    • 現実型:政府の施策に活かす等
  • 実行
    • 専用ソフトウェアを使う。ARTISOCで紹介
    • パラメータを設定しモデル構築
    • 遊園地内の混雑緩和シミュレーション
    • 人気あと楽祖hンへの人の週ツウ、個々人の趣向の違い、待ち時間共有端末
  • オンラインゲームのコミュニティ形成シミュレーション
    • オンラインゲームをより楽しんでもらえるようにするには
    • バートルによるオンラインゲームユーザ4分類:キラー、アチーバー、エクスプローラー、ソーシャライザー
    • オンラインゲームに魅力を
    • コミュニケーションがモチベーションの一つとして大きなウェイトを占める
    • オンラインゲームのコミュニティのモデル化
      • 頻度、人数、等各趣向がある
      • プレイ時間帯、プレイ頻度、社交性、既存の友人数、、相性、、。
      • ⇒単純化:欲しい友人数、人数を超えると相性の低い友人を解消、友達の友達とは友人になりやすい。
      • 一度に友達になる人は1人、少なくとも2人以上の友人を作る。
    • 評価
      • Newman Community抽出法を用いて、既存の友人関係からクラスターを抽出
    • シミュレーション
      • 友達関係の構成
      • 新規ユーザ参入の障壁シミュレーション

参考文献:

社会シミュレーションの技法

社会シミュレーションの技法

複雑系入門―知のフロンティアへの冒険

複雑系入門―知のフロンティアへの冒険

4.「ビッグデータとハードウエア」(講師: @iakiyama ) (発表30分 + 議論30分)

Web mining tokyo july up用
View more presentations from Izumi Akiyama

ビッグデータとは?」について話します。

  • 討議したいポイント:
  • ビッグデータとハードウエア
    • TCO : Total Cost optimization
    • TOC : Theory of Constraint
    • データマイニング: CRISP-DM で定義される方法を用いてKPP(Key Performance Predictor:予測変数)を見つける所作
    • CRISP-DM: CRoss-Industry Standard Process for Data Mining
  • BI: KPI(固定観測ポイント)
  • Automation: データマイニング機械学習による自動化
  • ビックデータとは
  • サーバー台数を96台を8第に集約。性能3倍以上
  • 少ない台数でHadoop利用
  • 各種事例・パフォーマンス

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA

http://www.xmind.net/share/_embed/hamadakoichi/point-no-20-times-mining-web-tokyo-and-want-to-continue/

推薦文献

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第20回 データマイニング+WEB 勉強会@東京−ソーシャル・大規模解析 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第20回 データマイニング+WEB@東京 ( #TokyoWebmining #20) -ソーシャル・大規模解析 祭り- - Togetter

講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: