第20回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 20th)−ソーシャル・大規模解析 祭り− を開催しました
2012/07/14 "第20回 データマイニング+WEB 勉強会@東京−ソーシャル・大規模解析 祭り−"を開催しました。
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
参加者ID・バックグラウンド一覧:
会場風景:
参加者Twitter List: Twitter List TokyoWebmining#20
参加者セキココ:第20回 データマイニング+WEB @東京 セキココ
(作成してくれた @Prunus1350 さんに感謝)
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(15分)
講師 : id:hamadakoichi [Twitter:@hamadakoichi]
O2.「参加者全員自己紹介」(75分)
進行 :[Twitter:@hamadakoichi]
1.「Twitterインフルエンサー影響力測定サービスの現状と課題」(講師: @hirosuke_asano ) (発表30分 + 議論30分)
インフルエンサーの影響力分析について紹介しつつ、マーケットでの現状と課題についての悩みをぶっちゃけます
- インフルエンサー
- Twitterインフルエンサ―測定サービス
- 発言が届く範囲
- フォローワー数:あまり参考にならない。フォロースパムによる水増し。
- 発言が届く範囲
- KLOUT
- Kred
- Qrust
- 宇宙会社
- 日本に合わせたチューニング
- 日本人ユーザの600万アカウントを解析
- 更新頻度高い。直近2週間データ
- 評価指標:ミーハー、社交性、孤立性、スパム性
- 影響力測定の考え方
- 影響力測定の制約
- Social-SIS: 最近の仕事
- キーワード検索でインフルエンサ―を絞り込む
- スコア
- 総合的な影響力 (Qrust)
- 得意なカテゴリ (Hotlink)
- フォロワーのプロフィール構成(KDDI)
- ツイートからプロフィール推定
- 情報伝搬
- 時系列伝搬
- ネットワーク
2.「Large-Scale Machine Learning at Twitter」(講師: @showyou ) (発表30分 + 議論30分)
資料:Large-Scale Machine Learning at Twitter
デモソース:tokyowebmining20_pig
先日のHadoop Summit 2012で紹介されていた、Twitter社の大規模データ機械学習について、デモを交えて説明します。
- Hadoop Summit 2012で発表
- 理論
- ロジスティック回帰で分類
- 差分更新。更新率γ。
- Pegasas: パラメータ更新の方法論。
- アンサンブル法。
- ソフト
- 活用例
- 感情分析
- 感情を表す文字でラベルづけを行い、オンライン学習。:)⇒positive, :<) ⇒negative
- 100万〜1億のツイートで学習
- 100万で判別
- オンライン学習:単体よりアンサンブル学習のほうが精度高い
- なぜMahoutではないか
- なぜRではないか
- 感情分析、どう活用
- マーケティング:情報伝搬がどう広がっているか
参考文献:
- 作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
- 出版社/メーカー: 丸善出版
- 発売日: 2012/04/05
- メディア: 単行本(ソフトカバー)
- 購入: 6人 クリック: 33回
- この商品を含むブログ (20件) を見る
- 作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
- 出版社/メーカー: 丸善出版
- 発売日: 2012/02/29
- メディア: 単行本
- 購入: 6人 クリック: 14回
- この商品を含むブログを見る
- 作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗
- 出版社/メーカー: 翔泳社
- 発売日: 2011/01/28
- メディア: 大型本
- 購入: 14人 クリック: 668回
- この商品を含むブログ (43件) を見る
スライド:Large-Scale Machine Learning at Twitter(Slide)
3.「Multi Agent Simulation 徹底入門」(講師: Naoki Shinbo ) (発表30分 + 議論30分)
マルチエージェントシミュレーションの基本概念についての解説および 古典的なモデルとソーシャル分野への適用例を紹介します。
- マルチエージェントシミュレーション
- 社会シミュレーション技法のひとつ
- 分析対象は多様。2000年前後から登場
- 自立的な行動と相互作用
- エージェント
- 認知・判断・行動決定
- 意思決定ルール
- 行動原理:自立性、反応性、社会性、自発性
- マルチエージェントシミュレーションの方法
- 環境設定、エージェント設定、エージェント間相互作用設定
- 創発:大局的な特性が大きく変わる。臨界的な現象が起こる。株価暴落等。
- モデルの方向性
- 抽象型
- 現実型:政府の施策に活かす等
- 実行
- 専用ソフトウェアを使う。ARTISOCで紹介
- パラメータを設定しモデル構築
- 遊園地内の混雑緩和シミュレーション
- 人気あと楽祖hンへの人の週ツウ、個々人の趣向の違い、待ち時間共有端末
- オンラインゲームのコミュニティ形成シミュレーション
- オンラインゲームをより楽しんでもらえるようにするには
- バートルによるオンラインゲームユーザ4分類:キラー、アチーバー、エクスプローラー、ソーシャライザー
- オンラインゲームに魅力を
- コミュニケーションがモチベーションの一つとして大きなウェイトを占める
- オンラインゲームのコミュニティのモデル化
- 頻度、人数、等各趣向がある
- プレイ時間帯、プレイ頻度、社交性、既存の友人数、、相性、、。
- ⇒単純化:欲しい友人数、人数を超えると相性の低い友人を解消、友達の友達とは友人になりやすい。
- 一度に友達になる人は1人、少なくとも2人以上の友人を作る。
- 評価
- Newman Community抽出法を用いて、既存の友人関係からクラスターを抽出
- シミュレーション
- 友達関係の構成
- 新規ユーザ参入の障壁シミュレーション
参考文献:
- 作者: ナイジェルギルバート,クラウス・G.トロイチュ,Nigel Gilbert,Klaus G. Troitzsch,井庭崇,高部陽平,岩村拓哉
- 出版社/メーカー: 日本評論社
- 発売日: 2003/02
- メディア: 単行本
- クリック: 5回
- この商品を含むブログ (2件) を見る
- 作者: 井庭崇,福原義久
- 出版社/メーカー: NTT出版
- 発売日: 1998/06/01
- メディア: 単行本
- 購入: 4人 クリック: 60回
- この商品を含むブログ (26件) を見る
4.「ビッグデータとハードウエア」(講師: @iakiyama ) (発表30分 + 議論30分)
「ビッグデータとは?」について話します。
- 討議したいポイント:
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi [Twitter:@hamadakoichi]
参加者全員での振返り結果MindMap
- 継続したい良かった点
- 改善点アクション
- 次回AGENDA
推薦文献
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (64件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (277件) を見る
関連ツイート(Togetter)
「第20回 データマイニング+WEB 勉強会@東京−ソーシャル・大規模解析 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第20回 データマイニング+WEB@東京 ( #TokyoWebmining #20) -ソーシャル・大規模解析 祭り- - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第19回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 19th)−データ徹底活用・機械学習 祭り− を開催しました - hamadakoichi blog
- 第18回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 18th)−大規模分散処理 最前線 祭り− を開催しました - hamadakoichi blog
- 第17回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 17th)−分散機械学習・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)−リアルタイム分散 Web解析・自然言語処理 祭り− を開催しました - hamadakoichi blog
- 第15回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 15th)−統計・ビジネス活用 祭り− を開催しました - hamadakoichi blog
- 第14回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 14th)−大規模分散データマイニング 祭り− を開催しました - hamadakoichi blog
- 第13回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 13th)−Mahout・大規模解析・ビジネス展開 祭り− を開催しました - hamadakoichi blog
- 第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました - hamadakoichi blog
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog