第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました
2011/01/23 "第9回 データマイニング+WEB 勉強会@東京−2nd Week−方法論・ソーシャル祭り−"を開催しました。
※会場参加者ID写真(id:bob3 さんに感謝)
- 1st Week内容まとめ:
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
今回、第9回では初めて開催期間を2週に渡り開催しました(1/16, 23)。2週開催の目的は1."多くのテーマを対象とし"、かつ 、2."各テーマにしっかりと時間を充て、深い議論を行えるようにすること" です。また2nd Week 1/23 は「豊富なテーマ」で構成しました。今後も「データマイニング+WEB 勉強会@東京」を、講師、参加者、双方にとってよりよい会としていきたいと思いますので、今後ともよろしくお願い致します。
第10回は2月下旬か3月上旬開催に開催しますのでみなさんぜひご参加下さい(※AGENDAも本エントリに追って記載します)
以下、全講師資料、関連資料、ツイートまとめ、参加者の声です。
AGENDA:
■Opening:
O1.“Openinig Talk” (10分)
講師 : id:hamadakoichi [Twitter:@hamadakoichi]
蓄積データを活用し継続的に活動進化できる世界を作りたい。蓄積データを有効活用したい人が、それを実現できるようにしたい。そう考え「データマイニング+WEB勉強会@東京」を始めました。発表者・参加者にとってより有意義な場にするために、3つの進行方針を設定しています。会の最初にその進行方針を皆で共有し進めています。
O2."参加者全員自己紹介" (50分)
・主催者 [Twitter:@hamadakoichi] 紹介・仲間募集資料 (期間限定公開):
私が話した主催者紹介資料です。メンバー募集部分は期間経過後、元の形に戻しますね。1st Week の「Mahout Canopy Clustering」資料に資料追加しています。また元資料の、Canopy Clusteringは通常の多くの手法と異なり、クラスタ数指定を必要とせず、指定距離 離れたクラスタ算出を実現する方法です。Hadoop上で動作する大規模データマイニング・機械学習ライブラリ Mahoutでの実行法も含め話しました。
■方法論:
1. 「初めてでもわかる Complementary Naive Bayes 分類器」(発表20分 + 議論20分)
講師 : id:yanaoki [Twitter:@yanaoki]
Complementary Naive Bayes。カテゴリに属さない要素を用いることにより通常よりはるかに高精度の判別を実現すると知られている。今回、初めての人でも分かる形で、Complementary Naive Bayesの基礎理論、通常のNaive Bayes との違いから、Hadoop/Mahoutでの実行方法と実行結果までお話し頂きました。
2. 「お金をかけず広告配信のログ分析システムを作った話」(発表15分 + 議論15分)
講師 : id:gogokarubi [Twitter:@karubi]
分析システムを構築の際に、いかにお金をかけずに工夫しつつ分析に必要な要件を満たしたかについてお話し頂きました。
3. 「Web-Minerな輩に送る マーケティング講座 な感じ」(発表30分 + 議論30分)
講師 : mmlab_jp [Twitter:@mmlab_jp]
4. 「Mecab以外の形態素解析 – 新たなわかち書き機能を実装してみた」(発表15分+議論15分)
講師 : id:rti [Twitter:@super_rti]
OpenSourceの形態素解析エンジン・分かち書きソフトウェアとしてはMeCabが広く知られているが、最近、新たな分かち書きソフトウェアが誕生した。今回、その新たな分かち書きソフトウェアおよびその実装詳細に関しお話し頂きました。関連KeyWord:MeCab,TinySegmenter,IWordBreaker
5. 「画像認識の初歩、SIFT, SURF特徴量」(発表15分+議論15分)
講師 : lawmn [Twitter:@lawmn]
画像認識の領域で重要な SIFT、SURF特徴量。今回はそれら特徴量の抽出方法を概観し、その用途・応用について、初めての人でも分かる形でお話し頂きました。
- SIFT = Scale-Invariant Feature Transform
- SURF = Speeded Up Robust Features
- Bag of features (Bag of keypoints)
6. 「ペアトレードを実装してみた」(発表15分+議論15分)
講師 : id:yokkuns [Twitter:@yokkuns]
統計的ペアトレードは、ペアの発見、共和分検定、取引ルールの定式化の3ステップで構成されています。今回は、各ステップの例を初めての人でも分かり活用できる形でお話し頂きました。
- 関連資料:初めてでも分かるヘッジファンド入門
■ソーシャル:
7. 「"GraphDB徹底入門"〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜」(発表30分+議論30分)
講師 : id:doryokujin [Twitter:@doryokujin]
GraphDBは他のNoSQLと違ってかなり特異な構造を持ち適用範囲も大きく異なっているが、その事実はあまり知られていない。今回はGraphDBの本質、使い方・適用事例、各種GraphDB比較等を通じ、初めての人でも特性を深く理解し活用できる形でお話し頂きました。
- Property Graph
- NodeとEdgeのIndex(Mini Index)
- EdgeとPropertyのIndex(Normal Index)
- あるNodeからの値算出
- Graph Query = Graph Traversal
- 検索を優先したデータ構造。更新には弱い
- GraphDBが適合する場面
- 大きなデータ構造の中で局所的なプロセスに着目する場合 (あるNodeに関する情報抽出、等)
- 経路探索などのGraphにもとづく演算
- GraphDBが適合しない場合
- Graphの要素全体から検索するだけの場合 = Graph の関係を利用しない場合
- 各種GraphDB
- Neo4j, Orient DB がメジャー
- GraphDBの統一アクセス
- Tinker Pop
- Gremlin
- 参考資料:明日から始めるログ解析2(後半部分) MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析
7. 「Newman アルゴリズムによるソーシャルグラフのクラスタリング」(発表20分+議論20分)
講師 : komiya_atsushi [Twitter:@komiya_atsushi]
昨今よく耳にするキーワード「ソーシャルグラフ」。その可能性・活用方法について様々な企業に注目されています。今回はその「ソーシャルグラフ」を「どうすればクラスタリングできるのか?」という観点で、グラフに対するクラスタリングの基礎をお話し頂きます。具体的なクラスタリング手法としては Newman アルゴリズムをご紹介頂きました。
- Social GraphのClustering
- NodeをClustering対象とする
- Edgeを用い Clusteringとする
- Edgeの密度が高いNodeの集まりをCommunityとする。
- Edgeの密度が低い部分でGraphを分ける
- Social Graphの階層的クラスタリング
- Communityの階層構造
- 良いGraph Clustering
- Community内のEdge密度が高く、Community間が低い
- Modularityで評価
- Girvan-Newman Algorithm
- Topdown
- Sortest Path Betweenness のスコア(Shortest Pathを計算したときにそのEdgeを通る回数)で高いところを切る。
- Edgeを切り離すたびに再計算
- Newman Algorithm
- Bottom Up
- betweennessは計算せずに処理
- Communityの組合せをいくつか選び Modularity が高くなる組合せを選ぶ
D. 「参加者の声・ディスカッション」 (60分)
進行 : Twitter:@hamadakoichi
参加者全員での振返り結果(継続したい良かった点、改善点)、次回AGENDA。
後ほどアップします。
推薦文献
- 作者: Tom White,玉川竜司,兼田聖士
- 出版社/メーカー: オライリージャパン
- 発売日: 2010/01/25
- メディア: 大型本
- 購入: 9人 クリック: 449回
- この商品を含むブログ (73件) を見る
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (64件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (277件) を見る
関連ツイート(Togetter)
「第9回 データマイニング+WEB 勉強会@東京−2nd Week−方法論・ソーシャル 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 9)-2nd Week-方法論・ソーシャル 祭り- - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog