第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−
2011/02/27 "第10回 データマイニング+WEB 勉強会@東京−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−"を開催しました。
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−: Eventbrite
- Google グループ
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
以下、全講師資料、関連資料、ツイートまとめ、参加者の声です。
AGENDA:
■10回開催記念トーク:
1. 「データマイニング+WEB〜データマイニング・機械学習活用による継続進化〜」 (発表40分+議論40分)
講師 : id:hamadakoichi [Twitter:@hamadakoichi]
10回開催記念のトークです。今までの開催や、目的、進行方針、活用事例に関しても話しています。蓄積データを活用し継続的に活動進化できる世界を作りたい。蓄積データを有効活用したい人が、それを実現できるようにしたい。そう考え「データマイニング+WEB勉強会@東京」を始めました。発表者・参加者にとってより有意義な場にするために、3つの進行方針を設定しています。会の最初にその進行方針を皆で共有し進めています。Hadoop Conference Japan 2011で話した「大規模データのデータマイニング・機械学習の活動事例」に関しても話しました。Hadoop Conference では時間上こちらから話すだけでしたが、今回は双方向の進行で議論を進めました。
『データマイニング+WEB 勉強会@東京』、第10回を開催することができました。今後も蓄積データのデータマイニング・機械学習による継続進化をより広く実現・提供していきたいと思います。どうぞよろしくお願い致します。
関連資料:
- 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj20…
- 「モバゲーの大規模データマイニング基盤におけるHadoop活用」−Hadoop Conference Japan 2011 #hcj2011 で登壇してきました - hamadakoichi blog
- http://rikunabi-next.yahoo.co.jp/tech/docs/ct_s03600.jsp?p=001829
■参加者全員自己紹介 (60分)
■広告ネットワーク・グラフ解析 (180分) :
2. 「エンジニアのためのアドテクノロジー再入門:アドテクの基礎からRealTimeBiddingまで」(発表:30分 + 議論:30分)
講師 : [Twitter:@jazzyslide]
大規模配信•解析技術によるターゲティング技術、オーディエンス(ユーザー)データによる配信などで近年話題になっているアドテクノロジーの全体観を、アドエクスチェンジやReal-Time-Biddingなどの概念を交えつつ、基礎からエンジニア視点でお伝え頂きました。
- CAMP
- 広告ビジネスのエコシステム
- 解析構成:http://www.iponweb.com/u-platform/
3. 「『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門」(発表:30分 + 議論:30分)
講師 :[Twitter:@c_z]
近年、ウェブやソーシャルネットワーク、タンパク質相互作用ネットワークなど、大規模な公共のグラフデータにアクセス可能になってきた。このようなデータを理解し、有用な知識とするためには、解析手法と共に可視化の技法が重要である。可視化に必要なツールは、様々なものがオープンソースソフトウェアとして公開されており自由に利用可能だが、どのような形でデータを用意し、何を組み合わせて行えば効率的にできるかというノウハウは、意外とまとまった形で公開されていることが少ない。今回は、グラフ可視化プラットフォームの一つであるCytoscapeを中心に、igraphなどのパッケージとの連携、グラフと各種データの統合、インタラクティブな可視化の流れを紹介して頂きました。
- 生化学ネットワークのデータ統合・解析・可視化
- Graph DBは使わない。独自実装。高速化。
- 1K〜10K Nodeのサイズの可視化が適切。多すぎるとよく分からなくなる。
- Google Summer of CodeでGraph DBとの連携部分を今後実装していく。
- igraph: Rでも用いられている。各種言語用のライブラリ。
- Graph DBのグラフ探索との関係。同様に探索。
- グラフのマージ
4. 「経営に活かす!データマイニング 〜流通商社の経営課題〜」(発表30分 + 議論30分)
講師 :[Twitter:@Shumei]
流通業界を顧客に持つ商社における、データマイニングの活用事例を、ケーススタディ通じて発表させて頂きます。商社ではデータマイニングをどのように活用しているのか。技術/知識レベルは初級向けですが、幅広いトピックを扱いました。参加者で事前に、こちらのサイトにあるケースに目を通し、会場で議論を行いました。
■並列 機械学習 (150分) :
5. 「Rmpiとsnowで並列処理」(発表30分 + 議論30分)
講師 :[Twitter:@mokjpn]
※日本を代表するRの総合サイト RjpWiki の@mokjpn さんに、Rでの並列処理に関し お話し頂けます!
普段は多くても数百行という自分の業界では珍しく数十万行のデータを取り扱うことになった。並列処理をやってみたら速くなったようです、というお話をして頂きました。
- lapply を parLapplyに書換え並列化できる。
- snow : SOCK, MPI, PPVM の並列処理をサポート。MPI macではLeopard以降 OpenMPIがサポートされている。
- Mac 以外の人は OpenMPIをインストールする
- 実行
- cl <- makeCluster(4,"MPI")
- #実際の処理
- stopCluster(cl)
- 並列化
- 小さいListを作り、それぞれのListを並列処理する。帰り値もList。
- clusterExport関数
- 参考:http://www.okada.jp.org/RWiki/?R%20%A4%C7%CA%C2%CE%F3%BD%E8%CD%FD
- parLapplyメモ
- resultnでリストの中の要素を取り出す。$で変数名指定できない場合も記述できる。
6. 「Rにおける大規模データ解析」 (発表30分 + 議論30分)
講師 :[Twitter:@sfchaos]
Rは統計解析の有力なツールとして大いに注目を集める一方で,いくつかの問題点も合わせ持っています.その中でも,Rが大規模データの扱いを得意としない点はしばしば問題になります.この問題点に対する解決策がいくつか提案されています.今回は大規模データを共有メモリとして管理できるパッケージ,およびそれを用いた機械学習のアルゴリズムを並列処理で実装した例についてご紹介。2nd Weekでさらに進化した形でお話ひ頂くこととなりました。
参考文献:
7. 「3分間でできるテキストマイニング」 (発表15分 + 議論15分)
講師 :[Twitter:@AntiBayesian]
資料:2/27 TokyoWebMining 3分間で出来るテキストマイニング 発表内容 - あんちべ!
テキストマイニングを行うには、テキストを統計に落とし込むための前処理が必須であり、なおかつその作業は非常に煩雑である。この前処理を怠ると、分析の精度は非常に低いものとなり、有益な知見を得ることが出来ない。今回のLTでは、比較的簡易に実行可能であり、視覚効果も高い共起ネットワークを作成し、共起ネットワークの説明、その作成法について学ぶ。共起ネットワークとは、文書からその文書を特徴づける語の抽出を行い、特徴語同士の共起関係をネットワーク図にするものである。実行には無料のテキストマイニングソフト「KH Coder」を用いる。KH Coderは前処理から共起ネットワークの作成、可視化まで全てGUIで簡単に実行することが出来る優れたツールである。図は夏目漱石「こころ」から作成した共起ネットワークである(詳細はLTにて)。当日は共起ネットワークだけではなく、広くテキストマイニング一般についてのご質問も承ります。
- 素敵なトーク。あんちべさん爆走。
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi [Twitter:@hamadakoichi]
参加者全員での振返り結果(継続したい良かった点、改善点)、次回AGENDAです。
推薦文献
- 作者: Tom White,玉川竜司,兼田聖士
- 出版社/メーカー: オライリージャパン
- 発売日: 2010/01/25
- メディア: 大型本
- 購入: 9人 クリック: 449回
- この商品を含むブログ (73件) を見る
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (64件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (277件) を見る
関連ツイート(Togetter)
「第10回 データマイニング+WEB 勉強会@東京−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #10)-1st Week-広告ネットワーク・グラフ解析・並列機械学習 祭り- - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog