第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−

2011/02/27 "第10回 データマイニング+WEB 勉強会@東京−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

以下、全講師資料、関連資料、ツイートまとめ、参加者の声です。


AGENDA:

■10回開催記念トーク

1. 「データマイニング+WEB〜データマイニング機械学習活用による継続進化〜」 (発表40分+議論40分)

講師 : id:hamadakoichi [Twitter:@hamadakoichi]

 10回開催記念のトークです。今までの開催や、目的、進行方針、活用事例に関しても話しています。蓄積データを活用し継続的に活動進化できる世界を作りたい。蓄積データを有効活用したい人が、それを実現できるようにしたい。そう考え「データマイニング+WEB勉強会@東京」を始めました。発表者・参加者にとってより有意義な場にするために、3つの進行方針を設定しています。会の最初にその進行方針を皆で共有し進めています。Hadoop Conference Japan 2011で話した「大規模データのデータマイニング機械学習の活動事例」に関しても話しました。Hadoop Conference では時間上こちらから話すだけでしたが、今回は双方向の進行で議論を進めました。
 『データマイニング+WEB 勉強会@東京』、第10回を開催することができました。今後も蓄積データのデータマイニング機械学習による継続進化をより広く実現・提供していきたいと思います。どうぞよろしくお願い致します。

関連資料:

■参加者全員自己紹介 (60分)

■広告ネットワーク・グラフ解析 (180分) :

2. 「エンジニアのためのアドテクノロジー再入門:アドテクの基礎からRealTimeBiddingまで」(発表:30分 + 議論:30分)

講師 : [Twitter:@jazzyslide]

 大規模配信•解析技術によるターゲティング技術、オーディエンス(ユーザー)データによる配信などで近年話題になっているアドテクノロジーの全体観を、アドエクスチェンジやReal-Time-Biddingなどの概念を交えつつ、基礎からエンジニア視点でお伝え頂きました。

3. 「『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門」(発表:30分 + 議論:30分)

講師 :[Twitter:@c_z]

 近年、ウェブやソーシャルネットワーク、タンパク質相互作用ネットワークなど、大規模な公共のグラフデータにアクセス可能になってきた。このようなデータを理解し、有用な知識とするためには、解析手法と共に可視化の技法が重要である。可視化に必要なツールは、様々なものがオープンソースソフトウェアとして公開されており自由に利用可能だが、どのような形でデータを用意し、何を組み合わせて行えば効率的にできるかというノウハウは、意外とまとまった形で公開されていることが少ない。今回は、グラフ可視化プラットフォームの一つであるCytoscapeを中心に、igraphなどのパッケージとの連携、グラフと各種データの統合、インタラクティブな可視化の流れを紹介して頂きました。

  • 生化学ネットワークのデータ統合・解析・可視化
  • Graph DBは使わない。独自実装。高速化。
  • 1K〜10K Nodeのサイズの可視化が適切。多すぎるとよく分からなくなる。
  • Google Summer of CodeでGraph DBとの連携部分を今後実装していく。
  • igraph: Rでも用いられている。各種言語用のライブラリ。
  • Graph DBのグラフ探索との関係。同様に探索。
  • グラフのマージ

4. 「経営に活かす!データマイニング 〜流通商社の経営課題〜」(発表30分 + 議論30分)

講師 :[Twitter:@Shumei]

 流通業界を顧客に持つ商社における、データマイニングの活用事例を、ケーススタディ通じて発表させて頂きます。商社ではデータマイニングをどのように活用しているのか。技術/知識レベルは初級向けですが、幅広いトピックを扱いました。参加者で事前に、こちらのサイトにあるケースに目を通し、会場で議論を行いました。

■並列 機械学習 (150分) :

5. 「Rmpiとsnowで並列処理」(発表30分 + 議論30分)

講師 :[Twitter:@mokjpn]

※日本を代表するRの総合サイト RjpWiki の@mokjpn さんに、Rでの並列処理に関し お話し頂けます!
 普段は多くても数百行という自分の業界では珍しく数十万行のデータを取り扱うことになった。並列処理をやってみたら速くなったようです、というお話をして頂きました。

  • lapply を parLapplyに書換え並列化できる。
  • snow : SOCK, MPI, PPVM の並列処理をサポート。MPI macではLeopard以降 OpenMPIがサポートされている。
    • Mac 以外の人は OpenMPIをインストールする
  • 実行
    • cl <- makeCluster(4,"MPI")
    • #実際の処理
    • stopCluster(cl)
  • 並列化
  • parLapplyメモ
    • resultnでリストの中の要素を取り出す。$で変数名指定できない場合も記述できる。

6. 「Rにおける大規模データ解析」 (発表30分 + 議論30分)

講師 :[Twitter:@sfchaos]

 Rは統計解析の有力なツールとして大いに注目を集める一方で,いくつかの問題点も合わせ持っています.その中でも,Rが大規模データの扱いを得意としない点はしばしば問題になります.この問題点に対する解決策がいくつか提案されています.今回は大規模データを共有メモリとして管理できるパッケージ,およびそれを用いた機械学習アルゴリズムを並列処理で実装した例についてご紹介。2nd Weekでさらに進化した形でお話ひ頂くこととなりました。

参考文献: 

7. 「3分間でできるテキストマイニング」 (発表15分 + 議論15分)

講師 :[Twitter:@AntiBayesian]

資料:2/27 TokyoWebMining 3分間で出来るテキストマイニング 発表内容 - あんちべ!

 テキストマイニングを行うには、テキストを統計に落とし込むための前処理が必須であり、なおかつその作業は非常に煩雑である。この前処理を怠ると、分析の精度は非常に低いものとなり、有益な知見を得ることが出来ない。今回のLTでは、比較的簡易に実行可能であり、視覚効果も高い共起ネットワークを作成し、共起ネットワークの説明、その作成法について学ぶ。共起ネットワークとは、文書からその文書を特徴づける語の抽出を行い、特徴語同士の共起関係をネットワーク図にするものである。実行には無料のテキストマイニングソフト「KH Coder」を用いる。KH Coderは前処理から共起ネットワークの作成、可視化まで全てGUIで簡単に実行することが出来る優れたツールである。図は夏目漱石「こころ」から作成した共起ネットワークである(詳細はLTにて)。当日は共起ネットワークだけではなく、広くテキストマイニング一般についてのご質問も承ります。

  • 素敵なトーク。あんちべさん爆走。

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果(継続したい良かった点、改善点)、次回AGENDAです。



http://www.xmind.net/share/_embed/hamadakoichi/data-mining-web-10th-next-point-to-be-continued-improvem-1/

推薦文献

Hadoop

Hadoop

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第10回 データマイニング+WEB 勉強会@東京−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #10)-1st Week-広告ネットワーク・グラフ解析・並列機械学習 祭り- - Togetter

講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: