第2回 さくさくテキストマイニング勉強会に参加してきた #sakuTextMining
4/16(土)「第2回 さくさくテキストマイニング勉強会」に参加してきました。
ATND: 第2回「にこにこ」改め さくさくテキストマイニング勉強会 : ATND
運営、講師のみなさんお疲れさまでした。先週の第10回TokyoWebmining−2nd Week−大規模分散 機械学習 祭り−に続き、毎週会っているメンバーも多い。来週、再来週も会いますね。たっぷり話しましょう。
以下、各講師資料、メモ、所感まとめ。
言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜 ([Twitter:@AntiBayesian])
資料:言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜
- 言語処理学会の中で実務に使えそうなものを紹介していく。
- 不自然言語処理の紹介
- 自然言語処理 = MeCabで分析できる言語 w
- 不自然言語:顔文字、誤字、脱字
- soramegraph
- http://aaatxt-gae.appspot.com/soramegraph
- Twitter 上での空目されたワードをグラフ化
- "空目"を含むTweet 回数をエッジの重みとする
- ブブゼラ、ブルセラ
- goji generater
- 感情のこもった返答テンプレ生成君
- テンションの高い返答文章を自動生成
- ケンブリッジ大学
- 文頭固定法による効率的な回文生成
- 折り返し固定法:末尾から作る
- 文頭固定法:先頭から作る
- 文頭固定法のほうが早い。折り返し固定法は自由度が高く計算時間が非常にかかる。
- 顔文字情報と文の評価表現の関連性についての考察。
- 周辺言語的要素
- 顔文字の表現だけでなく、文脈把握が大切
- (;;): 嬉しい。悲しい。
- 複数感情の多値分類にしても精度が出ない。
- クラス分類ではなく複数の感情軸を合わせ持つ。
- 自身が意味を持たない場合もある。強調、緩衝材としての顔文字利用。
- 飲み会来るなよー (^^) ←冗談だと示している
- もっと不自然言語で遊ぼう
- 親密度の測定。どのくらい砕けた表現を使っているか。
- 学会での関根先生の言葉(楽天&ニューヨーク州立大)
"事業に役に立つ研究をしよう"、いいですね。共感。「蓄積データを活用し、実世界のサービス・活動をどうか進化させていくか」が「データマイニング+WEB@東京」の開催目的でもあり、私の日々のソーシャルでのデータマイニング活動の目的でもあります
今日から使える! みんなのクラスタリング超入門 ([Twitter:@toilet_lunch])
資料:※資料公開され次第、追記します。
- クラスタリング
- k-means
- 推薦文献に [データマイニング+WEB勉強会][R勉強会] はじめてでもわかる R言語によるクラスター分析 - 似ているものをグループ化する-が挙がっていた。
- 最適クラスタ数はどう算出するか?
Cannopy もありますよ。TokyoWebmining でも各種クラスタリングを話しているのでぜひ。またF値評価もよいと思います。
条件付き頻度分布 with NLTK([Twitter:@gepuro])
Frequency with nltk
View more presentations from gepuro
『可視化するだけ』でも面白い〜テキストマイニング最初の一歩 ([Twitter:@ts_3156])
資料:※公開され次第、追記します。
概観テキストマイニング ([Twitter:@todesking])
概観テキストマイニング
View more presentations from todesking
- 紹介
- TeamLabo、ウルトラテクノロジ集団。Hatena:gnarl
- Web系、受託開発。情報推薦エンジン。
- テキストマイニング:大量のフリーテキストから意味のあるデータの抽出。
- 大量:統計的に有効。コンピュータ活用。
- フリーテキスト:自然言語。構造化されていないデータ。様々なノイズ。表記ゆれ、未知表現。
- 構造解析
- データ
- フリーテキストがデータの全てではない。
- 構造化されたデータも用いる:日付、作者、タイミング、数量、等。
- 情報
- 属性間相関、全体の傾向、等。
- クラスタリング、相関分析、パターン分析、トピック分析、分類、など。
- 手法をどう使い、結果をどう解釈するか。
- 目的:価値のある情報を生み、行動の指針とする
- 仮説検証ができる
- 意外性のある結論
- 具体的なビジネス上のアクションに結びつく
- 行動すると誰に何をもたらすのか
- プロセス
WordNetで作ろう、言語横断検索サービス ([Twitter:@stakemura])
WordNetで作ろう! 言語横断検索サービス
View more presentations from stakemura
- 社内Google Gode
- プログラムが増え続けるとほしいものが見つからない。
- 生産性を上げるためにはより賢いアプローチが必要
- 方針
- 検索性能の強化。
- 表記ゆれ、同義語、等、解決。
- 推薦
- 検索性能の強化。
- システム特徴
- フィールドが多い
- ドキュメント規模は小さい:PC1台でまわせるレベル、
- リンク解析など高度な機能は不要
- 検索システムは自前で構築
- Lucene で要求仕様を全部満たせるか分からなかったため。
- アプローチ
- WordNet
- 出発点は 英英辞典
- 対訳辞書。単語のつながりを見つけられる
- 類似語の抽出
- 課題
- 検索結果がよくない
- →ランキングアルゴリズム
- 情報検索
- Recall (再現率):
- 検索漏れがないか
- 適合する可能性がある文書を検索結果として採用
- Precision (適合率) :
- 全検索結果にたいして、要求を満たす結果がどのくらいか
- 適用する可能性がある文書を検索結果から除外
- ベクトル空間モデル
- Probatility Ranking Principle (PRP)
- 情報要求にないして確率論を当てはめた考え
- 文書d とクエリq の適合性を確率として表現
- Binary Indepence Model (BIM)
- 仮定:文章を 0 or 1 の2値単語ベクトルで表現
- 文章分類は出来るが、検索には不十分。
- Recall (再現率):
- 工夫
- BM25
- ある文章内での単語頻度が高いと重み付けを付ける
- 研究結果、線形ではなく、2つのポワソン分布の混合を考えると、いい検索ランキングの重みづけできる。
- BM25F (2004)
- BM25を複数のフィールドに対応
- 納得のいく結果が得られた。
- Lucene は BM25Fの対応は難しい
- BM25
- まとめ
- Wordnet有用
- 情報検索基礎: tf-idf から BM25F。
- コメント
- relevance Feedback も行う
R言語によるはじめてのテキストマイニング ([Twitter:@yokkuns])
Sakuteki02 yokkuns
View more presentations from yokkuns
- R
- YjdnJlpパッケージ
- テキスト解析API
- 形態素解析
- con <- initYjdnJlp("*ApplicationId*")
- res <- MAService(con, str)
- res.df <- toDataFrame(res)
- head(res.df[res.df.pos == "名詞",..]
- 掛かり受け解析
- res <- DAService(con,str)
- 特徴後解析
- res <- KeyPhrame(con, str)
- コレスポンデンス分析
- 作者: 岡田昌史,荒木孝治,伊藤康広,里洋平,高柳慎一,棚瀬貴紀,谷村晋,中谷朋昭,蓮見亮,林真広,樋口千洋,福島真太朗,牧山文彦,横山貴央,akira,mickey24
- 出版社/メーカー: 東京図書
- 発売日: 2011/04/09
- メディア: 単行本
- 購入: 2人 クリック: 1,298回
- この商品を含むブログ (16件) を見る
「コレカモネット」の紹介 ([Twitter:@tks])
推薦文献
テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法
- 作者: 那須川哲哉
- 出版社/メーカー: 東京電機大学出版局
- 発売日: 2006/11/01
- メディア: 単行本
- 購入: 4人 クリック: 146回
- この商品を含むブログ (12件) を見る
- 作者: 石田基広
- 出版社/メーカー: 森北出版
- 発売日: 2008/12/16
- メディア: 単行本(ソフトカバー)
- 購入: 26人 クリック: 342回
- この商品を含むブログ (34件) を見る