第2回 さくさくテキストマイニング勉強会に参加してきた #sakuTextMining

4/16(土)「第2回 さくさくテキストマイニング勉強会」に参加してきました。

ATND: 第2回「にこにこ」改め さくさくテキストマイニング勉強会 : ATND


運営、講師のみなさんお疲れさまでした。先週の第10回TokyoWebmining−2nd Week−大規模分散 機械学習 祭り−に続き、毎週会っているメンバーも多い。来週、再来週も会いますね。たっぷり話しましょう。


以下、各講師資料、メモ、所感まとめ。

言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜 ([Twitter:@AntiBayesian])

資料:言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜

  • 言語処理学会の中で実務に使えそうなものを紹介していく。
    • 学会で最新の情報と仕事を得る。疑問点を解決する。
    • 7本の論文紹介、全てスキップw
    • Wikipediaを利用しコーパス作成、カテゴライズが流行。やってみたけど
    • FOBOSやpLSAをやっている学部生が多い
  • 自然言語処理の紹介
    • 自然言語処理 = MeCabで分析できる言語 w
    • 自然言語:顔文字、誤字、脱字
    • soramegraph
    • goji generater
    • 感情のこもった返答テンプレ生成君
      • テンションの高い返答文章を自動生成
    • ケンブリッジ大学
    • 文頭固定法による効率的な回文生成
      • 折り返し固定法:末尾から作る
      • 文頭固定法:先頭から作る
      • 文頭固定法のほうが早い。折り返し固定法は自由度が高く計算時間が非常にかかる。
    • 顔文字情報と文の評価表現の関連性についての考察。
      • 周辺言語的要素
      • 顔文字の表現だけでなく、文脈把握が大切
      • (;;): 嬉しい。悲しい。
      • 複数感情の多値分類にしても精度が出ない。
      • クラス分類ではなく複数の感情軸を合わせ持つ。
      • 自身が意味を持たない場合もある。強調、緩衝材としての顔文字利用。
      • 飲み会来るなよー (^^) ←冗談だと示している
    • もっと不自然言語で遊ぼう
      • 親密度の測定。どのくらい砕けた表現を使っているか。
    • 学会での関根先生の言葉(楽天ニューヨーク州立大)


"事業に役に立つ研究をしよう"、いいですね。共感。「蓄積データを活用し、実世界のサービス・活動をどうか進化させていくか」が「データマイニング+WEB@東京」の開催目的でもあり、私の日々のソーシャルでのデータマイニング活動の目的でもあります

今日から使える! みんなのクラスタリング超入門 ([Twitter:@toilet_lunch])

資料:※資料公開され次第、追記します。

Cannopy もありますよ。TokyoWebmining でも各種クラスタリングを話しているのでぜひ。またF値評価もよいと思います。

条件付き頻度分布 with NLTK([Twitter:@gepuro])

  • Twitter タイムラインの取得
  • フィルタ
    • 日本語ツイートだけを対象。形態素解析で名詞だけを対象とする。
  • 条件付き頻度分布のプロット
    • NLTKを使用
    • Public Tweet と比較して、自分のTime Line地震ワードが少ない
    • パブリックの上位100語を取り除いてみた
  • コメント
    • ユーザーの使用言語が返される
    • ひらがな使うか

『可視化するだけ』でも面白い〜テキストマイニング最初の一歩 ([Twitter:@ts_3156])

資料:※公開され次第、追記します。

  • Egotter
    • 誰の情報も見える
    • リムーブした人、リムーブした人が他にリムーブした人
    • フォローしている/されているだけの人
    • 口ぐせ
    • よくツイートする時間帯
    • リプライを見られている人
    • 入っているクラスタ
  • クラスタ分析
    • プロフィールに載っていない情報(関連語:図書館、筑波大学、研究)
    • 同じクラスタの人
  • 作った目的
    • 自分の社会的評判を知りたい。
  • 実装
    • 同じリストに入っているユーザーを見つけ。
      • 人によるタグ付け
    • プロフィール文字列を連結し形態素解析
    • 出現頻度の高い頻度の語を抽出。
    • ツイートや、フォロー・フォローワーを用いていない
      • ツイートは適当。
  • メッセージ
    • 簡単な解法で説ける問題もたくさんある。
    • テキストマイニングの結果を、どう解釈するのかが重要
    • プロフィールを解析して、
    • 見切り発車でもとりあえず作ってみる。
      • 鉛筆の歴史を知らなくても、絵・字を書ける。
  • 今後
    • 性別の判別を行っていく。
    • 何でリムーブされたのか。リムーブ時刻も計測して原因推定を検討。
    • フォローワーのクラスタ

概観テキストマイニング ([Twitter:@todesking])

  • 紹介
    • TeamLabo、ウルトラテクノロジ集団。Hatena:gnarl
    • Web系、受託開発。情報推薦エンジン。
  • テキストマイニング:大量のフリーテキストから意味のあるデータの抽出。
    • 大量:統計的に有効。コンピュータ活用。
    • フリーテキスト:自然言語。構造化されていないデータ。様々なノイズ。表記ゆれ、未知表現。
  • 構造解析
  • データ
    • フリーテキストがデータの全てではない。
    • 構造化されたデータも用いる:日付、作者、タイミング、数量、等。
  • 情報
    • 属性間相関、全体の傾向、等。
    • クラスタリング、相関分析、パターン分析、トピック分析、分類、など。
    • 手法をどう使い、結果をどう解釈するか。
  • 目的:価値のある情報を生み、行動の指針とする
    • 仮説検証ができる
    • 意外性のある結論
    • 具体的なビジネス上のアクションに結びつく
      • 行動すると誰に何をもたらすのか
  • プロセス
    • テキストマイニングは大きなビジネスプロセスの1つ
    • ビジネスプロセスへ分析結果をフィードバックする
    • お金を生むテキストマイニング
      • データを使って面白いことをやる。口グセと商品推薦、TwitterID と商品提案。
      • 明日から始まるWebサービスの推薦。
    • 情報推薦:コレカモ。UI がカモ。許せる。間違え方が全然違う。新しい購買活動を増やす。

WordNetで作ろう、言語横断検索サービス ([Twitter:@stakemura])

  • 社内Google Gode
    • プログラムが増え続けるとほしいものが見つからない。
    • 生産性を上げるためにはより賢いアプローチが必要
  • 方針
    • 検索性能の強化。
      • 表記ゆれ、同義語、等、解決。
    • 推薦
  • システム特徴
    • フィールドが多い
    • ドキュメント規模は小さい:PC1台でまわせるレベル、
    • リンク解析など高度な機能は不要
    • 検索システムは自前で構築
      • Lucene で要求仕様を全部満たせるか分からなかったため。
  • アプローチ
  • WordNet
    • 出発点は 英英辞典
    • 対訳辞書。単語のつながりを見つけられる
  • 類似語の抽出
    • MeCabで標準形と品詞を取得
    • 名詞・副詞・動詞・形容詞のみ抽出
    • SQL で word -> sense -> 関連sence -> 関連word
  • 課題
  • 情報検索
    • Recall (再現率):
      • 検索漏れがないか
      • 適合する可能性がある文書を検索結果として採用
    • Precision (適合率) :
      • 全検索結果にたいして、要求を満たす結果がどのくらいか
      • 適用する可能性がある文書を検索結果から除外
    • ベクトル空間モデル
      • Term × Document
    • Probatility Ranking Principle (PRP)
      • 情報要求にないして確率論を当てはめた考え
      • 文書d とクエリq の適合性を確率として表現
    • Binary Indepence Model (BIM)
      • 仮定:文章を 0 or 1 の2値単語ベクトルで表現
      • 文章分類は出来るが、検索には不十分。
  • 工夫
    • BM25
      • ある文章内での単語頻度が高いと重み付けを付ける
      • 研究結果、線形ではなく、2つのポワソン分布の混合を考えると、いい検索ランキングの重みづけできる。
    • BM25F (2004)
      • BM25を複数のフィールドに対応
      • 納得のいく結果が得られた。
      • Lucene は BM25Fの対応は難しい
  • まとめ
    • Wordnet有用
    • 情報検索基礎: tf-idf から BM25F。
  • コメント
    • relevance Feedback も行う

R言語によるはじめてのテキストマイニング ([Twitter:@yokkuns])

  • R
  • YjdnJlpパッケージ
    • Yahoo!Japan Developer Networkのテキスト解析APIを使うパッケージ
    • Yahoo Japan Application ID を使う
  • テキスト解析API
  • 形態素解析
    • con <- initYjdnJlp("*ApplicationId*")
    • res <- MAService(con, str)
    • res.df <- toDataFrame(res)
    • head(res.df[res.df.pos == "名詞",..]
  • 掛かり受け解析
    • res <- DAService(con,str)
  • 特徴後解析
    • res <- KeyPhrame(con, str)
  • コレスポンデンス分析

Rパッケージガイドブック

Rパッケージガイドブック

  • 作者: 岡田昌史,荒木孝治,伊藤康広,里洋平,高柳慎一,棚瀬貴紀,谷村晋,中谷朋昭,蓮見亮,林真広,樋口千洋,福島真太朗,牧山文彦,横山貴央,akira,mickey24
  • 出版社/メーカー: 東京図書
  • 発売日: 2011/04/09
  • メディア: 単行本
  • 購入: 2人 クリック: 1,298回
  • この商品を含むブログ (16件) を見る

「コレカモネット」の紹介 ([Twitter:@tks])

  • 紹介
    • Team Labo、WEBを用いて収益を上げるSI
    • 従業員150名
  • コレカモ
    • 東急ハンズ
    • Twitterで、目的を入れると、商品を返す
    • 開発 1ヶ月半
    • Twitterでまともに在庫検索は無理
    • 検索ではなく、面白い情報検索
    • Twitter: 人気ボットのほうがFav率が高い
    • ゆるいキャラ:シーマンやどこでも一緒みたいなキャラを作る
    • 表現:コレカモは、... かも。
    • オモロく評判になる回答
      • ネットやTwitterでされそうな質問の返答を用意した。
      • 正規表現を使う
      • ハンズの商品自体が面白い。
  • 今後
    • おしゃれハイテク
    • おもろハイテク

推薦文献

テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法

テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法

Rによるテキストマイニング入門

Rによるテキストマイニング入門