第24回 データマイニング+WEB@東京( #TokyoWebmining 24th) −大規模データ・ソーシャル解析 祭り− を開催しました

2012/11/25 "第24回 データマイニング+WEB@東京−大規模データ・ソーシャル解析 祭り− "を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

参加者ID・バックグラウンド一覧:

参加者Twitter List: Twitter List TokyoWebmining #24
参加者セキココ:第24回 データマイニング+WEB @東京 セキココ
(作成してくれた @kabao さんに感謝)


以下、全講師資料、関連資料、ツイートまとめです。

AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(75分)

進行 :[Twitter:@hamadakoichi]

「主要なFacebookページの投稿記事データとFB利用者のパネルリサーチからみえてきた エンゲージメント率を高めるTips」 (講師: @nakamuu_m ) (発表25分 + 議論30分)

企業や製品などのFacebookページ(約600ページ)を対象に、投稿記事データとそれに対するユーザ反応データを集計しました。そこからみえてきた「いいね!」やコメントの付けられ方の統計的特徴を共有します。さらに、Facebookユーザを対象に実施したパネルリサーチ調査との付け合せから、ページ運用の改善アクションに繋げるためのTipsを紹介します。(本発表の一部分析とパネルリサーチデータはニフティ株式会社&株式会社コムニコの共同調査が出典となります)

  • エンゲージメント率を高める
  • データ
    • FBページデータ。590ページ、5万記事、37万コメント、200万人
    • パネルデータ
  • 評価指標
  • 反応率 = (いいね数 + コメント数 + シェア数) / ファン数(ページのいいね数)
    • ファン数増加の反応率の低下も含めた評価で、全体からの偏差値で評価。
    • 反応率を上げる
    • 画像を投稿する
    • 共感を生む語、柔らかい印象の語を入れる:味、食、美味しい、レシピ、美しい、等
    • ひらがなの多い「柔らかい」印象。ひらがな7割だと、3割の場合の反応率4倍。
    • 漢字3割で、ひらがな7割。英字、数字、カタカナ、記号は使わらないほうがいい。
    • 行動を促すメッセージを入れる。いかがでしょうか:5倍。xxしてみてください!等。
    • 17時の投稿が最も高く、反応率が高い。次いで、7時・11時。朝7時は投稿数が少なく「目立ちやすい」のが要因か。11-13時、17-20時が投稿数多い。
    • パネルデータからは、朝、昼、寝る前が高いが、就寝時間あたりの反応ピークはない。就寝時間に幅があるからか。
  • Tipsで偏差値を挙げた後、さらに上に進む
    • コメントつけてくれた人にいいねを押す、コメントする。阪神のサイトはファン同士がコメントをつけるコミュニケーションの場。
    • 安打製造⇒ホームラン:コンテンツの一般性(例:猫・犬)×期待コンテンツとのギャップ(例:猫なべ)、広めるきっかけ。
    • コメントのタイミング:投稿直後ホームラン、打球が伸びてホームラン(記事広告、メディア露出)、複数初ホームラン(例:寅さん名言)
  • 全てのコメントに含まれる単語、反応率の高い単語
    • 反応率高い:感情を表す単語。やってみよう。
  • FB = リア充 という仮説の検証、モテと投稿の関係 (非公開)

ソーシャルゲームにレコメンドエンジンを導入した話」 (講師: @tokoroten ) (発表20分 + 議論35分)

  • Hadoop, Hive, sh, R, SPSS, Knime, Python
  • Hadoop: Impara導入
  • ゲームバランス、継続率、収益率、テキスト、広告効果
  • 分散をあきらめた。100万ユーザ。FIO。PDCAを3日で回す。
  • 組織構造:信頼関係
  • レイドボスで、 生活パターンが一致するユーザを推薦
  • user_id, target_userid のリストを送ると、スコアつきのtarget_userのリストが返る
  • 既存アプリ・新規リリースアプリともに差はでなかった。長期継続率も変わらない。
  • 今後:アクティブ率を考慮していく。既存ユーザの調査を行う。
  • どんな風に仕事が生まれるか:サービス利用から課題⇒課題の定量化⇒アクション
  • インフラにいたときであまりデータに触れないときに活動していた。

「流行りの技術を習得しない大量データ運用」(講師: @criticabug ) (発表25分 + 議論30分)

資料:Google docs

NoSQLなど新技術が現れるたび触っておこうとか思っていたけど
結局ここまで使わずにやってきちゃった某広告サービスの構成をご紹介します

  • レコメンド、パーソナライズされた広告
  • 行動履歴・更新
  • 各種工夫
  • Keep Alive短く
  • グラフデータの扱い:

「REALTime処理KVS一考: ソフトとハードでパフォーマンスを最適化する方法」(講師: @iakiyama ) (発表25分 + 議論30分)

資料:アップされ次第、追記します。

想定:
・何故NoSQLか?
・NoSQLを検討している時のハードウェア構成。
・高速半導体ストレージを使った場合の性能比。

  • NAND型フラッシュメモリ適用のパフォーマンス
  • MEMBRAINによる数字:オンメモリーのKVSアプリケーションに対して、3倍から145倍の速度。
  • Handlersocket on iodrive
  • メモリ増加と各種パフォーマンスアップ

参考文献:
NoSQLに関して

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果MindMap

  • 継続したい良かった点
  • 改善点アクション
  • 次回AGENDA
推薦文献

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第24回 データマイニング+WEB 勉強会@東京−大規模データ・ソーシャル解析 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第24回 データマイニング+WEB@東京 ( #TokyoWebmining #24) -大規模データ・ソーシャル解析 祭り- - Togetter

講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: