大規模データマイニング・機械学習 Mahout 活用に向けて読んでおきたい12のプレゼン資料

2012年度が始まり1ヶ月が経ちました。2011年度は、大規模分散処理技術・データ基盤の普及が広く進んだ年だったと思います。2012年はそれら蓄積された大規模データを活用しデータマイニング・機械学習を用い、ビジネス・サービス洗練を大きく広げていく年ではないでしょうか。

Mahoutは大規模分散データマイニング・機械学習のライブラリです。ApacheプロジェクトのOpen Sourceで、Hadoop上で動作しデータマイニング・機械学習の大規模分散実行を行うことができます。

Apache Mahout

大規模分散データマイニング・機械学習を実行できる Mahout ですが、まだ「ドキュメント整備が発展途上で詳細を知るためにはソースコードから読み解く」必要がある場合が多く、また、活用には「対象とするデータマイニング・機械学習の基礎知識」が必要なため、まだまだ活用の敷居が高いのが現状ではないでしょうか。

そこで今回は、これらの敷居を下げる、大規模データマイニング・機械学習の実際の活用に必要な「対象データマイニング・機械学習手法の導入的内容」から「Mahoutでの実際の実行方法」までのノウハウが公開されている、12のプレゼン資料を紹介したいと思います。Clustering、Classification、Pattern Mining、Recommendation、Algorithm全般、の各カテゴリごとに紹介します。