Hadoopとは何かを解説し、実際にHadoopを使って、大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します いまさら聞けないHadoopとテキストマイニング入門 テキストマイニングで始める実践Hadoop活用(1) それぞれの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築します
Hadoopとは何かを解説し、実際にHadoopを使って、大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します いまさら聞けないHadoopとテキストマイニング入門 テキストマイニングで始める実践Hadoop活用(1) それぞれの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築します
「青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日本の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場
はじめに IBM版Apache Hadoop(英語名:IBM Distribution of Apache Hadoop / 通称:IDAHO)とは、IBMのJava VMで動く、インストーラー付きApache Hadoopです。先進テクノロジー・ソフトウェアの無償ダウンロードサイト「IBM alphaWorks」で公開されています。 本記事執筆時点では、32-bit Linux version of the IBM SDK for Java 6 SR 8で稼働します。また、IDAHO-1.0では、Apache Hadoop version 0.20.2をベースにしています。 IDAHOには、Web-UIによるインストーラーがついています。SSH設定、Javaランタイム、Hadoopなどの設定を自動的に行いますので、Hadoopクラスターのセットアップが簡単に行えます。また、一回の作業で複
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く