タグ

2011年6月22日のブックマーク (2件)

  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • Hadoopのテスト環境はどうやるのがいいのか?

    御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 Hadoopで真に大事なのは、テスト環境だったりする。基的に分散環境が前提になるので、どのレベルまでが単体テストなのか?どの程度までローカルでテストできなくてはいけないのか?というのは常に問題になるわけで。その意味ではCI含めた開発環境の重要性は以前よりも高いな、と今日思った。 2011-06-21 00:50:47 御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 HadoopのOS化ってのは一つの流れだとは思うけど、その場合、その上位のDSLが開発環境になるわけで。では、そのDSLにどこまで、どのようなテスト実行環境があるの?ってのは、やっぱり重要で。そもそも「プラットフォーム」って何って考えるところまで行く

    Hadoopのテスト環境はどうやるのがいいのか?