ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1
日本ヒューレット・パッカードは4月4日、スケールアウト型サーバシステム「HP ProLiant SL6500 シリーズ」のトレイ型サーバ新モデルを発表した。発表されたのは3機種で、いずれもオープンソースの分散ファイルシステム「Apache Hadoop」の利用を想定し、ディスク容量/メモリ/CPUなどの最適化を施している。 今回発表された新機種は、「HP ProLiant SL160s G6」、「同 SL165s G7」、「同 SL335s G7」の3つ。各サーバのスペックは以下のスライドのようになっている。 新機種のスペック HP ProLiant SL160s G6 / SL165s G7の特徴 HP ProLiant SL335s G7の特徴 最大の特徴は、ディスク搭載密度を向上させた点。いずれも従来モデルに比べて約2倍の最大ディスク容量を誇る。また、海外でのHadoop導入案件で培
NTTデータの「Lindacloud(リンダクラウド)」は、「Hadoop」に最適化したハードウエアを同社が自ら設計・製造したアプライアンスサーバーだ。機能をそぎ落として、低コストと低消費電力を追求したハードウエアは、大手クラウド事業者が使うサーバーによく似ている。Lindacloudが象徴する、サーバーの新潮流を探った。 Lindacloudが搭載するHadoopは、分散バッチ処理プログラムを開発するためのミドルウエアだ。複数のサーバーにデータを分散保存してバッチ処理を実行し、結果を集約するという機能を備える。 Lindacloudは、高さ42Uのラックに搭載した35台の専用サーバーユニットで構成する。合計で32個のプロセッサと、256Gバイトのメモリー、128T(テラ)バイトのハードディスクを搭載して、価格は800万円(図1)。インテグレーション費用も含まれていることを考えると、安価と
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く