Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
![Hadoopの標準GUI HUEの最新情報](https://cdn-ak-scissors.b.st-hatena.com/image/square/500a0bed8674ec379baa02e5c1ecd6b37b898b48/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fhucj2014hue36-140708034722-phpapp01-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
HadoopフレームワークはJavaで書かれていますが、Hadoop上で動くプログラムはJavaで記述する必要はありません。PythonやC++(バージョン0.14.1以降)のような他の言語で開発することができます。しかし、Hadoopのホームページのドキュメントや最も重要なPythonのサンプルコードを読むと、PythonコードをJythonを使ってJavaのjarファイルに変換しないといけないように考えてしまいます。明らかに、この方法はきわめて不便で、もし、Jythonが提供していないPythonの機能を使っている場合はともて問題です。Jythonのアプローチのもう一つの問題は、Hadoopと連携させてPythonプログラムを書くオーバーヘットです。<HADOOP_INSTALL>/src/examples/python/WordCount.pyを見れば、言っていることがわかると思いま
テキストなど非構造化データのデータベース機能とサーチエンジン機能を兼ね備えた分散リアルタイムデータベース「SenseiDB」が、オープンソースとして公開されています。 SenseiDBとは先生DBの意味らしく、「Sensei (先生) means teacher or professor in Japanese」と説明があり、ロゴにも「師」の文字が使われています。なぜ先生なのか、その意味について以下のように説明があるのですが…… This name indicates that the system can be used in place of Oracle database in many applications. この名前が示しているのは、このシステムが多くのアプリケーションにおいてOracleデータベースで使われているところで利用可能だということです。 TeacherやProfe
A few months ago, I wrote an article about using Ruby with Hadoop, and more specifically, the Amazon Elastic MapReduce (EMR) service. I hope some of you found that article helpful. I figured it was time to post a follow-up - using Rails with Hadoop. Much of my work over the past few months has been building a system to efficiently store, process, and display large amounts of log data. Naturally I
米Twitterは8月4日、リアルタイムデータ処理システム「Storm」をオープンソースにする計画を発表した。Stormは同社が7月に買収した米BackType Technologyの技術で、データストリームの解析などに利用できるという。 Stormは「リアルタイムデータ処理のHadoop」を標榜する技術で、大量データの分散処理を行うためのクラスタシステム。BackTypeがTwitterに買収される前の6月に発表、オープンソースにする計画を明らかにしていた。 StormはJava仮想マシン上で動作し、さまざまなプログラミング言語で行う処理を実装できる。クラスタシステムはクラスタをコントロールする「Nimbus」、実際の処理作業を実行する「Supervisor」、Supervisorを監視・制御する「Zookeeper」から構成され、Supervisorノードが処理を分割してZookeep
ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1
今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo! や Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く