タグ

Hadoopに関するaiamのブックマーク (9)

  • Hadoopの標準GUI HUEの最新情報

    7. 開発コアチーム Join us at team.gethue.com Romain Rigaux Enrico Ber5 Chang Abraham Elmahrek Amstel 8. トーク ミートアップとイベント: NYC, Paris, LA, Tokyo, SF, Stockholm, Vienna, San Jose, Singapore, Budapest… 近日予定: London, West coast AROUND THE WORLD 避暑 Nov 13 Koh Chang, Thailand May 14 Curaçao, Netherlands An5lles Nov 14 Goa, India

    Hadoopの標準GUI HUEの最新情報
    aiam
    aiam 2014/07/09
  • Emerge Technology: [翻訳]Hadoopで動くPythonのMapReduceプログラムを書く

    HadoopフレームワークはJavaで書かれていますが、Hadoop上で動くプログラムはJavaで記述する必要はありません。PythonC++(バージョン0.14.1以降)のような他の言語で開発することができます。しかし、Hadoopのホームページのドキュメントや最も重要なPythonのサンプルコードを読むと、PythonコードをJythonを使ってJavaのjarファイルに変換しないといけないように考えてしまいます。明らかに、この方法はきわめて不便で、もし、Jythonが提供していないPythonの機能を使っている場合はともて問題です。Jythonのアプローチのもう一つの問題は、Hadoopと連携させてPythonプログラムを書くオーバーヘットです。<HADOOP_INSTALL>/src/examples/python/WordCount.pyを見れば、言っていることがわかると思いま

    Emerge Technology: [翻訳]Hadoopで動くPythonのMapReduceプログラムを書く
  • NTT情報ネットワーク総合研究所|NTT R&D Website

    NTT情報ネットワーク総合研究所は、あらゆるモノを「つなぐ」情報ネットワークを構成する基盤技術とともに、地球上のみならず宇宙も含めて持続可能で豊かな社会を創るための、革新的な通信技術や環境エネルギー技術の研究開発を推進しています。 総合研究所について NTT情報ネットワーク総合研究所は、あらゆるモノに「寄り添い」「しなやか」な情報ネットワークの実現に貢献します。 そのために“品質・信頼性の向上”、“柔軟性・サービス性の向上”、および“持続可能性の向上”の観点から、将来の社会基盤を支えるオペレーティングカンパニーとしての運用を考慮したテーマの研究開発を進めています。

    NTT情報ネットワーク総合研究所|NTT R&D Website
    aiam
    aiam 2012/01/29
  • 分散リアルタイムデータベース「SenseiDB」がオープンソースで公開。LinkedInのインフラとして開発

    テキストなど非構造化データのデータベース機能とサーチエンジン機能を兼ね備えた分散リアルタイムデータベース「SenseiDB」が、オープンソースとして公開されています。 SenseiDBとは先生DBの意味らしく、「Sensei (先生) means teacher or professor in Japanese」と説明があり、ロゴにも「師」の文字が使われています。なぜ先生なのか、その意味について以下のように説明があるのですが…… This name indicates that the system can be used in place of Oracle database in many applications. この名前が示しているのは、このシステムが多くのアプリケーションにおいてOracleデータベースで使われているところで利用可能だということです。 TeacherやProfe

    分散リアルタイムデータベース「SenseiDB」がオープンソースで公開。LinkedInのインフラとして開発
  • Progressive Data Solutions - Hadoop on Rails

    A few months ago, I wrote an article about using Ruby with Hadoop, and more specifically, the Amazon Elastic MapReduce (EMR) service. I hope some of you found that article helpful. I figured it was time to post a follow-up - using Rails with Hadoop. Much of my work over the past few months has been building a system to efficiently store, process, and display large amounts of log data. Naturally I

  • Episode 16 - "Dell, Dude You're Getting Big Data Clouds" + Show Notes

  • 米Twitter、リアルタイムデータ処理システム「Storm」をオープンソースで公開 | OSDN Magazine

    Twitterは8月4日、リアルタイムデータ処理システム「Storm」をオープンソースにする計画を発表した。Stormは同社が7月に買収した米BackType Technologyの技術で、データストリームの解析などに利用できるという。 Stormは「リアルタイムデータ処理のHadoop」を標榜する技術で、大量データの分散処理を行うためのクラスタシステム。BackTypeがTwitterに買収される前の6月に発表、オープンソースにする計画を明らかにしていた。 StormJava仮想マシン上で動作し、さまざまなプログラミング言語で行う処理を実装できる。クラスタシステムはクラスタをコントロールする「Nimbus」、実際の処理作業を実行する「Supervisor」、Supervisorを監視・制御する「Zookeeper」から構成され、Supervisorノードが処理を分割してZookeep

    米Twitter、リアルタイムデータ処理システム「Storm」をオープンソースで公開 | OSDN Magazine
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
    aiam
    aiam 2011/06/22
  • Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

    今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo!Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

    Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
    aiam
    aiam 2010/05/22
  • 1