Q&A: How Thomson Reuters used genAI to enable citizen developers
先日、Hadoop ConferenceでScala on Hadoopというタイトルで発表してきました。スライドを以下に置いておきます。 Scala on HadoopView more presentations from Shinji Tanaka. ダイジェストとして、ScalaをHadoopで動かすための方法を書いておきます。 まず、Hadoop上でScalaを実行させるためには、JavaとScalaを接続するライブラリが必要となります。ここでは、SHadoop( http://code.google.com/p/jweslley/source/browse/#svn/trunk/scala/shadoop )を使用します。SHadoopは、型変換を行うシンプルなライブラリです。 よくあるWordCountのサンプル、WordCount.scala (http://blog.jo
Hadoop World NYC 参加記 2009-10-07 (Wed) 10:03 Hadoop と言う訳でHadoop World NYC, 2009の参加記を書きます。 1日目はSystem Administrator用のトレーニングコースを受け、2日目がカンファレンス本番でした。トレーニングコースはDeveloper向け(3日間)とManager向けのビジネス寄りのコースが有り、合計で100人ぐらいは参加していたと思います。カンファレンスの本番自体は400~500人の参加でした。 まずSystem Adminコースですが、大体以下のような内容でした。 MapReduceの基本概念 ハードウェア/ネットワーク機器の選定ポイント OSやJavaなど、ソフトウェアでの注意点 Hadoop(Cloudera Distribution)のインストール方法 パラメーター/パフォーマンスチュー
Yahooは米国時間6月10日、Hadoopの自社開発版をオープンソースとしてリリースすると発表した。なお、Hadoopは同社の業務の多くを支えているグリッドコンピューティングフレームワークである。 Yahooは、Apache Software Foundationが主導しているHadoop開発に大きく貢献してきている。Hadoopは基本的に、Googleが同社のインデックスサーバを稼働させるために使用しているソフトウェアのオープンソース版であり、Yahooも自社においてGoogleと同じ目的でHadoopを使用している。 Yahoo Grid Technologiesの品質およびリリース担当エンジニアリングマネージャーであるNigel Daley氏の10日付けのブログ投稿によると、HadoopはYahooの社内において膨大な数のサーバ上で実行されているという。他の企業や組織にとって、Ya
米Amazon.com傘下の米Amazon Web Services(AWS)は米国時間2009年4月2日,大量データの分散処理を支援するサービス「Amazon Elastic MapReduce」の米国向けベータ提供を開始したと発表した。AWSのクラウド・サービスと,オープンソースの分散処理プラットフォーム「Hadoop」を組み合わせ,大量データを扱う際に必要となる設定作業の負担を軽減する。 Amazon Elastic MapReduceを利用すると,ホスティング・サービス「Amazon Elastic Compute Cloud(Amazon EC2)」とオンライン・ストレージ・サービス「Amazon Simple Storage Service(Amazon S3)」で動かす分散アプリケーションに割り当てる演算リソースの量を簡単に指定できるという。Amazon EC2のインスタンス
ということで、Google MapReduceの実装であるHadoopを使ったMapReduceと、JMSを使ったMapReduceをやってみました。 メッセージキューを使って分散MapReduceを実装する HadoopでのMapReduceを気軽に試すサンプル これ何のためにやったかというと、そこらにあるような数十台規模のサーバーを前提としたときに、Hadoopの有効性、ひいてはその元になってるGoogle MapReduceの有効性について疑問に思ったからです。そこで、ちょっと試してみた、と。 ここで、メッセージキューを使った場合に1秒でできてた処理が、Hadoopを使うとスタンドアロンモードでも40秒近くかかりました。擬似分散モードだと4分近くです。 いくらHadoopの実装がひどいとしても、これはあんまりです。 Googleでの実装はもっと効率的なものになっていると思いますが、そ
2008/08/25 Preferred Infrastructure(PFI)は8月25日、NTTレゾナントと共同で行った、オープンソースの分散システム「Hadoop」(ハドゥープ)に関する調査を行い、その解析資料を公開した。 HadoopはApacheの1プロジェクトとして開発が進められているJavaで書かれたソフトウェアで、グーグルの大規模データ処理基盤技術である「Google File System」(GFS)、「MapReduce」をオープンソースで実装したもの。多数のサーバを使って大規模なデータ処理が行える。Hadoopへの貢献度の高さで知られる米ヤフーは2008年2月19日に、1万台のLinuxクラスタを使ったHadoopシステムを発表。5PBのディスクストレージを使い、Web検索用のデータを作成しているという。ヤフーのほか、Facebook、IBMなど採用例が増えており、注
はじめに こんにちは。Hadoop連載 第4回は太田さんに代わって大倉が担当します。 これまでの連載で、Hadoopによるデータ処理の概略については理解されていると思います。今回はHadoopを利用したシステムの実例ということで、ブログ分析を行う「blogeye」システムの概略と、その中でのHadoop利用法を紹介します。 また、blogeyeはAmazonが提供しているEC2(レンタルサーバ)、S3(ストレージ)をHadoopと組み合わせて利用しているので、その辺りの導入方法についても紹介します。これまでの連載Hadoop、hBaseで構築する大規模分散データ処理システムHadoopのインストールとサンプルプログラムの実行複数マシンへHadoopをインストールする blogeyeとは 「blogeye」(ブログアイ)は日本語のブログをクロール、リアルタイムに分析して、流行語と思われるもの
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く