こんにちは。広報スタッフの楢崎です。 9月10日、11日の2日間開催された「オープンソースカンファレンス2010 Tokyo/Fall」にて、 Yahoo! JAPANはHadoopについて講演させていただきました。多くの方にご参加いただきありがとうございます。 (写真:明星大学・日野キャンパスにて) ここでは、当日講演で使用したプレゼン資料を紹介させていただきます。 ●Hadoop ~Yahoo! JAPANの活用について~ ヤフー株式会社 R&D統括本部 角田直行、吉田一星
ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など
Hadoopというソフトウエアが、いま注目を集めています。米Googleが発表した論文のアイディアをオープンソース・モデルで実装したソフトウエアです。膨大な量のデータを処理する必要に迫られた企業や研究組織が、続々とHadoopを実際に活用しはじめています。 私たちの研究グループでは、Wikipediaなどの巨大なテキスト・データを解析するために、2007年頃からHadoopを利用しはじめましたが、日本国内でも2009年あたりからHadoopを使った事例を多く見聞きするようになりました。国内で初めてのHadoop関連イベントが2009年11月に東京で開催され、オライリー・ジャパンから2010年1月にHadoop本の邦訳が出版されるなど、Hadoopが多くの開発者の注目を浴びています。 しかしながら、「Hadoopは何となくすごそうなんだけど、複雑だし、どんなソフトなのかいまいち分からないんだ
楽天のHadoop利用事例(前半) 2009年11月13日に行われました、Hadoop Conference Japan 2009の発表資料です。Read less
こんにちは。クックパッドのすみです。 去る4/2,4/3に大阪と名古屋にて「クックパッドの開発の裏側見せます」と題して講演会を開かせて頂きました。 当日は、技術部長の井原のほか、計3名のエンジニアがプレゼンさせて頂きました。 当日の資料を公開いたしますので、是非ご覧くださいませ。 最後に、大阪・名古屋の会場にご足労頂いた皆さま、 本当にどうもありがとうございました! またお会いできますことを楽しみにしております。 ・清水雄太/毎日の料理を楽しみにするためのクックパッド流エンジニアライフ [slideshare id=3645164&doc=random-100405232603-phpapp01] ・佐々木達也/「Hadoopの活用事例 in クックパッド」 [slideshare id=3636819&doc=20100402hadoop-100404223254-phpapp01] ・
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、 前回のHadoopの記事 に引き続き、MapReduceのカスタマイズポイントを解説していきます。 前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。 古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。 デフォルトのrun関数は以下の通りです。 public vo
まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed
米Yahoo!は11月2日(米国時間)、クラウドサービス向けアプリケーションサーバー「Traffic Server」をオープンソースとして公開することを発表した。Apache Software Foundation(ASF)にコードを寄贈し、Apache Incubatorプロジェクトとして発足させる。 Traffic Serverは、エッジサービス、オンラインストレージ、クラウドサービスなどで利用できるサーバー技術。2002年に買収したInktomiの技術を土台とした。 キャッシュされたオンラインコンテンツへのアクセスを速度、信頼性、拡張性から改善でき、保存されたWebオブジェクトに対するリクエスト処理も高速化できるという。セッション管理、負荷分散、設定管理などの機能を持つ。低遅延と拡張性のあるフレームワークを持ち、プラグインアーキテクチャによりカスタマイズも容易という。 Yahoo!社
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く