[B! Hadoop][Yahoo] hts1004のブックマーク

Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。例えば、今まで1台でやっていた、あるログ集計処理

hts1004 2012/09/25

リンク

Hadoop～Yahoo! JAPANの活用について～

R言語で始めよう、データサイエンス（ハンズオン勉強会）〜機会学習・データビジュアライゼーション事始め〜Yasuyuki Sugai

hts1004 2010/12/15

hadoop
yahoo

リンク

「Application Performance2010」でご紹介したHadoop講演資料を公開します

11月16日に「Application Performance2010」というイベントでHadoopについて講演させていただきました。当日はたくさんの方におこしいただき、ありがとうございます。ここでは、当日講演で使用したプレゼン資料をご紹介させていただきます。 ●Hadoop　～Yahoo! JAPANの活用について～ヤフー株式会社 R&D統括本部角田直行、吉田一星

hts1004 2010/11/30

リンク

オープンソースカンファレンスのHadoop講演資料を紹介します

こんにちは。広報スタッフの楢崎です。 9月10日、11日の2日間開催された「オープンソースカンファレンス2010 Tokyo/Fall」にて、 Yahoo! JAPANはHadoopについて講演させていただきました。多くの方にご参加いただきありがとうございます。（写真：明星大学・日野キャンパスにて）ここでは、当日講演で使用したプレゼン資料を紹介させていただきます。 ●Hadoop　～Yahoo! JAPANの活用について～ヤフー株式会社 R&D統括本部角田直行、吉田一星

hts1004 2010/09/25

リンク

Yahoo! JAPANでのHadoop利用について

Cloudera World Tokyo 2015 Oracleセッション資料　「ビッグデータ/IoTの最新事例とHadoop活用の勘所」オラクルエンジニア通信

hts1004 2010/08/26

hadoop
yahoo

リンク

ヤフーを変え始めたHadoop

ヤフーが日本独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System（GFS）」と「MapReduce」を模したオープンソースソフトである（図）。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ～数ペタバイトに及ぶデータを高速に処理できる。 Hadoopを日本国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった（表）。

hts1004 2010/07/24

リンク

Hadoopを使いこなす(3)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、R&D統括本部の吉田です。前回と前々回の記事では、Hadoopのカスタマイズポイントを解説しました。単純な問題に対しては、map関数とreduce関数の組み合わせだけでも、処理を行うことができますが、ある程度複雑な問題に対しては、今までに解説したカスタマイズポイントの活用が重要になるという話でした。今回は実際のサービスの事例を紹介し、カスタマイズポイントがどう活用されているか紹介したいと思います。 ABYSS ABYSSの事例を紹介しましょう。 ABYSSとは、検索サービスを簡単に構築できる社内プラットフォームのことで、詳しくは以下のTech Blog記事で紹介しています。先日無事に社内リリースされました。新検索

hts1004 2010/07/24

リンク

Hadoopを使いこなす(2)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、前回のHadoopの記事に引き続き、MapReduceのカスタマイズポイントを解説していきます。前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。デフォルトのrun関数は以下の通りです。 public vo

hts1004 2010/03/13

リンク

Hadoopを使いこなす(1)

まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

hts1004 2010/02/01

リンク

米Yahoo!、「Hadoop」実装に次ぐクラウド技術「Traffic Server」を公開 | OSDN Magazine

米Yahoo!は11月2日（米国時間）、クラウドサービス向けアプリケーションサーバー「Traffic Server」をオープンソースとして公開することを発表した。Apache Software Foundation（ASF）にコードを寄贈し、Apache Incubatorプロジェクトとして発足させる。 Traffic Serverは、エッジサービス、オンラインストレージ、クラウドサービスなどで利用できるサーバー技術。2002年に買収したInktomiの技術を土台とした。キャッシュされたオンラインコンテンツへのアクセスを速度、信頼性、拡張性から改善でき、保存されたWebオブジェクトに対するリクエスト処理も高速化できるという。セッション管理、負荷分散、設定管理などの機能を持つ。低遅延と拡張性のあるフレームワークを持ち、プラグインアーキテクチャによりカスタマイズも容易という。 Yahoo!社

hts1004 2009/11/11

リンク

はてなブックマーク

タグ

関連タグで絞り込む (16)

HadoopとYahooに関するhts1004のブックマーク (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス