タグ

HadoopとYahooに関するhts1004のブックマーク (10)

  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • Hadoop~Yahoo! JAPANの活用について~

    R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜機会学習・データビジュアライゼーション事始め〜Yasuyuki Sugai

    Hadoop~Yahoo! JAPANの活用について~
  • 「Application Performance2010」でご紹介したHadoop講演資料を公開します

    11月16日に「Application Performance2010」というイベントでHadoopについて講演させていただきました。 当日はたくさんの方におこしいただき、ありがとうございます。 ここでは、当日講演で使用したプレゼン資料をご紹介させていただきます。 ●Hadoop ~Yahoo! JAPANの活用について~ ヤフー株式会社 R&D統括部 角田直行、吉田一星

    「Application Performance2010」でご紹介したHadoop講演資料を公開します
  • オープンソースカンファレンスのHadoop講演資料を紹介します

    こんにちは。広報スタッフの楢崎です。 9月10日、11日の2日間開催された「オープンソースカンファレンス2010 Tokyo/Fall」にて、 Yahoo! JAPANはHadoopについて講演させていただきました。多くの方にご参加いただきありがとうございます。 (写真:明星大学・日野キャンパスにて) ここでは、当日講演で使用したプレゼン資料を紹介させていただきます。 ●Hadoop ~Yahoo! JAPANの活用について~ ヤフー株式会社 R&D統括部 角田直行、吉田一星

    オープンソースカンファレンスのHadoop講演資料を紹介します
  • Yahoo! JAPANでのHadoop利用について

    Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」オラクルエンジニア通信

    Yahoo! JAPANでのHadoop利用について
  • ヤフーを変え始めたHadoop

    ヤフーが日独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトである(図)。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデ ータを高速に処理できる。 Hadoopを日国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった(表)。

    ヤフーを変え始めたHadoop
  • Hadoopを使いこなす(3)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、R&D統括部の吉田です。 前回と前々回の記事では、Hadoopのカスタマイズポイントを解説しました。 単純な問題に対しては、map関数とreduce関数の組み合わせだけでも、処理を行うことができますが、ある程度複雑な問題に対しては、今までに解説したカスタマイズポイントの活用が重要になるという話でした。 今回は実際のサービスの事例を紹介し、カスタマイズポイントがどう活用されているか紹介したいと思います。 ABYSS ABYSSの事例を紹介しましょう。 ABYSSとは、検索サービスを簡単に構築できる社内プラットフォームのことで、詳しくは以下のTechBlog記事で紹介しています。先日無事に社内リリースされました。 新検索

    Hadoopを使いこなす(3)
  • Hadoopを使いこなす(2)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、 前回のHadoopの記事 に引き続き、MapReduceのカスタマイズポイントを解説していきます。 前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。 古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。 デフォルトのrun関数は以下の通りです。 public vo

    Hadoopを使いこなす(2)
  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
  • 米Yahoo!、「Hadoop」実装に次ぐクラウド技術「Traffic Server」を公開 | OSDN Magazine

    Yahoo!は11月2日(米国時間)、クラウドサービス向けアプリケーションサーバー「Traffic Server」をオープンソースとして公開することを発表した。Apache Software Foundation(ASF)にコードを寄贈し、Apache Incubatorプロジェクトとして発足させる。 Traffic Serverは、エッジサービス、オンラインストレージ、クラウドサービスなどで利用できるサーバー技術。2002年に買収したInktomiの技術を土台とした。 キャッシュされたオンラインコンテンツへのアクセスを速度、信頼性、拡張性から改善でき、保存されたWebオブジェクトに対するリクエスト処理も高速化できるという。セッション管理、負荷分散、設定管理などの機能を持つ。低遅延と拡張性のあるフレームワークを持ち、プラグインアーキテクチャによりカスタマイズも容易という。 Yahoo!

    米Yahoo!、「Hadoop」実装に次ぐクラウド技術「Traffic Server」を公開 | OSDN Magazine
  • 1