タグ

hadoopとyahooに関するmasa0x80のブックマーク (4)

  • 大規模サイトを支えるビッグデータプラットフォーム技術

    2. 自己紹介 Privileged and Confidential 2 遠峯 康夫(とおみね やすお) 事業戦略統括部 データソリューション部 データインフラ開発部 2010年 新卒入社 Hadoopクラスタ立ち上げの部署に配属 2012年 データソリューション配属 Hadoop、リアルタイム処理基盤などを担当

    大規模サイトを支えるビッグデータプラットフォーム技術
  • これがABYSSのすべてだ!!

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ABYSS開発チームの前田です。今回は前回に続いて、ABYSSについて、ご紹介します! 皆様、前回のABYSSの記事を読んでくださいましてありがとうございます。今回は主に、ABYSS内部のコンポーネントについてより詳しく説明して行きます。 ところで先日、ABYSSのロゴが完成しました! 現在チーム内ではリリースに向けて、ラストスパートを駆けています。ロゴが完成したこともあり、ABYSSチームではリリースに向けてモチベーションもますます上がる一方となりました。ここまで来たら、もはやチームのモチベーションも計り知れません! しかし、諸事情により皆さんにロゴをお見せできないのが当に残念ですʅ( ‾⊖◝)ʃ さて、ABYSS

    これがABYSSのすべてだ!!
  • Hadoopを使いこなす(2)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、 前回のHadoopの記事 に引き続き、MapReduceのカスタマイズポイントを解説していきます。 前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。 古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。 デフォルトのrun関数は以下の通りです。 public vo

    Hadoopを使いこなす(2)
  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
  • 1