[B! hadoop] juno_cのブックマーク

ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.

Hadoopが出てきてから10年，ビッグデータという言葉が流行り始めてからでも5年以上が経ち，2016年現在では，Hadoopエコシステムを使ったデータ活用が当たり前のものとしてあります．とはいえ巷に出回っているビッグデータ活用事例というのは，綺麗な上澄みだけをすくい取っていたり，リリースしたてのピカピカのときに発表されていたり，というのが大半で，それが結構個人的に気に食わなかったりします．ビッグデータが当たり前のものになっている現在においては，単に作っただけで価値があるというフェーズは過ぎ去っていて，継続的に運用しながら価値を生み出し続けることが，非常に重要な問題だと思います．特にビッグデータ界隈はミドルウェアやツールの陳腐化が激しく，またビジネス自体の変化速度も過去と比べてどんどん速くなっているわけで，そういった変化に対応していくためには，また別のスキルが必要とされるのではないでしょ

juno_c 2016/04/21

hadoop

リンク

Sign in - Google Accounts

juno_c 2013/12/30

hadoop
mac

リンク

Python：Hadoop：MapReduceサンプル - HiiHahWIKI - making some notes for... -

Python：Hadoop：MapReduce?サンプル † HadoopのMapReduce?のプログラムをHadoopStreaming?を使ってPythonで書いてみました。 ※CDH環境で実行してますので、実行時のパス等は適当に読み替えてください。 Reducerの処理は一工夫必要だけど、簡単に書けます。ログの集計とか、Hadoop使ってやるとほんと簡単に実行できるなーと実感した限りです。 ↑ 処理対象データの一部 † こんな感じのデータが入力で、時刻（分）単位のレスポンスタイムの平均を求めたいです。 ■test.txt #refpre(test.txt,,1); 第一カラム時刻（ミリ秒まで出力されている）第四カラムレスポンスタイム（ミリ秒） ↑ ソース † こんな感じです。 ■map.py #refpre(map.py,,1); ほんとは、入力値チェックをして、エラーレコ

juno_c 2012/09/08

リンク

InfoTech.fmfamily.net - hadoopの初期設定方法

juno_c 2012/07/10

11.10

リンク

TwitterにおけるHadoopとLuceneを利用した大規模データ解析について - nokunoの日記

Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection Operations in Large-Scale Data Analytics(pdf)ACMのMapReduce'11というワークショップで発表された内容のようです。この論文を読んで初めて知ったのですが、Lin先生はサバティカル休暇（大学教授が長期の休みを取れる制度）でTwitterに来ており、データ解析チームで働いているそうです。この論文もTwitter エンジニアの@squarecogさんと

juno_c 2011/10/25

リンク

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という

juno_c 2011/05/04

リンク

Hadoop　～Yahoo! JAPANの活用について～

1. オープンソースカンファレンス 2010 Tokyo/Fall Hadoop ～ Yahoo! JAPAN の活用について～ 2010/9/10 ヤフー株式会社 R&D 統括本部角田直行、吉田一星 2. 自己紹介角田　直行 ( かくだ　なおゆき ) R&D 統括本部プラットフォーム開発本部検索開発部開発 3 2005 年ヤフー株式会社入社ヤフー地図ヤフー路線ヤフー検索 … 2010 年現在、検索プラットフォームを開発中 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 3. 自己紹介吉田一星（よしだ　いっせい） R&D 統括本部プラットフォーム開発本部検索開発部開発３ R&D 統括本部フロントエンド開発本部アプリケーション開発部開発４（兼） R&D 統括本部プラットフォー

juno_c 2011/02/24

リンク

Hadoopを使いこなす(2)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、前回のHadoopの記事に引き続き、MapReduceのカスタマイズポイントを解説していきます。前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。デフォルトのrun関数は以下の通りです。 public vo

juno_c 2011/02/24

リンク

Hadoopを使いこなす(1)

まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

juno_c 2011/02/24

リンク

見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 | gihyo.jp

見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 8月4日、六本木ミッドタウンのヤフー株式会社にて、今回で2回目となるHadoopをテーマにしたイベント「Hadoop Hack Night Vol.2」が開催された。 Hadoop（ハドゥープ）は、いま注目のクラウドコンピューティングなどに利用されているMapReduce技術が使えるオープンソースソフトウェア。大規模なデータの解析処理などに分散システムを利用したい場合に大きな力を発揮する。このように注目を集めているHadoopだが、実際に数テラバイト以上といった大容量のデータを処理しなければならないケースはまだそれほど多くない。大きな期待を集めながら「生きた実例」に乏しいのもHadoopをめぐる1つの状況だろう。そこで、今回の「Hadoop Hack Night Vol.2」は「ケーススタディ

juno_c 2011/02/23

リンク

「次世代Hadoopの開発に着手する」Yahoo!が宣言、数万台以上のクラスタをサポートへ

米Yahoo!が大規模分散処理のフレームワーク「Hadoop」の次世代版を開発することを、ブログYahoo! Developers Networkにポストしたエントリ「The Next Generation of Apache Hadoop MapReduce」で明らかにしました。 Yahoo!によると、現在のHadoopの実装では1クラスタあたり4000台程度でスケーラビリティの限界にあたるため、アーキテクチャを見直して信頼性や可用性を高めると同時に、1万台から2万台を超えるクラスタのスケーラビリティを実現したうえで、従来のHadoopとアプリケーションの互換性を保つ予定とのこと。さらに、マルチテナント対応、多言語プログラミングのサポートなども実現する予定のようです。 Apache Hadoopコミュニティと協力して開発を進める Yahoo!はブログで次のように書いています。 The c

juno_c 2011/02/22

リンク

Hadoop が起動する Live-USBを作成する -- Master Node 分散環境　編 - Guutaraの日記

USBで、ブートするだけで、Hadoopの分散環境がテストできる Live-USBを作成してみます。今回は、マスターノードとなるUSBの基礎の部分に、Hadoop（CDH3）をインストールし分散環境の設定で、Live-USBを動かします。 Serverで、USBを使う場合ですが、接続後に、 dmesg | tail すればデバイス名（sdb1など）が、わかるのでマウントします。作成に使用する環境など Mac OSX 10.6 のMacBook上に、VMWare Fusionを入れて作業します。 Hadoop が起動する Live-USBを作成する -- Master Node 疑似分散編 - Guutaraの日記で、作成したVM環境で作業します。 Hadoopの設定構成ですが、スレーブを１０ノードまで登録しておきます。まずは、confを変更します。分散環境のconfは、co

juno_c 2011/02/14

リンク

Hadoopを試してみる – ぱんぴーまっしぐら

ubuntu 10.04 LTS via:Hadoop (CDH3) Quick Start Guide – Documentation – Cloudera Wiki sun-javaがリポジトリからなくなったので外部リポジトリを利用 sudo aptitude install python-software-properties sudo add-apt-repository 'deb http://archive.canonical.com/ lucid partner' sudo apt-get update sudo aptitude install sun-java6-jdk Cloudera版が楽そうなので利用する。 sudo add-apt-repository 'deb http://archive.cloudera.com/debian lucid-cdh3 contr

juno_c 2011/02/14

リンク

Emerge Technology: [翻訳]Hadoopで動くPythonのMapReduceプログラムを書く

HadoopフレームワークはJavaで書かれていますが、Hadoop上で動くプログラムはJavaで記述する必要はありません。PythonやC++(バージョン0.14.1以降)のような他の言語で開発することができます。しかし、Hadoopのホームページのドキュメントや最も重要なPythonのサンプルコードを読むと、PythonコードをJythonを使ってJavaのjarファイルに変換しないといけないように考えてしまいます。明らかに、この方法はきわめて不便で、もし、Jythonが提供していないPythonの機能を使っている場合はともて問題です。Jythonのアプローチのもう一つの問題は、Hadoopと連携させてPythonプログラムを書くオーバーヘットです。<HADOOP_INSTALL>/src/examples/python/WordCount.pyを見れば、言っていることがわかると思いま

juno_c 2011/02/14

リンク

グーグル発「Hadoop」、日本企業も利用へ

Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System（GFS）」を模した「Hadoop Distributed File System（HD FS）」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。そのHadoopがいよいよ、日本企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

juno_c 2011/01/19

hadoop

リンク

分散処理ソフト「Hadoop」のユーザー会が日本で発足、企業の導入が広がる

オープンソースの分散処理ソフトウエア「Hadoop」の日本におけるユーザー会「Hadoopユーザー会」が2009年11月13日に発足した。Hadoopは米グーグルの分散処理ソフト「GFS」「MapReduce」を模したもの。同日開催した「Hadoop Conference Japan 2009」には200人以上のエンジニアなどが集まり、Hadoopコンサルティングを行う米クラウデラ、ユーザー企業の楽天、はてななどが講演した。 Hadoopはグーグルが2004年までに公開したGFSやMapReduceの論文を基に、プログラマーのダグ・カッティング氏が2005年に開発したソフトウエア。カッティング氏は2009年に、米ヤフーからクラウデラに移籍している。クラウデラは、グーグルで上級ソフトウエアエンジニアを務めたクリストフ・ブシーリヤ氏らが2008年に起業したベンチャー企業で、Hadoop関連のツ

juno_c 2009/11/21

hadoop
news

リンク

クックパッドとHadoop - クックパッド開発者ブログ

はじめまして。今年の5月に入社した勝間@さがすチームです。入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています！さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、クックパッドの検索まわりについて、いろいろな開発を行っています。一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、分散処理環境の必要性が高まってきました。そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。