[B! hadoop] pero1のブックマーク

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）

■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）日本Hadoopユーザー会濱野賢一朗／Kenichiro Hamano (NTTデータ)Read less

pero1 2014/11/13

hadoop

リンク

大規模サイトを支えるビッグデータプラットフォーム技術

2. 自己紹介 Privileged and Confidential 2 遠峯康夫(とおみねやすお) 事業戦略統括本部データソリューション本部データインフラ開発部 2010年新卒入社 Hadoopクラスタ立ち上げの部署に配属 2012年データソリューション配属 Hadoop、リアルタイム処理基盤などを担当

pero1 2013/09/15

リンク

Treasure Data, Inc. | Finding Gems in Your Big Data

Deliver The Experiences You Can’t TodayUnlike other customer data platforms (CDPs), only Treasure Data combines batch and real-time data to personalize journeys with Al. The results? Increased conversions and optimized spend across channels.

pero1 2012/12/22

リンク

日々進化するHadoop。これまでのおさらいと最近の動向（前編）

大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。この記事ではそのセッションの内容をダイジェストで紹介しましょう。日々進化するHadoopの「いま」 NTTデータ基盤システム事業部濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ

pero1 2012/10/07

hadoop

リンク

HadoopをWindows上の仮想マシンで手軽に試す方法

Hadoopといえば大規模分散フレームワークであり、実行にはそれなりのサーバ群を揃えなければならない、と思われがち。しかしHadoopでもっとも有名なディストリビューションを提供するClouderaは、PC上の仮想マシンで手軽にHadoopを実行できる仮想マシンイメージ「Cloudera's Hadoop Demo VM for CDH4」を無償公開しています。 VMware Player、KVM、VirtualBoxなど幅広い仮想マシンに対応。個人のPCを使って、例えばWindowsの上でも簡単にHadoopを試すことができます。仮想マシンを使ったHadoopの実行手順を詳しく解説

pero1 2012/08/31

hadoop

リンク

ログ解析を支えるNoSQLの技術

pero1 2012/05/13

リンク

Hadoopを用いた大規模ログ解析

CEDEC2014にて発表させていただいた内容です。発表日時 : 2014年9月4日(木) 13:30～14:30 公式URL : http://cedec.cesa.or.jp/2014/session/BP/16553.html 中継URL : http://www.ustream.tv/channel/cedec-ust-c Mobage Developers blogでの予告 : http://developers.mobage.jp/blog/notice-of-cedec2014 反応 : togetter等でとりまとめ予定セッションの内容 ■ビッグデータという言葉が一般化しつつある昨今、より重要なのは、データを適切に解釈し、価値を生み出す「アナリティクス（分析）」であると言われています。ゲームアプリやソーシャルゲームの世界においても、データからどのようにゲームを面白くする

pero1 2011/04/11

hadoop
log

リンク

第1回　分散処理を隠蔽し、大規模開発を可能に

筆者らは、オープンソースソフトウエアの分散処理ミドルウエア「Hadoop」を、基幹系のバッチ処理システムに適用するためのフレームワーク「Asakusa」を開発した。AsakusaはHadoopと同様に、オープンソースソフトウエアとして公開する。公開日は、本連載の4回目をお届けする2011年3月31日の予定である。 Asakusaを使うことでHadoopによる分散処理のメリットを享受することが可能となり、これまでRDBMSを利用していた場合と比べて、多くのケースでバッチ処理システムの性能を大幅に向上することができる。筆者らが実際に構築を支援したシステムでは、それまで4時間かかっていた処理が数分で終わるようなケースも出てきている。盛んに報道されているように、Hadoopはすでに多くの導入実績がある。ただしその用途は、ログ分析システムやレコメンデーションエンジンなどのビジネスインテリジェンス（

pero1 2011/03/29

リンク

Welcome to Apache Hadoop!

Apache Hadoop プロジェクトでは、信頼性の高いスケーラブルな分散コンピューティングのためのオープンソースソフトウェアを開発しています。Hadoop には以下のサブプロジェクトがあります。 Hadoop Common: Hadoop のほかのサブプロジェクトをサポートする共通のユーティリティです。 Avro: 各種スクリプト言語に動的に組み込み可能なデータ直列化システムです。 Chukwa: 大規模分散システムを管理するためのデータ収集システムです。 HBase: 巨大テーブル用の構造化データストレージをサポートするスケーラブルな分散データベースです。 HDFS: アプリケーションデータに対して高いスループットでのアクセスを可能にする分散ファイルシステムです。 Hive: データ・サマライゼーションやアドホックなクエリー操作を可能にするデータウェアハウス・インフラストラクチャです

pero1 2011/01/08

hadoop

リンク

クックパッドとHadoop - クックパッド開発者ブログ

はじめまして。今年の5月に入社した勝間@さがすチームです。入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています！さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、クックパッドの検索まわりについて、いろいろな開発を行っています。一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、分散処理環境の必要性が高まってきました。そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。

pero1 2011/01/08

リンク

Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。例えば、今まで1台でやっていた、あるログ集計処理

pero1 2011/01/08

リンク

Hadoopを使いこなす(1)

まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

pero1 2011/01/08

リンク

そろそろHadoopについてひとこと言っておくか - nokunoの日記

もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

pero1 2011/01/05

リンク

Hadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010

Hadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010 先週10月12日に、ニューヨークでHadoopのイベント「Hadoop World: NYC 2010」が開催されました。参加者は900名を超えたともいわれ、日本からも30名程度が参加しました。イベントを主催するClouderaは、Hadoopを開発したDoug Cutting氏らが所属しており、Hadoopの商用利用におけるリーダー的な存在です。そしてこのイベントでClouderaはNTTデータとの提携を発表。両社でアジア太平洋地域と日本でのHadoopビジネスを積極展開することを明らかにしています。 Clouderaとの提携を受け、NTTデータ代表取締役常務執行役員ソリューション＆テクノロジーカンパニー長 CTO 山田伸一氏がHadoop Worldで講演。そ

pero1 2010/11/30

hadoop

リンク

リアルタイムなHadoop？「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開－ Publickey

米Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。リアルタイムなMapReduceで何ができる？リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか？ S4の公開を表明したY

pero1 2010/11/30

リンク

Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった

Facebookが15日に発表した新しいサービス「Facebook Messages」は、チャットやつぶやき、そして電子メールなど、自分宛のテキストやメッセージをすべて1つのインボックスで管理できると発表されました。同社が15カ月かけて開発してきたこの新サービスのバックエンドデータベースは、これまで同社が大規模運用してきたMySQLでも、同社が開発したNoSQLデータベースのCassandraでもなく、グーグルのBigTableをモデルとしてオープンソースで開発された分散データベース「HBase」でした。 Facebookのソフトウェアエンジニア、Kannan Muthukkaruppan氏がFacebookにポストした記事「The Underlying Techno logy of Messages」で、その技術的背景が紹介されています。 MySQLとCassandraが落選した理由 H

pero1 2010/11/22

リンク

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という

pero1 2010/09/29

hadoop

リンク

Hadoopの解析資料

オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さい。 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行複数マシンへHadoopをインストールする

pero1 2008/08/27

リンク

blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術：CodeZine

はじめに　こんにちは。Hadoop連載第4回は太田さんに代わって大倉が担当します。　これまでの連載で、Hadoopによるデータ処理の概略については理解されていると思います。今回はHadoopを利用したシステムの実例ということで、ブログ分析を行う「blogeye」システムの概略と、その中でのHadoop利用法を紹介します。　また、blogeyeはAmazonが提供しているEC2（レンタルサーバ）、S3（ストレージ）をHadoopと組み合わせて利用しているので、その辺りの導入方法についても紹介します。これまでの連載Hadoop、hBaseで構築する大規模分散データ処理システムHadoopのインストールとサンプルプログラムの実行複数マシンへHadoopをインストールする blogeyeとは　「blogeye」（ブログアイ）は日本語のブログをクロール、リアルタイムに分析して、流行語と思われるもの

pero1 2008/08/10

hadoop

リンク

複数マシンへHadoopをインストールする：CodeZine

1.前回のおさらい　前回はHadoopを1台のマシンにインストールし、簡単なサンプルプログラムを実行しました。また、HDFSやMapReduceについても解説しました。今回は複数のPCへのインストールを行います。その後、大規模なデータを実際に処理し、その性能を測ってみたいと思います。2.用意した環境　今回は、東京大学理学部情報科学科で学生用に解放されているクラスタを使用しました。このクラスタは24台のノード（c0-0 ～ c0-23）で構成されており、1GbpsのEthernetで相互に接続されています。また、すべてのノードの/homeディレクトリはNFSで共有されています。計算ノードのスペックは次のとおりです。

pero1 2008/06/29

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

hadoopに関するpero1のブックマーク (20)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第3週）

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス