[B! hadoop] orangehalfのブックマーク

HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開

HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 Hadoopのディストリビューションベンダとして知られるClouderaは10月25日、SQLに対応し、データの分析速度はMapReduceよりも何倍も高速だという新しい分散クエリエンジン「Cloudera Impala」（製品名「Cloudera Enterprise RTQ」）をオープンソースで公開しました。これまでHadoopでは内部でMapReduceと呼ばれる処理が用いられていましたが、ImpalaではMapReduceを使わず、Clouderaが2年かけて開発した独自の分散クエリエンジンを用いて処理を行います。Hiveの上位互換のSQLが利用でき、Hive/MapReduceで数分かかっていた応答時間を数秒に短縮すると説明されています。グーグルのDremel

orangehalf 2012/10/29

hadoop

リンク

Treasure Dataの解析プラットフォームを使ってみた - mikedaの日記

ログの解析は日時でscpでかき集めてバッチ集計してるんだけどリアルタイムで集計したいもっと柔軟に集計したいという人は多いんじゃないでしょうか。リアルタイム収集はFluentdを使えばいけそうですが、集計部分を柔軟にというとどうだろう。 CookpadやAmebaはHiveを使ってるとの情報がある。『Hive on AWS @ COOKPAD』『Amebaのログ解析基盤』（どっちも古い。HiveはHadoop上でSQL（っぽく）ログ解析するためのプロダクトです）「面白そうだなー。でもHadoopよくわからん、というかサーバいっぱいいりそうだから承認通すのめんどくさい(´・ω・｀)」とか思ってたらSoftwareDesignの最新号にこんな記事が。 Cookpadの人「Treasure Dataは...ログ解析用の商用プラットフォームを提供しています。 Fluentd経由で

orangehalf 2012/06/26

hadoop

リンク

Hadoopでレコメンドシステムを作ろう記事一覧 | gihyo.jp

orangehalf 2012/06/06

hadoop

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

orangehalf 2011/06/22

hadoop

リンク

Hadoopを用いた大規模ログ解析

JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー（NTTデータテクノロジーカンファレンス ...NTT DATA Techno logy & Innovation

orangehalf 2011/04/11

hadoop

リンク

Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ本社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。『Hadoop on クラウド / Amazon Elastic MapReduceの真価』（Amazon Web Services, Jeff Barr） Introduction AWS: 2002-Twitter: @jeffbarr What is Big Data Doesn't refer just to volume Big Data Tool EMR Overview Hadoop Hosting Framework Launch and monitor job flows: Web, CUI, REST Upload data

orangehalf 2011/02/23

hadoop

リンク

ウルシステムズ、基幹バッチ用HadoopフレームワークをOSS化

ウルシステムズは2011年2月9日、オープンソースソフトウエア（OSS）の分散バッチ処理ソフト「Hadoop」を使って基幹バッチ処理を開発できるソフトウエアフレームワーク「Asakusa Framework」を、OSSとして公開すると発表した。プログラマーはHadoop独特の分散処理の仕組みを理解しなくても、基幹バッチ処理を開発できる。ソースコードは3月に公開する予定。 Hadoopは、米グーグルの並列プログラミングモデル「MapReduce」と分散ファイルシステム「Google File System」を模した分散バッチ処理ソフト。I/O処理を複数台のサーバーで分散処理することで、バッチ処理の速度を大幅に高速化できる。 Hadoopのプログラムは、プログラミング言語のJavaを使い、「Map処理」と「Reduce処理」というMapReduce独特の機構を組み合わせて開発する必要がある。そ

orangehalf 2011/02/09

hadoop

リンク

グーグル発「Hadoop」、日本企業も利用へ

Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System（GFS）」を模した「Hadoop Distributed File System（HD FS）」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。そのHadoopがいよいよ、日本企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

orangehalf 2011/01/18

hadoop

リンク

リアルタイムなHadoop？「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開－ Publickey

米Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。リアルタイムなMapReduceで何ができる？リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか？ S4の公開を表明したY

orangehalf 2010/11/08

hadoop

リンク

平成２１年度産学連携ソフトウェア工学実践事業（高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンターの高信頼化に向けた実証事業））事業成果報告書

orangehalf 2010/09/29

NTTデータのHadoop実証実験資料(PDF注意)

hadoop

リンク

オープンソースカンファレンスのHadoop講演資料を紹介します

こんにちは。広報スタッフの楢崎です。 9月10日、11日の2日間開催された「オープンソースカンファレンス2010 Tokyo/Fall」にて、 Yahoo! JAPANはHadoopについて講演させていただきました。多くの方にご参加いただきありがとうございます。（写真：明星大学・日野キャンパスにて）ここでは、当日講演で使用したプレゼン資料を紹介させていただきます。 ●Hadoop　～Yahoo! JAPANの活用について～ヤフー株式会社 R&D統括本部角田直行、吉田一星

orangehalf 2010/09/15

hadoop

リンク

その分析、Hadoopなら速く安くできます

ビジネスデータを分析するビジネスインテリジェンス（BI）分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか？現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able probl ems」（Hadoop化可能な10の一般的課題）と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

orangehalf 2010/08/27

リンク

Hadoop Hacks Night詳細レポート［前編］ | gihyo.jp

多くの有名企業が利用し始めたことから注目を浴びているオープンソースの大規模分散データ処理システム「Hadoop⁠」⁠。 2010年3月8日（月⁠）⁠、六本木ミッドタウンのYahoo Japanにて、Yahoo! ,Inc. HadoopチームアーキテクトのOwen O’Malley氏を迎えて「gihyo.jp×Yahoo! JAPAN presents "Open TechTalk" Hadoop Hacks Night」（⁠（⁠株）技術評論社・ヤフー（⁠株⁠）主催）が開催されました。会場の模様第1部　Owen O'Malley氏のプレゼンテーション 5,000億人ものユーザのデータの解析に威力を発揮最初のセッションは、Owen氏によるプレゼンテーション。冒頭で、氏がまず述べたのが、「⁠Hadoopはオープンソースであり、開発者が協力して力をあわせてプロジェクトを進めていける」とい

orangehalf 2010/07/21

hadoop

リンク

Hadoop Hack Night Vol. 2 … 技術評論社

たくさんのお申し込みありがとうございました。お申し込み期間：7月21日（水）～7月28日（水） 7月25日（日） 23時59分お申し込みが早くも100名を超えたため，予定を切り上げて 25日23時59分で終了いたします。お申し込み後，抽選となります。プログラム 18:30 開場 19:00～19:05 オープニング 19:05～19:35 ［オープニングセッション（30分）］Yahoo! JAPANにおけるHadoop利用について（仮）講演者：吉田一星氏，古宮陽明氏（ヤフー株式会社） 19:35～20:05 ［メインセッション（30分）］新たな情報インフラとしてのHadoopの活用（仮） Hadoopがいま注目されている背景には，Hadoopが備えている「スケール・アウト性」「スループット重視」「ロバスト性」という特徴が，情報爆発時代に必要とされている新たなインフラとし

orangehalf 2010/07/21

hadoop

リンク

Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

8月に入社した佐々木です。こんにちわ！入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…！！そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている（使いたいと思っている）方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214tech blog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

orangehalf 2009/12/17

リンク

優良企業はなぜHadoopに走るのか

ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する

orangehalf 2009/10/16

it
hadoop

リンク

クックパッドとHadoop - クックパッド開発者ブログ

はじめまして。今年の5月に入社した勝間@さがすチームです。入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています！さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、クックパッドの検索まわりについて、いろいろな開発を行っています。一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、分散処理環境の必要性が高まってきました。そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。

orangehalf 2009/09/16

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

hadoopに関するorangehalfのブックマーク (17)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス