[B! hadoop] [2ページ] uchiuchiyamaのブックマーク

大規模なデータセットを効率的に扱うための Pig 超入門 - (ﾟ∀ﾟ)o彡 sasata299's blog

2010年07月07日22:38 Hadoop 大規模なデータセットを効率的に扱うための Pig 超入門 Pig あるじゃないですか。Hadoop のラッパーで、DSL で書けるというアレです。最近は Twitter や Yahoo! などで使われているらしき Pig。Hadoop を扱う場合、mapper と reducer をそれぞれ記述する必要がありますが、この Pig を使うと DSL を書くだけで内部的に処理を mapper, reducer として実行してくれます。その結果、記述量が減って開発時間が短縮できるというメリットがあります。アイコンがもう少し可愛ければ、、と思うと残念でなりません。なんだこのドヤ顔は・・今まで「良さそうだなー」と思いつつ触れていなかったのですが、今回触ってみる機会があったので軽くまとめておきます。※Pig を動かす環境については出来ている前提です。

uchiuchiyama 2010/08/10

リンク

大量データのバッチ処理を高速化するHadoop

Hadoopというソフトウエアが、いま注目を集めています。米Googleが発表した論文のアイディアをオープンソース・モデルで実装したソフトウエアです。膨大な量のデータを処理する必要に迫られた企業や研究組織が、続々とHadoopを実際に活用しはじめています。私たちの研究グループでは、Wikipediaなどの巨大なテキスト・データを解析するために、2007年頃からHadoopを利用しはじめましたが、日本国内でも2009年あたりからHadoopを使った事例を多く見聞きするようになりました。国内で初めてのHadoop関連イベントが2009年11月に東京で開催され、オライリー・ジャパンから2010年1月にHadoop本の邦訳が出版されるなど、Hadoopが多くの開発者の注目を浴びています。しかしながら、「Hadoopは何となくすごそうなんだけど、複雑だし、どんなソフトなのかいまいち分からないんだ

uchiuchiyama 2010/08/10

hadoop

リンク

企業で使われるHadoop

uchiuchiyama 2010/08/10

hadoop

リンク

見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 | gihyo.jp

見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 8月4日、六本木ミッドタウンのヤフー株式会社にて、今回で2回目となるHadoopをテーマにしたイベント「Hadoop Hack Night Vol.2」が開催された。 Hadoop（ハドゥープ）は、いま注目のクラウドコンピューティングなどに利用されているMapReduce技術が使えるオープンソースソフトウェア。大規模なデータの解析処理などに分散システムを利用したい場合に大きな力を発揮する。このように注目を集めているHadoopだが、実際に数テラバイト以上といった大容量のデータを処理しなければならないケースはまだそれほど多くない。大きな期待を集めながら「生きた実例」に乏しいのもHadoopをめぐる1つの状況だろう。そこで、今回の「Hadoop Hack Night Vol.2」は「ケーススタディ

uchiuchiyama 2010/08/10

hadoop
yahoo

リンク

Littel-hadoop

私たちリッテルは、Google化時代の切り札、Hadoop(ハドゥープ)技術を活かして、大規模データの収集や処理を高速、安価に実現。大規模分散処理プラットフォームの構築支援を行います。勝間和代さんが、『効率が10倍アップする新・知的生産術』というベストセラーをだされましたが、その本に『―自分をグーグル化する方法』というサブタイトルがありました。どれだけ情報を無駄なく、効率よく出し入れできるか？どれだけ有効に情報を抽出し明日の業績につなげるか？といった内容の本です。そこで、会社そのものを『google化する方法』を考えてみませんか？ Webアプリケーション、例えばEコマースなどでは、アクセスデータだけでなく、男女・年齢など顧客データや、購買履歴、時間、商品、回数などの購買状況など、日々蓄積される膨大なデータやログが集積されていることでしょう。大量のデータはあって

uchiuchiyama 2010/08/10

hadoop

リンク

KarmaSphereでおじさんにもMapReduce(Java)できた - masayang's diary

ここ数年Javaからは遠ざかっていた。理由は色々だけど、なんか面倒くさいとか、あの辺が面倒だなとか、annotationsがなんか不気味で面倒っぽいなとか、まあそういうことで。あとコンパイルしてjar作ってとか。なんか昔その物じゃないですか。あ、エディタはフルスクリーンなの？　カード穿孔機は不要なの？　そりゃすごい。そういうこともあって最近遊んでいるMapReduceはPythonでストリーミングのを書くことでほぼ用は足りているのだけど、この先もしかしたらJavaでしか実現できない状況に追い込まれるかもしれん。それをガリガリとコードで書くのかPigとやらで実現しちゃうのかはわからんが、でもまあ原理を突き詰めるためにコードで苦労しておくのは損はないかな、と。その場合はJavaですよやっぱ。でもね、Javaって面倒じゃないですか。あの辺とかその辺とか。そんな自分の脳裏にKarmaSpher

uchiuchiyama 2010/08/10

リンク

Yahoo! JAPANでのHadoop利用について

1. Yahoo! JAPAN での Hadoop 利用についてヤフー株式会社 R&D 統括本部吉田一星、古宮陽明 2010 年 8 月 4 日 2. 自己紹介吉田一星（よしだ　いっせい） R&D 統括本部プラットフォーム開発本部検索開発部開発３ R&D 統括本部フロントエンド開発本部アプリケーション開発部開発４（兼） R&D 統括本部プラットフォーム開発本部要素技術開発部開発３（兼） 2008 年にヤフー株式会社に入社検索サービス構築プラットフォーム（ ABYSS ）で Hadoop 部分を担当するエンジニア画像処理、地図検索、地域プラットフォームでも Hadoop に関わる開発を経験 Tech Blog で Hadoop に関する記事を執筆 3. 自己紹介古宮　陽明 ( こみや　ようめい ) R&D 統括本部プラットフォーム開発本部セントラル開発 2 部開発 3 200

uchiuchiyama 2010/08/05

リンク

Hadoop Hack Night Vol. 2

1. 技術評論社／ヤフー共催 Hadoop Hack Night Vol. 2 2010年8月4日新たな情報インフラとしての Hadoopの活用株式会社リッテル上席研究員清田陽司 (兼東京大学情報基盤センター学術情報研究部門助教) Twitter: @kiyota_yoji 2. Hadoop活用の壁 • 実績がまだまだ少ない • ○○という機能がない • ファイルシステムとして備えるべき機能（アクセス権制御など) • マスタサーバの多重化 • Hadoopってよくわからないんだけど • RDBMSとの違いは？ • どういう処理でメリットがあるの？ • Hadoopってクラウドなの？(←そもそもクラウドって何よ？)

uchiuchiyama 2010/08/05

リンク

Rの並列化の現状について | wrong, rogue and log

RとHadoopを併用する並列化ソリューションがようやく実用レベルのとば口の一歩手前まできたカンジがある。昨日発表があった、Revolution Analytics(旧REvolution Comupting)のRとHadoopインテグレーションは、並列化処理速度を目指したというよりは、Hadoopの分散ストレージ(HDFS)をうまく使ってテラバイトサイズのデータを解析できるようにしたソリューションだそうだ。 Revolution Analytics Brings Big Data Analysis to R with R http://bit.ly/cD1Pf9 ちなみにRevolution Analyticsとしては、以前の多コア対応を謳っていた並列化ソリューションであるParallelRもサポートをつづけるけれど、主力をこちらのほうにシフトするみたいだね。いままでも、Amazon

uchiuchiyama 2010/08/04

リンク

Hadoopを業務で使ってみた

Hadoop is an open-source software framework for distributed storage and processing of large datasets across clusters of computers. It was inspired by Google's MapReduce and GFS papers. Hadoop allows for the distributed processing of large data sets across clusters of commodity hardware. It is designed to scale up from single servers to thousands of machines, each offering local computation and sto

uchiuchiyama 2010/08/02

リンク

800万人の"食べたい"をHadoopで分散処理

Hadoop is an open-source software framework for distributed storage and processing of large datasets across clusters of computers. It allows for the distributed processing of large datasets across clusters of nodes using simple programming models. Hadoop is highly scala ble, running on thousands of nodes, and is designed to reliably handle failures at the hardware or software level.Read less

uchiuchiyama 2010/08/02

リンク

マーケティングのためのHadoop利用

This document discusses Hadoop and its use on Amazon Web Services. It describes how Hadoop can be used to process large amounts of data in parallel across clusters of computers. Specifically, it outlines how to run Hadoop jobs on an Elastic Compute Cloud (EC2) cluster configured with Hadoop and store data in Amazon Simple Storage Service (S3). The document also provides examples of using Hadoop St

uchiuchiyama 2010/08/02

リンク

クックパッドとHadoop - クックパッド開発者ブログ

はじめまして。今年の5月に入社した勝間@さがすチームです。入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています！さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、クックパッドの検索まわりについて、いろいろな開発を行っています。一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、分散処理環境の必要性が高まってきました。そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。

uchiuchiyama 2010/08/02

リンク

Hadoop Streaming 2008 年 9 月 30 日 1 Hadoop Streaming Hadoop Streaming は Hadoop ディストリビューションに付属するユーティリィティで、mapper あるいは reducer として任意の実行ファイルやスクリプトによ��

Hadoop Streaming 2008 年 9 月 30 日 1 Hadoop Streaming Hadoop Streaming は Hadoop ディストリビューションに付属するユーティリィティで、mapper あるいは reducer として任意の実行ファイルやスクリプトによる Map/Reduce ジョブの作成と実行を可能にします。例えば: $HADOOP HOME/ bin /hadoop j a r $HADOOP HOME/hadoop−streaming . j a r \ −input myInputDirs \ −output myOutputDir \ −mapper / bin /cat \ −reducer / bin /wc 2 Streaming の動作前述の例では、mapper と reducer はいずれも入力を（行単位で）stdin からリー

uchiuchiyama 2010/07/26

hadoop

リンク

GitHub - fujibee/hadoop-papyrus: Hadoop MapReduce DSL framework by Ruby. Changed from hadoop-rubydsl.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

uchiuchiyama 2010/07/26

hadoop
ruby

リンク

Hadoop Hacks Night詳細レポート［後編］ | gihyo.jp

3月8日（月）に開催された「gihyo.jp×Yahoo! JAPAN presents "Open TechTalk" Hadoop Hacks Night⁠」⁠。前編では、基調講演のYahoo! ,Inc. HadoopチームアーキテクトOwen O'Malley氏のセッション、そして特別講演のヤフー株式会社 R＆D統轄本部吉田一星氏によるセッションをレポートしました。後編では、続いて行われたパネルディスカッションの模様をお届けします。第3部　パネルディスカッション最後はOwen氏、吉田氏に加え、田中慎司氏（株式会社はてな⁠）⁠、藤川幸一氏（株式会社シリウステクノロジーズ⁠）⁠、三上俊輔氏（筑波大学）の5名のパネリスト、モデレータ馮富久（株式会社技術評論社）による計6名でのパネルディスカッションです。勢揃いしたパネラー一同 Hadoopのメリット、用途は？各自かんたんな自己

uchiuchiyama 2010/07/26

hadoop
yahoo

リンク

Hadoop Hacks Night詳細レポート［前編］ | gihyo.jp

多くの有名企業が利用し始めたことから注目を浴びているオープンソースの大規模分散データ処理システム「Hadoop⁠」⁠。 2010年3月8日（月⁠）⁠、六本木ミッドタウンのYahoo Japanにて、Yahoo! ,Inc. HadoopチームアーキテクトのOwen O’Malley氏を迎えて「gihyo.jp×Yahoo! JAPAN presents "Open TechTalk" Hadoop Hacks Night」（⁠（⁠株）技術評論社・ヤフー（⁠株⁠）主催）が開催されました。会場の模様第1部　Owen O'Malley氏のプレゼンテーション 5,000億人ものユーザのデータの解析に威力を発揮最初のセッションは、Owen氏によるプレゼンテーション。冒頭で、氏がまず述べたのが、「⁠Hadoopはオープンソースであり、開発者が協力して力をあわせてプロジェクトを進めていける」とい

uchiuchiyama 2010/07/26

hadoop
yahoo

リンク

Googleの基盤クローン Hadoopについて

2. 自己紹介太田一樹東京大学情報理工学系研究科コンピューター科学専攻石川研究室 M1 HPC 系の話 ( 並列ファイルシステム ) 個人サイト http://kzk9.net/ http://kzk9.net/blog/ 興味 OS, ネットワーク , I/O, 分散システム OSS 的活動 I was a committer of KDE, uim, SigScheme copybench? Kernel Reporter 3. とは？ Google の基盤ソフトウェアのクローン Google File System, MapReduce Yahoo Research の Doug Cutting 氏が開発元々は Lucene のサブプロジェクト Doug の子供の持っているぬいぐるみの名前 Java で記述 ! 4. Google 関連参考論文 & スライド The Goog

uchiuchiyama 2010/07/26

リンク

Đăng nhập alo 789 Cờ bạc trực tuyến hàng đầu | 2024 Best Betting Sites

alo 789 đăng nhập Hãy tham gia những trang web hàng đầu để trải nghiệm cờ bạc trực tuyến và tăng cơ hội giành giải lớn cùng với phần thưởng hấp dẫn, giúp quyết định dễ dàng hơn. Truy cập trang web hàng đầu để tham gia slot game và tăng cơ hội chiến thắng bằng cách đặt cược sau khi nghiên cứu! Chọn trò cá cược trực tuyến phổ biến, đăng ký thành viên và bắt đầu trải nghiệm ngay hôm nay. Sàn cá cược

uchiuchiyama 2010/07/26

hadoop

リンク

Cloudera Blog

In an era where artificial intelligence (AI) is reshaping enterprises across the globe—be it in healthcare, finance, or manufacturing—it’s hard to overstate the transf ormation that AI has had on businesses, regardless of industry or size. At Cloudera, we recognize the urgent need for bold steps to harness this potential and dramatically accelerate the time to […] Read blog post

uchiuchiyama 2010/07/26

hadoop
blog

リンク

はてなブックマーク

タグ

関連タグで絞り込む (40)

hadoopに関するuchiuchiyamaのブックマーク (63)

お知らせ

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

今週のはてなブックマーク数ランキング（2024年10月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス