[B! Hadoop] urapicoのブックマーク

Hadoop入門とクラウド利用

EDF2012 Kostas Tzouma - Linking and analyzing bigdata - Stratosphere

urapico 2012/04/04

hadoop

リンク

TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る

大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング（Doug Cutting）さんが「Cloud Computing World Tokyo 2011」＆「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。満員の客席。皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕

urapico 2011/09/05

リンク

Hadoopを使ってTwitterやFacebook上での「影響力」を数値化するには - nokunoの日記

Hadoopを使ってTwitterやFacebook上での「影響力」を数値化しているKloutというサービスがあるそうです。大変興味深かったので翻訳してみました。元記事のCloudera社とKout社の許可を頂いて掲載しています（@shiumachiさん、ありがとうございます！） Using Hadoop to Measure Influence | Apache Hadoop for the Enterprise | Cloudera ソーシャルメディア上の影響力測定サービス「Klout」とはKlout | The Standard for InfluenceKloutのゴールは影響力の数値化の分野でのスタンダードになることだ。近年のソーシャルメディアの普及により、多くの測定可能な友達関係に関する情報が手に入るようになってきている。Facebookユーザには、平均して130人の友達がいる

urapico 2011/05/25

リンク

Amazon.co.jp: Hadoop徹底入門: 太田一樹 (著), 下垣徹 (著), 山下真一 (著), 猿田浩輔 (著), 藤井達朗 (著), 濱野賢一朗 (監修): 本

urapico 2011/03/22

リンク

Hadoopを用いたクラスタコンピューティング環境の構築 - SourceForge.JP Magazine : オープンソースの話題満載

ペタバイト規模のデータを格納させる分散コンピューティング用プラットフォームを探しているのであれば、そのフレームワークとして Hadoop の使用を検討すべきだろう。HadoopはJavaベースで作成されているため、Linux、Windows、Solaris、BSD、Mac OS Xにて使用できる。こうしたHadoopを実際に採用している組織に共通するのは、安価（特殊なハードウェアが不要）かつ効率的でスケーラビリティと信頼性を兼ね備えたプラットフォームによる、膨大な量のデータ処理を必要としているという点だ。 Hadoopでは、こうした膨大な量のデータを格納するために、Hadoop Distributed File System（HDFS）を採用している。実際、HDFSのマスタ/スレーブアーキテクチャは、Hadoopのクラスタ機能の中核を成している。ここでサポートされているのは、ファイルシステ

urapico 2011/02/02

Hadoop

リンク

Hadoop/HBase Clusterの構築 - LunaBiblos

概説 HBaseの完全分散環境の構築迄を目的として手順を纏めたページです。 HBase動作の基盤となるHadoopをInstallしてHadoop Clusterを構築します。続いてHBaseをInstallしてHBase Clusterを構築します。 Hadoopの構築最初にHadoop Clusterを構築します。下記リストの1から6を行えば動作させる事が出来ます。追加情報の項目にあるのは各種設定ファイルの解説になるので、必要に応じて参照してください。 No項目名説明

urapico 2011/02/01

Hadoop
HBase

リンク

WindowsでPHP + Hadoop Streamingをやってみようとしたが挫折した

Hadoop Streamingのデバッグをローカルでやりたかったのでcygwin立ち上げてjava –versionって打ってみたら、WindowsのJavaのパスが通ってたので案外動くんじゃないかとやってみた。結論からいうとJavaさえ動けばHadoop自体はそれほどプラットフォームに依存しないのでcygwinでも簡単にHadoopは動いた。デバッグ用にスタンドアロンで実行するだけならcygwinでもいけそうだがHadoop Streamingはちょっと面倒だ。というか挫折した。一応cygwinでhadoopする技をメモると hadoopを/usr/localに配置 cd /usr/local wget http://www.meisei-u.ac.jp/mirror/apache/dist//hadoop/core/hadoop-0.21.0/hadoop-0.21.0.tar.g

urapico 2011/02/01

Hadoop

リンク

Hadoop Streamingで分散処理をPHPでやってみた - Stellaqua - ＴＯＭの技術日記

「何番煎じか分からないけど集合知プログラミングをPHPでやってみたシリーズ」で扱っている集合知プログラミングは、とかく計算量が多くなりがちで、うまくアルゴリズムを作らないとメモリ不足に陥りがちです。現に前回の記事では、その越えられない壁を体験してしまったので、「どげんかせんといかん。」という事で、最近ちょっと興味のある、Googleのバックエンドでも使われている"MapReduce"に関して少し調べてみました。 "MapReduce"に関しては、「"Googleを支える技術"読め。以上。」でもいいんですが、id:naoyaさんが書かれている記事が非常に分かりやすかったので、その記事のリンクを貼っておきます。 →MapReduce - naoyaのはてなダイアリー "Googleを支える技術"もせっかくだからAmazonのリンクを貼っておきます。 Googleを支える技術 ?巨大システムの

urapico 2011/02/01

hadoop

リンク

Hadoop、hBaseで構築する大規模分散データ処理システム

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

urapico 2011/01/28

hadoop
HBase

リンク

Littel-hadoop

私たちリッテルは、Google化時代の切り札、Hadoop(ハドゥープ)技術を活かして、大規模データの収集や処理を高速、安価に実現。大規模分散処理プラットフォームの構築支援を行います。勝間和代さんが、『効率が10倍アップする新・知的生産術』というベストセラーをだされましたが、その本に『―自分をグーグル化する方法』というサブタイトルがありました。どれだけ情報を無駄なく、効率よく出し入れできるか？どれだけ有効に情報を抽出し明日の業績につなげるか？といった内容の本です。そこで、会社そのものを『google化する方法』を考えてみませんか？ Webアプリケーション、例えばEコマースなどでは、アクセスデータだけでなく、男女・年齢など顧客データや、購買履歴、時間、商品、回数などの購買状況など、日々蓄積される膨大なデータやログが集積されていることでしょう。大量のデータはあって

urapico 2011/01/28

hadoop

リンク

The Backstory of Yahoo and Hadoop · Yahoo! Hadoop Blog

Somewhat to my surprise, I was recently asked why Yahoo has put so much into Apache Hadoop. We currently have nearly 100 people working on Apache Hadoop and related projects, such as Pig, ZooKeeper, Hive, Howl, HBase and Oozie. Over the last 5 years, we've invested nearly 300 person-years into these projects. The Hadoop team at Yahoo is so passionate about our open source mission, and we've been d

urapico 2011/01/28

hadoop

リンク

MapReduceのJava実装Apache Hadoopを使ってみた (1/3) - @IT

MapReduceのJava実装Apache Hadoopを使ってみた：いま再注目の分散処理技術（後編）（1/3 ページ）最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画（編集部） Apache Hadoopプロジェクトとは何か？本特集では、いま再注目の分散処理技術についていろいろと紹介してきました。前編の「GoogleのMapReduceアルゴリズムをJavaで理解する」では、分散処理技術で最近注目を浴びているものとして、グーグルのMapReduceアルゴリズムを紹介し、中編の「イロイロな分散処理技術とイマドキのWebサービス」では、MapReduceに至るまでのさまざまな分散処理技術やWebサービスについて紹介しました。そのMapReduceアルゴリズムをJavaで実装したも

urapico 2011/01/26

hadoop

リンク

Welcome to Apache™ Hadoop™!

This is the first release of Apache Hadoop 3.4 line. It contains 2888 bug fixes, improvements and enhancements since 3.3. Users are encouraged to read the overview of major changes. For details of please check release notes and changelog. This is a release of Apache Hadoop 3.3 line. It contains 117 bug fixes, improvements and enhancements since 3.3.5. Users of Apache Hadoop 3.3.5 and earlier shoul

urapico 2011/01/26

hadoop

リンク

Open TechTalk「Hadoop Hack Night」レポート

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、Tech Blog担当の井野です。 3月8日に開催されたOpen TechTalk「Hadoop Hack Night」についてのレポートをお届けいたします。本イベントは、思った以上に多くの方にご応募いただき抽選とさせていただきました。当日は、当選された１００名の方々にお集まりいただきました。ありがとうございました。さて、本イベントですが、大きく分けて三部構成でお送りいたしましたので、各々ご紹介いたします。本イベントのTwitterハッシュタグ『#hadoophn』も活発にやり取りされておりました。イベントの詳細は、技術評論社さんの「gihyo.jp」にも掲載されておりますので、あわせてご覧ください。 Hadoop

urapico 2011/01/26

hadoop

リンク

HugeDomains.com

urapico 2011/01/26

hadoop

リンク

Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

8月に入社した佐々木です。こんにちわ！入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…！！そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている（使いたいと思っている）方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214tech blog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

urapico 2011/01/26

hadoop

リンク

企業で使われるHadoop

urapico 2011/01/26

hadoop

リンク

優良企業はなぜHadoopに走るのか

ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する

urapico 2011/01/26

Hadoop

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.