タグ

hadoopに関するtakuya-itohのブックマーク (77)

  • 第3回 レコメンドシステム-協調フィルタリングのHadoopへの実装[前編] | gihyo.jp

    今回はいよいよHadoopを用いたレコメンドシステムについて説明します。 今回のポイントは以下の通りです。 処理をMapReduceフレームワークへ変換することで、分散処理のメリットを享受 アウトプットからkeyについて着目し、処理ロジックを考える 簡単な処理でも数段階のMapReduce処理を踏む場合がある 前回までのおさらい 分散処理の基的な考え方は、大規模データあるいは処理する問題を小さく、かつ、互いに独立した単位に分割して並列に処理することで、各処理単位の出力を結合することで最終的な結果を得るというものです。Hadoopは数ある分散処理のフレームワークの実装のひとつで、システムレベルの詳細の多くを意識せず、処理ロジックに集中して設計できる特徴があります。 Hadoopで処理するため、前回紹介したユーザの映画評価の履歴をHDFSのディレクトリにコピーすると、HDFSは履歴を各ノード

    第3回 レコメンドシステム-協調フィルタリングのHadoopへの実装[前編] | gihyo.jp
  • "BigData"では何が問題なのか? - 急がば回れ、選ぶなら近道

    ”ビッグデータで奇跡が起こる” はいどうも。まず、個人的には楽天的な進歩史観には、まったく組しない。 従って、突然に新技術ができて、なんか凄い事になる、というのはさらにまったく同意しない。すべからくブレイクスルーは課題解決により起こると思っているので、問題意識のないところに、こんなものできました的な発想は、基的にプラスにならないことが多いと思っている。現状のビッグデータブームは2011年の秋口現在は完全にハイプになっており、バブルと言ってもいいと思う。印象として、十数年前のナノテク・ブームに似ている。 とはいえ、過度の期待という側面を除けば、それなり効果もある部分もあり、”そこだけ”を見ていけばそれなりに効果はある(と思う)。大体において、今後は以下の二つのユースケース・カテゴリーに集約されると思う。すなわち、ビッグデータの拠り所はまずもって以下の2点だ。 1 Webのログ解析 というか

    "BigData"では何が問題なのか? - 急がば回れ、選ぶなら近道
  • Hadoop World 2011: Advancing Disney’s Data Infrastructure with Hadoop - Matt Estes, Disney

    This is the story of why and how Hadoop was integrated into the Disney data infrastructure. Providing data infrastructure for Disney’s, ABC’s and ESPN’s Internet presences is challenging. Doing so requires cost effective, performant, scalable and highly available solutions. Information requirements from the business add the need for these solutions work together; providing consistent acquisition,

    Hadoop World 2011: Advancing Disney’s Data Infrastructure with Hadoop - Matt Estes, Disney
  • wrong, rogue and booklog

    積読・読書途中のに関する雑感や、オンライン上の面白コンテンツ、そして世の中の不合理に対する暴言を脊髄反射的に記す。 yutakashino (柏野 雄太) another weblog: kashino.exblog.jp Archive 言いたいことはわかる。世の中の無根拠な「ビッグデータ」翼賛のマスコミ記事に文句を言いたいと。 ただ、巨大データを手にしてから、大規模データ解析の手法を研究したり勉強したりするのじゃ遅すぎる。大規模解析に必要なディシプリンがあまりに大きいからだ。そして、巨大データが現実にそこかしこにでてきた状況なのに、日のアカデミズムが何年も巨大データ解析に真剣に向き合わなかったことのイイワケとして「必要に迫られ」なかったから、というとしたら、それはどうかと思う。 もちろん、小規模のデータ解析もできないのに、大規模データ解析をやろうなんておこがましい、という態度は合意

    wrong, rogue and booklog
  • Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日立ソリューションズは12月2日、東京・品川にて「Hadoopが導く分散処理における次世代のバッチ処理開発とは〜Asakusa FrameworkによるHadoopエンタープライズ適用セミナー〜」を開催した。 稿ではその中から、ノーチラス・テクノロジーズ代表取締役副社長 神林飛志氏による講演「Hadoopによるバッチ処理の導入」を紹介する。 Hadoopを定義するのにビッグデータという言葉は必要ありません——神林氏は冒頭、こう切り出した。 いまやバズワードとして定着し始めている「ビッグデータ」だが、その言葉が語られるときはサブセットのごとく「並列分散処理システム」としてHadoopも引き合いに出されることが多い。だが神林氏は「ビッグデ

    Hadoop&Asakusaを基幹業務で使い倒す--ノーチラス 神林飛志氏
  • TechCrunch

    Gaza, despite being one of the most economically challenged regions in the world, has ironically always been a tech hub — not only for Palestine and Palestinians, but for the world: internationa

    TechCrunch
  • 膨大なデータに対して複雑 - ストレージ/データ管理 - TECHNOLOGY - CIO Online

    膨大なデータに対して複雑な分析を実行する グーグルの論文から生まれたオープンソースの基盤ソフトウェア「Hadoop」の魅力を探る 2011/07/26 膨大なデータから瞬時に最適な解を導く。グーグルやヤフーなどの検索エンジンの性能については、もはや説明が不要なほど知られており、あまり興味を抱かないかもしれない。ただ、その技術を企業でも使えるとしたら、どうだろうか。企業が抱える情報量が膨大になってきていることから、実際にそうした動きが活発になってきているという。そこで使われているのが、グーグルの論文から生まれたオープンソースの基盤ソフトウェア「Hadoop」(ハドゥープ)である。唯一のHadoopディストリビューターである米国クラウデラのCEO、マイク・オルソン氏に、Hadoopの魅力や活用方法などを聞いた。 ──Hadoopは、ヤフーやフェイスブックなどのネット系企業向けという印象がありま

  • ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」を開発、オープンソース化して提供開始

    ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」を開発、オープンソース化して提供開始 ウルシステムズ株式会社(社:東京都中央区、代表取締役社長:漆原 茂、以下 ウルシステムズ)は、基幹業務システムのバッチを高速処理するためのソフトウェアフレームワーク 「Asakusa Framework(以下、Asakusa)」を業界で初めて開発、オープンソース化して提供することを発表します。 クラウド技術の普及が進むと共に、企業内システムへの適用の検討が進んでいます。特にHadoop(注1)は、オープンソースの分散処理基盤ソフトウェアとして注目を浴びており、大容量データを多数のサーバーに分散し並列処理させることで高速なデータ処理を実現できます。しかしこれまでは、Webデータの分析や消費者の行動解析などのB2C分野での利用がほとんどであり、企業の基幹業務システムに適用す

    ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」を開発、オープンソース化して提供開始
  • Apache Hadoop: Best Practices and Anti-Patterns · Yahoo! Hadoop Blog

    Apache Hadoop is a software framework to build large-scale, shared storage and computing infrastructures. Hadoop clusters are used for a variety of research and development projects, and for a growing number of production processes at Yahoo!, EBay, Facebook, LinkedIn, Twitter, and other companies in the industry. It is a key component in several business critical endeavors representing a very sign

  • Hadoopモデリング座談会#3 - 科学と非科学の迷宮

    第2回のレポートはこちら 概要 イベント名 Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第3回) URL http://atnd.org/events/9098 日時 2010/11/19 18:30 - 21:00 場所 スター研修センター神田3F 関連リンク twitterハッシュタグ #hadoopmodeling Ust part1 part2 part3 Togetter http://togetter.com/li/70621 (私の記事は個人的なメモで、間違った部分も多いため併読することをおすすめします) 佐藤一郎先生(NII) @ichiro_satoh 分散環境の過去・現在・未来 モバイルエージェント、まずはデモから デモ テキストエディタ 2つのPCを用意、片方でエディタ起動 文字を適当に書きこんでから「Go」ボタンを押すと、

    Hadoopモデリング座談会#3 - 科学と非科学の迷宮
  • Hadoop-ec2環境の構築[ClouderaのAMIをベースにHadoop環境を構築]

    自分で設定したカスタムのAMIを作っておけば、hadoop-ec2スクリプトで簡単に計算ノードを追加できます。 まずはClouderaのAMIをベースにしてHadoop環境を構築してカスタムのAMIとして保存しようと思います。 Clouderaが提供しているAMIの一覧からfedoraの64bitを選びました。 cloudera-ec2-hadoop-images/cloudera-hadoop-fedora-20090623-x86_64 ami-2359bf4a 以下はインスタンスを1台起動してrootでログインしての作業です。 ________ __ /\ _____\ /\ /\ \ \ \ \____/ /\ \ ____ __ __ _\_\ \ ____ __ ____ _____ \ \ \ \ \ \ / __ \ /\ \/\ \ / ___ \ / __ \ /\

  • Hadoop擬似分散環境メモ(Hishidama's Hadoop pseudo-distributed Memo)

    S-JIS[2010-03-27/2010-04-04] 変更履歴 Hadoop 擬似分散環境 Hadoopの擬似分散モードをWindowsで試す方法について。 擬似分散環境は、分散環境の各サービス(デーモン)を1台のマシン上で動かすモード。 したがって、各サービスの動作方法は来の分散モードと全く同じになる。

  • IBM版Hadoopでクラスターを簡単セットアップ

    はじめに IBM版Apache Hadoop(英語名:IBM Distribution of Apache Hadoop / 通称:IDAHO)とは、IBMのJava VMで動く、インストーラー付きApache Hadoopです。先進テクノロジー・ソフトウェアの無償ダウンロードサイト「IBM alphaWorks」で公開されています。 記事執筆時点では、32-bit Linux version of the IBM SDK for Java 6 SR 8で稼働します。また、IDAHO-1.0では、Apache Hadoop version 0.20.2をベースにしています。 IDAHOには、Web-UIによるインストーラーがついています。SSH設定、Javaランタイム、Hadoopなどの設定を自動的に行いますので、Hadoopクラスターのセットアップが簡単に行えます。また、一回の作業で複

    IBM版Hadoopでクラスターを簡単セットアップ
  • Hadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010

    Hadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010 先週10月12日に、ニューヨークでHadoopのイベント「Hadoop World: NYC 2010」が開催されました。参加者は900名を超えたともいわれ、日からも30名程度が参加しました。 イベントを主催するClouderaは、Hadoopを開発したDoug Cutting氏らが所属しており、Hadoopの商用利用におけるリーダー的な存在です。そしてこのイベントでClouderaはNTTデータとの提携を発表。両社でアジア太平洋地域と日でのHadoopビジネスを積極展開することを明らかにしています。 Clouderaとの提携を受け、NTTデータ代表取締役常務執行役員 ソリューション&テクノロジーカンパニー長 CTO 山田伸一氏がHadoop Worldで講演。そ

    Hadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010
  • HadoopSupport - Cassandra Wiki

    Contents Overview MapReduce Pig Hive Oozie Cluster Configuration Troubleshooting Support Overview Hadoop integration was added way back in version 0.6 of Cassandra. It began with MapReduce support. Since then the support has matured significantly and now includes native support for Apache Pig and Apache Hive. Cassandra's Hadoop support implements the same interface as HDFS to achieve input data lo

  • http://svn.apache.org/repos/asf/cassandra/trunk/contrib/word_count/src/WordCount.java

  • https://allthingshadoop.com/podcast/

  • Hadoopは借りて使え - masayang's diary

    NTTデータが公開したHadoop資料が話題になっている。ざっと読む限り、コード事例もあって参考になることは確か。読まない手はないだろう。 だけど、Hadoop環境を自前で構築することには私はあまり賛同できない。技術屋が勉強するため、というのなら話は別だけど、事業でHadoopを使うのならクラウド上のを借りることをお勧めする。 例えば1000台のクラスタを構築して、デイリーバッチ処理が5分で終わるようになった! と喜ぶのも良いだろう。でも、残りの23時間55分はそのクラスタどうするのか?寝かせておくのであればROI評価は非常に低いものになるだろう。 かといってケチって5台のクラスタにしたらほぼ1日中稼動したのでROIは高くなりましたが処理時間短縮には至りませんでした、なんていうのも馬鹿げている。 じゃ、どこに最適点があるのか? 答は「自前で持たず、必要なときに必要な台数のクラスタを借りる」

    Hadoopは借りて使え - masayang's diary
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • これGoogleの技術なんだけどわかっているよね - finalventの日記

    なんか野暮なことを言うことになるけど。 これ⇒はてなブックマーク - NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮 元⇒NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮 まあ、あたりまえなんだけど、Googleを支える技術ははるかにすごいわけですよ。

    これGoogleの技術なんだけどわかっているよね - finalventの日記