タグ

Hadoopとhadoopに関するtyabeのブックマーク (31)

  • MapReduceによる大規模データを利用した機械学習

    1. 2011 2/22(火) Hadoop Conference Japan 2011 MapReduceによる大規模 データを利用した機械学習 株式会社Preferred Infrastructure 岡野原 大輔 hillbig@preferred.jp @hillbig 1 2. 自己紹介 株式会社 Preferred Infrastructure フェロー, 研究開発チームリーダー 専門分野 自然言語処理 (情報理工学博士) 携わった分野は形態素解析、文書分類/クラスタリング、専 門用語抽出、評判分類、情報抽出 機械学習,統計処理・圧縮データ構造,データ圧縮 主な業務内容 有用な技術を新規開発・発掘しプロダクトに反映 他社との共同研究開発 Hadoopを利用したデータ解析の案件も数件 2

    MapReduceによる大規模データを利用した機械学習
  • Hadoopを用いた大規模ログ解析

    JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...NTT DATA Technology & Innovation

    Hadoopを用いた大規模ログ解析
  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

  • リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大

    リクルートや楽天が、オープンソースの分散バッチ処理ソフト「Hadoop」の利用を拡大している。リクルートはWebサーバーのログ解析用DWH(データウエアハウス)としてHadoopを採用。楽天はグループ内の全ログデータを対象とした統合ログ解析基盤の構築を、Hadoopベースで進めている。 NTTデータやウルシステムズなどのシステムインテグレータも、Hadoopを使ったシステム構築に取り組み始めており、1000台規模のHadoopクラスターもすでに稼働している。これら事例は、2010年12月15日に東京・秋葉原で開催された「日経コンピュータセミナー・Hadoopが変える企業情報システムの実像」で発表された。 DWHの構築にHadoopとHiveを採用--リクルート リクルートは、同社の「じゃらんnet」や「カーセンサー.net」「suumo」といった様々なWebサイトのログデータを一元的に解析

    リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大
  • hadoop インストールメモ - cuspos diary

    ubuntu9.10にhadoop環境を構築。 ちょっとお試しレベルなので、擬似分散モードで構築。 参考にしたURL:http://metasearch.sourceforge.jp/wiki/index.php?Hadoop%A5%BB%A5%C3%A5%C8%A5%A2%A5%C3%A5%D7 環境 Linux ns1 2.6.24-27-server #1 SMP Thu Jan 28 00:36:19 UTC 2010 i686 GNU/Linux 下準備 sunのjavaと、SSHとrsyncが必要なのでインストール。 $ sudo apt-get install ssh rsync sun-java6-jdk $ java -version java version "1.6.0_12" Java(TM) SE Runtime Environment (build 1.6.0_

  • Hadoop 調査報告書 エヌ・ティ・ティ レゾナント株式会社 株式会社 Preferred Infrastructure 平成 20 年 8 月 25 日 • 免責条項 本報告書はエヌ・ティ・ティ レゾナント株式会社 (以下「NTT レゾナン��

    Hadoop 調査報告書 エヌ・ティ・ティ レゾナント株式会社 株式会社 Preferred Infrastructure 平成 20 年 8 月 25 日 • 免責条項 報告書はエヌ・ティ・ティ レゾナント株式会社 (以下「NTT レゾナント」)と株式会社 Preferred Infras- tructure(以下「Preferred Infrastructure」) が作成したものですが、報告書の内容及び情報の正確性、完全性、 有用性について、NTT レゾナント及び Preferred Infrastructure は保証を行なっておらず、また、いかなる責 任を持つものでもありません。 報告書の著作権は NTT レゾナントに帰属します。 報告書の「プリントアウト」「コピー」「無料配布」は可能ですが、変更、改変、加工、切除、部分利用、要 約、翻訳、変形、脚色、翻案などは禁止します

  • Hadoopメモ(Hishidama's Hadoop Memo)

    S-JIS[2010-02-21/2021-05-17] 変更履歴 Apache Hadoop Apache Hadoop(ハドゥープ)は、分散コンピューティングの為のオープンソースのソフトウェア(フレームワーク)。 Hadoopというのは、製作者の子供のぬいぐるみの象の名前なんだそうだ。 公式ページの上の方に描かれている黄色い象がそれか?^^; (ぬいぐるみの写真→@ITの記事や工藤さんのブログの下の方) リンク集 インストール Windowsへのインストール Hadoop0.20 [2010-08-29] Hadoop0.21 [2010-08-29] HDInsight [/2013-02-26] HDP [/2013-05-26] Hadoop 2.1 [2013-08-31] CDH3のインストール [/2012-05-10] CDH4のインストール [2012-06-08] H

    tyabe
    tyabe 2010/11/26
  • HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた

    Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。 負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model(一貫性モデル)を備えている 自動ロードバランス、フェイルオーバー、圧縮機能 サーバーごとに数十個のシャードを割り当て可能、などなど このHBaseはどのようなデータベースなのでしょうか? 情報を集めてみました。 HBase入門のプレゼンテーション 最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン

    HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた
  • MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析

    2. 自己紹介 • [自分] ▶ いのうえ たかひろ( twitter: doryokujin ) ▶ 慶應大学院2年、数学科 25歳 ▶ MCMC、#P問題、近似ゕルゴリズム ▶ マラソンも好き(2時間30分位で走れてた) • [会社] ▶ 芸者東京エンターテ゗ンメント GTE ▶ ゕルバ゗ト3ヶ月目、ログ解析部隊(1人) ▶ おしごと非常に楽しいです 3. 最近の活動 • [MongoDB] ▶ MongoDB の日語ドキュメント訳(Admin Zone) ▶ 進捗が遅くてすいません、勉強します、がんばります ▶ 勉強会とか、ユーザー会発足とか、もっと Mongo な活動 がしたい! ▶ ご意見・協力してくれる人、いつでも声をかけて下さい • [ブログ] ▶ 始めました ▶ 勉強会報告、MongoDB、GraphDBを中心に… 4. 発表の目的 • ソーシャルゕプリの裏側(ログ解析)

    MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • HadoopとMongoDBを活用したソーシャルアプリのログ解析

    The document describes the structure of various user activity log collections stored in different databases. It includes collections for errors, access logs, attribute changes, status changes, and purchase charges with details on the fields captured for each user event.Read less

    HadoopとMongoDBを活用したソーシャルアプリのログ解析
  • 第14回 大規模データの新たな価値を生み出す「Hadoop」(解説編)

    「Hadoop」は、米Google社が考案した分散データ処理技術MapReduce」をオープンソース・ソフトウエアで再実装したものです。Web系企業では、ユーザーのアクセスから得られる膨大なデータを解析するツールとして定着が進んでいます。最近ではWeb系以外の一般企業でもHadoopの活用が検討されてきています。 今回は、企業システムでHadoopを利用する意義と、ペタバイト・クラスのデータ処理を実現するHadoopの実装を解説します。 Google論文の衝撃 HadoopやMapReduceは「安価なサーバーで大量のデータを高速処理」「バッチの処理時間が劇的に短縮」などと紹介されています。とても高度な技術ととらえている方もいるかもしれませんが、実はそれほど複雑なものではありません。 MapReduceは、Googleが2004年に論文(http://labs.google.com/pa

    第14回 大規模データの新たな価値を生み出す「Hadoop」(解説編)
  • 満員御礼!「Hadoop Hack Night2」レポート

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。広報スタッフの楢崎です。 昨日、「Hadoop Hack Night2」を開催させていただきました。 当選された100名にお集まりいただき、Ustream中継やTwitterでも多くの方にご参加いただきました。ありがとうございました。 第三部、トークセッションの様子 写真左からモデレーター・馮 富久 氏(株式会社技術評論社)、太田 一樹 氏(株式会社プリファードインフラストラクチャー)、大谷 晋平 氏(株式会社電通国際情報サービス)、清田 陽司 氏(株式会社リッテル/東京大学情報基盤センター)、古宮 陽明(ヤフー株式会社)、吉田 一星(ヤフー株式会社) 詳しいレポート記事は、後ほど技術評論社さんの「gihyo.jp」に

    満員御礼!「Hadoop Hack Night2」レポート
  • Hadoopを使いこなす(3)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、R&D統括部の吉田です。 前回と前々回の記事では、Hadoopのカスタマイズポイントを解説しました。 単純な問題に対しては、map関数とreduce関数の組み合わせだけでも、処理を行うことができますが、ある程度複雑な問題に対しては、今までに解説したカスタマイズポイントの活用が重要になるという話でした。 今回は実際のサービスの事例を紹介し、カスタマイズポイントがどう活用されているか紹介したいと思います。 ABYSS ABYSSの事例を紹介しましょう。 ABYSSとは、検索サービスを簡単に構築できる社内プラットフォームのことで、詳しくは以下のTechBlog記事で紹介しています。先日無事に社内リリースされました。 新検索

    Hadoopを使いこなす(3)
    tyabe
    tyabe 2010/06/15
  • Hadoopを使いこなす(2)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、 前回のHadoopの記事 に引き続き、MapReduceのカスタマイズポイントを解説していきます。 前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。 古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。 デフォルトのrun関数は以下の通りです。 public vo

    Hadoopを使いこなす(2)
    tyabe
    tyabe 2010/06/15
  • 企業で使われるHadoop

    Copyright © 2004-2024 Impress Corporation. An Impress Group Company. All rights reserved.

    tyabe
    tyabe 2010/06/07
  • Hadoop入門とクラウド利用

    This document discusses Hadoop and related technologies. It introduces Hadoop, its components MapReduce and HDFS, and how they work together. It also briefly mentions related Apache projects like Mahout and how companies like Amazon, Yahoo and Facebook use Hadoop in their systems. Finally, it covers Amazon's Elastic MapReduce service, which allows running Hadoop jobs in the cloud.Read less

    Hadoop入門とクラウド利用
    tyabe
    tyabe 2010/05/25
  • Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記

    タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に a b a aみたいなデータを a 3 b 1に変形するのにsortしたファイルをuniq -cで処理するということをやっていた。これはあまり効率のよい方法ではなくて行数をNとしたときにO(N log N)の計算時間となる(文字列比較はO(1)でやれることにする)。 これに対して、単語の頻度をハッシュ表で保存すると理想的な条件の元ではO(N)の計算時間で頻度を求めることが出来、より高速に計算することが可能となることが期待される。 また、単語数をWとしたとき、C++mapのような二分探索木を使ってもO(N

    Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記
  • hadoophn

    http://gihyo.jp/event/2010/hadoophn

    tyabe
    tyabe 2010/03/14
  • 第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み | gihyo.jp

    はじめに Hadoopとは、Googleの基盤技術であるMapReduceをJavaでオープンソース実装したもので、分散処理のフレームワークです。Hadoopを使うと、1台のサーバでは時間の掛かるような処理を、複数のサーバで分散処理させることができます。「⁠処理を割り振ったサーバが壊れた場合どうするか」などの耐障害性の問題もHadoopが管理してくれるため、利用者は処理のアルゴリズムのみに集中することができるのです。素晴らしいですね。最近ではYahoo!はてななど、様々な企業でも利用されるようになってきています。 Hadoop導入の背景 筆者はクックパッド株式会社に勤めています。open('http://cookpad.com'); return false;">クックパッドというサイトが有名だと思いますが、他にも携帯版クックパッドであるopen('http://m.cookpad.co

    第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み | gihyo.jp
    tyabe
    tyabe 2010/02/23