[B! Hadoop][hadoop] tyabeのブックマーク

MapReduceによる大規模データを利用した機械学習

1. 2011 2/22（火） Hadoop Conference Japan 2011 MapReduceによる大規模データを利用した機械学習株式会社Preferred Infrastructure 岡野原大輔 hillbig@preferred.jp @hillbig 1 2. 自己紹介株式会社 Preferred Infrastructure フェロー, 研究開発チームリーダー専門分野自然言語処理（情報理工学博士）携わった分野は形態素解析、文書分類/クラスタリング、専門用語抽出、評判分類、情報抽出機械学習,統計処理・圧縮データ構造,データ圧縮主な業務内容有用な技術を新規開発・発掘しプロダクトに反映他社との共同研究開発 Hadoopを利用したデータ解析の案件も数件 2

tyabe 2011/05/05

リンク

Hadoopを用いた大規模ログ解析

JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー（NTTデータテクノロジーカンファレンス ...NTT DATA Techno logy & Innovation

tyabe 2011/05/05

リンク

そろそろHadoopについてひとこと言っておくか - nokunoの日記

もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

tyabe 2011/01/05

リンク

リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大

リクルートや楽天が、オープンソースの分散バッチ処理ソフト「Hadoop」の利用を拡大している。リクルートはWebサーバーのログ解析用DWH（データウエアハウス）としてHadoopを採用。楽天はグループ内の全ログデータを対象とした統合ログ解析基盤の構築を、Hadoopベースで進めている。 NTTデータやウルシステムズなどのシステムインテグレータも、Hadoopを使ったシステム構築に取り組み始めており、1000台規模のHadoopクラスターもすでに稼働している。これら事例は、2010年12月15日に東京・秋葉原で開催された「日経コンピュータセミナー・Hadoopが変える企業情報システムの実像」で発表された。 DWHの構築にHadoopとHiveを採用－－リクルートリクルートは、同社の「じゃらんnet」や「カーセンサー.net」「suumo」といった様々なWebサイトのログデータを一元的に解析

tyabe 2010/12/16

リンク

hadoop インストールメモ - cuspos diary

ubuntu9.10にhadoop環境を構築。ちょっとお試しレベルなので、擬似分散モードで構築。参考にしたURL:http://metasearch.sourceforge.jp/wiki/index.php?Hadoop%A5%BB%A5%C3%A5%C8%A5%A2%A5%C3%A5%D7 環境 Linux ns1 2.6.24-27-server #1 SMP Thu Jan 28 00:36:19 UTC 2010 i686 GNU/Linux 下準備 sunのjavaと、SSHとrsyncが必要なのでインストール。 $ sudo apt-get install ssh rsync sun-java6-jdk $ java -version java version "1.6.0_12" Java(TM) SE Runtime Environment (build 1.6.0_

tyabe 2010/12/07

リンク

Hadoop 調査報告書エヌ・ティ・ティレゾナント株式会社株式会社 Preferred Infrastructure 平成 20 年 8 月 25 日 • 免責条項本報告書はエヌ・ティ・ティレゾナント株式会社 (以下「NTT レゾナン��

Hadoop 調査報告書エヌ・ティ・ティレゾナント株式会社株式会社 Preferred Infrastructure 平成 20 年 8 月 25 日 • 免責条項本報告書はエヌ・ティ・ティレゾナント株式会社 (以下「NTT レゾナント」）と株式会社 Preferred Infras- tructure(以下「Preferred Infrastructure」) が作成したものですが、報告書の内容及び情報の正確性、完全性、有用性について、NTT レゾナント及び Preferred Infrastructure は保証を行なっておらず、また、いかなる責任を持つものでもありません。本報告書の著作権は NTT レゾナントに帰属します。本報告書の「プリントアウト」「コピー」「無料配布」は可能ですが、変更、改変、加工、切除、部分利用、要約、翻訳、変形、脚色、翻案などは禁止します

tyabe 2010/12/06

リンク

Hadoopメモ(Hishidama's Hadoop Memo)

S-JIS[2010-02-21/2021-05-17] 変更履歴 Apache Hadoop Apache Hadoop(ハドゥープ)は、分散コンピューティングの為のオープンソースのソフトウェア（フレームワーク）。 Hadoopというのは、製作者の子供のぬいぐるみの象の名前なんだそうだ。公式ページの上の方に描かれている黄色い象がそれか？＾＾；（ぬいぐるみの写真→@ITの記事や工藤さんのブログの下の方）リンク集インストール Windowsへのインストール Hadoop0.20 [2010-08-29] Hadoop0.21 [2010-08-29] HDInsight [/2013-02-26] HDP [/2013-05-26] Hadoop 2.1 [2013-08-31] CDH3のインストール [/2012-05-10] CDH4のインストール [2012-06-08] H

tyabe 2010/11/26

hadoop

リンク

HBaseとはどんなNoSQLデータベースなのか？日本語で読める情報を集めてみた

Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model（一貫性モデル）を備えている自動ロードバランス、フェイルオーバー、圧縮機能サーバーごとに数十個のシャードを割り当て可能、などなどこのHBaseはどのようなデータベースなのでしょうか？情報を集めてみました。 HBase入門のプレゼンテーション最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン

tyabe 2010/11/23

リンク

MongoDBとAjaxで作る解析フロントエンド＆GraphDBを用いたソーシャルデータ解析

2. 自己紹介 • [自分] ▶ いのうえたかひろ（ twitter: doryokujin ) ▶ 慶應大学院2年、数学科 25歳 ▶ MCMC、#P問題、近似ゕルゴリズム ▶ マラソンも好き(2時間30分位で走れてた) • [会社] ▶ 芸者東京エンターテ゗ンメント GTE ▶ ゕルバ゗ト3ヶ月目、ログ解析部隊（1人） ▶ おしごと非常に楽しいです 3. 最近の活動 • [Mongo DB] ▶ Mongo DB の日本語ドキュメント訳（Admin Zone） ▶ 進捗が遅くてすいません、勉強します、がんばります ▶ 勉強会とか、ユーザー会発足とか、もっと Mongo な活動がしたい！ ▶ ご意見・協力してくれる人、いつでも声をかけて下さい • [ブログ] ▶ 始めました ▶ 勉強会報告、Mongo DB、GraphDBを中心に… 4. 発表の目的 • ソーシャルゕプリの裏側（ログ解析）

tyabe 2010/11/15

リンク

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という

tyabe 2010/10/04

リンク

HadoopとMongoDBを活用したソーシャルアプリのログ解析

The document describes the structure of various user activity log collections stored in different databases. It includes collections for errors, access logs, attribute changes, status changes, and purchase charges with details on the fields captured for each user event.Read less

tyabe 2010/09/27

リンク

第14回大規模データの新たな価値を生み出す「Hadoop」（解説編）

「Hadoop」は、米Google社が考案した分散データ処理技術「MapReduce」をオープンソース・ソフトウエアで再実装したものです。Web系企業では、ユーザーのアクセスから得られる膨大なデータを解析するツールとして定着が進んでいます。最近ではWeb系以外の一般企業でもHadoopの活用が検討されてきています。今回は、企業システムでHadoopを利用する意義と、ペタバイト・クラスのデータ処理を実現するHadoopの実装を解説します。 Google論文の衝撃 HadoopやMapReduceは「安価なサーバーで大量のデータを高速処理」「バッチの処理時間が劇的に短縮」などと紹介されています。とても高度な技術ととらえている方もいるかもしれませんが、実はそれほど複雑なものではありません。 MapReduceは、Googleが2004年に論文(http://labs.google.com/pa

tyabe 2010/08/26

リンク

満員御礼！「Hadoop Hack Night2」レポート

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。広報スタッフの楢崎です。昨日、「Hadoop Hack Night2」を開催させていただきました。当選された100名にお集まりいただき、Ustream中継やTwitterでも多くの方にご参加いただきました。ありがとうございました。第三部、トークセッションの様子写真左からモデレーター・馮富久氏（株式会社技術評論社）、太田一樹氏（株式会社プリファードインフラストラクチャー）、大谷晋平氏（株式会社電通国際情報サービス）、清田陽司氏（株式会社リッテル／東京大学情報基盤センター）、古宮陽明（ヤフー株式会社）、吉田一星（ヤフー株式会社）詳しいレポート記事は、後ほど技術評論社さんの「gihyo.jp」に

tyabe 2010/08/09

リンク

Hadoopを使いこなす(3)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、R&D統括本部の吉田です。前回と前々回の記事では、Hadoopのカスタマイズポイントを解説しました。単純な問題に対しては、map関数とreduce関数の組み合わせだけでも、処理を行うことができますが、ある程度複雑な問題に対しては、今までに解説したカスタマイズポイントの活用が重要になるという話でした。今回は実際のサービスの事例を紹介し、カスタマイズポイントがどう活用されているか紹介したいと思います。 ABYSS ABYSSの事例を紹介しましょう。 ABYSSとは、検索サービスを簡単に構築できる社内プラットフォームのことで、詳しくは以下のTech Blog記事で紹介しています。先日無事に社内リリースされました。新検索

tyabe 2010/06/15

hadoop

リンク

Hadoopを使いこなす(2)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、前回のHadoopの記事に引き続き、MapReduceのカスタマイズポイントを解説していきます。前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。デフォルトのrun関数は以下の通りです。 public vo

tyabe 2010/06/15

hadoop

リンク

企業で使われるHadoop

tyabe 2010/06/07

Hadoop

リンク

Hadoop入門とクラウド利用

This document discusses Hadoop and related techno logies. It introduces Hadoop, its components MapReduce and HDFS, and how they work together. It also briefly mentions related Apache projects like Mahout and how companies like Amazon, Yahoo and Facebook use Hadoop in their systems. Finally, it covers Amazon's Elastic MapReduce service, which allows running Hadoop jobs in the cloud.Read less

tyabe 2010/05/25

hadoop

リンク

Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記

タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に a b a aみたいなデータを a 3 b 1に変形するのにsortしたファイルをuniq -cで処理するということをやっていた。これはあまり効率のよい方法ではなくて行数をNとしたときにO(N log N)の計算時間となる(文字列比較はO(1)でやれることにする)。これに対して、単語の頻度をハッシュ表で保存すると理想的な条件の元ではO(N)の計算時間で頻度を求めることが出来、より高速に計算することが可能となることが期待される。また、単語数をWとしたとき、C++のmapのような二分探索木を使ってもO(N

tyabe 2010/05/25

リンク

hadoophn

http://gihyo.jp/event/2010/hadoophn

tyabe 2010/03/14

hadoop

リンク

第28回　RubyとHadoopで分散処理　Hadoop Streamingの仕組み | gihyo.jp

はじめに Hadoopとは、Googleの基盤技術であるMapReduceをJavaでオープンソース実装したもので、分散処理のフレームワークです。Hadoopを使うと、1台のサーバでは時間の掛かるような処理を、複数のサーバで分散処理させることができます。「⁠処理を割り振ったサーバが壊れた場合どうするか」などの耐障害性の問題もHadoopが管理してくれるため、利用者は処理のアルゴリズムのみに集中することができるのです。素晴らしいですね。最近ではYahoo!やはてななど、様々な企業でも利用されるようになってきています。 Hadoop導入の背景筆者はクックパッド株式会社に勤めています。open('http://cookpad.com'); return false;">クックパッドというサイトが有名だと思いますが、他にも携帯版クックパッドであるopen('http://m.cookpad.co

tyabe 2010/02/23

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

Hadoopとhadoopに関するtyabeのブックマーク (31)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス