[B! hadoop] yosshi71jpのブックマーク

yosshi71jp id:yosshi71jp

hadoopに関するyosshi71jpのブックマーク (14)

株式会社スカラコミュニケーションズ
OUR STRENGTH スカラコミュニケーションズは、企業とお客様のコミュニケーションをサポートする様々なITシステムをSaaS/ASPサービスとして提供しています。大手企業への数多くのサービス提供実績を元に、様々なニーズに合わせた柔軟なサービス開発と可用性の高いサービス運用、業界トップクラスの技術力を駆使し、まだ世の中にないサービスへの開発を全面的にサポートいたします。 READ MORE SERVICE
yosshi71jp 2010/10/26
hadoop

EMアルゴリズム
リンク
ウェブ系エンジニアがおさえておきたい技術ブログまとめ（海外編） - nokunoの日記
こんな記事を見かけたので、海外編を考えてみました。ウェブ系エンジニアがおさえておきたい技術ブログまとめ - Meltdown Countdown例によって特定の分野に趣味嗜好が偏っている可能性があります。あと企業ブログに限りません。あとウェブ系に限りません。っておいおい。企業系 Official Google BlogOfficial Google Research BlogThe Twitter Engineering BlogFacebook Engineeringさんのノート | FacebookYahoo! Hadoop BlogBlog « Cloudera » Apache Hadoop for the Enterprise クラウド・データマイニング系 myNoSQLRevolutionsmloss | Page not foundData Center Knowledge
yosshi71jp 2010/10/21
hadoop

blog

ブログ
リンク
hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog
gumiの粟飯原です。データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。アプリの基本的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。大規模データの解析日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています
yosshi71jp 2010/10/08
hadoop

python

データマイニング

mapreduce
リンク
NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という
yosshi71jp 2010/09/29
hadoop
リンク
Hadoopシステム構築のノウハウ
前回までの記事では、Hadoopがどのような背景で登場したのか、どのような能力を持っているのか、リレーショナル・データベース管理システム（RDBMS）やKey-Value Store（KVS）型データベースとはどのように異なるのかを解説してきました。今回は、Hadoopを実際にエンタープライズ（企業情報システム構築）用途に活用するにあたって、押さえておきたいポイントを解説します。 Hadoop活用の課題 Hadoopは、オープンソースとして開発されています。2006年にDoug Cutting氏によってHadoopプロジェクトが立ち上げられて以来、ほぼ4年が経過し、現在ではApache Software財団が支援するトップ・レベル・プロジェクトとして多数の開発者が参加しています。プロジェクトが立ち上がった当時、Hadoopはわずか20ノードのクラスタで動作していました。現在では、米Ya
yosshi71jp 2010/06/28
hadoop
リンク
Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記
id:ny23 さんが動的ダブル配列を使って Wikipedia のテキスト処理を高速化なんてのを書いている。たぶんこれのエントリを見る前にMapReduce と四身の拳を見た方がコンテクストが分かると思う。Hadoop 使ってなんでもできそう！ Hadoop の勉強したい！なんて思っている人は読んでみるとよい。自分の考えについて書いておくと、自分は誰も彼も Hadoop 使いたがる状況には辟易している。ほとんどの人には不要なはずだし、そもそも Hadoop は(ny23 さんも書かれているが)メモリに乗り切らない大規模データを扱いたいときに効力を発揮するのであって、メモリに乗り切るくらいのサイズであれば、データ構造を工夫したり適切なアルゴリズムを選択した方が遥かによい(id:tsubosaka さんも実験されていたが)。たとえデータが大規模であったとしても、たとえば形態素解析なんかのタ
yosshi71jp 2010/06/13
hadoop

mapreduce
リンク
Hadoopを使いこなす(1)
まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed
yosshi71jp 2010/03/02
mapreduce

hadoop

分散

分散処理
リンク
HadoopでPython使ってテストしてみた - その１ - もちおのWEBアプリ開発日記
だいぶ乗り遅れた感はあるけどHadoopを試してみた。環境はvm上のubuntu-9.10 サンプルは使用せずにmapperとreducerはPythonで書いてみました。まず準備。 javaの確認。なんかの時に入れたのでインスコは省く mochi@ubuntu-vm:~$ java -version java version "1.6.0_0" OpenJDK Runtime Environment (IcedTea6 1.6.1) (6b16-1.6.1-3ubuntu1) OpenJDK Client VM (build 14.0-b16, mixed mode, sharing) 次、ユーザ作成。グループもhadoopにしてログイン。 mochi@ubuntu-vm:~$ sudo adduser hadoop ・・・ mochi@ubuntu-vm:~$ su - had
yosshi71jp 2009/12/17
python

hadoop
リンク
Emerge Technology: [翻訳]Hadoopで動くPythonのMapReduceプログラムを書く
HadoopフレームワークはJavaで書かれていますが、Hadoop上で動くプログラムはJavaで記述する必要はありません。PythonやC++(バージョン0.14.1以降)のような他の言語で開発することができます。しかし、Hadoopのホームページのドキュメントや最も重要なPythonのサンプルコードを読むと、PythonコードをJythonを使ってJavaのjarファイルに変換しないといけないように考えてしまいます。明らかに、この方法はきわめて不便で、もし、Jythonが提供していないPythonの機能を使っている場合はともて問題です。Jythonのアプローチのもう一つの問題は、Hadoopと連携させてPythonプログラムを書くオーバーヘットです。<HADOOP_INSTALL>/src/examples/python/WordCount.pyを見れば、言っていることがわかると思いま
yosshi71jp 2009/09/02
hadoop

python

mapreduce

プログラミング
リンク
Hadoop Python: Writing An Hadoop MapReduce Program In Python - Michael G. Noll
In this tutorial, I will describe how to write a simple MapReduce program for Hadoop in the Python programming language. Motivation Even though the Hadoop framework is written in Java, programs for Hadoop need not to be coded in Java but can also be developed in other languages like Python or C++ (the latter since version 0.14.1). However, the documentation and the most prominent Python example o
yosshi71jp 2009/09/02
hadoop

mapreduce

プログラミング

python
リンク
Hadoopの解析資料
オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さい。 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行複数マシンへHadoopをインストールする
yosshi71jp 2009/09/01
hadoop

プログラミング

mapreduce
リンク
Hadoopのインストールとサンプルプログラムの実行
前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました（図1 参照）。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemとMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS（Hadoop Distributed File System）、Hadoop MapReduce F
yosshi71jp 2009/08/30
hadoop

分散
リンク
Hadoop、hBaseで構築する大規模分散データ処理システム
CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。
yosshi71jp 2009/08/30
hadoop

分散
リンク
GoogleのMapReduceアルゴリズムをJavaで理解する
GoogleのMapReduceアルゴリズムをJavaで理解する：いま再注目の分散処理技術（前編）（1/2 ページ）最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画（編集部）いま注目の大規模分散処理アルゴリズム最近、大規模分散処理が注目を浴びています。特に、「MapReduce」というアルゴリズムについて目にすることが多くなりました。Googleの膨大なサーバ処理で使われているということで、ここ数年の分散処理技術の中では特に注目を浴びているようです（参考「見えるグーグル、見えないグーグル」）。MapReduceアルゴリズムを使う利点とは、いったい何なのでしょうか。なぜ、いま注目を浴びているのでしょうか。その詳細は「MapReduce : Simplified Data Proc
yosshi71jp 2009/08/06
[

mapreduce

並列

google

hadoop

プログラミング

アルゴリズム
リンク
1