OUR STRENGTH スカラコミュニケーションズは、企業とお客様のコミュニケーションをサポートする様々なITシステムをSaaS/ASPサービスとして提供しています。 大手企業への数多くのサービス提供実績を元に、様々なニーズに合わせた柔軟なサービス開発と可用性の高いサービス運用、業界トップクラスの技術力を駆使し、まだ世の中にないサービスへの開発を全面的にサポートいたします。 READ MORE SERVICE
こんな記事を見かけたので、海外編を考えてみました。ウェブ系エンジニアがおさえておきたい技術ブログまとめ - Meltdown Countdown例によって特定の分野に趣味嗜好が偏っている可能性があります。あと企業ブログに限りません。あとウェブ系に限りません。っておいおい。 企業系 Official Google BlogOfficial Google Research BlogThe Twitter Engineering BlogFacebook Engineeringさんのノート | FacebookYahoo! Hadoop BlogBlog « Cloudera » Apache Hadoop for the Enterprise クラウド・データマイニング系 myNoSQLRevolutionsmloss | Page not foundData Center Knowledge
gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基本的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
前回までの記事では、Hadoopがどのような背景で登場したのか、どのような能力を持っているのか、リレーショナル・データベース管理システム(RDBMS)やKey-Value Store(KVS)型データベースとはどのように異なるのかを解説してきました。 今回は、Hadoopを実際にエンタープライズ(企業情報システム構築)用途に活用するにあたって、押さえておきたいポイントを解説します。 Hadoop活用の課題 Hadoopは、オープンソースとして開発されています。2006年にDoug Cutting氏によってHadoopプロジェクトが立ち上げられて以来、ほぼ4年が経過し、現在ではApache Software財団が支援するトップ・レベル・プロジェクトとして多数の開発者が参加しています。 プロジェクトが立ち上がった当時、Hadoopはわずか20ノードのクラスタで動作していました。現在では、米Ya
id:ny23 さんが動的ダブル配列を使って Wikipedia のテキスト処理を高速化なんてのを書いている。たぶんこれのエントリを見る前にMapReduce と四身の拳を見た方がコンテクストが分かると思う。Hadoop 使ってなんでもできそう! Hadoop の勉強したい!なんて思っている人は読んでみるとよい。 自分の考えについて書いておくと、自分は誰も彼も Hadoop 使いたがる状況には辟易している。ほとんどの人には不要なはずだし、そもそも Hadoop は(ny23 さんも書かれているが)メモリに乗り切らない大規模データを扱いたいときに効力を発揮するのであって、メモリに乗り切るくらいのサイズであれば、データ構造を工夫したり適切なアルゴリズムを選択した方が遥かによい(id:tsubosaka さんも実験されていたが)。たとえデータが大規模であったとしても、たとえば形態素解析なんかのタ
まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed
だいぶ乗り遅れた感はあるけどHadoopを試してみた。 環境はvm上のubuntu-9.10 サンプルは使用せずにmapperとreducerはPythonで書いてみました。 まず準備。 javaの確認。なんかの時に入れたのでインスコは省く mochi@ubuntu-vm:~$ java -version java version "1.6.0_0" OpenJDK Runtime Environment (IcedTea6 1.6.1) (6b16-1.6.1-3ubuntu1) OpenJDK Client VM (build 14.0-b16, mixed mode, sharing) 次、ユーザ作成。グループもhadoopにしてログイン。 mochi@ubuntu-vm:~$ sudo adduser hadoop ・ ・ ・ mochi@ubuntu-vm:~$ su - had
HadoopフレームワークはJavaで書かれていますが、Hadoop上で動くプログラムはJavaで記述する必要はありません。PythonやC++(バージョン0.14.1以降)のような他の言語で開発することができます。しかし、Hadoopのホームページのドキュメントや最も重要なPythonのサンプルコードを読むと、PythonコードをJythonを使ってJavaのjarファイルに変換しないといけないように考えてしまいます。明らかに、この方法はきわめて不便で、もし、Jythonが提供していないPythonの機能を使っている場合はともて問題です。Jythonのアプローチのもう一つの問題は、Hadoopと連携させてPythonプログラムを書くオーバーヘットです。<HADOOP_INSTALL>/src/examples/python/WordCount.pyを見れば、言っていることがわかると思いま
In this tutorial, I will describe how to write a simple MapReduce program for Hadoop in the Python programming language. Motivation Even though the Hadoop framework is written in Java, programs for Hadoop need not to be coded in Java but can also be developed in other languages like Python or C++ (the latter since version 0.14.1). However, the documentation and the most prominent Python example o
前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました(図1 参照)。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemとMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS(Hadoop Distributed File System)、Hadoop MapReduce F
GoogleのMapReduceアルゴリズムをJavaで理解する:いま再注目の分散処理技術(前編)(1/2 ページ) 最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画(編集部) いま注目の大規模分散処理アルゴリズム 最近、大規模分散処理が注目を浴びています。特に、「MapReduce」というアルゴリズムについて目にすることが多くなりました。Googleの膨大なサーバ処理で使われているということで、ここ数年の分散処理技術の中では特に注目を浴びているようです(参考「見えるグーグル、見えないグーグル」)。MapReduceアルゴリズムを使う利点とは、いったい何なのでしょうか。なぜ、いま注目を浴びているのでしょうか。 その詳細は「MapReduce : Simplified Data Proc
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く