This domain may be for sale!
このドキュメントでは、チュートリアルとして役立つことを目的に、ユーザーが触れる Hadoop Map/Reduce のすべての側面についてまとめて説明します。 Hadoop のインストールと設定が済み、すでに実行されていることを確認してください。詳細については、以下を参照してください。 Hadoop を初めて使うユーザーは、Hadoop クイックスタートを参照してください。 大規模な分散クラスタを使うユーザーは、Hadoop クラスタセットアップを参照してください。 Hadoop Map/Reduce は、どこにでもあるごく普通のハードウェアで構成した (数千ノードの) 大規模なクラスタ上で、膨大なデータ (数テラバイトのデータセット) を並列処理するアプリケーションを簡単に記述できるようにするソフトウェアフレームワークです。 通常、Map/Reduce のジョブは、入力データセットを独立
Hadoop vs Python 作者:kosuke 1ノードでhadoopを動かしたときと、同じくpythonスクリプトを1ノードで動かしたときそれぞれどれくらい時間がかかるのか計測した。具体的には、file2.txt,file3.txt,file4.txt,file5.txt,file6.txtにそれぞれ、 'naruse','nakai','kanemoto','kawamura','kumakura','tokugawa','yoshida','hukuda','toda','nanbara','koike','miura','masuda','omori','yoshida','benibayashi','ota','yoshimura','imazu','shimada','hara','takasuga','nanbara','imazu' の24語のなかから無作為に1語づつ
HadoopフレームワークはJavaで書かれていますが、Hadoop上で動くプログラムはJavaで記述する必要はありません。PythonやC++(バージョン0.14.1以降)のような他の言語で開発することができます。しかし、Hadoopのホームページのドキュメントや最も重要なPythonのサンプルコードを読むと、PythonコードをJythonを使ってJavaのjarファイルに変換しないといけないように考えてしまいます。明らかに、この方法はきわめて不便で、もし、Jythonが提供していないPythonの機能を使っている場合はともて問題です。Jythonのアプローチのもう一つの問題は、Hadoopと連携させてPythonプログラムを書くオーバーヘットです。<HADOOP_INSTALL>/src/examples/python/WordCount.pyを見れば、言っていることがわかると思いま
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
NTT Data's presentation at Hadoop Conference Japan 2009 (Nov 13) Read less
言葉っちゅうもんは、時に危険で、私たちに、かなーり勝手な思い込みを植え付け、そして逃げて行くもんだ。気をつけよ。 「情報収集」って言葉は、巷でよく見かけるね。ノウハウ本も多い*1。「収集」って言葉がつくから、集めないといけない気がする。たいていのノウハウ本も、必死に集めることだけ説教す。 「ところがね」という例を、紹介しましょ。あくまで、フィクションであり、実際の出来事とは関係ありませんので、大人な対応を願う。 ある業界があるとすんでしょ。仮に、「電子化業界」と名づけましょう。 その業界で、あるテクノロジーっぽいものがあるとしましょ。仮に、「SSIMの値を指定したJPEG2000変換」とでも名づけましょう。 そんで、その「SSIMの値を指定したJPEG2000変換」に関連して、自分の知りうる範囲の全ての情報*2を、惜しげもなく、ブログで無償公開してしまったとしましょ。仮に「電子化ブログ」と
(2010/04/09 追記:タイトル内のVNCをSVNと間違えていたのを修正しました。) 次世代のWebの規格としてWebSocketというものがあります。WebSocketは、AjaxでもCometでもないサーバ-クライアント間の新しい通信方法です。通常のWebアクセスや、Ajax・CometはHTTPを使用していますが、WebSocketはHTTPではありません。接続のたびに接続のリクエストが発生するHTTPと違い、WebSocketはとても高速で、同時に複数の接続も可能となっています。遅延も小さく比較的容量の大きいデータも高速に転送できるため、リモートデスクトップのようなものが作成できないかと思い、WebSocketRemoteというものを作ってみました。ブラウザには、プラグインやFlash、Javaアプレット等は一切不要となっています。 一応動作するのですが、XMLHttpReq
エラー忘却型コンピューティング(エラーぼうきゃくがたコンピューティング、英: Failure-oblivious computing)は、計算機処理において、フォルトトレラントシステムの構成に向けた技法の一つ。2004年にMITのMartin Rinardらが提唱した[1]。 一般的な処理系では、処理途中でメモリエラーが発見された場合はアプリケーションにエラーを通知するか、または該当プログラムを異常終了させる。エラー忘却型コンピューティングでは、メモリ上でエラーが生じた場合は原則としてこれを隠蔽し、ロギングのみ行って応用プログラムに通知しない。 メモリの読み出しエラーが生じた場合は、適当な値を生成して応用プログラムに返却する。 メモリの書込みエラーが生じた場合は、これを無視する。 なお代償としてCPUに掛かる負荷は高くなる。これはアドレスの有効性を動的に検査する処理を挿入することになるため
MapReduce(マップリデュース)は、コンピュータ機器のクラスター上での巨大なデータセットに対する分散コンピューティングを支援する目的で、Googleによって2004年に導入されたプログラミングモデルである。 このフレームワークは関数型言語でよく使われるMap関数とReduce関数からヒントを得て作られているが、フレームワークにおけるそれらの用いられ方は元々のものと同じではない。 MapReduceのライブラリ群は、C++、C#、Erlang、Java、OCaml、Perl、Python、PHP、Ruby、F#、R言語、MATLAB等のプログラミング言語で実装されている。 概要[編集] MapReduceは巨大なデータセットを持つ高度に並列可能な問題に対して、多数のコンピュータ(ノード)の集合であるクラスター(各ノードが同じハードウェア構成を持つ場合)もしくはグリッド(各ノードが違うハ
スクラムの作成物は1つの確約(英: commitment)をもつ。目標たる確約を明示することで進捗測定すなわち検査が可能になる[34]。プロダクトバックログにおけるプロダクトゴール、スプリントバックログにおけるスプリントゴール、インクリメントにおける完成の定義がそれぞれ検査基準となる確約である[35]。確約はプロダクトの理想状態を示しており、開発者にこの達成を求める(ゆえに検査される)。プロダクトそのもの状態を明示された検査対象とすることで、逆説的に、スクラムは開発過程の大きな自由度を開発者にもたらしている[36](「この状態が目標だ、完成度を検査する。作り方は君に任せる」という方式、ミッション・コマンド)。 プロダクトゴール[編集] プロダクトゴールはプロダクトの将来の状態である[37][38]。すなわち将来のプロダクト利用が生み出すべき価値である。ゴールは評価可能であり、全員に共有され
What Every Programmer Should Know About Floating-Point Arithmetic or Why don’t my numbers add up? So you’ve written some absurdly simple code, say for example: 0.1 + 0.2 and got a really unexpected result: 0.30000000000000004 Maybe you asked for help on some forum and got pointed to a long article with lots of formulas that didn’t seem to help with your problem. Well, this site is here to: Explain
Tuesday, April 28, 2009 Python Functional Programming Antipatterns: When Closures Can Be A Solution In Search of A Problem (PART 1) One of the things I don't like about closures [1](via nested functions) is how they obscure intent in code. For example, if you just want to retain state why use a closure if you could just use a class? Sure a closure sounds cooler, but a class or a regular group of f
セールスフォースが新しいビジョン「Cloud2」を披露。「Chatter」によるソーシャルとモバイル機能をデモ(後編) なぜエンタープライズソフトウェアはFacebookのようにならないのか。これがセールスフォース・ドットコムCEO マーク・ベニオフ氏が言う、次の10年のためのクラウドコンピューティング、「Cloud2」のコンセプトでした。そしてCloud2ではソーシャルネットワークとモバイルが重要な要素となります。 後編では、このCloud2をエンタープライズ向けのソーシャルアプリケーションとしてセールスフォース・ドットコムが実装した「Salesforce Chatter」を、基調講演の内容を基に紹介していきます。 (本記事は「セールスフォースが新しいビジョン「Cloud2」を披露。「Chatter」によるソーシャルとモバイル機能をデモ(前編)」の続きです) Chatterはセキュアでリ
セールスフォースが新しいビジョン「Cloud2」を披露、主役は「Chatter」。ソーシャルとモバイル機能をデモ(前編) 次の10年のためのクラウドコンピューティング「Cloud2」では、ソーシャル対応とモバイルデバイス対応が重要となる。米セールスフォース・ドットコムは4月8日(日本時間4月8日深夜)ニューヨークでイベントを開催し、このようなビジョンを明らかにするとともに、それを実現する同社の新しいサービス「Salesforce Chatter」の本格展開を今後行っていくとしました。 同社のCEOマーク・ベニオフ氏が行った基調講演は、インターネットのファンダメンタルな変化が感じられる内容でした。その様子を紹介しましょう。 Cloud1からCloud2へ ベニオフ氏登場、新しい時代のドアを開けよう。エンタープライズソフトウェアのための新しいビジョンを今日は紹介する。
列指向データベース管理システムは、データベース管理システム (DBMS) の内部構造において、列のデータをひとまとまりにして取り出すときに効率的であるように設計されたものである。これはデータウェアハウスや図書館のカタログのように、大量の類似のデータ項目に対し集計が行われるものに対して有用である。[1]このアプローチはvalue-basedなストレージ構造を使用する行指向データベースや相関データベースと対比される。 列指向データベース管理システムは、一般的に「カラムナデータベース」 (Columnar Database) とも呼ばれる。 詳細[編集] 通常のDBMSシステムはひとつの行を構成する列データをひとまとまりとして格納する。これに対し列指向DBMSでは、列の値をまとめてファイルシステム上の近い場所に(あるいはひとまとまりの論理構造として)置くというアプローチがある。 利点[編集] 行
出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。(2013年1月) ISO-2022-JPは、インターネット上(特に電子メール)などで使われる日本の文字用の文字符号化方式。ISO/IEC 2022のエスケープシーケンスを利用して文字集合を切り替える7ビットのコードであることを特徴とする (アナウンス機能のエスケープシーケンスは省略される)。俗に「JISコード」と呼ばれることもある。 概要[編集] 日本語表記への利用が想定されている文字コードであり、日本語の利用されるネットワークにおいて、日本の規格を応用したものである。また文字集合としては、日本語で用いられる漢字、ひらがな、カタカナはもちろん、ラテン文字、ギリシア文字、キリル文字なども含んでおり、学術や産業の分野での利用も考慮したものとなっている。規格名に、I
By Derek Gottfrid November 1, 2007 5:30 pm November 1, 2007 5:30 pm As part of eliminating TimesSelect, The New York Times has decided to make all the public domain articles from 1851–1922 available free of charge. These articles are all in the form of images scanned from the original paper. In fact from 1851–1980, all 11 million articles are available as images in PDF format. To generate a PDF ve
ON A narrow street of modest bungalows in south-western Atlanta, Walter L. Parks Middle School stands out: a broad, white building of unmistakably institutional appearance in a district of wood-panelled and redbrick domesticity. Parks stands out for another, sadder reason, too. A statewide review of standardised tests taken by pupils in Georgia's state schools in the spring of 2009 found that wide
Apache Nutch is a highly extensible and scalable open source web crawler software project. Features[edit] Nutch robot mascot Nutch is coded entirely in the Java programming language, but data is written in language-independent formats. It has a highly modular architecture, allowing developers to create plug-ins for media-type parsing, data retrieval, querying and clustering. The fetcher ("robot" o
This is a proposal for a system specialized in running Hadoop/Pig jobs in a control dependency DAG (Direct Acyclic Graph), a Hadoop workflow application. Attached there is a complete specification and a high level overview presentation. Highlights A Workflow application is DAG that coordinates the following types of actions: Hadoop, Pig, Ssh, Http, Email and sub-workflows. Flow control operations
先日、Hadoop ConferenceでScala on Hadoopというタイトルで発表してきました。スライドを以下に置いておきます。 Scala on HadoopView more presentations from Shinji Tanaka. ダイジェストとして、ScalaをHadoopで動かすための方法を書いておきます。 まず、Hadoop上でScalaを実行させるためには、JavaとScalaを接続するライブラリが必要となります。ここでは、SHadoop( http://code.google.com/p/jweslley/source/browse/#svn/trunk/scala/shadoop )を使用します。SHadoopは、型変換を行うシンプルなライブラリです。 よくあるWordCountのサンプル、WordCount.scala (http://blog.jo
オープンソースの分散処理ソフトウエア「Hadoop」の日本におけるユーザー会「Hadoopユーザー会」が2009年11月13日に発足した。Hadoopは米グーグルの分散処理ソフト「GFS」「MapReduce」を模したもの。同日開催した「Hadoop Conference Japan 2009」には200人以上のエンジニアなどが集まり、Hadoopコンサルティングを行う米クラウデラ、ユーザー企業の楽天、はてななどが講演した。 Hadoopはグーグルが2004年までに公開したGFSやMapReduceの論文を基に、プログラマーのダグ・カッティング氏が2005年に開発したソフトウエア。カッティング氏は2009年に、米ヤフーからクラウデラに移籍している。クラウデラは、グーグルで上級ソフトウエアエンジニアを務めたクリストフ・ブシーリヤ氏らが2008年に起業したベンチャー企業で、Hadoop関連のツ
Hadoop consists of the Hadoop Common package, which provides file system and operating system level abstractions, a MapReduce engine (either MapReduce/MR1 or YARN/MR2)[32] and the Hadoop Distributed File System (HDFS). The Hadoop Common package contains the Java Archive (JAR) files and scripts needed to start Hadoop. For effective scheduling of work, every Hadoop-compatible file system should prov
The first Hadoop World conference took place in New York City on October 2nd, 2009. Over 500 hundred members from the community got together to share their experiences with Hadoop and learn from one another. Sponsors: Agenda: Hadoop is Everywhere For those of you that couldn’t join us, we’re happy to provide many of the materials here. You can find slides for all of the presentations, and over the
Hadoop World NYC 参加記 2009-10-07 (Wed) 10:03 Hadoop と言う訳でHadoop World NYC, 2009の参加記を書きます。 1日目はSystem Administrator用のトレーニングコースを受け、2日目がカンファレンス本番でした。トレーニングコースはDeveloper向け(3日間)とManager向けのビジネス寄りのコースが有り、合計で100人ぐらいは参加していたと思います。カンファレンスの本番自体は400~500人の参加でした。 まずSystem Adminコースですが、大体以下のような内容でした。 MapReduceの基本概念 ハードウェア/ネットワーク機器の選定ポイント OSやJavaなど、ソフトウェアでの注意点 Hadoop(Cloudera Distribution)のインストール方法 パラメーター/パフォーマンスチュー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く