shiumachiのブックマーク / 2010年4月13日

agilecatcloud.com

This domain may be for sale!

shiumachi 2010/04/13

"データ･アクセスにおける遅延を低減するというより、データ･アクセスにおけるスループットを高めることに注力されている""HDFS アプリケーションは、write-once-read-many アクセス･モデルを必要とする"

HDFS
Hadoop

リンク

このドキュメントでは、チュートリアルとして役立つことを目的に、ユーザーが触れる Hadoop Map/Reduce のすべての側面についてまとめて説明します。 Hadoop のインストールと設定が済み、すでに実行されていることを確認してください。詳細については、以下を参照してください。 Hadoop を初めて使うユーザーは、Hadoop クイックスタートを参照してください。大規模な分散クラスタを使うユーザーは、Hadoop クラスタセットアップを参照してください。 Hadoop Map/Reduce は、どこにでもあるごく普通のハードウェアで構成した (数千ノードの) 大規模なクラスタ上で、膨大なデータ (数テラバイトのデータセット) を並列処理するアプリケーションを簡単に記述できるようにするソフトウェアフレームワークです。通常、Map/Reduce のジョブは、入力データセットを独立

shiumachi 2010/04/13

Hadoop

リンク

HadoopvsPython – アクセンスのおまけ

Hadoop vs Python 作者:kosuke 1ノードでhadoopを動かしたときと、同じくpythonスクリプトを1ノードで動かしたときそれぞれどれくらい時間がかかるのか計測した。具体的には、file2.txt,file3.txt,file4.txt,file5.txt,file6.txtにそれぞれ、 'naruse','nakai','kanemoto','kawamura','kumakura','tokugawa','yoshida','hukuda','toda','nanbara','koike','miura','masuda','omori','yoshida','benibayashi','ota','yoshimura','imazu','shimada','hara','takasuga','nanbara','imazu' の24語のなかから無作為に1語づつ

shiumachi 2010/04/13

"pythonは0.1msで処理が完了したのに対して、hadoopでは、24秒かかっている。単純計算で24万倍時間がかかる"1ノードでの計測結果。これがノードを増やすとどう変わっていくかが重要だが書いてない

リンク

Emerge Technology: [翻訳]Hadoopで動くPythonのMapReduceプログラムを書く

HadoopフレームワークはJavaで書かれていますが、Hadoop上で動くプログラムはJavaで記述する必要はありません。PythonやC++(バージョン0.14.1以降)のような他の言語で開発することができます。しかし、Hadoopのホームページのドキュメントや最も重要なPythonのサンプルコードを読むと、PythonコードをJythonを使ってJavaのjarファイルに変換しないといけないように考えてしまいます。明らかに、この方法はきわめて不便で、もし、Jythonが提供していないPythonの機能を使っている場合はともて問題です。Jythonのアプローチのもう一つの問題は、Hadoopと連携させてPythonプログラムを書くオーバーヘットです。<HADOOP_INSTALL>/src/examples/python/WordCount.pyを見れば、言っていることがわかると思いま

shiumachi 2010/04/13

streaming + python による mapreduce チュートリアル。内容は wordcount。webインタフェースについての説明もある。ジェネレータを使った例もある。

リンク

agilecatcloud.com

This domain may be for sale!

shiumachi 2010/04/13

リンク

レコメンドサービスを「気持ち悪い」と感じるユーザー心理　KDDI研究所らがはじめて定量的解析に成功

『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

shiumachi 2010/04/13

機械学習やデータマイニングにも不気味の谷があるんだろう

リンク

Liberty On Hbase 20091113

The presentation material: "Adapta ble Indexer on Hadoop/HBase" at Hadoop Conference Japan 2009 in Tokyo.Read less

shiumachi 2010/04/13

HBaseを使った開発事例。はまった点や設計のポイントなども解説。

HBase
事例

リンク

Hadoop Conference Japan 2009 - NTT Data

NTT Data's presentation at Hadoop Conference Japan 2009 (Nov 13) Read less

shiumachi 2010/04/13

heartbeatによるマスタノード冗長化の話が載っている

リンク

Quick Wikipedia Mining using Elastic Map Reduce

Panoramic Video in Environmental Monitoring �Software Development and Applica...

shiumachi 2010/04/13

リンク

あんこに入れる塩　スイカにかける塩 - simpleA記

言葉っちゅうもんは、時に危険で、私たちに、かなーり勝手な思い込みを植え付け、そして逃げて行くもんだ。気をつけよ。「情報収集」って言葉は、巷でよく見かけるね。ノウハウ本も多い*1。「収集」って言葉がつくから、集めないといけない気がする。たいていのノウハウ本も、必死に集めることだけ説教す。「ところがね」という例を、紹介しましょ。あくまで、フィクションであり、実際の出来事とは関係ありませんので、大人な対応を願う。ある業界があるとすんでしょ。仮に、「電子化業界」と名づけましょう。その業界で、あるテクノロジーっぽいものがあるとしましょ。仮に、「SSIMの値を指定したJPEG2000変換」とでも名づけましょう。そんで、その「SSIMの値を指定したJPEG2000変換」に関連して、自分の知りうる範囲の全ての情報*2を、惜しげもなく、ブログで無償公開してしまったとしましょ。仮に「電子化ブログ」と

shiumachi 2010/04/13

"情報を「収集」するときだって、「放出」したほーが良いんじゃーないんですか"全くもって同意。/ 関係ないが、ウィルス収集のためのハニーポットを思い出した

情報収集

リンク

WebSocketを使ってリモートデスクっぽいVNCっぽいWebSocketRemoteというものを作ってみました (Kanasansoft Web Lab.)

(2010/04/09 追記:タイトル内のVNCをSVNと間違えていたのを修正しました。) 次世代のWebの規格としてWebSocketというものがあります。WebSocketは、AjaxでもCometでもないサーバ-クライアント間の新しい通信方法です。通常のWebアクセスや、Ajax・CometはHTTPを使用していますが、WebSocketはHTTPではありません。接続のたびに接続のリクエストが発生するHTTPと違い、WebSocketはとても高速で、同時に複数の接続も可能となっています。遅延も小さく比較的容量の大きいデータも高速に転送できるため、リモートデスクトップのようなものが作成できないかと思い、WebSocketRemoteというものを作ってみました。ブラウザには、プラグインやFlash、Javaアプレット等は一切不要となっています。一応動作するのですが、XMLHttpReq

shiumachi 2010/04/13

リンク

エラー忘却型コンピューティング - Wikipedia

エラー忘却型コンピューティング（エラーぼうきゃくがたコンピューティング、英: Failure-oblivious computing）は、計算機処理において、フォルトトレラントシステムの構成に向けた技法の一つ。2004年にMITのMartin Rinardらが提唱した[1]。一般的な処理系では、処理途中でメモリエラーが発見された場合はアプリケーションにエラーを通知するか、または該当プログラムを異常終了させる。エラー忘却型コンピューティングでは、メモリ上でエラーが生じた場合は原則としてこれを隠蔽し、ロギングのみ行って応用プログラムに通知しない。メモリの読み出しエラーが生じた場合は、適当な値を生成して応用プログラムに返却する。メモリの書込みエラーが生じた場合は、これを無視する。なお代償としてCPUに掛かる負荷は高くなる。これはアドレスの有効性を動的に検査する処理を挿入することになるため

shiumachi 2010/04/13

"データの不整合が発見されても不整合が発見されたというログだけを残し、処理を継続させるのが特徴"

リンク

MapReduce - Wikipedia

MapReduce（マップリデュース）は、コンピュータ機器のクラスター上での巨大なデータセットに対する分散コンピューティングを支援する目的で、Googleによって2004年に導入されたプログラミングモデルである。このフレームワークは関数型言語でよく使われるMap関数とReduce関数からヒントを得て作られているが、フレームワークにおけるそれらの用いられ方は元々のものと同じではない。 MapReduceのライブラリ群は、C++、C#、Erlang、Java、OCaml、Perl、Python、PHP、Ruby、F#、R言語、MATLAB等のプログラミング言語で実装されている。概要[編集] MapReduceは巨大なデータセットを持つ高度に並列可能な問題に対して、多数のコンピュータ（ノード）の集合であるクラスター（各ノードが同じハードウェア構成を持つ場合）もしくはグリッド（各ノードが違うハ

shiumachi 2010/04/13

"ある種の問題について、多数のコンピューター（ノード）の集合であるコンピュータ・クラスターを用いて並列処理させるためのフレームワーク"

リンク

Demystifying Agile Software Development

Intro Agile Software Development with Scrum for Campus Party 2009Antonio Silveira

shiumachi 2010/04/13

リンク

スクラム (ソフトウェア開発) - Wikipedia

スクラムの作成物は1つの確約（英: commitment）をもつ。目標たる確約を明示することで進捗測定すなわち検査が可能になる[34]。プロダクトバックログにおけるプロダクトゴール、スプリントバックログにおけるスプリントゴール、インクリメントにおける完成の定義がそれぞれ検査基準となる確約である[35]。確約はプロダクトの理想状態を示しており、開発者にこの達成を求める（ゆえに検査される）。プロダクトそのもの状態を明示された検査対象とすることで、逆説的に、スクラムは開発過程の大きな自由度を開発者にもたらしている[36]（「この状態が目標だ、完成度を検査する。作り方は君に任せる」という方式、ミッション・コマンド）。プロダクトゴール[編集] プロダクトゴールはプロダクトの将来の状態である[37][38]。すなわち将来のプロダクト利用が生み出すべき価値である。ゴールは評価可能であり、全員に共有され

shiumachi 2010/04/13

"スクラムは産業界での様々なベストプラクティスに基づいており、それらがソフトウェア開発手法としてのスクラムの元となった"

リンク

agilecatcloud.com

This domain may be for sale!

shiumachi 2010/04/13

cassandra

リンク

The Floating-Point Guide - What Every Programmer Should Know About Floating-Point Arithmetic

What Every Programmer Should Know About Floating-Point Arithmetic or Why don’t my numbers add up? So you’ve written some absurdly simple code, say for example: 0.1 + 0.2 and got a really unexpected result: 0.30000000000000004 Maybe you asked for help on some forum and got pointed to a long article with lots of formulas that didn’t seem to help with your probl em. Well, this site is here to: Explain

shiumachi 2010/04/13

プログラミング

リンク

Artificial Code: Python Functional Programming Antipatterns: When Closures Can Be A Solution In Search of A Problem (PART 1)

Tuesday, April 28, 2009 Python Functional Programming Antipatterns: When Closures Can Be A Solution In Search of A Probl em (PART 1) One of the things I don't like about closures [1](via nested functions) is how they obscure intent in code. For example, if you just want to retain state why use a closure if you could just use a class? Sure a closure sounds cooler, but a class or a regular group of f

shiumachi 2010/04/13

python

リンク

セールスフォースが新しいビジョン「Cloud2」を披露。「Chatter」によるソーシャルとモバイル機能をデモ（後編）

セールスフォースが新しいビジョン「Cloud2」を披露。「Chatter」によるソーシャルとモバイル機能をデモ（後編）なぜエンタープライズソフトウェアはFacebookのようにならないのか。これがセールスフォース・ドットコムCEO マーク・ベニオフ氏が言う、次の10年のためのクラウドコンピューティング、「Cloud2」のコンセプトでした。そしてCloud2ではソーシャルネットワークとモバイルが重要な要素となります。後編では、このCloud2をエンタープライズ向けのソーシャルアプリケーションとしてセールスフォース・ドットコムが実装した「Salesforce Chatter」を、基調講演の内容を基に紹介していきます。（本記事は「セールスフォースが新しいビジョン「Cloud2」を披露。「Chatter」によるソーシャルとモバイル機能をデモ（前編）」の続きです） Chatterはセキュアでリ

shiumachi 2010/04/13

"「Salesforce Chatter」で、セキュアでリアルタイムなエンタープライズ向けのコラボレーションを実現した。Facebookのようにとても簡単に使え、必要な情報はストリームとしてリアルタイムに流れていく"

Salesforce

リンク

セールスフォースが新しいビジョン「Cloud2」を披露、主役は「Chatter」。ソーシャルとモバイル機能をデモ（前編）

セールスフォースが新しいビジョン「Cloud2」を披露、主役は「Chatter」。ソーシャルとモバイル機能をデモ（前編）次の10年のためのクラウドコンピューティング「Cloud2」では、ソーシャル対応とモバイルデバイス対応が重要となる。米セールスフォース・ドットコムは4月8日（日本時間4月8日深夜）ニューヨークでイベントを開催し、このようなビジョンを明らかにするとともに、それを実現する同社の新しいサービス「Salesforce Chatter」の本格展開を今後行っていくとしました。同社のCEOマーク・ベニオフ氏が行った基調講演は、インターネットのファンダメンタルな変化が感じられる内容でした。その様子を紹介しましょう。 Cloud1からCloud2へベニオフ氏登場、新しい時代のドアを開けよう。エンタープライズソフトウェアのための新しいビジョンを今日は紹介する。

shiumachi 2010/04/13

"私のiPhoneをお見せしよう""私はこれを使い始めて過去1カ月で、会社の中で何が起きているのかそれまでの3年分以上のことを知るようになった。恥ずかしいような気持ちだ"

リンク

列指向データベース管理システム - Wikipedia

列指向データベース管理システムは、データベース管理システム (DBMS) の内部構造において、列のデータをひとまとまりにして取り出すときに効率的であるように設計されたものである。これはデータウェアハウスや図書館のカタログのように、大量の類似のデータ項目に対し集計が行われるものに対して有用である。[1]このアプローチはvalue-basedなストレージ構造を使用する行指向データベースや相関データベースと対比される。列指向データベース管理システムは、一般的に「カラムナデータベース」 (Columnar Database) とも呼ばれる。詳細[編集] 通常のDBMSシステムはひとつの行を構成する列データをひとまとまりとして格納する。これに対し列指向DBMSでは、列の値をまとめてファイルシステム上の近い場所に（あるいはひとまとまりの論理構造として）置くというアプローチがある。利点[編集] 行

shiumachi 2010/04/13

"行指向アーキテクチャはインタラクティブなトランザクションの多い OLTP 的な用途に向いているのに対し、列指向アーキテクチャは少数の複雑なクエリを実行するデータウェアハウスのような OLAP 的な用途に向いている"

DB

リンク

Apache HBase - Wikipedia

shiumachi 2010/04/13

"an open-source, distributed database modeled after Google's BigTable and written in Java"

リンク

ISO-2022-JP - Wikipedia

出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。（2013年1月） ISO-2022-JPは、インターネット上（特に電子メール）などで使われる日本の文字用の文字符号化方式。ISO/IEC 2022のエスケープシーケンスを利用して文字集合を切り替える7ビットのコードであることを特徴とする (アナウンス機能のエスケープシーケンスは省略される)。俗に「JISコード」と呼ばれることもある。概要[編集] 日本語表記への利用が想定されている文字コードであり、日本語の利用されるネットワークにおいて、日本の規格を応用したものである。また文字集合としては、日本語で用いられる漢字、ひらがな、カタカナはもちろん、ラテン文字、ギリシア文字、キリル文字なども含んでおり、学術や産業の分野での利用も考慮したものとなっている。規格名に、I

shiumachi 2010/04/13

"「JISコード」または「ISO-2022-JP」という名前でWindows上で実際に使われているものは、ISO-2022-JPの非標準な拡張で、CP932 (MicrosoftによるShift JISの亜種) と同等の機種依存文字を追加している場合が多い"

リンク

Self-Service, Prorated Supercomputing Fun!

By Derek Gottfrid November 1, 2007 5:30 pm November 1, 2007 5:30 pm As part of eliminating TimesSelect, The New York Times has decided to make all the public domain articles from 1851–1922 available free of charge. These articles are all in the form of images scanned from the original paper. In fact from 1851–1980, all 11 million articles are available as images in PDF format. To generate a PDF ve

shiumachi 2010/04/13

リンク

Taking Massive Distributed Computing to the Common Man – Hadoop on Amazon EC2/S3 | Amazon Web Services

shiumachi 2010/04/13

リンク

The finger of suspicion

ON A narrow street of modest bungalows in south-western Atlanta, Walter L. Parks Middle School stands out: a broad, white building of unmistakably institutional appearance in a district of wood-panelled and redbrick domesticity. Parks stands out for another, sadder reason, too. A statewide review of standardised tests taken by pupils in Georgia's state schools in the spring of 2009 found that wide

shiumachi 2010/04/13

米国で、学校のテストを重視しすぎるがあまり先生がテスト対策ばかりに熱を上げたりチートしちゃったりする話。erasure:消すこと。erasure mark で答えを消しゴムで消すこと

リンク

Apache Nutch - Wikipedia

Apache Nutch is a highly extensible and scala ble open source web crawler software project. Features[edit] Nutch robot mascot Nutch is coded entirely in the Java programming language, but data is written in language-independent formats. It has a highly modular architecture, allowing developers to create plug-ins for media-type parsing, data retrieval, querying and clustering. The fetcher ("robot" o

shiumachi 2010/04/13

"The fetcher ("robot" or "web crawler") has been written from scratch solely for this project"

リンク

[HADOOP-5303] Oozie, Hadoop Workflow System - ASF JIRA

This is a proposal for a system specialized in running Hadoop/Pig jobs in a control dependency DAG (Direct Acyclic Graph), a Hadoop workflow application. Attached there is a complete specification and a high level overview presentation. Highlights A Workflow application is DAG that coordinates the following types of actions: Hadoop, Pig, Ssh, Http, Em ail and sub-workflows. Flow control operations

shiumachi 2010/04/13

Hadoop

リンク

Scala on Hadoop: Hadoop Conference - stanaka's blog

先日、Hadoop ConferenceでScala on Hadoopというタイトルで発表してきました。スライドを以下に置いておきます。 Scala on HadoopView more presentations from Shinji Tanaka. ダイジェストとして、ScalaをHadoopで動かすための方法を書いておきます。まず、Hadoop上でScalaを実行させるためには、JavaとScalaを接続するライブラリが必要となります。ここでは、SHadoop( http://code.google.com/p/jweslley/source/browse/#svn/trunk/scala/shadoop )を使用します。SHadoopは、型変換を行うシンプルなライブラリです。よくあるWordCountのサンプル、WordCount.scala (http://blog.jo

shiumachi 2010/04/13

Hadoop
Scala

リンク

分散処理ソフト「Hadoop」のユーザー会が日本で発足、企業の導入が広がる

オープンソースの分散処理ソフトウエア「Hadoop」の日本におけるユーザー会「Hadoopユーザー会」が2009年11月13日に発足した。Hadoopは米グーグルの分散処理ソフト「GFS」「MapReduce」を模したもの。同日開催した「Hadoop Conference Japan 2009」には200人以上のエンジニアなどが集まり、Hadoopコンサルティングを行う米クラウデラ、ユーザー企業の楽天、はてななどが講演した。 Hadoopはグーグルが2004年までに公開したGFSやMapReduceの論文を基に、プログラマーのダグ・カッティング氏が2005年に開発したソフトウエア。カッティング氏は2009年に、米ヤフーからクラウデラに移籍している。クラウデラは、グーグルで上級ソフトウエアエンジニアを務めたクリストフ・ブシーリヤ氏らが2008年に起業したベンチャー企業で、Hadoop関連のツ

shiumachi 2010/04/13

Hadoop

リンク

Cloudera Blog

shiumachi 2010/04/13

Hadoop
test

リンク

http://www.docstoc.com/docs/2996433/Hadoop-and-HBase-vs-RDBMS

shiumachi 2010/04/13

"Presentation given to Los Angeles CTO Forum on December 12, 2008. Introduction to Hadoop, MapReduce, and HBase including how it compares to a traditional RDBMS."

Hadoop
DB

リンク

Apache Hadoop - Wikipedia

Hadoop consists of the Hadoop Common package, which provides file system and operating system level abstractions, a MapReduce engine (either MapReduce/MR1 or YARN/MR2)[32] and the Hadoop Distributed File System (HDFS). The Hadoop Common package contains the Java Archive (JAR) files and scripts needed to start Hadoop. For effective scheduling of work, every Hadoop-compatible file system should prov

shiumachi 2010/04/13

Hadoop

リンク

Hadoop World 09 « Cloudera » Apache Hadoop for the Enterprise

The first Hadoop World conference took place in New York City on October 2nd, 2009. Over 500 hundred members from the community got together to share their experiences with Hadoop and learn from one another. Sponsors: Agenda: Hadoop is Everywhere For those of you that couldn’t join us, we’re happy to provide many of the materials here. You can find slides for all of the presentations, and over the

shiumachi 2010/04/13

2009年のイベント

リンク

Hadoop World NYC 参加記 - moratorium

Hadoop World NYC 参加記 2009-10-07 (Wed) 10:03 Hadoop と言う訳でHadoop World NYC, 2009の参加記を書きます。 1日目はSystem Administrator用のトレーニングコースを受け、2日目がカンファレンス本番でした。トレーニングコースはDeveloper向け(3日間)とManager向けのビジネス寄りのコースが有り、合計で100人ぐらいは参加していたと思います。カンファレンスの本番自体は400～500人の参加でした。まずSystem Adminコースですが、大体以下のような内容でした。 MapReduceの基本概念ハードウェア/ネットワーク機器の選定ポイント OSやJavaなど、ソフトウェアでの注意点 Hadoop(Cloudera Distribution)のインストール方法パラメーター/パフォーマンスチュー

shiumachi 2010/04/13

リンク

agilecatcloud.com

This domain may be for sale!

shiumachi 2010/04/13

リンク

タグ

2010年4月13日のブックマーク (36件)

お知らせ

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

公式Twitter

キーボードショートカット一覧

公式Twitter

はてなのサービス