[B! hadoop] tofu-kunのブックマーク

とあるオープンソースの分散処理基盤 -Hadoop（ハドゥープ）- | ADN LAB's Blog

Introduction – Hadoopとは? こんにちは、k_oomoriです。今回は、オープンソースミドルウェアのApache Hadoopを取り上げたいと思います。コンピュータの性能は日々進化しているとはいえ、1台のマシンの性能にはおのずと限界があります。また、その時々で常に最高性能のマシンを維持していこうとすると莫大なコストがかかってしまいます。そこで登場するのが分散処理という考え方です。1台1台は特に高性能ではないマシンでも多数並べて処理を同時並行で行うことにより、全体の処理性能を上げようというアプローチです。この方法では性能が足りなくなった場合にはマシンを追加することで容易に性能向上ができる反面、分散処理の実装そのものが難しいという問題がありました。例えば、処理の振り分けアルゴリズムやサーバの死活監視、結果の集約など、考えなければならないことがいくつもあります。この分散処理

tofu-kun 2013/08/27

hadoop

リンク

日々進化するHadoopの「いま」

第2回 NHNテクノロジーカンファレンス講演資料（2012年8月18日）日々進化するHadoopの「いま」株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービスシニアエキスパート濱野賢一朗（日本Hadoopユーザー会） NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano

tofu-kun 2012/08/20

hadoop

リンク

技術革新は何のためにあるのか？ - 急がば回れ、選ぶなら近道

技術革新は須く斬新的なものであるべし、という肩に力の入った信念の人は流してください。ちょっと、力の抜いた小ネタなので。最近というかここ10年来、いわゆる業務系のシステムに関わっていてよく思うことではあります。特に最近、NoSQLやHadoopといった「新技術」が登場するにつけて強く感ることではあるのですが、なんというか、「こんな感じ」のことができます、というようなプロダクトアウト的でありながら、かつ、漠然とした抽象的な話が多すぎる気がします。要は、全般的に問題の設定が苦手だよなということです。特定の技術の各論はともかく、まず、大上段に構えると、実はITでは一般の人が想像する以上にユーザーとベンダーで期待ギャップがあります。ユーザーから見ると、大抵は「こんなこともできないのか？」ということがごく普通にできません。一方、一般のTVとか報道とかは、スパコンや遺伝子やビッグデータや、なんやらか

tofu-kun 2012/07/22

これはうーむ。なるほど。

リンク

Good night, Posterous

Posterous Spaces is no longer available Thanks to all of my @posterous peeps. Y'all made this a crazy ride and it was an honor and pleasure working with all of y'all. Thanks to all of the users. Thanks to the academy. Nobody will read this.

tofu-kun 2011/10/26

リンク

ログ解析飲み会 - wyukawa's diary

10/19（水）に都内某所でログ解析飲み会なるものを開催した。ログ解析飲み会なのにログが無いってどういうこと？と某氏に突っ込まれたので酔っぱらいの記憶をたよりに書いてみる。ここには書けないオフレコ話も多々あったように思うが忘れたので書かない。またここに書くことは僕の脳みそで理解した部分に限るが、誤解が含まれている可能性はもちろんあるので変なことを書いていたら指摘していただけると幸いである。で、この飲み会を開いた経緯としてはですね、僕自身がHiveを用いたログ解析をするようになって他の人の現場寄りの話を聞きたいなーと思ってTwitterで絡んでいたら大物がきたので開催した次第である。大物が誰かはマル秘事項である。一人じゃないとだけいっておこう。世の中的にも主にWeb業界でHadoopでのBI案件が広まるにつれて、Hive, Pig, Hadoopストリーミング, 生MapReduce

tofu-kun 2011/10/21

hadoop

リンク

Hadoopの異端さが面白い - wyukawa's diary

Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。この分野は日本だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH（クロステック）またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH（クロステック）しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH（クロステック）日本IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH（

tofu-kun 2011/09/05

hadoop

リンク

Hapyrusで気軽にHadoop MapReduceを試す - 愛と勇気と缶ビール

本日の社内勉強会で、id:a_bicky先生にHadoop + MapReduceの話をしてもらった。面白かった。その時に、気軽にMapReduce処理を試せるHapyrus (https://www.hapyrus.com/) というサービスを教えてもらったので、試しにHapyrusに登録して(現在Beta版らしい)アプリケーション作ってみた。登録とかについては特に難しいこともなんもないので、割愛。アプリを作成した後、こちらから (1) データソースとなるtextファイル(4000文字まで) or Amazon S3のデータ, (2) map用スクリプト/reduce用スクリプトの計3つを登録してやれば、雲のむこうのHadoopでMapReduce処理をしてもらえるらしい。現在利用出来る言語はPerl/Ruby/Python（裏はHadoop Streamingなのかしら？）。今

tofu-kun 2011/07/11

hadoop

リンク

FacebookがHBaseを大規模リアルタイム処理に利用している理由（前編）

Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか？ 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ（Jonathan Gray）氏による解説が行われました。解説はほぼスライドの内容そのままでした。当日使われた日本語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか？ MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb

tofu-kun 2011/07/04

リンク

よしたんのぶろぐ Fedora7 Xen上でHadoop Clusterを試す

「Hadoop 0.15.2をローカル環境で試す」に続いて、Cluster環境を構築してみました。 Fedora7 x86_64上のCentOS5 (2.6.18-8.el5xen)のVMを複製し、4ノード用意。 Xenゲストイメージの複製メモ Xenゲストイメージファイルのコピー Xenゲスト構成ファイルのコピー、および名前・MACアドレス・UUIDの変更 XenゲストOSのホスト名の変更 /etc/hosts /etc/sysconfig/network XenゲストOSのIPアドレス・MACアドレスの変更 /etc/sysconfig/network-scripts/ifcfg-eth0 イメージをコピーしたものを起動したときにエラーになってしまう場合（/var/log/xen/xend-debug.logにXendInvalidDomain:と出るとき）は # /etc/init.

tofu-kun 2011/05/17

hadoop

リンク

Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary

大規模データを処理する必要が出て来たので、Hadoopを導入してみることになりました。以下、導入メモです。セットアップ以下のような構成で試してみます。環境はCentOSです。マスター（host001) ━┳ スレーブ（host002） ┣　スレーブ（host003） ┣　スレーブ（host004） ┗　スレーブ（host005）まずは各マシンにJavaをインストール。JDK1.6を落として来てrpmでインストールするか、yum install java-1.6.0*などとたたけばOKです。（rpmでインストールする場合は http://java.sun.com/javase/ja/6/download.html から jdk-6u18-linux-i586-rpm.binをダウンロードして、実行権限を与えてルートで実行すればインストールできます。）続いてマスターノードにHado

tofu-kun 2011/05/17

hadoop

リンク

Hadoop Streaming で外部ファイルを扱う方法のまとめ - (ﾟ∀ﾟ)o彡 sasata299's blog

2010年05月06日09:21 Hadoop Hadoop Streaming で外部ファイルを扱う方法のまとめ Hadoop Streaming での外部ファイルの扱いもだいぶ固まってきました。発表資料のスライドではこの辺の話を書いたことがあるんですが、ブログには書いてなかったので一度きっちりまとめておこうかなーっと。というわけで今回は Hadoop Streaming での外部ファイルの読み込みについてまとめますよ！(*ﾟДﾟ)=3 ﾑﾊｰそもそも外部ファイルの読み込みと言っても、この二つのパターンがあります。 1) 外部ファイルが master 上にある（つまりローカルディスクにある）場合 2) 外部ファイルが別ファイルシステム（S3 だったり HDFS だったり）にある場合外部ファイルが master 上にある場合まず、この場合はとても簡単です。例えば hoge.txt と

tofu-kun 2011/05/12

hadoop

リンク

Contents of /hadoop_utils/trunk/scripts/init.d/hadoop - Meta Search - OSDN

Revision 12 - (show annotations) (download) Tue Apr 29 14:18:28 2008 UTC (16 years, 1 month ago) by whitestar File size: 467 byte(s) initial revision.

tofu-kun 2011/05/12

hadoop

リンク

Hadoopでサンプル作成 - 忘れがちなあなたへ

$vim .bashrc export JAVA_HOME=/usr/lib/jvm/java-6-openjdk export PATH=$PATH:/usr/local/hadoop/bin $source .bashrc $vim ~/hadoop-0.21.0/conf/hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-6-openjdk export HADOOP_PID_DIR=/var/hadoop/pids $sudo mkdir -p /var/hadoop/pids $sudo chmod 777 /var/hadoop/pids

tofu-kun 2011/05/12

hadoop

リンク

複数マシンへHadoopをインストールする

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

tofu-kun 2011/05/12

hadoop

リンク

MapReduce - naoyaのはてなダイアリー

"MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

tofu-kun 2011/05/09

hadoop

リンク

CentOSにHadoopをインストール - yokkunsの日記

Hadoop徹底入門を購入したので、早速CentOSにHadoopをインストールしてみる。最新は、hadoop-0.21.0だが、Pigが現在Hadoop-0.20系しかサポートしていないみたいなので、hadoop-0.20.2を入れる http://hadoop.apache.org/common/releases.html JVMのインストール - パッケージをここからダウンロード - インストール $ chmod 755 jre-6u25-linux-i586-rpm.bin $ sudo ./jre-6u25-linux-i586-rpm.bin [sudo] Unpacking... Checksumming... Extracting...UnZip SFX 5.50 of 17 February 2002, by Info-ZIP (Zip-Bugs@lists.wku.ed

tofu-kun 2011/05/09

hadoop

リンク

Hadoopを用いた大規模ログ解析

JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー（NTTデータテクノロジーカンファレンス ...NTT DATA Techno logy & Innovation

tofu-kun 2011/04/10

hadoop

リンク

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という

tofu-kun 2010/09/29

ふーむ。まず、Hadoop自体、そんなに理解していないので、そこから。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

hadoopに関するtofu-kunのブックマーク (18)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス