タグ

hadoopに関するtofu-kunのブックマーク (18)

  • とあるオープンソースの分散処理基盤 -Hadoop(ハドゥープ)- | ADN LAB's Blog

    Introduction – Hadoopとは? こんにちは、k_oomoriです。今回は、オープンソースミドルウェアのApache Hadoopを取り上げたいと思います。 コンピュータの性能は日々進化しているとはいえ、1台のマシンの性能にはおのずと限界があります。また、その時々で常に最高性能のマシンを維持していこうとすると莫大なコストがかかってしまいます。そこで登場するのが分散処理という考え方です。1台1台は特に高性能ではないマシンでも多数並べて処理を同時並行で行うことにより、全体の処理性能を上げようというアプローチです。この方法では性能が足りなくなった場合にはマシンを追加することで容易に性能向上ができる反面、分散処理の実装そのものが難しいという問題がありました。例えば、処理の振り分けアルゴリズムやサーバの死活監視、結果の集約など、考えなければならないことがいくつもあります。この分散処理

  • 日々進化するHadoopの 「いま」

    第2回 NHNテクノロジーカンファレンス 講演資料(2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗 (日Hadoopユーザー会) NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano

    日々進化するHadoopの 「いま」
  • 技術革新は何のためにあるのか? - 急がば回れ、選ぶなら近道

    技術革新は須く斬新的なものであるべし、という肩に力の入った信念の人は流してください。ちょっと、力の抜いた小ネタなので。 最近というかここ10年来、いわゆる業務系のシステムに関わっていてよく思うことではあります。特に最近、NoSQLやHadoopといった「新技術」が登場するにつけて強く感ることではあるのですが、なんというか、「こんな感じ」のことができます、というようなプロダクトアウト的でありながら、かつ、漠然とした抽象的な話が多すぎる気がします。要は、全般的に問題の設定が苦手だよなということです。 特定の技術の各論はともかく、まず、大上段に構えると、実はITでは一般の人が想像する以上にユーザーとベンダーで期待ギャップがあります。ユーザーから見ると、大抵は「こんなこともできないのか?」ということがごく普通にできません。一方、一般のTVとか報道とかは、スパコンや遺伝子やビッグデータや、なんやらか

    技術革新は何のためにあるのか? - 急がば回れ、選ぶなら近道
    tofu-kun
    tofu-kun 2012/07/22
    これはうーむ。なるほど。
  • Good night, Posterous

    Posterous Spaces is no longer available Thanks to all of my @posterous peeps. Y'all made this a crazy ride and it was an honor and pleasure working with all of y'all. Thanks to all of the users. Thanks to the academy. Nobody will read this.

  • ログ解析飲み会 - wyukawa's diary

    10/19(水)に都内某所でログ解析飲み会なるものを開催した。 ログ解析飲み会なのにログが無いってどういうこと?と某氏に突っ込まれたので酔っぱらいの記憶をたよりに書いてみる。ここには書けないオフレコ話も多々あったように思うが忘れたので書かない。 またここに書くことは僕の脳みそで理解した部分に限るが、誤解が含まれている可能性はもちろんあるので変なことを書いていたら指摘していただけると幸いである。 で、この飲み会を開いた経緯としてはですね、僕自身がHiveを用いたログ解析をするようになって他の人の現場寄りの話を聞きたいなーと思ってTwitterで絡んでいたら大物がきたので開催した次第である。大物が誰かはマル秘事項である。一人じゃないとだけいっておこう。 世の中的にも主にWeb業界でHadoopでのBI案件が広まるにつれて、Hive, Pig, Hadoopストリーミング, 生MapReduce

    ログ解析飲み会 - wyukawa's diary
  • Hadoopの異端さが面白い - wyukawa's diary

    Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。 この分野は日だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH(クロステック) またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。 ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH(クロステック) しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。 富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH(クロステック) 日IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH

    Hadoopの異端さが面白い - wyukawa's diary
  • Hapyrusで気軽にHadoop MapReduceを試す - 愛と勇気と缶ビール

    日の社内勉強会で、id:a_bicky先生にHadoop + MapReduceの話をしてもらった。面白かった。その時に、気軽にMapReduce処理を試せるHapyrus (https://www.hapyrus.com/) というサービスを教えてもらったので、試しにHapyrusに登録して(現在Beta版らしい)アプリケーション作ってみた。 登録とかについては特に難しいこともなんもないので、割愛。 アプリを作成した後、こちらから (1) データソースとなるtextファイル(4000文字まで) or Amazon S3のデータ, (2) map用スクリプト/reduce用スクリプト の計3つを登録してやれば、雲のむこうのHadoopでMapReduce処理をしてもらえるらしい。 現在利用出来る言語はPerl/Ruby/Python(裏はHadoop Streamingなのかしら?)。今

    Hapyrusで気軽にHadoop MapReduceを試す - 愛と勇気と缶ビール
  • FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)

    Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか? 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ(Jonathan Gray)氏による解説が行われました。 解説はほぼスライドの内容そのままでした。当日使われた日語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか? MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb

    FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)
  • よしたんのぶろぐ Fedora7 Xen上でHadoop Clusterを試す

    「Hadoop 0.15.2をローカル環境で試す」に続いて、Cluster環境を構築してみました。 Fedora7 x86_64上のCentOS5 (2.6.18-8.el5xen)のVMを複製し、4ノード用意。 Xenゲストイメージの複製メモ Xenゲストイメージファイルのコピー Xenゲスト構成ファイルのコピー、および名前・MACアドレス・UUIDの変更 XenゲストOSのホスト名の変更 /etc/hosts /etc/sysconfig/network XenゲストOSのIPアドレスMACアドレスの変更 /etc/sysconfig/network-scripts/ifcfg-eth0 イメージをコピーしたものを起動したときにエラーになってしまう場合(/var/log/xen/xend-debug.logにXendInvalidDomain:と出るとき)は # /etc/init.

  • Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary

    大規模データを処理する必要が出て来たので、Hadoopを導入してみることになりました。 以下、導入メモです。 セットアップ 以下のような構成で試してみます。環境はCentOSです。 マスター(host001) ━┳ スレーブ(host002) ┣ スレーブ(host003) ┣ スレーブ(host004) ┗ スレーブ(host005) まずは各マシンにJavaをインストール。JDK1.6を落として来てrpmでインストールするか、yum install java-1.6.0*などとたたけばOKです。(rpmでインストールする場合は http://java.sun.com/javase/ja/6/download.html から jdk-6u18-linux-i586-rpm.binをダウンロードして、実行権限を与えてルートで実行すればインストールできます。) 続いてマスターノードにHado

    Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary
  • Hadoop Streaming で外部ファイルを扱う方法のまとめ - (゚∀゚)o彡 sasata299's blog

    2010年05月06日09:21 Hadoop Hadoop Streaming で外部ファイルを扱う方法のまとめ Hadoop Streaming での外部ファイルの扱いもだいぶ固まってきました。発表資料のスライドではこの辺の話を書いたことがあるんですが、ブログには書いてなかったので一度きっちりまとめておこうかなーっと。というわけで今回は Hadoop Streaming での外部ファイルの読み込みについてまとめますよ!(*゚Д゚)=3 ムハー そもそも外部ファイルの読み込みと言っても、この二つのパターンがあります。 1) 外部ファイルが master 上にある(つまりローカルディスクにある)場合 2) 外部ファイルが別ファイルシステム(S3 だったり HDFS だったり)にある場合 外部ファイルが master 上にある場合 まず、この場合はとても簡単です。例えば hoge.txt と

  • Contents of /hadoop_utils/trunk/scripts/init.d/hadoop - Meta Search - OSDN

    Revision 12 - (show annotations) (download) Tue Apr 29 14:18:28 2008 UTC (16 years, 1 month ago) by whitestar File size: 467 byte(s) initial revision.

    Contents of /hadoop_utils/trunk/scripts/init.d/hadoop - Meta Search - OSDN
  • Hadoopでサンプル作成 - 忘れがちなあなたへ

    $vim .bashrc export JAVA_HOME=/usr/lib/jvm/java-6-openjdk export PATH=$PATH:/usr/local/hadoop/bin $source .bashrc $vim ~/hadoop-0.21.0/conf/hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-6-openjdk export HADOOP_PID_DIR=/var/hadoop/pids $sudo mkdir -p /var/hadoop/pids $sudo chmod 777 /var/hadoop/pids

  • 複数マシンへHadoopをインストールする

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    複数マシンへHadoopをインストールする
  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
  • CentOSにHadoopをインストール - yokkunsの日記

    Hadoop徹底入門を購入したので、早速CentOSにHadoopをインストールしてみる。 最新は、hadoop-0.21.0だが、Pigが現在Hadoop-0.20系しかサポートしていないみたいなので、hadoop-0.20.2を入れる http://hadoop.apache.org/common/releases.html JVMのインストール - パッケージをここからダウンロード - インストール $ chmod 755 jre-6u25-linux-i586-rpm.bin $ sudo ./jre-6u25-linux-i586-rpm.bin [sudo] Unpacking... Checksumming... Extracting...UnZipSFX 5.50 of 17 February 2002, by Info-ZIP (Zip-Bugs@lists.wku.ed

    CentOSにHadoopをインストール - yokkunsの日記
  • Hadoopを用いた大規模ログ解析

    JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...NTT DATA Technology & Innovation

    Hadoopを用いた大規模ログ解析
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
    tofu-kun
    tofu-kun 2010/09/29
    ふーむ。まず、Hadoop自体、そんなに理解していないので、そこから。
  • 1