タグ

Hadoopに関するR-Hのブックマーク (15)

  • Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場

    こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張

    Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
  • fluent-plugin-hoop v0.1.0 released - たごもりすメモ

    みんな大好き fluentd は素敵だと思うんだけどHDFSへの書き出しをするプラグインが無い! なんで! という全世界100万人のエンジニアの怨嗟の声が聞こえてきそうだったので、とりあえずどうにかするべく書いた fluent-plugin-hoop がだいたい動くようになったのでリリースした! fluent-plugin-hoop | RubyGems.org | your community gem host tagomoris/fluent-plugin-hoop · GitHub → 公式リポジトリの仲間入りしました fluent/fluent-plugin-hoop · GitHub rubygems.org経由でリリースしてあるので gem install fluent-plugin-hoop で入ります。あとはなんだっけ、システム全体の環境に影響を与えたくなければ fluen

    fluent-plugin-hoop v0.1.0 released - たごもりすメモ
  • 「カジュアル」な規模のデータクラスター上でのデータ解析処理 « NAVER Engineers' Blog

    今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。 さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると当に上長に叱られますの

  • OSSで支えられるライブドアの巨大ログ集計 #nhntech

    PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services

    OSSで支えられるライブドアの巨大ログ集計 #nhntech
  • 日々進化するHadoopの 「いま」

    第2回 NHNテクノロジーカンファレンス 講演資料(2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗 (日Hadoopユーザー会) NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano

    日々進化するHadoopの 「いま」
    R-H
    R-H 2012/08/20
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
    R-H
    R-H 2011/06/22
  • Hadoopのカスタマイズ

    はじめましてミツバチワークスleonです。TECHチームの一員としてブログ連載をさせていただく機会をいただきました。 テーマはHadoopカスタマイズにします。 Hadoopは既にstoneさんが現在の運用で使っているテクニックを記事にされています。そこで私はHadoopのカスタマイズについてご紹介させていいただくことにします。私自身がHadoop初心者ということもあり、私は初歩からスタートさせていただこうと思います。お付き合いのほどよろしくお願いします。 Hadoopとは?から始めるのが礼儀かと思いますが、そこはwikipediaなどにお任せします。ご容赦ください。 何はともあれ立ち上がっているサービスがないと話を始められません。そこで、最初の最初はHADOOPのセットアップ手順のご紹介です。 実際、弊社ではHadoopに十数台のサーバーを投入していますが、わかりやすいように最小限のサー

    R-H
    R-H 2011/01/26
  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

    R-H
    R-H 2011/01/04
  • リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey

    Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。 この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。 リアルタイムなMapReduceで何ができる? リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか? S4の公開を表明したY

    リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey
    R-H
    R-H 2010/11/05
  • 資料を公開いたしました!(クックパッドの裏側見せます in 京都) - クックパッド開発者ブログ

    こんにちは、クックパッドのすみです。去る4/16,17に京都で「クックパッドの裏側見せますvol.2&vol.3」を開催いたしました。 当日お越しくださった皆さま、Ustreamをご覧くださった皆さま、誠にありがとうございました! お話させて頂いたエンジニアのうち2名の資料を公開いたしますので、是非ご覧くださいませ。 ・勝間亮/アグレッシブなクラウドの使い方 [slideshare id=3827098&doc=engineer-event-100417-kyoto-100423034302-phpapp02] ・濱崎健吾/クックパッドに入って十数日働いた雑感 [slideshare id=3849703&doc=100413urapad-100425122155-phpapp01]

    資料を公開いたしました!(クックパッドの裏側見せます in 京都) - クックパッド開発者ブログ
  • IBM版Hadoopでクラスターを簡単セットアップ

    はじめに IBM版Apache Hadoop(英語名:IBM Distribution of Apache Hadoop / 通称:IDAHO)とは、IBMのJava VMで動く、インストーラー付きApache Hadoopです。先進テクノロジー・ソフトウェアの無償ダウンロードサイト「IBM alphaWorks」で公開されています。 記事執筆時点では、32-bit Linux version of the IBM SDK for Java 6 SR 8で稼働します。また、IDAHO-1.0では、Apache Hadoop version 0.20.2をベースにしています。 IDAHOには、Web-UIによるインストーラーがついています。SSH設定、Javaランタイム、Hadoopなどの設定を自動的に行いますので、Hadoopクラスターのセットアップが簡単に行えます。また、一回の作業で複

    IBM版Hadoopでクラスターを簡単セットアップ
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • オープンソースカンファレンスのHadoop講演資料を紹介します

    こんにちは。広報スタッフの楢崎です。 9月10日、11日の2日間開催された「オープンソースカンファレンス2010 Tokyo/Fall」にて、 Yahoo! JAPANはHadoopについて講演させていただきました。多くの方にご参加いただきありがとうございます。 (写真:明星大学・日野キャンパスにて) ここでは、当日講演で使用したプレゼン資料を紹介させていただきます。 ●Hadoop ~Yahoo! JAPANの活用について~ ヤフー株式会社 R&D統括部 角田直行、吉田一星

    オープンソースカンファレンスのHadoop講演資料を紹介します
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    R-H
    R-H 2010/09/14
  • Scala on Hadoop

    1. Hadoop Conference Scala on Hadoop はてな 田中 慎司 stanaka @ hatena.ne.jp http://d.hatena.ne.jp/stanaka/ http://twitter.com/stanaka/

    Scala on Hadoop
  • 1