タグ

hadoopとHadoopに関するsheeploghのブックマーク (10)

  • スケールするメッセージングシステムを構築せよ ―チャットワークとNTTデータが挑んだKafkaベースの"土管"づくり | gihyo.jp

    スケールするメッセージングシステムを構築せよ ―チャットワークとNTTデータが挑んだKafkaベースの"土管"づくり クラウドコンピューティングが普及し、多くの企業が日常的に膨大で多様なデータを扱うようになるにともない、ITの世界では"スケール"という言葉がごく一般的に使われるようになりました。ニーズに応じて利用するコンピューティングリソースを柔軟に増減し、処理を分散してシステム全体の稼働力を上げる"スケール"というしくみは、いまや"あって当然"の概念となり、加えてここ数年はスケールにおいてもよりリアルタイムに近いパフォーマンスが求められるようになっています。 これはサーバやストレージといったハードウェアリソースだけではなく、データベースやミドルウェアにおいても同様で、スケールしやすい技術としてHadoopやPostgreSQLといったオープンソースプロダクトが選ばれるケースが飛躍的に増え

    スケールするメッセージングシステムを構築せよ ―チャットワークとNTTデータが挑んだKafkaベースの"土管"づくり | gihyo.jp
  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • (日本語)Hadoopは失敗した、という分析

    Datanami社によるデータベース専門家とのインタビューの結果によると、Hadoopを採用したい企業の多くは、失敗プロジェクトに終わっている、と指摘している。 Snowflake Computing社CEO, Bob Muglia氏によると、今までHadoopを採用してい幸せになった企業はみた事が無いし、今後も出てくるような気配が無い、と言い切っている。 すでに、Hadoopは多くの企業で使われ...

    (日本語)Hadoopは失敗した、という分析
  • Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装 記事一覧 | gihyo.jp

    第21回Sparkの設計と実装[2]~Sparkにおけるデータ共有の仕組みと耐障害性の実現方法 猿田浩輔,山田浩之 2016-06-08

    Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装 記事一覧 | gihyo.jp
  • Hadoopの使い方のまとめ(2016年5月版) - Qiita

    Apache Hadoop (以下Hadoop) が登場して10年が経ち、その間にHadoopとそのエコシステムも誰も予想できないほど大きく進化してきた。当初バッチ処理専用と言われていたHadoopも、今やSQLエンジンや機械学習など様々なアプリケーションを動作させることができる汎用基盤となっている。しかし、「Hadoopとは何か?」「Hadoop入門」のような初心者向け記事は未だに初期の頃のHadoopを想定した説明しかしておらず、現在のHadoopについて正しい情報を伝えていないように見える。一方、「最新のHadoop」といった類の記事は新機能や性能向上ばかりに着目し、それらの進化がどのような意味をもたらしているかについて説明をしていないように感じる。この記事では、10年に渡る進化を遂げたHadoopが現在どのような使われ方をしているのかについて簡単にまとめる。 「Linuxはこう使う

    Hadoopの使い方のまとめ(2016年5月版) - Qiita
  • 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)

    2. 自己紹介  濱野 賢一朗 (はまの けんいちろう) – 日Hadoopユーザー会のメンバとして、 イベント Hadoop Conference Japan や 勉強会 Hadoopソースコードリーディング の企画・実施を担当 – 翔泳社 『Hadoop徹底入門』 監修者 – NTT DATA 基盤システム事業部 OSSプロフェッショナルサービス に所属 – Hadoop 関係者で話題になった 「経産省の報告書」 の実証事業のPM 平成21年度 産学連携ソフトウェア工学実践事業報告書 高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業) http: //www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist

    40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
  • Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

    From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluentd Meetupのデモでは9億件を7秒程度で検索していたが、BigQueryの真の実力はこれより1〜2ケタ上だからだ。ちょっと手元で少し大きめのテーブルで試してみたら、120億行の正規表現マッチ付き集計が5秒で完了した。論より証拠で、デモビデオ(1分16秒)を作ってみた: From The Speed of Google BigQuery これは速すぎる。何かのインチキである(最初にデモを見た時そう思った)。正規表現をいろいろ変えてみてもスピードは変わらない。つまり、インデックスを事前構築できないクエリに対してこのスピードなのである。 価格も安い。さすがに120億行のクエリは1回で200円もかかって気軽に実行できなさそうであるが、1.2億

    Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
  • Clouderaで作るデータ分析環境 - 科学と非科学の迷宮

    wyukawaさんがデータ分析環境について書いていましたが、全部 CDH を使えば実現可能なので便乗して書いておこうと思います。 1. ETL 処理 CDH なら以下のツールがあります。 Sqoop RDBMS / DWH などに対するインポート・エクスポートツール。最近日語のも出版されたので皆さん買ってください。 Hue を使えば Web ブラウザ上から設定できます。デモビデオはこちら。 Pig Hive の影に隠れがちなクエリ言語ですが、特に ETL として使う場合は書きやすいです。中身は MapReduce。Java はもちろん、PythonJavascriptRuby、そしてGroovyでUDFが書けるのが特徴。HCatalog というツールのおかげで Hive 同様スキーマを扱えるようになりました。 Hue を使えば Web ブラウザ上から実行できます。デモビデオはこちら

    Clouderaで作るデータ分析環境 - 科学と非科学の迷宮
  • HPE Ezmeral Data Fabric Client

    This site contains documentation for HPE Ezmeral Data Fabric release 7.0, including installation, configuration, administration, and reference content, as well as content for the associated ecosystem components and drivers. This section contains information about installing and upgrading HPE Ezmeral Data Fabric software. It also contains information about how to migrate data and applications from

    sheeplogh
    sheeplogh 2014/04/17
    サンドボックスのVMイメージがあるのね
  • Hadoopカンファレンス2013

    1. リクルート式Hadoopの使い方 2ndEdition 株式会社リクルートテクノロジーITソリューション部 ビッグデータグループ 石川 信行 2. 分社化について 主な事業会社 (株)リクルートキャリア (株)リクルートジョブズ (株)リクルートスタッフィング (株)リクルート (株)リクルート住まいカンパニー ホールディングス (株)リクルートライフスタイル (株)リクルートマーケティングパートナーズ (株)スタッフサービス・ホールディングス 機能会社 (株)リクルートアドミニストレーション (株)リクルートコミュニケーションズ (株)リクルートテクノロジーズ 2 3. リクルートグループのご紹介 ~リクルートについて ライフイベント領域 ライフスタイル領域 旅行 車購入 住宅購入 お稽古 ファッション 転職 出産/育児 結婚 時事 飲 就職 進学 「選択・意思決定・行動」を

    Hadoopカンファレンス2013
  • 1