タグ

Hadoopに関するkutakutatriangleのブックマーク (9)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • 【要約】The world beyond batch: Streaming 101 - Qiita

    少し前の記事になりますが、オライリーにGoogleのTyler Akidau氏がストリーム処理についての記事を投稿していたので要約してみました。 とはいえ、一気に読んで訳したものですので、相応に粗く、用語の統一も多分ずれがあり、流れがわかればいい内容となっていますので、その前提で。 ただ、コメントは歓迎します。ここにまとめた私自身も理解できていない点が多々あると思いますので。 以後の内容はオライリーの記事のライセンスより、CC BY-NC-SA 1.0になります。 ストリーム処理はビッグデータの中での大きな流れになっている。 ビジネスにおいて、よりタイムリーなデータが求められるようになっており、ストリーム処理は低レイテンシを達成するためのいい手段 巨大かつ無限に発生し続ける特性を持つデータは様々なビジネスで生じており、それらのデータに対応が容易 継続してデータを処理し続けるというモデルによ

    【要約】The world beyond batch: Streaming 101 - Qiita
  • Hadoopの使い方のまとめ(2016年5月版) - Qiita

    Apache Hadoop (以下Hadoop) が登場して10年が経ち、その間にHadoopとそのエコシステムも誰も予想できないほど大きく進化してきた。当初バッチ処理専用と言われていたHadoopも、今やSQLエンジンや機械学習など様々なアプリケーションを動作させることができる汎用基盤となっている。しかし、「Hadoopとは何か?」「Hadoop入門」のような初心者向け記事は未だに初期の頃のHadoopを想定した説明しかしておらず、現在のHadoopについて正しい情報を伝えていないように見える。一方、「最新のHadoop」といった類の記事は新機能や性能向上ばかりに着目し、それらの進化がどのような意味をもたらしているかについて説明をしていないように感じる。この記事では、10年に渡る進化を遂げたHadoopが現在どのような使われ方をしているのかについて簡単にまとめる。 「Linuxはこう使う

    Hadoopの使い方のまとめ(2016年5月版) - Qiita
  • HashiCorp製品(Vagrant, Consul, Atlas, Otto)の活用による開発環境構築の自動化について発表しました - GMOインターネットグループ グループ研究開発本部

    2015.12.21 HashiCorp製品(Vagrant, Consul, Atlas, Otto)の活用による開発環境構築の自動化について発表しました この記事は HashiCorp Advent Calendar 2015 の第22日目です(急きょ参加させてもらったので、公開日と1日ズレてます……)。 次世代システム研究室の DevOps ネタ担当の M. Y. です。今回は、2015年12月21日に開催された社内の研究発表会にて、HashiCorp の新ツール “Otto” に関する発表を行いましたので、その内容をご紹介します。 Otto とは、2015 年 9 月末に HashiCorp 社が発表した新しいツールです(参考:公式サイト、リリース時のブログ記事)。単一の設定ファイル “Appfile” で、開発環境と番環境の両方を管理できる “The Successor to

    HashiCorp製品(Vagrant, Consul, Atlas, Otto)の活用による開発環境構築の自動化について発表しました - GMOインターネットグループ グループ研究開発本部
  • Python + Hive on AWS EMR で貧者のログサマリ

    Security: The Great WordPress Lockdown - WordCamp Melbourne - February 2011

    Python + Hive on AWS EMR で貧者のログサマリ
    kutakutatriangle
    kutakutatriangle 2014/09/14
    体力さえ残っていれば参加したかったセッションの資料だ。
  • あのSpark開発の総本山Databricksは何を目指しているのか、共同創業者に聞く

    分散クラスターでのビッグデータ分析をインメモリーで高速に行うオープンソースソフトウエア(OSS)の「Spark」。その開発の中核を担う企業が米Databricksだ。Sparkを開発した米University of California Berkeley(UCB)の研究組織「AMPLab」からスピンアウトして、2013年に設立されたベンチャー企業である。 同社の事業内容はあまり明らかになっていなかったが、2014年6月に開催したSparkのイベント「Spark Summit 2014」を機に、Sparkを手軽に利用できるようにするためのクラウドサービス「Databricks Cloud」を投入したり(関連記事:高速ビッグデータ分析をクラウドで、Spark開発元のDatabricksがサービス開始)、Hadoopディストリビューションベンダーと相次いで提携したりするなど(関連記事:次世代Ha

    あのSpark開発の総本山Databricksは何を目指しているのか、共同創業者に聞く
  • Cloudera Blog

    The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post

    Cloudera Blog
  • Hadoop MapReduce デザインパターン - 急がば回れ、選ぶなら近道

    Amazon CAPTCHA Hadoop MapReduce デザインパターン の監修という事をさせたもらったので その内容とかについてですね。 まず、元のはこれです。 http://www.amazon.co.jp/Data-Intensive-Processing-MapReduce-Synthesis-Technologies/dp/1608453421/ref=sr_1_1?s=english-books&ie=UTF8&qid=1316817977&sr=1-1 著者のJimmy Linは 現在Clouderaに所属と聞いています。 (が、割と所属不明な感じみたいです。) 現実にClouderaのトレーニングの内容は 特にアプリサイドの、かなりの部分を このの内容に準拠していました。 なので、Hadoopを利用する際には ほぼ必須の書籍と見ていいと思います。 このの特長と

    Hadoop MapReduce デザインパターン - 急がば回れ、選ぶなら近道
  • Hadoop徹底入門を献本いただきました。

    株式会社プリファードインフラストラクチャーに遊びにいったところ、CTOの太田一樹さんから「Hadoop徹底入門」の献をいただきました。ありがとうございます! サインまでもらっちゃった! 入門とうたうだけあって、Hadoopそのものの説明もしっかりと書かれています。何ができ、何ができないか、他のミドルウェアと比べてどういった位置づけになるのか、といった基的な概念をしっかりと理解できました。何ができないか、というのはミドルウェアを使う上で重要な事柄ですが、なかなかこういった書籍には書かれていない印象があります。 注目は、Hiveに1章を割いていることでしょう。「SQLで処理が実行できるかどうかは、ユーザにとってミドルウェアを選択する大きな基準となる」ということは、Tritonnの開発に参加していて痛感しています。Hiveを大きく紹介することによって、Hadoop導入への敷居が少し低く感じら

    Hadoop徹底入門を献本いただきました。
  • 1