タグ

Hadoopに関するazaazatoのブックマーク (12)

  • Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017

    Similar to Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017(20)

    Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • 科学と非科学の迷宮

    (DALL-E3によって生成しました) この記事はpyspa アドベントカレンダー 2023の4日目です。 昨日は@tokibitoでした。 ペーパードライバー 私は20年前に免許を取って以来、車を運転したことは片手で数えられるレベルの完璧なペーパードライバーでした。 結婚して子供ができてからも旅行はいつもタクシーや公共交通機関を利用していましたが、今回は軽井沢へ旅行をすることになったので、久々に車を運転してみることにしました。 準備 運転に関してはほぼ初心者だった私は、以下のステップで準備を進めました。 ペーパードライバー講習 実際の車を使用して、基的な操作や運転のコツを学びました。 ペーパードライバー講習は現地にいかなくてもわざわざ近くまで車で来てくれて、最後は自宅前で終了できるという非常に便利なものでした。 また、子供を連れて乗ってもOKとのことだったので(チャイルドシートも用意し

    科学と非科学の迷宮
  • AmazonS3 - HADOOP2 - Apache Software Foundation

    S3 Support in Apache Hadoop Apache Hadoop ships with a connector to S3 called "S3A", with the url prefix "s3a:"; its previous connectors "s3", and "s3n" are deprecated and/or deleted from recent Hadoop versions. Consult the Latest Hadoop documentation for the specifics on using any the S3A connector. For Hadoop 2.x releases, the latest troubleshooting documentation. For Hadoop 3.x releases, the la

  • Hadoopビッグデータ基盤の歴史を振り返る #cwt2015

    Cloudera World Tokyo 2015 で発表した資料です。 https://clouderaworld.tokyo/ 概要 かつてHadoopによるビッグデータ基盤は HiveやPig、MapReduce、そしてHDFSだけで構成されるシンプルなシステムでした。しかし現在では、SparkやImpalaを始めとして、Kafka、HBase、Parquet、そしてKuduなどの新しいコンポーネントを組み合わせた複雑なシステムが次々に番環境で稼働し始めています。 このセッションでは、データの取得、加工、提供までの流れがどのように変わっていったか、そして現在ではどのような基盤が主流なのか、最新のトレンドについて解説します。Read less

    Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
  • 図解 MapR のメモリ管理 - nagix

    MapR Hadoopディストリビューションにおいて、メモリがどのように割り当てられているかは一見わかりにくいので、図を使いながら詳細を解説していきましょう。なお、説明はMapR 5.0のYARN構成がベースになっています。YARNアプリケーションのメモリ割り当ての説明以降は、どのHadoopディストリビューションでも同じなので広く参考になると思います。 MapRのサービスのメモリ割り当て MapRでは各ノードで管理や処理を担うプロセスを「サービス」として定義しています。一般的なHadoopにも存在するYARNのResourceManagerやNodeManagerといったサービスもあれば、HDFSの代わりにファイルシステムの機能を提供するMapR-FSやCLDBのようなサービスや、NFSサーバ機能を提供するNFSサービス、Web UI機能を提供するMapR Control System

    図解 MapR のメモリ管理 - nagix
  • Apache Kylin | Analytical Data Warehouse for Big Data

    Apache Kylin™ is an open source, distributed Analytical Data Warehouse for Big Data; it was designed to provide OLAP (Online Analytical Processing) capability in the big data era. By renovating the multi-dimensional cube and precalculation technology on Hadoop and Spark, Kylin is able to achieve near constant query speed regardless of the ever-growing data volume. Reducing query latency from minut

  • Teradata Presto | Product Details | Open Source

    Teradata Blogs When big data becomes vast, what's your data dropping strategy? Read more Support Teradata at Your Service (TAYS) Simple, secure customer access to products, services, education, and support function information. Read more Certifications Teradata Certified Professional Program (TCPP) Management, development, and oversight of the premiere Teradata Certification Program. Read more Con

    Teradata Presto | Product Details | Open Source
  • Apache Hiveの今とこれから

    分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料) 分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~ (NTTデータ テクノロジーカンファレンス 2020 発表資料) 2020年10月16日(金) NTTデータ システム技術部 デジタル技術部 梅森 直人 講演動画は、YouTubeチャンネル「NTT DATA Tech」にて公開中! https://www.youtube.com/watch?v=NDb9nORBT_A "Apache Flink’s Exactly-Once Semantics (EOS) integration for writing to Apache Kafka has several pitfalls, due mostly to t

    Apache Hiveの今とこれから
  • バッチ処理、ジョブ管理について書いてみる - wyukawa's diary

    僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。 僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。そもそもバッチ処理、ジョブ管理について書かれたものはほとんど見た事がないので参考になれば嬉しいし、こういう良い方法もあるよ!とかあれば是非ブログ等に書いてほしいと思っております。 最初に言っておくとバッチ処理、ジョブ管理において重要なのは障害時のリカバリのしやすさです。正常時はまあいいでしょ。 なので例えば引数に日付を持てないようなバッチ書いたら辛いですし、LL言語で書く方がコンパイル、パッケージングとか楽です。CP

    バッチ処理、ジョブ管理について書いてみる - wyukawa's diary
  • Apache ORC • High-Performance Columnar Storage for Hadoop

    ORC is an Apache project. Apache is a non-profit organization helping open-source software projects released under the Apache license and managed with open governance and privacy policy. See upcoming Apache Events. If you discover any security vulnerabilities, please report them privately. Finally, thanks to the sponsors who donate to the Apache Foundation.

  • Treasure Dataを支える(中の人に必要な)技術 - myui's memo

    Treasure Data(以下、TD)に入社して早2週間が経ちました。 入社してから、平成14年度IPA未踏ユース第1期で同期でスーパークリエイタであった西田さんがTDで働いているのを知りました。MapReduceやHadoopが登場した頃、「Googleを支える技術」という技術書*1でお世話になったのですが、いつの間にかTreasure Dataを支える人になっていたんですね*2。 Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ) 作者: 西田圭介出版社/メーカー: 技術評論社発売日: 2008/03/28メディア: 単行(ソフトカバー)購入: 47人 クリック: 1,166回この商品を含むブログ (374件) を見る TDではおかげさまで結構なペースでお客さんが増えていて事業規模拡大に備えて幅広い職種で人材募集中です。今回はTDのバッ

    Treasure Dataを支える(中の人に必要な)技術 - myui's memo
  • 1