[B! Hadoop] azaazatoのブックマーク

Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017

Similar to Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017(20)

azaazato 2017/09/13

Hadoop
kudu

リンク

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

azaazato 2017/07/10

Hadoop

リンク

科学と非科学の迷宮

(DALL-E3によって生成しました) この記事はpyspa アドベントカレンダー 2023の4日目です。昨日は@tokibitoでした。ペーパードライバー私は20年前に免許を取って以来、車を運転したことは片手で数えられるレベルの完璧なペーパードライバーでした。結婚して子供ができてからも旅行はいつもタクシーや公共交通機関を利用していましたが、今回は軽井沢へ旅行をすることになったので、久々に車を運転してみることにしました。準備運転に関してはほぼ初心者だった私は、以下のステップで準備を進めました。ペーパードライバー講習実際の車を使用して、基本的な操作や運転のコツを学びました。ペーパードライバー講習は現地にいかなくてもわざわざ近くまで車で来てくれて、最後は自宅前で終了できるという非常に便利なものでした。また、子供を連れて乗ってもOKとのことだったので（チャイルドシートも用意し

azaazato 2017/07/10

Hadoop

リンク

AmazonS3 - HADOOP2 - Apache Software Foundation

S3 Support in Apache Hadoop Apache Hadoop ships with a connector to S3 called "S3A", with the url prefix "s3a:"; its previous connectors "s3", and "s3n" are deprecated and/or deleted from recent Hadoop versions. Consult the Latest Hadoop documentation for the specifics on using any the S3A connector. For Hadoop 2.x releases, the latest troubleshooting documentation. For Hadoop 3.x releases, the la

azaazato 2016/01/21

s3
hadoop

リンク

Hadoopビッグデータ基盤の歴史を振り返る #cwt2015

Cloudera World Tokyo 2015 で発表した資料です。 https://clouderaworld.tokyo/ 概要かつてHadoopによるビッグデータ基盤は HiveやPig、MapReduce、そしてHDFSだけで構成されるシンプルなシステムでした。しかし現在では、SparkやImpalaを始めとして、Kafka、HBase、Parquet、そしてKuduなどの新しいコンポーネントを組み合わせた複雑なシステムが次々に本番環境で稼働し始めています。このセッションでは、データの取得、加工、提供までの流れがどのように変わっていったか、そして現在ではどのような基盤が主流なのか、最新のトレンドについて解説します。Read less

azaazato 2015/11/11

リンク

図解 MapR のメモリ管理 - nagix

MapR Hadoopディストリビューションにおいて、メモリがどのように割り当てられているかは一見わかりにくいので、図を使いながら詳細を解説していきましょう。なお、説明はMapR 5.0のYARN構成がベースになっています。YARNアプリケーションのメモリ割り当ての説明以降は、どのHadoopディストリビューションでも同じなので広く参考になると思います。 MapRのサービスのメモリ割り当て MapRでは各ノードで管理や処理を担うプロセスを「サービス」として定義しています。一般的なHadoopにも存在するYARNのResourceManagerやNodeManagerといったサービスもあれば、HDFSの代わりにファイルシステムの機能を提供するMapR-FSやCLDBのようなサービスや、NFSサーバ機能を提供するNFSサービス、Web UI機能を提供するMapR Control Systemサ

azaazato 2015/08/13

リンク

Apache Kylin | Analytical Data Warehouse for Big Data

Apache Kylin™ is an open source, distributed Analytical Data Warehouse for Big Data; it was designed to provide OLAP (Online Analytical Processing) capability in the big data era. By renovating the multi-dimensional cube and precalculation techno logy on Hadoop and Spark, Kylin is able to achieve near constant query speed regardless of the ever-growing data volume. Reducing query latency from minut

azaazato 2015/08/12

Hadoop
SQL

リンク

Teradata Presto | Product Details | Open Source

Teradata Blogs When big data becomes vast, what's your data dropping strategy? Read more Support Teradata at Your Service (TAYS) Simple, secure customer access to products, services, education, and support function information. Read more Certifications Teradata Certified Professional Program (TCPP) Management, development, and oversight of the premiere Teradata Certification Program. Read more Con

azaazato 2015/06/22

Hadoop
SQL

リンク

Apache Hiveの今とこれから

分析指向データレイク実現の次の一手～Delta Lake、なにそれおいしいの？～（NTTデータテクノロジーカンファレンス 2020 発表資料）分析指向データレイク実現の次の一手～Delta Lake、なにそれおいしいの？～（NTTデータテクノロジーカンファレンス 2020 発表資料） 2020年10月16日（金） NTTデータシステム技術本部デジタル技術部梅森直人講演動画は、YouTubeチャンネル「NTT DATA Tech」にて公開中！ https://www.youtube.com/watch?v=NDb9nORBT_A "Apache Flink’s Exactly-Once Semantics (EOS) integration for writing to Apache Kafka has several pitfalls, due mostly to t

azaazato 2015/06/19

Hive
Hadoop

リンク

バッチ処理、ジョブ管理について書いてみる - wyukawa's diary

僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。そもそもバッチ処理、ジョブ管理について書かれたものはほとんど見た事がないので参考になれば嬉しいし、こういう良い方法もあるよ！とかあれば是非ブログ等に書いてほしいと思っております。最初に言っておくとバッチ処理、ジョブ管理において重要なのは障害時のリカバリのしやすさです。正常時はまあいいでしょ。なので例えば引数に日付を持てないようなバッチ書いたら辛いですし、LL言語で書く方がコンパイル、パッケージングとか楽です。CP

azaazato 2015/06/18

リンク

Apache ORC • High-Performance Columnar Storage for Hadoop

ORC is an Apache project. Apache is a non-profit organization helping open-source software projects released under the Apache license and managed with open governance and privacy policy. See upcoming Apache Events. If you discover any security vulnerabilities, please report them privately. Finally, thanks to the sponsors who donate to the Apache Foundation.

azaazato 2015/05/14

リンク

Treasure Dataを支える(中の人に必要な)技術 - myui's memo

Treasure Data（以下、TD）に入社して早2週間が経ちました。入社してから、平成14年度IPA未踏ユース第1期で同期でスーパークリエイタであった西田さんがTDで働いているのを知りました。MapReduceやHadoopが登場した頃、「Googleを支える技術」という技術書*1でお世話になったのですが、いつの間にかTreasure Dataを支える人になっていたんですね*2。 Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ) 作者: 西田圭介出版社/メーカー: 技術評論社発売日: 2008/03/28メディア: 単行本（ソフトカバー）購入: 47人クリック: 1,166回この商品を含むブログ (374件) を見る TDではおかげさまで結構なペースでお客さんが増えていて事業規模拡大に備えて幅広い職種で人材募集中です。今回はTDのバッ

azaazato 2015/04/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

Hadoopに関するazaazatoのブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス