サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
blog.cloudera.co.jp
2020/06/24 に公開された「Multi-Raft — Boost up write performance for Apache Hadoop-Ozone」の翻訳です。 関連リンク Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介 Apache Hadoop Ozone: オブジェクトストアの概要 Apache Hadoop Ozone — オブジェクトストアのアーキテクチャー Ozoneのベンチマーク: CDP用Clouderaの次世代ストレージ Apache Hadoop Ozone セキュリティ — 認証 この記事は、Li Cheng, Software Engineer, Tencent Inc.による寄稿です 本番環境で Hadoop-Ozone を利用するApache Hadoop Ozone は、ビッグデータプラットフ
Apache Hadoop Ozoneは分散型のキーバリューストアであり、小さなファイルから大きなファイルまでの両方を管理することができます。Ozoneは、小さなファイルに関するHDFSのスケールの制限に対処するために設計されました。HDFSは大きなファイルを格納するために設計されており、HDFSでの推奨ファイル数は NameNode で3億個で、この制限を超えてのスケールはできません。 スケーラビリティを達成するためのOzoneの主な特徴は以下の通りです。 Ozoneの名前空間はローカルのRocksDBインスタンスに書き込まれ、パフォーマンス(全てをメモリに保持する)とスケーラビリティ(あまり使われていないメタデータをディスクに永続化)の間のバランスを、簡単に調整することができます。名前空間とブロックスペースの管理は、2つの異なるデーモン、OzoneManager(OM)とStorage
著者: Arpit Agarwal 本ブログ記事は「Introducing Apache Hadoop Ozone: An Object Store for Apache Hadoop」(2018/10/08投稿)の日本語翻訳記事です。また、原文の投稿はClouderaとHortonworks合併前に記述されたものであり、いくつかのリンク、リソースにはアクセスできない場合があります。 *訳注: 元記事公開時点では 0.2.1-alpha 版が最新でしたが、日本語翻訳時(2020/3/9)は0.4.1-alpha版が公開されています。 1. はじめにApache Hadoop 分散ファイルシステム(HDFS)はビッグデータ用のデファクトファイルシステムになっています。現実世界では、HDFSがどれほどスケーラブルで堅牢であるのかを忘れがちです。私たちのお客様は数千ノードのクラスターを実行してい
原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 本稿は2019/5/9に公開されたブログ記事の翻訳です。 「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム(HDFS)は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo
今週は、Strata Data Conference のために多くの Cloudera ユーザーがニューヨークに集結する、私たちにとってビッグな一週間です。Cloudera や数多くのパートナーからデータ管理、機械学習、分析に関するエキサイティングな発表が満載となるこの1週間が、昨夜開催された第6回目の Data Impact Awards 授賞式で幕を開けました。この賞は、複雑なデータを実行可能な洞察に変換し、幅広い業界におけるテクノロジー、科学、健康、ライフスタイル、コミュニティへの多大なインパクトを示した組織を表彰します。 100以上の応募の中から9つのカテゴリーと6つの業界を代表する今年の11人の受賞者が、ミッション、技術的進歩、およびインパクトを加速させる優れたイノベーションを示しました。受賞者は、企業幹部、業界アナリスト、教授、メディアの専門家を含む25のリーダーからなるパネル
この記事は、Tom Smith Research Analyst & Business Stratgist、DZone、IncのWebサイトに掲載され、許可を得て掲載しています。 Cloudera チーフアーキテクトDoug Cutting氏が、企業のデータによるビジネス改善を支援する、Clouderaにおけるオープンソースソフトウェアの活用について語った。 Clouderaはオープンソースソフトウェアで何を行なっていますか? 私たちが行なっていることすべてです。 Clouderaはオープンソース企業です。私たちの開発努力のほとんどは、オープンソースソフトウェアの開発と強化に費やされています。当社のプラットフォーム(CDH)は完全にオープンソースのスタックです。ほぼすべてのコンポーネントはApache Software Foundationで開発されています。私たちのプラットフォームは、多
EUの市民や居住者の個人情報を収集する際には、EU一般データ保護規則(GDPR: General Data Protection Regulation)に従う必要があります。GDPRの目的は、消費者に対する情報保護を強化すると共に、EU内におけるデータセキュリティルールの共通化を図ることにあります。欧州議会は、この制度を2016年4月27日に承認しました。これによりGDPRは、2018年5月25日に施行される予定となっています。 GDPRに関する多くの説明は、この新たなルールが消費者の個人情報(PII: Personally Identifiable Information)の収集や管理に与える影響に注目したものになっています。しかし、これらに限らず、GDPRは企業のデータサイエンスのあり方にも大きな影響を与えます。このブログではこの内容を取り上げます。 説明を始める前に1つ注意すべきこと
Cloudera DirectorはClouderaが提供するクラウドへのCDHのプロビジョニングツールです。Cloudera Directorを使うと、AWS、Azure、GCPに簡単にCDHのクラスタを構築することができます。この記事では、Cloudera Directorをローカルマシンに導入するメリットと方法を紹介します。 Cloudera Directorは何ができるのかCloudera Directorは、異なるクラウド環境でも統一されたインターフェースでクラスタ管理をできるようにするためのものです。CDHクラスタを管理するCloudera Managerよりもう一段上のレイヤーで、インスタンスの立ち上げからクラスタの構築・デプロイ・停止、設定ファイルでのクラスタ構成の管理などができます。 https://www.slideshare.net/savu.andrei/intro
2017/7/13 | Fred Koopmans 原文: http://blog.cloudera.com/blog/2017/07/cloudera-enterprise-5-12-is-now-available/ Clouderaは、Cloudera Enterprise 5.12がGA(一般に利用可能) になったことを発表しました 。今回のリリースにはクラウド環境での実行のための機能拡張(広範なADLSのサポートと改善されたAWSスポットインスタンスのサポートを含む)、データサイエンスと分析ワークロードの両方の使いやすさと生産性の向上、ワークロード全体にわたるパフォーマンスの向上とセルフサービスのパフォーマンス管理が含まれています。 いつものように、多くの品質向上、バグ修正、およびスタック全体のその他の改善もあります。 これらは今回の改善の一部です。(詳細は リリースノートを参照
元記事: http://vision.cloudera.com/announcing-workload-analytics-for-cloudera-altus/ 元記事著者: Matthew Schumpert Cloudera Altus を発表したとき、われわれがクラウド上のビッグデータワークロードを再考するために掲げた3つの指針を紹介しました。シンプルさ、費用対効果、そして Cloudera が提供するエンタープライズグレードのプラットフォームをそのまま維持することです。そして、お客様のデータエンジニアリングのワークロード (クラウドの弾力性から最大の利益を得ている) を移行することが私たちにとっての第一歩であることを早い段階で決定しました。しかしながら、そこには大きなギャップが存在することもわかっていました。そのギャップというのは、スムーズな移行や、どうすれば最大にコスト削減でき
原文: http://blog.cloudera.com/blog/2017/05/hdfs-maintenance-state/ はじめに:OSの更新、セキュリティパッチの適用、修正プログラムなどのシステムのメンテナンス作業は、どのデータセンターでも日常的な作業です。 このようなメンテナンス作業を行っている最中のDataNodeは、数分から数時間の間オフラインになる可能性があります。 設計上、Apache HadoopのHDFSはDataNodeのダウンに対応できますが、同時に複数のDataNodeで調整されていないメンテナンス操作があれば、一時的にデータ可用性の問題を引き起こす可能性があります。 HDFSは現在、計画された保守作業を実行するために次の機能をサポートしています: ローリングアップグレードデコミッションメンテナンスステート (CDH 5.11以降)ローリングアップグレードの
元記事: http://blog.cloudera.com/blog/2017/05/data-engineering-with-cloudera-altus/ 元記事著者: Philip Langdale 現代のビジネスでは、より膨大な量のデータや一連のデータソースを扱うため、分析、可視化、レポート作成を可能にするデータエンジニアリングの重要性がますます高まっています。 パブリッククラウドでのデータエンジニアリングワークロードでは、オンプレミスの導入とは異なる運用モデルが可能となります。ここでの主な要素は、クラウド環境内に別個のストレージレイヤが存在することと、オンデマンドでコンピューティングリソースをプロビジョニングする能力 (例: それぞれ Amazon S3 と EC2) です。このような環境では、データサイロを作り出すことなくデータストレージを計算リソースから切り離すことが可能に
原文記事: http://vision.cloudera.com/simplifying-big-data-in-the-cloud/ 原文著者: Jennifer Wu 昨今のパブリッククラウド採用の加速に伴い、大規模なデータワークロードのためにクラウドに目を向けるお客様が増えるにつれ、我々はどうすればクラウド内で Cloudera の機能を最も効果的に提供できるのか、あらためて検討しました。 お客様は、絶え間なく成長するビジネスデータを効率的かつ費用対効果の高い方法で分析するために、クラウドが提供する俊敏性、規模、使いやすさをどのように活用すればいいのか知りたがっていました。さらに、お客様は Cloudera プラットフォームのエンタープライズ機能と信頼性もそのまま利用したいと考えていたのです。 そこで我々はクラウドを全社的な優先事項とし、Cloudera スタック全体の相互運用性を維
サンプルによるMeCabを使ったword cloudCloudera Data Science Workbench(CDSW)は、データサイエンティストに、Python、R、およびScalaを使用してエンタープライズデータにセキュアにアクセスできるようにします。 前回の記事(日本語)では、お気に入りのPythonライブラリをPySparkでApache Sparkクラスタで使用する方法を紹介しました。 Pythonの世界では、データサイエンティストはC/C ++などのネイティブ拡張を含むXGBoostなどのPythonライブラリを使用したいことがよくあります。 この記事では、この問題を解決してC拡張を使ってcondaレシピを作成する方法を示します。 レシピ作成のサンプルリポジトリはこちら、MeCabの分散実行のサンプルはこちら。 condaパッケージの詳細については、公式ドキュメントを参照
原文: http://blog.cloudera.com/blog/2016/10/how-to-use-the-new-hdfs-intra-datanode-disk-balancer-in-apache-hadoop/ 現在、HDFSにはノードでデータを移動するための包括的なストレージ容量管理アプローチが含まれています (CDH 5.8.2以降)。 HDFSでは、DataNodeはhdfs-site.xmlのdfs.datanode.data.dirを用いて指定できるローカルのファイルシステムディレクトリにデータブロックを分配します。HDFSの用語でボリュームと呼ばれる各ディレクトリは、一般的なインストールでは別のデバイス(たとえば、別のHDDやSSD)上にあります。 新しいブロックをHDFSに書き込む際、DataNodeはボリューム選択ポリシー(volume-choosing po
投稿日: 2014/01/07新年明けましておめでとうございます。皆様のおかげで今年も無事に新しい年を迎えることができました。 さて、新年最初の記事は、昨年暮れに CSO (Chief Strategy Officer) である Mike Olson (@mikeolson) が公開したブログポスト、Impala v Hive を紹介したいと思います。2014 年も Cloudera をよろしくお願い致します。 3日間でImpalaマスターに! 弊社は一年以上前に Cloudera Impala を公開しました。このローンチは弊社にとって好ましいものであり、弊社のプラットフォームはいくつかの点で良好なものとなりました。つまりそれは弊社のお客様にとって重要なことでした。また、弊社は従来は勝つことができなかったビジネスで勝利をおさめることができるようになりました。以前の製品はインタラクティブな
原文: https://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 訳注:2015/9/23に公開されたブログの翻訳です。ブログ公開当時とは異なる点もありますので、最新情報はHDFS-7285、HDFS-8031などをご確認ください。 HDFSの新機能であるイレイジャーコーディング(Erasure Coding)は、レプリケーション(複製)と比較して、同等の永続性の保証を維持しながらストレージのオーバーヘッドを約50%削減することができます。 このブログでは、Erasure Codingがどのように動作するかを説明します。 デフォルトでHDFSは各ブロックを3回複製します。 レプリケーションは、ほとんどの障害シナリオを回避するための、シンプルで堅牢な冗長性の形式を提
原著者:Sergey Ermolin and Jiao (Jennie) Wang (Intel Corp), Vartika Singh (Cloudera) 原文:BigDL on CDH and Cloudera Data Science Workbench 訳:有賀 はじめに企業がディープラーニングフレームワークに基づいた最新のソリューションを実装しようとすると、スケーラブルで分散した方法で既存のハードウェアインフラストラクチャに展開する必要があります。 この必要性を認識して、ClouderaとIntelのBig Data Technologiesエンジニアリングチームは、Cloudera Data Science Workbenchの最新リリースで、IntelのBigDLというApache Spark向けディープラーニングライブラリを共同で詳しく説明します。 この共同作業により、
Cloudera Data Science Workbenchはデータサイエンティストに自由を与えます。プロジェクトごとにコンテナを立ち上げることで、他のプロジェクトと独立した環境を使うことができ、root権限なしに好きなライブラリを自由に使うことが出来ます。 Sparkクラスタ上で好みのパッケージを使うのは、JavaやScalaなどのJVMの世界では簡単です。アプリケーションがパッケージを管理するため、fat JARやuber JARと呼ばれる必要なパッケージを一つにまとめたJARファイルを作ることで、アプリケーション毎に異なるパッケージをSparkクラスタに配布し利用することができます。 一方で、多くのデータサイエンティストはScalaよりPythonを使うことが多いです。しかし、PythonのライブラリをSparkクラスタに配布して実行するのは、root権限を持ってクラスタの設定変更
原著者:Vartika Singh 原文:Deep Learning Frameworks on CDH and Cloudera Data Science Workbench 訳:有賀 「ビッグデータ」の台頭により、機械学習はずっと簡単になりました。少量のデータだけを観察した後に新しいデータを一般化する、統計的推定の負担が大幅に軽減されたためです。典型的な機械学習タスクのゴールは、観測データを説明する変動要因を分離するように特徴を設計することです。 しかし、多くの実世界の人工知能アプリケーションの難しさの主な原因は、変動要因の多くが観察できるすべてのデータに影響を与えることです。 ディープラーニングは、より単純な表現を導入することによって、表現学習を通してこの中心的な問題を解決します。 企業や研究者は、現在および将来のテクノロジーの進化に影響を及ぼすために、ますます多くのデータを分析して
原文:http://blog.cloudera.com/blog/2017/04/apache-impala-leads-traditional-analytic-database-april-25th/ 原著者: Greg Rahn, Mostafa Mokhtar TPC-DSベースの性能ベンチマークは、従来の分析データベース(Greenplum)と比べ、特に複数ユーザによる同時ワークロードにおいて Impalaの方が優れていることを示しています。 また、今までと同様に、Hive LLAP、Spark SQL、PrestoのようなSQL-on-Hadoopエンジンと比べ、大幅に性能が勝っていることを証明しています。 この1年は、Apache Impala (incubating) にとって最大の変化がありました。チームは、延々と拡大し続ける利用規模への対応と安定性の向上に取り組んできた
原文:Apache Kudu Read & Write Paths 原著者:James Kinley, David Alves 翻訳:佐藤 貴彦 分析系と業務系のアクセスパターンは大きく異なっており、これまでのHadoopエコシステムには両方に対応できる単一のストレージエンジンがありませんでした。結果、その両方に対応できる機能を提供するために、エンジニアは複数のシステムをつなぎ合わせて、複雑なアーキテクチャを実装しなければなりませんでした。一方で、HDFS上の更新不可(immutable)なデータは優れた分析パフォーマンスを提供し、Apache HBaseの更新可能(mutable)なデータは業務系のワークロードに最適です。Apache Kuduはこのギャップに橋渡しをするものです。 Kuduのアーキテクチャーは、非常に優れた分析性能を提供でき、それと同時に裏で挿入や更新からなる連続処理を
原文:Cloudera Data Science Workbench: Self-Service Data Science for the Enterprise 原著者:Matt Brandwein, Tristan Zajonc 翻訳:有賀 私たちは機械学習の黄金時代に突入しています。それはすべてデータに関するものです。 データの量が増え、計算とストレージのコストが低下し続けることで、世界最大の問題を解決する機会はこれまでになく増えました。 当社のお客様は、すでに高度な機械学習を使用して自動運転車を構築し、病院での新生児のケアを改善し、金融犯罪の防止や、サイバー攻撃の脅威と戦っています。 しかしこれは始まりに過ぎません。 Clouderaでは、お客様がデータを活用することで実現できる限界を広げるためのご支援を行い続けています。 本日、エンタープライズにおいても高速で使いやすく、セキュアな
このブログは「Sizing NameNode Heap Memory」ドキュメントの翻訳記事です。 各ワークロードには、ユニークにバイトを配分するプロファイルがあります。一部のワークロードではヒープメモリとガベージコレクションにデフォルトのJVMの設定を使用することができますが、他のワークロードではチューニングが必要です。このトピックでは、動的なヒープの設定によってボトルネックが発生した場合のNameNodeのJVMのサイジングに関する指針を提供します。 すべてのHadoopのプロセスは Java Virtual Machine(JVM)上で実行されます。JVMの数はデプロイモードによって異なります。 ローカル (またはスタンドアロン)モード − デーモンは存在せず、すべてが単一のJVM上で実行されます。疑似分散モード −(NameNodeデーモンなどの)各デーモンは、単一のホスト上の独自
You can find (just about) anything on Medium — apparently even a page that doesn’t exist. Maybe these stories about finding what you didn’t know you were looking for will take you somewhere new?
著者/Author: Zbigniew Branowski (Cern) 原文/Original:http://blog.cloudera.com/blog/2017/02/performance-comparing-of-different-file-formats-and-storage-engines-in-hadoop-file-system/ Zbigniew Baranowskiはデータベースシステムの専門家であり、CERNでセントラルデータベースとHadoopベースのサービスを提供、サポートしているグループのメンバーです。 このブログはもともとCERNの「Databases at CERN」ブログで公開されており、CERNの許可を得てここで公開されています。 トピックこの記事では、Apache Hadoopエコシステムで利用可能ないくつかの一般的なデータフォーマットとストレー
RStudio社が提供しているsparklyrを使うと、Sparkクラスターに格納されている大規模なデータに対して、普段お使いのR言語から簡単に処理をすることが出来ます。 sparklyrとは、大規模なデータに対してもRを使い容易に操作できるパッケージです。Rユーザーに人気のdplyrと呼ばれるパッケージのバックエンドとして動き、Sparkを直接意識することなく大規模なデータを扱うことが出来ます。Clouderaでは、Pythonのデータ分析用のライブラリpandasからImpalaを使ってデータ分析をしやすくしたIbisというパッケージを開発していますが、これのR+Spark版と言っても過言ではないでしょう。 sparklyrに興味をもったなら、公式ドキュメントから始めるといいでしょう。 もしくは、Cloudera DirectorでSparkクラスターを簡単につくり、それとsparkl
このブログ記事は、US Immigration policyの翻訳です。 原著者: Mike Olson (Cloudera 最高戦略責任者、創業者) テクノロジー産業は、米国と世界経済を推進するのに重要な役割を占めています。 テクノロジーはイノベーションによって推進されています。 何十年にもわたって、シリコンバレーは、世界そのものと我々の生活を変えていくための、新しいアイデア、新しい企業、新しい製品を生み出す強固な基盤となっていきました。 移民は、そうしたエネルギーを生み出す原動力となります。 Clouderaにおいて、私達は幸運にも、世界中の頭脳明晰で熱意のある人々を魅了することができました。 彼らはClouderaで、同じような立場の人とともに学び、ともに働いているのです。 彼らは学生として、社員として、そして創業者としてやってくるのです。 彼らは多様な文化や考え方を持っています。
次のページ
このページを最初にブックマークしてみませんか?
『Cloudera Japan Official Blog』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く