並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 21 件 / 21件

新着順 人気順

hadoopの検索結果1 - 21 件 / 21件

  • 米Uber、1エクサバイト超のデータ量を持つ世界最大規模のHadoopシステムを、オンプレミスからGoogle Cloudへ移行すると発表

    米Uber、1エクサバイト超のデータ量を持つ世界最大規模のHadoopシステムを、オンプレミスからGoogle Cloudへ移行すると発表 米Uberは、オンプレミス上に構築した数万台ものサーバによる1エクサバイト超のデータ容量を持つ世界最大級のHadoopエコシステムを、Google Cloudへ移行すると発表しました。 UberはGoogle Cloudへの移行のメリットを次のように説明しています。 Modernizing with GCP will enable big gains in user productivity, engineering velocity, improved cost efficiency, access to new innovation, and expanded data governance. GCPによるシステムのモダナイズで、ユーザーの生産性、

      米Uber、1エクサバイト超のデータ量を持つ世界最大規模のHadoopシステムを、オンプレミスからGoogle Cloudへ移行すると発表
    • CDH (Hadoop) 入門 - MicroAd Developers Blog

      はじめに 初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。 配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。 はじめに 分散処理基盤 Hadoop / CDH とは Hadoop エコシステム データストレージ (HDFS) と リソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割 分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ

        CDH (Hadoop) 入門 - MicroAd Developers Blog
      • Apache Hadoop 3.3.1がリリースされました - Memo

        2021/6/15にApache Hadoop 3.3.1がリリースされたので、リリースしてからしばらく時間が経つけどまとめておきます。 Hadoop 3.3.1に対する個人的な所感 Hadoop 3.3.1はHadoop 3.3.0からおよそ1年後にリリースされました、1年も経っているので、普段のbug fix releaseでは考えられないほどの修正がされ、もはやHadoop 3.2.0とHadoop 3.3.0との差分よりもHadoop 3.3.0とHadoop 3.3.1との差分のほうが大きいのではないかと思っています。Hadoop CommonとHDFSを中心に、その大きな差分についてこれから紹介していこうと思います。 NameNodeLayoutVersionの更新 Hadoop 3.3.1では、なんとNameNodeLayoutVersionが上がっています。普通のbug f

          Apache Hadoop 3.3.1がリリースされました - Memo
        • よりセキュアなHadoopの作り方 〜 ApacheCon Asia 2021登壇報告

          HDFSのブロックデータ転送の暗号化 HDFSの実データに相当するブロックデータの転送に対する暗号化はRPC暗号化とはさらに別のパラメータで管理されています。 hdfs-siteの dfs.encrypt.data.transfer を true に、 dfs.encrypt.data.transfer.cipher.suites を AES/CTR/NoPadding にそれぞれ指定することで有効化します。 この設定を無停止で反映するにあたっては、転送の暗号化設定の反映済/未反映を判別する dfs.trustedchannel.resolver.class によるノードの動的な管理、場合によっては拡張による独自実装が必要となります。 HDFSクライアントおよびNameNode・DataNode間で dfs.encrypt.data.transfer の真偽が一致していない場合はブロックデ

            よりセキュアなHadoopの作り方 〜 ApacheCon Asia 2021登壇報告
          • 並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門(Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料)

            並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門(Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料)

            • 並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto

              並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ 2020年8月28日(金) 17:15 〜 18:00 OSSベースの分散処理基盤としてApache Hadoopが誕生して10余年が経ち、大規模並列分散処理の領域において、これまでに多種多様なソフトウェアが開発されてきました。 本セッションでは、それらのソフトウェアがどのような経緯で誕生し、どのように使われるのかをお話ししつつ、近年注目を集めているデータ分析を指向したストレージレイヤSWであるDelta Lakeについてもご紹介します。

                並列分散処理基盤のいま~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ - セミナープログラム - オープンソースカンファレンス2020 Online/Kyoto
              • 2020年のApache Hadoop振り返り - Memo

                Apache Hadoopについて、2020年にどんなことがあったのかざっくりと振り返りたいと思います。Advent Calendar枠です(大遅刻)。 Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020 - Qiita Apache Ozoneが分離 オブジェクトストレージを担当するOzoneはすでにHadoop本体のソースコードからは分離されていましたが、新規のTLP(Top-Level Project)としてスピンオフしました。2019年にApache SubmarineがTLPになったのを見て、Ozoneもいずれそうなると思っていたので個人的には特に驚きはないです。プロジェクトが分離すると具体的に何が起こるかというと、committerやPMCなどが別々になります(他にもあるけど

                  2020年のApache Hadoop振り返り - Memo
                • ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ

                  Kubernetes上にHadoopサンドボックス環境をコマンド一発で構築するツール、ZooKageをリリースしました。本記事では開発に至った経緯と基本的な使い方を紹介します。 「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020」にエントリーするつもりでいましたが、開発中に枠が埋まってしまったので過去の日付を埋める形で参加させていただきます。遅くなってすみません…… モチベーション Hadoopエコシステムは大量のコンポーネントから成り立っており、その混沌はしばしば動物園に例えられます。手軽に起動する手段が用意されているプロジェクトもありますが、それでもローカルマシンで満足な検証をするには困難を伴います。公私ともに様々なバージョンのHive/Hadoopやそれらへのパッチを検証すること

                    ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ
                  • Apache Software Foundation retires slew of Hadoop-related projects

                    Apache Software Foundation retires slew of Hadoop-related projects Retirements of 13 big data-related Apache projects -- including Sentry, Tajo and Falcon -- have been announced in 11 days. It looks like the idealistic days of Hadoop and big data are officially over. It's been no secret lately that Apache Hadoop, once the poster child of big data, is past its prime. But since April 1st, the Apache

                      Apache Software Foundation retires slew of Hadoop-related projects
                    • 数千rpsを処理する大規模システムの配信ログをHadoopで分析できるようにする 〜 ショッピングのレコメンドシステム改修

                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部でYahoo!ショッピングのレコメンドシステムを開発している山口です。 本記事では、システムの配信ログを大規模データの分散処理が可能な社内のApache Hadoop環境(以下Hadoop)に保存できるように、システム改修した取り組みについて紹介します。 今回改修したレコメンドシステムは、毎秒数千のリクエストを処理する大規模なシステムです。レコメンドシステムから直接Hadoop環境に大量のログを送れるようになったことで、配信情報を素早く、そして簡単にログとして保存できるようになり、日々レコメンドの機械学習モデル改善に役立っています。 Yahoo!ショッピングのレコメンドとは Yahoo!ショッピングで

                        数千rpsを処理する大規模システムの配信ログをHadoopで分析できるようにする 〜 ショッピングのレコメンドシステム改修
                      • 2021年のApache Hadoop振り返り - Memo

                        Calendar for Distributed computing (Apache Spark, Hadoop, Kafka, ...) | Advent Calendar 2021 - Qiita の12月13日の記事です。 昨年の記事 aajisaka.hatenablog.com さて、今年もApache Hadoopを振り返ろうと思います。 リリース数の減少 今年もリリースが少ない年でした。本記事を執筆している時点では1月に3.2.2、6月に3.3.1がリリースされただけです。現在3.3.2のrelease voteが行われており、うまく行けば3.3.2がリリースされるような気がします。また、3.2.3についてもrelease branchが切られており、release voteが近いうちに始まると思われます。ところで、2020年には新しいminor versionの3.3.0が

                          2021年のApache Hadoop振り返り - Memo
                        • ダウンタイムなしでHadoopクラスタを移行した時の話

                          こんにちは、Data Platform室の小野です。Data Platform室では、昨年のLINE DEVELOPER DAYでも発表があったように、大規模なHadoopクラスタを運用しています。 先日、分析基盤に特化したデータセンターのルームが構築され、ここへクラスタの移行作業を行いました。このクラスタは全社的に使われており、毎日10万個以上のジョブが走っています。そのため、クラスタを止めずに移行することが求められました。 この記事では、そのときどのようにHadoopクラスタを移行したのか、そしてどのような問題が起こったのかについて、ご紹介します。 今回は、以下の4つのコンポーネントに絞って、ご紹介します。 ResourceManager NameNode JournalNode Zookeeper 現在使用しているソースのバージョンについては、LINE独自でパッチをあてたり、いくつか

                            ダウンタイムなしでHadoopクラスタを移行した時の話
                          • Containerizing Apache Hadoop Infrastructure at Uber

                            You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more Introduction As Uber’s business grew, we scaled our Apache Hadoop (referred to as ‘Hadoop’ in this article) deployment to 21000+ hosts in 5 years, to support the various analytical and machine learning use cases. We built a team with varied expertise to address the chal

                              Containerizing Apache Hadoop Infrastructure at Uber
                            • Hadoop (Hive, Ambari など) が使う DB を Percona XtraDB Cluster & ProxySQL で冗長化してみた - GMOインターネットグループ グループ研究開発本部

                              2018.04.10 Hadoop (Hive, Ambari など) が使う DB を Percona XtraDB Cluster & ProxySQL で冗長化してみた こんにちは。次世代システム研究室のデータベース と Hadoop を担当している M.K. です。 最近 MySQL 系のデータベース (Percona Server / PXC) に関するブログを立て続けに書いていましたが、今回は Hadoop と MySQL 両方に関する内容について書きました。 前々回のブログ:InnoDB だけじゃない!MyRocks (MySQL + RocksDB) ストレージエンジンを試してみた 前回のブログ:MySQLの冗長化を試す!~Percona XtraDB Cluster & ProxySQL & Replication~ Hadoop を構築すると毎回頭を悩ますこととして、H

                              • Bigtop が提供するパッケージを使って Hadoop クラスタを構築する

                                本記事は, Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2020 19日目の記事です。 この記事では, Apache Bigtop (以下 Bigtop) が提供する deb や rpm 形式のパッケージを使って、 Hadoop クラスタを構築する方法を紹介します。 想定する環境 1台のマスターノードと複数台のワーカーノードが存在し、全台に CentOS 7 がインストールされていること ノード間で相互に名前解決が可能になっていること 説明を単純にするため, iptables や firewalld は無効化されていること Bigtop リポジトリの追加 まず最初に、パッケージマネージャ (今回は CentOS 7 なので yum) の設定に、Bigtop のリポジトリを追加します。 Bigt

                                • Multi-Raft: Apache Hadoop Ozoneの書き込みパフォーマンスを加速する

                                  2020/06/24 に公開された「Multi-Raft — Boost up write performance for Apache Hadoop-Ozone」の翻訳です。 関連リンク Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介 Apache Hadoop Ozone: オブジェクトストアの概要 Apache Hadoop Ozone — オブジェクトストアのアーキテクチャー Ozoneのベンチマーク: CDP用Clouderaの次世代ストレージ Apache Hadoop Ozone セキュリティ — 認証 この記事は、Li Cheng, Software Engineer, Tencent Inc.による寄稿です 本番環境で Hadoop-Ozone を利用するApache Hadoop Ozone は、ビッグデータプラットフ

                                    Multi-Raft: Apache Hadoop Ozoneの書き込みパフォーマンスを加速する
                                  • Apache Atlas – Data Governance and Metadata framework for Hadoop

                                    Apache Atlas – Data Governance and Metadata framework for Hadoop

                                    • Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka発表資料)

                                      Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka発表資料)

                                        Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka発表資料)
                                      • Scaling LinkedIn's Hadoop YARN cluster beyond 10,000 nodes

                                        Co-authors: Keqiu Hu, Jonathan Hung, Haibo Chen, and Sriram Rao At LinkedIn, we use Hadoop as our backbone for big data analytics and machine learning. With an exponentially growing data volume, and the company heavily investing in machine learning and data science, we have been doubling our cluster size year over year to match the compute workload growth. Our largest cluster now has ~10,000 nodes

                                          Scaling LinkedIn's Hadoop YARN cluster beyond 10,000 nodes
                                        • GitHub - HariSekhon/DevOps-Bash-tools: 1000+ DevOps Bash Scripts - AWS, GCP, Kubernetes, Docker, CI/CD, APIs, SQL, PostgreSQL, MySQL, Hive, Impala, Kafka, Hadoop, Jenkins, GitHub, GitLab, BitBucket, Azure DevOps, TeamCity, Spotify, MP3, LDAP, Code/Build L

                                          Scripts for many popular DevOps technologies, see Index below for more details Advanced configs for common tools like Git, vim, screen, tmux, PostgreSQL psql etc... CI configs for most major Continuous Integration products (see CI builds page) CI scripts for a drop-in framework of standard checks to run in all CI builds, CI detection, accounting for installation differences across CI environments,

                                            GitHub - HariSekhon/DevOps-Bash-tools: 1000+ DevOps Bash Scripts - AWS, GCP, Kubernetes, Docker, CI/CD, APIs, SQL, PostgreSQL, MySQL, Hive, Impala, Kafka, Hadoop, Jenkins, GitHub, GitLab, BitBucket, Azure DevOps, TeamCity, Spotify, MP3, LDAP, Code/Build L
                                          • 並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)

                                            並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)

                                            1