並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 17 件 / 17件

新着順 人気順

HDFSの検索結果1 - 17 件 / 17件

  • “超”大規模データを扱うからこそ直面した事象。HDFS Erasure Codingの不具合を解消するまで

    LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「DEVDAY2021 アフターインタビュー」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「大規模なHDFS Erasure Codingにおける技術的課題」です。 LINEのData Platform室では、LINEのさまざまなサービスのデータをApache HDFS(以下、HDFS)に格納しています。HDFSクラスターに保存されているデータ量は、合計で数百ペタバイトと極めて膨大

      “超”大規模データを扱うからこそ直面した事象。HDFS Erasure Codingの不具合を解消するまで
    • Open sourcing Kube2Hadoop: Secure access to HDFS from Kubernetes

      Open Source Open sourcing Kube2Hadoop: Secure access to HDFS from Kubernetes Co-authors: Cong Gu, Abin Shahab, Chen Qiang, and Keqiu Hu Editor's note: This blog has been updated. LinkedIn AI has been traditionally Hadoop/YARN based, and we operate one of the world’s largest Hadoop data lakes, with over 4,500 users and 500PB of data. In the last few years, Kubernetes has also become very popular at

        Open sourcing Kube2Hadoop: Secure access to HDFS from Kubernetes
      • HDFS Erasure Codingを大規模本番環境で運用するには LINEエンジニアによるトラブルシューティング

        LINEが定期的に開催する技術者向けミートアップ「LINE Developer Meetup」の68回目のテーマは「Big Data Platform」。LINEのサイトリライアビリティエンジニアである内田早俊氏が、Hadoop3にアップグレードした際に起きたErasure Codingのトラブルシューティングについて共有しました。 関連資料はこちら。 2019年にクラスタをHadoop 3にアップグレード 内田早俊氏(以下、内田):LINEのData Platform室の内田です。本日は忙しい中ご参加いただき、ありがとうございます。 LINEでは10年近く大規模なHadoopクラスタを運用していますが、昨年(2019年)クラスタをHadoop 3にアップグレードしました。ディスク使用量を削減するためにHadoop 3で新しく追加されたHDFSのErasure Coding(EC)を、約1

          HDFS Erasure Codingを大規模本番環境で運用するには LINEエンジニアによるトラブルシューティング
        • HDFSをメジャーバージョンアップして新機能のRouter-based Federationを本番導入してみた

          ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、「Hadoop」黒帯(ヤフー内のスキル任命制度)の鯵坂(@ajis_ka)です。 ヤフーでは、およそ2年間の調査・検証期間を経てヤフーで利用している本番環境のHDFS(Hadoop Distributed FileSystem)をHDP(Hortonworks Data Platform)2.6系(Apache Hadoop 2.7.x相当)からApache Hadoop 3.3.0にメジャーバージョンアップし、HDFSの新機能であるRouter-based Federation(RBF)を導入しました。 本記事では、これまでの2年間で何をしてきたのかについて振り返っていきます。 バージョンアップの経緯 ヤフーでは、提

            HDFSをメジャーバージョンアップして新機能のRouter-based Federationを本番導入してみた
          • HDFSやS3と互換性のあるオープンソースのクラウド向け分散ファイルシステム・「JuiceFS」

            JuiceFSはHDFSやS3と互換性のあるオープンソースのPOSIX準拠なクラウド向け分散ファイルシステム(Dfs)です。クラウドアプリの構築や移行、クロスジオやクロスクラウドでのファイル共有を容易にしてくてるとの事です。 マルチクラウドやクロスクラウドなども対応のクラウド特化に設計、何千ものクライアントから読み書きが可能、データは暗号化され、圧縮されるようになっており、自動運転モデルの学習、レコメンデーションエンジン、次世代遺伝子(DNA)シーケンスなどのビッグデータの扱いに特化して構築されているそうで、数百億ファイルの管理をより簡単に、より高いパフォーマンスで行うことが可能だそうです。 先日GoogleやMSでもAIに関する声明が出されて話題になりましたが、非常に多くのデータを扱うのが当たり前の社会に移行しており、今まで以上にマルチクラウドやクロスクラウドにも対応できるJuiceFS

              HDFSやS3と互換性のあるオープンソースのクラウド向け分散ファイルシステム・「JuiceFS」
            • ユーザーからの報告で判明したデータコンプラクション問題 LINEが取り組んだ、大規模なHDFS Erasure Codingの技術課題

              2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこでData Platform Software Engineerの内田氏が「大規模なHDFS Erasure Codingにおける技術的課題」というテーマで、HDFS Erasure Codingで起きたデータコラプションの問題と、その解決法について共有しました。 HDFSのErasure Codingでインフラコストの削減に取り組むLINE 内田早俊氏:それでは始めます。こんにちは。LINEのData Engineering Center、Data Platform室に所属している内田です。最初に自己紹介から始めたいと思います。私は2018年にLINEに入社して以降、Hadoopを中心にデータプラットフォーム

                ユーザーからの報告で判明したデータコンプラクション問題 LINEが取り組んだ、大規模なHDFS Erasure Codingの技術課題
              • Hadoopのバージョン混用は可能? HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果

                ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog (English translation is available here) ヤフーで Hadoop の運用・開発をしている李 燮鳴です。私たちのチームでは Hadoop 3.2.1 に含まれる Router Based Federation (RBF) で Hadoop のスケーラビリティ問題の解決を試みています。この記事では RBF を導入する背景と Hadoop 3.2.1 と既存の実行系の互換性を紹介します。 背景および目的 Hadoopクラスタ@ヤフー ヤフーでは、自社が提供している多種多様なサービスのログを分析してサービスの改善に役立てるため、Hadoop クラスタを複数運用しています。ソフトウェアスタックでは、HD

                  Hadoopのバージョン混用は可能? HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果 
                • AWS Snowball Edge を使用して HDFS ファイルを Amazon S3 データレイクに移行する | Amazon Web Services

                  AWS Snowball Edge を活用することを決定したら、AWS Snowball Edge の開始方法: 最初のジョブドキュメントを使用して、最初のジョブを注文します。このガイドでは、最初のジョブを作成し、Snowball Edge デバイスを配送先住所に配送する手順を説明します。 ローカルネットワークへの接続ドキュメントを使用して、AWS Snowball Edge をローカルネットワークに接続します。Snowball Edge を使用したデータ移行のベストプラクティスの記事は、ネットワーク要件に関するガイダンスを示します。理想的には、このローカルネットワーク接続は 10 Gbps 以上のスループットと低レイテンシーです。デバイスをインターネットに接続する必要はありません。 移行手順 以下の手順では、AWS Snowball Edge でステージングマシンを使用して HDFS フ

                    AWS Snowball Edge を使用して HDFS ファイルを Amazon S3 データレイクに移行する | Amazon Web Services
                  • HDFSの現状と今後 (その1) - Qiita

                    まず、Apache Hadoop 3.0.0リリースおめでとうございます! 公式の記事: https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces26 ここ最近の大きめのHDFSの機能について、いくつか語ってみたいと思います 3.0.0でリリースされた機能 Erasure Coding Router based federation (2.9.0にもbackportされた) 3.1.0に入ることが確定した機能 (trunkにマージ済) Tiered storage 3.1.0に入るかわからない機能 (trunkにマージ前) Ozone: Object store for HDFS Erasure Coding JIRA: https://issues.apache.org/jira/

                      HDFSの現状と今後 (その1) - Qiita
                    • Optimizing HDFS with DataNode Local Cache for High-Density HDD Adoption

                      Based on the above observation, implementing a cache becomes an intuitive approach to reduce the I/O workload on HDD disks and improve performance. A 4TB SSD should be able to store ~10,000 blocks based on the average block size in hot clusters. Therefore a DataNode local cache built on top of the SSD drive should be able to effectively decrease the I/O workload on HDD. In this blog post, we prese

                        Optimizing HDFS with DataNode Local Cache for High-Density HDD Adoption
                      • HDFS + Apache Spark をインストールし、Javaでテキスト検索アプリを実行してみた – 株式会社ライトコード

                        Apache Spark を HDFS 上で稼働させて、テキスト検索アプリを実行しよう このビッグデータの時代、膨大なデータに対する高効率かつハイスピードのデータ分析エンジンが不可欠となっています。 そこで登場したのが、「Apache Spark」です。 「Apache Spark」のウェブサイトによると、Hadoop の MapReduce より、Spark の方が100倍も速いとのこと。 【Apache Spark】 https://spark.apache.org/ それでは、Spark とは、どのようなソフトウェアなのでしょうか。 Apache Spark とは?Spark のウェブサイトでは、「Apache Spark™ is a unified analytics engine for large-scale data processing.」と定義されていました。 簡単に翻訳

                          HDFS + Apache Spark をインストールし、Javaでテキスト検索アプリを実行してみた – 株式会社ライトコード
                        • Amazon EMR で Amazon S3 から HDFS にデータをコピーする

                          簡単な説明 S3DistCp を使用して、Amazon S3 と Amazon EMR クラスター間でデータをコピーします。S3DistCp は、デフォルトで Amazon EMR クラスターにインストールされます。S3DistCp を呼び出すには、起動時またはクラスターの実行後にステップとして追加します。 解決方法 AWS コマンドラインインターフェイス (AWS CLI) を使用して、実行中のクラスターに S3DistCp ステップを追加するには、「クラスターに S3DistCp をステップとして追加する」を参照してください。 注: AWS CLI コマンドの実行時にエラーが発生した場合は、AWS CLI の最新バージョンを使用していることを確認してください。 コンソールを使用して S3DistCp ステップを追加するには、次のようにします: 1.    Amazon EMR コンソー

                            Amazon EMR で Amazon S3 から HDFS にデータをコピーする
                          • HDFS と Cloud Storage の間のデータ転送の検証  |  Cloud アーキテクチャ センター  |  Google Cloud

                            デジタル トランスフォーメーションを加速 お客様がデジタル トランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。

                              HDFS と Cloud Storage の間のデータ転送の検証  |  Cloud アーキテクチャ センター  |  Google Cloud
                            • DynamoDB と HDFS 間のデータをコピー - Amazon DynamoDB

                              翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。 DynamoDB と HDFS 間のデータをコピー DynamoDB テーブルにあるデータであれば、Hive を使用して Hadoop Distributed File System (HDFS) にコピーすることができます。 DynamoDB からのデータを必要とする MapReduce ジョブを実行している場合などに、この操作を行います。DynamoDB から HDFS にデータをコピーする際には、Amazon EMR クラスターで使用可能なすべてのノードを並行して使用しながら、Hadoop がそのデータの処理を行います。MapReduce ジョブの完了時、その結果を HDFSからDDBに書き込むことができます。 次の例では、Hive が、ここに示す HDFS

                              • Hadoopトラブルの“真犯人”、「HDFS」を使わずに済む代替手段とは

                                関連キーワード Hadoop | Apache | データセンター | IAサーバ | 運用管理 | ネットワーク | サーバ | ストレージ Apache Hadoopの公式Wepページ《クリックで拡大》 大量データを複数のマシンに分散して処理できるオープンソースのプラットフォーム「Apache Hadoop」のユーザー企業は通常、複数の汎用(はんよう)サーバで並列処理するクラスタを独自に構築する。各サーバの内蔵ストレージを使用し、6~12台のディスクを「JBOD構成」(複数のディスクを論理的にまとめて1つのディスクに見せる構成)にするのが一般的だ。 Hadoopクラスタは、1つのデータを分割して複数のサーバに分散する「シェアードナッシング」アーキテクチャとして知られている。それは各サーバが独立して処理をすることによって、クラスタ内の全処理が並列に動くことに起因する。データのやりとりは、

                                  Hadoopトラブルの“真犯人”、「HDFS」を使わずに済む代替手段とは
                                • 所属していないクラスタに対してDispCpやhdfs dfsを使う場合のTips - やっさんメモ

                                  この記事は Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020 の11日目の記事です。 qiita.com クラスタ間でHDFSファイルを移動したいというのは割とよくある話です。 そこでHDFSファイルを大量に移動する際は、DistCpを使うことになります。 ただ、移動元も移動先にも所属していないクライアントから通常DistCpは使えません(クラスタの設定情報がないので)。 設定をどうにかして渡せば、多分出来るだろうなぁと思いつつも「まぁ移動先のクラスタクライアントにSSHしたらいいか。」で後回しにしてましたが、自分のPCからDocker使ってやりたいなぁって事で調べました。 DistCpそのものについては、以下の最高の記事があるのでそこを参照下さい。 shiumachi.hatenab

                                    所属していないクラスタに対してDispCpやhdfs dfsを使う場合のTips - やっさんメモ
                                  • AWS DataSync で Hadoop Distributed File Systems (HDFS)および AWS ストレージサービス間のデータのコピーが可能に

                                    AWS DataSync で、Hadoop Distributed File Systems (HDFS) および Amazon S3、Amazon Elastic File System (EFS) 、または Amazon FSx for Windows File Server 間でデータの転送ができるようになりました。DataSync を使用して、Hadoop クラスターの HDFS から AWS ストレージにファイルやフォルダをすばやく、また簡単かつ安全に移行できます。また、DataSync を使用して、ビジネスの継続性維持のために Hadoop クラスターのデータを AWS にレプリケートし、AWS にデータをコピーしてデータレイクに格納できます。また、クラスターおよび AWS 間でデータを転送し、分析や処理を行えます。 AWS DataSync は、インターネットまたは AWS

                                      AWS DataSync で Hadoop Distributed File Systems (HDFS)および AWS ストレージサービス間のデータのコピーが可能に
                                    1