タイトル「HDFS」を検索 - はてなブックマーク

1 - 17 件 / 17件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

HDFSの検索結果1 - 17 件 / 17件

“超”大規模データを扱うからこそ直面した事象。HDFS Erasure Codingの不具合を解消するまで
- 22 users
- engineering.linecorp.com
- テクノロジー
- 2022/03/24
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「DEVDAY2021 アフターインタビュー」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「大規模なHDFS Erasure Codingにおける技術的課題」です。 LINEのData Platform室では、LINEのさまざまなサービスのデータをApache HDFS（以下、HDFS）に格納しています。HDFSクラスターに保存されているデータ量は、合計で数百ペタバイトと極めて膨大
Open sourcing Kube2Hadoop: Secure access to HDFS from Kubernetes
- 21 users
- www.linkedin.com
- テクノロジー
- 2020/06/11
Open Source Open sourcing Kube2Hadoop: Secure access to HDFS from Kubernetes Co-authors: Cong Gu, Abin Shahab, Chen Qiang, and Keqiu Hu Editor's note: This blog has been updated. LinkedIn AI has been traditionally Hadoop/YARN based, and we operate one of the world’s largest Hadoop data lakes, with over 4,500 users and 500PB of data. In the last few years, Kubernetes has also become very popular at
- hadoop
- kubernetes
- hdfs
- LinkedIn
- あとで読む
HDFS Erasure Codingを大規模本番環境で運用するには　LINEエンジニアによるトラブルシューティング
- 5 users
- logmi.jp
- テクノロジー
- 2020/12/14
LINEが定期的に開催する技術者向けミートアップ「LINE Developer Meetup」の68回目のテーマは「Big Data Platform」。LINEのサイトリライアビリティエンジニアである内田早俊氏が、Hadoop3にアップグレードした際に起きたErasure Codingのトラブルシューティングについて共有しました。関連資料はこちら。 2019年にクラスタをHadoop 3にアップグレード内田早俊氏（以下、内田）：LINEのData Platform室の内田です。本日は忙しい中ご参加いただき、ありがとうございます。 LINEでは10年近く大規模なHadoopクラスタを運用していますが、昨年（2019年）クラスタをHadoop 3にアップグレードしました。ディスク使用量を削減するためにHadoop 3で新しく追加されたHDFSのErasure Coding（EC）を、約1
HDFSをメジャーバージョンアップして新機能のRouter-based Federationを本番導入してみた
- 5 users
- techblog.yahoo.co.jp
- テクノロジー
- 2020/12/14
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、「Hadoop」黒帯（ヤフー内のスキル任命制度）の鯵坂（@ajis_ka）です。ヤフーでは、およそ2年間の調査・検証期間を経てヤフーで利用している本番環境のHDFS（Hadoop Distributed FileSystem）をHDP（Hortonworks Data Platform）2.6系（Apache Hadoop 2.7.x相当）からApache Hadoop 3.3.0にメジャーバージョンアップし、HDFSの新機能であるRouter-based Federation（RBF）を導入しました。本記事では、これまでの2年間で何をしてきたのかについて振り返っていきます。バージョンアップの経緯ヤフーでは、提
- Hadoop
HDFSやS3と互換性のあるオープンソースのクラウド向け分散ファイルシステム・「JuiceFS」
- 3 users
- kachibito.net
- テクノロジー
- 2023/02/09
JuiceFSはHDFSやS3と互換性のあるオープンソースのPOSIX準拠なクラウド向け分散ファイルシステム（Dfs）です。クラウドアプリの構築や移行、クロスジオやクロスクラウドでのファイル共有を容易にしてくてるとの事です。マルチクラウドやクロスクラウドなども対応のクラウド特化に設計、何千ものクライアントから読み書きが可能、データは暗号化され、圧縮されるようになっており、自動運転モデルの学習、レコメンデーションエンジン、次世代遺伝子（DNA）シーケンスなどのビッグデータの扱いに特化して構築されているそうで、数百億ファイルの管理をより簡単に、より高いパフォーマンスで行うことが可能だそうです。先日GoogleやMSでもAIに関する声明が出されて話題になりましたが、非常に多くのデータを扱うのが当たり前の社会に移行しており、今まで以上にマルチクラウドやクロスクラウドにも対応できるJuiceFS
ユーザーからの報告で判明したデータコンプラクション問題　LINEが取り組んだ、大規模なHDFS Erasure Codingの技術課題
- 3 users
- logmi.jp
- テクノロジー
- 2021/11/19
2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこでData Platform Software Engineerの内田氏が「大規模なHDFS Erasure Codingにおける技術的課題」というテーマで、HDFS Erasure Codingで起きたデータコラプションの問題と、その解決法について共有しました。 HDFSのErasure Codingでインフラコストの削減に取り組むLINE 内田早俊氏：それでは始めます。こんにちは。LINEのData Engineering Center、Data Platform室に所属している内田です。最初に自己紹介から始めたいと思います。私は2018年にLINEに入社して以降、Hadoopを中心にデータプラットフォーム
Hadoopのバージョン混用は可能?　HDP 2.6.4 とコミュニティ版 Hadoop 3.2.1 におけるHDFSの互換性調査結果
- 3 users
- techblog.yahoo.co.jp
- テクノロジー
- 2019/12/06
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog (English translation is available here) ヤフーで Hadoop の運用・開発をしている李燮鳴です。私たちのチームでは Hadoop 3.2.1 に含まれる Router Based Federation (RBF) で Hadoop のスケーラビリティ問題の解決を試みています。この記事では RBF を導入する背景と Hadoop 3.2.1 と既存の実行系の互換性を紹介します。背景および目的 Hadoopクラスタ@ヤフーヤフーでは、自社が提供している多種多様なサービスのログを分析してサービスの改善に役立てるため、Hadoop クラスタを複数運用しています。ソフトウェアスタックでは、HD
AWS Snowball Edge を使用して HDFS ファイルを Amazon S3 データレイクに移行する | Amazon Web Services
- 3 users
- aws.amazon.com
- テクノロジー
- 2019/11/01
AWS Snowball Edge を活用することを決定したら、AWS Snowball Edge の開始方法: 最初のジョブドキュメントを使用して、最初のジョブを注文します。このガイドでは、最初のジョブを作成し、Snowball Edge デバイスを配送先住所に配送する手順を説明します。ローカルネットワークへの接続ドキュメントを使用して、AWS Snowball Edge をローカルネットワークに接続します。Snowball Edge を使用したデータ移行のベストプラクティスの記事は、ネットワーク要件に関するガイダンスを示します。理想的には、このローカルネットワーク接続は 10 Gbps 以上のスループットと低レイテンシーです。デバイスをインターネットに接続する必要はありません。移行手順以下の手順では、AWS Snowball Edge でステージングマシンを使用して HDFS フ
- aws
HDFSの現状と今後 (その1) - Qiita
- 2 users
- qiita.com/ajis_ka_old
- テクノロジー
- 2019/12/14
まず、Apache Hadoop 3.0.0リリースおめでとうございます! 公式の記事: https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces26 ここ最近の大きめのHDFSの機能について、いくつか語ってみたいと思います 3.0.0でリリースされた機能 Erasure Coding Router based federation (2.9.0にもbackportされた) 3.1.0に入ることが確定した機能 (trunkにマージ済) Tiered storage 3.1.0に入るかわからない機能 (trunkにマージ前) Ozone: Object store for HDFS Erasure Coding JIRA: https://issues.apache.org/jira/
Optimizing HDFS with DataNode Local Cache for High-Density HDD Adoption
- 2 users
- www.uber.com
- テクノロジー
- 2023/05/25
Based on the above observation, implementing a cache becomes an intuitive approach to reduce the I/O workload on HDD disks and improve performance. A 4TB SSD should be able to store ~10,000 blocks based on the average block size in hot clusters. Therefore a DataNode local cache built on top of the SSD drive should be able to effectively decrease the I/O workload on HDD. In this blog post, we prese
- hadoop
HDFS + Apache Spark をインストールし、Javaでテキスト検索アプリを実行してみた – 株式会社ライトコード
- 2 users
- rightcode.co.jp
- テクノロジー
- 2022/05/02
Apache Spark を HDFS 上で稼働させて、テキスト検索アプリを実行しようこのビッグデータの時代、膨大なデータに対する高効率かつハイスピードのデータ分析エンジンが不可欠となっています。そこで登場したのが、「Apache Spark」です。「Apache Spark」のウェブサイトによると、Hadoop の MapReduce より、Spark の方が100倍も速いとのこと。【Apache Spark】 https://spark.apache.org/ それでは、Spark とは、どのようなソフトウェアなのでしょうか。 Apache Spark とは？Spark のウェブサイトでは、「Apache Spark™ is a unified analytics engine for large-scale data processing.」と定義されていました。簡単に翻訳
Amazon EMR で Amazon S3 から HDFS にデータをコピーする
- 1 user
- repost.aws
- 世の中
- 2019/11/09
簡単な説明 S3DistCp を使用して、Amazon S3 と Amazon EMR クラスター間でデータをコピーします。S3DistCp は、デフォルトで Amazon EMR クラスターにインストールされます。S3DistCp を呼び出すには、起動時またはクラスターの実行後にステップとして追加します。解決方法 AWS コマンドラインインターフェイス (AWS CLI) を使用して、実行中のクラスターに S3DistCp ステップを追加するには、「クラスターに S3DistCp をステップとして追加する」を参照してください。注: AWS CLI コマンドの実行時にエラーが発生した場合は、AWS CLI の最新バージョンを使用していることを確認してください。コンソールを使用して S3DistCp ステップを追加するには、次のようにします: 1. Amazon EMR コンソー
HDFS と Cloud Storage の間のデータ転送の検証 | Cloud アーキテクチャセンター | Google Cloud
- 1 user
- cloud.google.com
- テクノロジー
- 2020/08/24
デジタルトランスフォーメーションを加速お客様がデジタルトランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。
DynamoDB と HDFS 間のデータをコピー - Amazon DynamoDB
- 1 user
- docs.aws.amazon.com
- テクノロジー
- 2022/01/12
翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。 DynamoDB と HDFS 間のデータをコピー DynamoDB テーブルにあるデータであれば、Hive を使用して Hadoop Distributed File System (HDFS) にコピーすることができます。 DynamoDB からのデータを必要とする MapReduce ジョブを実行している場合などに、この操作を行います。DynamoDB から HDFS にデータをコピーする際には、Amazon EMR クラスターで使用可能なすべてのノードを並行して使用しながら、Hadoop がそのデータの処理を行います。MapReduce ジョブの完了時、その結果を HDFSからDDBに書き込むことができます。次の例では、Hive が、ここに示す HDFS
Hadoopトラブルの“真犯人”、「HDFS」を使わずに済む代替手段とは
- 1 user
- techtarget.itmedia.co.jp
- テクノロジー
- 2024/01/06
関連キーワード Hadoop | Apache | データセンター | IAサーバ | 運用管理 | ネットワーク | サーバ | ストレージ Apache Hadoopの公式Wepページ《クリックで拡大》大量データを複数のマシンに分散して処理できるオープンソースのプラットフォーム「Apache Hadoop」のユーザー企業は通常、複数の汎用（はんよう）サーバで並列処理するクラスタを独自に構築する。各サーバの内蔵ストレージを使用し、6～12台のディスクを「JBOD構成」（複数のディスクを論理的にまとめて1つのディスクに見せる構成）にするのが一般的だ。 Hadoopクラスタは、1つのデータを分割して複数のサーバに分散する「シェアードナッシング」アーキテクチャとして知られている。それは各サーバが独立して処理をすることによって、クラスタ内の全処理が並列に動くことに起因する。データのやりとりは、
所属していないクラスタに対してDispCpやhdfs dfsを使う場合のTips - やっさんメモ
- 1 user
- yassan.hatenablog.jp
- テクノロジー
- 2020/12/11
この記事は Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020 の11日目の記事です。 qiita.com クラスタ間でHDFSファイルを移動したいというのは割とよくある話です。そこでHDFSファイルを大量に移動する際は、DistCpを使うことになります。ただ、移動元も移動先にも所属していないクライアントから通常DistCpは使えません（クラスタの設定情報がないので）。設定をどうにかして渡せば、多分出来るだろうなぁと思いつつも「まぁ移動先のクラスタクライアントにSSHしたらいいか。」で後回しにしてましたが、自分のPCからDocker使ってやりたいなぁって事で調べました。 DistCpそのものについては、以下の最高の記事があるのでそこを参照下さい。 shiumachi.hatenab
AWS DataSync で Hadoop Distributed File Systems (HDFS)および AWS ストレージサービス間のデータのコピーが可能に
- 1 user
- aws.amazon.com
- テクノロジー
- 2021/11/08
AWS DataSync で、Hadoop Distributed File Systems (HDFS) および Amazon S3、Amazon Elastic File System (EFS) 、または Amazon FSx for Windows File Server 間でデータの転送ができるようになりました。DataSync を使用して、Hadoop クラスターの HDFS から AWS ストレージにファイルやフォルダをすばやく、また簡単かつ安全に移行できます。また、DataSync を使用して、ビジネスの継続性維持のために Hadoop クラスターのデータを AWS にレプリケートし、AWS にデータをコピーしてデータレイクに格納できます。また、クラスターおよび AWS 間でデータを転送し、分析や処理を行えます。 AWS DataSync は、インターネットまたは AWS
- aws