並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 14 件 / 14件

新着順 人気順

hdfsの検索結果1 - 14 件 / 14件

  • 内製オブジェクトストレージサーバ「b3」でコスト最適化を目指した話 - Mirrativ Tech Blog

    インフラストリーミングチームの近藤 (@udzura) です。今回は、ミラティブで内製しているオブジェクトストレージサーバ「b3」の紹介記事を書きたいと思います。 今回の記事は、6月にGopher Talkというイベントで発表した「Go製ミドルウェアを実践投入するにあたりやったこと」をベースに、内容を詳細にしたり直近の開発状況に合わせて更新したものです。一部内容はこの発表と重複していますがご了承ください。 オブジェクトストレージサーバを内製した背景 1. 大量オブジェクトの操作や増え続ける転送量に対応したい 2. 一定期間しかファイルの保持をしない 3. オンメモリ/SSD/HDDを組み合わせたチューニングがしたい オブジェクトストレージb3の特徴 S3 互換の基本的なAPIを実装 LSM-Tree index+WALなDB/マージ操作に対応 I/O 帯域を制限可能 非同期レプリケーション

      内製オブジェクトストレージサーバ「b3」でコスト最適化を目指した話 - Mirrativ Tech Blog
    • Apache Iceberg とは何か - 流沙河鎮

      はじめに 概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴 同時書き込み時の整合性担保 読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類 時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化 ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest f

        Apache Iceberg とは何か - 流沙河鎮
      • データエンジニアリングの基礎

        データエンジニアリングとは、組織内外で日々生成されるデータを蓄積し分析するためのデータシステムを構築し維持管理することであり、急速に注目を集めている分野です。近年ではデータエンジニアリングを支えるツールやクラウドサービスが成熟し、組織へのデータ利活用の導入は容易になりましたが、明確な指針のないままデータシステムの構築を進めると費用と時間を無駄に費やすことになります。本書は「データエンジニアリングライフサイクル」を軸にデータシステムの要件を整理することで、組織の「データ成熟度」に応じたデータシステム構築の指針を与えます。またデータエンジニアの立ち位置を明確にし、組織内でデータエンジニアが果たすべき役割を示します。 まえがき Ⅰ部 データエンジニアリングの基礎と構成要素 1章 データエンジニアリング概説 1.1 データエンジニアリングとは何か 1.1.1 データエンジニアリングの定義 1.1.

          データエンジニアリングの基礎
        • 【2024年】AWS全サービスまとめ | DevelopersIO

          こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。 こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個 です。 まとめるにあ

            【2024年】AWS全サービスまとめ | DevelopersIO
          • 無料でGoogleドライブ・FTPなど70以上のストレージサービスに対応しているファイル転送・同期アプリ「Rclone」を使ってみたレビュー

            さまざまなクラウドサービスを使っている場合、それぞれのシステムに応じたファイルの転送手段を準備するのは面倒なもの。「Rclone」は70種類以上のストレージサービスに対応しており1つのアプリでほぼ全てのストレージサービスとファイルのやりとりをできるとのことなので、実際に使ってみました。 Rclone https://rclone.org/ RcloneはUNIXコマンドで言うところの「rsync(同期)」「cp(コピー)」「mv(移動)」「mount(マウント)」「ls(ファイル一覧表示)」「ncdu(ディスク使用量確認)」「tree(ディレクトリ構造をツリー表示)」「rm(削除)」「cat(ファイルの中身表示)」の動作が行えるとのこと。 また、「--dry-run」に対応しており事前にコマンドの結果をプレビューすることで重要なファイルを削除してしまうというミスを減らすことが可能となってい

              無料でGoogleドライブ・FTPなど70以上のストレージサービスに対応しているファイル転送・同期アプリ「Rclone」を使ってみたレビュー
            • 米Uber、1エクサバイト超のデータ量を持つ世界最大規模のHadoopシステムを、オンプレミスからGoogle Cloudへ移行すると発表

              米Uber、1エクサバイト超のデータ量を持つ世界最大規模のHadoopシステムを、オンプレミスからGoogle Cloudへ移行すると発表 米Uberは、オンプレミス上に構築した数万台ものサーバによる1エクサバイト超のデータ容量を持つ世界最大級のHadoopエコシステムを、Google Cloudへ移行すると発表しました。 UberはGoogle Cloudへの移行のメリットを次のように説明しています。 Modernizing with GCP will enable big gains in user productivity, engineering velocity, improved cost efficiency, access to new innovation, and expanded data governance. GCPによるシステムのモダナイズで、ユーザーの生産性、

                米Uber、1エクサバイト超のデータ量を持つ世界最大規模のHadoopシステムを、オンプレミスからGoogle Cloudへ移行すると発表
              • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

                はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

                  データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
                • 【翻訳】Bilibiliは如何にしてApache IcebergでData Lakehouseを構築したか? - 流沙河鎮

                  この記事は著者であるRui Li氏の許可を得て翻訳したものです。 Original article: How Bilibili Builds OLAP Data Lakehouse with Apache Iceberg | by Rui Li | Medium. 文中の注釈は、訳者(@_Bassari)が読者の理解を助けるために付け加えました。 はじめに Bilibiliは中国最大級の動画共有サイトです。私たちはBilibiliのbig data infrastructureチームとして、2021年にApache Iceberg1を使用したlake-warehouseプラットフォームを構築するためのプロジェクトを開始しました。このプラットフォームは、主にOLAP分析シナリオに焦点を当てています。 このプロジェクトの前は、当社のdata warehouseはApache Hive2をベース

                    【翻訳】Bilibiliは如何にしてApache IcebergでData Lakehouseを構築したか? - 流沙河鎮
                  • TrinoとIcebergでログ基盤の構築 | さくらのナレッジ

                    はじめに 2023年10月5日(木)にTrino / Presto Conference Tokyo 2023 (Online)が開催されました。本記事はイベントにて発表した内容をご紹介します。 社内の監視サーバについて さくらインターネットでは現在社内の各チームでPrometheus, Elastic Stack, Lokiなどの監視基盤を個別に運用しています。この状態では運用負荷が大きいためSRE室でログ基盤を提供することにより、運用の手間を減らすことや運用レベルを底上げしてコスト削減ができるのではないかと検討しています。既存のOSSでの運用も行ってみたものの、マルチテナント提供・ライセンス体系の問題など課題があったことからTrinoとIcebergでの開発を始めました。 Icebergとは Icebergはビッグデータ・データレイクを構築するためのストレージフォーマットです。データの

                      TrinoとIcebergでログ基盤の構築 | さくらのナレッジ
                    • モダンデータスタック カテゴリ紹介 #3 『Data Modelling and Transformation(データモデリング&データ変換)』 – Modern Data Stack Categories Overview Advent Calendar 2023 | DevelopersIO

                      当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 3日目のエントリです。 Modern Data Stack Categories Overviewのカレンダー | Advent Calendar 2023 - Qiita Modern Data Stack Categories Overview Advent Calendar 2023 の記事一覧 | DevelopersIO データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス構成が大きな注目を浴びています。データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューションを指す言葉です。クラスメソッドとしてもこのモダンデータスタック(Modern

                        モダンデータスタック カテゴリ紹介 #3 『Data Modelling and Transformation(データモデリング&データ変換)』 – Modern Data Stack Categories Overview Advent Calendar 2023 | DevelopersIO
                      • データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog

                        マイクロアドでサーバサイドエンジニアをしているタカギです。 今回はデータ基盤移行とPySparkについての話になります。 目次 目次 データ基盤移行の概要 データ基盤移行後のバッチ処理 Spark Connectを導入する Spark Connectの問題点 まとめ 補足 データ基盤移行の概要 諸々の事情1により、データ基盤をHadoopから移行することになりました。 現在のデータ基盤でのETL/ELT処理はHadoopエコシステム(Hive、HDFSなど)を中心に構成されています。 ※Hadoopについてはこちらの記事が参考になります。 これらをKubernetes、PySpark、S3互換ストレージ(詳細未確定)を組み合わせたデータ基盤へ移行する計画です。 すぐにすべてを移行するのは難しく、完全移行までは新旧並行稼働がそれなりの期間続く予定です。 今回の記事では、PySparkを使用し

                          データ基盤移行計画とPySpark(Spark Connect)の検証 - MicroAd Developers Blog
                        • Data Engineer: Interview Questions

                          Here is a list of common data engineering interview questions, with answers, which you may encounter for an interview as a data engineer. The questions during an interview for a data engineer aim to check not only the grasp of data systems and architectures but also a keen understanding of your technical prowess and problem-solving skills. This article lists essential interview questions and answe

                            Data Engineer: Interview Questions
                          • Icebergテーブルの内部構造について - やっさんメモ

                            この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の1日目の記事です。 qiita.com qiita.com 今年もアドカレの季節がやってきました🎄 今回は、ここ数年でデータ界隈で盛り上がっているOpen Table FormatのIcebergテーブルについて書いていきます。 Hiveテーブルとの比較とか、Icebergテーブルの特徴(Time Travel や Rollback、Hidden Partitioning、Full Schema Evolution等)については、あっちこっちで大分こすられてます。 そこで、Icebergテーブルの特徴がなぜ実現できているのかについて知るために、内部構造がどうな

                              Icebergテーブルの内部構造について - やっさんメモ
                            • Dive deep into security management: The Data on EKS Platform | Amazon Web Services

                              AWS Big Data Blog Dive deep into security management: The Data on EKS Platform The construction of big data applications based on open source software has become increasingly uncomplicated since the advent of projects like Data on EKS, an open source project from AWS to provide blueprints for building data and machine learning (ML) applications on Amazon Elastic Kubernetes Service (Amazon EKS). In

                                Dive deep into security management: The Data on EKS Platform | Amazon Web Services
                              1