並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 16 件 / 16件

新着順 人気順

hdfsの検索結果1 - 16 件 / 16件

  • 分散システムについて語らせてくれ

    3. Copyright©2016 NTT Corp. All Rights Reserved. 3 • よくわかってない人でもCloudera Managerをダウンロードして1時間後 には巨大なHadoopクラスタを立ち上げてYARN, HDFS, Spark, HBase などで遊ぶ事ができる。 • 世の中では分散システムが必要以上に喧伝されている • 「コンピュータ1台よりも2台の方が高速」という直感に対して反論するの は意外と難しい • あなたのそのシステム、本当に分散システムじゃないとダメ? 分散自体を目的にしない事 4. Copyright©2016 NTT Corp. All Rights Reserved. 4 L1 キャッシュ参照 分岐予測ミス L2 キャッシュ参照 Mutexのlock/unlock メモリ参照 1KBをZIP圧縮 1Gbpsで2KB送る メモリから1

      分散システムについて語らせてくれ
    • 内製オブジェクトストレージサーバ「b3」でコスト最適化を目指した話 - Mirrativ Tech Blog

      インフラストリーミングチームの近藤 (@udzura) です。今回は、ミラティブで内製しているオブジェクトストレージサーバ「b3」の紹介記事を書きたいと思います。 今回の記事は、6月にGopher Talkというイベントで発表した「Go製ミドルウェアを実践投入するにあたりやったこと」をベースに、内容を詳細にしたり直近の開発状況に合わせて更新したものです。一部内容はこの発表と重複していますがご了承ください。 オブジェクトストレージサーバを内製した背景 1. 大量オブジェクトの操作や増え続ける転送量に対応したい 2. 一定期間しかファイルの保持をしない 3. オンメモリ/SSD/HDDを組み合わせたチューニングがしたい オブジェクトストレージb3の特徴 S3 互換の基本的なAPIを実装 LSM-Tree index+WALなDB/マージ操作に対応 I/O 帯域を制限可能 非同期レプリケーション

        内製オブジェクトストレージサーバ「b3」でコスト最適化を目指した話 - Mirrativ Tech Blog
      • Apache Iceberg とは何か - 流沙河鎮

        はじめに 概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴 同時書き込み時の整合性担保 読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類 時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化 ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest f

          Apache Iceberg とは何か - 流沙河鎮
        • データエンジニアリングの基礎

          データエンジニアリングとは、組織内外で日々生成されるデータを蓄積し分析するためのデータシステムを構築し維持管理することであり、急速に注目を集めている分野です。近年ではデータエンジニアリングを支えるツールやクラウドサービスが成熟し、組織へのデータ利活用の導入は容易になりましたが、明確な指針のないままデータシステムの構築を進めると費用と時間を無駄に費やすことになります。本書は「データエンジニアリングライフサイクル」を軸にデータシステムの要件を整理することで、組織の「データ成熟度」に応じたデータシステム構築の指針を与えます。またデータエンジニアの立ち位置を明確にし、組織内でデータエンジニアが果たすべき役割を示します。 まえがき Ⅰ部 データエンジニアリングの基礎と構成要素 1章 データエンジニアリング概説 1.1 データエンジニアリングとは何か 1.1.1 データエンジニアリングの定義 1.1.

            データエンジニアリングの基礎
          • 【2024年】AWS全サービスまとめ | DevelopersIO

            こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。 こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個 です。 まとめるにあ

              【2024年】AWS全サービスまとめ | DevelopersIO
            • 無料でGoogleドライブ・FTPなど70以上のストレージサービスに対応しているファイル転送・同期アプリ「Rclone」を使ってみたレビュー

              さまざまなクラウドサービスを使っている場合、それぞれのシステムに応じたファイルの転送手段を準備するのは面倒なもの。「Rclone」は70種類以上のストレージサービスに対応しており1つのアプリでほぼ全てのストレージサービスとファイルのやりとりをできるとのことなので、実際に使ってみました。 Rclone https://rclone.org/ RcloneはUNIXコマンドで言うところの「rsync(同期)」「cp(コピー)」「mv(移動)」「mount(マウント)」「ls(ファイル一覧表示)」「ncdu(ディスク使用量確認)」「tree(ディレクトリ構造をツリー表示)」「rm(削除)」「cat(ファイルの中身表示)」の動作が行えるとのこと。 また、「--dry-run」に対応しており事前にコマンドの結果をプレビューすることで重要なファイルを削除してしまうというミスを減らすことが可能となってい

                無料でGoogleドライブ・FTPなど70以上のストレージサービスに対応しているファイル転送・同期アプリ「Rclone」を使ってみたレビュー
              • 更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて - Repro Tech Blog

                Reproでチーフアーキテクトを担当しているjoker1007です。 今回、社内のデータストレージの将来的な選択肢の一つとしてApache Hudiというテーブルデータフォーマットについて調査と実データでの検証を実施しました。 この記事では2回に分けて、そもそもhudiってどんなフォーマットなのか、どういうデータで検証してどんな結果が得られたのかについて紹介します。 ということで第1回は、hudiそのものについての紹介をしていきます。 この記事はhudi-0.14.1を利用して検証した時のものです。また社内向けに書いた資料の手直しであるため丁寧語でないことに御留意ください。 Hudiとは何か、その目的 hudiは更新可能なデータレイクを構築するためのテーブルフォーマットである。 ストリーミングによるデータインサートや、upsert, deleteをサポートする。 通常、データ分析に向いたデ

                  更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて - Repro Tech Blog
                • 米Uber、1エクサバイト超のデータ量を持つ世界最大規模のHadoopシステムを、オンプレミスからGoogle Cloudへ移行すると発表

                  米Uber、1エクサバイト超のデータ量を持つ世界最大規模のHadoopシステムを、オンプレミスからGoogle Cloudへ移行すると発表 米Uberは、オンプレミス上に構築した数万台ものサーバによる1エクサバイト超のデータ容量を持つ世界最大級のHadoopエコシステムを、Google Cloudへ移行すると発表しました。 UberはGoogle Cloudへの移行のメリットを次のように説明しています。 Modernizing with GCP will enable big gains in user productivity, engineering velocity, improved cost efficiency, access to new innovation, and expanded data governance. GCPによるシステムのモダナイズで、ユーザーの生産性、

                    米Uber、1エクサバイト超のデータ量を持つ世界最大規模のHadoopシステムを、オンプレミスからGoogle Cloudへ移行すると発表
                  • 【翻訳】Bilibiliは如何にしてApache IcebergでData Lakehouseを構築したか? - 流沙河鎮

                    この記事は著者であるRui Li氏の許可を得て翻訳したものです。 Original article: How Bilibili Builds OLAP Data Lakehouse with Apache Iceberg | by Rui Li | Medium. 文中の注釈は、訳者(@_Bassari)が読者の理解を助けるために付け加えました。 はじめに Bilibiliは中国最大級の動画共有サイトです。私たちはBilibiliのbig data infrastructureチームとして、2021年にApache Iceberg1を使用したlake-warehouseプラットフォームを構築するためのプロジェクトを開始しました。このプラットフォームは、主にOLAP分析シナリオに焦点を当てています。 このプロジェクトの前は、当社のdata warehouseはApache Hive2をベース

                      【翻訳】Bilibiliは如何にしてApache IcebergでData Lakehouseを構築したか? - 流沙河鎮
                    • TrinoとIcebergでログ基盤の構築 | さくらのナレッジ

                      はじめに 2023年10月5日(木)にTrino / Presto Conference Tokyo 2023 (Online)が開催されました。本記事はイベントにて発表した内容をご紹介します。 社内の監視サーバについて さくらインターネットでは現在社内の各チームでPrometheus, Elastic Stack, Lokiなどの監視基盤を個別に運用しています。この状態では運用負荷が大きいためSRE室でログ基盤を提供することにより、運用の手間を減らすことや運用レベルを底上げしてコスト削減ができるのではないかと検討しています。既存のOSSでの運用も行ってみたものの、マルチテナント提供・ライセンス体系の問題など課題があったことからTrinoとIcebergでの開発を始めました。 Icebergとは Icebergはビッグデータ・データレイクを構築するためのストレージフォーマットです。データの

                        TrinoとIcebergでログ基盤の構築 | さくらのナレッジ
                      • Nutanix Cloudバイブル(日本語版) - NutanixBible.jp

                        Nutanix Cloud バイブル Copyright (c) 2024: The Nutanix Cloud Bible and NutanixBible.com, 2024. 本サイトの著者または所有者から書面による許可を受けることなしに、本著作物を無断で使用すること、またはコピーすることを固く禁じます。 本著作物を引用、または本著作物に対するリンクを設定することは許可されますが、 NutanixおよびNutanixBible.comの著作であることを明記し、かつ原著の内容を適切かつ明確に示すよう、該当箇所を提示することを前提とします。 日本語版に関して、誤植や不自然な翻訳など、お気づきの点がございましたら こちらのフォームよりお知らせください。 他言語版はこちらからご覧ください。 For other languages, click the flag icon. 다른 언어는 국기

                        • モダンデータスタック カテゴリ紹介 #3 『Data Modelling and Transformation(データモデリング&データ変換)』 – Modern Data Stack Categories Overview Advent Calendar 2023 | DevelopersIO

                          モダンデータスタック カテゴリ紹介 #3 『Data Modelling and Transformation(データモデリング&データ変換)』 – Modern Data Stack Categories Overview Advent Calendar 2023 当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 3日目のエントリです。 Modern Data Stack Categories Overviewのカレンダー | Advent Calendar 2023 - Qiita Modern Data Stack Categories Overview Advent Calendar 2023 の記事一覧 | DevelopersIO データ分析、データを扱う世界では昨今『モダンデータスタック(Mo

                            モダンデータスタック カテゴリ紹介 #3 『Data Modelling and Transformation(データモデリング&データ変換)』 – Modern Data Stack Categories Overview Advent Calendar 2023 | DevelopersIO
                          • Data Engineer: Interview Questions

                            Here is a list of common data engineering interview questions, with answers, which you may encounter for an interview as a data engineer. The questions during an interview for a data engineer aim to check not only the grasp of data systems and architectures but also a keen understanding of your technical prowess and problem-solving skills. This article lists essential interview questions and answe

                              Data Engineer: Interview Questions
                            • Dive deep into security management: The Data on EKS Platform | Amazon Web Services

                              AWS Big Data Blog Dive deep into security management: The Data on EKS Platform The construction of big data applications based on open source software has become increasingly uncomplicated since the advent of projects like Data on EKS, an open source project from AWS to provide blueprints for building data and machine learning (ML) applications on Amazon Elastic Kubernetes Service (Amazon EKS). In

                                Dive deep into security management: The Data on EKS Platform | Amazon Web Services
                              • Icebergテーブルの内部構造について - やっさんメモ

                                この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の1日目の記事です。 qiita.com qiita.com 今年もアドカレの季節がやってきました🎄 今回は、ここ数年でデータ界隈で盛り上がっているOpen Table FormatのIcebergテーブルについて書いていきます。 Hiveテーブルとの比較とか、Icebergテーブルの特徴(Time Travel や Rollback、Hidden Partitioning、Full Schema Evolution等)については、あっちこっちで大分こすられてます。 そこで、Icebergテーブルの特徴がなぜ実現できているのかについて知るために、内部構造がどうな

                                  Icebergテーブルの内部構造について - やっさんメモ
                                • データエンジニアリングの基礎を読みました - 肉球でキーボード

                                  「データエンジニアリングの基礎」を読んだので、感想・各章の内容についてまとめます www.oreilly.co.jp 全体を通しての感想 原本は Fundamentals of Data Engineering で本書は日本語訳となります。 筆者のJoe Reis氏とMatt Housley氏はデータエンジニアリングのコンサルタントを行っていて、業界経験が長いお二人です。 データエンジニア界隈は急速に変化する業界と本文中で書かれています。 業界変化の中で「変わらないもの」を選択し、今後数年間役に立つコンセプトをまとめたものと本書を説明しています。 上記の狙い通り、本書はツールや特定技術ソリューションの話題は避け、データエンジニアリングの背後にある普遍的な技術概念の説明に徹しています。 SQL実行の内部の処理や、磁気ディスクドライブの物理挙動にまで踏み込んでいて、データエンジニアリングの基礎

                                    データエンジニアリングの基礎を読みました - 肉球でキーボード
                                  1