タグ

Apacheに関するsatoshi_hiraishiのブックマーク (10)

  • 実践Apache Iceberg | 技術評論社

    概要 Apache Icebergは、ストレージ上のファイル群を抽象化し分散クエリエンジンで扱うためのオープンな「テーブルフォーマット」です。書では、データレイク構築に関する基的な考え方やIcebergを使うことのメリットといった基から、Sparkなどの各種分散クエリエンジンにおける実践的な活用方法、そして実運用のためのノウハウまで、豊富なハンズオンとともに解説。次世代のデータ基盤の構築・運用に関わるエンジニア必携の一冊です。 目次 [第1部]Apache Icebergの基 第1章:データレイクの課題とApache Iceberg Icebergというテーブルフォーマット データレイクのコンセプト データレイクの構成要素 Iceberg登場以前のデータレイクの課題 Icebergによるデータレイクの課題解決 データ基盤におけるIcebergの役割 Icebergを導入する際の注意

    実践Apache Iceberg | 技術評論社
  • 【入門】Apache Kafka とは?docker で起動から使い方までを解説

    Apache Kafka とは Apache Kafka とは、分散 Publish/Subscribe メッセージングシステムです。 Publish/Subscribe メッセージングシステムとは Publish/Subscribe メッセージングシステムの全体図 Publish/Subscribe メッセージングシステムとは、Publisher(送信側)から送信したメッセージ(順序付けられた文字列)を、非同期的に Subscriber(受信側)が受信可能なシステムです。 要はメッセージをソースからターゲットに集約するシステムです。 データ収集がビッグデータ分析の上でどの工程に位置するかについては以下の記事をご覧ください。

    【入門】Apache Kafka とは?docker で起動から使い方までを解説
  • Google認証機能を持つApache HTTP Webサーバを構築してみた | SIOS Tech. Lab

    こんにちは、新卒2年目になりました、伊藤です。 昨年は、Azure Static Web AppsでGoogle認証機能を持つアプリケーションを作成する方法を紹介しました。 https://tech-lab.sios.jp/archives/43562 今回は、既存のインフラでも利用されることの多いApache HTTP Webサーバを使い、Googleアカウントで認証できるWebサーバを構築する手順をご紹介します。 設定には、ApacheのOpenID Connect (OIDC)モジュールであるmod_auth_openidcを使用します。

    Google認証機能を持つApache HTTP Webサーバを構築してみた | SIOS Tech. Lab
  • BigQuery × Apache Iceberg で実現するデータレイクハウス構築

    はじめに こんにちは、クラウドエース データソリューション部の松です。 普段はデータ基盤や機械学習システムの構築を行なっており、Google Cloud 認定トレーナーとしてトレーニング提供もしています。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery と Apache Iceberg の統合による Google Cloud 上でのデータレイクハウス構築方法についてご紹介します。 この記事はこんな人にオススメ BigQuery と Apache I

    BigQuery × Apache Iceberg で実現するデータレイクハウス構築
  • Apache Icebergにおける同時実行制御の仕組みと注意点 - 流沙河鎮

    はじめに Icebergテーブルのアーキテクチャ Icebergの同時実行制御のコンセプト Icebergの書き込み処理の流れ 同時書き込み時のシナリオパターン データ競合チェック なぜデータ競合のチェックが必要か? 主要なオペレーションで実施されるバリデーション AppendFiles OverwriteFiles (Copy-on-Write 更新/削除) RowDelta (Merge-on-Read 更新/削除) RewriteFiles (REPLACE: コンパクション) バリデーションの種類 データパイプライン設計時の注意点 まとめと宣伝 おまけ(ソースコードベースの流れ) はじめに Apache Icebergテーブルは、テーブル単位、オペレーション単位のトランザクション分離レベルとしてserializableとsnapshotをサポートしています。(デフォルトはseria

    Apache Icebergにおける同時実行制御の仕組みと注意点 - 流沙河鎮
  • Apache Camel: Index

    Camel is an Open Source integration framework that empowers you to quickly and easily integrate various systems consuming or producing data. Get Started What is Camel?

  • Apache BeamでSlackのエクスポートデータをBigQueryに投入する - 詩と創作・思索のひろば

    同じことをEmbulkでやったネタはこちらです: SlackのログをBigQueryにインポートする(手動) - 詩と創作・思索のひろば Slackワークスペースの管理者であれば、ワークスペースのデータをエクスポートできる。このデータをBigQueryに投入したら面白いかもしれないので、Apache Beamの素振りがてらやってみた。 Apache Beamはデータ処理のパイプラインを記述するためのフレームワークで、Google Cloud DataflowやApache Sparkなどのランタイムに対応しているとのこと(Copilotくん調べ)。SDKもいつかの言語に対応していて、おそらく機能が豊富な順にJavaPythonGoTypeScriptなどがあるみたい。TypeScriptが使えると個人的には書き味がいちばんいいのだけど、使ってみたところあまり機能が揃っていないようだっ

    Apache BeamでSlackのエクスポートデータをBigQueryに投入する - 詩と創作・思索のひろば
  • メッセージングPF「Apache Pulsar」の使い方(入門編)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。システム統括部クラウドプラットフォーム部の水嶋と申します。私は現在、社内向けにキューイング・Pub-Sub・ストリーミングなどのメッセージングプラットフォームを提供するチームに所属しています。 このチームでは、メッセージングプラットフォームとしてOSS Apache Pulsar(以降、Pulsar)を利用しています。チームは数年間Pulsarを開発・運用しており、この経験からノウハウが蓄積されています。これらを公開し、皆さんにぜひPulsarについて興味を持っていただければと考えています。そこで、Pulsarの使い方、運用方法、ヤフーでの事例などをシリーズ記事として投稿していくことにいたしました。稿に限らず、今

    メッセージングPF「Apache Pulsar」の使い方(入門編)
  • Apache Kafka 超入門 - 赤帽エンジニアブログ

    こんにちは、ソリューションアーキテクトの蒸野(ムシノ)です。 今回は「AMQ Streams」のベースとなっている「Apache Kafka」の超概要を説明をしたいと思います。 Apache Kafka とは 2010年にLinkedInで開発され、2011年にLinkedInから公開されたオープンソースの分散メッセージングシステムです。 Apache Kafkaはストリームデータのために設計された分散システムであり、大量のログやイベントデータなどの大量のデータをハイスループット/低レイテンシで収集・配信することが目的で、スケールアウト、対障害性、分散データストリーム処理やイベントドリブンアプリケーションを可能にします。 Apache Kafka の公式ドキュメントでは次のように示されています。 Apache Kafka is an open-source distributed even

    Apache Kafka 超入門 - 赤帽エンジニアブログ
  • CDH (Hadoop) 入門 - MicroAd Developers Blog

    はじめに 初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。 配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。 はじめに 分散処理基盤 Hadoop / CDH とは Hadoop エコシステム データストレージ (HDFS) と リソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割 分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ

    CDH (Hadoop) 入門 - MicroAd Developers Blog
  • 1