[B! Apache] satoshi_hiraishiのブックマーク

実践Apache Iceberg | 技術評論社

概要 Apache Icebergは、ストレージ上のファイル群を抽象化し分散クエリエンジンで扱うためのオープンな「テーブルフォーマット」です。本書では、データレイク構築に関する基本的な考え方やIcebergを使うことのメリットといった基本から、Sparkなどの各種分散クエリエンジンにおける実践的な活用方法、そして実運用のためのノウハウまで、豊富なハンズオンとともに解説。次世代のデータ基盤の構築・運用に関わるエンジニア必携の一冊です。目次［第1部］Apache Icebergの基本第1章：データレイクの課題とApache Iceberg Icebergというテーブルフォーマットデータレイクのコンセプトデータレイクの構成要素 Iceberg登場以前のデータレイクの課題 Icebergによるデータレイクの課題解決データ基盤におけるIcebergの役割 Icebergを導入する際の注意

satoshi_hiraishi 2025/07/30

リンク

【入門】Apache Kafka とは？docker で起動から使い方までを解説

Apache Kafka とは Apache Kafka とは、分散 Publish/Subscribe メッセージングシステムです。 Publish/Subscribe メッセージングシステムとは Publish/Subscribe メッセージングシステムの全体図 Publish/Subscribe メッセージングシステムとは、Publisher（送信側）から送信したメッセージ（順序付けられた文字列）を、非同期的に Subscriber（受信側）が受信可能なシステムです。要はメッセージをソースからターゲットに集約するシステムです。データ収集がビッグデータ分析の上でどの工程に位置するかについては以下の記事をご覧ください。

satoshi_hiraishi 2025/06/19

リンク

Google認証機能を持つApache HTTP Webサーバを構築してみた | SIOS Tech. Lab

こんにちは、新卒2年目になりました、伊藤です。昨年は、Azure Static Web AppsでGoogle認証機能を持つアプリケーションを作成する方法を紹介しました。 https://tech-lab.sios.jp/archives/43562 今回は、既存のインフラでも利用されることの多いApache HTTP Webサーバを使い、Googleアカウントで認証できるWebサーバを構築する手順をご紹介します。設定には、ApacheのOpenID Connect (OIDC)モジュールであるmod_auth_openidcを使用します。

satoshi_hiraishi 2025/05/17

リンク

BigQuery × Apache Iceberg で実現するデータレイクハウス構築

はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段はデータ基盤や機械学習システムの構築を行なっており、Google Cloud 認定トレーナーとしてトレーニング提供もしています。クラウドエースデータソリューション部についてクラウドエースのIT エンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、BigQuery と Apache Iceberg の統合による Google Cloud 上でのデータレイクハウス構築方法についてご紹介します。この記事はこんな人にオススメ BigQuery と Apache I

satoshi_hiraishi 2025/02/10

リンク

Apache Icebergにおける同時実行制御の仕組みと注意点 - 流沙河鎮

はじめに Icebergテーブルのアーキテクチャ Icebergの同時実行制御のコンセプト Icebergの書き込み処理の流れ同時書き込み時のシナリオパターンデータ競合チェックなぜデータ競合のチェックが必要か？主要なオペレーションで実施されるバリデーション AppendFiles OverwriteFiles (Copy-on-Write 更新/削除) RowDelta (Merge-on-Read 更新/削除) RewriteFiles (REPLACE: コンパクション) バリデーションの種類データパイプライン設計時の注意点まとめと宣伝おまけ(ソースコードベースの流れ）はじめに Apache Icebergテーブルは、テーブル単位、オペレーション単位のトランザクション分離レベルとしてserializableとsnapshotをサポートしています。（デフォルトはseria

satoshi_hiraishi 2025/01/19

リンク

Apache Camel: Index

Camel is an Open Source integration framework that empowers you to quickly and easily integrate various systems consuming or producing data. Get Started What is Camel?

satoshi_hiraishi 2024/10/08

Apache
camel

リンク

Apache BeamでSlackのエクスポートデータをBigQueryに投入する - 詩と創作・思索のひろば

同じことをEmbulkでやったネタはこちらです: SlackのログをBigQueryにインポートする（手動） - 詩と創作・思索のひろば Slackワークスペースの管理者であれば、ワークスペースのデータをエクスポートできる。このデータをBigQueryに投入したら面白いかもしれないので、Apache Beamの素振りがてらやってみた。 Apache Beamはデータ処理のパイプラインを記述するためのフレームワークで、Google Cloud DataflowやApache Sparkなどのランタイムに対応しているとのこと（Copilotくん調べ）。SDKもいつかの言語に対応していて、おそらく機能が豊富な順にJava、Python、Go、TypeScriptなどがあるみたい。TypeScriptが使えると個人的には書き味がいちばんいいのだけど、使ってみたところあまり機能が揃っていないようだっ

satoshi_hiraishi 2024/07/09

リンク

メッセージングPF「Apache Pulsar」の使い方（入門編）

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。システム統括本部クラウドプラットフォーム本部の水嶋と申します。私は現在、社内向けにキューイング・Pub-Sub・ストリーミングなどのメッセージングプラットフォームを提供するチームに所属しています。このチームでは、メッセージングプラットフォームとしてOSS Apache Pulsar（以降、Pulsar）を利用しています。チームは数年間Pulsarを開発・運用しており、この経験からノウハウが蓄積されています。これらを公開し、皆さんにぜひPulsarについて興味を持っていただければと考えています。そこで、Pulsarの使い方、運用方法、ヤフーでの事例などをシリーズ記事として投稿していくことにいたしました。本稿に限らず、今

satoshi_hiraishi 2022/12/23

Apache

リンク

Apache Kafka 超入門 - 赤帽エンジニアブログ

こんにちは、ソリューションアーキテクトの蒸野（ムシノ）です。今回は「AMQ Streams」のベースとなっている「Apache Kafka」の超概要を説明をしたいと思います。 Apache Kafka とは 2010年にLinkedInで開発され、2011年にLinkedInから公開されたオープンソースの分散メッセージングシステムです。 Apache Kafkaはストリームデータのために設計された分散システムであり、大量のログやイベントデータなどの大量のデータをハイスループット／低レイテンシで収集・配信することが目的で、スケールアウト、対障害性、分散データストリーム処理やイベントドリブンアプリケーションを可能にします。 Apache Kafka の公式ドキュメントでは次のように示されています。 Apache Kafka is an open-source distributed even

satoshi_hiraishi 2022/08/11

Apache
Kafka

リンク

CDH (Hadoop) 入門 - MicroAd Developers Blog

はじめに初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。はじめに分散処理基盤 Hadoop / CDH とは Hadoop エコシステムデータストレージ (HDFS) とリソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ

satoshi_hiraishi 2021/09/22

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

Apacheに関するsatoshi_hiraishiのブックマーク (10)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス