サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
セキュリティ
bering.hatenadiary.com
Distributed Computing Advent Calendar 2025 の記事です。 私は2025年の初頭にOpenSearchというOSSに出会いました。それは検索技術というものに全く触れたことがなかった私にとって衝撃的な体験で、すっかりOpenSearchにハマってしまい、この1年は暇を見つけては触っていました。 ではOpenSearchが何故それほど面白いのか、自身の整理と皆さんへの布教を兼ねて書いてみようと思います。 私はAWS社の人間ですが、本記事は年の瀬に個人の趣味で書いており、基本的にOSSのOpenSearchの話しかしません。 そもそもOpenSearchとは ユースケースの幅広さがおもろい 検索がおもろい スケーラビリティの探究がおもろい プロジェクトの広がりと進化がおもろい OSSコントリビューションがおもろい コミュニティがおもろい まとめ そもそもO
実践Apache Iceberg Icebergの本を書きました どんな本なの? 手を動かして学ぶことを重視 紙幅に収まらなかったコンテンツをGithubの付録で提供 謝辞 わたしがIcebergの本を書くまで Icebergとの出会い 技術コミュニティとの出会い 技術書の企画 社内異動 苦難の執筆と感謝 実践Apache Iceberg Icebergの本を書きました 『実践Apache Iceberg —— 高効率・高生産性を実現するオープンなデータ基盤の構築と運用』という書籍が8月27日に発売されます。 gihyo.jp 本書は、データ基盤の構築や運用、活用に関わるエンジニアの方々に向けて、次世代のデータ基盤を支えるオープンテーブルフォーマットであるApache Icebergを576ページの大ボリュームで体系的に解説する1冊です。 著者はわたし、べりんぐこと疋田宗太郎と、AWSの
TL;DR パーティショニングとは Hiveテーブルにおけるパーティション構造 IcebergのTransformとHidden Partitioning Transformの仕組み 時間に関わるカラムへのTransformをどのように指定するべきか なぜ複数のTransformを指定する必要がないのか Icebergメタデータ構造とパーティション管理 マニフェストリストとマニフェストファイルの役割 階層的な時間単位の自然な扱い まとめ Apache Icebergのパーティショニングは、従来のHiveテーブルとは大きく異なる設計思想を持っています。この記事では、Icebergの「Transform」と「Hidden Partitioning」の仕組みを詳しく解説します。 その上で、時間に関わるカラム(date, timestamp, timestamptz, timestamp_ns,
はじめに Icebergテーブルのアーキテクチャ Icebergの同時実行制御のコンセプト Icebergの書き込み処理の流れ 同時書き込み時のシナリオパターン データ競合チェック なぜデータ競合のチェックが必要か? 主要なオペレーションで実施されるバリデーション AppendFiles OverwriteFiles (Copy-on-Write 更新/削除) RowDelta (Merge-on-Read 更新/削除) RewriteFiles (REPLACE: コンパクション) バリデーションの種類 データパイプライン設計時の注意点 まとめと宣伝 おまけ(ソースコードベースの流れ) はじめに Apache Icebergテーブルは、テーブル単位、オペレーション単位のトランザクション分離レベルとしてserializableとsnapshotをサポートしています。(デフォルトはseria
Current 2024 のセッション「Change Data Capture & Kafka How Slack Transitioned to CDC with Debezium & Kafka Connect」を日本語でまとめます。 可能な限り正確に内容を拾えるようにリスニングに努めたつもりですが、もし誤りがあればご指摘ください。 Current とは? Leveraging Iceberg Puffin Files to Accelerate Queries スピーカー セッションまとめ Viteess から Debezium, Kafka までのアーキテクチャ Debezium 運用の課題 スナップショットのフォールトトレランス Debezium のスケール Kafka のパーティション数変更対応 Vitess の Reshard への対応 Kafkaからデータレイクへの取り込み
Iceberg Summit 2024 のセッション「Table Encryption in Apache Iceberg」を日本語でまとめます。 可能な限り正確に内容を拾えるようにリスニングに努めたつもりですが、もし誤りがあればご指摘ください。 Iceberg Summit とは? イベント概要 イベントページ Table Encryption in Apache Iceberg スピーカー Iceberg におけるテーブルの暗号化とは? Iceberg の built-in 暗号化エンジン Table Key デモ 開発状況 Deep Dive 暗号化によるパフォーマンスへの影響 今後の展望 QA(サマリ) Iceberg Summit とは? イベント概要 公式ページより翻訳 本イベントでは、Apache Icebergを実務で活用していたり、Icebergの開発に携わる技術者による
はじめに Iceberg view概要 一般的なクエリエンジンにおけるviewの役割 Iceberg viewを使ってみる Iceberg viewのコンセプト メタデータ形式の共有 viewのバージョン管理 Iceberg viewの構成要素と仕組み View Metadata versionsフィールド representationsフィールド Appendix: Viewサポートに関連するPR はじめに 2024/3/11、Iceberg 1.5がリリースされた。Apache Icebergは、大規模なデータセットを管理するためのOpen Table Formatの一種である。Icebergを使用することで、ハイパフォーマンスで運用管理性と信頼性に優れたデータレイクを構築できる。Open Table FormatやIcebergの詳細は以下を参照して欲しい。 データレイクの新しいカタ
はじめに オープンなモデルの急速な進化 オープンなモデルとは オープンなモデルの活況 オープンなモデルをセルフホストする利点 コスト効率 カスタマイズの自由度 選択肢の多様性 データのプライバシーとセキュリティ チームのケイパビリティ向上 スケーラブルでコスト最適なAI Chat Bot(RAG)の作り方を考える RAGアプローチの構成要素 ベクトル検索とは ベクトル検索の前準備 ベクトル検索の流れ LLMのデプロイ デプロイ方法 必要なスペック End to Endなアプリケーションに仕立てる 環境 使い方 実装上のポイント faiss_index検索時のtop_k intfloat/multilingual-e5-largeでのquery / passageの指定 LLMへのプロンプト 回答のストリーム systemdによるプロセスのデーモン化 スケーラビリティ、コスト最適化のアイデア
この記事は著者であるRui Li氏の許可を得て翻訳したものです。 Original article: How Bilibili Builds OLAP Data Lakehouse with Apache Iceberg | by Rui Li | Medium. 文中の注釈は、訳者(@_Bassari)が読者の理解を助けるために付け加えました。 はじめに Bilibiliは中国最大級の動画共有サイトです。私たちはBilibiliのbig data infrastructureチームとして、2021年にApache Iceberg1を使用したlake-warehouseプラットフォームを構築するためのプロジェクトを開始しました。このプラットフォームは、主にOLAP分析シナリオに焦点を当てています。 このプロジェクトの前は、当社のdata warehouseはApache Hive2をベース
はじめに 概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はテーブル仕様である Table Spec バージョン Icebergハンズオン Icebergの特徴 同時書き込み時の整合性担保 読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類 時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化 ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest files
はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム
先日、縁あってオブザーバビリティ(可観測性)勉強会の講師を務める機会があった。普通に考えれば教壇に立つからにはその分野に大変詳しいことが期待されると思うが、恐るべきことに僕は講師を引き受けるまでオブザーバビリティについて何も知らなかった。 それで慌ててO'Reillyの『オブザーバビリティ・エンジニアリング』やCNCFのwhitepaperなどを熟読し、なんとか「完全に理解」して本番を好評で終えることができたので、記憶が揮発しないうちに肝と思われるポイントをメモしておく。マクロの思想的な側面にフォーカスして、OpenTelemetryなど個々の技術やツールのhowto的な話には触れない。 オブザーバビリティが注目される背景 現代のシステムは全ての構成要素を論理的/物理的に集約する設計(いわゆるモノリシック)から、分散されたコンポーネントの集合体で構成する設計(いわゆるマイクロサービス)へ移
2023年4月、pandas 2.0がリリースされた。 What’s new in 2.0.0 (April 3, 2023) — pandas 2.1.0.dev0+766.g935244a9b9 documentation さっそく手元のツール群のバージョンを上げた所、従来append()を使っていた処理が動かなくなりハマった。 pandas.DataFrame.append()が削除 Pandas 1系では、Dataframeに新たな行を追加する関数としてpandas.DataFrame.append()が用意されていた。 import pandas as pd df = pd.DataFrame( { "名前": ["Alice", "Bob", "Charlie", "Dave"], "年齢": [25, 30, 35, 40], "都市": ["東京", "ニューヨーク", "
Fediverseデビューしたものの即座にTwitterを離脱するのは難しそう。でもFediverse側も盛り上げていきたい。なので当面はTwitterとFediverse両方に同じ内容をポストしようとなるのだが、これがめんどくさい。そこで自動化することにした。(Twitterが国境を開放してくれればこんな事は考えなくていいのだが...) ja.wikipedia.org 以下記事の手順を元にmstdn.jpで環境構築を試みたところ、mstdn.jpインスタンス特有の考慮点があった。Mastodonに普遍的な手順はこちらの記事に準じるので、これから試す人はまず見て欲しい。その上でそのままでは上手くいかない部分があるはずなので、そこで本エントリが役に立つはずだ。 www.mizdra.net User-Agent問題 問題 Mastodonの一部インスタンスはUser-Agent (UA)に
ここ数年、アジリティとセキュリティ(あるいはガバナンス)の両立について考える機会が多い。伝統的で規模の大きい企業にありがちな傾向として、セキュリティやガバナンスを確保するためにはシステムの開発/運用が鈍重、高コスト、不自由になったとしても已む無しとする思想がしばしば見受けられる。結果として例えば簡単な仮想サーバ1つを用意するだけでも数ヶ月の納期と膨大な工数を要するとか、世の中で当たり前に活用されている技術やプロセスが許可されない/導入に非現実的な手続きを要求されるといった状況が生まれる。 確かにシステムの安全性を適切にコントロールすることは重要である一方で、論理的に考えれば「セキュリティのためのビジネス」ではなく「ビジネスのためのセキュリティ」なのだから、セキュリティを確保するためにビジネスの成功が妨げられてしまっては本末転倒に思える。しかし実際には「セキュリティのためなので仕方がない」と
概要 kmizuさん作のgpt-voice-chatを使って、Whisper APIとChatGPTにVOICEVOXを統合してずんだもんと音声で会話してみました。同ソフトはまだ概念実証的な段階で、動かすためにはコードを弄りながら調整が必要です。一方でChatGPTによって「魂」を与えられたずんだもんとの会話はとても刺激的で、未来を感じさせるものでした。この体験を多くの人に共有したいので、WSL2環境で動かした時のメモを残しておきます。 どんなことが出来るのか、まずはこちらの動画のデモを見てください。 うおおおkmizuさんのコードを使ってChatGPTとずんだもんの融合に成功したぞおおおおオレがずっと待ってた未来がきた!!!https://t.co/E0LGBgxJbV pic.twitter.com/8XiQsZbtyG— べりんぐ (@_Bassari) March 19, 2023
このページを最初にブックマークしてみませんか?
『Bering Note – formerly 流沙河鎮』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く