okuminのブックマーク (125)

  • 第5回Apache Iceberg Meetup Japanで発表してきました #iceberg_jp - おくみん公式ブログ

    登壇場面 先日開催されたApache Iceberg Meetup Japan #5で登壇させていただきました。発表タイトルは「Hive Metastoreを通して学ぶIceberg REST Catalog ― 仕様から実装まで」です。 speakerdeck.com 発表内容 その他の発表 DatabricksにおけるIcebergとDelta Lakeの今 ― v3 Public Previewとv4の展望 Apache Gravitinoで実現するIcebergカタログ統合とアクセスの一元化 終わりに 発表内容 カタログの種類 今回の発表では、Iceberg REST CatalogとそのAPIに焦点を当てました。Apache Icebergを活用するうえでカタログが重要であることは、多くの方がご存じだと思います。また、カタログの中でもREST Catalogというアプローチが注目

    第5回Apache Iceberg Meetup Japanで発表してきました #iceberg_jp - おくみん公式ブログ
    okumin
    okumin 2026/05/25
  • Hive MetastoreとPyIcebergではじめるIceberg REST Catalog最速入門 - おくみん公式ブログ

    チュートリアル環境 Iceberg REST Catalogは、Apache Icebergのカタログ操作をHTTP APIとして標準化したものです。現在ではさまざまなOSS実装やクラウドサービスで採用が進んでおり、Icebergエコシステムの重要なインターフェースになりつつあります。 とはいえ、Iceberg REST Catalogを含む検証環境を一から用意するのは意外と大変です。そのため、名前は聞いたことがあっても、実際に手を動かして試したことのある方はまだ多くないのではないでしょうか。 記事では、Hive Metastore組み込みのIceberg REST Catalog APIDockerで起動し、PyIcebergから接続して動作確認する手順をチュートリアル形式で紹介します。詳しい仕様には深入りせず、まずはローカルでIceberg REST CatalogとApache

    Hive MetastoreとPyIcebergではじめるIceberg REST Catalog最速入門 - おくみん公式ブログ
    okumin
    okumin 2026/05/06
  • OTF Talk第36回出演 | HiveとIcebergの現在地とこれからを語りました #OTFTalk - おくみん公式ブログ

    「Apache Hive からみた Open Table Format (OTF) (#36)」にゲスト出演させていただきました。OTF TalkはApache IcebergやApache Hudi、Delta LakeのようなOpen Table Formatについてホストの下佐粉さんと対談するPodcastです。今回はApache Hive PMCメンバーとして、HiveそのものやIcebergの関係性、Iceberg関連の新機能についてお話しさせていただきました。 Open Table Format (OTF) の Podcast、 #OTFTalk 第36回を公開しました。Apache Hive PMCメンバーのおくみんさん @okumin をゲストに「Apache HiveからみたOTF」についてお話を伺いました host: @simosako https://t.co/8sg

    OTF Talk第36回出演 | HiveとIcebergの現在地とこれからを語りました #OTFTalk - おくみん公式ブログ
    okumin
    okumin 2026/03/28
  • Apache Hive PMCメンバーになりました - おくみん公式ブログ

    Hive PMCへの招待 先日XやLinkedInでご報告した通り、2025年12月8日にApache HiveのPMCメンバーに就任しました。 I’m honored to announce my appointment as an @ApacheHive PMC (Project Management Committee) member. It is an exciting opportunity to help shape the future of Apache Hive in this new role. A huge thank you to everyone who has supported me!https://t.co/Z6LGGNcBVi#ApacheHive— おくみん (@okumin) December 8, 2025 PMC(Project Managemen

    Apache Hive PMCメンバーになりました - おくみん公式ブログ
    okumin
    okumin 2025/12/31
  • お手伝いさせていただいた『Apache Iceberg活用入門』が発売されました - おくみん公式ブログ

    Apache Iceberg活用入門 オープンテーブルフォーマットによるデータレイク&データレイクハウス 作者:Tomer Shiran,Jason Hughes,Alex MercedインプレスAmazon 先日『Apache Iceberg活用入門 オープンテーブルフォーマットによるデータレイク&データレイクハウス』が発売されました。これはオライリーから出版されている『Apache Iceberg: The Definitive Guide』を翻訳したものです。昨年蛯原さんからお誘いをいただき、私自身も年末年始にかけて日語訳のレビューに参加していました。原著である『Apache Iceberg: The Definitive Guide』は紛れもない名著であり、その翻訳にレビュアーとして関わることができたことを光栄に思います。 『Apache Iceberg活用入門』届きました!蛯原

    お手伝いさせていただいた『Apache Iceberg活用入門』が発売されました - おくみん公式ブログ
    okumin
    okumin 2025/11/13
  • オープンで洗練されたデータ基盤を構築したいなら『実践Apache Iceberg』 - おくみん公式ブログ

    実践Apache Iceberg —— 高効率・高生産性を実現するオープンなデータ基盤の構築と運用 エンジニア選書 作者:田中 智大,疋田 宗太郎技術評論社Amazon 先日発売された『実践Apache Iceberg —— 高効率・高生産性を実現するオープンなデータ基盤の構築と運用』を献していただいておりました。微力ながら宣伝に協力させていただきたいと思い、この記事を書いています。 『実践Apache Iceberg』が取り扱う内容は幅広く、データレイクアーキテクチャの説明やその課題、Apache Icebergの内部構造や機能の解説、Apache Spark、Apache Flink、Trino、Apache HiveからIcebergテーブルへアクセスする方法、PythonベースのCLIツールであるPyIceberg、現実に即したユースケースや運用方法の紹介、高度な最適化機能の解説

    オープンで洗練されたデータ基盤を構築したいなら『実践Apache Iceberg』 - おくみん公式ブログ
    okumin
    okumin 2025/11/03
  • Hive Iceberg Compaction: テーブル最適化の仕組みと実践 - おくみん公式ブログ

    記事はDmitriy Fingerman氏が2025年6月2日に公開した『Hive Iceberg Compaction: An In-Depth Look at Improving Table Performance』を、同氏のご厚意により許可を得て翻訳・掲載したものです。原文の内容・著作権は同氏に帰属します。誤訳等ございましたらお知らせください(X, Linkedin)。改めてDmitriy Fingerman氏の寛大なご協力に深く感謝いたします。 This article is an authorized translation of “Hive Iceberg Compaction: An In-Depth Look at Improving Table Performance” by Dmitriy Fingerman, published on June 2, 2025. I

    Hive Iceberg Compaction: テーブル最適化の仕組みと実践 - おくみん公式ブログ
    okumin
    okumin 2025/06/16
  • Apache HiveとIceberg: 2025年春 - おくみん公式ブログ

    こうならないかな?と妄想中 4月某日、Hiveのメーリングリストに『HiveのデフォルトテーブルフォーマットをIcebergにしてはどうか』という提案が投稿されました。賛否はあるもののこの提案が現実的に思えるほど、HiveコミュニティはIcebergやData Lakehouseとのインテグレーションに多くのリソースを費やしています。 この記事では私が関わっているものを中心に、今後のリリースで追加されそうな面白機能を紹介していきます。 最近の開発動向 カタログとしてのHive Metastore Iceberg REST Catalog APIの提供 Federated Catalog構想 ストレージエンジンとしてのHive コンパクション 不要なスナップショットの定期削除 コンピュートエンジンとしてのHive Iceberg REST Catalogサポート まとめ 宣伝 関連記事 最近

    Apache HiveとIceberg: 2025年春 - おくみん公式ブログ
    okumin
    okumin 2025/05/30
  • HiveのBucket Map JoinをIcebergテーブルでも使用できるようにした話 - おくみん公式ブログ

    Bucket Map Join with Iceberg 現在HiveコミュニティはPartition-Aware Optimizationという機能の開発に取り組んでいます。これはOpen Table Formatが提供する柔軟なパーティショニングやストレージレイアウトを活用し、Apache Hiveの高度な最適化を有効化するための試みです。 この記事ではその一部であり、先日マージされた『[HIVE-28411] Bucket Map Join on Iceberg tables - ASF JIRA』について解説します。 Hiveに実装されているJOINアルゴリズム 分散Merge Join Map Join Dynamic Partitioned Hash Join Bucket Map Join JOINアルゴリズムまとめ Bucket Map Join w/ Iceberg Ta

    HiveのBucket Map JoinをIcebergテーブルでも使用できるようにした話 - おくみん公式ブログ
    okumin
    okumin 2025/03/18
  • 分散処理OSSへのコントリビューション in 2024 - おくみん公式ブログ

    Contributions to Apache Hive in 2024 2024年に取り組んだ分散処理OSSに対する貢献のまとめです。今年も引き続きHiveに関する活動が多く、Apache Iceberg関連のコントリビューションも増えたのが特徴かなと思います。 パフォーマンス改善 Hive: Partition Aware Optimization(Bucket Map Join) Hive: CTEをマテリアライズする際に統計情報を伝搬させる Hive: カラムレベル統計情報が不足している場合のヒューリスティクス改善 バグフィックスやエラー処理の改善 Hive: STACK UDFの挙動 Hive: STORED BYのエラーメッセージ Hive: CalciteによるUDF書き換えの挙動 Hive: CBOフォールバックの無効化 Hive: 主キーによる制約条件が存在する場合にNu

    分散処理OSSへのコントリビューション in 2024 - おくみん公式ブログ
    okumin
    okumin 2024/12/31
  • Apache Hiveコミッターに就任しました - おくみん公式ブログ

    Invitation to ASF SNSでご報告した通り、2024年11月12日にApache Hiveコミッターに就任しました。 Hello world! I'm thrilled to announce that I am now an Apache Hive committer. I am more than happy to take on this role and make further contributions in the future.https://t.co/Qv5hiZHRRn— おくみん (@okumin) November 12, 2024 Apacheプロジェクトにおいて、コミッターというのはソースコードに対する変更権限を持った個人を意味します。Apache Hiveの場合、現在111名がコミッターとしてリストに記載されています。 2023年5月19日にコ

    Apache Hiveコミッターに就任しました - おくみん公式ブログ
    okumin
    okumin 2024/11/24
  • Apache Hive 4.0.1がリリースされました - おくみん公式ブログ

    2024年10月2日にHive 4.0.1がリリースされました。 Apache Hive 4.0.1 released!!! Announcement:https://t.co/uKQDaJMmYf Release Notes:https://t.co/6mkVL9oc0Q DockerHub:https://t.co/JQfWzAZTWH Thanx to all the contributors who worked towards this release!!!#apache #hive #opensource pic.twitter.com/wyDYXKswFS— Apache Hive (@ApacheHive) October 2, 2024 変更内容について 今後のリリース 変更内容について パッチバージョンの変更なので、バグフィックスやHive 4で観測された性能劣化に対す

    Apache Hive 4.0.1がリリースされました - おくみん公式ブログ
    okumin
    okumin 2024/10/06
  • Apache Hive 4: パフォーマンス改善まとめ - おくみん公式ブログ

    Shared Work Optimizer 少し間が空いてしまいましたが、引き続きHive 4に関するアップデートを紹介していきます。今回はパフォーマンス改善についてまとめてみます。 Hive 4関連記事一覧 Vectorization CBO Shared Work Optimizerの強化 統計情報 ヒストグラム 実行時統計情報の再利用 総評 Hive 4関連記事一覧再掲 Hive 4関連記事一覧 Apache Hive 4: 新しく追加されたUDFの紹介 - おくみん公式ブログ Vectorization Vectorizationは複数行をまとめて処理することでメモリレイアウト含む実行効率を改善する仕組みです。最低限よく使われる機能からvectorizationの対応がスタートし、その後継続的にサポート範囲の拡大やさらなる最適化が行われています。 ざっと見る限り、Hive 3.0.

    Apache Hive 4: パフォーマンス改善まとめ - おくみん公式ブログ
    okumin
    okumin 2024/07/08
  • 分散処理OSSへのコントリビューション in 2023 - おくみん公式ブログ

    Contributions to Apache Hive 2023年に取り組んだ分散処理OSSに対する貢献のまとめです。今年はApache Hiveのコミュニティが活性化したのでHiveやTezに対する貢献が多めです。 この記事は『Distributed computing (Apache Spark, Hadoop, Kafka, ...)のカレンダー | Advent Calendar 2023 - Qiita』24日目として執筆しました。若干遅れて申し訳ございません。 データ不整合の解消 ネストしたCTEをマテリアライズするとデータが消失する問題 LIMIT OFFSET Pushdownのバグ修正 パフォーマンス改善 Auto Reduce Parallelismの改善 Fair Routingの開発 ジェネリックなAM or TaskレベルのフックをTezに追加 UDTFの出力に

    分散処理OSSへのコントリビューション in 2023 - おくみん公式ブログ
    okumin
    okumin 2023/12/25
  • ZooKageでHive 4を試せるようにしました - おくみん公式ブログ

    ZooKage 0.2.2をリリースしました。バージョンを用いることで最新のHiveを手軽に試すことができます。 更新内容 いくつかのソフトウェアで新しめのバージョンを指定できるようになりました。詳しくはリリースノートをご参照ください。 主な目的はアルファ版Hive 4やmasterブランチを手元で試せるようにすることです。現在Hiveの最新安定版は3系で、これはmasterブランチとかなり乖離があります。今回の更新により最新の挙動を確認したり、OSSに提出するパッチの動作確認をする作業が楽になりました。 Hiveのmasterブランチには非常に高度な最適化やIceberg対応などの便利な機能が取り込まれており、同僚の間でもかなり話題になっています。Hive 4のリリースが待ち遠しいですね。 OSS貢献 コマンド一発で動作確認ができるように、ZooKageリポジトリには最低限の動作を確認

    ZooKageでHive 4を試せるようにしました - おくみん公式ブログ
    okumin
    okumin 2023/03/04
  • Hive on Tezのメトリクスを任意のデータ基盤に蓄積する方法 - おくみん公式ブログ

    HistoryLoggingServiceのAPIを用いてHive on Tezのメトリクスをデータプラットフォームに保存するという、ややマニアックなテクニックを紹介します。記事は「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2022」14日目の記事として執筆しました。 qiita.com Hive on Tezのメトリクス まずはHive on Tezにどんなメトリクスが存在するか紹介しておきます。Apache Tezはなかなか見やすいWeb UIを持っていて、様々な情報へ手軽にアクセスすることができます。例えばDAG全体の開始・終了時刻、実行時間といった情報や DAG Details Vertex・Task・Task Attemptレベルの情報、 All Vertices DAG・V

    Hive on Tezのメトリクスを任意のデータ基盤に蓄積する方法 - おくみん公式ブログ
    okumin
    okumin 2022/12/19
  • Hive Distributed Profiling Systemを簡単に実装する方法 - おくみん公式ブログ

    TreasureData Tech Talk 2022で発表した内容の補足です。Hive Distributed Profiling Systemの実装方法について、プレゼンテーション中に説明しきれなかった部分を解説します。なお記事は「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2022」19日目の記事として執筆しました。 qiita.com 参考文献 HDPSを実装する上で工夫した点の補足 Query Simulator Hive on Tez + Java Flight Recorder Plazmaへのイベント格納 Hiveによるスタックトレースの集計 フレームグラフの描画 もっと頑張れるかもしれないポイント 事前に集計したテーブルを作っておく Async Profiler 終わり

    Hive Distributed Profiling Systemを簡単に実装する方法 - おくみん公式ブログ
    okumin
    okumin 2022/12/19
  • TreasureData Tech Talk 2022で発表してきました #tdtechtalk - おくみん公式ブログ

    先日行われたTreasure Dataのイベントにて登壇させていただきました。タイトルは『Hive Distributed Profiling System in Treasure Data』。 発表内容 要約すると、プロファイリングツールで取得したスタックトレースをビッグデータ基盤に流し込めば、ありえんスケーラブルでありえん自由な分析が可能になる、という発見を事例つきで紹介してきた感じです。 スライドはこちら。 speakerdeck.com 嬉しいことに同じようなシステムを構築してみたいという声も聞こえてきたので、説明しきれなかった部分を後日このブログで補足しようと思っています。具体的な内容はまだ未定ですが、とりあえず自分を追い込むためアドベントカレンダーに参加登録だけしておきました。 qiita.com 謝辞 短くて恐縮ですが、運営に携わってくださった方々やリハーサルにつきあってくれ

    TreasureData Tech Talk 2022で発表してきました #tdtechtalk - おくみん公式ブログ
    okumin
    okumin 2022/12/06
  • ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ

    Kubernetes上にHadoopサンドボックス環境をコマンド一発で構築するツール、ZooKageをリリースしました。記事では開発に至った経緯と基的な使い方を紹介します。 「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020」にエントリーするつもりでいましたが、開発中に枠が埋まってしまったので過去の日付を埋める形で参加させていただきます。遅くなってすみません…… モチベーション Hadoopエコシステムは大量のコンポーネントから成り立っており、その混沌はしばしば動物園に例えられます。手軽に起動する手段が用意されているプロジェクトもありますが、それでもローカルマシンで満足な検証をするには困難を伴います。公私ともに様々なバージョンのHive/Hadoopやそれらへのパッチを検証すること

    ZooKage: Hadoop on Kubernetes on Docker Desktop - おくみん公式ブログ
    okumin
    okumin 2020/12/25
  • ぼんくらITエンジニアでもYouTubeとスタサプでTOEIC 900点突破できたので勉強法をまとめていく - だいたいよくわからないブログ

    2020/2にbefore 600点台(正確な値は紛失)から始めて2020/9に目標(900点以上)を達成しました₍₍ (ง´・_・`)ว ⁾⁾ うれC ₍₍ (ง´・_・`)ว ⁾⁾ ₍₍ (ง´・_・`)ว ⁾⁾ ₍₍ (ง´・_・`)ว ⁾⁾ pic.twitter.com/pKDX2mPmW6— まっちゃら (@matsu_chara) 2020年9月28日 英語学習は最初の入門のところが割と難しいなと思ったので、やったことをまとめておきます。(なお、この記事は頑張ったから自慢したい気持ちが90%、他の人に参考になったらなという気持ちが10%で提供されています。) ちなみに英語指導経験があるとか、すごいペラペラになったとかそういう感じではないので、近くに英語に詳しい人がいる場合はそちらの人の言うことに従うのがおすすめです。(あくまで素人がやったことが書いてあるだけ) 基的にリスニ

    ぼんくらITエンジニアでもYouTubeとスタサプでTOEIC 900点突破できたので勉強法をまとめていく - だいたいよくわからないブログ
    okumin
    okumin 2020/12/06