2018年9月20日開催されたdb tech showcase Tokyo 2018で発表した資料です。
Upcoming Event: Bengaluru Apache Hudi Meetup hosted @ Navi TechnologiesIn Person Event | May 11 Apache Hudi is a transactional data lake platform that brings database and data warehouse capabilities to the data lake. Hudi reimagines slow old-school batch data processing with a powerful new incremental processing framework for low latency minute-level analytics.
H系のOSSは何年か触っているのですが、良く考えてみるとNodeの縮退を行ったことがありませんでした・・・ ※数十台程度の小規模な環境でしか運用したことが無いことと、故障もRAIDのHDD程度でマシンの大掛かりな故障という事象も無かったので ということで、縮退を行いました。...
通常、アプリケーションはread()などのシステムコール経由でファイルを読み出します。 このHDFS-4953はmmap()システムコールを使用することで、読み取り時にかかるオーバーヘッドを減らそうというもののようです。 参考までに、通常アプリケーションがファイルを読み出す場合、以下のようなフローでカーネルからの読み込み処理が行われます。 アプリからの読み込み要求 v fread()など (stdlib) v read()システムコール(glibc) v (以下カーネル空間) v sys_read() v vfs_read() v …. 参考資料:ページキャッシュのメモ P.12 アプリケーションからの読み出し要求によりシステムコールが呼ばれるのは上記の通りですが、問題となるのは、 read()が頻繁に呼びだされる場合、コンテキストスイッチが多く発生してコストがかかる※コストの計測には s
並列ファイルシステム、或いは分散ファイルシステムと呼ばれるものが最近のPCクラスタでは標準となっています。 これらは複数のサーバ、複数のストレージデバイスを仮想的に1ボリューム化し、更に共有ファイルシステムとしてサービスすることが出来ます。 並列ファイルシステムは大規模システムのものと思いがちですが、計算ノードが数十台以下の小さなシステムでも大きなサイズのファイルを扱うプログラムでは絶大な効果を発揮します。 最近では選択肢が増えたこともあり、規模が小さければそれに合わせた低コストの並列ファイルシステムを作ることも容易になりました。 この解説では並列ファイルシステムの代表的なものとしてLustre、GPFS、GlusterFS、Panasas ActiveStorを紹介したいと思います。(※Panasas ActiveStorはサーバなどハードウェアを含むアプライアンス製品ですが、独自の並列
The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く