[B! *algorithm][performance] sh19910711のブックマーク

物体検出モデルの推論高速化入門

はじめに株式会社EVERSTEELで機械学習エンジニアをしている加藤です。機械学習システムの運用において、推論の高速化は重要な課題です。特にリアルタイムでの処理が求められるアプリケーションでは、レスポンス時間の短縮がユーザー体験に直結します。また、クラウド環境のコスト削減やエッジデバイスのリソース制約など、様々な観点から推論の効率化が必要とされます。本記事では特に物体検出モデルのCPU推論に焦点を当て、ディープラーニングモデルの推論を高速化する方法を紹介するとともに、それらのベンチマーク結果を共有します。「鉄ナビ検収AI」における推論高速化ニーズ弊社では鉄スクラップの画像解析を行う「鉄ナビ検収AI」というアプリケーションを開発しています。本アプリケーションを提供するために多様な画像認識モデルを運用していますが、その中でも速度要件が厳しいものとして、荷台検出モデルが存在します。荷

sh19910711 2025/10/18

"PyTorchのテンソルはデフォルトでcontiguous (NCHW) メモリ形式 / channels last形式では空間的に隣接するピクセルがメモリ上でも近い位置に配置されるため、畳み込み演算時のキャッシュ効率が改善"

リンク

マトリョーシカ・レトリーバーとは？次元削減で検索が早くなる！

OpenAIのAPIに次元削減という機能がつきました。 dimensionsというキーに次元数を指定すると、その次元に削減ができます。 openai.embeddings.create({ model: 'text-embedding-3-large', input: 'The cat chases the mouse', dimensions: 1024, # 1024まで次元削減する }) ちなみにdimensionsを指定しないとフルサイズで埋め込みが作成されます。このオプションについてLangChainが記事を出していたので解説します。埋め込みとは文章、画像、動画などの類似度を得ることができるベクトル表現です。物の位置を知るためにX,Y,Z軸の3軸で表現しますが、これは3次元のベクトル表現です。埋め込みベクトルはこれが数千とか数万になります。 [-0.023972103,

sh19910711 2025/09/20

2024 / "削減された次元のベクターストアで検索を高速に行い、その後メタデータに保存していたフルサイズの埋め込みベクトルを使って順位付け / supabaseさんが書いたマトリョーシカ埋め込みの記事"

リンク

軽量なセグメンテーションモデルのNanoSAM を試す

こんにちは、HACARUS でインターンをしている山下です。今回は、Segment Anything Model (SAM) のような高性能のセグメンテーションモデルを限られたリソース下で利用したい場合の選択肢となる NanoSAM (Apache License 2.0) を紹介します！ NanoSAM は通常の SAM とどう違うのか？ SAM は Meta によって公開された高性能のセグメンテーションモデルです。SAM の基本的な使い方や他のモデルと組み合わせて使う方法は、以前の記事で紹介しました。 SAMは、入力画像を image encoder でテンソルに変換した上で座標指定などのプロンプトと組み合わせ、mask decoder でマスクを出力するという構造になっています。 SAM の構造（パラメータ数は実測値）上の画像中にも示したとおり、NanoSAM の構造上の

sh19910711 2025/08/16

2024 / "NanoSAM: encoder として ResNet18 を使用 + Jetson Orin シリーズなど GPU を搭載したエッジデバイス上での動作に最適化 / リアルタイムでのセグメンテーションにも応用可能"

リンク

20250226 NLP colloquium: "SoftMatcha: 10億単語規模コーパス検索のための柔らかくも高速なパターンマッチャー"

sh19910711 2025/08/02

"SoftMatcha: パターンマッチングの一致判定に単語埋め込みの類似度 + 転置索引を拡張したアルゴリズムにより、10億語規模のコーパスに対しても、柔らかくも高速に検索 / numba: うまく書くとSIMDの性能を簡単に引き出せる"

リンク

SSII2019OS: 深層学習にかかる時間を短くしてみませんか？～分散学習の勧め～

SSII2019 オーガナイズドセッション3「深層学習の高速化～高速チップ、分散学習、軽量モデル～」 6月14日(金) 10:35〜12:05 (メインホール)

sh19910711 2025/07/12

2019 / "複数workerでミニバッチ学習 + 学習後にパラメータ同期が必要 / Batch Sizeが大きくなることにより学習精度の劣化 + 同期処理のオーバーヘッドにより学習時間が逆に増加"

リンク

「深層ニューラルネットワークの高速化」読んだらめっちゃ良かったよって話 - ふぁむたろうのブログ

gihyo.jp 上記を読んだところめっちゃ良かったので感想として残しておきます。自分の場合1回読んだから終わりというより度々振り返りで読み直すことになりそうです。どんな本？ DNNの高速化（=効率化）という切り口で実装から理論的背景（あれば）まで網羅している本比較的最近のトピック（モデルマージ）にも触れている他には生成モデルやLLMで扱われがちな高速化についても触れられている Flash Attention とかも記載されてる「推論のしくみから紐解く高速化の原理」とあるが学習面についても記載されてる何が良かったの？各背景や実装の手間についても触れているところ高速化のトレードオフ対象として精度が挙げられがちだけど、実際には実装の手間もあるという現実「DNN 高速化」でググればネット上にもまとめが沢山あるけど最近は記事が多すぎるし背景もバラバラなので正直追うの辛い背景の例

sh19910711 2025/07/05

2024 / "比較的最近のトピック（モデルマージ）にも触れている / 生成モデルやLLMで扱われがちな高速化についても触れられている"

リンク

なぜCatboostの推論は速いの？ - 簡単なレポート

前回の記事｢AutoML v.s. Catboost｣に出てくるCatboostは、XGBoostやLightGBMと比べて30-60倍も推論が速いという特徴があります。推論時間は、kaggleなどのコンペでは推論に時間をかけられるのであまり気にしませんが、実サービスとなると重要ですよね。推論時間の比較以下のグラフは、3大GBDTライブラリでの推論時間比較です。Catboostがずば抜けて速いことがやかります。そして学習時間の速さに定評があるLightGBMは、なんと最遅です。この推論時間の速さは、CatboostがGBDTのベースとなる決定木に symmetric tree と呼ばれる、特殊な形の木を使っているからです。ここで、symmetric treeとは以下の図の右側のような木です。左側は普通の決定木です。なぜsymmetric treeは速いか｢同一の深さではすべ

sh19910711 2024/05/27

"Catboost: 決定木に symmetric tree と呼ばれる、特殊な形の木を使っている + 同一の深さではすべての分岐条件が同じ / LightGBM: 学習時間の速さに定評 / GPUを用いた場合は、学習時間でもCatboostが最速" 2019

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

*algorithmとperformanceに関するsh19910711のブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

今週のはてなブックマーク数ランキング（2025年11月第2週）

月間はてなブックマーク数ランキング（2025年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス