denqueueのブックマーク / 2025年7月21日

LLM推論に関する技術メモ

はじめに BentoMLによるLLM Inference Handbookという、LLMの推論をまとめたハンドブックがある。本記事ではハンドブックや他の情報も参照しつつ、自分のメモ用としてLM推論に関する技術をまとめていく。 LLMの推論と内部理解の必要性 LLM推論とは、GPT-4、Llama 4、DeepSeek-V3などの学習済みLLMを使用して、ユーザーの入力から意味のある出力を生成することを指している。その推論には、たくさんの技術が抽象化・隠蔽されている。APIを利用している場合は、ほぼ意識せず活用できる。しかし、APIを何らかの理由で利用できない場合や、Open WeightなLLMを利用したい場合はこれらの技術を理解する必要がある。実際、最適化されていない設定では、GPU時間で10倍のコストがかかることもある。ユーザー面であっても、最適化がされていなければ、応答速度が遅くな

はてなブックマーク

タグ

2025年7月21日のブックマーク (2件)

LLM推論に関する技術メモ

The Big LLM Architecture Comparison

お知らせ

今週のはてなブックマーク数ランキング（2026年5月第3週）

新サービスベータテスター募集のお知らせ

今週のはてなブックマーク数ランキング（2026年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

2025年7月21日のブックマーク (2件)

LLM推論に関する技術メモ

The Big LLM Architecture Comparison

お知らせ

今週のはてなブックマーク数ランキング（2026年5月第3週）

新サービス ベータテスター募集のお知らせ

今週のはてなブックマーク数ランキング（2026年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

新サービスベータテスター募集のお知らせ