タグ

2025年7月21日のブックマーク (2件)

  • LLM推論に関する技術メモ

    はじめに BentoMLによるLLM Inference Handbookという、LLMの推論をまとめたハンドブックがある。記事ではハンドブックや他の情報も参照しつつ、自分のメモ用としてLM推論に関する技術をまとめていく。 LLMの推論と内部理解の必要性 LLM推論とは、GPT-4、Llama 4、DeepSeek-V3などの学習済みLLMを使用して、ユーザーの入力から意味のある出力を生成することを指している。その推論には、たくさんの技術が抽象化・隠蔽されている。APIを利用している場合は、ほぼ意識せず活用できる。しかし、APIを何らかの理由で利用できない場合や、Open WeightなLLMを利用したい場合はこれらの技術を理解する必要がある。 実際、最適化されていない設定では、GPU時間で10倍のコストがかかることもある。ユーザー面であっても、最適化がされていなければ、応答速度が遅くな

    LLM推論に関する技術メモ
    denqueue
    denqueue 2025/07/21
  • The Big LLM Architecture Comparison

    Last updated: Apr 2, 2026 (added Gemma 4 in section 23) It has been seven years since the original GPT architecture was developed. At first glance, looking back at GPT-2 (2019) and forward to DeepSeek V3 and Llama 4 (2024-2025), one might be surprised at how structurally similar these models still are. Sure, positional embeddings have evolved from absolute to rotational (RoPE), Multi-Head Attentio

    The Big LLM Architecture Comparison
    denqueue
    denqueue 2025/07/21