タグ

transformとModalに関するmkusakaのブックマーク (1)

  • [StudyLLM Ep0] ゼロから作る日本語LLM: GPT-2の推論・学習の可視化からModalでの事前学習まで

    こんにちは!逆瀬川ちゃん (@gyakuse) です! これからStudy LLMというシリーズでLLMの基礎〜発展、Agentに至るまで連載をしていきます。 きょうは GPT-2 を題材に現代のLLMの基礎を再学習していければと思います!まずは推論からはじめ、そしてどのように学習しているかを眺め、最後に実際にモデルをトレーニングしてみることで、現代のLLMの基盤が分かるようになると思います。これを読んだかたがLLMを事前学習から作れるようになる、というのが今回の目標です。後述しますが、Modalを使うことで無料でできるようになっています。 GPT-2 は 2019 年の OpenAI のモデルで、いまの Claude Opus 4.7 (2026-04) や GPT-5.4 (2026-03), Gemini 3.1 Pro (2026-02) のようなフロンティアモデルと比べるとかなり

    [StudyLLM Ep0] ゼロから作る日本語LLM: GPT-2の推論・学習の可視化からModalでの事前学習まで
    mkusaka
    mkusaka 2026/04/21
    GPT-2 small(117M)の推論・学習を可視化し、日本語コーパスでModal A100(80GB)事前学習(2.3Bトークン)まで実践解説。
  • 1