[B! LLM] xiangzeのブックマーク

NLPコロキウム | Transformerの学習理論: In-context learningにおける汎化と最適化の理論 (鈴木大慈)

鈴木大慈 / Taiji Suzuki (東京大学) [Webサイト] 東京大学大学院情報理工学系研究科数理情報学専攻教授および理化学研究所・革新知能統合研究センター・深層学習理論チーム・チームリーダー．深層学習を含む様々な学習機構について理論的側面から研究を進めている．より少ないデータでより精度良く学習するにはどうすればよいか．学習理論を通じて各種学習手法の性能を解明し複雑な学習過程の本質への理解を深め，さらに理論をもとに新しい機械学習手法の構築や応用への還元を行っている．また，確率的最適化などの方法論により大規模かつ複雑な機械学習問題を効率的に解く手法の開発も行っている．概要 In-context leaningを主たる題材として，Transf ormerの学習能力を理論的に明らかにする最近の理論研究を紹介する．まず表現力の理論として，Transf ormerは非等方的滑らかさを持つ関数

xiangze 2024/09/28

リンク

Harnessing Large Language Models for Training-free Video Anomaly Detection

xiangze 2024/07/07

リンク

大規模言語モデル (LLM) の技術と最新動向

マルチメディア，分散，協調とモバイル（DICOMO2024）シンポジウムでの招待講演の資料です。 https://dicomo.org/

xiangze 2024/06/29

LLM

リンク

What We Learned from a Year of Building with LLMs (Part II)

To hear directly from the authors on this topic, sign up for the upcoming virtual event on June 20th, and learn more from the Generative AI Success Stories Superstream on June 12th. Part I of this series can be found here and part III can be found here. A possibly apocryphal quote attributed to many leaders reads: “Amateurs talk strategy and tactics. Professionals talk operations.” Where the tacti

xiangze 2024/06/21

LLM

リンク

Sakana AI

Summary At Sakana AI, we harness nature-inspired ideas such as evolutionary optimization to develop cutting-edge foundation models. The development of deep learning has historically relied on extensive trial-and-error by AI researchers and their theoretical insights. This is especially true for preference optimization algorithms, which are crucial for aligning Large Language Models (LLMs) with hum

xiangze 2024/06/18

LLM

リンク

大規模言語モデル (LLM)における低精度数値表現

2024年5月8日のHPC研究会で使用したスライドです。 https://www.ipsj.or.jp/kenkyukai/event/hpc194.html

xiangze 2024/05/15

リンク

言語モデルを高位合成でFPGAに実装してみた

言語モデルを高位合成でFPGAに実装してみた Turing株式会社のリサーチチームでインターンしているM1の内山です。 Turing株式会社では大規模基盤モデルによる完全自動運転を目指しており、その実現に欠かせない技術として大規模言語モデルの研究開発を行っています。 Generative AI LLMの広範な知識と思考能力に加え、視覚情報やセンサーデータなどの多様な入力を受け入れることで、車の周囲の状況を正確に認識します。さらに、世界モデルを適用することで、高度な空間認知と身体性を獲得し、実世界に対応した生成AIを実現します。 https://tur.ing/ より引用しかしながら、従来の大規模モデルはデータセンターという大量のGPU・潤沢な電源・安定した地盤を備えた豊かな環境で処理されるものであり、対して自動車というものは余りにも狭く、電源が乏しく、振動が大きいという劣悪極まりない環境

xiangze 2024/04/24

fpga
LLM

リンク

AlphaGeometry: An Olympiad-level AI system for geometry

Research AlphaGeometry: An Olympiad-level AI system for geometry Published 17 January 2024 Authors Trieu Trinh and Thang Luong Our AI system surpasses the state-of-the-art approach for geometry probl ems, advancing AI reasoning in mathematics Reflecting the Olympic spirit of ancient Greece, the International Mathematical Olympiad is a modern-day arena for the world's brightest high-school mathemati

xiangze 2024/01/28

リンク

画像を理解するGPT-4 Visionで、既存の画像認識モデルを説明可能にする ~ 新宿の特徴は"ビル群"だが、日本橋の特徴は"密集したビル"? ~ - エムスリーテックブログ

特化型モデルで識別・ピクセル重要度抽出した後に、GPTで自然言語に変換する画像認識モデルを作ったら、そのモデル自体から"こういうオブジェクトがあるから私はこう認識したんだよ"と教えてほしくありませんか？今回作るのは、図のように、写真が東京都中央区で撮られているとわかるのは、"照明と配管"が特徴的で、"箱やパッケージが多い"から市場らしさがあるんだよ、と自分で説明してくれるAIです。背景ですが、機械学習が、それを本業とする人以外にも幅広く使われるようになってくるのに伴い、モデルの説明可能性も重要視されているように思います。テーブルデータからの識別問題であれば重要な項目を特徴重要度などから測ることはできなくはない *1ですし、自然言語処理であればどういうトークンが重要だったかというところである程度解釈できるように思います。それらに比べても、画像処理・信号処理の分野での特徴重要度という

xiangze 2023/12/05

LLM

リンク

GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

xiangze 2023/12/05

リンク

大規模言語モデルの事前学習知見を振り返る

はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学横田研究室B4の藤井(@okoge_kaz)です。 2022年11月末にChatGPTがリリースされてから早1年、2023年は大規模言語モデル開発の領域において飛躍の１年となりました。国内でもCyberAgent, PFN, ELYZAを筆頭に3B〜13B程度のモデルが多数公開され、多くの方にとってLLMが身近になった1年であったかと思われます。 Turingでは完全自動運転の実現に向けた研究開発の一環としてLLMに早くから着目し、社内で研究開発を行ってきました。また、私はLLM-jp 13Bの開発など国内の言語モデル開発に複数関わっている関係上、それらを通じて様々な生きた開発知見を多数得てきました。そのような中で、実際に手を動かす実働部隊が「公開されている知見」をきちんと理解しておくことの重要性を日々

xiangze 2023/12/04

LLM

リンク

ローカルLLMを用いて霧雨魔理沙とおしゃべりできるlinebotを作った話①モデル編 - Qiita

宣伝｢おしゃべり魔理沙AI｣という霧雨魔理沙とおしゃべりできるline-botを作りました。よかったら遊んでみてください。 linebotのurl https://lin.ee/DAY6iGc linebotの運営用Xアカウント https://twitter.com/osyaberi_marisa 作者のお財布事情とlinebotとの兼ね合いにより、通算で月200回しか使えないです。｢動かないな｣と思ったら、そういうことです。赤字垂れ流しなので許してください。概要ローカルLLMをファインチューニングして、東方projectというゲームに出てくる霧雨魔理沙とおしゃべりできるlinebotを作りました。 Qiitaの記事としては｢①モデル編｣と｢②linebot編｣の2つになります。｢②linebot編｣のリンクはこちら｢①モデル編｣では｢おしゃべり魔理沙モデル｣の作り方につ

xiangze 2023/11/30

LLM

リンク

【西川和久の不定期コラム】 LLMがローカルで動くパラメータ数どこまで？Metaの「Llama 2」を試してみた

xiangze 2023/11/30

LLM

リンク

第6回 LLM 勉強会

2023年11月29日（水）に国立情報学研究所にて第６回 LLM 勉強会を開催しました。プログラム LLM-jp 状況報告（黒橋） [資料] LLMの安全対策サーベイと日本語データ（理研AIP 鈴木久美） [資料] ビジネスのドメインや最新情報に対応した130億パラメータの日本語事前学習モデルの開発（ストックマーク近江） [資料] 医療における大規模言語モデルの可能性と進歩（東大小寺） [資料] コーパス構築WG（河原） [資料] モデル構築WG（鈴木） [資料] 評価・チューニングWG（宮尾） [資料] 安全性WG（関根） [資料] 参加者現地26名・オンライン150名程度

xiangze 2023/11/30

LLM

リンク

Turing-NLG: A 17-billion-parameter language model by Microsoft - Microsoft Research

Microsoft Research Forum Episode 3: Globally inclusive and equitable AI, new use cases for AI, and more In the latest episode of Microsoft Research Forum, researchers explored the importance of globally inclusive and equitable AI, shared updates on AutoGen and MatterGen, presented novel use cases for AI, including industrial applications and the potential of multimodal models to improve assistive

xiangze 2023/11/29

nlp
LLM

リンク

なぜ日本はGPUのない「富岳」でLLMを研究するのか　外国に後れを取らないための“現実的な理由”

米OpenAIの大規模言語モデル（LLM）・GPT-4は今、世界を大きく塗り替え続けている技術の一つだ。世界各国の企業がこぞってLLMの開発を進めている。特にGAFAなどの巨大企業は、その膨大な資源を使ってすでにいくつものLLMを世に放っている。そんな中、日本では理化学研究所と富士通、東京工業大学、東北大学が、スーパーコンピュータ「富岳」を使ったLLMの研究を今まさに進めている。学習手法の研究からデータの法的な扱いまで幅広く検討し、日本のLLM開発の基盤を作るのが目的だ。深層学習といえば、今ではGPUを使うのが一般的になっている。しかし富岳はそのGPUを搭載していない。日本にはGPU搭載スパコンも存在するのに、なぜ富岳を使ってLLMを研究するのか。今回は富士通研究所・コンピューティング研究所の中島耕太所長と白幡晃一さんに、富岳を使ったLLM研究について、その意義を聞いた。富岳は確かに

xiangze 2023/11/28

LLM
gpu

リンク

LLM時代の強化学習 - どこから見てもメンダコ

強化学習におけるLLMの活用パターン調査はじめに：実世界における強化学習の課題 LLM×強化学習人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策マルチモーダルLLM as 確率方策参考：GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに：VLM as 確率方策に期待はじめに：実世界における強化学習の課題レトロゲームで人間並みのパ

xiangze 2023/11/27

リンク

ローカルLLMの情報まとめ｜npaka

「ローカルLLM」の記事が増えてきたのでまとめました。「Llama 2」ベースのローカルLLMについては、以下でまとめています。

xiangze 2023/11/26

LLM

リンク

【令和最新版】何もわからない人向けのローカル LLM 入門

こんにちは、Saldraです。普段はPictoriaという会社でAIの美少女の錬成に励んでいるエンジニアです。この記事はローカルLLMの概要をつかむことを目的とします。対象読者は以下です。なんとなく ChatGPT は使ったことある人ローカル LLM を聞いたことあるけどやったことない人ローカル LLM とは OpenAIがAPIを公開してから、大規模言語モデル（以降LLMとします）は大きく進化していきました。この進化はOpenAIのAPIだけでなく、ローカルLLMも進化をしています。ローカルLLMとは「一般向けにファイルとして公開されたモデル」で推論させる遊びです。APIは便利ですが、インターネットの接続が必要であったり、API提供側に依存する問題があります。ローカルLLMは自前で運用ができるため、APIにはないメリットや魅力があります。一方で、環境構築やマシンスペック等、少し始

xiangze 2023/11/26

LLM

リンク

大規模モデルを支える分散並列学習のしくみ Part1

はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。自然言語処理分野における大規模深層学習の重要性は日に日に高まっていますが、GPT-3, GPT-4 などのモデルの学習には膨大な計算コストがかかり、容易に学習できなくなっています。実際、モデルサイズが近年急速に大きくなっていることにより、学習に必要な計算量(FLOPs)は以下のように年々膨大になっています。近年の大規模モデルでは、NVIDIA H100 80GB であっても 1 つの GPU では、モデルをのせることすらできません。 Compute Trends Across Three Eras of Machine Learning よりまたScaling Laws によると、大規模なモデルは小さいモデルと比較してより優れた性能を発揮するため、自動

xiangze 2023/11/26

リンク

はてなブックマーク

タグ

関連タグで絞り込む (33)

LLMに関するxiangzeのブックマーク (56)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス