タグ

自然言語処理に関するs_ryuukiのブックマーク (589)

  • 言語モデルの物理学 - ジョイジョイジョイ

    言語モデルの物理学 (Physics of Language Models) とは、FAIR (Meta) の Zeyuan Allen-Zhu が提唱した、言語モデルの研究を進めるためのコンセプトです。ざっくり言うと、「あのモデルはこう」とか「そのモデルはこのモデルよりもこう」というような博物学的な知識を深めるのではなく、17世紀にケプラーやニュートンが物理学において行ったような原理に基づいた研究を進め、「言語モデルはなぜこのような振る舞いをするのか」という問いに答えられるようになるべきという考え方です。 言語モデルの物理学の特徴は大きく2つあります。 第一は、ウェブから収集したコーパスを使わず、きっちりコントロールされたデータセットを使って言語モデルを訓練するということ。ウェブは誰も全体像を理解できないほど複雑で、ノイズにまみれています。物の物理学でも空気抵抗や摩擦があると、「鉄球は

    言語モデルの物理学 - ジョイジョイジョイ
  • 日本語からイラスト生成プロンプトに翻訳する LLM を作った

    TL;DR 日語から danbooru タグに翻訳する LLM を作った LLM を使ってデータセットを合成した 成果物 Danbooru tags Translator で略して Danbot です (Danbooru + Bot にもなります)。前回は Dart でしたが流石に名前被りが多くて検索しずらそうなので変えました。 モデル: 作成したデータセット: ComfyUI カスタムノード: 結果だけ見たい方は #画像生成結果 へ。 前提 この記事は、前回の プロンプトは考えたくないけど画像生成がしたい! となっています。 割と前回の手法について触れることがあるので、前回の記事を読まないと理解できない箇所があるかもしれません。 はじめに 前置きは前回の記事と同じなのでざっくり説明します。 画像生成モデルのプロンプト、考えるの難しい じゃあプロンプトを LLM で生成しよう という感じ

    日本語からイラスト生成プロンプトに翻訳する LLM を作った
  • 言語モデルの内部機序:解析と解釈

    2025-03-10, 言語処理学会 第31回年次大会でのチュートリアル「言語モデルの内部機序:解析と解釈」のスライドです。

    言語モデルの内部機序:解析と解釈
  • Deepseekでも使われてる技術「蒸留」ってなに? - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 「蒸留」ってなに? 皆さん「蒸留」という言葉からは、お酒を作る場面やアロマオイルを抽出する場面を思い浮かべるかもしれません。実はAIの世界にも「知識蒸留」というテクニックがあります。これは、簡単に言うと「大きくて賢いモデル(教師モデル)が持っている知識を、小さくて軽量なモデル(生徒モデル)に教え込む」方法です​。 先生が自分の知恵を要点だけノートにまとめて、生徒に渡すようなイメージですね。大規模なAIモデルは高性能ですが、サイズが大きく計算コストも莫大です。知識蒸留を使えば、その高性能な教師モデルの知識の“エッセンス”を抽出して生徒モデ

    Deepseekでも使われてる技術「蒸留」ってなに? - Qiita
  • 「chakoshi」を試して遊んでみる

    chakoshiとはなんぞ NTTコミュニケーションズが発表した、テキストの安全性を判定するサービスです。 つい先日発表されたばかりのようです。 簡単に試せるプレイグラウンドだけでなく、APIも無償提供されてるみたいです⭐️ ↓こういうネチネチした日的な暴言などに反応して、テキストが安全かどうかを返してくれます。 今回はこのAPIを使ってみたいと思います。 公式ドキュメントを読んでAPIを触る まずは公式サイトから新規登録してドキュメントを読み漁ります。 手順的には以下で準備ができそうです。 プレイグラウンドの設定からAPIキーを発行する 検知項目をいろいろ設定して、カテゴリのIDも保存する(今回はデフォルト) APIドキュメントを読んだところ... 短文のテキスト用、chat用などいくつか種類があるみたいですが、まずはテキスト用のシンプルなやつから叩きます。 早速curlで叩いてみます

    「chakoshi」を試して遊んでみる
  • DeepSeek-R1の論文読んだ?【勉強になるよ】

    記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。 論文で使われている技術に関しては、ある程度の知識を持っているので、大きくは外していないとは思いますが、私の主観も入っている部分もありますので、ご了承ください。 また、DeepSeek-R1の論文が公開される前に、小型モデルに対して同様の実験(強化学習)をしていたグループがあるようです。 そちらのレポートは下記になります。 意図せず、DeepSeek-R1-Zeroの再現実験のようなレポートになっていますが、レポートの著者はDeepSeek-R1論文の公開前から実験していると主張しています。 こちらも非常に興味深かったため紹介です。 論文の興味深いところ 論文は、大きく分けて3つの構成でできています 強化学習による思考能力の強化 LLM(DeepSeek-V3-Base)に対

    DeepSeek-R1の論文読んだ?【勉強になるよ】
  • DeepSeek狂奏曲

    DeepSeek狂奏曲 2025.01.30 Updated by Ryo Shimizu on January 30, 2025, 08:35 am JST DeepSeekという中国製のモデルが世界を席巻している。 OpenAIが有償で提供するo1より高性能だとか、OpenAIの規約に違反した方法で学習されているとか、色々あるのだが、それを噂する人々が不正確な情報に基づいてピーチクパーチクやっているだけなので基的にメディアにはほぼ出鱈目な情報しか出ていない。 まず、整理しておきたいのは、DeepSeek(特にV3とR1)とは何か、ということだ。 DeepSeek-V3は、GPT-4o相当のAIであり、オープンウェイト(AIの学習結果=重みが公開されている)で公開されている。オープンソースではない。 DeepSeek-R1は、o1相当のAIであり、こちらもオープンウェイトで公開されてい

    DeepSeek狂奏曲
  • DeepSeek推しのローカルLLM勢から見るDeepSeek|Holy_fox

    はじめに初めまして、ほーりふぉっくすと申します。 この記事ではDeepSeekがなぜここまで流行り、選べられているのかを大規模言語モデル(LLM)の開発を生業としてる人がローカルLLM勢の視点から説明します。 ※ローカルLLMとは自分のデバイス上で動く大規模言語モデルのことです。 自己紹介ローカルLLM開発をしているほーりふぉっくす(https://x.com/Holy_fox_LLM)と申します。 DeepSeekを去年の8月よりデータ生成・コード生成に使っており、日人の中では多分結構早く触っていた方だと思います。 そんな私から見るDeepSeek社、DeepSeek v3 DeepSeek R1について書いていこうと思います。 DeepSeekの概要2023年に中国の浙江省杭州市で設立されたAI開発を専門とする企業です。 そしてそのDeepSeekが出したモデルがDeepSeek-v

    DeepSeek推しのローカルLLM勢から見るDeepSeek|Holy_fox
  • DeepSeek R1が何故OSSとして発表されたか - サッとぶ

    タイトルについてだが、これは「R1は米国の輸出規制が無ければ開発しえなかった。つまり輸出規制は逆効果だ!」という事をアメリカに(そして全世界に)喧伝する為だったのでは?という考察。 なぜなら米国の輸出規制のおかげでdeepseekは安くて性能の低いチップを使うしかなく、結果的に中間命令セットであるPTXを使用するしか無くなって、その方向で学習効率を上げようと努力したからだ。そして低コストでo1に匹敵するモデルを開発するに至った。 OSSとして発表する事でこの事実に説得力が生まれるし、また世界の注目も集めやすいと思える。(もちろん世界中でこの方向性で研究開発が進んでその成果を自分達も利用したい、という事も大きいとは思うがそれはOSSでは当たり前なので割愛) ただしPTX(Parallel Thread Execution)はNVIDIA用のチップ向けに開発されたものなので依然としてNVIDI

    DeepSeek R1が何故OSSとして発表されたか - サッとぶ
  • DeepSeek まとめ|七誌

    DeepSeek についての情報が錯綜しているため、目についたトピックスをまとめました。 ※ 個々の内容には深入りしませんが、可能な限り情報ソースを示しますので、詳細はそちらをご確認ください。 DeepSeekDeepSeek が何かという情報は大量にあるため、記事では省略します。ほぼ同時期に公開された記事を紹介します。

    DeepSeek まとめ|七誌
  • 話題の中華LLM「DeepSeek R1」の日本語追加学習モデル サイバーエージェントが無料公開

    サイバーエージェントは1月27日、大規模言語モデル(LLM)「DeepSeek-R1」を使った新たなAIモデルを無料公開した。「DeepSeek-R1-Distill-Qwen-14B/32B」をベースに、日語を追加学習させたLLM「DeepSeek-R1-Distill-Qwen-14B/32B-Japanese」をHugging Face上で公開。ライセンスは、MITライセンスで商用利用なども可能だ。

    話題の中華LLM「DeepSeek R1」の日本語追加学習モデル サイバーエージェントが無料公開
  • J-Moshi

    語Full-duplex音声対話システムの試作 Paper (To appear) | Model | Code 大橋 厚元,飯塚 慎也,姜 菁菁,東中 竜一郎 名古屋大学 大学院情報学研究科 概要: 人間同士の対話における発話のオーバーラップや相槌など,同時双方向的な特徴をモデル化できるfull-duplex音声対話システムは,近年注目を集めている.しかし日語においては,full-duplex音声対話システムはほとんど見られず,full-duplex音声対話システムの開発に関する知見は不足している.研究では,英語における主要なfull-duplex音声対話システムであるMoshi[1] をベースとすることで,日語で利用可能な最初のfull-duplex音声対話システム J-Moshi[2] を試作し,公開する.

  • 日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita

    はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日語をメインターゲットに開発されているわけではありません。日語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日語ドキュメント特有のレイアウトに対処する必要があったりと日語特有の難しさがあります。 ですが、今後、海外の開発者がこれらの課題に対処するため、日のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。 もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ

    日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita
  • AIの女の子がわいわい競馬予想するシステムを個人展示したら倍率2000倍の馬券が当たってしまった (1)設計思想編 - Qiita

    何が起きたのか 生成AIが好きな個人がなんでも出展できる、 「なんでも生成AI展示会」 というイベントがありまして、 11/16(土) 12:30 ~ 18:00にて「#生成AIなんでも展示会」を開催します🎉 個人の方が生成AIで作っているものを見ることができる・体験することができるイベントになっています! 申し込みURLは以下⬇️https://t.co/aNIQ6myJ4q 以下の方との共同主催です@sald_ra @GianMattya @miketako3 @Yanagi_1112 — ようさん (@ayousanz) September 28, 2024 人づてに出展しないか誘われたので、ストレス解消がてら9月頃から「マルチエージェントLLM(大規模言語モデル)オーケストレーション」というコンセプトで競馬予想をするシステムをシコシコと土日に作っておりました。 (ふだんは仕事でウ

    AIの女の子がわいわい競馬予想するシステムを個人展示したら倍率2000倍の馬券が当たってしまった (1)設計思想編 - Qiita
  • ドキュメントをMarkdownやJSONに変換してくれる「Docling」を試す

    ここで知った。 試しに、神戸市が公開している観光に関する統計・調査資料のうち、「令和5年度 神戸市観光動向調査結果について」のPDFで一度試していたのだけども: (出典) 神戸市Webサイトの「観光に関する統計・調査」のページ 上記にある「令和5年度 神戸市観光動向調査結果について」のPDF語でも、概ね問題なく、表などもきれいにパースされる ただし、表が画像 になってる場合に、うまく解釈されない(表は解釈されるが、中の文字が化ける) OCRが正しくできていない可能性 というのがあって、ドキュメント読んだけどわからなくて、それ以上深追いしてなかった。 ただ、X界隈を見る限りは評判は良さそうで、いろいろ記事も出てきたみたいなので、改めて試してみる。 GitHubレポジトリ ドキュメント Docling Doclingは、ドキュメントを解析し、簡単かつ迅速に希望の形式にエクスポートします。

    ドキュメントをMarkdownやJSONに変換してくれる「Docling」を試す
  • Ollamaで体験する国産LLM入門

    近年、AI 分野の中でも特に大規模言語モデル(LLM)の研究開発が急速に進展しています。日国内においても、日語に特化した「国産 LLM」の開発競争が激化しています。さらに、比較的小規模なパラメータ数でありながら高い性能を持つモデルが次々と登場し、特別な GPU 環境がない手元の PC でも、LLM を手軽に動かせる時代が到来しつつあります。 書では、まず LLM を「動かす」こと、すなわち推論(Inference) に焦点を当て、そのために必要な基的な知識を分かりやすく解説します。LLM の学習やファインチューニングには膨大な知識や計算資源が必要ですが、単に既存のモデルを動かすだけであれば、いくつかの重要なポイントを押さえることで、どなたでも比較的容易に始めることができます。 その上で、近年注目を集めている LLM 推論フレームワーク Ollama を活用し、実際にいくつかの代表的

    Ollamaで体験する国産LLM入門
  • Geminiを使ったらKaggle初挑戦、参加期間10日間でも5位入賞できたので手法をすべて書く - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 一言で言うと? この記事を一言で言うと、kaggleのあらゆる情報をマークダウン形式にしてまとめて(約50万トークン)、Geminiのプロンプトに入れたらいい感じだった!という内容です。 はじめに こんにちは!yukky_maruです。先日、KaggleのLLM 20 Questionsのwinner callが無事終わって賞金もいただき、一段落ついたので、今回自分が使った方法をシェアしたいと思います。 なお、この金メダルは半分くらいはGeminiのおかげです! Gemini を活用しまくりました。ChatGPTやClaudeではない理

    Geminiを使ったらKaggle初挑戦、参加期間10日間でも5位入賞できたので手法をすべて書く - Qiita
  • WSL2でLongWriterを試してみる|noguchi-shoji

    24GBしかVRAMのない星飛雄馬のようなご家庭のPCでも動いちゃう おもいこんだら、なので、LongWriterを星飛雄馬のようなご家庭のPC「RTX 4090(24GB)」で試してみます。 使用するPCはドスパラさんの「GALLERIA UL9C-R49」。スペックは ・CPU: Intel® Core™ i9-13900HX Processor ・Mem: 64 GB ・GPU: NVIDIA® GeForce RTX™ 4090 Laptop GPU(16GB) ・GPU: NVIDIA® GeForce RTX™ 4090 (24GB) ・OS: Ubuntu22.04 on WSL2Windows 11) です。 1. 準備環境構築python3 -m venv longwriter cd $_ source bin/activateパッケージのインストール。 pip ins

    WSL2でLongWriterを試してみる|noguchi-shoji
  • こいつを待ってた!3万字以上自動的に書いてくれるオープンLLMが登場!三回回せば本一冊分に!

    なんか最近、いろんな会社が「おらが村のLLMが凄いだ」と言ってるが、実際には100万トークン読めても出力が8Kまでだったり、もっとひどいと4Kだったりと、LLMの価値はパラメータ数では決まらず、むしろどのくらい長い文章を出してくれるのかということの方が大事だ。僕がLLMでを書いたのはもう一年前だが、このときは4Kくらいしか出力してくれなくて往生したものである。 ところがなんということでしょう。ついに出ました。原稿を代わりに書いてくれそうな素敵なオープンソースLLMが。その名も「LongWriter」 Apacheライセンス、しかも訓練コード付き。つまりご家庭で自分好みにファインチューニングもできちゃう。しかもこの言語モデル、なんと8Bしかないんですよ奥さん。24GBしかVRAMのない星飛雄馬のようなご家庭のPCでも動いちゃうというワケですよ。なんという不都合な真実。いいのかおい。 AI

    こいつを待ってた!3万字以上自動的に書いてくれるオープンLLMが登場!三回回せば本一冊分に!
  • [翻訳]LLMで1年間開発して学んだこと〜LLMプロダクト開発を成功に導くための実践的ガイド〜

    この記事は "What We’ve Learned From A Year of Building with LLMs" という記事を著者の一人である Eugene Yan さんから許可を得て翻訳したものです。 https://applied-llms.org/ Thank you for giving me a permission to translate this wonderful article! 著者の方々 Eugene Yan Bryan Bischof Charles Frye Hamel Husain Jason Liu Shreya Shankar 原文の公開日 2024/6/8 今は大規模言語モデル(LLM)を使った開発がとってもエキサイティングな時期です。この1年間で、LLMは実世界のアプリケーションに対して「十分に良い」ものになりました。そして、年々良くなり、安く

    [翻訳]LLMで1年間開発して学んだこと〜LLMプロダクト開発を成功に導くための実践的ガイド〜