ブックマーク / note.com (161)

  • RAGに関する主要な論文を時系列順にまとめていく(2024年度版)|R

    RAGに関する主要な論文まとめていきます。(過去の分含めて随時更新予定) 見つけたものからまとめているので、最新の2024年以降の論文多めです。 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(22/05/2022) 一言紹介❓ LLMって、事前学習された知識に関しては答えてくれるけど、最新のニュースだったり、専門的な情報や組織固有の情報には対応できないよなぁ 💡 外部知識をLLMに検索させよう!→RAGの誕生 Abstract日語訳大規模な事前学習済み言語モデルは、そのパラメータに事実知識を蓄積し、下流の自然言語処理(NLP)タスクに微調整されたときに最先端の成果を達成することが示されています。しかし、知識をアクセスして正確に操作する能力は依然として限られており、知識集約型タスクでは、タスク固有のアーキ

    RAGに関する主要な論文を時系列順にまとめていく(2024年度版)|R
  • Llama 3.2 の使い方|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Llama can now see and run on your device - welcome Llama 3.2 1. Llama 3.2 Vision 11B・90B1-1. Llama 3.2 Vision 11B・90B「Llama 3.2 Vision 11B・90B」は、Metaがリリースした最も強力なオープンマルチモーダルモデルです。画像+テキストのプロンプトでは英語のみ、テキストのみのプロンプトでは英語ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語をサポートしています。 コンテキスト長は128kトークンで、画像を含む可能性のある複数ターンの会話が可能です。ただし、モデルは単一の画像に注目する場合に最適に機能するため、transformers実装では入力で提供された最後の画像のみに注

    Llama 3.2 の使い方|npaka
  • 「AIに仕事を奪われた絵師」な訳だが|走り書き

    「当然の時代の流れだった」と思っているという話。 最初に書いておくとこれはAIに反対する記事ではないので、規制を推奨する内容を期待して開いた人はブラウザバックをお勧めする。 あと推敲全然しないで思いつくままに書いてるから、すごく読みづらい。 それでも良いという人は以下にどうぞ。 2年ちょっとくらい前まで、イラストっていた。 ただし、バリバリ企業と契約とかして1枚10万とか取っているプロイラストレーターではない。 ココナラとかSkebとかSKIMAとか、そういうコミッションサイトでフリゲーやTRPGVtuber用の立ち絵イラストを1枚1万弱で売り捌いている、いわゆる「アマチュア底辺絵師」だった。 (そう呼ばれる層にいた、という意味で「底辺」という言葉をあえて使う) 絵のクオリティは全身立ち絵で1万円ついたらいい方ってくらいの、「X(旧Twitter)でよく見るちょっと絵が上手い人」のラ

  • ローカルLLMに小説を書いてもらう v2|Kohya S.

    この時はそれぞれ単独のプロンプトで小説家と編集者を演じさせましたが、今回はもうすこしシステマチックに、段階を踏んで小説を生成させてみます。 プロンプトの検討等にはkgmkm氏のリポジトリや記事を参考にさせていただきました。この場を借りてお礼申し上げます。 仕組みを相談するのにClaude (3.5 Sonnet)とやり取りをしていましたので、この記事の草稿も書いてもらいました。所々、なんとなく冗長だったり文体が違ったりしますが、面倒なのでそのままにしてあります(すみません)。 生成スクリプト生成スクリプトとプロンプト定義はgistに置きました。 https://gist.github.com/kohya-ss/68d41a9720bfbdfd87869ec970142f4b 概要近年、大規模言語モデル(LLM)の発展により、AIによる文章生成の可能性が大きく広がっています。今回はローカル環

    ローカルLLMに小説を書いてもらう v2|Kohya S.
  • 無料で使える最高のAIノート『NotebookLM』使い方と活用事例|AI-Bridge Lab こば

    こんにちは!最近、ChatGPTと話しすぎてAI風の口調がうつってきたAI-Bridge Labのこばです!👋 今回の記事はGoogleのサービス『NotebookLM』(ノートブックLM)について 1.NotebookLMの概要 2.使い方 3.具体例として過去のnote記事を全部読ませた結果どうなったか この3点を分かりやすくご紹介します! 先に結論だけお伝えするとかなり実用性が高くオススメのツールです! そしてこの記事を読んで頂ければご自身での活用法が想像できるようになると思いますので、ぜひ最後まで読んで頂けますと幸いです! 1.NotebookLMの概要公式サイト:https://notebooklm.google.com/ NotebookLMは、Googleが提供する生成AIサービスで、ユーザーのメモ書きやアップロードした資料を基に情報を整理し、質問に答えることができる革新的

    無料で使える最高のAIノート『NotebookLM』使い方と活用事例|AI-Bridge Lab こば
  • GPT-4o の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

    GPT-4o の概要|npaka
  • 続・画像生成AIに自分の絵を描かせた|R-9

    2023年の5月の連休の前後より、自作イラストの追加学習データ(LoRA)を元にローカル環境のStable Diffusion (SD1.5)を使ってAIに"自分の絵"を描かせるようになってから、おおよそ一年が経ちました。当時そのことについて書いた記事は、比較的多くの方に読んでいただけたようで、SNSなどを通じて今も時々リアクションがあります。 この一年間、多少の波はあっても、自分としてはこつこつとコンスタントに同じテーマに取り組んできました。成果の一部はX(@epxstudio_ai)で発表していましたが、その過程で新たに得られた知見や、画像生成AIの活用方法についてぼんやり考えたことなどがあるので、件の記事の続編として少し書いてみようと思います。 前提としてわたしはGペンとスクリーントーンの時代からの20年来のアマチュア同人作家で、普段絵とはまったく関係ない仕事をしており、かつ、イラス

    続・画像生成AIに自分の絵を描かせた|R-9
  • Dify で RAG を試す|npaka

    1. RAG「RAG」(Retrieval Augmented Generation) は、最新の外部知識の習得とハルシネーションの軽減という、LLMの2つの主要課題に対処するためのフレームワークです。開発者はこの技術を利用して、AI搭載のカスタマーボット、企業知識ベース、AI検索エンジンなどをコスト効率よく構築できます。これらのシステムは、自然言語入力を通じて、さまざまな形態の組織化された知識と相互作用します。 下図では、ユーザーが「アメリカの大統領は誰ですか?」と尋ねると、システムは回答のためにLLMに質問を直接渡しません。代わりに、ユーザーの質問について、知識ベース (Wikipediaなど) でベクトル検索を実施します。意味的な類似性マッチングを通じて関連するコンテンツを見つけ (たとえば、「バイデンは現在の第46代アメリカ合衆国大統領です...」)、LLMに発見した知識とともにユ

    Dify で RAG を試す|npaka
  • なんとなく言語 (学) に興味がある人のためのブックガイド|長屋尚典

    「なんとなく言語 (学) に興味がある人のためのブックガイド」をつくりました。 「なんとなく言語 (学) に興味があるのでもうちょっと読んでみたい」 「言語学にどんな分野があるのか知りたい」 「専門的に勉強したいというほどではないのだけれど、もうちょっと何か読んでみたい」 という人のために、言語 (学) についての入門的なを紹介します。 これらのを読んで言語 (学) っておもしろいなと思ったら、ぜひ大学などで言語学の授業を受けたり、専門的な入門書を読んだりしてください。 あるいは、以下の記事を参考に自分で言語学を勉強してみるとよいでしょう。 あくまで、なんとなく言語 (学) に興味がある人のためなので、注意点がいくつかあります。 網羅的なリストではありません。まだまだ編集中です。おもしろかったがあったら教えてください。 基的に和書で、一般向けのを紹介しています。 出版年順に並べて

    なんとなく言語 (学) に興味がある人のためのブックガイド|長屋尚典
  • いちばんやさしいローカル LLM|ぬこぬこ

    概要ローカル LLM 初めましての方でも動かせるチュートリアル 最近の公開されている大規模言語モデルの性能向上がすごい Ollama を使えば簡単に LLM をローカル環境で動かせる Enchanted や Open WebUI を使えばローカル LLM を ChatGPT を使う感覚で使うことができる quantkit を使えば簡単に LLM を量子化でき、ローカルでも実行可能なサイズに小さくできる 1. はじめに大規模言語モデル(LLM)の数は数年前と比べてたくさん増えました。有名な LLM を使ったチャットサービスとして、OpenAIChatGPT や Anthropic の Claude、Google の Gemini などがありますが、これらのサービスの中で利用されている大規模言語モデルは公開されていません。 現状、様々な評価指標により LLM の性能が測定されていますが、

    いちばんやさしいローカル LLM|ぬこぬこ
  • Command R の 概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Command R: Retrieval-Augmented Generation at Production Scale 1. Command R「Command R」は、「RAG」や「Tool」などの長いコンテキストタスク向けに最適化されたLLMです。CohereのEmbeddingおよびRerankと連携して動作するように設計されており、RAGアプリケーションに最高クラスの統合を提供し、エンタープライズユース ケースで優れています。 特徴は、次のとおりです。 ・RAGとToolの使用に関する高い精度 ・低遅延、高スループット ・128Kコンテキスト長、価格が安い ・10の主要言語に対応 (日語含む) ・研究・評価のためにHuggingFaceでウェイトを公開 「Command R」は、Cohere のホストAPIですぐに利用でき

    Command R の 概要|npaka
  • 農業テロ|さがみ

    みなさんは農業テロという単語を知っているだろうか。農業テロは農業に対してのテロ行為(病原菌をばら撒くなど)を指す。 <実際の例> ・1989年にブラジルのバイーア州でカカオプランテーションにカカオの天敵である天狗巣病を引き起こす菌類が発生した。バイーア州はブラジルのカカオ生産の中心地だった。バイーア州は地理的に他の地域と隔絶しており、菌類もバイーア州に入ってきたことはなかった。プランテーションの環境も味方して病気は瞬く間に広がった。ブラジルは当時世界第二位のチョコレート生産国だった。それが4年後にはチョコレートの純輸入国となった。その現状は今も変わらない。この出来事によって25万人の農園労働者が職を失い、100万人が都市へ移住した。多くの人が自殺した。この出来事はたった六人によって引き起こされた。菌類は彼らによってばら撒かれたのだ。彼らはカカオ生産に関する専門的な知識を持つ技術者だった。こ

    農業テロ|さがみ
  • 大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama

    はじめに以下のオープンなプロジェクトの一環で、大規模言語モデルをフルスクラッチで作る練習をします。24年3月現在、協力者も募集中です。 リポジトリ当該プロジェクトの標準コードが公開※されたので、それを走らせてみます。 ※24/3/5時点で、まだレポジトリ内に、工事中の箇所が多々、あります。 このリポ上では、事前学習ー事後学習ー評価まで、一気通貫(?)したパイプラインが提供されています※。 0. 環境構築プロジェクト番環境はクラウドですが、今回は手持ちのubuntuを使います。 Dockerはお手軽な一方で、スパコン上で使うと、どうやら速度が落ちるらしいとの噂を聞いたので、condaで作ります(とはいえ、pipしか使わないので、pyenvでもいけると思います)。 必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク

    大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama
  • 驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z

    昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。 この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。 オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。 論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装

    驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z
    yk_uminami
    yk_uminami 2024/02/29
    これが革新になるかどうか。
  • AIアニメを作った話|852話

    2/6になんかt2vでいきなりAIanimeがうまく行ったのでそこから9日まで徹夜しながら色々模索してました。

    AIアニメを作った話|852話
    yk_uminami
    yk_uminami 2024/02/11
    どんどん進化するな〜。すごい。まだ実験敵だけど、5年と経たずに産業化するだろうか。
  • 15年間いた奨励会を退会しました。僕の将棋人生の感想戦です。|西山晴大

    2024年2月3日の三段リーグの結果にて、勝ち越し延長の可能性が消え奨励会退会となりました。 日将棋連盟の奨励会は、将棋のプロ棋士を目指す若者たちが訓練し、技術を磨くための組織です。奨励会のメンバーは厳しい選考を経て入会し、定期的に開催されるランキング戦に参加しながら、プロ棋士になるための段階を一つ一つ登っていきます。 奨励会は三段から6級までで構成されており、二段までは東西にわかれて行い、規定の成績を上げると昇級・昇段となります。三段になると東西をあわせてのリーグ戦を半年単位で行い、上位二名が四段に昇段し、正式に棋士となります。 https://www.shogi.or.jp/match/shoreikai/ より。 奨励会は将棋を学び、上達したいと願う若者たちにとって非常に価値のある場所であり、将棋界の未来を担う才能を育成するための重要な役割を果たしています。プロになることは非常に難

    15年間いた奨励会を退会しました。僕の将棋人生の感想戦です。|西山晴大
  • AIアニメの作りかた ComfyUI|852話

    AIアニメの作り方を説明していきます。 ざっくりな説明は上の動画を見ていただければわかるんですが、 少し細かい説明がこの記事になります。 完成物これはワンダープロジェクトJ2というゲーム二次創作アニメですが、30年近く前の作品です。 今回の流れは ・AIの一枚立ち絵を用意する ・AnimateAnyone-Evolvedで骨に沿って動かす ・AAEでつくった画像をControlnetをかけつつAIブラッシュアップ ・AfterEffectsで背景抜き ・AI背景一枚絵を用意する ・Runwayで動かす(ComfyUIでもできるが質がいいし時短になる) ・キャラの後ろに配置、キャラの画像を複製して影にして足元に配置 ・完成 です。 作業はComfyUIで行います。 ・AIの一枚立ち絵を用意する ・AnimateAnyone-Evolvedで骨に沿って動かす 骨を抜いたのはこちらのフリー動画

    AIアニメの作りかた ComfyUI|852話
  • 2024年版:データエンジニア向け推薦本リスト|zono

    世間ではデータエンジニアリングが流行しており、エンジニアからは人気が出て、企業からはその能力が求められています。 データエンジニアは、データの収集、蓄積、分析、活用に必要なデータ基盤を構築・運用する職種です。データエンジニアとして活躍するためには、非常に幅広い知識と能力が求められます。 データベース プログラミング システム開発 クラウドサービス データ分析 etc……. 私は多少データエンジニアとして経験を積んできており、業務を行う上で読んで良かったと心から思えるがあったのでこちらで紹介します。どなたかの一助になれば幸いです。 初級向けデータエンジニアリング ではありませんが、データエンジニアリングに必要な知識がスライドやPDFに綺麗にまとまっています。初めて学ぶ方には適しています。前半のデータエンジニアリングの箇所だけ参考にして下さい。(後半はAzure製品について記載されています

    2024年版:データエンジニア向け推薦本リスト|zono
  • LangChain への OpenAIのRAG戦略の適用|npaka

    以下の記事が面白かったので、かるくまとめました。 ・Applying OpenAI's RAG Strategies 1. はじめに「Open AI」はデモデーで一連のRAG実験を報告しました。評価指標はアプリケーションによって異なりますが、何が機能し、何が機能しなかったかを確認するのは興味深いことです。以下では、各手法を説明し、それぞれを自分で実装する方法を示します。アプリケーションでのこれらの方法を理解する能力は非常に重要です。問題が異なれば異なる検索手法が必要となるため、「万能の」解決策は存在しません。 2. RAG スタックにどのように適合するかまず、各手法をいくつかの「RAGカテゴリ」に分類します。以下は、カテゴリ内の各RAG実験を示し、RAGスタックに配置する図です。 3. ベースライン距離ベースのベクトルデータベース検索は、クエリを高次元空間に埋め込み(表現)し、「距離」に基

    LangChain への OpenAIのRAG戦略の適用|npaka
  • OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka

    以下の記事が面白かったので、かるくまとめました。 ・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。 開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

    OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka