yk_uminamiのブックマーク - はてなブックマーク

RAGに関する主要な論文を時系列順にまとめていく(2024年度版)｜R

RAGに関する主要な論文まとめていきます。(過去の分含めて随時更新予定) 見つけたものからまとめているので、最新の2024年以降の論文多めです。 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(22/05/2022) 一言紹介❓ LLMって、事前学習された知識に関しては答えてくれるけど、最新のニュースだったり、専門的な情報や組織固有の情報には対応できないよなぁ 💡 外部知識をLLMに検索させよう!→RAGの誕生 Abstract日本語訳大規模な事前学習済み言語モデルは、そのパラメータに事実知識を蓄積し、下流の自然言語処理（NLP）タスクに微調整されたときに最先端の成果を達成することが示されています。しかし、知識をアクセスして正確に操作する能力は依然として限られており、知識集約型タスクでは、タスク固有のアーキ

yk_uminami 2024/09/29

LLM

リンク

Llama 3.2 の使い方｜npaka

以下の記事が面白かったので、簡単にまとめました。・Llama can now see and run on your device - welcome Llama 3.2 1. Llama 3.2 Vision 11B・90B1-1. Llama 3.2 Vision 11B・90B「Llama 3.2 Vision 11B・90B」は、Metaがリリースした最も強力なオープンマルチモーダルモデルです。画像+テキストのプロンプトでは英語のみ、テキストのみのプロンプトでは英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語をサポートしています。コンテキスト長は128kトークンで、画像を含む可能性のある複数ターンの会話が可能です。ただし、モデルは単一の画像に注目する場合に最適に機能するため、transf ormers実装では入力で提供された最後の画像のみに注

yk_uminami 2024/09/29

あとで読む

リンク

「AIに仕事を奪われた絵師」な訳だが｜走り書き

「当然の時代の流れだった」と思っているという話。最初に書いておくとこれはAIに反対する記事ではないので、規制を推奨する内容を期待して開いた人はブラウザバックをお勧めする。あと推敲全然しないで思いつくままに書いてるから、すごく読みづらい。それでも良いという人は以下にどうぞ。 2年ちょっとくらい前まで、イラストで食っていた。ただし、バリバリ企業と契約とかして1枚10万とか取っているプロイラストレーターではない。ココナラとかSkebとかSKIMAとか、そういうコミッションサイトでフリゲーやTRPGやVtuber用の立ち絵イラストを1枚1万弱で売り捌いている、いわゆる「アマチュア底辺絵師」だった。（そう呼ばれる層にいた、という意味で「底辺」という言葉をあえて使う）絵のクオリティは全身立ち絵で1万円ついたらいい方ってくらいの、「X(旧Twitter)でよく見るちょっと絵が上手い人」のラ

yk_uminami 2024/07/17

リンク

ローカルLLMに小説を書いてもらう v2｜Kohya S.

この時はそれぞれ単独のプロンプトで小説家と編集者を演じさせましたが、今回はもうすこしシステマチックに、段階を踏んで小説を生成させてみます。プロンプトの検討等にはkgmkm氏のリポジトリや記事を参考にさせていただきました。この場を借りてお礼申し上げます。仕組みを相談するのにClaude (3.5 Sonnet)とやり取りをしていましたので、この記事の草稿も書いてもらいました。所々、なんとなく冗長だったり文体が違ったりしますが、面倒なのでそのままにしてあります（すみません）。生成スクリプト生成スクリプトとプロンプト定義はgistに置きました。 https://gist.github.com/kohya-ss/68d41a9720bfbdfd87869ec970142f4b 概要近年、大規模言語モデル（LLM）の発展により、AIによる文章生成の可能性が大きく広がっています。今回はローカル環

yk_uminami 2024/07/16

リンク

無料で使える最高のAIノート『NotebookLM』使い方と活用事例｜AI-Bridge Lab こば

こんにちは！最近、ChatGPTと話しすぎてAI風の口調がうつってきたAI-Bridge Labのこばです！👋 今回の記事はGoogleのサービス『NotebookLM』(ノートブックLM)について 1.NotebookLMの概要 2.使い方 3.具体例として過去のnote記事を全部読ませた結果どうなったかこの3点を分かりやすくご紹介します！先に結論だけお伝えするとかなり実用性が高くオススメのツールです！そしてこの記事を読んで頂ければご自身での活用法が想像できるようになると思いますので、ぜひ最後まで読んで頂けますと幸いです！ 1.NotebookLMの概要公式サイト：https://notebooklm.google.com/ NotebookLMは、Googleが提供する生成AIサービスで、ユーザーのメモ書きやアップロードした資料を基に情報を整理し、質問に答えることができる革新的

yk_uminami 2024/06/10

LLM

リンク

GPT-4o の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

yk_uminami 2024/05/14

LLM

リンク

続・画像生成AIに自分の絵を描かせた｜R-9

2023年の5月の連休の前後より、自作イラストの追加学習データ（LoRA）を元にローカル環境のStable Diffusion (SD1.5)を使ってAIに"自分の絵"を描かせるようになってから、おおよそ一年が経ちました。当時そのことについて書いた記事は、比較的多くの方に読んでいただけたようで、SNSなどを通じて今も時々リアクションがあります。この一年間、多少の波はあっても、自分としてはこつこつとコンスタントに同じテーマに取り組んできました。成果の一部はX（@epxstudio_ai）で発表していましたが、その過程で新たに得られた知見や、画像生成AIの活用方法についてぼんやり考えたことなどがあるので、件の記事の続編として少し書いてみようと思います。前提としてわたしはGペンとスクリーントーンの時代からの20年来のアマチュア同人作家で、普段絵とはまったく関係ない仕事をしており、かつ、イラス

yk_uminami 2024/05/07

画像

リンク

Dify で RAG を試す｜npaka

1. RAG「RAG」(Retrieval Augmented Generation) は、最新の外部知識の習得とハルシネーションの軽減という、LLMの2つの主要課題に対処するためのフレームワークです。開発者はこの技術を利用して、AI搭載のカスタマーボット、企業知識ベース、AI検索エンジンなどをコスト効率よく構築できます。これらのシステムは、自然言語入力を通じて、さまざまな形態の組織化された知識と相互作用します。下図では、ユーザーが「アメリカの大統領は誰ですか？」と尋ねると、システムは回答のためにLLMに質問を直接渡しません。代わりに、ユーザーの質問について、知識ベース (Wikipediaなど) でベクトル検索を実施します。意味的な類似性マッチングを通じて関連するコンテンツを見つけ (たとえば、「バイデンは現在の第46代アメリカ合衆国大統領です...」)、LLMに発見した知識とともにユ

yk_uminami 2024/05/07

LLM

リンク

なんとなく言語 (学) に興味がある人のためのブックガイド｜長屋尚典

「なんとなく言語 (学) に興味がある人のためのブックガイド」をつくりました。「なんとなく言語 (学) に興味があるのでもうちょっと読んでみたい」「言語学にどんな分野があるのか知りたい」「専門的に勉強したいというほどではないのだけれど、もうちょっと何か読んでみたい」という人のために、言語 (学) についての入門的な本を紹介します。これらの本を読んで言語 (学) っておもしろいなと思ったら、ぜひ大学などで言語学の授業を受けたり、専門的な入門書を読んだりしてください。あるいは、以下の記事を参考に自分で言語学を勉強してみるとよいでしょう。あくまで、なんとなく言語 (学) に興味がある人のためなので、注意点がいくつかあります。網羅的なリストではありません。まだまだ編集中です。おもしろかった本があったら教えてください。基本的に和書で、一般向けの本を紹介しています。出版年順に並べて

yk_uminami 2024/05/06

*あとで読む

リンク

いちばんやさしいローカル LLM｜ぬこぬこ

概要ローカル LLM 初めましての方でも動かせるチュートリアル最近の公開されている大規模言語モデルの性能向上がすごい Ollama を使えば簡単に LLM をローカル環境で動かせる Enchanted や Open WebUI を使えばローカル LLM を ChatGPT を使う感覚で使うことができる quantkit を使えば簡単に LLM を量子化でき、ローカルでも実行可能なサイズに小さくできる 1. はじめに大規模言語モデル（LLM）の数は数年前と比べてたくさん増えました。有名な LLM を使ったチャットサービスとして、OpenAI の ChatGPT や Anthropic の Claude、Google の Gemini などがありますが、これらのサービスの中で利用されている大規模言語モデルは公開されていません。現状、様々な評価指標により LLM の性能が測定されていますが、

yk_uminami 2024/04/22

リンク

Command R の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Command R: Retrieval-Augmented Generation at Production Scale 1. Command R「Command R」は、「RAG」や「Tool」などの長いコンテキストタスク向けに最適化されたLLMです。CohereのEmbeddingおよびRerankと連携して動作するように設計されており、RAGアプリケーションに最高クラスの統合を提供し、エンタープライズユースケースで優れています。特徴は、次のとおりです。・RAGとToolの使用に関する高い精度・低遅延、高スループット・128Kコンテキスト長、価格が安い・10の主要言語に対応 (日本語含む) ・研究・評価のためにHuggingFaceでウェイトを公開「Command R」は、Cohere のホスト型APIですぐに利用でき

yk_uminami 2024/04/07

LLM

リンク

農業テロ｜さがみ

みなさんは農業テロという単語を知っているだろうか。農業テロは農業に対してのテロ行為（病原菌をばら撒くなど）を指す。＜実際の例＞・1989年にブラジルのバイーア州でカカオプランテーションにカカオの天敵である天狗巣病を引き起こす菌類が発生した。バイーア州はブラジルのカカオ生産の中心地だった。バイーア州は地理的に他の地域と隔絶しており、菌類もバイーア州に入ってきたことはなかった。プランテーションの環境も味方して病気は瞬く間に広がった。ブラジルは当時世界第二位のチョコレート生産国だった。それが4年後にはチョコレートの純輸入国となった。その現状は今も変わらない。この出来事によって2５万人の農園労働者が職を失い、100万人が都市へ移住した。多くの人が自殺した。この出来事はたった六人によって引き起こされた。菌類は彼らによってばら撒かれたのだ。彼らはカカオ生産に関する専門的な知識を持つ技術者だった。こ

yk_uminami 2024/03/30

リンク

大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)｜Kan Hatakeyama

はじめに以下のオープンなプロジェクトの一環で､大規模言語モデルをフルスクラッチで作る練習をします｡24年3月現在､協力者も募集中です｡リポジトリ当該プロジェクトの標準コードが公開※されたので､それを走らせてみます｡ ※24/3/5時点で､まだレポジトリ内に､工事中の箇所が多々､あります｡このリポ上では､事前学習ー事後学習ー評価まで､一気通貫(?)したパイプラインが提供されています※｡ 0. 環境構築プロジェクトの本番環境はクラウドですが､今回は手持ちのubuntuを使います｡ Dockerはお手軽な一方で､スパコン上で使うと､どうやら速度が落ちるらしいとの噂を聞いたので､condaで作ります(とはいえ､pipしか使わないので､pyenvでもいけると思います)｡必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク

yk_uminami 2024/03/06

リンク

驚異の1ビットLLMを試す。果たして本当に学習できるのか?｜shi3z

昨日話題になった「Bit Net」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 Bit Netというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、Bit NetによるTransf ormerの野良実装

yk_uminami 2024/02/29

これが革新になるかどうか。

LLM

リンク

AIアニメを作った話｜852話

2/6になんかt2vでいきなりAIanimeがうまく行ったのでそこから9日まで徹夜しながら色々模索してました。

yk_uminami 2024/02/11

どんどん進化するな〜。すごい。まだ実験敵だけど、5年と経たずに産業化するだろうか。

リンク

15年間いた奨励会を退会しました。僕の将棋人生の感想戦です。｜西山晴大

2024年2月3日の三段リーグの結果にて、勝ち越し延長の可能性が消え奨励会退会となりました。日本将棋連盟の奨励会は、将棋のプロ棋士を目指す若者たちが訓練し、技術を磨くための組織です。奨励会のメンバーは厳しい選考を経て入会し、定期的に開催されるランキング戦に参加しながら、プロ棋士になるための段階を一つ一つ登っていきます。奨励会は三段から6級までで構成されており､二段までは東西にわかれて行い､規定の成績を上げると昇級･昇段となります｡三段になると東西をあわせてのリーグ戦を半年単位で行い､上位二名が四段に昇段し､正式に棋士となります｡ https://www.shogi.or.jp/match/shoreikai/　より。奨励会は将棋を学び、上達したいと願う若者たちにとって非常に価値のある場所であり、将棋界の未来を担う才能を育成するための重要な役割を果たしています。プロになることは非常に難

yk_uminami 2024/02/06

リンク

AIアニメの作りかた　ComfyUI｜852話

AIアニメの作り方を説明していきます。ざっくりな説明は上の動画を見ていただければわかるんですが、少し細かい説明がこの記事になります。完成物これはワンダープロジェクトJ2というゲームの二次創作アニメですが、30年近く前の作品です。今回の流れは・AIの一枚立ち絵を用意する・AnimateAnyone-Evolvedで骨に沿って動かす・AAEでつくった画像をControlnetをかけつつAIブラッシュアップ・AfterEffectsで背景抜き・AI背景一枚絵を用意する・Runwayで動かす（ComfyUIでもできるが質がいいし時短になる）・キャラの後ろに配置、キャラの画像を複製して影にして足元に配置・完成です。作業はComfyUIで行います。・AIの一枚立ち絵を用意する・AnimateAnyone-Evolvedで骨に沿って動かす骨を抜いたのはこちらのフリー動画

yk_uminami 2024/01/30

リンク

2024年版：データエンジニア向け推薦本リスト｜zono

世間ではデータエンジニアリングが流行しており、エンジニアからは人気が出て、企業からはその能力が求められています。データエンジニアは、データの収集、蓄積、分析、活用に必要なデータ基盤を構築・運用する職種です。データエンジニアとして活躍するためには、非常に幅広い知識と能力が求められます。データベースプログラミングシステム開発クラウドサービスデータ分析 etc……. 私は多少データエンジニアとして経験を積んできており、業務を行う上で読んで良かったと心から思える本があったのでこちらで紹介します。どなたかの一助になれば幸いです。初級向けデータエンジニアリング本ではありませんが、データエンジニアリングに必要な知識がスライドやPDFに綺麗にまとまっています。初めて学ぶ方には適しています。前半のデータエンジニアリングの箇所だけ参考にして下さい。（後半はAzure製品について記載されています

yk_uminami 2024/01/09

あとで読む

リンク

LangChain への OpenAIのRAG戦略の適用｜npaka

以下の記事が面白かったので、かるくまとめました。・Applying OpenAI's RAG Strategies 1. はじめに「Open AI」はデモデーで一連のRAG実験を報告しました。評価指標はアプリケーションによって異なりますが、何が機能し、何が機能しなかったかを確認するのは興味深いことです。以下では、各手法を説明し、それぞれを自分で実装する方法を示します。アプリケーションでのこれらの方法を理解する能力は非常に重要です。問題が異なれば異なる検索手法が必要となるため、「万能の」解決策は存在しません。 2. RAG スタックにどのように適合するかまず、各手法をいくつかの「RAGカテゴリ」に分類します。以下は、カテゴリ内の各RAG実験を示し、RAGスタックに配置する図です。 3. ベースライン距離ベースのベクトルデータベース検索は、クエリを高次元空間に埋め込み（表現）し、「距離」に基

yk_uminami 2023/11/19

LLM

リンク

OpenAI DevDay で発表された新モデルと新開発ツールまとめ｜npaka

以下の記事が面白かったので、かるくまとめました。・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

yk_uminami 2023/11/07

LLM

リンク

はてなブックマーク

タグ

ブックマーク / note.com (161)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス