2024年8月31日のブックマーク (6件)

  • RAGについて情報をまとめる

    RAGについてまとめ RAG情報が溢れているので整理しています。 RAGの概要・入門 RAGの性能改善のテクニック まとめ 手法 RAG関係の論文 RAG関係のサーベイ論文 Retrieval-Augmented Generation for Large Language Models: A Surveyより引用 まとめのGitHubリポジトリ サーベイ論文の解説記事 RAG(検索拡張生成)包括的な論文をわかりやすく解説 コサイン類似度が当に適しているのかをといかける論文 retrieval-augmented thoughts(RAT)という手法について書かれた論文 RAGのエラーの分類に関する論文 HyDEという手法の論文 HyDEのノートブック メタ認知をRAGに適用 Self RAG Self RAGノートブック グラフ(GraphRAG) 実践 評価 RAGの評価ソフト RAG

    RAGについて情報をまとめる
  • Claude3にプロジェクト全体をぶち込むためのプロジェクトの構造とファイル内容を自動でまとめるPythonスクリプト

    はじめに Claude3Opusはものすごい能力で、手動で作成するのは面倒なプロジェクトのドキュメンテーションなどを一撃で生成してくれます。 しかし、プロジェクト全体の内容をWebのCladeには投入できないし、ファイルを1個ずつコピペするのもかなり時間を要します。 頼みのCursorもClaudeは対応していないので@Codebase機能が利用できません・・・ そこで、Pythonスクリプトを使ってプロジェクトのフォルダ構造とファイルの内容を自動的にまとめるスクリプトを作成したので紹介します! このスクリプトを使うことで、プロジェクトを200kトークンまでの単一のテキストにまとめ、Claude3Opusに簡単に投入できるようになります。 スクリプトの機能と使い方 このPythonスクリプトは以下のような機能を持っています: プロジェクトのフォルダ構造をMarkdown形式で生成。※当は

    Claude3にプロジェクト全体をぶち込むためのプロジェクトの構造とファイル内容を自動でまとめるPythonスクリプト
  • 【随時更新】主要な大規模言語モデル比較表

    これはなに? 自著 「つくりながら学ぶ!生成AIアプリ&エージェント開発入門」 に掲載するために作ったOpenAI・Anthropic・GoogleのLLMの一覧表です。 各社が新しいモデルを出すたびにの内容が陳腐化するため、この記事に最新の情報を更新していきます。 各社のモデルの主要諸元・費用に加えて、自分の印象を書いてあります。 性能の目安としてChatbot Arenaのスコアを参考までに添付しています これはあくまで参考用かつ英語での評価なので、スコアが一番高いものがいい、もしくは低いからダメというわけではありません。 少なくともこの記事に掲載されているモデルは、スコアが低いものでも単純な翻訳などでは十分な性能を持っています。そして何より高性能モデルとは比較にならないほど高速です。 用途や使用言語によって試してみて最適なものを選ぶのが良いでしょう [PR] 宣伝 の紹介は↓に書

    【随時更新】主要な大規模言語モデル比較表
  • ベクトルデータベース「Weaviate」を試す 1:Quickstart

    ハイブリッド検索ができるということで、以前少し触ってみてそれからあまり触ってなかったWeaviateについて改めてやり直してみる。 やり直すきっかけになったのはこれ。 上記の記事にもあるように、Weaviateはベクトル検索・キーワード検索のハイブリッド検索ができる。ただし、日語のキーワード検索の場合にはトークナイザーがそれに対応している必要があるのだけど、ここが以前は対応していなかった。(Weaviateで日語ハイブリッド検索、みたいな記事がQiitaあたりにすでにあるけど、多分正しくトークン化されていないのでは?と思っている。) で、たまたまGitHubのレポジトリを見ていたら、どうやら以下のPRで日語トークナイザーに対応したらしい。 また、これ以外にもWeaviateにはいろいろ便利な機能があって、かなり柔軟に使えそうな気がしているので(ただその分、他のベクトルDBに比べると最

    ベクトルデータベース「Weaviate」を試す 1:Quickstart
  • AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由 - 渋谷駅前で働くデータサイエンティストのブログ

    先日のことですが、こんなことを放言したら思いの外伸びてしまいました。 データ可視化は一時期物凄く流行った割に今はパッとしない印象があるんだけど、それは結局のところデータ可視化が「見る人に『考えさせる』仕組み」だからだと思う。現実の世の中では、大半の人々は自分の頭で考えたくなんかなくて、確実に当たる託宣が欲しいだけ。機械学習AIが流行るのもそれが理由— TJO (@TJO_datasci) 2024年8月28日 これはデータサイエンス実務に長年関わる身としてはごくごく当たり前の事情を述べたに過ぎなかったつもりだったのですが、意外性をもって受け止めた人も多ければ、一方で「あるある」として受け止めた人も多かったようです。 基的に、社会においてある技術が流行って定着するかどうかは「ユーザーから見て好ましいかどうか・便利であるかどうか」に依存すると思われます。その意味でいうと、データ分析技術にと

    AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由 - 渋谷駅前で働くデータサイエンティストのブログ
  • ソースコードをリポジトリ丸ごとLLMに読んでもらう方法

    はじめに ソースコードをLLMに読んでもらうとき、単一ファイルだと楽なのですが、GitHubのリポジトリのように複数ファイルから構成されるプロジェクトだと困ってしまいますね。 リポジトリごとLLMに読んでもらえるようにいい感じにテキスト化できると良いですね。そんなソフトがありました。しかも2つ。 両方ともほとんどコンセプトは同じです。特に後者のgenerate-project-summaryは使い方も含めて、自分のやりたいことが、すでに開発者の清水れみおさんが以下の記事にまとめていました。 なので、あんまり書く必要ないのですが、せっかくなのでgpt-repository-loaderの使い方と、出力したファイルの別の活用方法について書いてみたいと思います。 gpt-repository-loaderでリポジトリをテキストに変換 使い方はREADMEに書いてあります。シンプルなソフトなので、

    ソースコードをリポジトリ丸ごとLLMに読んでもらう方法