並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 2 件 / 2件

新着順 人気順

mapreduce python code exampleの検索結果1 - 2 件 / 2件

  • Q&Aチャットボット高品質化への道〜テキストの埋め込みベクトル変換における適切なチャンクデータ長を探る|mah_lab / 西見 公宏

    そういえば先日のLangChainもくもく会でこんな質問があったのを思い出しました。 Q&Aの元ネタにしたい文字列をチャンクで区切ってembeddingと一緒にベクトルDBに保存する際の、チャンクで区切る適切なデータ長ってどのぐらいなのでしょうか? 以前に紹介していた記事ではチャンク化をUnstructuredライブラリに任せていたので「このぐらいが良いよ」とハッキリとは言えなかったのですが、今日はこの問題について検証を交えながら考えてみたいと思います。 埋め込みベクトル化するデータ長の限界値そもそもで埋め込みベクトル化できるデータ長の限界値はどの程度なのでしょうか。OpenAIのドキュメントによると、OpenAIのtext-embedding-ada-002を利用して埋め込みベクトルを求める際の最大入力トークンは8,191トークンと書かれています。 トークン単位は日本語の文字数と一致しな

      Q&Aチャットボット高品質化への道〜テキストの埋め込みベクトル変換における適切なチャンクデータ長を探る|mah_lab / 西見 公宏
    • Opsqueue: lightweight batch processing queue for heavy loads

      We are happy to announce the open-source release of opsqueue, our opinionated queueing system! Why would you want to use it? Lightweight: small codebase, written in Rust, minimal dependencies Optimized for batch processing: we prioritize throughput over latency Built to scale to billions of operations Built with reliable building blocks: Rust, SQLite, Object Storage (such as S3 or GCS) Operational

      1