タグ

ブックマーク / zenn.dev/libratech (1)

  • Embeddingsを使ってローカルでテキストをクラスタリングする(Multilingual-E5)

    EmbeddingsとSentence Transformers Sentence Transformersは、テキストをEmbeddings(埋め込み)と呼ばれるベクトル表現に変換するためのライブラリです。OpenAIの "text-embedding-ada002" も、Embeddingsを生成するモデルです。 テキストの意味をベクトルで表現すると、コサイン類似度などで意味の類似度が簡単に計算できるため、下記のようなタスクが容易になります。 テキストの類似度算出 分類(Classifying) クラスタリング セマンティック検索(意味に基づいた検索) 今回は、ローカルで動作させることができる "Multilingual-E5" というモデルを使って、短いテキストを分類してみます。 このモデルは、Leaderboradでも好成績を収めています。 largeモデルは、"text-embe

    Embeddingsを使ってローカルでテキストをクラスタリングする(Multilingual-E5)
    k2ca3
    k2ca3 2024/01/24
    “最適なクラスター数を探る方法はいくつかあるようです。今回はシルエット分析を使いまし”
  • 1