タグ

ブックマーク / hironsan.hatenablog.com (2)

  • 意味的知識グラフとApache Solrを使った関連語検索の実装 - Ahogrammer

    Manningから出版予定の『AI-Powered Search』(AIを活用した情報検索の意)を冬休み中に読んでいたら、その中で意味的知識グラフ(Semantic Knowledge Graph)と呼ばれるデータ構造について説明していて、関連語の計算やクエリ拡張などに使えるということで興味深かったので紹介しようと思います。最初に意味的知識グラフについて説明したあと、日語のデータセットに対して試してみます。 AI-Powered Search(https://www.manning.com/books/ai-powered-search) 記事の構成は以下のとおりです。 意味的知識グラフとは 意味的知識グラフを用いた関連語の計算 参考資料 意味的知識グラフとは 知識グラフと聞くと、固有表現認識や関係抽出、OpenIEを使って構築するグラフを思い浮かべる方もいると思うのですが、意味的知識

    意味的知識グラフとApache Solrを使った関連語検索の実装 - Ahogrammer
  • OpenAIの埋め込みよりも高性能?多言語E5を日本語で評価してみる - Ahogrammer

    多言語のテキスト埋め込み用のモデルであるMultilingual-E5-largeの性能を日語のデータセットで評価してみました。 E5とは E5とはEmbEddings from bidirEctional Encoder rEpresentationsの略で、テキストの埋め込み用のモデルです[1]。Web上から収集した大規模なテキストペアのデータセット(CCPairs)で対照学習したあと、NLIやMS Marcoなどの高品質なデータセットで学習しています。情報検索のベンチマークであるBEIR[2]や埋め込みのベンチマークであるMTEB[3]で評価されており、MTEBではOpenAItext-embedding-ada-002を上回る性能が報告されています。 MTEBの結果。平均的な性能で`text-embedding-ada-002`を上回っている。 CCPairsはWeb上から収集

    OpenAIの埋め込みよりも高性能?多言語E5を日本語で評価してみる - Ahogrammer
    morioka
    morioka 2023/07/05
  • 1