自然言語処理モデルT5を使って文章単位の埋め込み量(Sentence Embedding)を取得することを考えます。T5のEmbeddingはトークン単位ですが、平均を取ることで、簡単に文章単位に変換できます。Sentence T5としてモデルが公開されていない場合でも、既存のT5から自在に特徴量を取得できることを目標とします。Flan-T5からSentence Embeddingをとって見たりします。 はじめに 普段画像処理ばっかりやってる自然言語処理素人だけど、Imagenで使っていたり、Unified IOがベースにしていたり、何かとT5を聞きますよね。 調べていたらtransformersのライブラリから簡単に利用できることがわかったので、今回遊んでいきたいと思います。このブログでは珍しいNLPの内容です。 問題点 (自然言語処理やっている人には当たり前かもしれませんが、)一つ問題
![いろんなT5からSentence Embeddingをとって遊ぶ | Shikoan's ML Blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/6791c44dd10706ecf752e1553ebd5d44f42cb225/height=288;version=1;width=512/https%3A%2F%2Fblog.shikoan.com%2Fwp-content%2Fuploads%2F2023%2F01%2Ft5_sentence_embedding.jpg)