タグ

openAiとnlpに関するmanboubirdのブックマーク (5)

  • いろんなT5からSentence Embeddingをとって遊ぶ | Shikoan's ML Blog

    自然言語処理モデルT5を使って文章単位の埋め込み量(Sentence Embedding)を取得することを考えます。T5のEmbeddingはトークン単位ですが、平均を取ることで、簡単に文章単位に変換できます。Sentence T5としてモデルが公開されていない場合でも、既存のT5から自在に特徴量を取得できることを目標とします。Flan-T5からSentence Embeddingをとって見たりします。 はじめに 普段画像処理ばっかりやってる自然言語処理素人だけど、Imagenで使っていたり、Unified IOがベースにしていたり、何かとT5を聞きますよね。 調べていたらtransformersのライブラリから簡単に利用できることがわかったので、今回遊んでいきたいと思います。このブログでは珍しいNLPの内容です。 問題点 (自然言語処理やっている人には当たり前かもしれませんが、)一つ問題

    いろんなT5からSentence Embeddingをとって遊ぶ | Shikoan's ML Blog
  • Qdrant ベクトル検索エンジン

    この記事はオープンソースのベクトル検索エンジンQdrant(クワッドラント)の使い方と類似記事検索についての前編になります。 初心者向けにコンセプトの理解を優先し、難しい用語の使用はあえて避けています。 使用するもの Qdrant オープンソースベクトル検索エンジン (Rust実装) GiNZA spaCy ドキュメントのベクトル化 livedoorニュースコーパス ライブドアのニュース記事 (株式会社ロンウィット) Python 3.10 Qdrantとは? オープンソースのRust製ベクトル検索エンジンです。クライアントはPython SDK、REST APIgRPCで接続できます。クラウドサービス版も準備中のようです。 Qdrantを使用したデモサイトもあります。 ベクトル検索エンジンとは? みなさんが思い浮かべる検索エンジンはキーワードを使用して検索するものでしょう。検索ボックス

    Qdrant ベクトル検索エンジン
  • 【日本語モデル付き】2022年にマルチモーダル処理をする人にお勧めしたい事前学習済みモデル - Qiita

    要点 OpenAI CLIPの日語モデルを作り、公開しました。ご活用ください。 CLIPとは画像とテキストの埋め込みモデル(意味を表す固定長のベクトルに変換するモデル)であり、意味が近い画像とテキスト同士が近いベクトルになるという性質を持っています。4億枚の多様な画像とテキストのペアを用いて学習されており、高いゼロショット性能を備えています。 応用例:テキストによる画像の検索、類似画像検索、画像 and/or テキストの分類、クラスタリング、画像やテキストの特徴量生成など 日語CLIPモデルはHugging Face Model Hubからダウンロードできます。 応用方法を理解するためのサンプルコードとその解説を、4つの記事にして順次公開する予定です。進捗状況: 1/4。 日語CLIPモデルの使い方、サンプルコード(鋭意作成中) 長くなるので使い方の解説は別の記事にしました。 すぐに

    【日本語モデル付き】2022年にマルチモーダル処理をする人にお勧めしたい事前学習済みモデル - Qiita
  • Learning Transferable Visual Models From Natural Language Supervision

    State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstr

  • 【論文解説】自然言語処理と画像処理の融合 - OpenAI 『CLIP』を理解する

    今回はOpenAIの『CLIP(Contrastive Language-Image Pre-training)』を解説したいと思います。 CLIPは画像の分類に利用されるモデルですが、今までのモデルと何が違うかというと、自然言語処理の技術を応用する点です。 一般的な画像分類では、たくさんの画像を用意して、それぞれ対して犬、、リンゴ、などのラベルをつけます。 それを教師データとして学習します。 しかしながら、その方法には以下のような問題点があります。 ラベル付けに非常にコストがかかる。ラベルの種類が限定的で、学習対象の種類についてはうまく分類できるが、初めて見る対象(例えば、犬とを学習して、果物を分類するなど)については分類精度が低い。 CLIPでは、こういった問題に取り組んでいきます。 ちなみに、CLIPはモデルの仕組みではなく事前学習方法ですので、モデル自体はResNetやVisi

    【論文解説】自然言語処理と画像処理の融合 - OpenAI 『CLIP』を理解する
  • 1