タグ

ブックマーク / www.ogis-ri.co.jp (5)

  • はじめての自然言語処理 MixCSE による教師なし文章ベクトル生成 | オブジェクトの広場

    今回は教師なしの文章ベクトル化手法である MixCSE の検証です。教師なし学習ですから教師ありの手法よりは精度的に不利でしょうが、局面によっては役に立つケースもあるのでは?と試してみることに。公開されているコードは transformers ベースなのですが、今回は Colab の TPU で動かしてみたので、その方法も紹介しますね。 1. はじめに 今回は教師なしの文章ベクトル化手法である MixCSE1 の検証をしてみました。 連載では文章ベクトル化のモデルとして、 Sentence BERT を取り上げたこと(第9回, 第18回)がありますが、品質の良いベクトルを生成する為には大量かつ良質の教師データが必要でした。 法律や特許のような特定領域に特化した文章を扱う局面では、対象領域の文書で学習したモデルを使いたいところですが、特定領域限定の都合良いデータはなかなか手に入りません。そ

    はじめての自然言語処理 MixCSE による教師なし文章ベクトル生成 | オブジェクトの広場
  • はじめての自然言語処理 Sentence Transformer による文章ベクトル化の検証 | オブジェクトの広場

    今回は文章のベクトル化を扱います。文章のベクトル化は 第9回 で扱っていますが、当時に比べてデータセット、事前学習モデル、ライブラリ等でいろいろと状況が好転しているので、改めて扱ってみることにしました。最近は大規模データセットを用いた事前学習が公開されているので、作り比べてみます。 1. はじめに 今回は sentence-transformers1 で文章のベクトル化にチャレンジしてみます。文章をベクトル(埋め込み表現)化することで、文章間の意味合い的な比較が可能になり、類似文章検索やクラスタリングなどが可能になります。 このライブラリは 第9回 で紹介済みですが、当時のバージョンは 0.2.5.1 であり、その後に損失関数が追加されていたり、サンプルコードが充実したりとかなりの更新が入って執筆時点で 2.1.0 になっています。ついでに言うと 第9回 は結構アクセス数があるみたいなので

    はじめての自然言語処理 Sentence Transformer による文章ベクトル化の検証 | オブジェクトの広場
  • はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場

    今回は初心に帰って類似文章検索です。連載の第1回で扱ったネタですが、 BERT を用いて再挑戦してみましょう。BERT のモデルは Hagging Face Transformers の事前学習済みモデルを用いるので、お手軽に試せるかと思います。手法としては Sentence BERT を用い、おまけとして Poor Man's BERT についても紹介します。 (記事公開後に公開されたデータセットで再検証しています。最新情報は 第18回 をご覧ください。 2021.12.21 追記) 1. はじめに 記事では Sentence BERT 1による類似文章検索について、学習や推論のコード例と実験結果を交えてご紹介します。前々から Sentence BERT を試したいと考えていたものの、教師あり学習に必要な日語の類似文データが用意できずにいました。その後、画像キャプションのデータセッ

    はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場
  • はじめての自然言語処理 BERT を用いた自然言語処理における転移学習 | オブジェクトの広場

    前回は Rasa NLU を用いて文章分類と固有表現抽出について紹介しました。今回は昨年後半に話題となった BERT について説明し、chABSAデータセットを用いた感情分析での実験結果、アプリケーションへの組み込み方などを紹介します。 1. 始めに 記事では Google の BERT について、その概要を紹介し、BERT の事前学習済みモデルを用いてファインチューニングにより独自のモデルを構築することを念頭に、BERT の入出力インタフェースや学習データの構造を説明します。そして、ファインチューニングにより独自のモデルを構築する例として、chABSA データセットを用いた感情分析モデル生成の実験結果およびアプリケーションから利用する際のポイントを紹介します。 2. BERTの概要 BERT (Bidirectional Encoder Representations from Tra

    はじめての自然言語処理 BERT を用いた自然言語処理における転移学習 | オブジェクトの広場
  • OOエンジニアの輪! 〜 第 21 回 川合史朗 さんの巻 〜

    Hope is a good thing, maybe the best of things, and no good thing ever dies. (希望は良いもの、おそらく最上のものだ。そして、良いものは決して消えない。:『ショーシャンクの空に』より) 高林さんとのつながり -- 今回は、高林さんからのご紹介ですが、どういったつながりですか? 実は、直接お会いしたことは一度もないんです。一番最初はですね、Paul Graham の『Beating the Averages』 っていうのを、私が翻訳(邦題『普通のやつらの上を行け』)させて頂きまして、それの感想をメールで頂いたのがきっかけです。それから、私が開発している Scheme 処理系(Gauche)を使って頂いています。 -- 川合さんにとって翻訳って、あれは自分で読んで面白いものをみんなに見てもらう、っていうところですか?

    OOエンジニアの輪! 〜 第 21 回 川合史朗 さんの巻 〜
  • 1