ブックマーク / hironsan.hatenablog.com (5)

  • OpenAIの埋め込みよりも高性能?多言語E5を日本語で評価してみる - Ahogrammer

    多言語のテキスト埋め込み用のモデルであるMultilingual-E5-largeの性能を日語のデータセットで評価してみました。 E5とは E5とはEmbEddings from bidirEctional Encoder rEpresentationsの略で、テキストの埋め込み用のモデルです[1]。Web上から収集した大規模なテキストペアのデータセット(CCPairs)で対照学習したあと、NLIやMS Marcoなどの高品質なデータセットで学習しています。情報検索のベンチマークであるBEIR[2]や埋め込みのベンチマークであるMTEB[3]で評価されており、MTEBではOpenAItext-embedding-ada-002を上回る性能が報告されています。 MTEBの結果。平均的な性能で`text-embedding-ada-002`を上回っている。 CCPairsはWeb上から収集

    OpenAIの埋め込みよりも高性能?多言語E5を日本語で評価してみる - Ahogrammer
    gengohouse
    gengohouse 2023/07/05
    “OpenAIの埋め込みよりも高性能?多言語E5を日本語で評価してみる”
  • オライリー・ジャパンから『実践 自然言語処理』という本を出します - Ahogrammer

    このたび、オライリー・ジャパンより、『Practical Natural Language Processing』の翻訳書である『実践 自然言語処理』を出すことになりました。Amazonだと2月4日に発売のようです。表紙の鳥はオオハナインコで、オセアニアあたりに生息しています。 最近は日語/英語に関わらず、自然言語処理に関連する書籍が増えてきて読むのを楽しみにしています。その中でも書は、NLPの要素技術(単語埋め込み、テキスト分類、情報抽出、チャットボット、トピックモデルなど)の紹介に留まらず、SNS、Eコマース、医療、金融といった具体的なビジネスへの適用方法やNLPシステムを開発するためのベストプラクティスを学べるのが特徴的だと思います。 きっかけ このようなを翻訳するきっかけになったのは、1年と少し前にオライリーの編集に「この、良いでしたよ」と何気なく紹介したことでした。そし

    オライリー・ジャパンから『実践 自然言語処理』という本を出します - Ahogrammer
  • 文字ベース言語モデルの作り方 - Ahogrammer

    最近の言語処理では言語モデルを使って転移学習をしたり、性能向上に役立てたりするようになってきました。言語モデルの1つであるELMoでは、言語モデルから得られる分散表現を他のタスクの入力に使うことで、質問応答や固有表現認識、評価分析といった様々なタスクの性能向上に役立つことを示しました。ELMoについては以下の記事で詳しく紹介されています。 kamujun.hatenablog.com よくある言語モデルでは単語単位で学習を行うのですが、文字単位で学習することもできます。そのメリットとしては、文字単位の言語モデルは単語と比べてボキャブラリ数が少ないため学習が高速に進むことや未知語が少ない事が挙げられます。 記事では文字ベースの言語モデルの作り方について紹介しようと思います。言語モデルを作成し学習したあとは学習したモデルを使ってテキストを生成して見るところまでやってみます。この記事を読むと以

    文字ベース言語モデルの作り方 - Ahogrammer
  • 実践!固有表現認識 ~Flairを使って最先端の固有表現認識を体験しよう~ - Ahogrammer

    自然言語処理の分野で昔から研究され、実際に使われている技術として固有表現認識があります。固有表現認識は、テキスト中で固有表現が出現する位置を特定し、人名や地名などのラベルを付与するタスクです。情報抽出や質問応答、対話システムなどへの幅広い応用が可能なため、今でも盛んに研究され、使われている技術です。記事では、日語の固有表現認識をFlairと呼ばれるPythonパッケージを使って実現する方法について紹介します。 準備 記事では Flair を使って固有表現認識のモデルを学習させます。Flairは最先端の自然言語処理のモデルを簡単に使い始められる形で提供してくれているパッケージです。その中で提供されている機能として、固有表現認識や品詞タグ付け、文書分類のモデルを学習するための機能があります。使い始めるために、以下のようにしてFlairをインストールしておく必要があります。 $ pip i

    実践!固有表現認識 ~Flairを使って最先端の固有表現認識を体験しよう~ - Ahogrammer
    gengohouse
    gengohouse 2020/10/13
    “実践!固有表現認識 ~Flairを使って最先端の固有表現認識を体験しよう~”
  • Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

    最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー

    Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
  • 1