[B! nlp] petite_blueのブックマーク

Retrieval-based LM (RAG system) ざっくり理解する

自分用の整理・勉強会用として作成した解説資料です。内容の正確性については保証しかねますので必ず論文を参照してください。誤りや引用漏れ等がありましたら @catshun_ までご指摘いただけますと幸いです。

petite_blue 2023/11/07

llm
nlp

リンク

GitHub - google/budoux

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

petite_blue 2023/10/02

リンク

日本語の単語を適切な位置で区切って読みやすく改行してくれる軽量でオープンソースなライブラリ「BudouX」の機能＆採用例＆デモはこんな感じ、Chrome 119に実装予定で簡単に利用できる見込み

日本語のページをブラウザで見ているとおかしな位置で改行されることが多いのですが、単語と単語の間にスペースを入れる英語などと異なり、日本語では分かち書きがされていないのが原因。単語の途中で文章が折り返されてしまう原因になっています。BudouXは機械学習モデルを利用して容量を抑えつつ、サードパーティーのAPIやライブラリに依存せずに分かち書きを行ってくれるオープンソースライブラリなので、読みやすい改行が実現できます。 Google Developers Japan: BudouX: 読みやすい改行のための軽量な分かち書き器 https://developers-jp.google blog.com/2023/09/budoux-adobe.html BudouXの使用イメージは下図の通り。従来は画面幅によっては「最先端」や「テクノロジー」などの単語の途中で改行が行われてしまう事がありましたが、

petite_blue 2023/10/02

リンク

OpenAIの埋め込みよりも高性能？多言語E5を日本語で評価してみる - Ahogrammer

多言語のテキスト埋め込み用のモデルであるMultilingual-E5-largeの性能を日本語のデータセットで評価してみました。 E5とは E5とはEmbEddings from bidirEctional Encoder rEpresentationsの略で、テキストの埋め込み用のモデルです[1]。Web上から収集した大規模なテキストペアのデータセット（CCPairs）で対照学習したあと、NLIやMS Marcoなどの高品質なデータセットで学習しています。情報検索のベンチマークであるBEIR[2]や埋め込みのベンチマークであるMTEB[3]で評価されており、MTEBではOpenAIのtext-embedding-ada-002を上回る性能が報告されています。 MTEBの結果。平均的な性能で`text-embedding-ada-002`を上回っている。 CCPairsはWeb上から収集

petite_blue 2023/07/06

nlp

リンク

はじめての自然言語処理 | オブジェクトの広場

ウェブ、メール、SNS 等、私たちの周りには自然言語で記述された文章が溢れていて、様々な情報や価値が含まれています。しかし、その量は膨れあがり、人間が目視で内容を確認し対応することは困難になってきています。自然言語処理技術で、これら膨大な文章を人手によらず判断、抽出、検索、変換し、適切なアクションにつなげることができます。そして深層学習の登場により、その性能が飛躍的に向上していることはウェブの翻訳サイトなどを通じ皆さんも体感していることでしょう。本連載は手を動かしながら自然言語処理技術を学びたい人、システムに組み込んで役立てたい人を対象にしています。 BoW、TF-IDF のような基礎から BERT をはじめとした深層学習を用いた最新手法まで、日本語で動作させるサンプルコードを交えながら紹介していきます。以下はこれまでの連載でカバーされている内容を俯瞰したイメージです。図中の丸数字

petite_blue 2023/05/18

nlp

リンク

はじめての自然言語処理類似文書検索の手法と精度比較 | オブジェクトの広場

自然言語処理とは、人間が自然に使っている英語や日本語などの言語をコンピュータで処理する技術です。自然言語処理でできることには機械翻訳、要約生成、感情分析などがありますが、今回は比較的シンプルな例として類似文書検索に焦点を当ててみたいと思います。類似文書検索はテーマとしては真新しいものではありませんが、本記事では単語の分散表現を用いる手法や Watson Discovery も含めた各種の類似文書検索手法について、日本語データに対して精度比較試験をした結果を紹介します。複数の手法を同一の日本語データで比較した記事はあまり見ないので面白いのではないでしょうか。 1. 始めに本記事では類似文書検索の各手法について、単語の分散表現を用いる手法や Watson Discovery も含めて精度比較試験をした結果を紹介します。まず各手法の概要を紹介しますが、ここでは数学的な細かい説明などは省くので概

petite_blue 2023/05/18

リンク

Document AI (Intelligent Document Processing) - Microsoft Research

petite_blue 2023/04/27

リンク

GitHub - deepdoctection/deepdoctection: A Repo For Document AI

deepdoctection is a Python library that orchestrates document extraction and document layout analysis tasks using deep learning models. It does not implement models but enables you to build pipelines using highly acknowledged libraries for object detection, OCR and selected NLP tasks and provides an integrated framework for fine-tuning, evaluating and running models. For more specific text process

petite_blue 2023/04/27

OCR
nlp

リンク

GitHub - CodeSante/medical-wordlist: Medical wordlists in EN/FR/UA

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

petite_blue 2023/04/22

nlp
医療

リンク

フリーで使える日本語の主な大規模言語モデル（LLM）まとめ

ありがとうございます！実は私本人がそのモデルの構築に関わっているのですが、詳細はまだ言えない状況です...。来年3月の言語処理学会年次大会(NLP 2023)での続報をお待ちください！このモデルに関する論文が公開される予定です（一応それを待ってからこの記事にも掲載します）。（私が書いたものではありませんが、現段階で公開できる情報をまとめた記事があります: https://note.com/utokyo_itc/n/nb18b2a753f23 ）

petite_blue 2023/03/05

リンク

GitHub - yahoojapan/JGLUE: JGLUE: Japanese General Language Understanding Evaluation

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

petite_blue 2023/01/28

リンク

AI Programmer

日本語で指示を出すだけでコードを自動で生成してくれます。 AI Programmer エンジニアを強力にサポートします。現在プロトタイプを無料で公開しています。AI プログラマーに指示を出してソースコードを生成してみてください。できるだけ具体的に指示を出すと期待通りのコードが書けます。

petite_blue 2022/10/04

リンク

はじめての自然言語処理 Fusion-In-Decoder でクイズに答えるモデルを作る | オブジェクトの広場

今回は Fusion-In-Decoder を使ってクイズに答えるモデルを作ります。以前から Wikipedia 等の外部情報を参照できるテキスト生成モデルを試してみたいと思っていました。Fusion-In-Decoder の発表は 2020 年なので少し前のモデルですが、T5 ベースで手軽に試せるサイズ感ですので、日本語で試してみましょう。 1. はじめに今回紹介する Fusion-In-Decoder（以下、FiD ）1 は Meta AI (当時は Facebook AI Research) が発表した Open Domain question Answering タスクを解くテキスト生成モデルです。じつは、以前から外部情報を参照できるテキスト生成モデルを試してみたくて2、 Google の RETRO3 の論文を読んでたんです。なのですが、外部情報のサイズ感が 1000 B

petite_blue 2022/09/09

nlp

リンク

技術の進歩はすさまじく、使いたいキーワードを複数いれるだけでガクチカ・自己PRを自動的に作ってくれるAIがある「これは便利」「AI vs AIになりそう」

サーモン(鮭)@就活 @sake_sake7 技術の進歩はすさまじいもので、今ではAIがガクチカ・自己PRを書いてくれるようになりました。使いたいキーワードを複数いれることで、鉄板の「結論→課題→原因→行動→結果」の順で自動作成してくれます。ネタはあるけど構成が思いつかない…って方は、AIに書いてもらってそれをもとに修正すれば(続) pic.twitter.com/MXwp7eZtfB 2022-08-23 20:57:21

petite_blue 2022/08/27

ai
nlp

リンク

GitHub - daac-tools/vibrato: 🎤 vibrato: Viterbi-based accelerated tokenizer

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

petite_blue 2022/08/24

リンク

最適輸送と自然言語処理

2022-03-14, 言語処理学会第28回年次大会でのチュートリアル「最適輸送と自然言語処理」のスライドです。当日利用版から増補改訂しました。講演動画 (YouTube)

petite_blue 2022/06/25

リンク

DALL·E mini by craiyon.com on Hugging Face

Discover amazing ML apps made by the community

petite_blue 2022/06/19

リンク

自然言語処理とVision-and-Language / A Tutorial on NLP & Vision-and-Language

2022年度人工知能学会全国大会（第36回）チュートリアル講演資料

petite_blue 2022/06/15

リンク

GitHub - taishi-i/awesome-japanese-nlp-resources: A curated list of resources dedicated to Python libraries, LLMs, dictionaries, and corpora of NLP for Japanese

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert