[B! nlp] ni66lingのブックマーク

ni66ling id:ni66ling

nlpに関するni66lingのブックマーク (103)

はじめての自然言語処理 MixCSE による教師なし文章ベクトル生成 | オブジェクトの広場
今回は教師なしの文章ベクトル化手法である MixCSE の検証です。教師なし学習ですから教師ありの手法よりは精度的に不利でしょうが、局面によっては役に立つケースもあるのでは？と試してみることに。公開されているコードは transf ormers ベースなのですが、今回は Colab の TPU で動かしてみたので、その方法も紹介しますね。 1. はじめに今回は教師なしの文章ベクトル化手法である MixCSE1 の検証をしてみました。本連載では文章ベクトル化のモデルとして、 Sentence BERT を取り上げたこと(第9回, 第18回)がありますが、品質の良いベクトルを生成する為には大量かつ良質の教師データが必要でした。法律や特許のような特定領域に特化した文章を扱う局面では、対象領域の文書で学習したモデルを使いたいところですが、特定領域限定の都合良いデータはなかなか手に入りません。そ
ni66ling 2024/02/09
nlp

finetuning
リンク
はじめての自然言語処理 Sentence Transformer による文章ベクトル化の検証 | オブジェクトの広場
今回は文章のベクトル化を扱います。文章のベクトル化は第9回で扱っていますが、当時に比べてデータセット、事前学習モデル、ライブラリ等でいろいろと状況が好転しているので、改めて扱ってみることにしました。最近は大規模データセットを用いた事前学習が公開されているので、作り比べてみます。 1. はじめに今回は sentence-transf ormers1 で文章のベクトル化にチャレンジしてみます。文章をベクトル（埋め込み表現）化することで、文章間の意味合い的な比較が可能になり、類似文章検索やクラスタリングなどが可能になります。このライブラリは第9回で紹介済みですが、当時のバージョンは 0.2.5.1 であり、その後に損失関数が追加されていたり、サンプルコードが充実したりとかなりの更新が入って執筆時点で 2.1.0 になっています。ついでに言うと第9回は結構アクセス数があるみたいなので
ni66ling 2024/02/02
multiple negatives ranking loss

sentence transformer

nlp
リンク
【メタサーベイ】基盤モデル / Foundation Models
cvpaper.challenge のメタサーベイ発表スライドです。 cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。 http://xpaperchallenge.org/cv/Read less
ni66ling 2022/10/06
meta survey

slideshare

cv

nlp

2022
リンク
深層学習を用いた自然言語処理モデル（AI）のAPIを無償提供ー導入をご検討の企業のみなさまへ（2021年5月19日更新）
深層学習を用いた自然言語処理モデル（AI）のAPIを無償提供ー導入をご検討の企業のみなさまへ（2021年5月19日更新） 2020年9月にお知らせしました深層学習を用いた自然言語処理モデル（AI）のAPI無償提供について、条件の一部追記、及び2021年5月19日時点の導入企業様一覧を更新しました。いつもYahoo!ニュースをご利用いただきありがとうございます。 Yahoo!ニュースでは、「Yahoo!ニュースコメント」の健全化を目的に導入している「深層学習を用いた自然言語処理モデル（AI）」を利用してコメントを評価する技術のAPI（アプリケーション・プログラム・インターフェース）を無償提供します。導入をご検討中の企業のみなさまは、こちらの内容をご覧いただき、ページ下部の問い合わせ先よりお問い合わせください。API提供の背景や詳細につきましては、プレスリリースをご覧ください。提供
ni66ling 2022/07/14
yahoo

AI

API

コメント

nlp
リンク
文章からLGTM数を予測して「バズる記事」を判別してみた - Qiita
はじめに Qiita初心者の@pyopp8128と申します。これまでに記事を2本ほど投稿してみたのですが、他人に見てもらえる記事というのはそう簡単に書けるものでもなく、「あ～楽してLGTM沢山貰いたいな～」などと言っているところでしたが、じゃあ LGTMが多くつく記事ってどんな記事だ？という疑問に至りました。そこで、記事本文を自然言語処理により解析し、LGTMがつく/つかないを判別する機械学習モデルができないかを試してみることにしました。本記事の内容は以下の通りです。 LGTMの数を基準に、Qiita上の記事がバズるかバズらないかを判別するAI を作ったよ BERTのファインチューニングにより、Qiita中の記事がLGTM>100かどうか判別する2クラス分類深層学習モデルを作成したよ Qiita APIを通して取得した約10,000記事のデータセットを用いてモデル構築&性能評価を
ni66ling 2022/06/29
qiita

huggingface

nlp

ネタ

bert
リンク
ゲシュタルトパターンマッチングによる文字列の類似度の計算 - Qiita
はじめに２つの文字列の類似度を計算するアルゴリズムの１つである、ゲシュタルトパターンマッチングについて調べたので、内容をまとめました。２つの文字列の類似度を計算するアルゴリズムとしては、他にレーベンシュタイン距離というものもあります。こちらについては、以下の記事をご参照下さい。目次はじめに目次実装ゲシュタルトパターンマッチングとはアルゴリズム例性質非可換性参考文献実装 ※以下、環境はGoogle Colaboratoryを使用ゲシュタルトパターンマッチングは、Pythonのdifflibで以下のように実装できます。 import difflib word = 'appel' possibilities = ['ape', 'apple', 'peach', 'puppy'] print(difflib.get_close_matches(word, poss
ni66ling 2021/10/29
get_close_matches

ゲシュタルトパターン

nlp

qiita
リンク
深層学習による自然言語処理のコーパスまとめ｜npaka
深層学習による自然言語処理のコーパスをまとめました。 1. テキスト分類◎ livedoor ニュースコーパス
ni66ling 2021/03/21
dataset

NLP

音声

日本語

note

まとめ
リンク
SudachiPy による自然言語処理の正規化｜npaka
「SudachiPy」による自然言語処理の「正規化」についてまとめました。 1. SudachiPy「SudachiPy」はワークス徳島人工知能 NLP研究所が開発している形態素解析器「Sudachi」のPython版です。 2. 正規化「正規化」とは、同じ意味の単語を統一的な内部表現に変換することで、テキストの比較を容易にする処理です。これによって、全角の「ネコ」や半角の「ﾈｺ」やひらがなの「ねこ」を同じ単語として処理できるようになります。「Sudachi」では、この「正規化」の機能が提供されています。 3. Sudachiの単語の正規化「Sudachi」の、以下のような単語の正規化を提供します。 (1) 送り違い : 【例】打込む → 打ち込む (2) 字種 : 【例】かつ丼 → カツ丼 (3) 異体字 : 【例】附属 → 付属 (4) 誤用 : 【例】シュミレーション → シミュレー
ni66ling 2021/03/21
sudachi

NLP

正規化

note
リンク
自然言語処理の前処理・素性いろいろ - Debug me
ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋智光技術評論社Amazon 前処理余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ﾊﾝｶｸｶﾅ') # => 'ハンカクカナ' neologdn.normalize
ni66ling 2021/01/06
NLP

前処理

まとめ
リンク
GPT-3 & Beyond: 10 NLP Research Papers You Should Read
ni66ling 2021/01/02
2020

NLP

paper

まとめ
リンク
自然言語処理の巨獣「Transformer」のSelf-Attention Layer紹介
全てのTransf ormer記事はTransf ormerから始まる「Transf ormer」概要2017年中旬、Googleが発表した論文「Attention is all you need」で提出されたモデル「Transf ormer」は、深層学習の自然言語処理(NLP)分野でいまはデファクトスタンダードとして使われています。Transf ormerは要するに、過去の自然言語処理(NLP)で多く使われる再帰型ニューラルネットワーク(RNN)や畳み込みニューラルネットワーク(CNN)を「Self-Attention Layer」に入れ替えたモデルです。それ以降、大抵の自然言語処理(NLP)分野で発表された研究や論文は、Transf ormerで再構築して発表されています。期待を裏切らなく、再構築されたモデルの結果は、以前の結果を上回っています。 Transf ormerは2017年に公開され、今
ni66ling 2020/11/17
attention

self-attention

bert

nlp
リンク
はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場
今回は初心に帰って類似文章検索です。連載の第1回で扱ったネタですが、 BERT を用いて再挑戦してみましょう。BERT のモデルは Hagging Face Transf ormers の事前学習済みモデルを用いるので、お手軽に試せるかと思います。手法としては Sentence BERT を用い、おまけとして Poor Man's BERT についても紹介します。（本記事公開後に公開されたデータセットで再検証しています。最新情報は第18回をご覧ください。 2021.12.21 追記） 1. はじめに本記事では Sentence BERT 1による類似文章検索について、学習や推論のコード例と実験結果を交えてご紹介します。前々から Sentence BERT を試したいと考えていたものの、教師あり学習に必要な日本語の類似文データが用意できずにいました。その後、画像キャプションのデータセッ
ni66ling 2020/09/23
sentence bert

bert

nlp

日本語

triplet loss
リンク
自然言語処理におけるEmbeddingの方法一覧とサンプルコード - 機械学習 Memo φ(・ω・ )
概要自然言語処理における単語や文章のEmbeddingの方法を勉強したので概要を記載しました。また、学習済みモデルからEmbeddingベクトルを取得するサンプルソースコードも一部記載しました。概要 Word2vec fastText GloVe Skip-thought SCDV USE ELMo BERT おわり宣伝 Word2vec 似た意味の単語の周りには同じような単語が出現するとして、ある単語の周辺に出現する単語を予測するNNの隠れ層の重みを、ある単語のベクトルとしたもの。Doc2vecはWord2vecを文章に拡張したもの。 NNには以下のようなSkip-Gramのモデルが使われる。 Word2vecの元論文 : [1310.4546] Distributed Representations of Words and Phrases and their Composit
ni66ling 2020/09/22
embedding

まとめ

NLP
リンク
GPT-3の衝撃 - ディープラーニングブログ
この1週間はGPT-3のユースケースの広さに驚かされる毎日でした．シリコンバレーでは話題騒然ですが日本ではほとんど話題になっていないので，勢いで書くことにしました． GPT-3はOpenAIが開発した言語生成モデルです．名前の由来であるGenerative Pretrained Transf ormerの通り，自然言語処理で広く使われるTransf ormerモデルを言語生成タスクで事前学習しています．先月申請すれば誰でもGPT-3を利用できるOpenAI APIが発表され，様々な業種の開発者によって驚くべきデモンストレーションがいくつも公開されています．特に話し言葉からJSXやReactのコードを生成するデモは著名なベンチャーキャピタルから注目を集め，誇大広告気味だと警鐘を鳴らす事態に発展しています． This is mind blowing. With GPT-3, I built
ni66ling 2020/07/22
GPT3

NLP
リンク
文書に対する大衆の興味の強さの推定
ni66ling 2017/09/08
面白さ

NLP

paper

PDF

興味
リンク
https://personality-insights-livedemo.mybluemix.net/
ni66ling 2017/03/26
IBM

watson

パーソナリティ分析

twitter

NLP
リンク
Take control of your content with ReadablePro
Our Readability Scoring, Error Detection, and Style Checking Help You Take Control Of Your Content Readable gives you best-in-class text analysis and actionable insights to bring your audience closer. Sign Up Today or Try Readable Free Step 1: Import Readable can analyse anything - a Word document or PDF, a web page, or an entire website. You can even send us text through our API. Step 2: Analyse
ni66ling 2017/03/08
metrics

english

NLP

readability
リンク
https://www.semanticscholar.org/paper/Joint-Image-Text-News-Topic-Detection-and-Tracking-Li-Joo/32edcfec2d24dd6dd2a80315571e9b06e8365b26
ni66ling 2016/06/06
paper

topic model

time series analysis

CV

NLP

2015
リンク
http://www.cs.columbia.edu/~blei/
ni66ling 2016/05/31
Blei

LDA

topic model

Columbia University

NLP
リンク
Googleで開発中の人工知能が綴ったポエムがキモいと話題に
By Victoria Nevland Googleではディープラーニングを使って自然な言語を話すAI(人工知能)の開発が進められているのですが、その研究の中で実際に綴られたポエムが独特の雰囲気を持ち、ちょっと気味悪くすらあると話題になっています。 “I want to talk to you”: See the creepy, romantic poetry that came out of a Google AI system — Quartz http://qz.com/682814/i-want-to-talk-to-you-see-the-creepy-romantic-poetry-that-came-out-of-a-google-ai-system/ AIによって生成されたポエムの一例がコレ。それっぽく読むとなんとなく雰囲気がありますが、実際にはかなりシュールな内容になって
ni66ling 2016/05/17
ポエム

Google

NLP

gigazine
リンク
1 2 3 4 5 6 次のページ