[B! BERT] shikimihuaweiのブックマーク

自然言語処理の王様「BERT」の論文を徹底解説 - Qiita

オミータです。ツイッターで人工知能のことや他媒体で書いている記事などを紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください！ 2018年10月に登場して、自然言語処理でもとうとう人間を超える精度を叩き出したことで大きな話題となったBERT。それ以降、XLNetやALBERT、DistillBERTなどBERTをベースにしたモデルが次々と登場してはSoTAを更新し続けています。その結果、GLUEベンチマークでは人間の能力が12位(2020年5月4日時点)に位置しています。BERTは登場してまだ1年半程度であるにもかかわらず、被引用数は2020年5月4日現在で4809 にも及びます。驚異的です。この記事ではそんなBERTの論文を徹底的に解説していきたいと思います。BERTの理解にはTransf ormer[Vaswani, A.

shikimihuawei 2021/09/20

リンク

huggingface/transformers の日本語BERTで文書分類器を作成する - Qiita

概要先日、huggingfeceのtransf ormersで日本語学習済BERTが公式に使えるようになりました。 https://github.com/huggingface/transf ormers おはようござえます、日本の友達 Hello, Friends from Japan 🇯🇵! Thanks to @NlpTohoku, we now have a state-of-the-art Japanese language model in Transf ormers, bert-base-japanese. Can you guess what the model outputs in the masked LM task below? pic.twitter.com/XIBUu7wrex — Hugging Face (@huggingface) December 13,

shikimihuawei 2020/04/21

リンク

Laboro.AI、日本語版「BERT」モデルを開発--オープンソースで公開

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができますオーダーメイドのAI（人工知能）を開発・提供するLaboro.AIは4月17日、自然言語処理モデル「BERT（Bidirectional Encoder Representations from Transf ormers）」を独自に事前学習させた日本語版モデル「Laboro.AI BERTモデル」を開発し、オープンソースとして公開したと発表した。自然言語処理は、機械学習の技術領域の一つである。人が日常的に使用する言葉や文字など、テキスト情報をAIに処理させる分野になる。手書き文字の読み取りを行うOCR（光学文字認識）やテキストで会話するチャットボットのほか、スマートスピーカーにも技術が活用されている。 BERTは、2018年10月にG

shikimihuawei 2020/04/18

BERT

リンク

BERTを使った系列ラベリングの高速化 - Ahogrammer

EM NLP 2019より以下の論文を紹介。 Small and Practical BERT Models for Sequence Labeling この論文では、系列ラベリングタスクに対するBERTの高速化と多言語転移性能の検証を行っている。BERTが良い性能を出すことはわかっているが、モデルのサイズが大きく、予測に時間がかかるという欠点がある。そこで、BERTから3層を選択し、パラメータ数を減らすことで高速化をしている。これにより、通常のBERTと比べて約27倍高速化した。また、モデルに対して蒸留を行っている。結果として、パラメータ数を減らす前のBERTに匹敵する性能を記録。特に低リソースな言語に対して有効であることを示している。モデルを小さくするために３つの層を選んでパラメータを減らしている。公開されているBERTではエンコーダは12層から構成されている。以下の表に示すように、そ

shikimihuawei 2020/04/14

リンク

検索エンジンにBERTを組み合わせて検索性能を向上させる手法 - Ahogrammer

SIGIR 2019より以下の論文を紹介。NLP2019でも発表されており、わかりやすいスライド付き。 FAQ Retrieval using Query-Question Similarity and BERT-Based Query-Answer Relevance 【論文】行政対話システムにおける検索エンジンTSUBAKIとBERTを併用したFAQ 検索の高度化【スライド】行政対話システムにおける検索エンジンTSUBAKIとBERTを併用したFAQ 検索の高度化この論文では、行政サイトにあるFAQの検索を検索エンジンとBERTを組み合わせて検索性能を向上させる手法を提案している。今までの課題として、通常の検索エンジンを使った場合、クエリとQAの間に表現のズレがあると上手く検索できない点を挙げている。たとえば、以下の画像の場合、ユーザのクエリに対して単純な記号マッチで検索すると「チ

shikimihuawei 2020/04/14

リンク

ElasticsearchとBERTを組み合わせて類似文書検索 - Ahogrammer

本記事ではElasticsearchとBERTを組み合わせて類似文書検索を行う方法について紹介します。Elasticsearchでは最近、ベクトルに対する類似文書検索の機能が実装されました。一方、BERTを使うことでテキストを固定長のベクトルに変換することができます。つまり、BERTを使ってテキストをベクトルに変換すれば、Elasticsearchを使って類似文書検索ができるということになります。本記事では以下のアーキテクチャでElasticsearchとBERTを組み合わせた検索システムを実現します。Dockerを使ってアプリケーション、BERT、Elasticsearchのコンテナを分けることでそれぞれをスケールしやすくする狙いがあります。記事中では重要な部分のみ提示しますが、システム全体はdocker-composeのファイルとして記述しこちらのリポジトリに置いてるので、参照してく

shikimihuawei 2020/04/08

リンク

BERTの事前学習済みモデルを使って特許検索に挑戦してみる - astamuse Lab

ご挨拶新年、明けましておめでとうございます本年もよろしくお願いいたしますデータエンジニアのaranです昨年の６月以来、２回目の登場になります去年の１月に入社して、ちょうど１年経ち月日の流れの早さを感じていますいきなりですが、皆様は年末年始をどのように過ごされましたでしょうか？私は、家族の１人が、１月２日誕生日なこともあり年始は、家族全員が本家に集まります月日の経過と共に、甥っ子・姪っ子も増え、彼らも歳を重ねて行くので年始の出費が、年々厳しくなっています (財布から諭吉がいっぱい消えてゆく・・・涙) 年始の出費が気にならないぐらい稼ぎたいって心に誓い、新年を過ごしました前書き前回はコレスポンデンス分析についてお話しさせて頂きましたが今回は、BERTを使った文章検索についてお話しさせて頂きます何でまた？弊社では、特許情報を取り扱っていてある特定の業界・分野の特

shikimihuawei 2020/04/08

BERT

リンク

はじめての自然言語処理 BERT を用いた自然言語処理における転移学習 | オブジェクトの広場

前回は Rasa NLU を用いて文章分類と固有表現抽出について紹介しました。今回は昨年後半に話題となった BERT について説明し、chABSAデータセットを用いた感情分析での実験結果、アプリケーションへの組み込み方などを紹介します。 1. 始めに本記事では Google の BERT について、その概要を紹介し、BERT の事前学習済みモデルを用いてファインチューニングにより独自のモデルを構築することを念頭に、BERT の入出力インタフェースや学習データの構造を説明します。そして、ファインチューニングにより独自のモデルを構築する例として、chABSA データセットを用いた感情分析モデル生成の実験結果およびアプリケーションから利用する際のポイントを紹介します。 2. BERTの概要 BERT (Bidirectional Encoder Representations from Tra

shikimihuawei 2020/04/08

リンク

BERT（Keras BERT）を使用した文章分類を学習から予測まで紹介！

概要絶賛フロントエンド勉強中の井上です。今回は自然言語処理界隈で有名なBERTを用いた文書分類（カテゴリー分類）について学習（ファインチューニング）から予測までを紹介したいと思います。本記事では実装ベースでお話しするので、「そもそもBERTって何？」という方は検索するか、参考URLを載せておくのでそこから飛んでいただけると助かります。目次・事前準備・学習・評価・予測・参考文献事前準備 Google Colaboratory 学習は膨大な計算量が必要なので、Google Colaboratoryを使用します。 https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja ・無料でTPU（Tensor Processing Unit）が使えるのでお得！ googleさんありがとうございます・DeepLearni

shikimihuawei 2020/04/07

BERT
NLP

リンク

bert-as-serviceを使って日本語の文章を埋め込み表現ベクトルに変換してみる | DevelopersIO

学習済みの汎用言語表現モデルBERTを使って文章を埋め込み表現(数値ベクトル)に変換することができるbert-as-serviceを触ってみました。テキストを埋め込み表現に変換するサーバーモジュールを用意するのは、BERTのモデルを読み込んで、必要なレイヤーを抜き出し、テキストをトークン化して入力して、処理を順次捌くためにキューに渡して、複数のワーカープロセスを制御して...と結構大変です。bert-as-serviceはこういった処理をラップしてくれているので、専用のサービスを起動して、クライアントモジュールからリクエストを投げるだけでテキストの埋め込みが出来ます。簡単。ではbert-as-serviceを使った文章の埋め込み表現への変換について紹介していきます。 BERT(Bidirectional Encoder Representations from Transf ormers

shikimihuawei 2020/04/07

リンク

[Python]文書分類における文書ベクトル表現手法の精度比較 - Qiita

TL; DR 日本語文書分類タスクを機械学習で解くとき、下記の文書ベクトル表現手法ごとの精度を比較しました。 Github: https://github.com/nekoumei/Comparison-DocClassification/tree/master/src ※最近のGithub、jupyter notebookのレンダリングがよく失敗するのでnbviewerも貼っておきます https://nbviewer.jupyter.org/github/nekoumei/Comparison-DocClassification/tree/master/src/ Bag of Words TF-IDF Word2Vecの平均値 Doc2Vec SCDV SWEM 結論としては下記の3点です。問題によるので銀の弾丸はない（あたりまえ） BoW, TF-IDFのような古典的手法も案外悪く

shikimihuawei 2020/04/06

][good]

リンク

Flairを使ってSWEMによる文章埋め込みを計算する

概要 Flairは、Pytorchで書かれた自然言語処理用のフレームワークです。固有表現抽出や品詞タグ付け、文章分類などの機能を提供しているほか、文章埋め込み (Sentence Embedding) も簡単に計算することができます。以前に本ブログで紹介したSWEMも扱うことができたので、ここで使い方を紹介したいと思います。記事：SWEM: 単語埋め込みのみを使うシンプルな文章埋め込み - Out-of-the-box 方法単語ベクトルの読み込みまずFlairで学習済みの単語埋め込みベクトルを読み込みます。あらかじめ学習済み単語ベクトルのファイルを用意しておく必要はなく、以下のコードを初めて動かす際に自動でウェブからダウンロードされます。日本語の場合は、fastTextが提供しているja-wiki-fasttext-300d-1Mが選択されます。 from flair.embeddi

shikimihuawei 2020/04/06

リンク

SWEM: 単語埋め込みのみを使うシンプルな文章埋め込み

単語埋め込み (Word Embedding) のみを利用して文章埋め込み (Sentence Embedding) を計算するSWEM (Simple Word-Embedding-based Methods) を実装しました。概要文章に対する固定次元の分散表現を得る手法としては、doc2vecやSkip-thoughts、テキスト間の含意関係を学習することで分散表現を得るinfersent、最近では強力な言語モデルとなったBERTといった方法があります。これらの手法は、単語ベクトルに加えて文章ベクトルを得るためのニューラルネットワーク自体を、大規模コーパスから学習させる必要があります。そこで、より単純ながらも後続タスクへの精度がでる文章埋め込みの計算方法として、追加学習やパラメータチューニングを必要とせず単語埋め込みだけを利用するSWEMが提案されました。これはACL2018 “

shikimihuawei 2020/04/06

リンク

自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録

はじめまして@vimmodeです。普段はMNTSQというリーガルテックの会社で自然言語処理をしています。今回はBERTとBERTまでの流れを簡単に紹介します。自然言語処理で今やデファクトスタンダードとなりつつであるBERT。登場当時はモデルの複雑さに伴う計算環境や計算リソースの確保が難しく気軽に動かせなかったが、ColabやKaggleカーネル環境が整備されたきたおかげで誰でも気軽に使えるようになりました。また、haggingface社が公開したBERTと関連モデルのラッパーライブラリであるtransf ormersによりわずか10行程度でBERTモデルを記述できます。一方、自然言語処理を始めて間もない段階でいきなりBERTを突きつけられても理解の壁が高いと思いますので、今回は数式やコードを使わずにBERTに至るまでの流れを簡単に紹介したいと思います。 ※これらはあくまで私の理解であり

shikimihuawei 2020/04/06

リンク

BERTおよびWord2Vecで文の類似性を確認する

BERTおよびWord2Vecで文の類似性を確認する TL;DR 文の類似性を確認する方法としてBERTとWord2Vecを比較します。文全体の類似性ではなくトークン単位での比較です。 BERTとWord2Vecによるベクトル化にはtext-vectorianを使用します。ソースコード from text_vectorian import SpBertVectorian tokenizer_filename = '../bert-japanese/model/wiki-ja.model' vectorizer_filename = '../bert-japanese/model/model.ckpt-1400000' bert_vectorian = SpBertVectorian( tokenizer_filename=tokenizer_filename, vectorizer_f

shikimihuawei 2020/04/06

リンク

うわっ…私の言語モデル、古すぎ…？ | 株式会社AI Shift

こんにちは、AIチームの戸田です今回は去年Google検索に導入されたことでも話題になったBERTを使った比較実験の記事を書かせていただきますというのも昨年発表報告を書かせていただいた第10回対話シンポジウム、参加して特に印象に残ったことの一つとして、文章をベクトルに変換するモデルとして BERT^1 を使用するのが当たり前になっていたことがあります私が遅れているだけなのかもしれませんが、とりあえず文章をベクトル化するときはBERTという雰囲気で、Word2Vecで得られた単語ベクトルをコネコネ…とやっているのは(おそらく)今回の会議では私達だけだったと思います BERTはファインチューニングにより自然言語処理の多くのタスクでState of the artを達成しましたが、単純な文書ベクトル抽出器としての能力はどうなんでしょうか？私は手軽に文章の分散表現を得る方法としてWord2

shikimihuawei 2020/04/06

]

リンク

bert as service のベクトル表現を用いて文書分類メモ - ココアのお勉強ブログ

日本語BERTで文表現ベクトルを得る環境を作る日本語BERTによってベクトルを出せるようにする以下の記事の通りに、日本語BERTによって文表現ベクトルを計算するサーバーを作ります。 https://qiita.com/shimaokasonse/it ems/97d971cd4a65eee43735 ※Google Colabolatoryでやる場合は !pip install bert-serving-client !pip install -U bert-serving-server[http] !nohup bert-serving-start -model_dir=./bert-jp/ > out.file 2>&1 & from bert_serving.client import BertClient bc = BertClient() としないと動かないです。以上でber

shikimihuawei 2020/04/06

リンク

bert-as-service 日本語テキストのベクトル化サーバー構築

感情分析、テキスト分類など、多くのNLPアプリケーションで必要な処理として「テキストのエンコード/埋め込み」があります。とある案件で約100万件／日のメールのテキスト分類タスクがあり、「テキストのエンコード/埋め込み」=「メール本文の固定長ベクトル化」をするため手法調査とサービス運用を視野にいれた環境構築をためしました。おおよそ求めているのはこの辺りを満たすもの☟ ・公開されている学習済みモデルを利用できる。将来の運用にてモデルのfine-tuningは想定。初期ではモデルをゼロからトレーニングすることはしません。・メール本文というそれなりに長い文章＆複数文で構成されるテキストに対応する。単語レベルの埋め込み表現でなく、文章コンテキストを表現します。・実際の運用にはベクトル化後に分類タスクが控えており、ベクトル化自体高速な処理で終えたい。幾つか調査した中で、2018年末に登場

shikimihuawei 2020/04/06

リンク

ku_bert_japanese - LANGUAGE MEDIA PROCESSING LAB

BERT日本語Pretrainedモデル † 近年提案されたBERTが様々なタスクで精度向上を達成しています。BERTの公式サイトでは英語pretrainedモデルや多言語pretrainedモデルが公開されており、そのモデルを使って対象タスク(例: 評判分析)でfinetuningすることによってそのタスクを高精度に解くことができます。多言語pretrainedモデルには日本語も含まれていますので日本語のタスクに多言語pretrainedモデルを利用することも可能ですが、基本単位がほぼ文字となっていることは適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubwordに分割したものを基本単位とし、日本語テキストのみ(Wikipediaを利用)でpretrainingしました。 2022年1月21日追記: このモデルは古くなっています。RoBERTa-base 日本語

shikimihuawei 2020/04/06

リンク

pytorchでBERTの日本語学習済みモデルを利用する - 文章埋め込み編

概要 BERT (Bidirectional Encoder Representations from Transf ormers) は、NAACL2019で論文が発表される前から大きな注目を浴びていた強力な言語モデルです。これまで提案されてきたELMoやOpenAI-GPTと比較して、双方向コンテキストを同時に学習するモデルを提案し、大規模コーパスを用いた事前学習とタスク固有のfine-tuningを組み合わせることで、各種タスクでSOTAを達成しました。そのように事前学習によって強力な言語モデルを獲得しているBERTですが、今回は日本語の学習済みBERTモデルを利用して、文章埋め込み (Sentence Embedding) を計算してみようと思います。環境今回は京都大学の黒橋・河原研究室が公開している「BERT日本語Pretrainedモデル」を利用します。 BERT日本語Pre

shikimihuawei 2020/04/06

リンク

はてなブックマーク

タグ

関連タグで絞り込む (19)

BERTに関するshikimihuaweiのブックマーク (30)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス