タグ

BERTとnlpに関するni66lingのブックマーク (3)

  • 文章からLGTM数を予測して「バズる記事」を判別してみた - Qiita

    はじめに Qiita初心者の@pyopp8128と申します。 これまでに記事を2ほど投稿してみたのですが、他人に見てもらえる記事というのはそう簡単に書けるものでもなく、「あ~楽してLGTM沢山貰いたいな~」などと言っているところでしたが、じゃあ LGTMが多くつく記事ってどんな記事だ? という疑問に至りました。 そこで、記事文を自然言語処理により解析し、LGTMがつく/つかないを判別する機械学習モデルができないか を試してみることにしました。 記事の内容は以下の通りです。 LGTMの数を基準に、Qiita上の記事がバズるかバズらないかを判別するAI を作ったよ BERTのファインチューニングにより、Qiita中の記事がLGTM>100かどうか判別する2クラス分類深層学習モデルを作成したよ Qiita APIを通して取得した約10,000記事のデータセットを用いてモデル構築&性能評価を

    文章からLGTM数を予測して「バズる記事」を判別してみた - Qiita
  • 自然言語処理の巨獣「Transformer」のSelf-Attention Layer紹介

    全てのTransformer記事はTransformerから始まる「Transformer」概要2017年中旬、Googleが発表した論文「Attention is all you need」で提出されたモデル「Transformer」は、深層学習の自然言語処理(NLP)分野でいまはデファクトスタンダードとして使われています。Transformerは要するに、過去の自然言語処理(NLP)で多く使われる再帰型ニューラルネットワーク(RNN)や畳み込みニューラルネットワーク(CNN)を「Self-Attention Layer」に入れ替えたモデルです。 それ以降、大抵の自然言語処理(NLP)分野で発表された研究や論文は、Transformerで再構築して発表されています。期待を裏切らなく、再構築されたモデルの結果は、以前の結果を上回っています。 Transformerは2017年に公開され、今

    自然言語処理の巨獣「Transformer」のSelf-Attention Layer紹介
  • はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場

    今回は初心に帰って類似文章検索です。連載の第1回で扱ったネタですが、 BERT を用いて再挑戦してみましょう。BERT のモデルは Hagging Face Transformers の事前学習済みモデルを用いるので、お手軽に試せるかと思います。手法としては Sentence BERT を用い、おまけとして Poor Man's BERT についても紹介します。 (記事公開後に公開されたデータセットで再検証しています。最新情報は 第18回 をご覧ください。 2021.12.21 追記) 1. はじめに 記事では Sentence BERT 1による類似文章検索について、学習や推論のコード例と実験結果を交えてご紹介します。前々から Sentence BERT を試したいと考えていたものの、教師あり学習に必要な日語の類似文データが用意できずにいました。その後、画像キャプションのデータセッ

    はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場
  • 1