タグ

BERTとデータに関するslay-tのブックマーク (3)

  • 日本語話し言葉BERTを作成、公開します! - Retrieva TECH BLOG

    こんにちは。 カスタマーサクセス部リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。 今回の記事では、国立国語研究所様との共同研究で作成した日語話し言葉BERTとその利用方法について紹介します。 概要 BERTの簡単な説明 話し言葉BERT作成方法 書き言葉BERTの文法を表現する部分のみをCSJで追加学習 書き言葉BERTに対して、話し言葉データを用いた分野適応 実験 文法を表現する部分のみを追加学習することの有効性の確認 話し言葉データを用いた分野適応を行うことの有効性の確認 日語話し言葉BERTの公開 ご利用方法 まとめ 概要 近年、自然言語処理の分野ではBERT(Bidirectional Encoder Representations from Transformers)と呼ばれるモ

    日本語話し言葉BERTを作成、公開します! - Retrieva TECH BLOG
  • Kaggle Tweetコンペ振り返り - コンペ概要・BERTによるQ&Aアプローチについて - memo

    はじめに 記事では2020年3月~6月にかけて開催され、約2200チームが参加したKaggleのコンペ Tweet Sentiment Extraction(通称Tweetコンペ)について、振り返りを兼ねてまとめたいと思います。 はじめに コンペ概要 データ データ数について Sentimentについて 元データについて 評価指標 BERTによるQ&Aアプローチ Question Answeringについて コンペにおけるアプローチ QAアプローチの課題 最後に コンペ概要 Tweetと正解ラベルの例 まず初めにコンペのポイントをいくつか挙げます Sentimentラベルの与えられたTweetから、そのSentimentに該当する箇所を抜き出す課題。 アノテーションの問題で正解ラベルにノイズが多く含まれており、noisy labelへの対処もポイントとなった。 BERTやRoBERT

    Kaggle Tweetコンペ振り返り - コンペ概要・BERTによるQ&Aアプローチについて - memo
  • BERTなどの大規模のモデルの課題 - Qiita

    自然言語処理の画期的なモデル - BERT BERT [Bidirectional Encoder Representations from Transformers] は、Googleのチームに2018年の秋に発表された。トランスフォーマーアーキテクチャを使って、大量のデータで非常に大きいネットワークを画期的な方法でモデルを学習した結果である。学習方法と精度についてこの記事をご参照ください。 オープンソース・情報を自由に交換することを大事にしている機械学習のフィールドでは、新しいアイデアを arxiv.org で論文として公開し、github でモデルを共有することが基的なやり方である。新しいアイデアが公開されたとたんに、世界の機械学習の研究者や開発チームが参考したり、再利用したりできる。 オープンソースの文化の結果、BERTが公開されて数か月たったら、 Open AI、Faceboo

    BERTなどの大規模のモデルの課題 - Qiita
  • 1