はじめに 本記事では2020年3月~6月にかけて開催され、約2200チームが参加したKaggleのコンペ Tweet Sentiment Extraction(通称Tweetコンペ)について、振り返りを兼ねてまとめたいと思います。 はじめに コンペ概要 データ データ数について Sentimentについて 元データについて 評価指標 BERTによるQ&Aアプローチ Question Answeringについて 本コンペにおけるアプローチ QAアプローチの課題 最後に コンペ概要 Tweetと正解ラベルの例 まず初めに本コンペのポイントをいくつか挙げます Sentimentラベルの与えられたTweetから、そのSentimentに該当する箇所を抜き出す課題。 アノテーションの問題で正解ラベルにノイズが多く含まれており、noisy labelへの対処もポイントとなった。 BERTやRoBERT
![Kaggle Tweetコンペ振り返り - コンペ概要・BERTによるQ&Aアプローチについて - memo](https://cdn-ak-scissors.b.st-hatena.com/image/square/9640b5929d34e2790798e249237d67743b34f71c/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fr%2Frishigami%2F20200616%2F20200616210732.png)