タグ

twitterとtextに関するmanabouのブックマーク (2)

  • Kaggle Tweetコンペ振り返り - コンペ概要・BERTによるQ&Aアプローチについて - memo

    はじめに 記事では2020年3月~6月にかけて開催され、約2200チームが参加したKaggleのコンペ Tweet Sentiment Extraction(通称Tweetコンペ)について、振り返りを兼ねてまとめたいと思います。 はじめに コンペ概要 データ データ数について Sentimentについて 元データについて 評価指標 BERTによるQ&Aアプローチ Question Answeringについて コンペにおけるアプローチ QAアプローチの課題 最後に コンペ概要 Tweetと正解ラベルの例 まず初めにコンペのポイントをいくつか挙げます Sentimentラベルの与えられたTweetから、そのSentimentに該当する箇所を抜き出す課題。 アノテーションの問題で正解ラベルにノイズが多く含まれており、noisy labelへの対処もポイントとなった。 BERTやRoBERT

    Kaggle Tweetコンペ振り返り - コンペ概要・BERTによるQ&Aアプローチについて - memo
  • 【Pythonでテキストマイニング】TwitterデータをWordCloudで可視化してみる - Np-Urのデータ分析教室

    今回はツイッターからツイートデータを取得し、それをWordCloudというライブラリを使って可視化してみたいと思います。 Word Cloud関連の記事は、既に多くあり特に目新しいものではないですが、可視化ツールとしてはなかなかインパクトがあるので、テキストマイニング関連の分析の一例として今回やってみました! ちなみに、今回、好きな芸人の中の一人である、スピードワゴン小沢さんのツイートを取得して、可視化してみました。(勝手にごめんなさい。。。) 結果をまず先にお見せします! 今回の流れWord Cloudでは、頻出する単語ほど、つまり特徴的な単語ほど大きな文字で表示されます。右下の「好き」「幸せ」「友達」という言葉がまず目に入りました。 小沢さんのツイートは、とても詩的で素敵です。そんな小沢さんの人柄、芸術性溢れたツイート内容がうまく可視化できているのではないかと思います! さて、この図を

    【Pythonでテキストマイニング】TwitterデータをWordCloudで可視化してみる - Np-Urのデータ分析教室
  • 1