タグ

nlpとkaggleに関するslay-tのブックマーク (2)

  • Kaggle Tweetコンペ振り返り - コンペ概要・BERTによるQ&Aアプローチについて - memo

    はじめに 記事では2020年3月~6月にかけて開催され、約2200チームが参加したKaggleのコンペ Tweet Sentiment Extraction(通称Tweetコンペ)について、振り返りを兼ねてまとめたいと思います。 はじめに コンペ概要 データ データ数について Sentimentについて 元データについて 評価指標 BERTによるQ&Aアプローチ Question Answeringについて コンペにおけるアプローチ QAアプローチの課題 最後に コンペ概要 Tweetと正解ラベルの例 まず初めにコンペのポイントをいくつか挙げます Sentimentラベルの与えられたTweetから、そのSentimentに該当する箇所を抜き出す課題。 アノテーションの問題で正解ラベルにノイズが多く含まれており、noisy labelへの対処もポイントとなった。 BERTやRoBERT

    Kaggle Tweetコンペ振り返り - コンペ概要・BERTによるQ&Aアプローチについて - memo
  • 文章特徴抽出ライブラリWordBatchを試してみる - Qiita

    GWを使って、文章から特徴を抽出するライブラリwordbatchを試しました。wordbatchって何なの?って人も見たことあるって人もこれから使ってみようという人にも役に立てればと思います。 WordBatchとは こちらで公開されております。 一言で言うと 「機械学習用の並列処理テキスト抽出ライブラリ(予測器付き)」です。 ミニバッチで文章からの特徴抽出を行うため、少ないメモリかつ並列処理で文章からの特徴抽出が可能です。カスタマイズ性も高く、他のライブラリをそのまま置き換えることができます。 また、wordbatchというライブラリは文章特徴抽出器の他に、単一ラベル用のオンラインで並列処理できる予測器も備えています。こちらも実際にメモリに乗りづらい大きいデータの予測などに活用できると思われます。 ユースケースとしては、以下の要望に応えられるものかと思います。 なるべく時間かけずに文章の

    文章特徴抽出ライブラリWordBatchを試してみる - Qiita
  • 1