[B! nlp][kaggle] slay-tのブックマーク

slay-t id:slay-t

nlpとkaggleに関するslay-tのブックマーク (2)

Kaggle Tweetコンペ振り返り - コンペ概要・BERTによるQ&Aアプローチについて - memo
はじめに本記事では2020年3月~6月にかけて開催され、約2200チームが参加したKaggleのコンペ Tweet Sentiment Extraction（通称Tweetコンペ）について、振り返りを兼ねてまとめたいと思います。はじめにコンペ概要データデータ数について Sentimentについて元データについて評価指標 BERTによるQ&Aアプローチ Question Answeringについて本コンペにおけるアプローチ QAアプローチの課題最後にコンペ概要 Tweetと正解ラベルの例まず初めに本コンペのポイントをいくつか挙げます Sentimentラベルの与えられたTweetから、そのSentimentに該当する箇所を抜き出す課題。アノテーションの問題で正解ラベルにノイズが多く含まれており、noisy labelへの対処もポイントとなった。 BERTやRoBERT
slay-t 2020/06/18
データ

BERT

kaggle

NLP

自然言語処理

機械学習

text
リンク
文章特徴抽出ライブラリWordBatchを試してみる - Qiita
GWを使って、文章から特徴を抽出するライブラリwordbatchを試しました。wordbatchって何なの？って人も見たことあるって人もこれから使ってみようという人にも役に立てればと思います。 WordBatchとはこちらで公開されております。一言で言うと「機械学習用の並列処理テキスト抽出ライブラリ(予測器付き)」です。ミニバッチで文章からの特徴抽出を行うため、少ないメモリかつ並列処理で文章からの特徴抽出が可能です。カスタマイズ性も高く、他のライブラリをそのまま置き換えることができます。また、wordbatchというライブラリは文章特徴抽出器の他に、単一ラベル用のオンラインで並列処理できる予測器も備えています。こちらも実際にメモリに乗りづらい大きいデータの予測などに活用できると思われます。ユースケースとしては、以下の要望に応えられるものかと思います。なるべく時間かけずに文章の
slay-t 2018/05/01
ライブラリ

qiita

インストール

nlp

kaggle
リンク
1