タグ

nlpとkaggleに関するmanabouのブックマーク (5)

  • DATAFLUCT Tech Blog

    2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

    DATAFLUCT Tech Blog
  • Kaggle Tweetコンペ振り返り - コンペ概要・BERTによるQ&Aアプローチについて - memo

    はじめに 記事では2020年3月~6月にかけて開催され、約2200チームが参加したKaggleのコンペ Tweet Sentiment Extraction(通称Tweetコンペ)について、振り返りを兼ねてまとめたいと思います。 はじめに コンペ概要 データ データ数について Sentimentについて 元データについて 評価指標 BERTによるQ&Aアプローチ Question Answeringについて コンペにおけるアプローチ QAアプローチの課題 最後に コンペ概要 Tweetと正解ラベルの例 まず初めにコンペのポイントをいくつか挙げます Sentimentラベルの与えられたTweetから、そのSentimentに該当する箇所を抜き出す課題。 アノテーションの問題で正解ラベルにノイズが多く含まれており、noisy labelへの対処もポイントとなった。 BERTやRoBERT

    Kaggle Tweetコンペ振り返り - コンペ概要・BERTによるQ&Aアプローチについて - memo
  • BERTの精度を向上させる手法10選 - Qiita

    はじめに 自然言語処理タスクでBERTをfinetuningして使うことが当たり前になってきました。Kaggleなどのコンペや精度要件がきつい案件を行う場合に少しでも精度を向上させたいというシーンが増えてくると考えられます。そこで、精度向上手法をまとめます。タスクとしては分類タスクを想定しています。 文字数調整 学習済みのBERTに入力可能な単語数は最大512個です。そのため、512単語以上のテキストを使用する場合は特別な工夫が必要となります。ここの処理方法の変更が精度向上に寄与することが多いので要チェックです。 例として次のテキストから6単語取得することを考えます(句点も1単語とします) 吾輩 / は / / で / ある / 。 / 名前 / は / まだ / ない / 。 1. Head-Tail 吾輩 / は / / で / ある / 。 / 名前 / は / まだ / な

    BERTの精度を向上させる手法10選 - Qiita
  • 単語埋め込みにおけるout-of-vocabularyの対応 - magnitudeの初期化

    概要 magnitudeという単語埋め込みを扱うライブラリには、単語を構成する文字列を考慮したout-of-vocabularyの初期化の方法が実装されています。EMNLP 2018の論文と実際のコードを元に、その初期化の方法を実装して試してみました。 背景 KaggleのQuora Insincere Questionsコンペを終えて KaggleのQuora Insecure QuestionsのコンペではOOVの対応が重要だったっぽいけど、magnitudeはランダムベクトルの付与とかミススペルの対応とかしてくれるみたいだ。ロジック確認しないと何してるのかわからないけど……  https://t.co/d8tteqwwCp — やぐ (@yag_ays) February 26, 2019 KaggleのNLPコンペであるQuora Insincere Questions Class

    単語埋め込みにおけるout-of-vocabularyの対応 - magnitudeの初期化
  • 文章特徴抽出ライブラリWordBatchを試してみる - Qiita

    GWを使って、文章から特徴を抽出するライブラリwordbatchを試しました。wordbatchって何なの?って人も見たことあるって人もこれから使ってみようという人にも役に立てればと思います。 WordBatchとは こちらで公開されております。 一言で言うと 「機械学習用の並列処理テキスト抽出ライブラリ(予測器付き)」です。 ミニバッチで文章からの特徴抽出を行うため、少ないメモリかつ並列処理で文章からの特徴抽出が可能です。カスタマイズ性も高く、他のライブラリをそのまま置き換えることができます。 また、wordbatchというライブラリは文章特徴抽出器の他に、単一ラベル用のオンラインで並列処理できる予測器も備えています。こちらも実際にメモリに乗りづらい大きいデータの予測などに活用できると思われます。 ユースケースとしては、以下の要望に応えられるものかと思います。 なるべく時間かけずに文章の

    文章特徴抽出ライブラリWordBatchを試してみる - Qiita
  • 1