[B! nlp][kaggle] manabouのブックマーク

DATAFLUCT Tech Blog

2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。データ基盤とは何か… データ基盤データ分析基盤実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。ただMLOpsの元となった「Dev…

manabou 2022/06/10

リンク

Kaggle Tweetコンペ振り返り - コンペ概要・BERTによるQ&Aアプローチについて - memo

はじめに本記事では2020年3月~6月にかけて開催され、約2200チームが参加したKaggleのコンペ Tweet Sentiment Extraction（通称Tweetコンペ）について、振り返りを兼ねてまとめたいと思います。はじめにコンペ概要データデータ数について Sentimentについて元データについて評価指標 BERTによるQ&Aアプローチ Question Answeringについて本コンペにおけるアプローチ QAアプローチの課題最後にコンペ概要 Tweetと正解ラベルの例まず初めに本コンペのポイントをいくつか挙げます Sentimentラベルの与えられたTweetから、そのSentimentに該当する箇所を抜き出す課題。アノテーションの問題で正解ラベルにノイズが多く含まれており、noisy labelへの対処もポイントとなった。 BERTやRoBERT

manabou 2020/06/18

リンク

BERTの精度を向上させる手法10選 - Qiita

はじめに自然言語処理タスクでBERTをfinetuningして使うことが当たり前になってきました。Kaggleなどのコンペや精度要件がきつい案件を行う場合に少しでも精度を向上させたいというシーンが増えてくると考えられます。そこで、精度向上手法をまとめます。タスクとしては分類タスクを想定しています。文字数調整学習済みのBERTに入力可能な単語数は最大512個です。そのため、512単語以上のテキストを使用する場合は特別な工夫が必要となります。ここの処理方法の変更が精度向上に寄与することが多いので要チェックです。例として次のテキストから6単語取得することを考えます（句点も1単語とします）吾輩 / は / 猫 / で / ある / 。 / 名前 / は / まだ / ない / 。 1. Head-Tail 吾輩 / は / 猫 / で / ある / 。 / 名前 / は / まだ / な

manabou 2020/05/15

リンク

単語埋め込みにおけるout-of-vocabularyの対応 - magnitudeの初期化

概要 magnitudeという単語埋め込みを扱うライブラリには、単語を構成する文字列を考慮したout-of-vocabularyの初期化の方法が実装されています。EM NLP 2018の論文と実際のコードを元に、その初期化の方法を実装して試してみました。背景 KaggleのQuora Insincere Questionsコンペを終えて KaggleのQuora Insecure QuestionsのコンペではOOVの対応が重要だったっぽいけど、magnitudeはランダムベクトルの付与とかミススペルの対応とかしてくれるみたいだ。ロジック確認しないと何してるのかわからないけど……　 https://t.co/d8tteqwwCp — やぐ (@yag_ays) February 26, 2019 KaggleのNLPコンペであるQuora Insincere Questions Class

manabou 2019/02/28

kaggle
nlp

リンク

文章特徴抽出ライブラリWordBatchを試してみる - Qiita

GWを使って、文章から特徴を抽出するライブラリwordbatchを試しました。wordbatchって何なの？って人も見たことあるって人もこれから使ってみようという人にも役に立てればと思います。 WordBatchとはこちらで公開されております。一言で言うと「機械学習用の並列処理テキスト抽出ライブラリ(予測器付き)」です。ミニバッチで文章からの特徴抽出を行うため、少ないメモリかつ並列処理で文章からの特徴抽出が可能です。カスタマイズ性も高く、他のライブラリをそのまま置き換えることができます。また、wordbatchというライブラリは文章特徴抽出器の他に、単一ラベル用のオンラインで並列処理できる予測器も備えています。こちらも実際にメモリに乗りづらい大きいデータの予測などに活用できると思われます。ユースケースとしては、以下の要望に応えられるものかと思います。なるべく時間かけずに文章の

manabou 2018/05/02

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

nlpとkaggleに関するmanabouのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス