タグ

2021年11月9日のブックマーク (3件)

  • SQuADをGoogle Translate APIで翻訳 | 株式会社AI Shift

    こんにちは AIチームの戸田です。 先日、質問応答タスクの一つ、SQuAD 2.0(The Stanford Question Answering Dataset)をGoogle Translate APIを使って翻訳しました。 正確な回答位置の翻訳が困難だったため、文書単位での回答位置推定問題になってしまいますが、なにかに応用していただけたらいいと思い、翻訳したデータをKaggle Datasetに公開しました。(元のSQuAD 2.0はCC BY-SA 4.0 licenseだったので継承しています) 今回はそのデータを作ったときの手順を紹介したいと思います。 SQuADとは SQuADは、Wikipedia の記事の内容に対する質問とその回答を、クラウドソーシングで作られた読解タスクのデータセットです。回答となる文書が記事のどこにあるのかを人間が質問を作っているので、読解を特に重要視

    SQuADをGoogle Translate APIで翻訳 | 株式会社AI Shift
  • 文書分類における古典的手法とBERTの判断根拠の比較 | 株式会社AI Shift

    こんにちは AIチームの戸田です 自然言語処理でよく扱われるタスクの一つである文書分類、精度を上げる工夫などはよく見られますが、実務ではどうしてその分類になるのか、その判断根拠についての説明が重要になる場面に多く直面します。 機械学習の判断根拠についてはExplainable AI という分野で近年注目されており、昨年のKDD2020のチュートリアルでも扱われていました。 記事では文書分類を行う手法として、古典的なCountVectorizerとロジスティック回帰を使った手法と、近年主流となっているBERTのfine-tuningを行う手法の両方の判断根拠の可視化について紹介したいと思います。 データセット UCIのSMS Spam Collection Data Setを使います。 5572件のSMSのデータセットで、そのうちスパムSMSが747件あります。 以下のコードでダウンロード

    文書分類における古典的手法とBERTの判断根拠の比較 | 株式会社AI Shift
  • AutoNLPを使った日本語文書分類 | 株式会社AI Shift

    こんにちは AIチームの戸田です 先日、huggingfaceのAutoNLPで日語が扱えるようになりました。 こんにちは日 ! 🤗 AutoNLP supports Japanese NOW!!! This means you can now train binary classification, multi-class classification, entity recognition, summarization and speech recognition models for Japanese using AutoNLP 🎉🎉! Check it out here: https://t.co/HyjPGE2eEA pic.twitter.com/VWfYmj9flQ — abhishek (@abhi1thakur) April 21, 2021 今回はAutoNL

    AutoNLPを使った日本語文書分類 | 株式会社AI Shift