はじめに 自然言語処理の学習では利用するモデルに応じて文章中の単語のトークン化など様々な前処理を行う必要があります。今回は、自然言語処理で有名なhuggingfaceのライブラリを利用することでモデル依存の工程をなるべく少なく前処理を行う方法を紹介したいと思います。なお、本記事は使用する機械学習のフレームワークとしてPyTorchを想定した記事となります。 利用するデータセット 今回はkaggleのSuperheroes NLP Dataset(ライセンス:CC0: Public Domai)(英語文書データ)を利用して前処理を行う例を主に紹介していきます。なお今回は上記のデータセット全てではなく先頭10件のデータを用います(上記のデータセットの文書のは一部NaNが存在するため)。 データセットの読み込み まず、最初にhuggingfaceのライブラリを用いたデータセットに読み込みについて