こんにちは。DSOC R&Dグループの高橋寛治です。 形態素解析や系列ラベリングの際の素性抽出などでは、いつも似たようなコードを書きがちです。 今回はその作業を減らすための備忘録として、これらのちょっとした前処理について紹介します。 形態素解析 日本語を対象にした自然言語処理における形態素解析とは、単語分割と品詞付与を指しています。 日本語は単語に分かち書きされていないため、ほとんどのタスクの前段となる非常に重要な処理です。 Pythonで日本語形態素解析を行う際には、MeCabやPure PythonのJanomeがよく使われるかと思います。 私は、MeCabのPython 3バインディングであるmecab-python3をよく使います。 シンプルなインタフェースでMeCabの形態素解析機能がPythonで利用可能です。 まずは、mecab-python3を用いて形態素解析を行い、得られ