こんにちは、GMOアドマーケティングのS.Rです。 NLP(自然言語処理)は機械学習の中でも人気な分野の一つです。 今回は日本語のNLPで重要な処理である形態素解析のツール「MeCab」へユーザー辞書を追加する方法を紹介します。 1. NLPの基本処理プロセス 日本語を英語へ機械翻訳する例で説明します。 基本処理プロセスは図1の通りです。形態素解析は日本語に関するNLP処理の最初のプロセスです。 図1. 機械翻訳の処理の流れ 2. 形態素解析とは 形態素解析については以下のWikipediaの解説をご覧ください。 形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の