Amazon Machine Learning (Amazon ML)で日本語のテキストデータを使うと精度が上がらないという記事を見かけたので、本当かどうか検証してみました。 ※筆者は機械学習に明るいわけではなので、詳しい方が読んで誤りに気づかれた場合は是非ご指摘ください。 はじめに結論 Amazon MLに日本語のテキストをそのまま入れると確かに精度が上がりにくいと思われます。 これは、Amazon MLが日本語テキストを分かち書きせず一塊のままインプットデータとして扱ってしまうためです。 Amazon MLはTEXTフィールドに対して空白区切りの単語uni-gramで変換を行い、モデルのインプットデータに使用します。 日本語のテキストを使用する場合は、事前に分かち書きをした上でデータソースとしてアップロードすると、精度が出やすいと考えられます。 検証内容 テストデータ テストには以下の
