エンジニアの id:necojackarc です。 ここ数ヶ月、長年貼られたガムテープを剥がして綺麗に貼り直すような仕事をしています。 本エントリではピクスタと機械学習についてで軽く触れた、私が今年の春頃に取り組んでいた機械学習を使ったタグ翻訳の精度向上と高速化についてご紹介します。 texta.pixta.jp 翻訳精度向上 翻訳精度*1向上のアプローチとして、まずは翻訳精度が低い原因を特定する必要があります。 調査の結果、学習データの問題、より具体的に言うと、学習データの多様性の低さが翻訳精度を低下させている原因のひとつでした。 データの多様性の低さが翻訳精度を低下させる理由を以前のエントリでも取り上げた「タイ」という言葉を例にして考えてみます。 とある画像についた「タイ」を翻訳するとき、その画像に付いている他のタグが重要になります。画像に「海」や「日本食」などがついていれば、なんとな