エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
異常検知アルゴリズムを用いたテキストノイズ抽出 | 株式会社AI Shift
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
異常検知アルゴリズムを用いたテキストノイズ抽出 | 株式会社AI Shift
こんにちは AIチームの戸田です 今回は異常検知アルゴリズムを用いたテキストノイズ抽出を試してみたい... こんにちは AIチームの戸田です 今回は異常検知アルゴリズムを用いたテキストノイズ抽出を試してみたいと思います。 自然言語処理を行う際に必ずと言っていいほど直面する問題の一つがテキストのノイズです。特に実環境で動いているプロダクトのログデータを扱う際は、「あああああああ」のような無意味な文字列や「よろしくお願いします」のようなタスクと関係の無い一般的な文章など多種多様なノイズが存在するため、これらを除去しなければなりません。 今回紹介する手法をきっかけはこちらのブログで、簡単に手法を説明すると、GloVeとTF-IDFから得られたベクトルをPCAで圧縮し、IsolationForestで異常値を見つける、といったものでした。こちらのブログではNIPS 2015の論文に対して手法を適用してい概ね良い結果を収めています。本記事では日本語のカスタマーサポートのデータに適用し、言語とドメインを変え