タグ

自然言語処理に関するtakegのブックマーク (2)

  • 形態素解析前の日本語文書の前処理 (Python) - け日記

    語の文書を扱っていますと、モデルやパラメータよりも、前処理を改善する方が精度が改善し、かつ、頑健になることがしばしばあります。 投稿では形態素解析 (分かち書き) する前、つまり文字レベルでの前処理でよく使っているテクニックを紹介します。 お題 少し極端な例ですが、題材として架空のレビュー文を使います。 お友達の紹介で、女子2人で三時のティータイムに利用しました。 2人用のソファに並んでいただきま〜す v(^^)v なかよし(笑) 最後に出された,モンブランのケーキ。 やばっっっ!!これはうまーーーい!! とってもDeliciousで、サービスもGoodでした😀 これで2,500円はとってもお得です☆ http://hogehoge.nantoka.blog/example/link.html 前処理のポイントがいくつかありますね。いずれも、どちらかに統一したり除外したりするほうが

    形態素解析前の日本語文書の前処理 (Python) - け日記
  • 2019年末版 形態素解析器の比較 - Qiita

    形態素解析は日語処理の初歩であり、文を単語に分割したり、品詞や活用形、基形を分析するために行います。記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un

    2019年末版 形態素解析器の比較 - Qiita
  • 1