[B! 自然言語処理] takegのブックマーク

takeg id:takeg

自然言語処理に関するtakegのブックマーク (2)

形態素解析前の日本語文書の前処理 (Python) - け日記
日本語の文書を扱っていますと、モデルやパラメータよりも、前処理を改善する方が精度が改善し、かつ、頑健になることがしばしばあります。本投稿では形態素解析 (分かち書き) する前、つまり文字レベルでの前処理でよく使っているテクニックを紹介します。お題少し極端な例ですが、題材として架空のレビュー文を使います。お友達の紹介で、女子２人で三時のティータイムに利用しました。 2人用のソファに並んでいただきま〜す v(^^)v なかよし（笑）最後に出された,モンブランのｹｰｷ。やばっっっ！！これはうまーーーい!! とってもＤｅｌｉｃｉｏｕｓで、サービスもGoodでした😀 これで2,500円はとってもお得です☆ http://hogehoge.nantoka.blog/example/link.html 前処理のポイントがいくつかありますね。いずれも、どちらかに統一したり除外したりするほうが
takeg 2021/09/16
Python

自然言語処理
リンク
2019年末版形態素解析器の比較 - Qiita
形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。（SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では？と申し上げておきたいです） MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました（Janomeというものがありましたがmecab-python3の方が高速です）。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。辞書はIPA辞書が推奨されていますが、Un
takeg 2019/12/18
形態素解析

NLP

自然言語処理

プログラミング
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx