efclのブックマーク - はてなブックマーク

Regexp.ja
解析前に行うことが望ましい文字列の正規化処理辞書データを冗長にして異表記を吸収するのにも限界がある。辞書データを生成する際には以下で述べる正規化処理を全て適用しているため、解析対象のテキストに対して以下の正規化処理を適用すると、辞書中の語とマッチしやすくなる。 mecab-ipadic-neologd のエントリを生成する際の正規化処理以下にmecab-ipadic-neologd のエントリを生成する際に、処理の各所に分散している正規化処理をまとめる。生成時には色々置換と削除をしているが、最後に反映されているのは以下である。全角英数字は半角に置換０-９=> 0-9 Ａ-Ｚ=> A-Z ａ-ｚ=> a-z 半角カタカナは全角に置換半角の濁音と半濁音の記号が1文字扱いになってるので気をつけること。ハイフンマイナスっぽい文字を置換以下はハイフンマイナスに置換する。 MODI
efcl 2017/01/07
辞書データとのマッチングをする前に行う文字列の正規化について全角を半角にしたり、カタカナの扱いや記号の正規化など

dictionary

japanese

自然言語
リンク
neologd/mecab-ipadic-neologd: Neologism dictionary based on the language resources on the Web for mecab-ipadic
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
efcl 2016/01/21
実用重視の日本語単語辞書

自然言語

japanese

dictionary
リンク
1

はてなブックマーク

タグ

ブックマーク / github.com/neologd (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / github.com/neologd (2)

Regexp.ja

neologd/mecab-ipadic-neologd: Neologism dictionary based on the language resources on the Web for mecab-ipadic

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス