きまぐれ日記: MeCab: 字種に基づくわかち書き

テクノロジーカテゴリーの変更を依頼記事元:

chasen.org/~taku

8 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

asakura-t MeCabにこんな機能があったとは知りませんでした。素晴らしい。

2006/05/03 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

きまぐれ日記: MeCab: 字種に基づくわかち書き

前回の N-gram に引き続き、字種に基づく分かち書きを MeCab だけで実現してみます。日本語ほど字種が... 前回の N-gram に引き続き、字種に基づく分かち書きを MeCab だけで実現してみます。日本語ほど字種が多い言語はありません。ひらがな、カタカナ、漢字、アルファベット、数字、記号..などなど。これらはわかち書きをする上で非常に重要な情報です。MeCab + ipadic の場合、未知語は字種に基づく発見的な手法 (heuristics)　で切り出しています。今回は、辞書はまったく使わず、この字種情報だけで分かち書きをしてみます。単純に「同じ字種のものをまとめて出力する」といった塩梅です。例によって、MeCab の辞書の構成のドキュメントはこちらにあります。基本的に 1. dic.csv (辞書ファイル) 2. matrix.def (連接ファイル) 3. char.def (文字種ファイル) 4. unk.def (未知語処理) 5. dicrc から辞書が構成されます。今回も

ブックマークしたユーザー

ratdrum2008/01/31
ytesaki2006/05/28
jazzanova2006/05/08
asaokitan2006/05/07
koyhoge2006/05/04
charsbar2006/05/03
asakura-t2006/05/03

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx