エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
オープンソースの中国語辞書を使ってMeCab用中国語辞書を作る|旅ニート
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
オープンソースの中国語辞書を使ってMeCab用中国語辞書を作る|旅ニート
自然言語処理の基本的な入力データは単語です。英語は単語境界がスペースなので処理が簡単です。しかし... 自然言語処理の基本的な入力データは単語です。英語は単語境界がスペースなので処理が簡単です。しかし日本語や中国語などの言語は単語境界が曖昧ですので、まずはテキストを分割するステップが重要になります。日本語の場合は幸いにも優れた辞書が多数ありますが、中国語の場合はそうでもないようです。 ここでは、オープンソースの中国語辞書(CC-CEDICT)をベースに中国語向けMeCab辞書を作りました。ただしこの辞書は文法的知識に基づかない、コストを機械学習(CRF)で学習していない辞書になります。 辞書の変換まずはCEDICTをスクリプトでCSVファイルに変換します。例えば次のようなスクリプトを書きます。 import re pattern = re.compile(r"^(.*?) (.*?) \[(.*?)\] /(.*?)$") # surface -> csv (surface, left id