新型コロナウイルスに関する情報は、厚生労働省の情報発信サイトを参考にしてください。情報を見る
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
中国語の単語分割 | karak
中国語や日本語の情報に対してコンピューターで何らかの処理、たとえば統計的な処理、要約、キーワード... 中国語や日本語の情報に対してコンピューターで何らかの処理、たとえば統計的な処理、要約、キーワード抽出などを行いたいと思った場合、まずは文章を単語単位に分割する必要がある。欧米の言語と違い、中国語などは単語間にスペース(区切りとなる文字)がないため、どこからどこまでが単語なのかコンピューターには判断できない。 この単語分割は、さまざまな処理のはじめの一歩であるにもかかわらず、とても手強い問題で今のところ100%の精度で分割を実現する手法は考案されていない。オンライン辞書の北辞郎には「今日熱聞」というコーナーを設けてあり、話題になっている新聞の見出しをネットから取得し、その見出しを単語単位に分割する処理を行っているが、機械的な手法を採用しているため、かなりの割合で誤った分割をしてしまう。以前からなんとかしたいと考えていて、今回少し勉強したので、その内容をメモしておきたい。 今回、私が試してみた