本論文では, 専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する. 本論文では名詞 (単名詞と複合名詞) を対象として専門用語抽出について検討する. 基本的アイデアは, 単名詞のバイグラムから得られる単名詞の統計量を利用するという点である. より具体的に言えば, ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる. この頻度を利用した数種類の複合名詞スコア付け法を提案する. NTCIR1 TMRECテストコレクションによって提案方法を実験的に評価した. この結果, スコアの上位の1, 400用語候補以内, ならびに, 12,000用語候補以上においては, 単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
日本語処理において, 単語の同定, すなわち文の単語分割は, 最も基本的かつ重要な処理である. 本論文では, 日本語文字のクラス分類により得られた文字クラスモデルを用いる新しい単語分割手法を提案する. 文字クラスモデルでは, 推定すべきパラメータ数が文字モデルより少ないという大きな利点があり, 文字モデルより頑健な推定を可能とする. したがって, 文字クラスモデルを単語分割へ適用した場合, 文字モデルよりもさらに頑健な未知語モデルとして機能することが期待できる. 文字クラスタリングの基準はモデルの推定に用いるコーパスとは別に用意したコーパスのエントロピーであり, 探索方法は貧欲アルゴリズムに基づいている. このため, 局所的にではあるが最適な文字のクラス分類がクラスの数をあらかじめ決めることなく得られる. ATR対話データベースを用いて評価実験を行った結果, 文字クラスモデルを用いた提案手
国立科学博物館所蔵ヤマイヌ剥製標本はニホンオオカミCanis lupus hodophilaxか? 公開日: 2024/02/22 | 50 巻 1 号 p. 33-48 小森 日菜子, 小林 さやか, 川田 伸一郎 国立科学博物館研究報告A類(動物学)
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く