r_kurainのブックマーク - はてなブックマーク

専門用語（キーワード）自動抽出用Perlモジュール "TermExtract"の解説
はじめに　テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解説します。日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」がありますが、そのまま専門用語の抽出に使うには次の２つの問題があります。ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく分割するため、そのまま使うには難があります。もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・森辰則助教授が作成した「専門用語自動抽出システム」があります。それは、１）「茶筅」の形態素解析結果を複合語に組み立て、２）その複合語（単語の場合もある）を重要度の高い順に返すものです。
r_kurain 2016/06/08
リンク
Lingua::LanguageGuesser - 言語判定器
名称概略詳細メソッドサポートしている言語(not utf8 mode) サポートしている言語(utf8 mode) EXPORTするメソッドについて参照著者 COPYRIGHT AND LICENSE 名称 Lingua::LanguageGuesser - 言語判定器概略 use Lingua::LanguageGuesser; $textstring = 'text strings'; @lang_list_sorted_similarity = Lingua::LanguageGuesser ->guess($textstring) ->eliminate() ->suspect('english', 'japanese-euc_jp') ->result_list(); print "Input is perhaps $lang_list_sorted_similar
r_kurain 2013/06/17
リンク
1

はてなブックマーク

タグ

ブックマーク / gensen.dl.itc.u-tokyo.ac.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / gensen.dl.itc.u-tokyo.ac.jp (2)

専門用語（キーワード）自動抽出用Perlモジュール "TermExtract"の解説

Lingua::LanguageGuesser - 言語判定器

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス