bongkuraのブックマーク - はてなブックマーク

専門用語（キーワード）自動抽出用Perlモジュール "TermExtract"の解説
はじめに　テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解説します。日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」がありますが、そのまま専門用語の抽出に使うには次の２つの問題があります。ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく分割するため、そのまま使うには難があります。もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・森辰則助教授が作成した「専門用語自動抽出システム」があります。それは、１）「茶筅」の形態素解析結果を複合語に組み立て、２）その複合語（単語の場合もある）を重要度の高い順に返すものです。
bongkura 2016/11/10
リンク
専門用語（キーワード）自動抽出Pythonモジュールtermextract
１．概要 termextractはテキストデータから専門用語を取り出すためのPython3モジュールです。特徴は以下のとおりです。複合語からなる専門用語を抽出します。用語は重要度でランキングします（重要度の低い用語も抽出しますが、ノイズとなる可能性が高くなります）。和文・英文・中文のテキストデータ（平文）を入力にできます。和布蕪との組み合わせのみ和布蕪により解析済みの和文テキストを入力にします。そのままコマンドラインから使えるサンプルスクリプトを用意しています。提供する機能に自作コードを組み合わせた拡張・応用が可能です。 Linux/Windows環境のいずれでも使えます。２．インストール pytermextractをダウンロード pytermextractを解凍し以下のコマンドを実行します。 pip install . 高精度の用語抽出を行うためには、日本語形態素解析器やPO
bongkura 2016/11/10
リンク
Perlモジュール Lingua::LanguageGuesser のお試しページ
Perlモジュール Lingua::LanguageGuesser のお試しページです Webページもしくは指定したテキストが何の言語で書かれているかを判定します。なお、このWebアプリケーションは、自作のPerlモジュール Lingua::LanguageGuesser を元にしています。 Usage 次のいずれかの方法で言語判定を行うテキストを指定してください。 WebページのURLを指定テキスト欄にコピー＆ペーストなどでテキストを入力パソコン上のファイルを指定 (フラットなテキストファイルとHTMLに対応しています) "判定"ボタンをクリックしますしばらく待つと、もっとも統計的に可能性が高い言語と、類似度の高い順に並んだ各言語の一覧が表示されます。 ●URLを入力してください ●文章をコピー＆ペーストなどで入力してください ●パソコン上のファイル(フラットなテキストファイル
bongkura 2007/03/28
perl
リンク
1

はてなブックマーク

タグ

ブックマーク / gensen.dl.itc.u-tokyo.ac.jp (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / gensen.dl.itc.u-tokyo.ac.jp (3)

専門用語（キーワード）自動抽出用Perlモジュール "TermExtract"の解説

専門用語（キーワード）自動抽出Pythonモジュールtermextract

Perlモジュール Lingua::LanguageGuesser のお試しページ

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス