Not your computer? Use a private browsing window to sign in. Learn more
Not your computer? Use a private browsing window to sign in. Learn more
はじめに テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解 説します。 日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」があ りますが、そのまま専門用語の抽出に使うには次の2つの問題があります。 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、 複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく 分割するため、そのまま使うには難があります。 もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。 その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・ 森辰則助教授が作成した「専門用語自動抽出システム」があります。 それは、1)「茶筅」の形態素解析結果を複合語に組み立て、2)その複合語(単語の場 合もある)を重要度の高い順に返すものです。
突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語
本システムは, 計算機による日本語の解析の研究を目指す多くの研究者に共 通に使える形態素解析ツールを提供するために開発されました。その際, 学校 文法が計算機向きではないという問題を考慮し, 使用者によって文法の定義, 単語間の接続関係の定義などを容易に変更できるように配慮しました。 新バージョン5.Xの拡張点の概要は以下の通りです. 日本語の基本的語彙,約3万語(固有名詞を除く)を選定した. 表記バリエーションの整備を行い,代表表記を出力することとした. その他の整備(読みの音訓情報の付与,「読ます」「読まされる」などの使役形への対応) 例えば,以下のような解析結果がえられます. % cat sample.txt 子どもはリンゴがすきだ かぜでおくれた % juman -B -e2 < sample.txt 子ども こども 子ども 名詞 6 普通名詞 1 * 0 * 0 ”代表
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く