[B! 形態素解析] Kesinのブックマーク

Sign in - Google Accounts

Not your computer? Use a private browsing window to sign in. Learn more

Kesin 2012/10/18

リンク

専門用語（キーワード）自動抽出用Perlモジュール "TermExtract"の解説

はじめに　テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解説します。日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」がありますが、そのまま専門用語の抽出に使うには次の２つの問題があります。ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく分割するため、そのまま使うには難があります。もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・森辰則助教授が作成した「専門用語自動抽出システム」があります。それは、１）「茶筅」の形態素解析結果を複合語に組み立て、２）その複合語（単語の場合もある）を重要度の高い順に返すものです。

Kesin 2011/08/07

リンク

livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

突然ですが，mecabの辞書 (mecab-ipadic) をデフォルトのまま使って，mecab意外と使えねぇとか文句言ってる悪い子はおらんかね？ mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので，そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し，学習させるといった手法を使うのが正攻法だと思いますが，とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。人間の話す言語には，動詞の語幹や名詞には日々新しく語彙が増えるけど，助詞や活用のルールは簡単には変化しない，という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は，名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。ただ，辞書への単語追加はここにある通り簡単にできるのですが，単語

Kesin 2011/05/16

リンク

JUMAN-形態素解析

本システムは, 計算機による日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツールを提供するために開発されました。その際, 学校文法が計算機向きではないという問題を考慮し, 使用者によって文法の定義, 単語間の接続関係の定義などを容易に変更できるように配慮しました。新バージョン5.Xの拡張点の概要は以下の通りです．日本語の基本的語彙，約3万語（固有名詞を除く）を選定した．表記バリエーションの整備を行い，代表表記を出力することとした．その他の整備（読みの音訓情報の付与，「読ます」「読まされる」などの使役形への対応）例えば，以下のような解析結果がえられます． % cat sample.txt 子どもはリンゴがすきだかぜでおくれた % juman -B -e2 < sample.txt 子どもこども子ども名詞 6 普通名詞 1 * 0 * 0 ”代表

Kesin 2011/04/23

形態素解析

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

形態素解析に関するKesinのブックマーク (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス