nilabのブックマーク - はてなブックマーク

nilab id:nilab

ブックマーク / gensen.dl.itc.u-tokyo.ac.jp (2)

Lingua::LanguageGuesser はいかにして生まれたのか
言選Webは東京大学情報基盤センター中川研究室で公開している専門用語（キーワード）自動抽出サービスです。このシステムは内部で、専門用語（キーワード）自動抽出Perlモジュール"TermExtract"を活用しています。特に西欧言語版では英語だけではなく、フランス語、イタリア語などの用語抽出を行うことができます。しかし、入力テキストがどの言語で書かれているか判定する仕組みをもたず、ユーザがその都度指定する必要がありました。そこで、入力テキストがどの言語で書かれているか、自動判定する仕組みを新たに考えることになった次第です。言語判定を行う方式を調べたところ、いくつかの手法があることがわかりました。 N-Gramモデルを用いたテキストの分類器を使う各言語で頻出する単語や特徴的な単語があるかどうかで判定するアクセス先サイトのURLから国名を得る HTMLのMETAタグの記述を確認す
nilab 2008/12/10
Lingua::LanguageGuesser はいかにして生まれたのか

natural_language_processing
リンク
”専門用語（キーワード）自動抽出システム”のページ
1.専門用語（キーワード）自動抽出システムとは？当サイトでは、専門用語（キーワード）自動抽出システムの基本システムおよび応用システムを提供しています。専門用語（キーワード）自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、（１）形態素解析プログラムによる単語分割、（２）複合語の作成、（３）文章中における重要度の計算、という３つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。自作の文章からキーワードを抽出したい！メタデータ作成のためにウェッブサイト
nilab 2007/01/10
”専門用語（キーワード）自動抽出システム”のページへようこそ

形態素解析

特徴語抽出

複合語
リンク
1

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

はてなブックマーク

タグ

ブックマーク / gensen.dl.itc.u-tokyo.ac.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / gensen.dl.itc.u-tokyo.ac.jp (2)

Lingua::LanguageGuesser はいかにして生まれたのか

”専門用語（キーワード）自動抽出システム”のページ

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス