タグ

perlと形態素解析に関するZAORIKUのブックマーク (2)

  • ”専門用語(キーワード)自動抽出システム”のページ

    1.専門用語(キーワード)自動抽出システムとは? 当サイトでは、専門用語(キーワード)自動抽出システムの基システムおよび応用システムを提供しています。 専門用語(キーワード)自動抽出システムとは、単なる文章の単語分割ではありません。一般に文章中では複数の単語の組み合わせで複雑な概念を表す場合が多く、文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなるでしょう。したがって文章中からキーワードを抽出する場合、単語分割機能だけでは意味を成しません。そこで、このシステムでは、(1)形態素解析プログラムによる単語分割、(2)複合語の作成、(3)文章中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。 自作の文章からキーワードを抽出したい! メタデータ作成のためにウェッブサイト

  • 2008年、Webは文字列解析で変わっていく

    前回は、Perlモジュールである「Web::Scraper」を使ったスクレイピングについて説明した。Webページ(HTML)は、「構造」と「デザイン」面で比較的分離が進んできたため、CSSセレクタによるスクレイピングが有効であることが分かったはずだ。 今回の最終回では、コンテンツの自動収集と統計手法について考えてみよう。 記事内で扱っていくのは、幾つかのコンテンツをたどって、「利用頻度の高い語句を集め、話題となっているキーワードを見つけよう」というものだ。 話題のキーワードを集める手法 近年ブログのポータル上などでは、話題となっているキーワードを「利用頻度に応じたフォントサイズ」で示し、クリックすると該当の記事一覧が表示されるという仕組みが実装されているものが多い。 オルタナティブ・ブログにも似たようなものとして「話題のキーワード」が見られる。キーワードをクリックすると、Googleによる

    2008年、Webは文字列解析で変わっていく
    ZAORIKU
    ZAORIKU 2010/02/05
    であしでたいしたことは書いていないが後で読む[txt]
  • 1