タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

言語に関するkeyesberryのブックマーク (6)

  • tf・idf法

    は,ある語tがある文書d中に現れる頻度をで割った値である. はセグメント内の形態素数であり,セグメント長を反映した正規化を 行なっている. は,文書データベース全体においてある語tが現れる文書の頻度に基づく値であり,次式で定義される. はある語tが一部の文書に集中している度合を表しているので, はある語tがある文書dを弁別する能力を表している. 検索要求文はユーザにより自由に入力できるのが通例であるから その中の検索語に関する統計情報は前もって得られないのが普通である. よって, 通常は検索要求文中の検索語について重みを計算することはできず, データベース中の語についてのみ重みを計算する. 一方,システムでは,両マニュアル中の全ての語について重みを計算することが出来るため, 対応箇所を見つける際の精度の向上が期待される. Nobuyuki Ohmori 1997年10月08日(水) 1

  • パターン認識とは

  • http://www.forest.dnj.ynu.ac.jp/Forest/ja/term-extraction.html

  • 専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説

    はじめに  テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解 説します。 日語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」があ りますが、そのまま専門用語の抽出に使うには次の2つの問題があります。 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、 複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく 分割するため、そのまま使うには難があります。 もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。 その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・ 森辰則助教授が作成した「専門用語自動抽出システム」があります。 それは、1)「茶筅」の形態素解析結果を複合語に組み立て、2)その複合語(単語の場 合もある)を重要度の高い順に返すものです。

  • 形態素解析 - Wikipedia

    語の代表的な形態素解析の手法[編集] 英語の場合と異なり、文節を得るのが目的となることが多い。大まかに言えば文から切り出した単語が属する品詞を辞書(自然言語処理用の)を用いて調べていき、結果得られた並びから正しく文節が構成される並びであるものを正解であるとするといったような方法を取る。 日語文法では、たとえば動詞のあとに格助詞がくることはできない(「ドアを開けるを」などは不可)といったように、ほとんどの付属語について「このようなものの後には付く」「このようなものの後には付かない」という規則性があり、また動詞の活用はその後に来る品詞を制限することがある(たとえば連体形の後は名詞)。このような性質を利用することによって単語の境界の判別を行う。具体的にこの性質を利用する方法には以下の2つがある: 規則による方法 確率的言語モデルをもちいる方法 規則による形態素解析[編集] 長尾真らの197

    形態素解析 - Wikipedia
  • 形態素解析・構文解析入門

    back 注意: このページの内容には、おそらく多くの間違いがあります。 リンクされているので残しておきますが、利用には注意してください。(2008年3月、新山) 目次 背景知識 形態素解析とは 構文解析とは 練習問題 言語処理関係の論文によく出てくる重要語 1. 背景知識 まず「形態素」、「構文」などといった用語は、ほとんどが 現在の科学的な「言語学」という分野に帰するものであることを 最初に知っておく必要がある。体系だった言語学は、おもに チョムスキー言語学の創始とともに始まった。 チョムスキーは 1960年代に、世界じゅうの数多くの言語には、 実はそのすべてに共通する「普遍文法 (universal grammer)」がある、と言った。 またチョムスキーはそのような文法を数学的な人工言語で 厳密に表現する方法をも開発した。彼によれば、言語にはその理想化された かたち (言語が言い間違

  • 1