タグ

nlpに関するmasami75のブックマーク (6)

  • http://nlp.nagaokaut.ac.jp/%E8%BE%9E%E6%9B%B8%E3%81%A8%E3%82%BF%E3%82%B0%E7%84%A1%E3%81%97%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9%E3%82%92%E7%94%A8%E3%81%84%E3%81%9F%E5%9B%BA%E6%9C%89%E8%A1%A8%E7%8F%BE%E6%8A%BD%E5%87%BA%E5%99%A8%E3%81%AE%E5%AD%A6%E7%BF%92%E6

  • つつじ:日本語機能表現辞書

    ここで、「複合辞」とは、「に対して」や「なければならない」のように、複数の語から構成され、かつ、全体として機能語のように働く表現のことです。 我々は、機能語と複合辞を総称して、「機能表現」と呼ぶことにします。 機能表現の数 日語には、いったいどれくらいの機能表現があるのでしょうか? 実は、これに答を与えるためには、「何を同一とみなすか」ということを厳密に定義する必要があります。 たとえば、「に関する」と「にかんする」は同一表現でしょうか? これは、単に漢字表記とかな表記の違いですから、同一表現と考えるのが自然のように思えます。 では、「に関する」と「に関して」は同一表現でしょうか? 「Aに関する調査」と「Aに関して調査した」は、意味的に対応しますから、同一表現と考えたくなります。しかし一方で、前者は連体助詞相当(「Aの調査」)であるのに対し、後者は格助詞相当(「Aを調査した」)ですから、

    masami75
    masami75 2011/03/04
    内容語と機能語からなる表現から、内容的な意味だけを抽出したい。
  • 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

    形態素解析と検索APIとTF-IDFでキーワード抽出
    masami75
    masami75 2011/03/04
    特徴語の抽出。TF(Term Frequency, 対象語の出現回数)、DF(Document Frequency, 対象語が出現した文書数)
  • PN Table

    Semantic Orientations of Words These are the lists of words and their semantic orientations for Japanese and for English. You are welcome to use this resource fro a non-commercial purpose. The semantic orientation of a word indicates whether the word has positive meaning (e.g., beautiful, excellent) or negative meaning (e.g., dirty, inferior). The semantic orientations were automatically computed

    masami75
    masami75 2011/01/27
    Semantic Orientations of Words.
  • 日本語評価極性辞書

    2. 日語評価極性辞書(名詞編) 評価極性を持つ(複合)名詞,約8千5百表現に対して評価極性情報を付与した,人手によるチェック済みのデータ.名詞の評価極性は概ね以下の基準に従う(東山, 2008). 〜である・になる(評価・感情)主観 「○○が〜である・〜になる」ことは,○○をP/Nと評価しているか? ポジティブ:誠実,安寧,親切,中立,名手,英雄,第一人者,幸せ ネガティブ:弱気, 〜である・になる(状態)客観 「〜(という状態)になる」ことは良いことか悪いことか? ポジティブ: ネガティブ:ガン 〜い(評価・感情)主観 「〜い」は良いか悪いか? ポジティブ:美しさ ネガティブ:弱さ 〜する(感情)主観 「〜する」は良い感情か,悪い感情か? ポジティブ:感嘆 ネガティブ:失望 〜する(出来事) 「〜する」ことは嬉しいことか嫌なことか? ポジティブ:

    masami75
    masami75 2011/01/27
    用言約5000表現、名詞約8500表現を、ネガ・ポジ軸と主観・客観軸の四象限に分類。
  • 潜在意味解析 - Wikipedia

    潜在意味解析(せんざいいみかいせき、英: Latent Semantic Analysis、略称: LSA)は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、それらに関連した概念の集合を生成することで、その関係を分析する技術である。潜在的意味解析とも。 1988年、アメリカ合衆国でLSAの特許が取得されている[1]。情報検索の分野では、潜在的意味索引または潜在意味インデックス(英: Latent Semantic Indexing, LSI)とも呼ばれている。 LSA では、各文書における用語の出現を表した文書-単語マトリクスが使われる。これは各行が各単語に対応し、各列が各文書に対応した疎行列である。この行列の各成分の重み付けには tf-idf (term frequency–inverse document frequency) が用いられ

  • 1