タグ

2011年5月30日のブックマーク (2件)

  • 述語の抽出ルールとは? - OKWAVE

    Wikipediaの述語の項によると、述語に使われるのは、動詞、形容詞、形容動詞、名詞+コピュラであることが分かります。 構文解析器(KNP、CaboCha等)の出力から述語を取り出すためのルール(アルゴリズム)を考えています。 Wikipediaの述語の項によると、「述語に使われるのは、動詞、形容詞、形容動詞、名詞+コピュラである」、また、「述語は最後に置かれる」とあります。よって、 (1) 最後の文節に、動詞・形容詞・形容動詞・名詞+コピュラがあれば述語 というルールを考えました。加えて、複文の従属節中の述語を取り出したいのですが、 (2) 最後の文節以外に、動詞があれば述語 としても良いでしょうか? 即ち、文中の動詞は全て述語と見なせますか?また、従属節の述語が動詞以外になることはありますか? もしくは述語抽出手法のセオリーのようなものがあれば、教えていただけると助かります。

    述語の抽出ルールとは? - OKWAVE
    hiroyuki1983
    hiroyuki1983 2011/05/30
    文中の動詞はいつも述語とは限りません。また、従属節の述語は必ずしも動詞とは限りません。
  • 単語と文字の話 - Preferred Networks Research & Development

    4月からPFIで働いてます。海野です。 今日は単語の話をします。読み物的な話なので軽く読んでください。 テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。 検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが

    hiroyuki1983
    hiroyuki1983 2011/05/30
    単語単位と文字単位の間で、柔軟な処理をすることはできないか。今回紹介する論文は、この間を狙った研究です。