タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

searchengineとmathに関するteddy-gのブックマーク (2)

  • ウェブ上の日英非対訳文書を用いた訳語対応推定

    私は、ウェブ上の文書を用いて、英語と日語の訳語対応を推定する研究を行っています。 1.どんな研究なの? この研究の内容は一言でいうと、「訳の分からない英語の訳語を、ウェブを利用して自動で見つけてくる」というものです。 例えば、皆さんが英語の新聞記事を読んでいて、訳の分からない「advance team」という語を見つけたとします。普通皆さんが分からない語に出会った場合には、英和辞典などを使って訳語を調べますね? ところが、この「advance team」は最近よく使われるようになった語で、辞書には載っていませんでした。さて、どうしましょう? ・・・こういうときに、この研究が役に立つのです。 私達のシステムでは、まず報道記事を利用して、「advance team」の訳だと思われる日語、「先遣隊」「他国領土」「隊派遣」「報道陣」などを見つけてきます。 次に、ウェブを利用して、こ

    teddy-g
    teddy-g 2006/10/21
    どうやって似たページだと判定するかのアイデア。
  • ベクトル空間モデル

    0.1 ベクトル空間モデル 重み付けと最大頻度での正規化 (Croft) tfji 最良優先検索 検索結果として得られた文書集合にも、質問 への適合の度合は一様ではない。最良優先検 索は、適合の度合によって検索結果の文書集 合を順位付けておく方法である。利用者には 上位 から順 に提示す ることに なる。これ に よって、完 全一 致検 索の 欠 点を 克服 して お り、最近 では よく 使わ れ るよ うに なって き た。最 良優先 検索のモ デルには 確率モデ ル (Robertson & Jones, 1976)、拡張ブーリア = K f (i; + (1 0 K ) maxreqreqj()i; j ) f i;j log および文書におけるターム数で正規化 (Harman) log2(f req (i; j ) + 1) tf = log2 (文書j 中のター

    teddy-g
    teddy-g 2006/10/20
    ベクトル空間モデル
  • 1