タグ

2011年5月31日のブックマーク (2件)

  • 単語と文字の話 - Preferred Networks Research & Development

    4月からPFIで働いてます。海野です。 今日は単語の話をします。読み物的な話なので軽く読んでください。 テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。 検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが

  • ナマハゲは鎌倉時代に海を渡りネイティブ・アメリカンと出会ったのか? - 虚無回転レシーブ

    『ズニ族の謎』を読んだ。 ズニ族の謎 (ちくま学芸文庫)posted with AZlink at 2011.5.30N・Y・デイビス,吉田 禎吾,白川 琢磨 筑摩書房 売り上げランキング: 321099 Amazon.co.jp で詳細を見る ズニ族というのはアメリカの先住民のひとつで、アメリカ南西部ニューメキシコ州周辺に居住地がある。このズニ族は、言語、文化、形質など様々な点において、周辺の先住民諸族と顕著な違いが認められるという。例えば言語の面でいうと、ズニ語は孤立言語、つまり現存の他の言語と明確な関係性を持たない言語、とされているようだ *1。 こうしたズニ族の特異性は長く謎とされていた。なぜズニ族は他の諸族と違っているのだろうか? いくつかの考古学的研究から、このズニ地域において、13世紀半ばから明確な社会構造の変化が認められるという。人口の増大が示唆されており、これは灌漑を含め

    ナマハゲは鎌倉時代に海を渡りネイティブ・アメリカンと出会ったのか? - 虚無回転レシーブ
    unknownmelodies
    unknownmelodies 2011/05/31
    もしかして源義経や奥州藤原氏の残党がモンゴルでなく北米に渡っていたら面白い。