タグ

2009年10月12日のブックマーク (5件)

  • テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク

    指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

    テキスト解析:日本語形態素解析API - Yahoo!デベロッパーネットワーク
  • JavaScript インラインフレーム(iframe)関連 - とみぞーノート

    いろいろハマリがちなJavaScriptでインラインフレームを扱う場合のメモ。 特に断らない限りブラウザのバージョンは以下が前提。 iframeのwindow,documentの取得方法はIEとMozilla系(NN,FireFox)で異なる。 IEはframes配列のwindow,documentプロパティから取得できる。Mozilla系はiframeエレメントのcontentWindow,contentDocumentプロパティから取得できる。 IEでもMozilla系と同じくiframeエレメントのプロパティから取得することもできるが、contentDocumentについてはIEには存在しないので、documentはcontentWindow.documentとしてcontentWindow経由で取得しなければならない。 (1) frames配列から取得する場合 frames['xx

  • MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算 (2006-12-19)

    文を形態素分解し、必要な品詞をtfテーブルとdfテーブルに入れる。分析対象となる文書群すべてについてこの処理を行い、各形態素のTF-IDF値を求めて文書をベクトル化する。他の文書ベクトルと内積を比較し、小さい順に「似ている記事」を求めたい (クラスタリングとかは別途)。 HarmanによるTF値の正規化とSparok JonesによるDF値の正規化をする場合のTF-IDF値の計算式は以下のようになる (参考文献): tfidf(i,j) = log2(freq(i,j) + 1) / log2(NoT) * (log2(N / Dfreq(i)) + 1)

  • ベクトル空間モデル

    0.1 ベクトル空間モデル 重み付けと最大頻度での正規化 (Croft) tfji 最良優先検索 検索結果として得られた文書集合にも、質問 への適合の度合は一様ではない。最良優先検 索は、適合の度合によって検索結果の文書集 合を順位付けておく方法である。利用者には 上位 から順 に提示す ることに なる。これ に よって、完 全一 致検 索の 欠 点を 克服 して お り、最近 では よく 使わ れ るよ うに なって き た。最 良優先 検索のモ デルには 確率モデ ル (Robertson & Jones, 1976)、拡張ブーリア = K f (i; + (1 0 K ) maxreqreqj()i; j ) f i;j log および文書におけるターム数で正規化 (Harman) log2(f req (i; j ) + 1) tf = log2 (文書j 中のター

  • tsurumi's text: 電通の広告戦略を分析する

    「買うことだ。どんなものでも」――アイゼンハワー元米大統領(1950年代後半の大恐慌以来の不況時に、景気回復のため国民は何をするべきか、と聞かれて) 60年代に電通PRセンター社長が著書で公にした、以下の「わが社の戦略十訓」(註1)が我々を戦慄させるのは、まるでアイゼンハワーの景気対策のように、それが今も変わらずこの社会に生きているからだ。 ただし念のために言うと、これはひとつの企業やPRの世界だけが使っている戦略ではない。売るという行為があれば、どこにでも潜んでいる手口なのだ。 1.もっと使用させろ 2.捨てさせ忘れさせろ 3.むだ使いさせろ 4.季節を忘れさせろ(註2) 5.贈り物をさせろ(註3) 6.コンビナートで使わせろ 7.キッカケを投じろ 8.流行遅れにさせろ 9.気安く買わせろ 10.混乱をつくりだせ これらの元になったとされる、アメリカの社会学者V・パッカードがまとめた「浪