タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

algorithmとextractionに関するk_37toのブックマーク (1)

  • KOSHIANの特徴語抽出アルゴリズムについて

    lang=enを指定できるようにしました。対象が英文のときに指定してください。 documentもブログの記事からAPIと同じドメインに移動させつつ更新。怪しげですが英語で書いてみました。 Documentation for Term Extraction API “KOSHIAN” ところでKOSHIANのアルゴリズムについてですが、要素としては キーワードとなる辞書をごりごり作成キーワードと入力された文章のパターンマッチング前処理に形態素解析器(MeCabとかChaSen)は利用していません。はてブを見たら形態素解析のタグが一番大きくなっていてびっくりしました(笑) 辞書さえ作れればどんな言語にでもほぼ同じアルゴリズムでキーワードを抽出できるはずです。辞書は複数の情報源の組み合わせですが、Wikipediaを多く利用させていただいています。 現状で認識している問題点: 入力時の全角英数

    k_37to
    k_37to 2006/12/13
    なるほど、前にはてなキーワードの辞書を使って特徴語を抽出した事あるけど、それよりも凄そうだ
  • 1