タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

htmlとuseに関するlax34のブックマーク (1)

  • サイトの言語を判定する perl script

    とあるサービスを作るために必要となったのがサイトの言語判定。まぁもう少しわかりやすく言うと、多言語サイトを対象としてクロールすることを考えたりすると、そのサイトがどんな言語で記述されているかを把握しておく必要があるってわけです。 でもって CPAN でモジュールをあさって見るも、日語や中国語のような全角系?2byte 系?の言語に対応した判定器がないわけです。 Lingua::Identify Text::Language::Guess Text::Ngram::LanguageDetermine そんな中で見つけたのが Lingua::LanguageGuesser というモジュールです。CPAN には登録されていませんが、東京大学情報基盤センター中川研究室で公開されている専門用語(キーワード)自動抽出サービス「言選Web」で用いられている言語判定器です。 では実際にサンプルスクリプト

  • 1