タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

languageに関するHayatoのブックマーク (3)

  • サイトの言語を判定する perl script

    とあるサービスを作るために必要となったのがサイトの言語判定。まぁもう少しわかりやすく言うと、多言語サイトを対象としてクロールすることを考えたりすると、そのサイトがどんな言語で記述されているかを把握しておく必要があるってわけです。 でもって CPAN でモジュールをあさって見るも、日語や中国語のような全角系?2byte 系?の言語に対応した判定器がないわけです。 Lingua::Identify Text::Language::Guess Text::Ngram::LanguageDetermine そんな中で見つけたのが Lingua::LanguageGuesser というモジュールです。CPAN には登録されていませんが、東京大学情報基盤センター中川研究室で公開されている専門用語(キーワード)自動抽出サービス「言選Web」で用いられている言語判定器です。 では実際にサンプルスクリプト

  • 自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足

    第2回自然言語処理勉強会@東京 にのこのこ行ってきました。 ありがとうございました&お疲れ様でした>各位。 今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。 ナイーブベイズによる言語判定 from Shuyo Nakatani 内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。 前回の「文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開&最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。 精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。 というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗 楽しんでいただけた

    自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

  • 1