タグ

解析とライブラリに関するyamadarのブックマーク (2)

  • Tesseract ocr

    2. 背景  お客様からたまに、携帯カメラで文字認識したいという相 談をうける。  AR的に認識した文字に合わせた動画や3次元モデルを 表示するなどをしたい。  特定物体認識では賞品のパッケージは認識できても、 個別の製品番号まで認識できない。  製品番号まで認識出来れば、より強力なマーケティングツー ルになる というわけで、何か使えるものがないか調べてた Tesseract OCR 4. Tesseract OCRとは?  オープンソースのOCR(光学文字認識)エンジン  認識可能な言語  日語含む、30ヶ国語以上  歴史  1984年-1994年 Hewlett Packard にて研究・開発  1995年 UNLV Accuracy Testでトップ3に入る  2005年 オープンソース化  現在のスポンサーはGoogleGoogle Booksで使う

    Tesseract ocr
  • 自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足

    第2回自然言語処理勉強会@東京 にのこのこ行ってきました。 ありがとうございました&お疲れ様でした>各位。 今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。 ナイーブベイズによる言語判定 from Shuyo Nakatani 内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。 前回の「文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開&最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。 精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。 というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗 楽しんでいただけた

    自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足
  • 1