タグ

2009年5月31日のブックマーク (6件)

  • soft/NHocr - ペンギンの杜 〜 Linux ソフト集 〜

  • 検索エンジンを実装 (1)転置インデックス作成

    今回はN-gramでテキストを分解します。N-gram法とは対象の文字列を一定のN文字単位で分解し、それの出現頻度を求める方法です。これによって、検索エンジンに使われる転置インデックスを作成したいと思います。転置インデックスの作成方法にはN-gramの他に形態素解析があります。両者の性能の長短は全文検索 – Wikipediaに詳しく載っています。 Javaソースコード(Make2gram.java) さて、まずは文字列を2単語に切り分けるプログラムを作成しました。データ構造は単純にArrayListで、出現頻度も求めていません。 import java.io.*; import java.util.*; /** * N-gram法 */ public class Make2gram { public static void main(String[] args) { final shor

    検索エンジンを実装 (1)転置インデックス作成
  • Linux でも OCR を使うぞ!

    イントロ OCRとは,Optical Character Recognition の略.「光学文字認識」と訳されている.スキャナで読み取るデータは,基的に画像イメージなので, たとえオプション機能でPDF に変換してくれるソフト付きのスキャナであっても,データとしては, 画像イメージのPDF化でしかないことがある. 最近では,このようなソフトウエアにOCR 機能を持たせているものもあり, 画像イメージから文字認識をして, 文字コードに変換してくれる.こうすれば,文字から成る文書として, 全文検索の対象になる. 元来,文字認識は,パターン認識(Pattern Recognition)の一種で, コンピュータ処理としては,かなり高度なものに属する. 以前は,Omnipageとか, Recognita のような優秀だが非常に高価なソフトウエアと高分解能スキャナが前提とされていた. しかし,近年

  • Zinnia: 機械学習ベースのポータブルな手書き文字認識エンジン

    Zinnia: 機械学習ベースのポータブルなオンライン手書き文字認識エンジン [日語][英語] Zinniaは機械学習アルゴリズム SVM を用いたポータブルで汎用的な オンライン手書き文字認識エンジンです。Zinniaは組み込みの容易さと汎用性を高めるために、 文字のレンダリング機能は持っていません。Zinniaは文字のストローク情報を座標の連続として受け取り、 確からしい順にスコア付きでN文字の認識結果を返すだけに機能を限定しています。 また、認識エンジンは完全に機械学習ベースであるために、文字のみならずユーザの任意のマウス・ペンストロークに対して任意の文字列をマッピングするような認識エンジンを小コスト作成することができます。 主な特徴 機械学習アルゴリズムSVMによる高い認識精度 ポータブルでコンパクトな設計 -- POSIX/Windows (C++ STLのみに依存) リエント

  • Tomoe - A handwriting recognition engine

  • TOEFL対策スクールナビ

    海外の大学・大学院に行きたい」「海外移住したい」。海外旅行では体験できないリアルな海外での生活を叶えるにはTOEFL等の受験が欠かせません。それらの夢を叶えるにはTOEFLのハイスコアが必要になりますがTOEICや英検と比べIELTSの学習ができるスクールは多くありません。また、ホームページにTOEFL対策コースの案内があっても実際に教えた経験に乏しいスクールは多くどのスクールを選べばいいのか一般の方には判りにくいのが現状です。TOEFL対策スクールナビがあなたの街の一番いいIELTSの対策スクール・塾を紹介します。 TOEFLの対策スクール・塾で学習する理由 TOEFLは英語の4技能「読む」「書く」「話す」「聞く」がそれぞれバランスよく評価される試験です。そのため独学で試験対策を進めた場合「話す」「書く」という自分のアウトプットに対して間違いを指摘し、正しい英語表現を教えてもらうことが

    TOEFL対策スクールナビ