Hey—we've moved. Visit The Keyword for all the latest news and stories from Google
OCRで識別できない大量の文字を,効率的に識別する方法? 近年,書籍をデジタル化する大規模なプロジェクトが,図書館,出版社,データベース提供事業者,インターネット検索サービス提供事業者など,多くの主体によって展開されている。これらのデジタル化プロジェクトの中には,書籍をスキャナーで読み取って画像化した上で,光学式文字認識(Optical Character Recognition: OCR)技術を用いてテキストデータを作成し,全文を検索可能としているものも多い。 しかしながら,OCRが常に完全に文字を識別できるとは限らない。印刷の不鮮明さ,スキャニング時のページのゆがみ, OCRがサポートしていない言語の単語の出現など,さまざまな原因によって正しく識別できないことが起こり得る。誤って識別された文字があることは,スペルチェックや構文チェックによって単語単位で特定できるものの,その修正には相応
カーネギーメロン大学の研究者が、スパム防止技術「CAPTCHA」を拡張した書籍のデジタル化支援ツール「reCAPTCHA」を発表した。書籍中の単語のうち、OCRで認識できなかったものを提示し、人間に識別してもらう仕組みだ。 筆者など : 文:Stephen Shankland(CNET News.com) 翻訳校正:大熊あつ子、吉武稔夫、長谷睦 URL : http://japan.cnet.com/news/ent/story/0,2000056022,20349589,00.htm カーネギーメロン大学のプログラマーチームが、「reCAPTCHA」というサービスを開始した。スパム防止技術を応用し、光学式文字認識(OCR)装置で書籍をデジタル化する際に認識できなかった単語を、人の力を使って読み取ろうという試みだ。 reCAPTCHAは、スパムメールやブログへのスパムコメントといったコ
書籍の電子化について、現状把握をしよーとしてんだけど、今回の切り口は、「OCRのあたり」。 書籍電子化の歴史と、OCR*1の発展の紆余曲折は、姉妹のよーなもの。 OCRの発展の紆余曲折を知ることはとっても大事。 ただ、紆余も曲折もぜーんぶ見ようとすると大変だから、とりあえず「アキラメない」面々に注目しましょ。 出発点:OCRってダメじゃん。使えねぇー。 使えないOCRを前にして、たいていはアキラメる。もーだめだ、書籍電子化なんて、やってられん、ってな感じで。(上図、右の矢印で出て行ってしまう。) ところが、世の中には、なかなかアキラメん連中がいるもので、時に彼らはとんでもないイノベーションをもたらす。*2 使えないOCRを前にして、それでもアキラメなかったのは、次の3派。 1.それでもかけっぱ派 (左派) 2.タグでいいじゃん派 (中道) 3.なんとしても修正じゃい派 (右派) 第1の「そ
BBC Newsの記事より。人間には読めるがコンピュータに読めない画像の文字列CAPTCHAは、ブログなどへの広告宣伝業者よけとして、あちこちで使われているソリューションである。試算によると、この文字列を解読するのに人間が使用している時間は一日あたり15万時間にも及ぶという。 この人間の処理能力をもっと有効に活用できないかと、カーネギーメロン大学のLuis von AhnはreCAPTCHAという新しいソリューションを考案した。 古書からスキャンしたデータは、かすれや印刷不良などOCRによって読めない文字を多量に含んでおり、古書のデジタル化は人手に頼る部分がどうしてもできてしまう。そこで機械が読めなかった文字列画像をCAPTCHAに利用して、解読時間を有効活用しようという仕組みだ。 そもそも機械が正答を知らない文字列画像を表示するのに、どうやって機械ではなく人間が解読して入力してきたと判別
第1回 人力計算のチカラ 2007年6月29日 IT コメント: トラックバック (0) はじめまして。ユーザインタフェースやユビキタスコンピューティングに関連するシステムの研究や開発をやってる増井俊之です。このブログでは、計算機やネットワークが進化して世の中がみるみる便利になっていく今日このごろのインタフェースのトレンドを紹介していきたいと思っています。 * * * * * ブログや2ちゃんねるの炎上を見るにつけ「この元気な力を発電か何かに使えないか?」と思うことがよくあります。地球に現存する技術では2ちゃんねるパワーを発電に使うのは難しいでしょうが、人力パワーを有効活用する方法はいろいろ考えられそうです。インターネットで全世界の計算機が接続されたことによって無限の計算パワーが利用できるようになりつつあるのは間違いありませんが、ネットによって接続された全人類の力も同時に利用できるようにな
Digitizing Books One Word at a Time reCAPTCHA is a free CAPTCHA service that helps to digitize books. A CAPTCHA is a program that can tell whether its user is a human or a computer. You've probably seen them — colorful images with distorted text at the bottom of Web registration forms. CAPTCHAs are used by many websites to prevent abuse from "bots," or automated programs usually written to genera
うちの、じゃなかった、GoogleのインターンBenが(というかCMUが)、何か楽しい物を公開している。 http://recaptcha.net/ CAPTCHAでわれわれ人類がキーボードを叩く10秒程度の作業も、スキャンした古い書籍類をデジタル化する時間にしたら、1日に約160,000時間もの作業量になる! というわけで、これでCAPTCHAの代わりにしてくれたら、その完全な代替とは言わないまでも、それに近いものになってくれるんじゃないか、という発想で作られたサービスがこのreCAPTCHAだ。 reCAPTCHAを出すと、入力テキストが2つ出てくる。このうち、「正解」をもっているのは1つだけだ。もう1つは、OCRでスキャンした時に判別できなかったテキストだ。reCAPTCHAは、1つの(正解のある)単語を正しく入力したユーザーエージェントは、もう1つの単語についても正しく入力した人間
カーネギーメロン大学は米国時間5月24日,CAPTCHAと呼ばれる画像認証技術を書籍のデジタル化に活用するオンライン・サービス「reCAPTCHA」を発表した。同サービスでは,CAPTCHAによるユーザー認証を行う際,通常の認証用画像と一緒に,書籍デジタル化で歪んだ文字スキャン画像も表示し,両画像に対応する文字を入力してもらうことで認証と書籍デジタル化を同時に処理する。 CAPTCHAは,ユーザー認証などで必要なパスワード文字列を歪ませるなど,故意に読みにくくした画像として画面に表示し,入力された文字列と元の文字列を比較する。これにより,実際に人間が手作業で入力しているかどうかを判断でき,プログラムなどを使った不正アクセスやスパム・コメント投稿などを防ぐ。 reCAPTCHAでは,通常のCAPTCHAによる認証時に,デジタル化できなかった不鮮明な文字画像を表示し,適切な文字を入力してもらう
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く