タグ

ocrに関するw03wwwwのブックマーク (7)

  • 「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正

    原子力規制委員会がWebサイトで公開している資料の中で、「ストロンチウム」の「ト」と「ロ」が漢字の「卜」(ぼく)と「口」(くち)になっていたとネットユーザーに指摘され、サイトを公開している原子力規制庁が修正する騒ぎがあった。画像PDFをテキスト化する際、文字認識(OCR)ソフトが間違った文字を認識してしまったことが原因という。 誤字があったのは、今年1月に開かれた「第10回特定原子力施設監視・評価検討会汚染水対策検討ワーキンググループ」の会議資料一覧ページ。「福島第一原子力発電所におけるストロンチウム分析の状況について[東京電力]」という資料の「ト」と「ロ」がそれぞれ漢字になっており、「検索避けのためにあえて漢字にしたのでは」などと一部ネットユーザーの間で騒ぎになっていた。 同庁によると、Webサイトに掲載するテキストは通常、手打ちで確認しているが、この会議は資料が届いたタイミングがギリギ

    「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正
  • reCAPTCHAの無茶振りとその理由 - しろもじメモランダム

    CAPTCHA(いわゆる画像認証)の実装の一つにGoogleのreCAPTCHAというものがあるが、今日の昼にこんなものに引っかかった。 ウムラウト付きのcaptchaとか微妙に難易度高いなこれw URL 2011-09-30 11:53:27 via Janetter2 @mashabow 私はbiſhopを出されたことがありますw bishopで通りましたが 2011-09-30 11:56:53 via Tween to @mashabow どうやらreCAPTCHAは、a–zの26文字以外のアルファベットも出してくるらしい。面白そうだったので、更新ボタン(矢印が巴形になっているボタン)を押しまくって変なものが出てこないか探してみた。 reCAPTCHAの無茶振り・初級篇 thouſand。上のツイートにも出てきた ſ はいわゆる長いsで、現代風に表記すれば thousand。古い

    reCAPTCHAの無茶振りとその理由 - しろもじメモランダム
  • 保存できる、ほぼA4サイズのデジタルノート(NoteSlate) : monogocoro ものごころ

    描いて消すだけのブギーボードに保存機能が着いた!といった感じの重さ280gで厚さ6mmでお値段99ドル(!)のe Inkのノート。 ディスプレイ面は、190x270mmなのでA4(210x297mm)より少し小さいだけ。 iPadKindleとの比較表は以下。 WiFi対応で、メールは見られるけどブラウザはNG。保存はSDカードやUSBで。MP3の再生、PDFtextが読める、180時間の長時間稼働、いずれOCRにも対応予定という、個人的には超魅力的な99ドルで13インチサイズのデジタルノート。 面白いのは、描く線の色ごとに3つのカラーバージョンが販売予定なこと。いい。 リリース予定は、6月にBasic,White,Blackが、12月に赤、青、緑、そして最後にカラー版も登場予定(価格不明)とのこと。待ち遠しい。 Thanks!!: Engadget Original: N

  • 電子化した本に最適!Adobe Acrobat の PDF 圧縮が予想外に便利すぎて鼻血が出たwww - おいちゃんと呼ばれています

    まずは下の表を見てください。 Perlベストプラクティス 作者: Damian Conway,クイープ出版社/メーカー: オライリー・ジャパン発売日: 2006/08/24メディア: 大型購入: 11人 クリック: 153回この商品を含むブログ (155件) を見る |版 / ページ数|B5版 / 513ページ| |スキャン|白黒 600dpi /(表紙のみ)カラー 300dpi| |圧縮前のサイズ|89.2MB| |圧縮後のサイズ|28.1MB| これは前回のエントリー「ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実」で調査対象にしたPDF)を、Adobe Acrobat 9(Pro / Standard)を使って圧縮した結果です。*1 前回のエントリーでは、 ScanSnap でスキャンした後に Adobe Acrobat で OCR テキスト認識

    電子化した本に最適!Adobe Acrobat の PDF 圧縮が予想外に便利すぎて鼻血が出たwww - おいちゃんと呼ばれています
  • 画像ファイルをテキスト化してくれる「n1ne@freeOCR」(無料) | ライフハッカー・ジャパン

    OCRで書類を読ませるために、わざわざ一度プリントしてから、ドキュメントスキャナに...なんていう経験はないでしょうか? ブログ「Blog.IKUBON.com」で紹介されていた「n1ne@freeOCR」を使えば、そんな必要はありません。スキャナが無くても、OCRが無料で使えちゃいます。 使い方も簡単。テキスト化したいファイルを添付して、メールで送るだけなのです。 対応している拡張子は、 .bmp .dib .rle .dcx .djvu .djv. gif. jb2 .jbig2 .jp2 .j2k .jpg .jpeg .pcx .pdf .png .tif .tiff .xps と、よく見るものからそうでないモノまで、かなり豊富。 これらのファイルであれば、ocr@n1ne.netに添付して送ると、画像をテキスト化して、doc,docx,pdfのファイル形式で送り返してくれるそうで

    画像ファイルをテキスト化してくれる「n1ne@freeOCR」(無料) | ライフハッカー・ジャパン
  • 本の電子化を始めたのでまとめる。 - 機械

    大阪から東京への引越しを機に、前からやってみたいと思っていたの電子化をすることにしました。 電子化の実行に踏み切った理由は、荷造りで部屋を埋め尽くした入り段ボール箱の山を見て「うへぇ」と思ったからです。これは減らしていかないといつか地震で押し潰されて死んじまうなと。 もう一つの理由は、通勤で電車に乗る時間が片道40分に増えたから。職場が近いと家賃が高いし電車が混む場所なので、40分かかっても座れる方を選んだのです。往復80分あれば随分とが読めますよね。 普通に持ってけって話ですが、時間を考えると2〜3冊は持ち歩きたいところ。なので嵩張らないように持ち歩けるのはありがたいのです。 前置きが長くなりましたが、以下に俺自身が試行錯誤して落ち着いたスキャニングの方法について書いていきます。「漫画の電子化の方法」(以下、「電子化」)を参考にさせていただきました。 電子化する 完結している漫

    本の電子化を始めたのでまとめる。 - 機械
  • 橋本商会 » scansnapと裁断機を買って本を電子化しまくる

    を解体する為にこの裁断機を買った。14000円ぐらい。 大型ペーパーカッター 裁断機 まだ必要ないので買ってないけど、替え刃も発見した。 コピー用紙500枚らくらくカット/人気 商品大型ペーパーカッター用『替え刃』 ジャンプぐらいの厚い雑誌でも切れる。このサイズの裁断機では妙に安い(他の半額程度)だが、そのかわり届いた時点で油でぬるぬるしている。 軍手とぞうきんを用意しておいて、よく拭いた。 刃の部分には茶色い油?が付着しているので、試しにいらないを裁断してみて油の拭き残しが無いか確かめる必要がある。 油がついた。(古ぐらしは新しいのを持っているので、2003年版を試し切りに使った) ■裁断する まずスキャンできるようにをバラバラにする。 表紙を外す しっかり押さえる 切る 切る。裁断機の刃が超鋭いので、あんまり力はいらない。 バラバラにしたをscansnapに入れる iPhon

    橋本商会 » scansnapと裁断機を買って本を電子化しまくる
  • 1