並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 1055件

新着順 人気順

OCRの検索結果1 - 40 件 / 1055件

  • 画像ファイルをメールで送るだけでOCRで読み取ってくれる「n1ne@freeOCR」

    Warning: include_once(/home/sites/lolipop.jp/users/lolipop.jp-dp16105308/web/wp/wp-content/plugins/wp-super-cache/wp-cache-phase1.php): failed to open stream: Permission denied in /home/users/0/lolipop.jp-dp16105308/web/wp/wp-content/advanced-cache.php on line 8 Warning: include_once(): Failed opening '/home/sites/lolipop.jp/users/lolipop.jp-dp16105308/web/wp/wp-content/plugins/wp-super-cache/wp-c

      画像ファイルをメールで送るだけでOCRで読み取ってくれる「n1ne@freeOCR」
    • PDFの文字をテキスト化! オンラインで簡単に使えるOCRサービス | ライフハッカー・ジャパン

      「Free Online OCR」は無料で利用できるOCRサービス。OCRは画像などに含まれる文字を認識してくれるもので、画像およびPDF内の文字をテキストやWordに変換してくれるサービスです。 以下に使ってみた様子を載せておきます。 まずFree Online OCRへアクセスしましょう。入力は画像またはPDFが選べます。

        PDFの文字をテキスト化! オンラインで簡単に使えるOCRサービス | ライフハッカー・ジャパン
      • 無料でOCR(光学文字認識)したかったらGoogleDriveを試してみるといいかもね

        昨日ツイッターのフォロワーさんがTLで「人を殴ったらかなり痛いくらいの紙書類の束渡されて、一晩で再編集とか死ぬる」とおっしゃってまして、まだまだ紙ベースの業務進行ってありますしPCに取り込んで効率的にさばくにはどうしたらいいだろうなーと思いまして。 調べてみたところ、GoogleDriveでもテキストスキャンした画像ファイルをOCR変換する機能があるらしくちょっとサンプル作って試して見ましたので本日はそのレビューを。 【追記】縦書き版の検証記事も書いときました。あわせて参考にどうぞ。 GoogleDriveOCR、縦書きだったらどうなのよ? Google Drive OCRの使い方GoogleDrive利用するにはとりあえずGoogleアカウント必要なのでない方はまずそちらのご用意を。GoogleDriveの導入については過去に サービス開始したオンラインストレージ『Google Driv

          無料でOCR(光学文字認識)したかったらGoogleDriveを試してみるといいかもね
        • スマホにカメラついてるんだからOCRできるでしょという気持ち - Progate Tech Blog

          どうも、 株式会社Progate で SoftwareEngineer チームのマネージャーをしています @satetsu888 です。本記事は Progate AdventCalendar 2020 10日目です。 普段仕事ではエンジニア組織のことやプロダクトの技術戦略的なことを考えたり、ミーティングしたり採用活動したりタスクをお願いして回ったりなどを担当していますが、今日はそういうのとはなんの関係もないただの日常の話を書こうと思います。 ことの始まり 我が家では子どもの朝ごはんとして週に2,3回くらいの頻度でポケモンパンを買っています。 先日(2020/09/18 ~ 11/24) ポケモンパンについてるポイントを5点集めるとポケモンシールホルダーの抽選に1回応募できるキャンペーンがありました。(キャンペーン自体はすでに終了しています) いつも通りのペースでパンを買ってると何回か挑戦で

            スマホにカメラついてるんだからOCRできるでしょという気持ち - Progate Tech Blog
          • Google DocsのOCR変換機能が日本語に対応

            PDFファイルやスキャナで読み込んだ文書の画像ファイルをGoogle Docsにアップロードすると、編集可能なテキストファイルに変換できる機能が横書きの日本語に対応した。 米Googleは2月28日(現地時間)、昨年6月にGoogle Docsに追加したOCR(光学式文字認識)機能を、新たに日本語を含む29カ国語に対応させたと発表した。日本語のPDFやスキャナやデジカメで取り込んだ文字を含む画像をGoogle Docsにアップロードすると、ファイルがテキストデータに変換される。 使い方は、Google Docsの「アップロード」の画面で変換オプションを以下のように設定し、「アップロードを開始」をクリックする。変換が可能なファイル容量の上限は2Mバイトだ。 実際にやってみたところ、PDFではほぼ問題なくテキストに変換されたが、デジカメで撮影した画像からの変換の精度はまだ高いとはいえないようだ

              Google DocsのOCR変換機能が日本語に対応
            • スクリーンショット+OCRを実現する『Kleptomania』 - 100SHIKI ~ 世界のアイデアを日替わりで ~

              StructuRiseのKleptomaniaはちょっと便利そうだ。 このソフト、いわゆるスクリーンショットを撮ってくれるのだが、同時にOCR的な機能をもっているところがよい。 つまり、撮ったスクリーンショットに映っている文字を自動的に認識して、テキストに変換してくれるのだ。 そのままテキストをコピーできないような画面の説明をするときに重宝するだろう。 いまだにマニュアルでテキストを書き写しているような作業は他にないだろうか。ちょっと考えてみると新しいアイディアが浮かんでくるのかもしれませんね。

                スクリーンショット+OCRを実現する『Kleptomania』 - 100SHIKI ~ 世界のアイデアを日替わりで ~
              • 認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた | Ledge.ai

                記事ネタを集めていたところ、代官山で日本語の手書き認識ソフトウェアの開発に成功した外国人グループがいる。それもたった2か月で。という記事にあたりました。日本語の手書き文字のOCRを外国人が開発しているという驚き。 気になりすぎたので、早速取材にいってみたところ、Reactive Inc.のデータサイエンティストのDavid MalkinさんとコアエンジニアのPhilip Irriさんにお話しを聞くことができたので、まとめてみました! 非エンジニアにもわかるようにと噛み砕いて、システムの内容や今後の拡張計画ディープラーニングの可能性についてまでいろいろ話してくださいました。

                  認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた | Ledge.ai
                • ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実 - おいちゃんと呼ばれています

                  おっと。また大袈裟なタイトルつけちゃって。 釣り << なんて言われないように、気合い入れて書かなくっちゃ。 さて、先週のエントリー「裁断機 PK-513L で本を 100冊裁断してみた - 経験した 9つの失敗とその回避方法」が大きな反響をいただいたので、今回は裁断の次のステップである「スキャン」を攻略。ScanSnap S1500 の設定についていろいろと調べてみました。 *目次というか、いきなり結論から 書いていったら結構長くなってしまったので、とりあえず目次。というかほとんど結論なんですが、結論だけ見られればいいやという方のためにも。 **(2010年7月9日 追記) 自炊した電子書籍(PDF)を iPad でサクサク表示する方法(サンプル動画あり) << **(2010年8月13日 追記) OCR テキスト認識に限らず、ScanSnap S1500 の設定全般についてもまとめてみ

                    ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実 - おいちゃんと呼ばれています
                  • 秋元@サイボウズラボ・プログラマー・ブログ: reCAPTCHA - キャプチャを利用した人力高性能OCR

                    reCAPTCHA という新サービスはすごい。その構想力には感動させられた。 念のためにCAPTCHA(キャプチャ)について説明しておくと、スパムプログラム(bot)と人間のユーザを見分けるための簡単な(しかし機械にとっ […] reCAPTCHA という新サービスはすごい。その構想力には感動させられた。 念のためにCAPTCHA(キャプチャ)について説明しておくと、スパムプログラム(bot)と人間のユーザを見分けるための簡単な(しかし機械にとっては難しい)クイズのことだ。ある程度ウェブを使っている人なら、ネットサービスの登録時やコメントの書き込み時などに、読みにくく加工されたアルファベットを読まされたりした経験があるだろうと思う。 それらのサイトでは、あなたが人間にしかできないクイズを解いたのを見て、ユーザ登録やコメントの投稿を受け付けたりする仕組みになっているわけだ。文字を読む以外のC

                    • MOONGIFT: » 待ちに待ったオープンソースの日本語OCR「NHocr」:オープンソースを毎日紹介

                      OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。 デモサービスで試せます 今回紹介するオープンソース・ソフトウェアはNHocr、日本語OCRシステムだ。Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、デモサービスは公開されている。 デモサービスでは、BMP/JPEG/PBM/PGM/PPMのファイル(さらに各ファイルをGZip圧縮していても可能)をアップロードすると、それを解析した結果を日本語表示してくれる。日本語OCRとあって、漢字/ひらがな/片仮名/英語などが判別可能になっている。 読み取らせた画像 手書き文字であっても認識率はそこそこ高い。正式リリースがまだという段階にあ

                        MOONGIFT: » 待ちに待ったオープンソースの日本語OCR「NHocr」:オープンソースを毎日紹介
                      • 「情シスない中小企業に使ってほしい」 NTT東日本、「AI-OCR」とRPAサービス提供 紙帳票のデータ入力を効率化

                        NTT東日本とAI(人工知能)ベンチャーのAI insideは1月23日、ディープラーニングを使って帳票内容を読み取るOCR(光学文字認識)サービス「AIよみと~る」の提供を始めた。データ入力業務などを自動化するRPA(ロボットによる業務自動化)サービス「おまかせRPA」と合わせて提供することで、紙書類のデータ入力などを手作業で行うバックオフィス業務の効率化をサポートする。 紙帳票に記載された内容をスキャナーで読み取り、デジタルデータ化したものをAIよみと~るで検出する。AI insideが開発したAI基盤「Neural X」の学習アルゴリズムを使ったディープラーニング技術と、ゆがみ・傾き補正機能を組み合わせることで、手書き文字も含めたトライアルでは96%以上の認識率を実現したという(NTT東日本調べ)。欄外にはみ出た数字、訂正印、2行にわたって折り返して記載された住所なども、AIが内容を

                          「情シスない中小企業に使ってほしい」 NTT東日本、「AI-OCR」とRPAサービス提供 紙帳票のデータ入力を効率化
                        • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

                          2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

                          • 窓の杜 - 【NEWS】独自エンジンを搭載したフリーの日本語OCRソフト「SmartOCR Lite Edition」

                            独自エンジンで画像から文字を認識し、Word/ExcelファイルやRTF/HTML/CSV/PDF形式で保存できる日本語OCRソフト「SmartOCR Lite Edition」v1.0.3が、17日に公開された。Windows XP/2000に対応するフリーソフトで、現在作者のホームページからダウンロードできる。 「SmartOCR Lite Edition」は、独自のエンジンを搭載したOCRソフト。スキャナー画像やBMP/TIFF/JPEG/PNG/GIF/WMF/EMF形式のファイルから読み取った文字情報をテキスト文字列に変換してTXTファイルとして保存できるほか、元画像のレイアウトや表組みを保持したWord/ExcelファイルやRTF/HTML/CSV/PDF形式でも保存できる。また元画像にテキスト情報を埋め込み、画像を選択してテキストコピーしたり文字列検索ができる“透明テキストつ

                            • GPT-4oをOCRとして使う - Re:ゼロから始めるML生活

                              OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか? さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。 普通にテキストでのやり取りをしつつも画像データを扱えるということで、「実はこれいい感じのOCRとして使えるんじゃね?」って思っちゃったわけです。 ということで、今回はChatGPT-4oを使ってOCRを使うとどんなもんなのかやってみたいと思います。 やりたいこと やってみる とりあえずやってみる 請求書 名刺 参考文献 感想 やりたいこと 今回やりたいことはOCRです。早い話が画像ファイルを突っ込んでテキストを読み取りたいって感じです。 ただ、当たり前のようにOCRって言葉を使用していますがOCRって結構奥が深いです。 mediadrive.jp 単純に画像から文字を見つけて対応するテ

                                GPT-4oをOCRとして使う - Re:ゼロから始めるML生活
                              • macOS のデフォルト状態でコマンドラインからOCR処理を行う - TeX Alchemist Online

                                macOS 12 Monterey では,OSビルトインでのOCR機能が搭載されました。Preview.app で,画像やスキャンPDF(中身がスキャン画像のPDF)に対して,ただマウスでドラッグするだけで,中身の文字を認識して選択し,コピーできるようになっています。さらに,macOS 13 Ventura では,それが日本語にも対応しました。 たとえば,(今や入手困難となってしまった)The TeXbook のアスキーによる日本語版をスキャンしたものを Preview.app で開くと,何もしなくても,文字選択できます。 これをコピーして他のエディタにペーストすると, TEXの名称で気をつけなければならないことがほかにもある。Eの文字が不揃いになっていることだ。Eの文字を少し下げてあるのは、TeXが組版のためのシステムであることを印象づけるためであり、またほかのシステムの名称と区別するた

                                  macOS のデフォルト状態でコマンドラインからOCR処理を行う - TeX Alchemist Online
                                • イラク日報 OCR済 - Google ドライブ

                                  • 若者のスクショ共有文化はもう戻せないのでカジュアルOCRを推進すべき - 太陽がまぶしかったから

                                    若者のスクショ文化 若者のスクショ癖を腐すの嫌なんだけど、1万回注意してもアシスタント(25歳)が参考資料などをスクショで送って来るので1万1回目のキレをかましてしまった😢地図でもサイトでもスクショで送ってくる😭情報追えねぇからURL貼れっつってもURL写ってる状態のスクショ送ってくる😭若者のコピペ離れ😭つら— $tina$ (@tinasuke) 2020年6月22日 若者がスクショでシェアしがちという話をよく聞く。テキスト形式でないとURLや再利用ができないといった弊害があるからやるべきではないという話になりがちだけど、特にスマートフォンは文章を範囲選択しづらいし、フォントスタイルやイメージなども保存しておこうと思えば、スクリーンショットのが楽だ。 自分自身もスマートフォンにおいてはスクリーンショット画像をそのまま Evernote などに保存する事が多い。それでもあまり困らな

                                      若者のスクショ共有文化はもう戻せないのでカジュアルOCRを推進すべき - 太陽がまぶしかったから
                                    • 古文書を解読できるスマホアプリ 凸版印刷が開発 くずし字対応AI-OCRを活用

                                      凸版印刷ではこの課題を解決するため、2015年から国文学研究資料館と共同研究を開始。古文書対応のAI-OCRの開発に取り組んできた。その中で「手元の古文書を手軽に読みたい」という一般利用者向けのサービスに対する多数の要望があり、今回のアプリ開発に至ったとしている。 凸版印刷は今後、2025年度までにAPI提供や関連事業を含め、一般利用者や教育機関、博物館・資料館、地方自治体などのサービス提供を拡大し、約3億円の売り上げを目指す。 関連記事 ライトを当てると文字や絵が現れるホログラム 凸版が開発 スマホライトで真贋判定 強い光(点光源)を当てると、立体的な画像が現れる新たなホログラム「イルミグラム」を凸版が開発。スマートフォンのライトなどで誰でも簡単・正確に真贋判定できる。 メタバースでのなりすましを防ぐ 3Dアバターの本人証明ができるセキュリティ基盤 凸版印刷が開発 凸版印刷が、メタバース

                                        古文書を解読できるスマホアプリ 凸版印刷が開発 くずし字対応AI-OCRを活用
                                      • 「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正

                                        原子力規制委員会がWebサイトで公開している資料の中で、「ストロンチウム」の「ト」と「ロ」が漢字の「卜」(ぼく)と「口」(くち)になっていたとネットユーザーに指摘され、サイトを公開している原子力規制庁が修正する騒ぎがあった。画像PDFをテキスト化する際、文字認識(OCR)ソフトが間違った文字を認識してしまったことが原因という。 誤字があったのは、今年1月に開かれた「第10回特定原子力施設監視・評価検討会汚染水対策検討ワーキンググループ」の会議資料一覧ページ。「福島第一原子力発電所におけるストロンチウム分析の状況について[東京電力]」という資料の「ト」と「ロ」がそれぞれ漢字になっており、「検索避けのためにあえて漢字にしたのでは」などと一部ネットユーザーの間で騒ぎになっていた。 同庁によると、Webサイトに掲載するテキストは通常、手打ちで確認しているが、この会議は資料が届いたタイミングがギリギ

                                          「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正
                                        • 62言語超対応のOCR「tesseract.js」がJavaScriptに移植、機械学習にも対応 【@maskin】 | TechWave(テックウェーブ)

                                          1990年代初頭から記者としてまた起業家としてITスタートアップ業界のハードウェアからソフトウェアの事業創出に関わる。シリコンバレーやEU等でのスタートアップを経験。日本ではネットエイジ等に所属、大手企業の新規事業創出に協力。ブログやSNS、LINEなどの誕生から普及成長までを最前線で見てきた生き字引として注目される。通信キャリアのニュースポータルの創業デスクとして数億PV事業に。世界最大IT系メディア(スペイン)の元日本編集長、World Innovation Lab(WiL)などを経て、現在、スタートアップ支援側の取り組みに注力中。 北米を中心に全世界でJavaScriptへの対応熱止まらない。 今回も知る人ぞ知るオープンソースの文字認識エンジン「Tesseract-OCR」が、JavaScriptに移植され話題になっている。 以下は「tesseract.jp」のデモ画像。ウェブ上で画

                                            62言語超対応のOCR「tesseract.js」がJavaScriptに移植、機械学習にも対応 【@maskin】 | TechWave(テックウェーブ)
                                          • OCR屋のAI inside、ストック型ビジネスどころか逆に大量解約(9284件中7636件)の憂き目に遭い売上の半分弱を失う : 市況かぶ全力2階建

                                            日刊SPA!に登場の医学生投資家、儲け自慢に熱を入れるあまり「11歳から親の口座で投資を始めた」と借名取引をうっかり告白

                                              OCR屋のAI inside、ストック型ビジネスどころか逆に大量解約(9284件中7636件)の憂き目に遭い売上の半分弱を失う : 市況かぶ全力2階建
                                            • 画像内の日本語テキストを抽出できる「Online OCR」が無料なのに便利すぎる

                                              Online OCRとは Online OCRは、46ヶ国の言語に対応して画像からテキストを抽出することができる無料のオンラインOCRツールです。 登録なしでの利用 現在、登録なしの状態で、15MBまでなら以下の形式の単一ファイルを読み込むことができます。 PDF (単一ページ) TIF/TIFF (単一ページ) JPEG/JPG BMP PNG GIF そして、以下の形式で出力することができます。 Microsoft Excel (xlsx) Microsoft Word (docx) プレーンテキスト (txt) 登録なしでも、ライトユーザーであれば十分すぎるくらい便利です。 無料登録をすると Online OCRは、登録しなくても十分便利なのですが、無料登録を行うことにより、さらにできることの幅が広がります。 以下の形式のファイルを200MBまで読み込むことができるようになります。

                                                画像内の日本語テキストを抽出できる「Online OCR」が無料なのに便利すぎる
                                              • tesseract-ocr - Google Code

                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                  tesseract-ocr - Google Code
                                                • Free Online OCR - Image to text and PDF to Doc converter

                                                  1. Upload Image Upload Image or PDF document for conversion. You can upload any type of input images or documents, such as PDF, Tiff, PNG, BMP and other. One limitation for the input document is that the file size is no more than 15 MB 2. Language and output You should select appropriated recognition language for most accuracy conversion image to text. And also, you may choose output format (MS Do

                                                    Free Online OCR - Image to text and PDF to Doc converter
                                                  • Adobe、iOS/Androidで撮影した文書をPDF化できる「Adobe Scan」を無償提供/“Adobe Sensei”で自動補正。OCRによるテキストの認識にも対応

                                                      Adobe、iOS/Androidで撮影した文書をPDF化できる「Adobe Scan」を無償提供/“Adobe Sensei”で自動補正。OCRによるテキストの認識にも対応
                                                    • PythonとWinRT OCRで文字認識 - Qiita

                                                      import cv2 img = cv2.imread('test.jpg') (await winocr.recognize_cv2(img, 'ja')).text pip install jupyterlab jupyter_http_over_ws jupyter serverextension enable --py jupyter_http_over_ws jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com' --ip=0.0.0.0 --port=8888 --NotebookApp.port_retries=0

                                                        PythonとWinRT OCRで文字認識 - Qiita
                                                      • EvernoteでエロゲのスクリーンショットをOCRして全文検索 - 偏読日記@はてな

                                                        エロゲ/ギャルゲプレイ中の「画面キャプチャ」のススメ(その2) - 偏読日記@はてな この記事で書いたとおり、俺はPCでプレイするノベルゲーム(エロゲ/ギャルゲ)のプレイ中にスクリーンショットを保存することによりシーンや台詞を保存してあとから見返すのに使っています。ゲームへの没頭を妨げることなくPrintScreenキー一つで気軽に保存できるので、プレイ中の記録を取るのにかなり適した手段だと思っています。 しかし、問題はノベルゲームの文章を記録しているのに保存形式は画像であると言うこと。おかげで特定のシーンを見返そうと思っても一枚ずつ目視して探すほか手段がありません。 ファイルが少ないうちはまだ大丈夫でしょうが、俺の場合2003年からプレイ中画面キャプチャを続けてきた結果としてファイル総数16000超、ファイルサイズ総計4.9GBという恐ろしいことになっていたのです。 エバーノートでの名刺

                                                          EvernoteでエロゲのスクリーンショットをOCRして全文検索 - 偏読日記@はてな
                                                        • MOONGIFT: » 無料でPDFのOCR「クセロReader ZERO」:オープンソースを毎日紹介

                                                          うーん、これは凄い。 OCRという技術はフリーでは殆ど見られない(日本語では昔あったが、今はない)位、高い専門性と特許が絡んだ難しい技術だ。 それを無料で利用できるというのが素晴らしい。オフィスでも多用されるPDFについて、OCRを適用したければこれを使おう。 今回紹介するフリーウェアはクセロReader ZERO、OCR機能がついたPDFビューワだ。 クセロReader ZEROはタブがついたPDFビューワーで、複数のPDFを閲覧するのに便利なソフトウェアだ。しおりやサムネイルを表示するといった機能もある。 そして最も便利な機能として取りざたされるのがOCR機能だ。試してみた所では多少の誤字認識はあったものの、十分実用レベルだ(PDF中の文字列を検索するという目的には十分)。 さらに画像をクセロReader ZEROにドラッグアンドドロップするだけでPDF化する機能もある。その上でOCR

                                                            MOONGIFT: » 無料でPDFのOCR「クセロReader ZERO」:オープンソースを毎日紹介
                                                          • Tesseract.js | Pure Javascript OCR for 100 Languages!

                                                            Tesseract.js is a pure Javascript port of the popular Tesseract OCR engine. This library supports more than 100 languages, automatic text orientation and script detection, a simple interface for reading paragraph, word, and character bounding boxes. Tesseract.js can run either in a browser and on a server with NodeJS. Check out the Example code and API docs on GitHub.

                                                            • OpenAIのGPT-4oを日本語OCRとして使ってみる

                                                              昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

                                                                OpenAIのGPT-4oを日本語OCRとして使ってみる
                                                              • 江戸期以前の“くずし字”、精度80%以上でOCR処理、凸版印刷が技術開発

                                                                  江戸期以前の“くずし字”、精度80%以上でOCR処理、凸版印刷が技術開発 
                                                                • 30以上のツールで動画や音声の変換と結合・OCR・PDF変換・YouTubeからのダウンロードなどができる多機能フリーソフト「Freemore Audio Video Suite」

                                                                  動画の変換(MP4/FLV/3GP/HD/AVI/WMV/MP4/MPEG/DIVX)、デバイス変換(Android/iPod/iPad/iPhone/PSP)、動画編集、DVDとCDのリッピング・作成・コピー・ISOイメージ作成、音声の録音・編集・変換(M4AからMP3へ、FLACからMP3へ、WMAからMP3へ、WAVからMP3へ)、着信音の作成、動画から音声の抽出、PDFの変換(画像、テキストファイル)、PDFのスキャン、OCR、GIFの作成、スライドショー作成、YouTubeからのダウンロードと変換ができるフリーソフトが「Freemore Audio Video Suite」です。Windows 2000/XP/Vista/7/8/2003/2008上で動作します。 インストール、機能、ツールの操作画面については以下から。 Audio converters to convert a

                                                                    30以上のツールで動画や音声の変換と結合・OCR・PDF変換・YouTubeからのダウンロードなどができる多機能フリーソフト「Freemore Audio Video Suite」
                                                                  • 日本語OCRはなぜ難しい? NAVERのエンジニアが語る、テキスト検出における課題と解決策

                                                                    2019年11月20、21日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。1日目は「Engineering」をテーマに、LINEの技術の深堀りを、2日目は「Production」をテーマに、Web開発技術やUI/UX、プロジェクトマネジメントなど、より実践的な内容についてたくさんのプレゼンテーションが行われました。「NAVER ClovaのOCR(光学的文字認識) 」に登壇したのはNAVER OCR Team AI ResearcherのHwalsuk Lee氏。深層学習を用いたOCR技術の仕組みについて語りました。講演資料はこちら LINEのOCR技術の仕組み Hwalsuk Lee氏:みなさま、こんにちは。Hwalsuk Leeと申します。NAVER Clova OCR Teamから参りました。今

                                                                      日本語OCRはなぜ難しい? NAVERのエンジニアが語る、テキスト検出における課題と解決策
                                                                    • EvernoteでOCR処理したテキストデータを抽出する

                                                                      Evernoteは、文字列を含む画像をアップロードするとサーバ側でOCR処理をするので、テキストでの検索が可能だ。このテキストデータを抽出する方法を紹介しよう。 「Evernote」は、文字列を含む画像をアップロードするとサーバ側でOCR処理をする。それにより、テキストでの検索が可能となっている。任意の語句で検索をすると、画像上の文字列を黄色くハイライト表示するので、文字列をテキストデータとして認識しているのが分かるというわけだ。 逆に言うと、画像からテキストデータを取り出したければ、わざわざOCRソフトを使わなくともEvernoteにアップロードしてOCR処理すればよい。だが、残念ながらOCR処理したテキストデータを画面上で範囲選択してコピーすることはできない。こうした場合、OCRしたノートをエクスポートした後ちょっと加工することで、テキストデータを取り出せる。以下、その手順を紹介しよう

                                                                        EvernoteでOCR処理したテキストデータを抽出する
                                                                      • Free Online OCR

                                                                        Convert scanned images into editable text. Free Online OCR is a free service that allows you to easily convert scanned documents, PDFs, scanned invoices, screenshots and photos into editable and searchable text, such as DOC, TXT or PDF. The service is completely free and you don't need to register or install anything on your computer. Just select an image file and click Convert. You can immediatel

                                                                        • JavaScriptで自動文字認識! Microsoftの無料OCRライブラリーを使おう(前編)

                                                                          今回は、画像の中に書かれている文字(テキスト)を抽出するプログラムを作ってみましょう。スマートフォンやデジカメで手軽に写真を撮れるようになった昨今では、撮影・スキャンした手書きメモや文字データなどをテキストに変換したい場面が多いのではないでしょうか。 画像の文字認識をするプログラム自体を一から作るのは大変です。Microsoftが提供する「MODI」のOCR機能を利用すれば、JavaScriptから手軽に文字認識を実行できます。今回は、MODIのセットアップと簡単なプログラムを紹介します。 OCRとその活用方法 写真の中にある文字や、スマートフォンなどの手書き機能で書いたメモは、あくまで画像です。人間の目では読むことができても、そのままではコンピューターが認識することはできません。もちろん、検索してもその中の文字を探すことはできません。 そこで、OCRの出番です。OCR(Optical C

                                                                            JavaScriptで自動文字認識! Microsoftの無料OCRライブラリーを使おう(前編)
                                                                          • 止まらないOCRの進化、江戸時代のくずし字攻略が目の前に

                                                                            約2カ月前、あるニュースに目が釘付けになった。凸版印刷が、江戸時代以前のくずし字を自動解読し、テキストデータ化する「くずし字OCR」なる技術を開発した、というのだ。多くの人にとっては日常的なニュースの一つかもしれない。しかし、大学時代に日本史を専攻・研究していた筆者にとっては驚くべき事態だ。 くずし字は、そう簡単に読めるものではない。少なくとも筆者はマスターできなかった。いくらテクノロジーの進化が日進月歩とはいえ、OCRで自動解読できるとは、にわかに信じがたいことだ。真相を探るべく、凸版印刷に向かった。出迎えてくれたのは、同社情報コミュニケーション事業本部の大澤留次郎氏と山本純子氏だ(写真)。

                                                                              止まらないOCRの進化、江戸時代のくずし字攻略が目の前に
                                                                            • Eight: 最強名刺スキャンアプリが決定。「無料」の人力OCRがすごすぎる。無料。 | AppBank

                                                                              長らく続いてきた「最強名刺スキャンアプリはどれ論争」に、決定的とも言えるアプリが登場しました。名刺管理クラウドサービスリンクナレッジを展開する三三株式会社による、Eightです。 Eightは三三株式会社による、「撮影した名刺を無料で人力OCRしてくれる」アプリです。 名刺をぱしゃりと撮影してアップロード。数日待つと、「会社名」「氏名」「メールアドレス」「電話番号」がデータとして名刺から抜き出されて登録されます。精度は他の全名刺OCRと比較しても圧倒的です。なぜなら「人力」でやってるから。 じ、人力・・・!? いや・・・なんで無料なの・・・??? もう一度確認します。名刺をパシャッと撮影して、待ってたらデータが人力で登録されて戻ってくる。これが無料。 ま・・・まじで?? 先日までAppBankで最強名刺OCRアプリとして認定していたCamCardは1300円ですよ。それでも精度には限界があ

                                                                                Eight: 最強名刺スキャンアプリが決定。「無料」の人力OCRがすごすぎる。無料。 | AppBank
                                                                              • 高精度で話題の機械翻訳サービス「DeepL」を使ってゲーム内の文章をその場で翻訳。日本語未対応ゲームの強い味方「OCR2DeepL」が配信中

                                                                                2020年3月、機械翻訳サービス「DeepL」が日本語に対応し、これまでスタンダードとされてきた「Google翻訳」以上の翻訳精度だとして大きな話題となった。DeepLにはデスクトップアプリ版も存在しており、そのアプリ版を使ってゲームの字幕の翻訳を補助する便利なソフトウェア「OCR2DeepL」が公開されている。 制作したのはWiNCHaN氏。「OCR2DeepL」は「OCR」(光学文字認識)ソフトとDeepLアプリを仲介し、コピーした文字列をDeepLに送る。簡単に言えば、画面に映った文字をそのままDeepLで翻訳できるという優れものだ。プレイヤーはゲームプレイ中に気になる文章があれば、マウスでその字幕が映っている範囲を選択するだけでよい。 OCR2DeepLの使用例 実際にテストしてみよう。OCRを使用するため、アクションゲームや字幕がすぐに消えてしまうゲームには使いづらい。まず試して

                                                                                  高精度で話題の機械翻訳サービス「DeepL」を使ってゲーム内の文章をその場で翻訳。日本語未対応ゲームの強い味方「OCR2DeepL」が配信中
                                                                                • iOSで日本語OCR!ビルド編〜iOS SDK 6.1 + tesseract-ocr 3.02〜 | DevelopersIO

                                                                                  最近iOSでOCR(Optical Character Recognition:工学文字認識)をしたいとの声をよく耳にするので調査してみました。 オープンソースのOCRエンジン「tesseract-ocr」 オープンソースで日本語に対応したOCRエンジンを探してみると、tesseract-ocrなるものを見つけました。このtesseract-ocrですが、Google先生が開発を支援していると噂のオープンソースのOCRエンジンで、C++で書かれています。また、英語、日本語だけでなく多数の言語にも対応しています。ライセンスはApache License 2.0です。ちなみに読み方は「テッサラクトOCR」だそうです。 tesseract-ocrではiOSで簡単に利用できる形式では配布しておりませんが、C++で書かれているので当然Objective-Cでも使うことが出来ます。iOSでtesser