記事へのコメント37

    • 注目コメント
    • 新着コメント
    knok
    Adobe AI APIはほぼ完ぺきにセクションを抽出してくれるが高いのだよな…

    その他
    dexia2
    AcrobatのOCRは絶妙に精度が悪いので、結局自分でOCRをかけて再チェックしてます。量が多いので、GoogleDriveではなく、AzureのAPIを自分で叩いてる。Acrobatの精度が上がって欲しい......

    その他
    ghrn
    まずWordで開く→参照で読み込みさせてみてる。ダメならOCR。テキスト主体ならOCRで充分だけど、ページ番号も拾うので、正規表現置換で整える。

    その他
    easy-breezy
    過去に多くの人々がチャレンジしたやつ。抽出精度を求めると汎用性が低くなって大変だった。

    その他
    Kmusiclife
    Adobe acrobatでテキスト認識させてChatGPTで整形。あっという間。

    その他
    akapeso
    ページ数少ないなら、画像として出力してGoogleキープに放り込むこむと、テキストを抽出してくれる。ページの端で改行が勝手に入るのが難点。

    その他
    mysql8
    arXivが悪い

    その他
    theta
    ノイズのない綺麗なフォント表示なら確実にOCR出来ると思うじゃないですか。やってみればわかりますけど、全然そんなことないんだなこれがorz

    その他
    mr_yamada
    画像化してOCRの方が手間がかからなかったりして。AIの進歩のほうが早そうだし。

    その他
    nmcli
    こういう情報ありがたい

    その他
    ht_s
    pdfじゃない&こんな高度な話じゃないけど右クリックや文章選択許さないサイトからhtmlタグつきのソース丸出しテキストChatGPT渡して「きれいにして」って言うだけでレシピの形に整えてくれるので助かってる。

    その他
    dekawo
    pdf to text

    その他
    xxxxxxxxlarge
    Chat GPTに突っ込んだらどんなもんなのかな

    その他
    mohno
    「PDFビューアーを開き、全選択し、コピーペースト」←これで取り出せるヤツはいいけど、何でPDF化したのか、コピペで完全に文字化けするパターンがあったんだよな。OCRしても精度が悪くて、結局手作業で全部入力した。

    その他
    ToTheEndOfTime
    精度でいえばCloud OCRの方がずっと良いです

    その他
    ni66ling
    Unstructured, Grobid, PyMuPDFを検証してPyMuPDFが相対的によく、二段カラムにもおおよそ対応できたとのこと

    その他
    ch1248
    PDFのText抜き出しは鬼門だからなあ……

    その他
    kamayan1980
    PDFはPDF作成者がポンコツだとテキストデータがひどいことになるので、画像に変換したあとで読み取ったほうが安定する認識

    その他
    odz
    pdfminerとか?https://github.com/pdfminer/pdfminer.six

    その他
    hamanasawa
    hamanasawa よし、マクロ組んで全選択してコピーしたのをテキストエディタに貼り付けよう!

    2024/02/24 リンク

    その他
    at_yasu
    AIでOCRが個人的にはすっきりするのかなといまは思う。

    その他
    tohokuaiki
    PDFがどう作られているかによるからこんなの無理ゲー。画像化してOCRが一番いいのではないかな。

    その他
    hiroshe
    Wordでそのまま開いても、結構いけるときあるで。

    その他
    ytn
    Power automate desktop 意外とバカにできねーぞ?

    その他
    cyber_bob
    PDFをスクショ画像にしてGeminiに食わせたらスプレッドシートになるよ。

    その他
    H_He_Li_Be
    全選択してコピーアンドペーストで成功するのか。じゃあ失敗してるライブラリは何をやってるんだろう。画像認識で処理してるのかな。

    その他
    tanakatowel
    tanakatowel 画像にしてからgoogle driveに上げて、右クリでgoogle documentで開くと文字起こししてくれる。少ページならかなり楽。

    2024/02/24 リンク

    その他
    strawberryhunter
    素直に抜き出せる種類のPDFなら何も苦労は無いけど、そもそもアウトライン化されていたり、埋め込みサブセットフォントの何番目みたいな鬼畜なデータもあると聞く。全体を画像にする粗悪なPDFプリンタドライバもある。

    その他
    rrringress
    OCRからやるのはどうなんだろうか

    その他
    welchman
    xdoc2txt以外を使ったことが無いので、新手を検討しようかな。

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

    これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましい...

    ブックマークしたユーザー

    • hoge2411072025/02/22 hoge241107
    • gurutakezawa2024/09/09 gurutakezawa
    • techtech05212024/06/26 techtech0521
    • taka0024jp2024/04/08 taka0024jp
    • clavier2024/03/26 clavier
    • TakayukiN6272024/03/24 TakayukiN627
    • cretgp2024/03/16 cretgp
    • bootJP2024/03/06 bootJP
    • d128922024/03/02 d12892
    • o9bYGFqG2024/03/02 o9bYGFqG
    • mgl2024/02/28 mgl
    • misshiki2024/02/27 misshiki
    • stntaku2024/02/26 stntaku
    • fivestech2024/02/25 fivestech
    • kkeisuke2024/02/25 kkeisuke
    • knok2024/02/25 knok
    • jamg2024/02/25 jamg
    • makopy_inside2024/02/25 makopy_inside
    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事

    いま人気の記事 - 企業メディア

    企業メディアをもっと読む