サクサク読めて、アプリ限定の機能も多数!
「PDFビューアーを開き、全選択し、コピーペースト」←これで取り出せるヤツはいいけど、何でPDF化したのか、コピペで完全に文字化けするパターンがあったんだよな。OCRしても精度が悪くて、結局手作業で全部入力した。
mohno のブックマーク 2024/02/24 17:15
pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama[畠山歓][PDF][テキスト][技術][Adobe][コピー]「PDFビューアーを開き、全選択し、コピーペースト」←これで取り出せるヤツはいいけど、何でPDF化したのか、コピペで完全に文字化けするパターンがあったんだよな。OCRしても精度が悪くて、結局手作業で全部入力した。2024/02/24 17:15
このブックマークにはスターがありません。 最初のスターをつけてみよう!
note.com/kan_hatakeyama2024/02/23
これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常...
464 人がブックマーク・37 件のコメント
\ コメントが サクサク読める アプリです /
「PDFビューアーを開き、全選択し、コピーペースト」←これで取り出せるヤツはいいけど、何でPDF化したのか、コピペで完全に文字化けするパターンがあったんだよな。OCRしても精度が悪くて、結局手作業で全部入力した。
mohno のブックマーク 2024/02/24 17:15
このブックマークにはスターがありません。
最初のスターをつけてみよう!
pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
note.com/kan_hatakeyama2024/02/23
これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常...
464 人がブックマーク・37 件のコメント
\ コメントが サクサク読める アプリです /