[B! pdf][PDF] delegateのブックマーク

delegate id:delegate

pdfとPDFに関するdelegateのブックマーク (49)

PythonでPDFからテキスト/表情報の抽出精度を比較してみた - Taste of Tech Topics
はじめにこんにちは。ついにジム通いを始めて四六時中筋肉痛を感じながら過ごしているイワツカです。最近はLLM（大規模言語モデル）とRAG（検索拡張生成）を用いて企業内ドキュメントを活用する取り組みが多く見受けられます。ドキュメントは基本 PDFで保存されているため、PDFからテキストを抽出して、検索対象にすることが必要です。そこで今回は、PythonでPDFからテキストを抽出するためのライブラリを比較して、どれが良いのか検証しました。はじめに概要実装 PyMuPDF pdfplumber unstructured 比較結果テキスト抽出サンプル1のテキスト抽出結果サンプル2のテキスト抽出結果表の抽出サンプル3の表抽出結果サンプル4の表抽出結果検証結果まとめ概要今回はPDF読み取りライブラリとして、PyMuPDF、pdfplumber、unstructuredの3
delegate 2024/09/12
python

pdf

表情報

あとで読む
リンク
CVE-2024-4367 - Arbitrary JavaScript execution in PDF.js — Codean Labs
This post details CVE-2024-4367, a vulnerability in PDF.js found by Codean Labs. PDF.js is a JavaScript-based PDF viewer maintained by Mozilla. This bug allows an attacker to execute arbitrary JavaScript code as soon as a malicious PDF file is opened. This affects all Firefox users (<126) because PDF.js is used by Firefox to show PDF files, but also seriously impacts many web- and Electron-based a
delegate 2024/05/21
javascript

pdf

セキュリティ

あとで読む
リンク
FigmaとPHPで作る1ミリたりとも表示崩れしない最強の帳票印刷ソリューション
PHPカンファレンス小田原2024 の発表資料です。 https://phpcon-odawara.connpass.com/event/296492/ https://fortee.jp/phpconodawara-2024/proposal/7c57d5ca-213a-4d7a-aaf0-26d…
delegate 2024/04/14
php

pdf

あとで読む
リンク
pdfからtextを抜き出す試行錯誤のメモ｜Kan Hatakeyama
これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。参考記事導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。解析コード： from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード： for structure in pdf_elements: print(structure) 結果：残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ
delegate 2024/02/24
pdf

テキスト抽出

python

あとで読む
リンク
IPAマンガでわかるソフトウェア開発データ分析38編.pdf
マンガでわかるソフトウェア開発データ分析データ分析事始めデータ分析FAQ (参考)アジャイルメトリクスFAQ 1 独立行政法人情報処理推進機構超合本版38編データ分析事始め目次データ分析基礎編 01 データ分析ってなんなの？データ分析 02 信頼幅の線、気になる信頼幅 03 箱ひげ図のひげ、かわゆくない箱ひげ図 04 散布図はぜんぜんばらばら散布図と箱ひげ図 05 どれが本命なの？中央値と平均値分析データ観察編 01 生産性は性癖が出る？生産性 02 バグを愛したソース信頼性（不具合密度） 03 改修・保守が好き過ぎる開発プロダクトの種別 04 規模はアンバランスでアンビバレントソフトウェア規模 05 開発期間は短くて長くて短い開発期間（工期） 06 ウォーターフォールってつおい？ウォーターフォール型開発 07 ここはツールでしょ開発ツール 08
delegate 2024/02/21
IPA

データ分析

pdf

あとで読む
リンク
上に出した報告書が何者かに改竄されてた。PDFで出したんだけど、ご丁寧に問題点が白塗りにされてた→監査ログを見てみたら闇が深かった話
がんぽん @ganpon714 アイコンは本人。職業はなんちゃってSE、自称研究者、アマチュア軍人。電子工作/電波(ELF,VLF)/C++/組み込み/ホイスラ/オーロラ/SDR/バイオインフォマティクス/GPGPU/カメラ/シンセ/ロシア/登山/ロリ/日本酒/居酒屋エサ→https://t.co/l3Q3CkG4iA https://t.co/CPdkJm4N53 がんぽん @ganpon714 先週、俺が上に出した報告書が何者かに改竄されてた。 PDFで出したんだけど、ご丁寧に問題点が白塗りにされてた。サーバー管理者なので監査ログを見てみたら誰が差し替えたか、誰が差し替えた後に開いて確認したかまで秒単位でわかって、数人関わってて思ったよりも会社の闇が深かった。驚いた。がんぽん @ganpon714 Windows server のシャドーコピーから元に戻しておいてやろうかと思った
delegate 2024/02/16
pdf

セキュリティ

あとで読む
リンク
無料でEPUBやPDFのほか7万以上の書籍を自由に読めてWindows・Linux・macOSなどで同期できる電子書籍リーダー「Librum」レビュー
オープンソースの電子書籍リーダーソフト「Librum」は、PDFや電子書籍ファイルであるEPUB・MOBIのデータを読み込んで本棚として共有できるほか、7万冊以上の無料書籍を自由にダウンロードして複数端末で読書進度も合わせて共有できます。 librumreader.com/ https://librumreader.com/ Librumの公式ページにアクセスし、「Download」をクリック。今回はWindowsからダウンロードしていますが、Windows、GNU/Linux、macOSに対応しており、iOSとAndroidは後日対応予定とのこと。ダウンロードした「librum-windows-0.11.0-installer.exe」をダブルクリックして開きます。インストーラーが開いてライセンスが表示されるので、「I accept the agreement」にチェックを入れて「N
delegate 2024/01/03
pdf

ビュアー

あとで読む
リンク
Re: なんで今さら帳票エンジンを新規開発しているのか
pdfmeとは Website: https://pdfme.com/ TypeScriptで書かれたオープンソースの無料の帳票エンジン。テンプレートを使って宣言的にPDFを作成でき、サーバー、ブラウザどちらでも動作する。 2022年2月にbeta版としてリリースしてから現在 Version3で GitHubではStartが1500、npmではバラツキはあるが週間1万件くらいのダウンロードがある。自分が把握しているだけで、世界中で採用事例があり、電子カルテ作成、工場の手順書作成、ECのカスタムパッケージ制作ソフトなど、すでにいろんなサービスに組み込まれている。この記事ではどのようなモチベーションでpdfmeを開発しているのかということを説明したいと思います。なんで帳票エンジンを新規開発するのか PDFファイルを作成・編集するという観点ではpdfkitという素晴らしいライブラリが20
delegate 2023/12/06
帳票

pdf

OSS

あとで読む
リンク
Goで帳票をPDFに作成するライブラリ。請求書などの複雑なフォーマットにも対応 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
delegate 2023/11/30
golang

pdf

帳票

あとで読む
リンク
Pythonのreportlabの使い方まとめ
空のPDFファイル作成まずは空のPDFファイルをユーザのデスクトップに作成してみましょう。下記のプログラムを実行すると空のPDFファイルがデスクトップに作成されます。 from reportlab.pdfgen import canvas from reportlab.lib.pagesizes import A4, portrait import os # ユーザのデスクトップのディレクトリを取得 file = "sample.pdf" file_path = os.path.expanduser("~") + "/Desktop/" + file # A4の新規PDFファイルを作成 page = canvas.Canvas(file_path, pagesize=portrait(A4)) # PDFファイルとして保存 page.save() フォントの読み込み文字を書き込むため
delegate 2023/08/04
python

pdf

reportlab
リンク
thinkpython.dvi
Think Python B 2 Think Python: How to Think Like a Computer Scientist 2nd Edition Allen B. Downey Copyright c �2018 ThinkPython: by is licensed under a Creative Commons 3.0 License 3 11 1 15 1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3 . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.4 . . . . . . . . . .
delegate 2023/06/27
python

pdf
リンク
HTML/CSSっぽい記述でPDFを作れるライブラリをRustで作る
経緯 Satoriというライブラリに感化されて、HTMLとCSSっぽい記述でPDFを作れたら面白そうと思ったので作ってみました。JavaScriptで書こうかと思いましたが、react-pdfという先人がいたので勉強を兼ねてRustで書いてみます。どんなライブラリか HTMLとCSSのような記述でPDFを作ることができるライブラリです。たとえば下記のようなXMLで肉じゃがレシピのPDFが作成できます。CSSは長いため省略していますが、GitHubで確認できます。 <Document title="recipe"> <Page style="page"> <Layer style="main"> <Text style="title">肉じゃが</Text> <Text style="description">日本の家庭でおなじみの肉じゃが。肉やじゃがいも、玉ねぎを油で炒めてから、醤油や
delegate 2023/01/09
rust

pdf
リンク
PDFの構造について 1 – Automation Skill
さて、PDFの構造について日本語でお勉強できる資料というのは少なくて、わたしも過去にAdobeSystemsからリリースされたリファレンスの第２版を読んでいました。ところがですね、あれって、専門用語に関する訳に難がありまして、理解を妨げるような書き方の部分のあったりします。なによりPDF1.3の解説ですから今となってはちょっと古いです。という事で数年前から片手間にPDF1.7リファレンスの翻訳を行ってるんですが、これ、色々な絡みでそのままお出しできませんです。という事で細切れで解説していきたいと思います。ご存知の通り元となったドキュメントもと～っても分厚い資料ですからどれだけやるかってのはあるのですが、最低でもAcrobatの構造表示を読み解くレベルまでは続けようかと思いますです。では、１回目としては、そもそもPDFってなに？って所から始まります。 ※各見出し付加された数字は原本の章番
delegate 2022/11/15
pdf
リンク
C# (dotnetcore) スキャンしてOCR処理したPDFをiText7(AGPL)を利用して読み込んでみる - developer's diary
delegate 2022/05/16
C#

PDF

iText7
リンク
C#でPDF編集
日記(52) Plone(48) たわごと(24) VisualStudio2003/2005(14) Linux(12) Silverlight(6) PHP(34) Windows(19) OpenPNE(15) ブラウザ(9) SQL-Server(5) Mailman(7) その他のCMS(3) google(3) ドキュメンテーション(3) Movable Type(2) xoops(8) MODx(3) ruby(1) exif(1)
delegate 2022/05/16
c#

pdf
リンク
『パターン認識と機械学習の学習普及版』（PDF）
『パターン認識と機械学習の学習普及版』 PDF main.pdf (last update : 2020/01/09) 暗黒通信団へのリンク作品紹介：パターン認識と機械学習の学習普及版ライセンスクリエイティブ・コモンズ表示 3.0 非移植 TeXソース https://github.com/herumi/prml/ 著者光成滋生@herumi(herumi@nifty.com)
delegate 2022/04/22
機械学習

パターン認識

本

PDF
リンク
Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python
■イベント  ：第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要タイトル：Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者：  技術…
delegate 2021/09/27
pdf

python
リンク
ついに、Webアプリでの帳票印刷のベストプラクティスを編み出しました💡
PHPカンファレンス 2021 1週間前イベント〜帰ってきたPHP勉強会@東京の発表資料です。 https://phpcon.connpass.com/event/224128/
delegate 2021/09/25
pdf

帳票
リンク
データ分析のための統計学入門.pdf
delegate 2021/04/07
データ分析

統計学入門

PDF
リンク
PDFに関する疑問にお答えします！PDF資料室 - アンテナハウス
作成・編集 PDFは編集できるの？どうやって編集するの？ PDFの一部を削除したり、PDFに文字や図形を書き込んだりする、PDFの編集操作の種類と気を付けたい点などを整理しました。
delegate 2020/08/14
pdf

アンテナハウス
リンク
1 2 3 次のページ