タグ

PDFに関するobata9のブックマーク (18)

  • [解決!Python]PDFファイルからテキストや画像を抽出するには

    pdfminer.sixパッケージを用いて、PDFファイルからテキストや画像を抽出する方法を紹介する。 from pdfminer.high_level import extract_text from pathlib import Path # PDFファイルからテキストを抽出 source = Path('atmarkit_ebook116.pdf') text = extract_text(source) print(text) # extract_text_to_fp関数を使う from pdfminer.high_level import extract_text_to_fp dest = Path('out.txt') with open(source, 'rb') as fp_in, open(dest, 'wb') as fp_out: extract_text_to_fp

    [解決!Python]PDFファイルからテキストや画像を抽出するには
  • https://medical.nikkeibp.co.jp/all/weekly/images/20240329_weekly.pdf

  • YAMLで履歴書を作る - Qiita

    はじめに 履歴書、書いてますか?>挨拶 僕もいま任期付きなもんで履歴書を書いては送る日々なわけですが、履歴書ってなんであんなに書きづらいんでしょうね? で、これまでは履歴書をLaTeXで書いて管理してたのですが、ちょっとスタイルを修正するのもすごく面倒だし、そもそもデータとスタイルの分離がよろしくないのがストレスでした。そんな時にこの【退職】履歴書をGit管理したかってん【しました】という記事を見て、僕も履歴書をもう少し扱いやすいフォーマットから作るスクリプトを書きました。ソースはGitHubに置いてあります。 (2020年7月19日追記) 2020年7月17日付で、日規格協会グループは、JIS Z 8303『帳票の設計基準』に掲載されていた「履歴書」の様式例を削除しました。2020年7月19日現在は「お知らせ」に記載されていますが、パーマネントリンクが無いようなので、そのうち消えるかも

    YAMLで履歴書を作る - Qiita
  • [常識にしたい]PDFにコメントするときの鉄則 - Qiita

    なぜかちゃんと知られていない、PDFへのアノテーション(=校正などで使用するツールやコメントなど)を使う時のエチケットをメモする。自由過ぎるアノテーションにお引き取りいただくために。 この鉄則は、今ならZeplinのようなツールにも応用できる。 作業前に アノテーション機能はPDFビュアーによって異なるけど、ここではAdobe Readerを前提とする。作業者のビュアーを全員同じにしておくこと。でないと無駄な争いが起きる。Mac/Win/Linuxで共通に使えるAdobe Readerにしておくのが無難。 鉄則1: バルーンは「絶対使うな」 例外はあるにせよ、ちょっと強い調子で書く。バルーンを使うと確実に嫌われる。 バルーンは、画面や文字列のどこを指しているのかが必ずあいまいになる。そしてそれが元で必ずや修正指示がい違う。 バルーンの利用が許されるのは、この特性を理解したうえで、最初のペ

    [常識にしたい]PDFにコメントするときの鉄則 - Qiita
  • PDFファイルにきれいにテキスト文字を書き込む3つの方法

    PDFファイルは元々Acrobatアプリで、Adobeが提供しているものでした。今や世界標準の電子的な情報配布の為に用いられています。情報の伝達・交換・蓄積に使われます。PDFおは、テキストのみならず図や表など印刷するようにレイアウトされたページの状態を維持するファイル形式でPortable Document Format(ポータブル・ドキュメント・フォーマット)の頭文字を取ったものです。市役所などで窓口に提出する事前にデータをダウンロードする申請書などはPDFで作成されているものがほとんどです。元々そのデータを作成するアプリはAcrobatなどの高額なものが一般的でしたが、昨今作成することは容易になりました。なぜなら、office(ワードなど)で作成したものをエクスポートすることでPDFにすることが出来るからです。基PDFはあくまで見るだけで編集は二の次でした。どのデバイスからも同じフ

    PDFファイルにきれいにテキスト文字を書き込む3つの方法
  • PDF ファイルにテキストを入力する方法 (Acrobat 8/9)

    この文書では、Adobe Acrobat 8/9 で PDF ファイルにテキストを入力する方法について説明します。 PDF ファイルへのテキストの入力には、TouchUp ツールを使用する方法、タイプライターツールを使用する方法、描画マークアップツールを使用する方法、注釈を利用して追加する方法の 4 つの方法があります。 TouchUp テキストツールを使用して、PDF ファイルの既存の文章を変更したり、テキストを追加・削除することができます。 注意 : PDF ファイルの既存のテキストを編集すると、PDF の内部情報が変更されたり、フォントの問題が発生する可能性があります。詳細は追加情報を参照してください。

  • IPAをかたる偽メールの特徴と対策指南

    IPAは、2008年春に見つかったIPAをかたる偽メールとウイルス感染について解説。ソーシャルエンジニアリング攻撃に対処する事例として紹介している。 情報処理推進機構(IPA)は、2008年春に発見された同機構をかたる偽メールとウイルス感染をモデルケースに、ソーシャルエンジニアリング攻撃への対処方法について解説している。 発見された偽メールはIPAのドメイン名に偽装して送信され、件名に「セキュリティ調査報告」と付けられていた。文にはセキュリティの脅威動向を解説する文面とPDFファイルが添付され、署名にIPAの住所や電話番号などが記載されていた。 これらの内容を一見しただけでは偽メールに気づくのが難しく、受信者に「IPAからセキュリティ情報を提供された」と思い込ませるための細工が凝らされている。IPAでは、こうした手口に代表されるユーザーをだますためのソーシャルエンジニアリング型攻撃が増加

    IPAをかたる偽メールの特徴と対策指南
  • PDFのリンクをクリックした時の挙動を選択する

    ネットを見ていて不用意にPDFをクリックしてしまい、PDFファイルを開くまでWebブラウザで何もできなくなってしまった経験を持つ人は多いだろう。そうでなくとも、急いでいる時にうっかりPDFをクリックしてしまうと、待たされている時間は非常に長く感じられる。その間ブラウザでは何の操作もできず、ただじっと待ちぼうけになってしまうわけで、時間が長く感じるのも当然だ。 PDFをブラウザのウィンドウ内で開きたくない場合、Adobe Readerであれば[環境設定]-[インターネット]にある「PDFをブラウザに表示」のチェックを外すのが基。こうしておけば、PDFをクリックした際に、いったんダウンロードしてからAdobe Readerで開くようになるので、ブラウザごと動かなくなってしまう事態は避けられる。 また、Firefoxでも設定できる。具体的には[ツール]-[オプション]-[コンテンツ]タブにある

    PDFのリンクをクリックした時の挙動を選択する
  • 「もはやPDFは安全なファイル種類ではない」、新たなPDFウイルス出現

    セキュリティ企業の英ソフォスは2008年3月23日、「Adobe Reader」の脆弱性を悪用する新たなPDFファイルを確認したとして注意を呼びかけた。脆弱性のあるAdobe Readerを使っている場合には、ファイルを開くだけで被害に遭う恐れがある。 今回確認された悪質なPDFファイル(PDFウイルス)は、韓国警察を狙ったスピアー攻撃(標的型攻撃)だという。ソフォスでは、このPDFウイルスを「Troj/PDFex-E」と命名している。 このPDFウイルスを開くと、ある週刊誌から引用したとみられる、韓国の大統領に関する記事の一部がPDFファイルとして表示される。その裏で、PDFウイルスはAdobe Readerの脆弱性を突いて動き出し、ユーザーのキー入力情報を盗む「キーロガー」などを生成して実行する。 今回のPDFウイルスが悪用するのは、2008年2月に米アドビシステムズが公開した脆弱性。

    「もはやPDFは安全なファイル種類ではない」、新たなPDFウイルス出現
  • 紙をスキャンしたPDFもWord、Excelに変換──リッチテキストPDF4 - ITmedia Biz.ID

    配布されたPDFファイルをOfficeソフトのフォーマットに変換するリッチテキストPDF4。今回、OCR機能も搭載し、紙の資料をスキャンして作ったPDFからの変換も可能になった。 紙の資料をスキャンしてPDFファイルとして客先に送付することも増えてきた。ペーパーレス化にも一役買うPDFだが、「このPDFファイルを編集できないのか?」と感じたことのあるビジネスパーソンも多いだろう。 アンテナハウスが12月17日に発売する「リッチテキストPDF4」は、PDFファイルを読み込んでWordやExcel、一太郎のファイルに変換してくれるソフトだ。 今回のバージョンアップで、OCR機能も搭載し、紙をスキャンして画像データとして作られたPDFからWord/Excelなどへ変換することも可能になった。 バージョンアップによる主な変更点は下記のとおりだ。 Wordの箇条書きへの対応──これまでPDF内の箇条

    紙をスキャンしたPDFもWord、Excelに変換──リッチテキストPDF4 - ITmedia Biz.ID
  • 画像内の文字をコピー&ペーストする

    資料をもらったら画像だった──。そんなときもあきらめず。無償の「クセロReader ZERO」を使えば、画像をPDFに変換してOCRをかけ、テキストデータを抜き出すことができる。 資料を引用したいのだが、手元にあるのは画像ファイル。ここから文字を抜き出すにはどうしたらいいか。画像を見ながら、手で打っていくしかないのか。 クセロが新しくリリースする「クセロReader ZERO」を使えば、画像ファイルをドラッグ&ドロップで読み込ませて、OCRをかけることが可能だ。これを使えば、画像内の文字を簡単にテキストデータに変換できる。あとは、Adobe Readerなどで開いて、コピーすればいい。 この機能は、11月初旬に無償配布を開始するクセロReader ZEROに新機能として盛り込まれたもの。画像からPDFファイルを簡単に作成する機能や、画像PDFファイルにOCRをかけてテキストの透明レイヤーを

    画像内の文字をコピー&ペーストする
  • 携帯電話からコピー、FAX──スキャンRがau携帯に対応 - ITmedia Biz.ID

    携帯カメラで写真を撮ってEメール送信すれば、手近なFAXから出力したり、PDFファイルとして受信が可能。名刺を撮って送ればアドレスデータとして返ってくる。米scanRがau公式コンテンツとなった。 画像データをPDFに変換したり、FAXへ送信したりできるネットサービス「スキャンR」が10月4日、au携帯電話に対応する。EZwebおよびBusinessEZの公式コンテンツとして、月額315円で利用できる。 うたい文句は「カメラ付き携帯電話で、スキャン、コピー、ファックスができる」。 携帯電話のカメラでホワイトボードや名刺などを撮影し、画像データを指定されたメールアドレスに送るだけで、指定したFAXから印刷できる。PDFファイルとしてメールで受け取ったり、名刺の場合はアドレスデータとして受け取ってアドレス帳に登録することも可能だ。 送信したデータはスキャンRのサーバに保存され、PCや携帯電話か

    携帯電話からコピー、FAX──スキャンRがau携帯に対応 - ITmedia Biz.ID
  • 「黒塗り」だけでは不十分、PDF文書を公開する際には要注意

    米サンベルトソフトウエアは2007年9月24日(米国時間)、同社の公式ブログにおいて、国際自動車連盟(FIA)が最近公開したPDF文書にセキュリティ上の問題があることを報告した。コピー・アンド・ペーストするだけで、黒塗りした部分の文字が読めてしまう。 FIAは2007年9月19日付けで、世界モータースポーツ評議会(World Motor Sport Council)の議事録のPDF文書を公開した。公開されたPDF文書ファイルはところどころ黒塗りされて、センシティブと思われる情報が隠されている(図)。 しかしながら、黒塗りされた部分にはコピー防止などが施されていなかった。このため、黒塗り部分を単純にコピーして別の文書ファイルなどにペーストすると、その部分に書かれているテキストが表示されてしまう。サンベルトの情報によれば、例えば図の個所は、コピー・アンド・ペーストすると、以下のように表示される

    「黒塗り」だけでは不十分、PDF文書を公開する際には要注意
  • Lifehacker Top 10:ちょっと便利なPDF Tipsトップ10 - ITmedi...

    PDFファイルでできることは思っているよりずっと多い。PDF文書を変換、編集、管理するテクニックをお届けする。(Lifehacker) PDFファイルフォーマットは、レイアウトを整えた文書を公開し、保存し、交換する最善の方法の1つだ。どんなデバイスやコンピュータでファイルを開いても、正確に同じに見える。履歴書、納税申告書、電子書籍、ユーザーガイド、Webページでも何でも、PDFを使えば間違いない。皆さんは既に無料のPDFリーダーをPCにインストールしているだろうが、PDFファイルでできることは思っているよりずっと多い。そこでPDF文書を変換、交換、共有、管理、編集するテクニックのトップ10を紹介する。 10. カスタムPDFメモ用紙を作る マイケル・ボツコ氏のPDFメモ用紙ジェネレータで自分だけのDIYメモ用紙をデザインしよう(日語の記事はこちら)。名前やプロジェクト名、パンチ穴などのテ

    Lifehacker Top 10:ちょっと便利なPDF Tipsトップ10 - ITmedi...
  • オフィスファイルをFlash、PDFに変換してくれるドキュメント共有サービス「Memotune」

    アップロードしたファイルをFlash、PDFに変換してくれるドキュメント共有サービスが登場した。ドキュメント非公開設定も可能。 MOONGIFTは9月12日、ドキュメント共有サービス「Memotune」を公開した。ユーザー登録だけで、無償で利用できる。Word、ExcelPowerPointといったオフィスファイル、PDF、画像をアップロードし、共有することが可能。WYSIWYGエディタも搭載しており、ドキュメント作成することもできる。 各ドキュメントは、FlashとPDFに変換される。WebブラウザからはFlashPaperとして軽く閲覧でき、PDFはダウンロードできるようになっている。 ドキュメントを非公開にすれば一般には公開されない。またグループを作成して、グループメンバーのみで閲覧もできるため、プロジェクトグループでの利用にも使えるとうたっている。 通常のドキュメント共有サービス

    オフィスファイルをFlash、PDFに変換してくれるドキュメント共有サービス「Memotune」
  • ITmedia Biz.ID:PDFファイルを無料で分割・結合する

    マニュアルなど、数十ページにわたる大きなPDFファイルのうち、特定のページだけをよく閲覧やプリントするなら、そこだけ“分割”できると便利だ。逆にばらばらになったPDFを“結合”できるソフトもある。 マニュアルなど、数十ページにわたる大きなPDFファイルのうち、特定のページだけをよく閲覧したり、プリントしたりする場合がある。ただでさえ開くのに時間がかかるPDFファイルを、そのたびに目指すページまでスクロールするのは手間だ。特定のページだけを分割して別ファイルにできれば便利なのだが――。 これを実現する方法はいくつかある。まず「Adobe Acrobat」のStandard/Pro/3Dを持っているなら「ページの抽出」機能で簡単に実現する。ただし、最新版のAcrobat 8 Standardの通常版は3万6540円と、これだけのために購入するには少々高価なのである(2006年11月の記事参照)

    ITmedia Biz.ID:PDFファイルを無料で分割・結合する
  • PC

    Linuxカーネルを理解しよう Linuxカーネルはイベント駆動型、その鍵を握る「割り込み」とは 2024.08.21

    PC
  • Adobe ReaderとAcrobatに危険度「高」の脆弱性

    Adobe ReaderとAcrobatで複数の脆弱性が見つかった。攻撃者がこれを悪用すると、任意のコマンドを実行できてしまう。 仏セキュリティ機関FrSIRTは11月28日、Adobe ReaderおよびAcrobatで複数の脆弱性が発見されたと報告した。危険度は4段階中最も高い「Critical」とされている。 これらの脆弱性は、AcroPDF ActiveXコントロール(AcroPDF.dll)が「src()」「setPageMode()」「setLayoutMode()」「setNamedDest()」「LoadFile()」に渡される不正な形式の引数を適切に処理できないメモリコラプションエラーが原因。攻撃者がこれを悪用すると、特殊な細工を施したWebページにユーザーを誘導することで、任意のコマンドを実行できてしまうという。 この問題の影響を受けるのは、Adobe Readerのバ

    Adobe ReaderとAcrobatに危険度「高」の脆弱性
  • 1