Excelとpdfに関するtakehirohattoriのブックマーク (4)

  • xdoc2txt

    ■ 概要 xdoc2txtはPDF,WORD,EXCEL,一太郎などの各種バイナリ文書から、テキスト要素を抽出 する汎用テキストコンバータであり、Windowsのコマンドラインで動作します。 xdoc2txtは各種文書の構造を直接解析しているため、単独で変換できます。WORDや Acrobatなど、作成元のアプリケーションをインストールする必要はありません。 高速に動作するので、各種全文検索エンジンのフィルタに最適です。 ワープロ文書の種類は、拡張子から判別します。次の拡張子のファイルに対応してい ます。

  • PDFファイルにしかない表をExcelに読み込んで再活用する

    PDF形式で配布されている資料から表をExcelに読み込む 行政関係のPDF文書には、表形式のデータが含まれることが少なくない。こうした情報はMicrosoft Excelに取り込むことで並べ替えなどが可能になり、より有効に活用できることがある。画面は、東京都新宿区の「しんじゅく保育施設ガイド(令和2年度入園版)」内の表をExcelに読み込んだ例。 最近では多くのドキュメントがPDF形式で配布されている。WebブラウザにPDFビュワー機能が組み込まれているため、比較的簡単に中身を見ることができるからだ。さまざまな環境で、同じレイアウトや書式で閲覧可能なため、見積書や請求書などをPDF形式で送付するといったことも一般的になっている。 しかし、その中の情報は、「Microsoft Excel(エクセル)」で扱う方が便利なものが少なくない。特に表をそのままPDFにしているような場合、Excel

    PDFファイルにしかない表をExcelに読み込んで再活用する
  • 画像内の日本語テキストを抽出できる「Online OCR」が無料なのに便利すぎる

    Online OCRとは Online OCRは、46ヶ国の言語に対応して画像からテキストを抽出することができる無料のオンラインOCRツールです。 登録なしでの利用 現在、登録なしの状態で、15MBまでなら以下の形式の単一ファイルを読み込むことができます。 PDF (単一ページ) TIF/TIFF (単一ページ) JPEG/JPG BMP PNG GIF そして、以下の形式で出力することができます。 Microsoft Excel (xlsx) Microsoft Word (docx) プレーンテキスト (txt) 登録なしでも、ライトユーザーであれば十分すぎるくらい便利です。 無料登録をすると Online OCRは、登録しなくても十分便利なのですが、無料登録を行うことにより、さらにできることの幅が広がります。 以下の形式のファイルを200MBまで読み込むことができるようになります。

    画像内の日本語テキストを抽出できる「Online OCR」が無料なのに便利すぎる
  • PDFから“手間をかけずに”ロゴや図表を抜き出すには

    このPDFの図版、プレゼン資料に使いたい――。そんなとき、手間をかけずに抜き出せる機能がAdobe Readerに用意されている。 保管コストの削減はもとより、劣化の防止や検索性の向上、再利用の促進などさまざまな利点が認められ、徐々に広がりつつある紙の文書や帳票のデジタルデータ化ですが、用途や目的を考慮せずにむやみにスキャンすることでかえって効率が悪くなったり、作業に手戻りを発生させてしまうことも少なくありません。 また商法や税法で保管が義務付けられている文書の場合、電子帳簿保存法やe-文書法などのルールに則った手順を踏む必要があり、自分の判断でやみくもにデータ化するわけにいかないといった事情もあります。 連載ではこうした現在の状況を踏まえつつ、文書のデータ化にまつわる情報、さらにはフォーマットであるPDFや変換機器であるスキャナ、保存先となるストレージに至るまで、業務現場と情報システム

    PDFから“手間をかけずに”ロゴや図表を抜き出すには
  • 1