タグ

pdfに関するseiunskyのブックマーク (32)

  • PDFから「使える」テキストを取り出す(第1回) - golden-luckyの日記

    PDFからテキストを取り出すのは、意外と大変です。 それにはいくつかの理由があるのですが、もっとも根的な点で真っ先に解決が必要になるのは、人間が雑に文字としてみなしている絵(「グリフ」)をコンピューターで扱えるような「文字」にする方法です。 これには2つのアプローチが考えられます。 PDFビューワーでファイルを開いた状態から何とかしてテキストを読み取る PDFファイルの中身を解析してテキストを抜き出す このうち2つめの話は明日以降にして、今日は1つめの話をします。 PDFビューワーでファイルを開いた状態から何とかしてテキストを読み取る方法 この方法は、言ってみれば、人間もしくは人間のように振る舞うソフトウェアによりPDFビューワーの表示を「視覚的に読む」ということです。 これはPDF来の使い道に即した手法です。 PDFというのは、グリフ(文字の形)をページ上に表示するための汎用の仕組

    PDFから「使える」テキストを取り出す(第1回) - golden-luckyの日記
  • CircleCI 2.0でRe:VIEWの原稿をビルドする - Qiita

    CircleCI 2.0が登場し、Dockerイメージを使ってビルドできるようになりました。 C92や技術書典3に向けて執筆されている方でもRe:VIEWを使っている方がいると思います。 vvakameさんが作成したRe:VIEW用のイメージがあるので、CircleCI 2.0でRe:VIEWの原稿をビルドしてみました。 サンプルのリポジトリ: https://github.com/mstssk/ReVIEW_CircleCI_Sample 解説 やったこととしては以前書いたWerckerでRe:VIEWの原稿をビルドするという記事のCircleCI 2.0版です。 GitHubCircleCI間の連携については、特別なことは何もしていないので記事では割愛します。 公式のドキュメントなどを参照してください。 設定ファイル 設定ファイルは20行未満になりました。並列処理したりしたいわけで

    CircleCI 2.0でRe:VIEWの原稿をビルドする - Qiita
  • 日本語を含む Keynote を slideshare にアップロードする - あらびき日記

    この記事は abicky.net の 日語を含む Keynote を slideshare にアップロードする に移行しました

    日本語を含む Keynote を slideshare にアップロードする - あらびき日記
  • Misoca開発合宿報告 - 弥生開発者ブログ

    Misoca開発チームのmzpです。 先日、伊東の山喜旅館で開発合宿を行ないました。 今日はそこでどういうことをやったかについて紹介したいと思います。 目標 合宿では複数のグループに分かれて、それぞれ違うテーマに取り組みました。 我々のグループは「Misocaの請求書で絵文字を使える」をテーマにしました。 より具体的に言うと「請求書で🍣を使える」を目標としました。 この成果は先日リリースされたので、請求書作成サービス「Misoca(ミソカ)」では絵文字が使えるようにになっています。 やったこと 出発前日 合宿期間を有効に使うために、出発の前日に作業分担をしました。 主に「PDF絵文字を扱えるようにする作業」と「DB絵文字を保存できるようにする作業」の2つに分割して、それぞれ個別に取り組むことにしました。 1日目 移動 オフィスに集合して、荷物を詰めこんで合宿先に向いました。 移動中は

    Misoca開発合宿報告 - 弥生開発者ブログ
    seiunsky
    seiunsky 2015/12/18
    🍣
  • Re:VIEWで売り物の本を作ってみた(InDesign抜き)

    を作って出版する仕事をしています。 今回、はじめてRe:VIEWを実際の仕事に使ってみたので、忘れないうちに感想とメモを殴り書きしておきます。 ちなみに、作ったのは『エクストリームプログラミング』というです。 公式サイトのREADMEに「an easy-to-use digital publishing system for books and ebooks」とあるように、 Re:VIEWは日語の技術書をできるだけ簡単に作るための仕組みです。 テキスト原稿に比較的簡便なマークアップをマニュアルどおりに施し、全体の構造をYAMLに書けば、それなりに体裁が整った日語の技術書PDFを編纂してくれます。 同じソースからepubも出せます。InDesignへネイティブに取り込めるような出力もはけるので、テキスト原稿をInDesignに流し込んでバッチ組版とかも可能です。 自分が今回使ったの

  • process-book

    この文書はなんですか? この文書は*nix系のシステムにおけるプロセスやシグナルなどについて説明することを目的に書かれました。「プロセスとかよくわかってないからちゃんと知りたいな」みたいなひとたちが想定読者です。 書いているあいだは gist で管理されていたのですが、ボリュームが大きくなったので github で管理するように変えました。 目次 導入 プロセスの生成 プロセスとファイル入出力 ファイルディスクリプタ preforkサーバーを作ってみよう ゾンビプロセスと孤児プロセス シグナルとkill プロセスグループとフォアグランドプロセス epub と pdf epub化したもの、pdf化したものが release ディレクトリに入っています。thanks to mitukiii & moznion! ライセンス この 作品 は クリエイティブ・コモンズ 表示 - 継承 3.0 非移

  • PDF Generation in Rails — SitePoint

    The ability to download data in pdf format is a common requirement that you will encounter when building web applications. There are different ways that this can be achieved in Rails. We are going to look at the two major ways used to generate pdf documents: with Ruby using a DSL for defining and styling the documents, or by using a library that will convert your HTML to PDF. There are three popul

    PDF Generation in Rails — SitePoint
    seiunsky
    seiunsky 2014/04/05
    作るライブラリについて
  • ポスター - Grayscale Lovers

    とくに人が密集するところでは、持ち方次第で傘が凶器になってしまいますが、それを注意喚起するポスターを駅などで見かけません(少なくとも僕の観測範囲では)。 ということで、とりあえずポスターのデータがあれば誰かに役に立つかもしれないと思い、傘の持ち方についての注意喚起ポスターを作りました。 当なら僕が印刷していろんな駅に貼ってもらいたいところなのですが、残念ながらそれを実行するだけのお金を僕は持ち合わせておりません。 もし交通機関にお務めの心ある方がこのページをご覧になっていらっしゃいましたら、このポスターをどこかに掲示していただけると幸いです。 交通機関に務めていらっしゃらない方も、身近なところに掲示して近くの人にお知らせくださると嬉しいです。 どなた様でもご自由に印刷・掲示できます。報告等の必要はございません。 データはPDFをご用意しております。以下よりダウンロードしてください。 A4

    ポスター - Grayscale Lovers
    seiunsky
    seiunsky 2014/04/03
    こういう持ち方するの、階段じゃなくてもコワイんだよなー。マジやめてほしい
  • github.comをgitprint.comにするだけでマークダウン文書をPDFに変換『GitPrint』 | 100SHIKI

    なにこれ便利。 GitPrintでは、github.comのURLにちょいと細工するだけでマークダウン文書(.md)をPDFにしてくれる。 使い方は簡単で、github.comをgitprint.comにするだけだ。 ちゃんとコード部分にはアイコンがついたり、見出しには下線がついたら、読みやすいし、印刷フレンドリーでもある。 もちろんPDFにはリンクも組み込まれている。 かなり便利だと思うのだがいかがだろう?

    github.comをgitprint.comにするだけでマークダウン文書をPDFに変換『GitPrint』 | 100SHIKI
    seiunsky
    seiunsky 2014/03/17
    便利情報だ
  • 書籍編集局ブログ|Ohmsha

    2月15日(木)に開催された「Developers Summit 2018(デブサミ)」(主催:翔泳社)にて「ITエンジニアに読んでほしい! 技術書・ビジネス書大賞2018」のプレゼン大会と投票が行われ、大関真之先生の著書『機械学習入門 ボルツマン機械学習から深層学習まで』がみごと技術書部門の大賞の栄冠に輝きました! プレゼン大会では大関先生自ら書に関する熱い熱い思いを披露していただました。このプレゼンによって「読んでみたい!」「数式が苦手だけどこのなら読める!」と惹きつけられるオーディエンスが続出!みごと大賞に選ばれることとなりました。ブラボー! 書は、おとぎ話の白雪姫に登場するお妃様と鏡の関係をなぞらえ、その問答により「機械学習とは何か」「何ができるのか」を楽しいストーリーと可愛らしくしかも的確なイラスト、そして数式をまったく用いることなく解説している画期的な内容です。 登場する

    書籍編集局ブログ|Ohmsha
  • 猫でもわかるPostScriptとPDFの昔話 - ちくちく日記

    はじめに この話はTwitterで大暴れの最強初心者、○嬢の発した ▲一応鍵アカなんでモザイクかけとく と、なんていうかどこから突っ込んでいいやら分からないほど混乱した質問への答えとして書いた連続ツイートを元に多少解説などを加えたものです。 彼女の一連の疑問ツイートなどはご人がTogetterでまとめてますのでそちらをご覧ください(「PDFとPSの関係がわからなくなってきた時のこと」) ここではPostScriptとPDFをDTPの視点から解説しています。簡単に説明するためあえて細かい説明などは省いた部分もあります。 同じように「なんかこの辺よくわかんない…」って思ってるDTP従事者の理解の一助になれば幸いです。 昔話 昔Adobeという神様が、テキストで図形を表現するためにPostScriptという言葉を作りました。この言葉は▲や■などの図形を言葉で表現できました。神様はこの言葉で書

    猫でもわかるPostScriptとPDFの昔話 - ちくちく日記
    seiunsky
    seiunsky 2013/05/22
    勉強になる
  • もう迷わない!EC2のインスタンスタイプ名 対比表 - サーバーワークスエンジニアブログ

    追記2013/11/9 M3値下げ対応 (AWSブログ) g2.2xlarge対応 (AWSブログ) => サービス名称をAPI名で呼ぶ様になったのか正式な英語名、日語名が分からなかった。でも多分過去の名称とAPI名からするにHigh GPU Double Extra Largeになると思う 物理プロセッサ、Intel AES-NI・Intel AVX/Intel Turbo対応状況対応 => cc1.4xlargeだけドキュメントに物理プロセッサ記載が無かったが、過去の別ドキュメントページの記載からIntel Xeon X5570だと思う。 hs1.8xlarge提供開始が始まっていたリージョン追記 コメント: お勧めの方法としてはPDFのリンクをブラウザーのタブに入れておいて、何か聞かれたらさっと確認、が一番使い易い方法かなーと思います。 追記2013/6/14 金額を修正し、リザー

    もう迷わない!EC2のインスタンスタイプ名 対比表 - サーバーワークスエンジニアブログ
  • ReVIEWをMac(Lion)にインストール « ツール工房 覚書

    ReVIEWクイックスタートガイドを見ながら順番に実行します。 ReVIEWインストール $ gem install review $ gem update review 高橋さんが作成されたサンプルを取得します。 $ git clone https://github.com/takahashim/review-sample-book.git EPUB版作成 まずEPUB版を作ってみます。 $ review-epubmaker config.yml book.epubができました! 今度はPDF版を作ってみます。 PDF生成のためには、pLaTeXとdvipdfmxが必要とのことなので別途インストールします。 pLaTeXインストール How to install X and pLaTeX environments on Mac OS Xのページを参考にします。 まず ・Drag & Dr

  • ざっくりインデザイン。 - 井上のきあ | パブー

    【お知らせ】 2012/2/16 プレビューの最後あたりにぎりぎり文字が読めるレベルの試し読み用画像追加しました。 2012/2/14 Ver1.2.0にアップデートしました。全部で116Pです。巻末に付録「字書きさんが知っていると便利なこと」を追加しました。テキストの自動流し込み&ページの自動生成の話がメインです。編のほうは変更なしです。目次ページ1見開きに文字が入りきらなかったので、07以降は次のページに送ってあります。 2012/2/6 Ver1.1.0にアップデートしました。全部で99Pになっています。togetterで寄せられた約物半角情報追加しました。ほか、画像のはなしなど追加。大幅に加筆/追加したページのノンブルには、黄色いバーが入ってます。試し読み部分には反映されていません。 「今年こそInDesign を勉強したい」「いいかげんInDesign の使い方をおぼえないと」

    ざっくりインデザイン。 - 井上のきあ | パブー
  • ReVIEW + Jenkinsでドキュメントを常時ビルドする

    ReVIEWはマークアップ言語でソースを記述することで、html形式やPDF形式の綺麗な体裁の文書を作れるオープンソースのツールです。入手はhttp://github.com/kmuto/review から可能です。例えば = 章 == 節 === 項 * 箇条書き * 箇条書き のような書き方をするとhtmlであれば、それぞれh1〜h3に変換されたり、ulに変換されたりします。PDFの場合は予め規定された体裁に変換されます。 今回は、Windows Azure上の仮想マシン(Ubuntu12LTS)上で、このドキュメントを常時ビルドする方法を紹介します。 ReVIEWのインストールReVIEWは動作にrubyが必要です。また最新版はgithubにて提供されていますので、gitを導入しておきます。 sudo su apt-get install ruby apt-get install g

    ReVIEW + Jenkinsでドキュメントを常時ビルドする
    seiunsky
    seiunsky 2012/11/04
    ReVIEWでPDFを出力するときの環境を作る方法
  • 1から始めるRuby (スライド版)

    ShowOffというRuby製のプレゼンソフトがあります。ShowOffではプレゼンスライドをmarkdownで書いて、Sinatraアプリとして簡単に実行できます。Sinatraですから当然、Herokuにも簡単にデプロイできます。 スライド版 プレゼンには全く縁はありませんが、スライド作りが面白そうだったので、1つ作ってHerokuにデプロイしてみました。ネタは1年くらい前にブログで書いた「1から始めるRuby」です。 「1から始めるRuby」 on Heroku 見てくれる人がいたらうれしいですが、現状ではSafariでしかスライドのコントロールがうまくできません。僕の環境(OSX Snow Leopard)のChromeおよびFirefoxではコントロールが効きません(但し、ページを開いた後ブラウザの戻るを押すことで自動再生はできます)。解決策ご存知の方おられましたら助けてください

    seiunsky
    seiunsky 2012/09/04
    http://tokyo10.rubykaigi.infoとかで話聞いてみたい気がする!!1
  • PDF generation and Heroku

    We ♥ web applications! At mobalean we love to build innovative web services for Japan and the world. Our experience will help transform your ideas into successful online services. » more Mobalean is lead by Henri Servomaa, the original founder and mobile developer. At Mobalean we strive to develop services which are loved by our clients and users. By working in an agile manner, quickly adapting to

  • 手書きPDF入門 PDF by Hand - Kobu.Com

    %PDF-1.2 1 0 obj << /Type /Page /Parent 7 0 R /Resources 3 0 R /Contents 2 0 R >> endobj . . . 9 0 obj << /CreationDate (D:19991115) /Title (Hand-written sample PDF) /Author (ARAI Bunkichi, Yokohama Koubunsha) >> endobj xref 0 10 0000000000 65535 f 0000000012 00000 n 0000000184 00000 n 0000001672 00000 n 0000001888 00000 n 0000002185 00000 n 0000002569 00000 n 0000002992 00000 n 0000003218 00000 n

  • 電子書籍・電子雑誌の4レベルの表現方法 | 電子書籍メディア論 第18回 | Weekly eBook Strategy

    このレポートは、EPUBで配信されたものです。今回は、ブログ転載ワークフローのテストを兼ねて実験的に公開しています 取材した情報をインフォグラフィック化し、EPUBファイルにマージするテストを兼ねていますので、今回は写真等を挿入していません 参考:配信されたEPUBファイルをiTunes以外で開く方法(iOS, Android) . スマートデバイスでブログを閲覧する場合: スマートデバイス等でブログの可読性を向上させるため、Readabilityを設定しています。[ http://rdd.me/nr3chrrk ]をクリックし、表示されるブログの上部バーの「Readability view」をクリックしてください . 電子書籍・電子雑誌の4レベルの表現方法 読者が電子書籍・電子雑誌に求めるエクスペリエンスはさまざまです。デバイスのスクリーンに最適化された電子書籍を望む読者だけではなく、雑

    電子書籍・電子雑誌の4レベルの表現方法 | 電子書籍メディア論 第18回 | Weekly eBook Strategy
  • はじめてのReVIEW〜InDesignへの取り込み - 名もないテクノ手

    たいへん遅ればせながらReVIEWを導入しました。著者や編集者が簡易に編集可能なReVIEW記法*1を基に、XHTMLやEPUB、XML、TeXPDFなどを自動生成するフレームワークです。 昨年発行された『電子書籍で生き残る技術−紙との差、規格の差を乗り越える−』を読んでからReVIEWに大きな関心を持ちました。先月、海上忍さんのコラム「1つのソースでEPUBとPDFを生成できる「ReVIEW」を試す」を拝見して、ヤラねば! と思いつつずっと宿題だったんです。先日たまたま「ReVIEW の使い方 - A Day in Serenity @ Kenji」を読んでようやく重い腰をあげることとなりました。<重すぎるだろ... でだ。「ReVIEWクイックスタートガイド」と前述のリンクなどを参考にしてちょろっとやってみたら、簡単すぎて拍子抜けしました。もう、書くことない。 (インストール上で注意

    はじめてのReVIEW〜InDesignへの取り込み - 名もないテクノ手