この時期だからこそ自学しよう 海外って太っ腹な組織が多いのか、無料で読める専門書がすごく多い。 これ系のまとめ記事は他にもありますが、 翻訳済の日本の本と、原著を並べて表示していきたいと思います。 特にデータサイエンス分野に限って紹介。 お高いあの名著も実は原著なら無料かも? (2020年5月時点) 続編、データサイエンスの名大学講座 を書きました (2020年8月) 1冊目 邦題 : 統計的学習の基礎(1万5千円) 俗に言う「カステラ本」です。 日本では2014年に翻訳されましたが、原著は2001年と今から約20年前に出版されました。 内容からしても、当時は体系的に理論学習ができる刷新的な一冊だったのでしょう。 まさに「アルゴリズム・理論の辞書」。 年代的に古い感じはしますが、基礎はいつだって大切です。 数字に強くないと絶対読み切れない。。。 原著 : The Elements of S
日本の名字上位10000姓が収録されています 名字が表示されない場合は、その名字が収録されていません。 別途製作することはいたしませんので、ご了承ください。 個人使用・企業内での使用はOKですが、商業使用(実際の印章の版下にして使用するような行為)は禁止します。 各種電子印鑑・電子署名サービスの印影として登録されることもお控えください。 A6横版のPDF認印と画像認印の2つのウィンドウが別々に開きます。ウインドウが重なっていますのでご注意下さい。 ブラウザの設定がポップアップブロックされている場合は、「Ctrl」を押しながら「作成」ボタンを押して下さい。 メニューから保存を選び、保存してください。画像はそのままワープロ文書などに貼り付けできますし、 アウトラインが綺麗なPDF認印はアクロバットのカスタムスタンプとしてご利用できます。 ※電子印鑑・電子署名ではありません 本サービスにおいて生
なお、C#にはiTextSharpという強力なPDF作成ライブラリがあります。しかし、無料バージョンのライセンスがAGPLであり、業務での運用に支障を来す場合があるので、ここではMITライセンスのPDFSharpを利用します。 使用フォント 日本語のフォントには、フリーの源真ゴシックを用います。源真ゴシックは「源ノ角ゴシック(AdobeがGoogleと共同開発したオープンソースの Pan-CJK フォントファミリー)」を日本語環境で使いやすいように改変したフォントです。実際とても使い勝手がよく、商用利用ができるので重宝します。詳細およびダウンロードは以下のサイトを参照してください。 源真ゴシック(げんしんゴシック) 上記のサイトからダウンロードした源真ゴシックには、数種類のフォントファイル(TTF形式)が含まれます。今回はそのなかから、GenShinGothic-Monospace-Med
おすすめのライブラリは? Pythonで日本語のPDFを取り扱う場合、 pdfminerというライブラリがおすすめです。 ただし、pdfminerには、様々なバージョンがあります。 pdfminer Python2のみ対応 最終更新は2014年 pdfminer3k Python3のみ対応 最終更新は2016年 pdfminer.six Python2,3対応 最終更新は2017年7月 pdfminerの中では、pdfminer.sixが最近まで更新されていて Python2と3どちらにも対応しているため 基本的には、pdfminer.sixを選択することになります。 日本語以外のpdfの取り扱いは、 PyPDF2というライブラリがメジャーです。 とはいえ、日本語以外のPDFをPythonで処理する機会は なかなか無いので今回は、割愛します。 pdfminer.sixをインストール pip
PDFのページ抜粋、結合、重ね合わせのようなPDFのページ操作ならば、PythonでPyPDF2を利用すれば簡単にプログラミングできます。例えば、フォルダ内のPDFを1つにまとめるプログラムなどがすぐに作れます。 しかし、PDFの中身のテキストをプログラムで読み取るのは大抵一筋縄ではいきません。日本語や帳票であればもっと難易度が上がります。 この方法ならどんなPDFでも大丈夫という決定版はありません。目的や原稿のPDFの状態により、適した方法を選択する必要があります。今回はその候補となる方法を紹介します。 本記事の目次 PyPDF2 pdfminer.six Apache Tika Tesseract OCR 最後に PyPDF2 PyPDF2 でもテキストを読み取れます。PyPDF2は以下のようにpipでインストールできます。 pip install PyPDF2 以下のようにextra
MarkdownをPDFに綺麗にいい感じに出力したい…!と探し回っていたところ、「md-to-pdf」が最も私の要件に合致したので使ってみました。 Markdown to PDF Markdownで書きたいけど、PDFで出力したい という機会はエンジニアはよく出くわすと思います。 「Markdown to PDF」といえばGitBook CLIが有名ですが、こちらはメンテナンスがストップされているため推奨されません(環境依存による不具合などが解決されない)。 GitBookほど多機能でなくても良いですが、綺麗にいい感じに出力したい…!と探し回っていたところ md-to-pdf が最も私の要件に合致したので使ってみました。 そんな私の要件はこちら。 CLIから出力したい ページ内リンクが作れる ページ分割ができる ページ数表示が簡単にできる 全体に対して簡単にテーマをCSSで適用できる いざ
表題をご覧になってデジャヴと思われた方は、よく読んでいただいている証拠です。 以前、PDFをページ単位に分割する方法をご紹介しましたが、今回は逆に、複数のPDFを1つのファイルに結合する方法です。 Macでは、複数のPDFを1つのファイルに自動で結合できます。仕掛けは簡単で、Automatorを使います。 Automatorを起動してワークフローを作成 結合したいファイルをドラッグアンドドロップ 「PDFページを結合」を追加 「Finder項目を開く」を追加 実行 保存 文字にすると面倒そうですが、簡単です。 以下、スクリーンショットを交えて説明します。 Automatorを起動 起動直後の画面で、左下の「新規書類」をクリックします。 ワークフローを選択します。 結合したいファイルをドラッグアンドドロップ 結合したいファイルを右のペインにドラッグアンドドロップすると、以下のようになります。
さて、試しに弊社、グラッドキューブの所在地である、大阪市のオープンデータから 『年次別に見た人口動態総覧(出生)実数・率(数値表+グラフ)』 https://data.city.osaka.lg.jp/data/dataset/data-0000277916-00004/resource/c54677b2-7181-4d24-8d55-b30310956959 http://www.city.osaka.lg.jp/kenko/cmsfiles/contents/0000277/277916/H27-02-01nenjitoukei_jinkou_02_syussei01.pdf を見てみましょう。1960年から2015年までの毎年の出生数、及び出生率を、大阪市、大阪府、全国と並べて表示されたものです。他のデータとの相関関係を調べたいのですが、 PDF 形式なのでこのままだと、手でコピペな
PDFからテキストを抽出するにはPDFを開いてコピペでもできるけれど、一度に大量のPDFを処理するとか、抽出したテキストでさらに何かの処理をしたいときなどは、やはりプログラムでやりたい。というわけで、Python3でPDFからテキストを抽出する方法を調べてみた。 見つけたのがPDFMinerというPDFの構造解析をするPythonライブラリ。これを使ってPDFからテキストを抽出できる。ただしPython2系用なので、Python3にはフォークバージョンのPDFMiner.sixを使う(Python3.4/3.5に対応)。PDFMiner.sixを使ってPDFからテキストを抽出するまでの手順をまとめた。 環境 Raspberry Pi 3 Model B $ cat /etc/redhat-release CentOS Linux release 7.3.1611 (Core) $ pyth
ここから特定の行(列)だけを抜き出してグラフにします。それで簡単な説明はあとでするとして、忘れないようにコードを書いておくことにします。 %matplotlib inline import numpy as np import matplotlib.pyplot as plt import pandas as pd import os df = pd.read_csv("/Users/yourname/Desktop/book.csv", encoding="UTF-8") plt.figure(figsize=(8, 6.5)) plt.rcParams["font.size"] = 22 plt.rcParams["xtick.labelsize"] = 12 plt.rcParams["ytick.labelsize"] = 15 plt.rcParams["legend.fonts
MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しました プログラマであれば普段からお世話になっているのがDiffコマンドではないでしょうか。しかし差分を表示したいニーズはプログラマに限らず存在するはずです。例えばオフィスファイルでも差分を出したいと思うことがあるはずです。 今回はdiff-pdf、PDFの差分表示を行ってくれるソフトウェアを紹介します。多くなってしまったPDFの整理に使えそうです。 diff-pdfの使い方 diff-pdfは2つのPDFファイルを指定して実行するだけです。そして、差分ファイルがPDFとして生成されるのがユニークです。 こんな感じで文字がずれているところもすぐに分かります。 diff-pdfを使えば作った時期の異なる営業資料などを比較したり、請求書を比較することもできるでしょう。エンジニア以外でも使えるこ
PDFのファイル構造を理解すると、テキストエディタでも直接PDFファイルを作ることができるようになります。このエントリーではPDFファイルの基礎要素を説明し、簡単なPDFファイルを例にしてファイル構造を説明します。更に、テキストを渡すとPDFファイルを吐いてくれる簡単なプログラムや、PDFを読み込んで簡単な解析をするプログラムを書いてみます。 目次 目次 まえがき オブジェクト 間接参照 ファイル構造 Hello, world! ヘッダ トレーラ 相互参照テーブル 本体 PDFを生成するプログラム 日本語の扱い方 日本語を含むPDFを生成するプログラム グラフィックス PDFを読むプログラム あとがき まえがき 1990年代前半、アドビシステムズは、どのプラットフォームやデバイスでも文書を確実に表示・共有できることを目的としてPDFファイルフォーマットを開発しました。 PDFの表示ソフト
https://twitter.com/ccc_privacy_bot 作った経緯 Tカードが個人情報を提携企業に提供開始 個人情報提供の停止 手続きガイド|CCC カルチュア・コンビニエンス・クラブ株式会社 ツタヤTカード、勝手に個人情報を第三者へ提供?規約改定炎上騒動の真相 CCCに聞く | ビジネスジャーナル 個人情報提供の中止はいつでもできるが、「提供先企業は随時増える」「提供先企業が増えてもCCCからは通知は来ない」「新規企業は何もしないとデフォルトで個人情報提供する設定」というユーザフレンドリーじゃない仕様 毎日PDFをチェックしにいくほど暇じゃないのでボット作るか という感じ ボット自体は半月くらい前にはできてたのですが、2回目以降のCCCの更新が取得できるまで公開を控えていました。 【追記】「個人情報」について 語弊あったようなので捕捉 「個人情報」とは言っても、個人情報そ
WindowsでのTeX用仮想EPSプリンタの作成方法:TeX挿入用のEPSをWindows上で作成する方法の紹介です。 ExcelグラフをきれいにTeXからPDFへ入れ込む方法:vector_eps.pdfのようなExcelグラフ入りPDFの作成方法の紹介です。 PowerPoint図をきれいにTeXからPDFへ入れ込む方法:ve_pp_eps.pdfのようなPowerPoint図を入れ込んだPDFの作成方法の紹介です。 画像や写真をTeXからPDFへ入れ込む方法:picture_eps.pdfのような写真入りPDFの作成法の紹介です。 まずTeXをインストールします。次にWindowsでのTeX用仮想EPSプリンタの作成方法を参考に、EPSファイルを作るための仮想EPSプリンタを作成しておきます。 TeX(テフ)を知らない方は、MicrosoftのWordのような文章作成ソフトだと思っ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く