サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
衆院選
gammasoft.jp
ブログ 電子公文書の XML と XSL を Python で1つのHTMLに変換する方法 [PR] 2022/10/31 2022/11/21 | DX Python Pythonで業務自動化 今回は「社会保険の算定基礎届の電子通知書」にも利用されている電子公文書のXMLとXSLをPythonでHTML形式に変換する方法を説明します。 最近は社会保険の算定基礎届を電子申請にしている企業も多いと思いますが、申請時に「紙の通知書を希望する」にチェックしていないと電子通知書だけが発行されます。電子通知書は8月ごろになると「電子公文書」としてe-Gov電子申請 のアプリケーションを利用して自分でダウンロードできます。 弊社も遅ればせながら今年から電子申請してみましたが、ダウンロードした通知書のZIPファイルを展開してみると、PDFがあるかと思ったら、予想外の「XML + XSL」でした。 Int
ブログ Stable Diffusion を Google Colab でシンプルに体験する方法 [PR] 2022/9/30 2023/12/26 | Google Colab Stable Diffusion 機械学習 画像生成AI 「言葉で欲しい絵を伝えれば、AIが描いてくれる」、まさに夢のようなAIが近年注目されています。その代表的なAIの一つである「Stable Diffusion(ステーブル・ディフュージョン)」が2022年8月22日にパブリックリリース されました。たちまちすごい人気となっています。 今回はPythonユーザー向けにこの Stable Diffusion を Google Colab で体験する方法を紹介します。AI や Google Colab がはじめてでもチャレンジできるように、手順を一つひとつ丁寧に説明していますので、ぜひこの機会に体験してみてください
ブログ USBメモリがあればどこでも使えるPython + JupyterLab環境の作り方 [PR] 2021/3/1 2023/4/3 | Jupyter Python開発環境 しばしばプログラミングに立ちはだかる壁が「環境に関する問題」です。 コードを書きたいのに、環境にばかり時間をとられてしまう。インストールした当初は問題がなかったのに、いつの間にかいろいろと支障が生じてきた。…こんな環境にまつわる悩みは、多くの方が経験したことがあるはずです。 Pythonの場合、そんな悩みの解決策の1つが「Google Colaboratory(略称: Colab)」を使うことです。Googleがクラウド上に準備してくれている環境なので、自分で構築したりメンテナンスする必要がありません。Googleアカウントがあれば、ブラウザですぐに無料で利用できて非常に便利ですが、どうしてもデータはクラウドに
お役立ちサポート Pythonで文字列を int( ) で変換するときにエラーになるケースと解決方法 [PR] 2021/8/6 2021/8/17 | Python エラー Pythonではint()やfloat()を用いることで「数値の文字列」を数値のデータ(int型やfloat型)に変換できます。 float()は実数を対象としていますが、int()は整数に限定されるので、思わぬところでエラーに遭遇することがあります。今回はそのようなint()でエラーになるケースについて考えます。 int()はPythonの組み込み関数 であり、以下のように「整数の文字列」を引数に指定すると「int型のデータ」に変換できます。 >>> int("123") 123 >>> type(int("123")) <class 'int'> 整数の文字列は全角文字で入力しても、以下のように変換してくれます。
「openpyxl」はExcelの標準規格でファイルを読み書きするためのライブラリ 拡張子が.xlsxの現在のExcelファイルは、「Office Open XML」というECMAやISO/IECで標準化された規格で作成されています。つまり、この規格に従えば、Excelファイルを読み書きできます。 「openpyxl」は、このOffice Open XMLのフォーマットでファイルを読み書きするためのライブラリです。だから、罫線、フォント、背景色などの書式も含めて、Excelファイルをそのまま読み書きできます(ただし、すべての書式などの編集まではカバーしていません)。 Excelファイルをopenpyxlで読み込むと、以下のようにブック、ワークシート、セルに対応したオブジェクトが割り当てられるので、対応するオブジェクトにアクセスして情報の読み書きを行います。 openpyxlはあくまでもEx
ダウンロードに失敗した時の症状 接続自体ができない 回線が繋がらない等の理由で、インターネット回線を介して相手のWebサーバーに接続できない場合は、以下のように複数のエラーが発生します。 >>> import requests >>> r = requests.get("https://httpbin.org/html")Traceback (most recent call last): (中略) socket.gaierror: [Errno 11001] getaddrinfo failed During handling of the above exception, another exception occurred: Traceback (most recent call last): (中略) urllib3.exceptions.NewConnectionError: :
お役立ちサポート python-docxによるWordファイル操作方法のまとめ [PR] 2020/9/21 2021/12/10 | python-docx Python講座 ワード Pythonでは、外部ライブラリのpython-docxを利用すると、Word文書(docxファイル)を操作できます。python-docxを使うことで、Wordを開かないでテキストを読み取ったり、編集するプログラムをPythonで作成できます。 今回はすぐ参考にできるように使い方の要点だけをまとめてみました。ぜひ日頃のプログラミングにご活用ください。 本記事の目次 python-docxのインストール方法 Word文書を開く、保存する方法 Word文書の読み込み Word文書の新規作成 Word文書の保存 Word文書の構成 段落(Paragraph)の操作 すべての段落からテキストを取得する 特定の段落
プログラムに文字列のクォートの閉じ忘れのような「構文エラー(SyntaxError)」があるとPythonはすぐさまエラーを表示します。 一方、構文エラーを修正し、無事プログラムを実行できても、予想外のデータが入力されたりすると今度は「例外(Exception)」発生をエラーで通知します。例外とはプログラム実行時に生じた想定外の「例外」です。例えば、文字列を入力すべき箇所に数値が入力された、読み込むファイルがない、などの「例外」が検知されるとエラーで教えてくれます。 このようにPythonでは構文エラーと例外発生時にエラーを表示します。 エラーの対策は必須ですが、その前にまず原因を把握する必要があります。講座のなかでも適時説明しましたが、今回「見方とよくあるエラー」をまとめましたので、参考にしてください。 構文エラー、例外、バグは区別してください 構文エラーがあるとプログラムを実行できませ
ブログ pip install を手動でローカルにダウンロードしたファイルで行う方法 [PR] 2020/10/4 2020/10/5 | pip Python 通常pip install ライブラリ名を実行すれば、自動でインターネットを通じて必要なファイルをダウンロードしインストールしてくれます。しかし、何らかの原因でpipのコマンドからインターネットに接続できない場合は、再接続を数回試みたあとにエラーになってしまいます。 よくある原因がプロキシサーバーによる制限です。その場合は、プロキシサーバーを通過できるように設定すればライブラリのインストールは成功します。 しかし、他の問題でpipのコマンドではダウンロードできない場合は、ブラウザで1つずつファイルをダウンロードしてからインストールする方法もあります。今回はその方法を説明します。 他のネット環境の確保も難しく、現状でいろいろ試しても
お役立ちサポート Pythonプログラム用にTkinterで画面(GUI)を作成する方法 [PR] 2019/7/20 2021/11/11 | GUI作成 Python基本後 Python講座 Tkinter Pythonの処理部分のコードだけをあげるよりも、画面(GUI)のコードも一緒に付けてあげれば、もらった相手は使い勝手が良くなりなります。特に入出力ファイルをエクスプローラーのような画面で選択できるとかなり便利になります。そこで、今回は簡単な題材を用いて画面(GUI)の作成方法を説明します。イメージとしては、エクセルVBAのユーザーフォームに相当する画面です。 幸いPythonには、標準ライブラリにTkinterというGUIを作成するためのツールキットが組み込まれています。基本的なツールが一通り揃っているので、すぐにプログラミングできます。 Tkinterは最初は分かりにくく感じる
openpyxlモジュールを用いて、ワークシートの特定のセル範囲のデータを読み取るには、範囲の「左上と右下のセル番号」を指定します。 例えば、以下のようは「C2:H12の範囲」を1行ずつ読み取るには、シートの変数がwsならばws["C2:H12"]を for文でループすれば簡単に処理できます。 単に読み取って表示するだけなら、Pythonのコードは以下のようになります。 # xlrange-iter.py import openpyxl wb = openpyxl.load_workbook("company_members_range_test.xlsx") ws = wb.worksheets[0] for row in ws["C2:H12"]: values = [] for col in row: values.append(col.value) print(values) #
ブログ サーバーレス + Pythonで定期的にスクレイピングを行う方法 [PR] 2019/12/13 2019/12/25 | Python Webスクレイピング サーバーレス メール 目の前のパソコンではなく、サーバーを用いればプログラムを24時間体制で動かすことができます。Pythonで仕事を自動化するには様々な事例が考えられますが、さらに応用範囲が広がります。 そのためにはサーバーを準備する必要がありますが、ビジネスパーソンに現実的ではありません。 しかし、サーバーレスを利用すればその必要がなくなります。Pythonのコードをクラウドサービスに登録するだけで、クラウド上でプログラムを稼働できます。 例えば、特定のWebページを定期的にチェックしたり、クラウドストレージに追加されたファイルを即時に変換するなど、自分のパソコンを起動しないで実行できます。 今回はサーバーレスがどのよう
Pythonでは、外部ライブラリのopenpyxlを利用すると、Excelファイル(*.xlsx)の読み書きやシート操作がきます。今回はプログラミング中に使い方をすぐ調べられるように簡単なコードだけでシンプルにまとめてみました。ぜひ日頃のプログラミングにご活用ください! 本記事の目次 openpyxlのインストール方法 Excelファイル(ワークブック) Excelファイルの読み込み Excelファイルの新規作成 Excelファイルの保存 ワークシート シートの取得 シート名の確認・変更 シートの追加 シートのコピー シートの削除 セル セルの取得 1つのセル 複数のセル:範囲指定 複数のセル:行指定 セルのアドレスの確認 セルの値の読み書き セルの書式設定 繰り返し処理 1シートずつ繰り返す 1行ずつ繰り返す 1行目から1行ずつ 範囲を指定して1行ずつ 応用例 openpyxlのインスト
「どうもPythonの調子が悪いので、再インストールして初期状態に戻したい」ということはごく稀にあります。 Pythonも一般的なアプリと同様に「Windowsの設定」からアンインストールできますが、関連するファイルが一部残ってしまいます。特にpip関連の不具合で再インストールしたい場合は、この残存するファイルが支障となることがあります。 そこで、今回はWindowsにインストールしたPythonを完全にアンインストールする方法をご紹介します。作業は以下の順序で実施します。 アンインストールの実行 関連フォルダを手動で削除 環境変数PathからPythonフォルダを削除(インストール時に設定した場合のみ) 今回は「Windows10にインストールしたPython3.8(32-bit版)」を例に以下で説明します。 1. アンインストールの実行 Pythonをアンインストールするには、Wind
ブログ PythonでPDFを画像ファイル(JPEG、PNG)に変換する方法 [PR] 2020/1/7 | OCR PDF Python 今回はPDFを画像ファイル(JPEG、PNG)にPythonで変換する方法をご紹介します。 PDFを画像ファイルに変換するには、通常は有料のAdobe® Acrobat®などのソフトを用いますが、Pythonなら無料で入手できるライブラリで実施できます。 PythonでPDFを画像に変換できれば、PDFの書類をOCRで文字認識したり、多量のPDFファイルをプレビューしやすくするなど、PDFをもっと効率化に利用できるようになります。 本記事の目次 pdf2imageのインストール popplerのダウンロード プロジェクトフォルダ構成 プログラミング(JPEG、PNGへの変換) マルチページのTIFFに変換したい場合 様々に応用できます pdf2imag
ブログ NumPy、pandas、Matplotlib をpipでインストールする方法 [PR] 2019/7/24 2020/10/20 | Matplotlib Python データサイエンス Pythonでデータ分析を行うのに欠かせないのが、NumPy、pandas、Matplotlibの3つのライブラリです。今回はこの3つをpipでインストールする方法を紹介します。 以前は、この3つをWindowsマシンにインストールするのは大変でした。カリフォルニア大学のチームが公開しているバイナリパッケージ のお陰で何とかなっていました。またはAnaconda の導入を検討していました。 しかし、近年PyPIでの配布形式が改善され、全く苦労しないでpipでインストールできるようになりました。これでAnacondaに頼らないで済めば、pipだけでパッケージを管理できます。 そこで、今回はAnac
ブログ Tesseract OCR をWindowsにインストールする方法 [PR] 2019/10/28 2020/1/7 | OCR 業務効率化 OCRをPythonで操作できれば大量の紙資料の読み取りも自動化できます。特に郵便番号や請求書番号など定型書類の番号を読み取る作業は代表的な活用例です。 普段のオフィスワークではOCRソフトウェアを用いるのが一般的です。しかし、こららのソフトウェアはPythonから操作できません。そこで、OCRエンジンのみを利用してPythonから操作します。 代表的なOCRエンジンにGoogleがオープンソースで開発している「Tesseract 」があります。 今回はPythonでOCRを操作するための準備として、このTesseractをWindowsにインストールする手順を説明します。 本記事の目次 Tesseractのダウンロード Tesseractの
ブログ Matplotlibで簡単に日本語を表示する方法(Windows) [PR] 2019/7/10 2019/7/27 | Matplotlib Python Matplotlibで日本語を表示しようとすると以下のように文字化けしてしまいます。 >>> import matplotlib.pyplot as plt >>> x = [1, 2, 3, 4, 5] >>> y = [1, 4, 9, 16, 25] >>> plt.plot(x, y) >>> plt.title("二乗値のグラフ") >>> plt.show() いわゆる「豆腐文字」と呼ばれるものです。 文字化けすると、シェルには以下のような警告(Warning)が文字数の分だけ表示されます。 ..... Warning (from warnings module): File "C:\Users\Ichiro\Ap
はじめからパターンを決めている場合もあれば、コードを整備しながらパターンを変えることもあります。よくあるのが、即興でパターン1で書き、書き換えているうちにパターン2,3となり、他のスクリプトからも利用したくなりパターン4に改良した、というケースです。 どのパターンを採用するかは、状況により異なりますので、各パターンの特性を理解しておく必要があります。そこで、今回は各パターンの特徴や利点について以下で説明します。 本記事の目次 サンプルプログラム パターン1:逐次型 パターン2:関数+実行文 パターン3:main()関数 パターン4:インポート時の実行回避あり 最後に サンプルプログラム 具体的なプログラムがあった方がわかりやすいので、「JPEGファイルを更新年月日でフォルダに振り分けるプログラム」を例に用います。 このプログラムは、カレントディレクトリにあるJPEGファイルを、年月日名のフ
ブログ requestsで取得できないWebページをスクレイピングする方法 [PR] 2019/12/20 2020/10/7 | Python Webスクレイピング スクレイピングの定番の方法と言えば「requests + BeautifulSoup」の組み合わせです。一般的はWebページであれば、大抵はスクレイピングできます。 しかし、この方法で読み取れないWebページに遭遇することがあります。特にYahoo!やTwitterなど頻繁に更新されるサイトによくあります。 その原因は、「ダウンロードしたHTMLファイル」と「ブラウザに表示されるHTML」が異なるからです。そのため、requestsでサーバーから直接ダウンロードしたHTMLファイルをBeautifulSoupで解読してもブラウザで見ている内容と違うのでスクレイピングできません。 Yahoo! JAPANが運営しているYaho
パソコン操作を時短するには、まずは「マウスに触らないこと」です。つまり、キーボードで操作すれば、マウスに持ち替えてクリックしてという時間を省くことができます。 例えば、 コピー、ペースト、切り取りのCtrl + C、Ctrl + V、Ctrl + Xの基本操作だけでなく エクセルでも「行の挿入、削除」には Ctrl + +、Ctrl + -で操作できます。 その他にも多くのショートカットキーがあり、覚えればすぐに効果が出ます。しかし、もっと時短できる究極の方法があります。それは、「ソフトに触らないこと」です!? ソフトに触らないのだから、ソフトは起動しません。エクセルならば、エクセルを起動しないで、エクセルファイルを直接読み書きします。それを可能にするのがプログラミングです。 以下では、ついつい時間をかけてしまうプレゼン資料の作成を例にイメージしてみます。 プレゼン資料作成のパターン プレ
ブログ 「Pythonが動かない…」の簡単な解決方法(Windows) [PR] 2019/6/14 2020/10/7 | Python WindowsにPythonをインストールしたはずなのに、コマンドプロンプトにpythonと入力しても動かない。以下のように、「’python’ は、内部コマンドまたは外部コマンド、操作可能なプログラムまたはバッチ ファイルとして認識されていません。」と表示されてしまう。 原因は様々なサイトでも既に解説されている通り、Windowsの環境変数のPathにPythonの場所が追加されていない、つまりPathが通っていないからです。後からPathを追加するには、「システム詳細設定」の画面から手動で行うか、後述する方法でインストーラを再度実行します。 しかし、もっと簡単にPythonを動かす方法があります。おそらく、Pathを追加するよりもWindowsでは
ブログ Beautiful Soup のfind_all( ) と select( ) の使い方の違い [PR] 2019/10/17 2020/10/7 | Python Webスクレイピング PythonによるWebスクレイピングでは、requests と Beautiful Soup の2つのライブラリが定番です。requestsでHTMLをダウンロードし、Beautiful Soup で解析して情報を取り出します。 Beautiful Soup でHTMLの中からHTML要素を取得するには「find系」(find_all()、find())と「select系」(select()、select_one())という2タイプのメソッドを用います。 機能は2つとも同じであり、検索条件に合うHTML要素を返します。 異なるのは「検索条件の指定方法」です。例えば、href属性が”sample.
PyOCRのインストール TesseractをインストールしておけばコマンドからOCRを実行できる状態になりますが、Pythonのライブラリから操作するとさらに使いやすくなります。 ここでは、PyPIで公開されている 「PyOCR」というライブラリを利用します。インストールは以下のようにpipで簡単にインストールできます。 > py -m pip install pyocr # または環境に応じて以下のコマンドを用いる > python -m pip install pyocr > python3 -m pip install pyocr PyOCRをインストールすると画像処理を行える「Pillow」というライブラリも一緒にインストールされます。 OCRを行うサンプル画像 Tesseractの確認テストでは背景がないシンプルな画像を使いましたが、ここでは背景に模様がある画像を用います。OC
WindowsにPythonをインストールすると、デフォルトのインストール先は以下のようにユーザーディレクトリ内のAppData¥Local¥Programs¥Pythonの中になります。 「AppDataフォルダ」は隠しフォルダなので、普段はあまり目にしない場所です。そのため、少々戸惑うこともあると思います。 そもそも「AppDataフォルダ」とは何のための場所なのでしょうか。どうして、普通のWindowsアプリケーションと同じく、「C:¥Program Files(または、C:¥Program Files (x86))」にインストールしないのでしょうか。今回はそんな素朴な疑問を考えてみます。 本記事の目次 インストール場所の確認方法 AppDataフォルダとは AppDataフォルダの構成 Program Filesか、AppDataか Program Filesへのインストール方法
PDFのページ抜粋、結合、重ね合わせのようなPDFのページ操作ならば、PythonでPyPDF2を利用すれば簡単にプログラミングできます。例えば、フォルダ内のPDFを1つにまとめるプログラムなどがすぐに作れます。 しかし、PDFの中身のテキストをプログラムで読み取るのは大抵一筋縄ではいきません。日本語や帳票であればもっと難易度が上がります。 この方法ならどんなPDFでも大丈夫という決定版はありません。目的や原稿のPDFの状態により、適した方法を選択する必要があります。今回はその候補となる方法を紹介します。 本記事の目次 PyPDF2 pdfminer.six Apache Tika Tesseract OCR 最後に PyPDF2 PyPDF2 でもテキストを読み取れます。PyPDF2は以下のようにpipでインストールできます。 pip install PyPDF2 以下のようにextra
お役立ちサポート pip installでエラーになりインストールできない場合(Windows) [PR] 2019/2/18 2020/10/20 | pip Python講座 エラー Pythonでは、ExcelやPDFのファイルを扱うのに、PyPIで公開されている外部ライブラリを使用します。インストールは、Pythonに同梱されているpipを用います。 例えば、Excelファイルを読み書きできるライブラリ「openpyxl」をインストールするには、以下のようにコマンドプロンプトでpip installを実行すれば、通常は問題なくインストールできます。 C:¥Users¥Taro> py -m pip install openpyxl
2017/5/22 2024/3/28 Pythonはいま大ブレイクのプログラミング言語です。その背景には人工知能ブーム、それを支えるディープラーニングのほとんどがPythonで動かしていることにあります。ですが・・・ Pythonは人工知能だけでなく、じつは日常の業務処理に最適なのです。 例えば、エクセルのCSVファイルを読み書きするためのツール(モジュールといいます)も最初から入っています。さらに、xlsxファイルを読み書きするためのモジュールをインストールすれば、エクセルファイルをプログラムから編集できます。 その他にも、PDF、ウェブ解析、画像、メールなど多種多様なモジュールが10万以上も公開されており、簡単にインストールできます。それらを活用すれば、大抵の処理が可能になります。 開発環境もシンプルなものが最初からインストールされるので、すぐにプログラミングを始めることができます。
Webスクレイピングでは、HTMLファイルをダウンロードし、そこからHTML要素を検索して情報を取得します。HTML要素を検索するには「CSSセレクタ」という表記方法を用います。 CSSセレクタは簡潔に記述できるので、ざっくりと要素を取り出して、後はPythonで細かな処理をすると簡単にスクレイピングをプログラミングできます。 本来、CSSセレクタはWebページのスタイルを指定するのに用いられます。デザインに用いるには、使い方に熟練を要しますが、スクレイピングでは先ほどのようにざっくりと検索できれば良いので、基本的な使い方を理解していれば大丈夫です。 そこで、今回はWebスクレイピングで「これだけ覚えておけば普通は不自由しないCSSセレクタの基本」をまとめました。ぜひ参考にしてください。 CSSセレクタ or XPath 要素を検索するにはXPathと呼ばれる言語を使うこともできますが、C
次のページ
このページを最初にブックマークしてみませんか?
『gammasoft.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く