import torch x = torch.tensor([1., -1.]) w = torch.tensor([1.0, 0.5], requires_grad=True) loss = -torch.dot(x, w).sigmoid().log() loss.backward() print(loss.item()) print(w.grad)
「Python」と「Google Colaboratory」で株価データ分析に挑戦:「Python」×「株価データ」で学ぶデータ分析のいろは(1) 日々変動する株価データを題材にPythonにおけるデータ分析のいろはを学んでいく本連載。第1回はPythonを実行する環境とデータの前準備について。 はじめに 連載第1回は「Google Colaboratory」でサンプルプログラムを実行するための環境を用意する方法や利用するPythonのライブラリを説明します。「Google Chrome」と「Googleアカウント」を用意して読み進めてください。 なお、連載の趣旨がデータ分析であるため、Pythonの言語仕様や文法の詳細を割愛する場合があることをご了承ください。 Google Colaboratoryの準備 Google Colaboratoryとは、Googleが提供するブラウザ上でPy
こんにちは。たかぱい(@takapy0210)です。 本日は自然言語の可視化を手軽にできるようにしたパッケージnlplotをPyPIに公開したので、これのご紹介です。 nlplotとは? nlplotで何ができるか 使い方 使用データ 事前準備 ストップワードの計算 N-gram bar chart N-gram tree Map Histogram of the word count wordcloud co-occurrence networks sunburst chart まとめ nlplotとは? 自然言語の基本的な可視化を手軽にできるようにしたパッケージです。 現在は日本語と英語で動作確認済みです。 基本的な描画はplotlyを用いているため、notebook上からインタラクティブにグラフを操作することができます。 github.com (スター★お待ちしております🙇♂️)
はじめに 連載第1回「『Python』と『Google Colaboratory』で株価データ分析に挑戦」では株価データを取得して簡単なグラフで確認しました。連載第2回では、ライブラリを用いて取得した株価データをさまざまな種類のチャートで表示して分析します。 連載の趣旨がデータ分析である以上、Python自体の言語仕様や文法に関しては詳しい説明を割愛する場合があることをご了承ください。また株価分析に関する用語に関しても、分析の手法が分かる程度の説明にとどめていることをご了承ください。 サンプルの実行方法 サンプルファイルを実行する場合は、サンプルファイルのリンクを開いた後に、メニューの「ファイル」から「ドライブにコピーを保存」を選択して保存したコピーを「Google Colaboratory」で実行してください。 Pythonライブラリのインストール Pythonでは外部ライブラリをインス
連載目次 Python/Rコードの実行や機械学習/データサイエンスの実装を無料でオンライン実行できる環境といえば、Google Colaboratory(略してColab)が特に有名である。2021年12月1日、そのColabに強力なライバルが現れた。「Amazon SageMaker Studio Lab」(アマゾン・セージメーカー・スタジオ・ラボ)だ*1。 *1 日本語では「ラボ」だが、英語では「ラブ(Lab)」と発音するのが普通。「スタジオ」は英語では「ステューディオ(Studio)」。「セージ(Sage)」とは、ハーブや花の名前ではなく「学び経験を積んだ賢者(Wise old man、例えばハリー・ポッターのダンブルドア校長は魔法の賢者)」のことで、賢者は「機械学習モデル」を暗喩すると思われるが、一説にはマーケティング目的で独自用語にするためにランダムな単語生成で命名されたという噂
初心者向けTellus学習コース 本教材は2020年度に提供した教材のため、Tellusの画面やAPIが現在の仕様と異なっている部分がありますのでご注意ください。 2018年度にリリースした衛星データをクラウド上で分析できる日本発の衛星データプラットフォーム「Tellus」は、2019年度にTellusをより多くの方にご活用いただけるようeラーニング講座を応募者への抽選登録制で提供してまいりましたが、2020年3月から、プログラミングと機械学習の基礎が学習できる「Tellus Trainer」と「初心者向け Tellus 学習コース」の2つのeラーニング講座を公開制限なしで提供することとなりました。 本教材「Tellus初心者向け学習コース」では、Python初心者向け教材となる基礎編と、Pythonで学ぶ実践的な衛星データ解析となる地理空間情報解析編(応用編)に分かれます。 基礎編では、
プログラミング演習 Python 2021 コラム編 京都大学 国際高等教育院 喜多 一 京都大学 情報環境機構 森村吉貴 京都大学 高等教育研究開発推進センター 岡本雅子 Version 2021/10/08 目次 Next Chapter Table of Contents 2 目次 目次 2 0. コラム 0 始まり ........................................................................................................4 0.1 Python は 0 ではじまる .................................................................................. 4 0.2 1 始まりではいけないのか .......
PDFのページ抜粋、結合、重ね合わせのようなPDFのページ操作ならば、PythonでPyPDF2を利用すれば簡単にプログラミングできます。例えば、フォルダ内のPDFを1つにまとめるプログラムなどがすぐに作れます。 しかし、PDFの中身のテキストをプログラムで読み取るのは大抵一筋縄ではいきません。日本語や帳票であればもっと難易度が上がります。 この方法ならどんなPDFでも大丈夫という決定版はありません。目的や原稿のPDFの状態により、適した方法を選択する必要があります。今回はその候補となる方法を紹介します。 本記事の目次 PyPDF2 pdfminer.six Apache Tika Tesseract OCR 最後に PyPDF2 PyPDF2 でもテキストを読み取れます。PyPDF2は以下のようにpipでインストールできます。 pip install PyPDF2 以下のようにextra
R&D チームの徳田(@dakuton)です。 前回、2値化画像処理の論文(+実装)について紹介しましたが、今回はこういった2値化の応用例としてExcalibur(PDFからテーブルデータを抽出するためのWeb UIベースのツール)を紹介します。 本記事はOPTiM TECH BLOG Advent Calendar 2020 12/7 の記事としてお送りします。 前回記事はこちら。 tech-blog.optim.co.jp 動かしてみる インストール # https://camelot-py.readthedocs.io/en/master/user/install-deps.html#macos] brew install ghostscript tcl-tk pip install excalibur-py excalibur initdb 実行結果 今回もこちら(Rustの全マク
TensorFlow(主に2.0以降)とそれに統合されたKerasを使って、機械学習・ディープラーニングのモデル(ネットワーク)を構築し、訓練(学習)・評価・予測(推論)を行う基本的な流れを説明する。 公式ドキュメント(チュートリアルとAPIリファレンス) TensorFlow 2.0(TF2)でモデルを構築する3つの方法 データの読み込み(MNIST手書き数字データ) Sequential APIによるモデルの構築 訓練(学習)プロセスの設定: Model.compile() 訓練の実行: Model.fit() 学習済みモデルの評価: Model.evaluate() 学習済みモデルを使った予測(推論): Model.predict() 学習済みモデルの保存と復元: Model.save() Functional APIによるモデル構築 Subclassing API(Model Su
Tesseract とは? Tesseract は、オープンソースの OCR エンジンです。 「OCR」とは、画像ファイル中の文字を、テキストファイルとして読み込む技術のことです。 Tesseract は、コマンドラインのインターフェースを実装しているため、パソコンへインストールするだけで、OCR ができます。 Tesseract と Python で画像処理するメリットは? Tesseract を Python と組み合わせて利用すれば、画像を前処理してから Tesseract へ渡すことができます。 これにより、OCR の精度が向上し、Tesseract が読み取った文字列を任意の形に処理できます。 例えば、紙に印刷された文書も、Tesseract を利用すれば、テキストデータとして保管できるのです。 さて、今回は、Tesseractを使って、画像処理でOCRを試してみたいと思います!
きっかけ 現在、SEOライティングツールを開発する株式会社EXIDEAで、データ分析のインターンをしています。勤め始めて4ヶ月経ちましたが、コロナの影響で社内の方とまだ一度も面識がありません。が、定期的なオンライン飲み会やデイリーミーティングでどういった特徴を持った方が多いのか?ようやくわかってきました。また、最近の月次ミーティングで「採用」という言葉をよく耳にします。ベンチャー企業に限らず、Wantedlyを利用して採用活動に力を入れている企業は多いのではないでしょうか?この記事では、Wantedlyに投稿したストーリー記事を自然言語の可視化を手軽にできるようにしたパッケージnlplotを使用して、応募者に伝えたい企業特徴や想いを再認識しようというストーリーになります。 Githubにソースコードを公開していますので、よかったらどうぞ。 https://github.com/yuuuus
Pythonスキーマバリデーションライブラリ比較 (pydantic, marshmallow, attrs, cerberus) ウェブ API の作成など、外部からやってくるデータを安全に捌く上で、スキーマ定義とバリデーションは非常に重要です。 また、特に Python のような動的型付け言語において、内部でもレイヤをまたぐ場合はきちんと定義されたデータモデルを利用することで、知らない間にデータモデルが変わっていた、というようなケースを防ぐことができます。 Python には標準でスキーマバリデーションライブラリがないため 3rd パーティのものを使うことになりますが、様々なライブラリがあるので比較してみました。 比較対象のライブラリ概要※Python バージョンは 3.9.0 を利用します。 lib versionGithub Star (202
DSOC サービス開発部 GEES/JES/COEグループの松本です。 最近はコロナの影響で巣ごもりをしており、家の庭で芝生を育てています。 色々と手抜きをしてしまったがために生え揃いがまばらで、かわいい反面、芝生の上を裸足で歩けるようになるにはまだまだ時間がかかりそうです。気長に待ってみようと思います。 今日はSansanの機能の一つである、人事異動ニュースを支えるデータ化の取り組みについてご紹介したいと思います。 JES とは Sansanの機能の中に、人事異動ニュースと呼ばれる機能があります。 sin.sansan.com これは、所有する名刺に紐づく人物の人事異動が公開されたときにそれをニュースとして配信し、交換前に所有名刺の情報を最新情報に更新できるという機能です。 ニュースとして提供するために人事異動情報のデータ化を行っていますが、そのシステムがJESと呼ばれるもので、DSOC
機械学習やDeep Learningで日々腕を磨いている皆さん、一度は競馬やFXの予測で儲けてみたいと思った事はありませんか? 競馬やFXを機械学習やDeep Learningのモデルで予測してみることは非常にいい勉強・経験になるのでオススメです。 この投稿ではPyhonでFXの自動売買を動かすのに最適なOanda APIについて紹介したいと思います。 Oanda APIとは Oandaという会社が提供しているFXの自動売買のためのAPIです。 個人でも利用できるAPIを提供している会社は少ないのですが、OandaはpythonからAPIを利用するためのパッケージ(oandapyV20)も存在しており、pythonユーザにとっては非常に使い易いサービスとなっています。 APIを利用するには、Oanda社で口座を登録して、APIのためのトークンを発行してもらう必要があります。 デモ環境であれ
はじめに GoogleのVision APIを使用してレシートのOCRをしてみました。 言語はPython、環境はGoogle Colaboratoryを使用しています。 実装 入力画像 OCRする画像を表示してみます。 import cv2 import matplotlib.pyplot as plt %matplotlib inline import matplotlib img = cv2.imread(input_file) # input_fileは画像のパス plt.figure(figsize=[10,10]) plt.axis('off') plt.imshow(img[:,:,::-1])
pip を使用して TensorFlow をインストールする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 このガイドは、TensorFlow の最新の安定バージョンを対象としています。プレビュー ビルド(夜間)の場合は、 tf-nightlyという名前の pip パッケージを使用します。古い TensorFlow バージョンの要件については、これらの表を参照してください。 CPU のみのビルドの場合は、 tensorflow-cpuという名前の pip パッケージを使用します。 インストール コマンドのクイック バージョンを次に示します。下にスクロールすると、詳しい手順が表示されます。 Linux python3 -m pip install tensorflow[and-cuda] # Verify the installation: python3
tesseractの学習方法であるScratch TrainingとFine Trainingの手順をまとめました。 以下の公式ページを参考にして書いてます。英語が得意な方はこちらにもお目通しを。(Tesseractバージョン4についての記事ですが、バージョン5でもほぼ同じ手順で学習が可能なことを確認できています。またバージョン5用にコマンドを少し変更しないといけない箇所も存在しますが、本記事内に記載しているのでご安心ください。) https://tesseract-ocr.github.io/tessdoc/tess4/TrainingTesseract-4.00.html tesseract5では画像と正解となるテキストデータでの学習手順が追加されています。本記事で紹介しているのはテキストとフォントデータからの学習方法ですが、画像とテキストでの学習方法も知りたいという方は以下リポジトリ
検索速度を得るために、証券コード(scode)と日付(tday)にインディクスを張る。 株価データは、例えば下記のサイトよりダウンロードする。 http://souba-data.com/ ダウンロードした株価のZIPファイルを解凍して、CSVファイルの中から証券コード、終値を読込んでSQLiteに保存するサンプルコードを記載する。 def data_dl(): conn = sqlite3.connect("chart.db"); c = conn.cursor() d = datetime.datetime.today(); for i in range(0,365): d = datetime.datetime.today() - datetime.timedelta(days=i); zip_path = "data\\T%s.zip" % (d.strftime("%y%m%d"
はじめに 以前、JupyterLab App で手軽にPython環境を構築する方法を記事にしました。 今回は、Docker と VSCode を使ったPython環境の構築を試します。 それぞれを用いる動機は次の通りです。 Docker: Macシステムと独立してPython環境を構築したい。複数の環境を使い分けたい。 VSCode: 優れたエディタや強力なデバッグ機能を使いたい。 インストール Docker 公式サイトから、Docker Desktop を入手します。M1 Mac の場合は、Mac with Apple chip からダウンロードします。 Rosetta2 (Intel用コードの変換ツール) をインストールします。[1] 下記コマンドをターミナルで実行すると、SLAに合意するか聞かれるので、Aを入力します。 Install of Rosetta 2 finished s
AI・機械学習・ディープラーニングを始めるが、プログラミングについてまったく初めての人に向けて、その作業環境の選択指針やお薦めの「Jupyter Notebook」のオンライン版「Google Colaboratory」の基本的な使い方を分かりやすく紹介する連載。 ディープラーニングを始めるための、作業環境の特長と使い分け指針(2018/12/07) はじめに 【これを学ぼう】作業環境の準備 読者対象 学習内容 機械学習/ディープラーニングの作業環境 PyCharm Visual Studio Code Jupyter Notebook Project Jupyterとは? 無償で使えるJupyter Notebookオンライン環境 Google Colaboratory(Jupyter Notebook)の準備と、ノートブックの作成(2018/12/10) Google Colabora
pdfのデータからepubを作成することを調べていて、pythonのライブラリで比較的簡単にpdfからテキストは抽出できる とアドバイスをもらったので実際にやってみようと思います。 PyPDF2 pdfminer.six この2つがメジャーなようです。 PyPDF2は日本語に対応しておらず、pdfminer.sixは日本語もOKなようですね。 PyPDF2 インストール pipを使ってインストールできます。 pip install PyPDF2 読み込んでみる 2019-11-Chaos_Engineering_Whitepaper のpdfを使用してみます。、 ローカルPCにダウンロードし、以下のコードを実行してみます。 from PyPDF2 import PdfFileReader with open("2019-11-Chaos_Engineering_Whitepaper.pdf
PDFに含まれるすべての画像を抽出する方法です。Python3.6+。Windowsで動かしましたがLinux等でも可能だと思います。 01. 環境 pyMuPDFというライブラリを以下のコマンドで入れます: pyMuPDF は import fitz でインポートできるライブラリです。PDFだけでなくEPUBなども読めます。公式ドキュメントはここ で PyPIの統計情報 を見ると2021/May が最新更新でGithubでは900を超えるスターが付いてます。Python3.6+で動作します。私はWindows上で動かしています。 02. 基本となる考え方 いくつか知っておくべき項目を列挙します。 PDFに入っている画像形式は不定です。どの形式の画像を入れるかはPDF作成者が決められます。jpgやpngが多いですが JPEG 2000(拡張子:jpx) が使われることもあります。 画像抽出
概要 背景 目指すところ 筆者の開発環境 OCR環境を整えてSplatoon2のフォントを学習する TesseractとPyOCR環境のインストール 学習用ツールjTessBoxEditorのインストール Splatoon2のフォントをDLしてくる Splatoon2のフォントを学習する 学習の実行 結果だけ欲しい人用 OpenCVとPILを用いてOCR結果を表示 PyOCRのimage_to_stringでOCRする PyOCRの検出結果を描画する OpenCV画像に日本語テキストを書き込む これらの機能のまとめ その他コツ 適用結果とその比較 スペシャル情報 試合時間・カウント ルール名・タイトル おわりに TODO 超余談:Gistにバイナリを上げる方法 概要 Splatoon2の録画の動画からカウントや時間,スペシャルなどの情報を抽出するためにOCRを行う コンテンツ Tesser
はじめに 今回はちょっと寄り道してFlaskでグラフを表示してみます。本当はグラフのアニメーションを作りたかったのですが諦めました。あとで調べたところ、JavaScriptを使ったほうが簡単できれいに出来るみたいだったのでそちらも作成してみました。 動作環境 Windows10 Python 3.7.5 Flask 1.1.1 コード test.py from flask import Flask, render_template, make_response from io import BytesIO import urllib from matplotlib.backends.backend_agg import FigureCanvasAgg from matplotlib.figure import Figure import matplotlib.pyplot as plt i
メイン コンテンツにスキップキーボード ショートカットユーザー補助に関するフィードバックドライブNew! キーボード ショートカット … ドライブのキーボード ショートカットが更新され、頭文字検索が利用できるようになりましたショートカットを表示バナーを閉じる名前オーナー最終更新ファイルサイズ その他の並べ替えオプションフォルダnotebookオーナーは非公開です2021/08/29—ダウンロードファイルDay1.pdfオーナーは非公開です2021/08/298.8 MB詳細(Alt+→)Day2.pdfオーナーは非公開です2021/08/294.7 MB詳細(Alt+→)Day3.pdfオーナーは非公開です2021/08/296.2 MB詳細(Alt+→)予稿.pdfオーナーは非公開です2022/08/28504 KB詳細(Alt+→)このフォルダにはファイルがありません。このフォルダにフ
動機 免許証の情報を写真から読み取りたい! 画像処理を楽しみたい! 概要 免許証と同じサイズのカード(nanacoカード)の輪郭を OpenCV で検出し、射影変換することでカードの内容が読みやすいようにしました OCRで内容を読み取る準備ができました(内容の読み取りは次の記事で紹介予定) OCRまでやらないので、サイズが同じnanacoカードで今回は代用 斜め上から撮ったカードを... → こんな感じで角度を補正してカードを表示できるようになりました → 他の類似記事との差別化ポイント カード検出のための二値化の閾値を動的に決定するロジックを入れています (精度がほんの少し良いように見えます) ここはちゃんと検証していないのでお気持ちレベルです。 想定読者 OpenCV で輪郭検出(エッジ検出)してみたい人 写真からカードの情報を読み取りたい人 作業手順 環境構築 二値化 1 輪郭抽出
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く