[B! python] paul_oguriのブックマーク

スクレイピング時に本文だけを抽出する最高精度ツールが優秀！【日本語版も公開】 - Qiita

n,pはそれぞれnegative(ノイズ),positive(本文)を基準とした時の評価を表します。例としてノイズ部分をN,本文をPとし,正解をT(True)、間違いをF(False)とした時にPresicionはそれぞれ以下の式です。 $$ Presicion_{[n]} = \frac{TN}{TN + FN} $$ $$ Presicion_{[p]} = \frac{TP}{TP + FP} $$ nのf値はどれだけ正確にノイズを除去できているかを、pのf値はどれだけ正確に本文を抽出できているかを評価していると考えればよいでしょう。元のデータでの再現学習も問題無く行えました。また日本語対応版もおおよそ元論文と同程度の精度が出ています。要点2:軽量でCPUでも1ページ0.02s程度の時間で予測できる Core i7,8コアのCPU環境でも1ページ0.02s程度の時間で予測が可能

paul_oguri 2022/08/04

リンク

【2021】モダンなPython開発環境の紹介 - Qiita

📌 はじめに Pythonで開発を行うにあたり、リンタやフォーマッタ、パッケージマネージャ等のツールの選定は非常に重要な問題です。一方で歴史的な経緯もあり、沢山の選択肢から何を選ぶべきか情報がまとまっていないように感じました。この記事では2021年9月時点でモダンと言えるであろう開発環境を紹介します。基本的にはシェアが高いこと、著名なパッケージで使用されていることを主な選定理由としており、また特定のエディタに依存しないことを前提とします。本記事で紹介する内容は一つのテンプレートに近く、必要に応じてカスタマイズするもよし、そのまま使ってもよし、として参考になればと思います。(CI/CDについてはPythonとは独立した問題なので触れません。またドキュメント生成はSphinxを推しますが、必須ではないので今回は割愛します。) 📄 要約 "モダン"な開発環境を箇条で列挙すると下記の通りです

paul_oguri 2021/09/29

python

リンク

Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python

■イベント  ：第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要タイトル：Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者：  技術本部 DSOC R&D研究員　青見樹 ▼Twitter https://twitter.com/SansanRandD

paul_oguri 2021/09/26

pdf
python

リンク

PythonとWinRT OCRで文字認識 - Qiita

import cv2 img = cv2.imread('test.jpg') (await winocr.recognize_cv2(img, 'ja')).text pip install jupyterlab jupyter_http_over_ws jupyter serverextension enable --py jupyter_http_over_ws jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com' --ip=0.0.0.0 --port=8888 --NotebookApp.port_retries=0

paul_oguri 2021/06/05

ocr
python

リンク

Python自然言語処理テクニック集【基礎編】

自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。環境はPython3系、Google Colaboratory（Ubuntu）で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。機械学習、ディープラーニングは出てきません！テキストデータの前処理が中心です。前処理系大文字小文字日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角日本語だとこちらのほうが大事。全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco

paul_oguri 2021/03/29

リンク

入門 Python 3 第2版

データサイエンスやウェブ開発、セキュリティなど、さまざまな分野で人気を獲得してきているPython。本書は、ベストセラー『入門 Python 3』の6年ぶりの改訂版で、プログラミング初級者を対象としたPythonの入門書です。プログラミングおよびPythonの基礎から、ウェブ、データベース、ネットワーク、並行処理といった応用まで、実践を見据えたPythonプログラミングをわかりやすく丁寧に説明します。Python 3.9に対応し、f文字列などの新機能も追加され大幅にボリュームアップしました。Pythonの機能をひと通り網羅し、リファレンスとしても便利です。正誤表ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ペ

paul_oguri 2021/03/23

“ ”

リンク

Pythonで仕事をする人のための書籍まとめ2021 - 学習, 業務効率化, アプリ開発からデータサイエンスまで - Lean Baseball

2020年も多くの素晴らしい技術書がたくさん出ました. その中でも（昨今のトレンド・流行りも手伝ってか）Python 本の多さ・充実度合いは目立つものがあります. （このエントリーを執筆した12/19時点で）Amazonの本カテゴリで「Python」と検索すると1,000件以上出てきます*1. これだと目的の本にたどり着くだけで疲れそうです. このエントリーでは, 主にPythonを学びたい・現在使っている方手元の業務を効率化したり, RPAっぽいことをやりたい方エンジニア・データサイエンティストとして業務や趣味・個人開発をされている方を対象に, 今そして来年2021年に読んでおきたいPython関連書籍（と抑えておきたいサービス）をエンジニアでありデータサイエンティストである私独自の視点で紹介します*2. なおこのエントリーはこのブログで例年執筆している「Python 本まとめ」の2

paul_oguri 2020/12/23

リンク

時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ

本記事では、時系列予測に利用できるpythonのライブラリの使い方について説明をします。パッとライブラリを使うことを目指すため具体的なアルゴリズムの説明は省きます。 ※説明が間違えている場合があればご指摘いただけると助かります。目次利用データライブラリ Prophet PyFlux Pyro Pytorch Lightgbm 補足:Darts まとめソースコードこのブログで記載されているソースコードはGitHubに上げておいたのでもしよろしければ参考にしてください。 github.com 利用データ今回用いるデータはkaggleのM5 Forecasting - Accuracyと呼ばれるコンペティションで利用されたデータを用います。作成したランダムなデータよりも実データのほうが予測をしている感があるからです。予測に使うデータはwalmartの売上データです。下図はその

paul_oguri 2020/07/20

リンク

ゼロからはじめるデータサイエンス第2版

本書はPythonプログラミングを通してデータサイエンスの基本知識を「ゼロから学ぶ」ことができる入門書です。読者は架空のソーシャルネットワーク運営企業、データサイエンス・スター社のデータサイエンティストとして、さまざまな課題を解決しながら、必要な知識とスキルを着実に積み上げていきます。第1版の発刊から5年。その間、データサイエンスへの注目はますます高まり、Pythonはバージョンアップが進み、ライブラリは一層充実しました。このような変化に伴い、内容を全面的にアップデート。Pythonプログラミングの基礎から線形代数、統計確率の基礎、回帰、機械学習、ナイーブベイズ、決定木、ニューラルネットワーク、ディープラーニング、自然言語処理、ネットワーク分析、リコメンドシステム、データベースとSQL、MapReduce、データ倫理まで、データサイエンスに必要な幅広い知識をカバーします。正誤表ここで紹

paul_oguri 2020/05/01

リンク

GitHub - yoyoyo-yo/Gasyori100knock: image processing codes to understand algorithm

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

paul_oguri 2019/01/10

リンク

なぜPythonはこんなにも遅いのか？ | POSTD

(編注：2020/08/18、いただいたフィードバックをもとに記事を修正いたしました。) Pythonは高い人気を誇り、DevOps、データサイエンス、Web開発、セキュリティの分野で使われています。しかし、速度に関しては高い評価が全くありません。 JavaとC、C++、C#、Pythonの速度を比べるには、どうしたらいいのでしょう？　答えは、実行するアプリケーションのタイプに大きく左右されます。完璧なベンチマークはありませんが、[手始めに比べる手段](https://algs4.cs.princeton.edu/faq/)としてはThe Computer Language Benchmarks Gameが適しています。私は10年ほどthe Computer Language Benchmarks Gameを参照していますが、Java、C#、Go、JavaScript、C++などの他言

paul_oguri 2018/10/12

python

リンク

実践 Deep Learning

2000年代にニューラルネットワークの研究が再び活発になりました。現在、ディープラーニングは近代的な機械学習の道を切り開いている非常に活発な研究領域となっています。Google、Microsoft、Facebookなどの企業では、社内のディープラーニングチームが急成長しています。しかし、多くの人にとってディープラーニングはまだまだとても複雑で困難な課題です。本書ではサンプルのPython 3プログラムと簡潔な説明を通してこの複雑な分野の主要な概念を紹介します。微積分、行列演算、Pythonの基礎があれば誰でも本書を始めることができます。監訳者まえがきまえがき 1章　ニューラルネットワーク 1.1　知的な機械を作るということ 1.2　従来のプログラムの限界 1.3　機械学習のしくみ 1.4　ニューロン 1.5　線形パーセプトロンをニューロンとして表現する 1.6　フィードフォワードニュー

paul_oguri 2018/04/13

リンク

Pythonで日本語OCRを行うときのメモ - Qiita

フリーのtesseractというOCRを使って、pythonで日本語のOCRを行うまでに行った手順をまとめます。環境 Ubuntu 14.04 Python 2.7 インストール tesseractをインストールします。インストール方針インストールの方法には、 1. apt-getでインストール 2. ソースからビルド、インストールの二つがあります。 1のapt-getでインストールできるバージョンは3.0.3です。 tesseractで日本語を扱うには、日本語で訓練されたデータ(jpn.traindata)が必要です。これは自分でダウンロードしてくる必要があるのですが、ネット上で見つけられたものはver3.0.4のものだけです。3.03でこのデータを使おうとしても、うまくいかず、こんなエラーが出ます。こちらのかたのように、traindataを編集して3.0.3で使うこともでき

paul_oguri 2018/04/05

リンク

Pythonの可視化ツールはHoloViewsが標準になるかもしれない - Qiita

HoloViewsとは HoloViews は砕けた表現をすると、matplotlibやBokehなどの可視化ツールを使いやすくしたラッパです。どのバックエンド(matplotlib, Bokehなど)を用いても統一されたコードかつ簡素な記述で可視化を実装することができます。可視化にかかる学習コストは結構ばかにならないので、HoloViewsを使うことで「可視化のコードを書くことに時間を浪費するのではなく、本来のデータ分析などの業務に集中しましょう」といった感じのコンセプトのようです。特にmatplotlibのシンタックスは難解なものが多いので、「もう少しシンプルにならないの？」と思っている方は多いのではないでしょうか。バックエンド下記の可視化ツールがバックエンドとして使えます。 matplotlib Bokeh Plotly(experimental) インストール conda

paul_oguri 2017/07/30

リンク

ディープラーニング実践入門〜 Kerasライブラリで画像認識をはじめよう！ - エンジニアHub｜若手Webエンジニアのキャリアを考える！

ディープラーニング実践入門～ Kerasライブラリで画像認識をはじめよう！ディープラーニング（深層学習）に興味あるけど「なかなか時間がなくて」という方のために、コードを動かしながら、さくっと試して感触をつかんでもらえるように、解説します。はじめまして。宮本優一と申します。最近なにかと話題の多いディープラーニング（深層学習、deep learning）。エンジニアHubの読者の方でも、興味ある人は多いのではないでしょうか。しかし、ディープラーニングについて周りのエンジニアに聞いてみると、「なんか難しそう」「なかなか時間がなくて、どこから始めれば良いかも分からない」「一回試してみたんだけど、初心者向けチュートリアル（MNISTなど）を動かして挫折しちゃったんだよね」という声が聞こえてきます。そこで！この記事では、そうした方を対象に、ディープラーニングをさくっと試して感触を

paul_oguri 2017/05/29

リンク

Rubyist が pyenv を使うときに知っておいてほしいこと - Qiita

はじめに機械学習ブームなどにより、 Python を触り始める Rubyist が増えてきたと思います。その際に問題になりやすいのが環境構築です。Rubyだと rbenv がデファクトスタンダードになっているのに、なぜか Python には pyenv に否定的な意見が多いんですよね。私は pyenv を使っていますし、便利だと思っています。また、 Ruby は殆ど使わないのですが、RubyとPythonのツールスタックの違いについても調べました。 (参考: gem, bundler と pip, venv の比較) その視点から、 Rubyユーザーが自分でpyenvの使い方を自分で決める上で知っておいた方が良いだろうなと思う Ruby と Python の環境の違いをまとめてみます。 tl;dr 丁寧に解説しても、「Python使うにはこんな長い記事を読まないといけないの」とすぐに否

paul_oguri 2017/05/19

python

リンク

写真共有SNSのユーザーの性別を機械学習で推定するWebアプリケーションをPythonで作ってみよう

機械学習（ほぼ）初心者が、Webアプリケーションを作ったキッカケ本記事では、機械学習の（ほぼ）初心者である筆者が、TIS株式会社の5daysインターンシップ「機械学習を用いたWebアプリケーション開発」に参加した際に開発したWebアプリケーションについて紹介します。筆者は、学部で情報工学の基礎を学び、現在は都内国立大学大学院に通う大学院生です。これまでにWebアプリケーションの開発経験はなく、機械学習も「なんとなくイメージはできる」程度の理解でした。今回は、開発にPythonを用いました。Pythonの使用経験は2年弱でしたが、機械学習を実装するのは初めてでした。開発したアプリケーションのソースコードは、GitHubで公開していますので適宜参照してください。 5daysインターンシップとテーマ設定今回のインターンシップでは、機械学習技術を活用したWebアプリケーションを開発するという

paul_oguri 2015/10/02

リンク

Think Stats 第2版

「プログラミングのスキルを統計の理解に役立てよう」というコンセプトで人気を博した第1版に大幅な加筆を行い、全面的に書き換えた改訂版です。数学的な観点から語られることが多い統計について、計算処理の観点から説明。実際にPythonのコードを示し、実データを分析しながら統計の基礎を解説しています。実際に手を動かしながら統計が学べる、という第1版の長所はそのままに、Anaconda、pandas、IPython Notebookといったツールやライブラリを使った統計手法を示すほか、仮説検定、回帰、時系列分析、生存分析などについて新たな章を追加し内容を充実させました。例題、演習問題をGitHubに掲載。プログラマのための統計入門の決定版です。正誤表ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月で

paul_oguri 2015/10/02

リンク

RubyとPythonにおけるガベージコレクションの視覚化 | POSTD

本稿は、ブダペストで開かれたイベント「 RuPy 」で、Pat Shaughnessyが披露したプレゼンの内容をまとめたものです。プレゼンの映像はここから視聴できます。本稿は当初、同氏の個人ブログに投稿されましたが、同氏の了承を得て、Codeshipに再掲載します。このイベントは「RubyとPython」に関するカンファレンスなので、RubyとPythonでは、ガベージコレクション（以下「GC」）の動作がどう違うのかを比較すると面白いだろうと私は思いました。ただしその本題に入る前に、そもそもなぜ、GCを取り上げるのかについてお話しします。正直言って、すごく魅力的な、わくわくするテーマではないですよね？　皆さんの中でGCと聞いて、心がときめいた方はいらっしゃいますか？　［実はこのカンファレンス出席者の中で、ここで手を挙げた人は数名いました！］ Rubyコミュニティで最近、Rub

paul_oguri 2015/08/06

リンク

RubyとPythonの違いからガベージコレクタを理解する - ワザノバ | wazanova.jp

http://patshaughnessy.net/2013/10/24/visualizing-garbage-collection-in-ruby-and-python Pat Shaughnessyが、ブタペストで開催されたRUPY2013でのプレゼンの前半を自らのブログで紹介しています。ガベージコレクタは、「ゴミを集める」という行為だけでなく、「新しいオブジェクトのためにメモリをあてがう。」「不要なオブジェクトを見つける」「不要なオブジェクトからメモリを取り戻す。」という、人間の心臓が血液を浄化するような働きをしている。この簡単なコードサンプルを見ると、RubyとPythonの記述はよく似ているが、それぞれの言語の内部でのインプリの仕組みは違う。 1) Rubyのメモリ Rubyは、コードが実行される前に、数千のオブジェクトを先につくり、それをリンクされたfree listに置

paul_oguri 2013/10/29

リンク

はてなブックマーク

タグ

関連タグで絞り込む (28)

pythonに関するpaul_oguriのブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2024年4月第3週）

今週のはてなブックマーク数ランキング（2024年4月第2週）

今週のはてなブックマーク数ランキング（2024年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス