タグ

pythonに関するpaul_oguriのブックマーク (26)

  • スクレイピング時に本文だけを抽出する最高精度ツールが優秀!【日本語版も公開】 - Qiita

    n,pはそれぞれnegative(ノイズ),positive(文)を基準とした時の評価を表します。 例としてノイズ部分をN,文をPとし,正解をT(True)、間違いをF(False)とした時にPresicionはそれぞれ以下の式です。 $$ Presicion_{[n]} = \frac{TN}{TN + FN} $$ $$ Presicion_{[p]} = \frac{TP}{TP + FP} $$ nのf値はどれだけ正確にノイズを除去できているかを、pのf値はどれだけ正確に文を抽出できているかを評価していると考えればよいでしょう。 元のデータでの再現学習も問題無く行えました。また日語対応版もおおよそ元論文と同程度の精度が出ています。 要点2:軽量でCPUでも1ページ0.02s程度の時間で予測できる Core i7,8コアのCPU環境でも1ページ0.02s程度の時間で予測が可能

    スクレイピング時に本文だけを抽出する最高精度ツールが優秀!【日本語版も公開】 - Qiita
  • 【2021】モダンなPython開発環境の紹介 - Qiita

    📌 はじめに Pythonで開発を行うにあたり、リンタやフォーマッタ、パッケージマネージャ等のツールの選定は非常に重要な問題です。一方で歴史的な経緯もあり、沢山の選択肢から何を選ぶべきか情報がまとまっていないように感じました。この記事では2021年9月時点でモダンと言えるであろう開発環境を紹介します。基的にはシェアが高いこと、著名なパッケージで使用されていることを主な選定理由としており、また特定のエディタに依存しないことを前提とします。 記事で紹介する内容は一つのテンプレートに近く、必要に応じてカスタマイズするもよし、そのまま使ってもよし、として参考になればと思います。(CI/CDについてはPythonとは独立した問題なので触れません。またドキュメント生成はSphinxを推しますが、必須ではないので今回は割愛します。) 📄 要約 "モダン"な開発環境を箇条で列挙すると下記の通りです

    【2021】モダンなPython開発環境の紹介 - Qiita
  • Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python

    ■イベント 
:第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要 タイトル:Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者: 
技術部 DSOC R&D研究員  青見 樹 ▼Twitter https://twitter.com/SansanRandD

    Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python
  • PythonとWinRT OCRで文字認識 - Qiita

    import cv2 img = cv2.imread('test.jpg') (await winocr.recognize_cv2(img, 'ja')).text pip install jupyterlab jupyter_http_over_ws jupyter serverextension enable --py jupyter_http_over_ws jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com' --ip=0.0.0.0 --port=8888 --NotebookApp.port_retries=0

    PythonとWinRT OCRで文字認識 - Qiita
  • Python自然言語処理テクニック集【基礎編】

    自分がよく使用する日語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco

  • 入門 Python 3 第2版

    データサイエンスやウェブ開発、セキュリティなど、さまざまな分野で人気を獲得してきているPython書は、ベストセラー『入門 Python 3』の6年ぶりの改訂版で、プログラミング初級者を対象としたPythonの入門書です。プログラミングおよびPythonの基礎から、ウェブ、データベース、ネットワーク、並行処理といった応用まで、実践を見据えたPythonプログラミングをわかりやすく丁寧に説明します。Python 3.9に対応し、f文字列などの新機能も追加され大幅にボリュームアップしました。Pythonの機能をひと通り網羅し、リファレンスとしても便利です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ペ

    入門 Python 3 第2版
    paul_oguri
    paul_oguri 2021/03/23
    “ ”
  • Pythonで仕事をする人のための書籍まとめ2021 - 学習, 業務効率化, アプリ開発からデータサイエンスまで - Lean Baseball

    2020年も多くの素晴らしい技術書がたくさん出ました. その中でも(昨今のトレンド・流行りも手伝ってか)Pythonの多さ・充実度合いは目立つものがあります. (このエントリーを執筆した12/19時点で)Amazonカテゴリで「Python」と検索すると1,000件以上出てきます*1. これだと目的のにたどり着くだけで疲れそうです. このエントリーでは, 主にPythonを学びたい・現在使っている方 手元の業務を効率化したり, RPAっぽいことをやりたい方 エンジニア・データサイエンティストとして業務や趣味個人開発をされている方 を対象に, 今そして来年2021年に読んでおきたいPython関連書籍(と抑えておきたいサービス) をエンジニアでありデータサイエンティストである私独自の視点で紹介します*2. なおこのエントリーはこのブログで例年執筆している「Pythonまとめ」の2

    Pythonで仕事をする人のための書籍まとめ2021 - 学習, 業務効率化, アプリ開発からデータサイエンスまで - Lean Baseball
  • 時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ

    記事では、時系列予測に利用できるpythonのライブラリの使い方について説明をします。 パッとライブラリを使うことを目指すため具体的なアルゴリズムの説明は省きます。 ※説明が間違えている場合があればご指摘いただけると助かります。 目次 利用データ ライブラリ Prophet PyFlux Pyro Pytorch Lightgbm 補足:Darts まとめ ソースコード このブログで記載されているソースコードはGitHubに上げておいたのでもしよろしければ参考にしてください。 github.com 利用データ 今回用いるデータはkaggleのM5 Forecasting - Accuracyと呼ばれるコンペティションで利用されたデータを用います。 作成したランダムなデータよりも実データのほうが予測をしている感があるからです。 予測に使うデータはwalmartの売上データです。 下図はその

    時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ
  • ゼロからはじめるデータサイエンス 第2版

    書はPythonプログラミングを通してデータサイエンスの基知識を「ゼロから学ぶ」ことができる入門書です。読者は架空のソーシャルネットワーク運営企業、データサイエンス・スター社のデータサイエンティストとして、さまざまな課題を解決しながら、必要な知識とスキルを着実に積み上げていきます。第1版の発刊から5年。その間、データサイエンスへの注目はますます高まり、Pythonはバージョンアップが進み、ライブラリは一層充実しました。このような変化に伴い、内容を全面的にアップデートPythonプログラミングの基礎から線形代数、統計確率の基礎、回帰、機械学習、ナイーブベイズ、決定木、ニューラルネットワーク、ディープラーニング、自然言語処理、ネットワーク分析、リコメンドシステム、データベースとSQLMapReduce、データ倫理まで、データサイエンスに必要な幅広い知識をカバーします。 正誤表 ここで紹

    ゼロからはじめるデータサイエンス 第2版
  • GitHub - yoyoyo-yo/Gasyori100knock: image processing codes to understand algorithm

    A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

    GitHub - yoyoyo-yo/Gasyori100knock: image processing codes to understand algorithm
  • なぜPythonはこんなにも遅いのか? | POSTD

    (編注:2020/08/18、いただいたフィードバックをもとに記事を修正いたしました。) Pythonは高い人気を誇り、DevOps、データサイエンス、Web開発、セキュリティの分野で使われています。 しかし、速度に関しては高い評価が全くありません。 JavaとC、C++、C#、Pythonの速度を比べるには、どうしたらいいのでしょう? 答えは、実行するアプリケーションのタイプに大きく左右されます。完璧なベンチマークはありませんが、[手始めに比べる手段](https://algs4.cs.princeton.edu/faq/)としてはThe Computer Language Benchmarks Gameが適しています。 私は10年ほどthe Computer Language Benchmarks Gameを参照していますが、Java、C#、GoJavaScriptC++などの他言

    なぜPythonはこんなにも遅いのか? | POSTD
  • 実践 Deep Learning

    2000年代にニューラルネットワークの研究が再び活発になりました。現在、ディープラーニングは近代的な機械学習の道を切り開いている非常に活発な研究領域となっています。GoogleMicrosoft、Facebookなどの企業では、社内のディープラーニングチームが急成長しています。しかし、多くの人にとってディープラーニングはまだまだとても複雑で困難な課題です。書ではサンプルのPython 3プログラムと簡潔な説明を通してこの複雑な分野の主要な概念を紹介します。微積分、行列演算、Pythonの基礎があれば誰でも書を始めることができます。 監訳者まえがき まえがき 1章 ニューラルネットワーク 1.1 知的な機械を作るということ 1.2 従来のプログラムの限界 1.3 機械学習のしくみ 1.4 ニューロン 1.5 線形パーセプトロンをニューロンとして表現する 1.6 フィードフォワードニュー

    実践 Deep Learning
  • Pythonで日本語OCRを行うときのメモ - Qiita

    フリーのtesseractというOCRを使って、pythonで日語のOCRを行うまでに行った手順をまとめます。 環境 Ubuntu 14.04 Python 2.7 インストール tesseractをインストールします。 インストール方針 インストールの方法には、 1. apt-getでインストール 2. ソースからビルド、インストール の二つがあります。 1のapt-getでインストールできるバージョンは3.0.3です。 tesseractで日語を扱うには、日語で訓練されたデータ(jpn.traindata)が必要です。 これは自分でダウンロードしてくる必要があるのですが、ネット上で見つけられたものはver3.0.4のものだけです。3.03でこのデータを使おうとしても、うまくいかず、こんなエラーが出ます。 こちらのかたのように、traindataを編集して3.0.3で使うこともでき

    Pythonで日本語OCRを行うときのメモ - Qiita
  • Pythonの可視化ツールはHoloViewsが標準になるかもしれない - Qiita

    HoloViewsとは HoloViews は砕けた表現をすると、matplotlibやBokehなどの可視化ツールを使いやすくしたラッパです。 どのバックエンド(matplotlib, Bokehなど)を用いても統一されたコードかつ簡素な記述で可視化を実装することができます。 可視化にかかる学習コストは結構ばかにならないので、HoloViewsを使うことで「可視化のコードを書くことに時間を浪費するのではなく、来のデータ分析などの業務に集中しましょう」といった感じのコンセプトのようです。 特にmatplotlibのシンタックスは難解なものが多いので、「もう少しシンプルにならないの?」と思っている方は多いのではないでしょうか。 バックエンド 下記の可視化ツールがバックエンドとして使えます。 matplotlib Bokeh Plotly(experimental) インストール conda

    Pythonの可視化ツールはHoloViewsが標準になるかもしれない - Qiita
  • ディープラーニング実践入門 〜 Kerasライブラリで画像認識をはじめよう! - エンジニアHub|若手Webエンジニアのキャリアを考える!

    ディープラーニング実践入門 ~ Kerasライブラリで画像認識をはじめよう! ディープラーニング(深層学習)に興味あるけど「なかなか時間がなくて」という方のために、コードを動かしながら、さくっと試して感触をつかんでもらえるように、解説します。 はじめまして。宮優一と申します。 最近なにかと話題の多いディープラーニング(深層学習、deep learning)。エンジニアHubの読者の方でも、興味ある人は多いのではないでしょうか。 しかし、ディープラーニングについて周りのエンジニアに聞いてみると、 「なんか難しそう」 「なかなか時間がなくて、どこから始めれば良いかも分からない」 「一回試してみたんだけど、初心者向けチュートリアル(MNISTなど)を動かして挫折しちゃったんだよね」 という声が聞こえてきます。 そこで! この記事では、そうした方を対象に、ディープラーニングをさくっと試して感触を

    ディープラーニング実践入門 〜 Kerasライブラリで画像認識をはじめよう! - エンジニアHub|若手Webエンジニアのキャリアを考える!
  • Rubyist が pyenv を使うときに知っておいてほしいこと - Qiita

    はじめに 機械学習ブームなどにより、 Python を触り始める Rubyist が増えてきたと思います。その際に問題になりやすいのが環境構築です。Rubyだと rbenv がデファクトスタンダードになっているのに、なぜか Python には pyenv に否定的な意見が多いんですよね。 私は pyenv を使っていますし、便利だと思っています。また、 Ruby は殆ど使わないのですが、RubyPythonのツールスタックの違いについても調べました。 (参考: gem, bundler と pip, venv の比較) その視点から、 Rubyユーザーが自分でpyenvの使い方を自分で決める上で知っておいた方が良いだろうなと思う RubyPython の環境の違いをまとめてみます。 tl;dr 丁寧に解説しても、「Python使うにはこんな長い記事を読まないといけないの」とすぐに否

    Rubyist が pyenv を使うときに知っておいてほしいこと - Qiita
  • 写真共有SNSのユーザーの性別を機械学習で推定するWebアプリケーションをPythonで作ってみよう

    機械学習(ほぼ)初心者が、Webアプリケーションを作ったキッカケ 記事では、機械学習の(ほぼ)初心者である筆者が、TIS株式会社の5daysインターンシップ「機械学習を用いたWebアプリケーション開発」に参加した際に開発したWebアプリケーションについて紹介します。筆者は、学部で情報工学の基礎を学び、現在は都内国立大学大学院に通う大学院生です。これまでにWebアプリケーションの開発経験はなく、機械学習も「なんとなくイメージはできる」程度の理解でした。今回は、開発にPythonを用いました。Pythonの使用経験は2年弱でしたが、機械学習を実装するのは初めてでした。 開発したアプリケーションのソースコードは、GitHubで公開していますので適宜参照してください。 5daysインターンシップとテーマ設定 今回のインターンシップでは、機械学習技術を活用したWebアプリケーションを開発するという

    写真共有SNSのユーザーの性別を機械学習で推定するWebアプリケーションをPythonで作ってみよう
  • Think Stats 第2版

    「プログラミングのスキルを統計の理解に役立てよう」というコンセプトで人気を博した第1版に大幅な加筆を行い、全面的に書き換えた改訂版です。数学的な観点から語られることが多い統計について、計算処理の観点から説明。実際にPythonのコードを示し、実データを分析しながら統計の基礎を解説しています。実際に手を動かしながら統計が学べる、という第1版の長所はそのままに、Anaconda、pandas、IPython Notebookといったツールやライブラリを使った統計手法を示すほか、仮説検定、回帰、時系列分析、生存分析などについて新たな章を追加し内容を充実させました。例題、演習問題をGitHubに掲載。プログラマのための統計入門の決定版です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月で

    Think Stats 第2版
  • RubyとPythonにおけるガベージコレクションの視覚化 | POSTD

    稿は、ブダペストで開かれたイベント「 RuPy 」で、Pat Shaughnessyが披露したプレゼンの内容をまとめたものです。 プレゼンの映像はここ から視聴できます。 稿は当初、 同氏の個人ブログ に投稿されましたが、同氏の了承を得て、Codeshipに再掲載します。 このイベントは「RubyPython」に関するカンファレンスなので、RubyPythonでは、ガベージコレクション(以下「GC」)の動作がどう違うのかを比較すると面白いだろうと私は思いました。 ただしその題に入る前に、そもそもなぜ、GCを取り上げるのかについてお話しします。正直言って、すごく魅力的な、わくわくするテーマではないですよね? 皆さんの中でGCと聞いて、心がときめいた方はいらっしゃいますか? [実はこのカンファレンス出席者の中で、ここで手を挙げた人は数名いました!] Rubyコミュニティで最近、Rub

    RubyとPythonにおけるガベージコレクションの視覚化 | POSTD
  • RubyとPythonの違いからガベージコレクタを理解する - ワザノバ | wazanova.jp

    http://patshaughnessy.net/2013/10/24/visualizing-garbage-collection-in-ruby-and-python Pat Shaughnessyが、ブタペストで開催されたRUPY2013でのプレゼンの前半を自らのブログで紹介しています。 ガベージコレクタは、「ゴミを集める」という行為だけでなく、「新しいオブジェクトのためにメモリをあてがう。」「不要なオブジェクトを見つける」「不要なオブジェクトからメモリを取り戻す。」という、人間の心臓が血液を浄化するような働きをしている。 この簡単なコードサンプルを見ると、RubyPythonの記述はよく似ているが、それぞれの言語の内部でのインプリの仕組みは違う。 1) Rubyのメモリ Rubyは、コードが実行される前に、数千のオブジェクトを先につくり、それをリンクされたfree listに置