タグ

soulja_boyのブックマーク (16,985)

  • Installing PyMuPDF on MacOS Big Sur

    soulja_boy
    soulja_boy 2022/03/18
    [Work - Python]
  • 【Python】nlplotで企業特徴を把握できたら最&高じゃないですか? - Qiita

    きっかけ 現在、SEOライティングツールを開発する株式会社EXIDEAで、データ分析のインターンをしています。勤め始めて4ヶ月経ちましたが、コロナの影響で社内の方とまだ一度も面識がありません。が、定期的なオンライン飲み会やデイリーミーティングでどういった特徴を持った方が多いのか?ようやくわかってきました。また、最近の月次ミーティングで「採用」という言葉をよく耳にします。ベンチャー企業に限らず、Wantedlyを利用して採用活動に力を入れている企業は多いのではないでしょうか?この記事では、Wantedlyに投稿したストーリー記事を自然言語の可視化を手軽にできるようにしたパッケージnlplotを使用して、応募者に伝えたい企業特徴や想いを再認識しようというストーリーになります。 Githubにソースコードを公開していますので、よかったらどうぞ。 https://github.com/yuuuus

    【Python】nlplotで企業特徴を把握できたら最&高じゃないですか? - Qiita
  • 気になるある人の過去ツイートを収集・可視化してみる【twint,nlplot】 - Qiita

    0.はじめに 今回は言語処理活用の第1歩としてnlplotというライブラリを使用して、自分の過去ツイートをワードクラウドで可視化してみます。簡単かつ綺麗に色々表現できますので、ぜひ試してみてください。 (気になるあの人のツイート内容を解析してみても楽しい・・・かも!) 動作環境 OS : Windows10 pro(64bit) Python : 3.8.3// Miniconda 4.9.1 MeCab : 0.996 NEologd (mecab-ipadic-neologd) nlplot : 1.4.0 jupyter notebook 1.導入 nlplot(自然言語分析ライブラリ) pip install nlplotで導入できます twint(ツイート取得ライブラリ) pip install --user --upgrade -e git+https://github.com

    気になるある人の過去ツイートを収集・可視化してみる【twint,nlplot】 - Qiita
  • 自然言語を可視化・分析できるライブラリ「nlplot」はすごいよ - Qiita

    2021/11/13:文抽出+ノイズ除去済の「学問ノススメ」 ← 必要な方はこちらをクリック はじめに 前回の記事では「TF-IDF」によるワードクラウド描画にチャレンジしましたが、思い通りにならなかった点(以下)がありましたので、再度チャレンジしました。 scikit-learnの「TfidfVectorizer」というライブラリがうまく使えなかった… nlplot(自然言語可視化・分析ライブラリ)もフルで試せなかった 実力不足のため、苦労しましたが、なんとか任意のテキストデータで「Word Cloud」、「nlplotによる各種可視化」、「(TfidfVectorizer)によるTF-IDF計算」、「TF-IDFによるWord Cloud」が実行できるようになったたので、備忘も兼ね、記事にしたものです。 実行条件など ・Google colabで実行 ・青空文庫の「学問ノススメ」で実

    自然言語を可視化・分析できるライブラリ「nlplot」はすごいよ - Qiita
  • nlplotを使って自然言語データを可視化してみた - Qiita

    製造業出身のデータサイエンティストがお送りする記事 今回は自然言語データの可視化にnlplotというライブラリーが良さそうでしたので試してみました。 はじめに 今までずっと構造化データを扱っておりましたが、非構造化データも扱えるようになりたいと思い、まずは自然言語データを対象に可視化から勉強してみました。 nlplotとは nlplotは基的には、自然言語(NLP)において基的な可視化を簡単にできるようにしたパッケージらしいです。 NLPにおいては、知識が無いので、詳しいことはnlplotのGithubを参考にご確認ください。 ブログの記事も見つけましたので、確認して頂けますと幸いです。 nlplotを使ってみる 今回、使用するデータはlivedoorニュースコーパスの「ldcc-20140209.tar.gz」を使います。 まず、データフレームを作成します。 import os fr

    nlplotを使って自然言語データを可視化してみた - Qiita
  • 自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました - ギークなエンジニアを目指す男

    こんにちは。たかぱい(@takapy0210)です。 日は自然言語の可視化を手軽にできるようにしたパッケージnlplotをPyPIに公開したので、これのご紹介です。 nlplotとは? nlplotで何ができるか 使い方 使用データ 事前準備 ストップワードの計算 N-gram bar chart N-gram tree Map Histogram of the word count wordcloud co-occurrence networks sunburst chart まとめ nlplotとは? 自然言語の基的な可視化を手軽にできるようにしたパッケージです。 現在は日語と英語で動作確認済みです。 基的な描画はplotlyを用いているため、notebook上からインタラクティブにグラフを操作することができます。 github.com (スター★お待ちしております🙇‍♂️)

    自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました - ギークなエンジニアを目指す男
  • pdfplumberでPDFからCSVに変換 - Qiita

    pdfplumber camelotで点線を実線として処理する(ハフ変換) https://qiita.com/barobaro/items/af850ac29dbc983eb39b こちらでもcamelotは実線以外の表の抽出が苦手 pdfplumberだと簡単に抽出できるみたい 変換できなかった Go To EAT事業公式サイト 滋賀県 労働基準関係法令違反に係る公表事案 文字が認識しない、camelotだと抽出可能 変換できた 電話や情報通信機器を用いて診療を実施する医療機関の一覧 電話や情報通信機器を用いて診療を実施する医療機関の一覧(兵庫県) wget https://www.mhlw.go.jp/content/000691131.pdf -O data.pdf pip install pdfplumber import pdfplumber import pandas as

    pdfplumberでPDFからCSVに変換 - Qiita
  • PDFMiner

    Python PDF parser and analyzer Homepage Recent Changes PDFMiner API What's It? Download Where to Ask How to Install CJK languages support Command Line Tools pdf2txt.py dumppdf.py PDFMiner API Changes TODO Related Projects Terms and Conditions What's It? PDFMiner is a tool for extracting information from PDF documents. Unlike other PDF-related tools, it focuses entirely on getting and analyzing tex

    soulja_boy
    soulja_boy 2022/03/18
    pdf2txt.pyのオプション設定項目情報
  • PythonでPDFからテキストを抽出する方法

    0.English sample Extract text from PDF using Python. https://github.com/patch0000/Python3-PDF2TXT-sample 1.pythonPDFからテキストを抽出する方法まとめ ・PythonでクロールしたPDFファイルからpdfminerでテキストを抽出する方法 ・PDFPage.create_pagesとPDFPage.get_pagesを使う方法があるが汎用性を持たせられない ・PDFは文書によって構造が異なるのでサンプルを参考にしつつ構造決め打ちが楽かも 2.実行した事 Anaconda3-5.0.1-Windows-x86.exeをインストールして実行。 Pythonには環境構築ツールやパッケージ管理ツールが多数あり他にもっと良い方法があるかもしれないが、上記はnumpy,scipy,sci

    PythonでPDFからテキストを抽出する方法
  • M1 Mac への JDK のセットアップ | アールケー開発

    M1 MacFlutterをセットアップする FlutterをM1 Mac上で使おうとすると、少し前までは色々動かないという状況だったようですが、アップデートが進み、問題が少なくなったようです。 そこで、私もMacBook P… JDK いろいろあるけど Java Runtime のセットアップ、まずはダウンロードですが、気づけば JDK もいろいろあります。 flutter doctorには次のようなメッセージが表示されていました。 The operation couldn’t be completed. Unable to locate a Java Runtime. Please visit http://www.java.com for information on installing Java. 指定されたページからダウンロードできるのは、Oracle版のJavaです。この記

    M1 Mac への JDK のセットアップ | アールケー開発
  • PythonとOCRエンジンで画像から文字を認識する - Qiita

    目的 anacondaの仮想環境内でtesseractとPyOCRを使い、画像から文字を認識できるようにします。 今回は画像の文字を認識し、ターミナルへ出力できるところまでの行います。 こんな感じ↓ 環境 python 3.6 tesseract 4.1.1 PyOCR 0.8 手順 ツールのインストール anacondaの仮想環境に下記2つをインストールします。 ・文字認識のためのOCRエンジンであるTesseract OCRをインストール https://anaconda.org/conda-forge/tesseract

    PythonとOCRエンジンで画像から文字を認識する - Qiita
  • 確率微分方程式 - Wikipedia

    確率微分方程式(かくりつびぶんほうていしき、英: Stochastic differential equation)とは、1つ以上の項が確率過程である微分方程式であって、その結果、解自身も確率過程となるものである。一般的に、確率微分方程式はブラウン運動(ウィーナー過程)から派生すると考えられる白色雑音を組み込むが、不連続過程の様な他の無作為変動を用いることも可能である。 背景[編集] 確率微分方程式は、ブラウン運動を記述したアインシュタインの有名な論文、および同時期にスモルコフスキーにより導入された。しかし、バシュリエ(1900年)の論文「投機の理論」は、ブラウン運動に関連した初期の業績として特筆すべきである。その後、ランジュバンに引き継がれ、後に伊藤とストラトノビッチが確率微分方程式に数学的基礎付けを行った。 確率解析[編集] ブラウン運動、あるいはウィーナー過程は、数学的には極めて複雑

    確率微分方程式 - Wikipedia
  • ウィーナー過程

    ウィーナー過程とは、ブラウン運動が作りだす確率過程です。原資産の動きの予測モデルには、一般化したウィーナー過程を利用しています。 ≪ウィーナー過程とブラウン運動≫ 1827年、イギリスの植物学者ロバート・ブラウンは、水に浮かべた花粉の微粒子が、まるで生き物のように震動していることに気付きました。この不思議な動きは時間とともに複雑性を増していきます。この粒子の運動過程をブラウン運動といいます。 ブラウン運動が作りだす確率過程のことをウィーナー過程といいます。確率過程とは、時間とともに推移する確率現象の数学的モデルのことで、確率とは、ある出来事が起こり得る可能性の度合いのことをいいます。 ≪オプション価格の計算≫ オプション価格を決めるには、原資産の価格変動の振る舞いを予測することが必要です。オプションでは、原資産価格の動きに、一般化したウィーナー過程という確率過程を仮定しています。 ◆一般化

  • 公開ノート・資料 | 筑波大学 金澤研

    ノート 1. ネイチャーに学ぶ科学英語論文の書き方 リンク:1回目のlink, 2 回目のlink, 3回目のlink 目的:学術誌ネイチャーが提示する論文フォーマットをベースに、科学英語論文の書き方を説明する授業資料(プレゼン形 式)。大喜利ゲーム形式で『論文の構成要素』を理解することが目標(特に第2回目)。 対象:学部生・大学院生 目安:集中講義的、75分×6回 備考:研究室での教育資料、筑波大学「社会工学英語」(2020年~)の授業資料をベースに修正。 2. δ関数、常微分方程式、偏微分方程式 リンク:link 目的:確率過程を学ぶ上で最低限必要な解析学の内容をまとめたノート。δ関数、常微分方程式、偏微分方程式を速習できる。 前提:標準的な学部1年生程度の数学能力 目安:75分×2回 備考:筑波大学「社会工学のための数学」(大学院向け),「数理工学モデル化演習」(学部3年生向け)の授

  • Pythonプログラミング(確率微分方程式)

    このページでは、簡単な確率微分方程式の数値計算について考えてみる。 ゆらぎを伴う微分方程式 ランダムなゆらぎ$\xi(t)$を考え、それによって動かされる粒子の位置$x(t)$が微分方程式 $$ \frac{d x(t)}{dt} = \xi(t) \tag{1} $$ で変化するようなモデルを考えてみよう。 ここで、 ゆらぎの平均は0、すなわち$i$番目のサンプルの揺らぎの時系列を$\xi_i(t)$とすれば $$ \left\langle \xi(t) \right\rangle = \lim_{N\to\infty} \frac{1}{N} \sum_{i=1}^N \xi_i(t) = 0 $$ で、自己相関が $$ \left\langle \xi(t) \xi(t+\tau) \right\rangle = \lim_{N\to\infty} \frac{1}{N} \sum_

  • 微分や微分方程式をPythonで理解する - Qiita

    微分や微分方程式は、Sympy というライブラリを使うのが非常に便利です。Scipy もよく使われると思うけど、ちょっと使い方が難しい。 Sympy を使った方法 import sympy as sym from sympy.plotting import plot sym.init_printing(use_unicode=True) %matplotlib inline

    微分や微分方程式をPythonで理解する - Qiita
  • 確率微分方程式のシミュレーション - Qiita

    $$ dX(t) = f(X(t))dt+g(X(t))dW(t),\ \ X(0)=X_0, 0\leq t \leq T \ \ . $$ ここで$f,g$はスカラー関数、$W(t)$はウィーナー過程です。この方程式の数値計算をしてみます。 数値計算をするためには、離散化をする必要があります。確率微分方程式の離散化には大きく2つの方法があり、それぞれEuler-Maruyama法とMilstein法と呼ばれています。今回は、精度は劣るものの、簡単であるEuler-Maruyama法を用いて計算します。 まず、区間$[0,T]$を離散化します。じゅうぶん大きな正の整数$N$を用いて、$\Delta t := T/N$、$\tau_j := j \Delta t$とします。また、$X_j:=X(\tau_j)$と表すことにします。 Euler-Maruyama法では次の形式によって方程式を

    確率微分方程式のシミュレーション - Qiita
  • Docker Composeでボリュームとバインドマウントを使ってみる

    Docker Composeでボリュームとバインドマウントを利用する方法について簡単にまとめたいと思います。 ボリューム ボリュームとは、Dockerコンテナで扱うデータを永続化する仕組みです。 Dockerの中にボリュームというデータを保持する領域を確保して永続化します。 バインドマウント バインドマウントとは、ホスト側のディレクトリやファイルをコンテナ内にマウントすることです。 バインドマウントによってもコンテナで扱うデータを永続化することができます。 Dockerのドキュメントより Docker Composeでボリュームとバインドマウント Docker Composeでボリュームやバインドマウントを利用する場合は、以下のようにサービス設定が必要です。 名前付きボリュームを利用する場合は、追加でボリューム設定も必要になります。 1version: "3" 2services: 3 w

    Docker Composeでボリュームとバインドマウントを使ってみる
  • docker-compose の bind mount を1行で書くな

    TL;DR docker-compose では bind mount の構文が "short", "long" の2通りあるが, それぞれ挙動が異なる docker-compose.yml の volumes に略記法 (short syntax) を用いると, コンテナ内で non-root user を用いる際にエラーの発見が遅れる可能性があるので避けよう 概要 Docker アプリケーション (コンテナ) は, 実行時にホストのファイルやディレクトリをコンテナ内にマウントし, ホストとのファイル共有を行うことができます (bind mount). docker-compose では, Compose ファイル (デフォルトでは docker-compose.yml) にマウント情報を記述することができますが, 構文によっては意図せぬ挙動や, パーミッションエラーを引き起こす原因となり

    docker-compose の bind mount を1行で書くな
  • Dockerを使った開発における開発環境と本番環境、ついでにテスト環境 - zakuni

    テスト環境は全部入りでもいいが、ビルドしたものとテストに必要なものだけで済むならその方がいい(番環境に近くなるので)

    Dockerを使った開発における開発環境と本番環境、ついでにテスト環境 - zakuni