[B! python][Python][pandas] [5ページ] ishideoのブックマーク

ishideo id:ishideo

pythonとPythonとpandasに関するishideoのブックマーク (159)

pytestで、csvファイルからテストデータを読み込んで流し込んで実施してみた - Qiita
ishideo 2019/04/24
test

pytest

csv

import

python

pandas

numpy

qiita
リンク
イベントレポート: LeanとDevOpsの科学[Accelerate] 出版記念イベント #devops - クリエーションライン株式会社
エグゼクティブ向けAI駆動開発実装体験ラウンドテーブル開催レポート！ AI駆動開発(AIDD)CLくん2026.05.12 1 生成AIと目標設定してみたら思いのほか良い体験だった話 AI ChatGPT＆AIk-yamamoriKaizen2026.05.11 1 AIエージェント Harness設計比較 AIj-liangLLM用語解説2026.05.01 4 Strandsで簡単な生成AIチャットボットを作ってみた #strands #ai #llm #gemini AI AWSd-higuchiGCPLLMPython2026.05.01 1 GitLab 18.11 製品アップデートニュース #GitLab #GitLabjp AI AI駆動開発(AIDD)DevOpsGitLab2026.04.30 1 Mirantis製品リリース＆サポート最新情報（2026年4月）#Miran
ishideo 2019/04/18
apachespark

kaggle

python

pandas

pyspark

spark

mlops
リンク
Pandasで行うデータ処理を100倍高速にするOut-of-CoreフレームワークVaex - フリーランチ食べたい
TL;DR アウトオブコア、かつマルチコアでデータ処理を行えるVaexの紹介です。 string関係のメソッドで平均して100倍以上の高速化が確認できました。(作者のベンチマークだと最大1000倍) 文字列処理以外でも数倍~数十倍の高速化が行えそうです。この記事では性能の比較のみ行い、解説記事は別で書こうと思います。 pandasより1000倍早いフレームワーク？今週、興味深い記事を読みました。重要な部分だけ抜き出すと次のような内容です。 Vaexの最近のアップデートでの文字列処理が超早くなった 32コアだとpandasと比べて1000倍早い towardsdatascience.com 1000倍って本当なの？って感じですよね。そもそも自分はVaex自体を知らなかったので調べてみました。ちなみに調べていて気づいたのですが、この記事の著者はVaexの作者なんですよね。疑っているわけ
ishideo 2019/04/14
pandas

python

vaex

dask
リンク
Pythonで見つけたヤフオクの闇、１円スタートのからくり - sakapunのブログ
スノーボードを少しでも安く買いたかったそこで目を付けたのがヤフオクで開催されている１円スタートのスノボである終了直前までの価格をみていると結構お得に買える！と、思っていた少しの間、１円商品のスタートを見ていると入札されている価格帯が同じだということに気づいただとすれば自分もその価格帯付近で入札すれば買えるんじゃないかと思い、価格帯を調べることにした最近スクレイピングではPythonを使う NodeJSだと非同期を少しでも考えるのが嫌なので、できるだけ使いたくない実行環境はColaboratoryを用いたスクレイピングして表形式で出力したいだけだからだ簡単にPythonの実行環境にできるのでスゴイおすすめである colab.research.google.com スクレイピングには定番のBeautiful Soupを使って集計するコードを書き始め、できた結果が下記のようなコー
ishideo 2019/03/28
python

scraping

BeautifulSoup

google

colaboratory

gist

pandas

request

numpy
リンク
pandasでサンプルのデータセットを使う4個の方法をまとめた - 子供の落書き帳 Renaissance
pandasを使っていて、ある関数の挙動を確認するのに、ちょろっとお試しのデータセットがあれば良いなぁ、と思うことがある。俺も以前の記事で、pandasの使い方を説明するときに、自作のデータセットを使って書いていた。［pandas］特定の条件を満たす行を削除する - 子供の落書き帳 Renaissance これくらい簡単なものならばまだ良いけど、いちいちデータセットを自分で作るより、すぐに読み込んで使えれば楽である。ありがちなのはiris（アヤメ）のデータだけど、その手のサンプルのデータセットを簡単に読み込む方法はあるのだろうか? pandas自体にサンプルデータセットの機能は無い pandas：urlを指定してread_csv seaborn scikit-learn statsmodels経由でR datasets まとめ pandas自体にサンプルデータセットの機能は無い pa
ishideo 2019/03/24
python

statsmodels

datasets

rlang

pandas

seaborn

scikit-learn
リンク
Pandas の練習がてら、勉強会のトレンドを探ってみた - 技術をかじる猫
この辺の続きです。 white-azalea.hatena blog.jp ４月の勉強会の開催状況と、事前申し込みの状況を眺めてみたが正解。勉強会情報を拾ってくる前回の流れですが、２サイト以上でやるので、少しだけ汎用化を考えてみた。調べてみたら、ATND と COMPASS のAPI仕様がほぼ同一だった。まずは共通の定義を用意して import requests import sys class ClassRoom: def __init__(self, title, limit, accepted, waiting): def or_zero(v): if isinstance(v, int): return v return 0 self.title = title self.limit = or_zero(limit) self.joins = or_zero(accepted
ishideo 2019/03/24
python

pandas

janome

numpy

compass

atnd
リンク
「Google Colaboratory」でツイートをテキストマイニングする - 継続は力なり
タダです。機械学習技術や Python に興味があり、色々と勉強中で技術を手を動かして学びたいと思っていました。そんな折、からあげさん( id:karaage )の機械学習コンテンツを購入し、テキストマイニングのチュートリアルに取り組んだのでその内容をまとめていきます。 note.mu チュートリアル概要 Google Colaboratory について関連記事 Google Colaboratory のメリットチュートリアルで学べること CSV ファイルの読み込み/抽出データの前処理単語ごとに分かち書きを行う Word Cloud でツイートの可視化参考情報ツイートから頻出単語の抽出作成したコードまとめ関連記事チュートリアル概要上記のチュートリアルでは「Google Colaboratory」を使って Twitter の自分のツイートでテキストマイニングを行いま
ishideo 2019/03/22
python

google

claboratory

pandas

twitter

csv

jupyter
リンク
自然言語処理でベストセラーのタイトルを分析してみた - Aidemy Blog
環境 Python 3.6.4 jupyter notebook 4.4.0 windows 10 スクレイピング東洋経済ONLINEのサイトでAmazonのビジネス書売り上げランキングが毎週1位~200位まで発表されているので今回はそれをスクレイピングで自動収集していきます toyokeizai.net 本のタイトルの取得と同時に順位に応じてポイントをつけていきますデータについて import pandas as pd import urllib.request from bs4 import BeautifulSoup import json import time import numpy as np #スクレイピングしてタイトルとポイントをjson形式で出力 #リンク一覧ページからランキングサイトのリンクを取得 link_list=[] for i in range(1,1
ishideo 2019/03/21
python

janome

pandas

numpy

mlops

natural-language
リンク
機械学習を使って自分に映画をおすすめしてみた　〜スクレイピング編〜 - データで見る世界
本編をご覧のみなさんこんにちは。本編をご覧になっていないみなさんもこんにちは。こちらの記事ではスクレイピング編をお送り致します。言語は慣れたPythonを選択しています。映画レビューサイトは、利用規約やデータ表示の構造から、みんなのシネマレビューさんにお世話になることにしました。ありがとうございます。情報量も多くて素晴らしいサイトですね。では、早速やっていきましょう。まずは必要なライブラリをインポートしておきます。どれも一般的なものですね。 #必要なライブラリをインポート from bs4 import BeautifulSoup import requests import pandas as pd from pandas import Series, DataFrame import time みんなのシネマレビューさんでは、映画情報（制作年、監督、キャストなど）、レビュアーリ
ishideo 2019/02/26
scraping

machine-learning

python

BeautifulSoup

pandas

movie

data-science
リンク
機械学習を使って東京23区のお買い得賃貸物件を探してみた　〜スクレイピング編〜 - データで見る世界
こんにちは、Shoです。今年の6月にミシガン大学ロスを卒業し、晴れてMBAホルダーとなりました。12月までは大学に残って機械学習の研究をしているのですが、いよいよ帰国の時が近づいてまいりました。来年の頭から東京に戻るので、どのへんに住もうかなぁと思案しておるところです。しかし住居選びというのは考えなければいけない要因が多くて大変ですね。なるべくお買い得な物件を選びたいところですが、どの区がいいのか、広さはどのくらいの部屋にしようか、2LDKと3Kだとどっちがいいの？とか、これは人間の頭で考える案件ではありませんね。コンピューターができることは全部自動化してしまいたい。ということで、やってみました。機械学習を使って東京23区のお買い得賃貸物件を探してみた物件情報サイトは色々ありますが、今回はSuumoさんを選択。著作権に関しては、利用規約に以下のように書いてあります。「ユーザー
ishideo 2019/02/26
tokyo

real-estate

pandas

BeautifulSoup

python

scraping

data-science
リンク
機械学習を使って東京23区のお買い得賃貸物件を探してみた　〜前処理編〜 - データで見る世界
さて、前回のブログで足立区の賃貸物件を取得しました。 www.analyze-world.com 同様にして、東京都23区の物件も取得してしまいましょう。今回僕が取得したところ、合計で200,060件になりました。csvファイルで70MBほどですので、Excelだと重すぎて処理スピートがかなり遅いです。いい感じにビッグなデータが手に入ったんじゃないでしょうか。物件情報を取得したはいいものの、このままだと分析をまわせないので、前処理を施します。今回の最終目標はお買い得物件を探すことなので、応答変数は賃料が主な指標になりそうです。賃料に対して、それぞれのカラムがどのように効いてくるかを考慮しながら処理していきます。今回使うライブラリはpandasとnumpyだけです。それぞれ区別に保存しておいたファイルを結合して一つのファイルを形成します。 #必要なライブラリをインポート import p
ishideo 2019/02/26
tokyo

real-estate

pandas

numpy

python

data-science
リンク
ラーメン屋は何曜日に休みが多いのかAPIを利用して調べた - 最終防衛ライン3
きっかけはツイート突然だがラーメン屋は何曜日に閉まる店が多いのか、統計を取りたくなった。— ラーメン大好きトムスクさん (@tomsk7) 2019年2月20日ラーメン屋は何曜日に休みのお店が多いのかを調べてみようと思ったきっかけは、フォロワーのツイートだった。調べることは好きだけど、これまでは人力で調べてばかりだった。Pythonを勉強してから、ずっとウェブスクレイピングやWeb APIに興味があったので、折角なので挑戦してみた。きっかけはツイートラーメン屋は月曜日が休みが多い Pythonによる定休日の集計方法 HOT PEPPERとぐるなびのAPI仕様の所感 PythonでAPIを叩いてみれば定休日を抽出する定休日を集計する APIを叩いて集計してみた感想ラーメン屋は月曜日が休みが多い HOT PEPPERとぐるなびがAPIを提供しているので、そこからラーメン店の情報を
ishideo 2019/02/25
hotpaper

api

webapi

python

ramen

pandas
リンク
Kaggleで使える！Pandasテクニック集 - Qiita
はじめに Kaggleで使えるPandasの使い方を備忘録として残します。随時更新していく予定です。更新：2019年1月29日15時　様々なコンペで使える便利な関数を追記しました。 Pandas Basics Cheat Sheet(基本的な使い方) [引用]https://becominghuman.ai/cheat-sheets-for-ai-neural-networks-machine-learning-deep-learning-big-data-678c51b4b463 プログレスバーを表示する df.apply()やdf.map()の進捗を見たい時に、 tqdmというライブラリを使うことでプログレスバーを表示することができます。 import pandas as pd import numpy as np from tqdm._tqdm_notebook import t
ishideo 2019/01/31
kaggle

pandas

python

qiita
リンク
うわっ…私のpandas、遅すぎ…?って時にやるべきこと（先人の知恵より） - Lean Baseball
※あくまでもイメージです（適当）仕事じゃなくて、趣味の方の野球統計モデルで詰まった時にやったメモ的なやつです.*1 一言で言うと、約19万レコード（110MBちょい）のCSVの統計処理を70秒から4秒に縮めました. # 最初のコード $ time python run_expectancy.py events-2018.csv RUNS_ROI outs 0 1 2 runner 0_000 0.49 0.26 0.10 1_001 1.43 1.00 0.35 2_010 1.13 0.68 0.32 3_011 1.94 1.36 0.57 4_100 0.87 0.53 0.22 5_101 1.79 1.21 0.50 6_110 1.42 0.93 0.44 7_111 2.35 1.47 0.77 python run_expectancy.py events-2018.c
ishideo 2019/01/21
python

pandas

tuning

map

df.iterrows

usecols

apply

class

unittest

あとで読む
リンク
pandasで1000万件のデータの前処理を高速にするTips集 - Qiita
はじめに当社にアルバイトに来ていた人（来春に新卒入社の予定）に「pandasを高速化するための情報は無いですか？」と尋ねられました。このパッケージの使い方は多数の書籍やWebで体系立った記事で書かれています。しかし、高速化に関しては体系的な情報源が思いつかなかったので、「実際に書いてみて、1つ1つチューニングするしかないです」としか答えられませんでした。そこで、この方を始め、来春（2019年4月）にデータアナリストまたはデータサイエンティストになる新卒へ向けて、pandasの高速化に関する私の経験をTips集にしてお伝えしたいと思います。この記事は今後も内容を充実させるために、Tipsを追加していきます。この記事を読んだ後にできるようになること pandasでレコード数1000万件のデータでも1分以内で完了する前処理が書けるようになります。その結果、1日中実行し続けなければな
ishideo 2018/12/25
pandas

python

qiita

tuning

performance
リンク
pandasで2018年の投手貢献度を計算 - メモ
qiita.com pandasで計算 import pandas as pd url = 'https://baseball-data.com/stats/pitcher-all/era-1.html' dfs = pd.read_html(url, index_col=0) league = pd.DataFrame({ 'チーム': [ '広島', '阪神', 'DeNA', '巨人', '中日', 'ヤクルト', 'ソフトバンク', '西武', '楽天', 'オリックス', '日本ハム', 'ロッテ' ], 'リーグ': [ 'セントラル', 'セントラル', 'セントラル', 'セントラル', 'セントラル', 'セントラル', 'パシフィック', 'パシフィック', 'パシフィック', 'パシフィック', 'パシフィック', 'パシフィック' ] }) league df =
ishideo 2018/12/19
python

pandas
リンク
Python Dask で並列 DataFrame 処理 - StatsFragments
はじめに先日のエントリで少し記載した Dask について、その使い方を書く。Dask を使うと、NumPy や pandas の API を利用して並列計算/分散処理を行うことができる。また、Dask は Out-Of-Core (データ量が多くメモリに乗らない場合) の処理も考慮した実装になっている。 sinhrks.hatena blog.com 上にも書いたが、Daskは NumPy や pandas を置き換えるものではない。数値計算のためのバックエンドとして NumPy や pandas を利用するため、むしろこれらのパッケージが必須である。 Dask は NumPy や pandas の API を完全にはサポートしていないため、並列 / Out-Of-Core 処理が必要な場面では Dask を、他では NumPy / pandas を使うのがよいと思う。pandasとDas
ishideo 2018/12/19
python

dask

dataframe

pandas

numpy
リンク
時間のかかる前処理をDaskで高速化 - ぴよぴよ.py
最近仕事で自然言語処理を使ったモデルを作成していたんですが、前処理やモデルを作る際に数分〜数十分単位の処理待ちの空き時間が頻繁に発生してしまい、その度集中力が切れる問題に悩まされていました。モデルの学習に時間がかかってしまうのはまた別の解決策を考えるとして、今回は時間のかかる前処理をDaskをつかって高速化した方法をお話ししようと思います。この記事は PyLadies Advent Calendar 2018 - Adventar の18日目の記事になります。 Daskとは？ Daskとは、numpyやpandasなどのデータを簡単に並列計算するライブラリ。あまり公式のチュートリアルがわかりやすくない(気がする)ので、基本的な使い方は Python Dask で並列 DataFrame 処理 - StatsFragments を見てみると良い。サンプルデータ今回はKagg
ishideo 2018/12/19
python

dask

pandas

nltk

kaggle

numpy

multiprocessing

parallel
リンク
pandasで欠損値NaNが含まれているか判定、個数をカウント | note.nkmk.me
pandas.DataFrame, Seriesに欠損値NaNが含まれているか判定する方法、および、欠損値NaNの個数をカウントする方法について説明する。isnull(), isna(), notnull(), notna()メソッドなどを使う。欠損値NaNを削除・置換する方法、欠損値NaNに限らず特定の条件を満たす要素の数をカウントする方法については以下の記事を参照。関連記事: pandasで欠損値NaNを削除（除外）するdropna 関連記事: pandasで欠損値NaNを置換（穴埋め）するfillna 関連記事: pandasで特定の条件を満たす要素数をカウント（全体、行・列ごと）なお、pandasではNaN（Not a Number: 非数）のほか、Noneも欠損値として扱われる。関連記事: pandasにおける欠損値（nan, None, pd.NA）本記事のサンプルコ
ishideo 2018/12/03
python

pandas

NaN

isnull
リンク
PythonでRESAS APIを使ってデータをダウンロード | note.nkmk.me
RESASは「Regional Economy Society Analyzing System（地域経済分析システム）」の略。読み方は「リーサス」。市区町村別の産業・経済の情報が提供されており、APIを利用して生データをダウンロードできる。トップページ - RESAS 地域経済分析システムここでは、PythonからRESAS APIを利用してデータをJSONやCSV形式でダウンロードする方法を説明する。 RESAS APIの基本的な使い方 APIキーを取得仕様と使い方 RESAS-API一覧例: 都道府県コードデータを取得 JSONで保存 pandas.DataFrameに変換 CSVで保存例: 市区町村コード都道府県を指定して個別にダウンロード全都道府県のデータを一括ダウンロード pandas.DataFrameに変換して連結 CSVで保存 JSONで保存例: 一人当
ishideo 2018/11/29
python

pandas

resas

api

geo

json

csv

webapi
リンク
前のページ 1 2 3 4 5 6 7 8 次のページ