[B! pandas][python] mukakenのブックマーク

東京大学、Pythonプログラミング無料入門 pandasやJupyterなど幅広い | Ledge.ai

サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。

mukaken 2021/08/30

リンク

pandas でメモリに乗らない大容量ファイルを上手に扱う - StatsFragments

概要分析のためにデータ集めしていると、たまにマジか！? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、？このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。サンプルデータたまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

mukaken 2021/07/02

リンク

【Pandas】欠損値nanの個数と％を表示［Python］ | 3PySci

【Pandas】欠損値nanをもつデータの取り扱い（.isnull()、.fillna()）［Python］【データ解析支援ライブラリPandas】前回は欠損値nanをもつダミーデータを作成するため、ダミーデータ作成プログラムをアップデートしました。今回はそのnanをもつダ… 今回はデータ解析をする際に最初に確認するnanの個数と何％のデータがnanなのかを確認する関数を作成してみましょう。ということでまずは準備から。データは前回と同じnanを含んだデータを用います。

mukaken 2020/11/06

リンク

SQLの正規表現を、pandas(python)のqueryメソッドのstr.containsを使ってまとめてみた - Qiita

SQLの正規表現を、pandas(python)のqueryメソッドのstr.containsを使ってまとめてみたPython SQL DBpandasデータサイエンスはじめに最近、プライベートでデータ分析のツールを作成している関係でpandasというpython外部ライブラリを活用している。が、いざ使って見ると、「pandas?なにそれかわいいの？」と動物のパンダ🐼を連想させるヤバい思考に行きつつある状況になる。これはまずいと感じ、投稿者はpandasを探し求める旅に出る。この記事は、pandasを飼いならすためにpandasをSQLっぽく考えるというデータサイエンス初学者に向けた記事となります。そもそもpandasとは何か pandasとは、構造化された（表形式、多次元、潜在的に不均質）データと時系列データを簡単かつ直感的に操作できるように設計された高速で柔軟な表現力のあるデー

mukaken 2020/11/04

これはおもしろい！“pandasをSQLっぽく考えるというデータサイエンス初学者に向けた記事となります。”

リンク

【Python】pandasでDataFrameの値渡しをする方法 - ITips

Pythonのデータ処理によく使われるDataFrame。表形式のCSVやExcelのデータを読むことができ、集計や加工にとても重宝する。しかし気をつけて使わないと自分の意図しないタイミングでデータが書き換わってしまうことがあるかもしれない。今回はpandasでDataFrameの中身が変わってしまう原因と、「pandasでDataFrameの値渡しをする方法」について解説する。

mukaken 2020/10/26

リンク

pandas docstring guide — pandas 2.2.2 documentation

mukaken 2020/10/26

リンク

Pandas 1.x Cookbook - Second Edition | Packt

mukaken 2020/10/23

この本って邦訳版出てないですよね？買おうか迷い中。

リンク

PANDASで効率よくデータ加工する事例 - Qiita

初めに PANDASは、データサイエンティスト向けの最高のデータ処理ライブラリですが、数百万行のデータを取り扱う際にパフォーマンスの落とし穴を回避するように注意する必要があります。今回は仕事の中で学んできたいくつのテクニックを紹介したいと思います。 DataFrame PANDASは列志向のデータ構造なので、列ごとの処理は得意です。DataFrameの作成には「１レコード１行」形式で、１レコードに対してすべての測定可能の値（湿度、値段、座標など）はカラムごとに行うことを推奨します。しかし、膨大なデータ加工において行ごとのforループ処理したらパフォーマンスを格段に落とす。本記事はパフォーマンスを考えて頭よくデータ加味を行う方法を紹介したいと思います。まずはサンプル用のテーブルを作ります。 data = {'Team': ['Tiger', 'Tiger', 'Rabbit', 'Rab

mukaken 2020/10/12

リンク

Python初学者のためのPandas100本ノック - Qiita

Information 2024/1/8： pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/it ems/e0244aa2194af8a1fee9 2023/2/12：大規模データを高速に処理可能なデータ処理ライブラリ Polars の 100 本ノックを作成しました。こちらも興味があればご覧下さい。 Polars 100 本ノック https://qiita.com/kunishou/it ems/1386d14a136f585e504e はじめにこの度、PythonライブラリであるPandasを効率的に学ぶためのコンテンツとして

mukaken 2020/09/26

リンク

pandas の loc、iloc、ix の違い – python | コード７区

from pandas import DataFrame df=DataFrame([[1,2,3], [10,20,30], [100,200,300], [1000,2000,3000]], index=['row_0', 'row_1','row_2','row_3'], columns=['col_0','col_1','col_2']) #----------------------------- # col_0 col_1 col_2 # row_0 1 2 3 # row_1 10 20 30 # row_2 100 200 300 # row_3 1000 2000 3000 #----------------------------- # # 行ラベルを指定 # df.loc[['row_2','row_3']] #----------------------------

mukaken 2020/09/07

リンク

(修正版) NumPy/pandas使いのためのテスト自動化入門 / PyConJP2020

PyCon JP 2020での発表スライドです。 --------------------------- (2020/08/30) 誤字を修正しました。場所: p15 誤: assert_array_close() 正: assert_allclose() ---------------…

mukaken 2020/08/30

このセッション、聞いてよかった。

リンク

たった数行でpandasを高速化する2つのライブラリ(pandarallel/swifter) - フリーランチ食べたい

pandas はデータ解析やデータ加工に非常に便利なPythonライブラリですが、並列化されている処理とされていない処理があり、注意が必要です。例えば pd.Sereis.__add__ のようなAPI(つまり df['a'] + df['b'] のような処理です)は処理が numpy に移譲されているためPythonのGILの影響を受けずに並列化されますが、 padas.DataFrame.apply などのメソッドはPythonのみで実装されているので並列化されません。処理によってはそこがボトルネックになるケースもあります。今回は「ほぼimportするだけ」で pandas の並列化されていない処理を並列化し高速化できる2つのライブラリを紹介します。同時に2つのライブラリのベンチマークをしてみて性能を確かめました。 pandarallel pandaralell はPythonの m

mukaken 2020/07/27

試してみよ

リンク

Amazon.co.jp: 現場で使える! pandasデータ前処理入門機械学習・データサイエンスで役立つ前処理手法: 株式会社ロンバート: 本

mukaken 2020/02/16

"機械学習エンジニア&テータサイエンティスト必携!初学者でもpandasによる前処理手法がわかる"

リンク

pandasのaxisの方向の覚え方 - Qiita

pandasのaxisの疑問 pandasのデータフレームに対して関数を適用する際に、軸の指定をすることはよくあることです。その際にaxisの指定の仕方について疑問に生じたこととその回答についてメモしておきます。前提以下のようなデータフレームの操作に関する場合を考える。 df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["col1", "col2", "col3", "col4"]) df col1 col2 col3 col4 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3

mukaken 2019/09/24

リンク

うわっ…私のpandas、遅すぎ…?って時にやるべきこと（先人の知恵より） - Lean Baseball

※あくまでもイメージです（適当）仕事じゃなくて、趣味の方の野球統計モデルで詰まった時にやったメモ的なやつです.*1 一言で言うと、約19万レコード（110MBちょい）のCSVの統計処理を70秒から4秒に縮めました. # 最初のコード $ time python run_expectancy.py events-2018.csv RUNS_ROI outs 0 1 2 runner 0_000 0.49 0.26 0.10 1_001 1.43 1.00 0.35 2_010 1.13 0.68 0.32 3_011 1.94 1.36 0.57 4_100 0.87 0.53 0.22 5_101 1.79 1.21 0.50 6_110 1.42 0.93 0.44 7_111 2.35 1.47 0.77 python run_expectancy.py events-2018.c

mukaken 2019/09/24

リンク

データ分析で頻出のPandas基本操作 - Qiita

はじめに機械学習や深層学習が人気の昨今ですが、それらのモデルの精度に最もクリティカルに影響するのはインプットするデータの質です。データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます。本頁では、データ処理の基本ツールとしてPandasの使い方を紹介します。Pandasには便利な機能がたくさんありますが、特に分析業務で頻出のPandas関数・メソッドを重点的に取り上げました。 Pandasに便利なメソッドがたくさんあることは知っている、でもワイが知りたいのは分析に最低限必要なやつだけなんや…！、という人のためのPandasマニュアルです。また、単に機能を説明するだけでは実際の処理動作がわかりにくいため、ここではSIGNATE(旧DeepAnalytics)のお弁当の需要予想を行うコンペのデータを拝借し、このデータに対

mukaken 2019/09/24

リンク

10分でPandasを学ぶ - Qiita

DataFrameを作る DataFrameの作成方法も幾つかあるので、その整理。まずは、DataFrameをnumpyで行列を作り、インデックスとラベルを貼り付けるパターン。インデックスの作成。 #Create a index dates = pd.date_range("20130101", periods=6) dates <class 'pandas.tseries.index.DatetimeIndex'> [2013-01-01, ..., 2013-01-06] Length: 6, Freq: D, Timezone: None #Create a DatFrame df = pd.DataFrame(np.random.randn(6,4),index = dates, columns = list("ABCD")) df A B C D 2013-01-01 0.7

mukaken 2019/09/24

リンク

python入門　pandasを使ったデータフレームの扱い - バナナでもわかる話

pythonには、Seriesというデータ構造とDataFrameというデータ構造があります。データ分析において、これらのデータ構造に関する扱いを理解しておくことは必須ですので、簡単に入門記事を書いておこうと思います。目次 pandas Seriesの利用 Seriesを扱うメソッド DataFrameの利用スポンサーリンク pandas pandasはデータ分析に便利なデータ構造と、簡単に分析が行えるツールを備えています。 Rユーザーであればデータフレームは馴染み深いとは思いますが、pythonではpandasを入れないとデータフレームは使えません。ということでpandasを読み込みましょう。 import pandas as pd 慣例に従い、pdという名前で読み込みます。 Seriesの利用 pandasではシリーズというデータ構造を使うことができます。 In : seq0=

mukaken 2019/09/21

リンク

機械学習にも便利なPythonライブラリ「Pandas」の初心者向けチュートリアル - paiza開発日誌

秋山です。機械学習やディープラーニングが流行っていますが、基本的には何をするにも大量のデータを取り扱いますよね。データの集計・分析は、機械学習をするのに大前提として必要な作業です。そんなときに便利なライブラリがPandasです。Pandasは、Pythonを使ったデータ解析に便利な機能を提供しているライブラリです。数値や時系列のデータの操作や、データ構造をいじったりすることができます。というわけで、今回はそんなPandasを使えるようになりたい初心者の人に向けて、ちょっとしたチュートリアルを書いてみます。 ■Pandasって何ぞ Pandasとは超ざっくり簡単に言うと、Pythonを使って、ExcelやSQL、R言語みたいな感じでデータを取り扱えるようにしてくれる便利なライブラリです。例えば、データの整列、グループ化、データ同士の結合、スライス、欠損データがあった場合の除外、時系

mukaken 2019/09/21

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

pandasとpythonに関するmukakenのブックマーク (19)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス