[B! pandas] nabinnoのブックマーク

nabinno id:nabinno

pandasに関するnabinnoのブックマーク (589)

Python Pandas: How to read only first n rows of CSV files in?
I have a very large data set and I can't afford to read the entire data set in. So, I'm thinking of reading only one chunk of it to train but I have no idea how to do it.
nabinno 2023/11/08
nrows

stack-overflow

pd.read_csv

pandas

python
リンク
pandas.pivot_table — pandas 2.1.3 documentation
nabinno 2023/11/07
pandas

pd.pivot_table

python
リンク
［解決！Python］CSVファイルから読み込みを行うには（pandas編）
pandasが提供するread_csv関数を使って、CSVファイルなどからデータを読み込む方法を紹介する。 import pandas as pd from pathlib import Path filepath = 'test0.csv' print(Path(filepath).read_text()) #0.0,1.1,2.2 #3.3,4.4,5.5 #6.6,7.7,8.8 df = pd.read_csv(filepath) print(df) # 0.0 1.1 2.2 #0 3.3 4.4 5.5 #1 6.6 7.7 8.8 # ヘッダー行がないことを指定 df = pd.read_csv(filepath, header=None) print(df) # 0 1 2 #0 0.0 1.1 2.2 #1 3.3 4.4
nabinno 2023/11/04
na_values, na_filter

itmedia

shinji-kawasaki

pandas

pd.read_csv

python
リンク
【保存版】Pandas2.0のread_csv関数の全引数、パフォーマンス、活用テクニックを完全解説する！ - Qiita
【保存版】Pandas2.0のread_csv関数の全引数、パフォーマンス、活用テクニックを完全解説する！Python CSVpandas高速化新人プログラマ応援はじめにみずほリサーチ&テクノロジーズ株式会社の@fujineです。本記事ではpandas 2.0を対象に、CSVファイルの入力関数である read_csvの全49個（！）の引数をじっくり解説いたします。具体的には、各引数には、どんな効果や（公式ドキュメントにも記載されていない）制約があるのか？引数を工夫することで、処理時間やメモリ消費量などのパフォーマンスが具体的にどれだけ改善されるのか？ pandasのver2.0では、それ以前のバージョンからどう変化したのか？多くの引数を保守しやすく管理するにはどうしたらいいか？を体系的に整理・検証することを目指します。新入社員/若手社員向けのレクチャーや、これまで「何となく
nabinno 2023/11/04
na_values, na_filter

qiita

pandas

pd.read_csv

python
リンク
pandas.Series.str.split — pandas 2.1.2 documentation
nabinno 2023/10/31
pandas

pandas.series.str.split

python
リンク
便利だけど分かりにくいデータフレームを再構築するPandasのMelt()関数のお話し
RだろうがPythonだろうが、データフレームを再構築することは少なくないでしょう。例えば…… 縦持ち（Long）のデータフレームを、横持ち（Wide）のデータフレームに再構築横持ち（Wide)のデータフレームを、縦持ち（Long）のデータフレームに再構築なんのこっちゃ……　と思われている方もいるかもしれませんが、データ分析などをしていると、このような再構築が必要になるケースが少なくありません。今回は、「便利だけど分かりにくいデータフレームを再構築するPandasのMelt()関数のお話し」というお話しをします。その中で、縦持ちのデータフレーム（Long DataFrame）や横持ちのデータフレーム（Wide DataFrame）というデータフレームが、どういったものなのかのお話しもします。 melt()関数と pivot()関数 pivot()関数に馴染みある方も多いと思い
nabinno 2023/10/27
pandas

pd.melt

python
リンク
pandas.melt — pandas 2.2.1 documentation
nabinno 2023/10/27
pandas

pd.melt

python
リンク
pandas.DataFrame.nsmallest — pandas 2.2.2 documentation
nabinno 2022/12/22
pandas

pandas.dataframe.nsmallest
リンク
pandas.DataFrame.nlargest — pandas 2.2.2 documentation
nabinno 2022/12/22
pandas

pandas.dataframe.nlargest
リンク
遅くないpandasの書き方 - ML_BearのKaggleな日常
これは何？この記事は Kaggle Advent Calendar 2021 の7日目の記事です。 pandasはデータ分析ライブラリとして非常に便利ですが、書き方を間違えると簡単に処理が遅くなってしまうという欠点があります。そこで、この記事では遅くならない書き方をするために気をつけたいポイントをいくつかご紹介したいと思います。この Colab Notebookの実行結果をエクスポートした上で、不要な部分を一部削って記事にしています。colab notebook をコピーして実行してもらえれば再現することが可能なはずです。(colabにコメント等をいただいても返すことはできないと思います、すみません。) 前提条件この記事ではあくまで「遅くない(なりづらい)書き方を紹介する」ことに努めます。よって、以下のような改善点はあるが一旦考慮の外におくものとして話を進めます。並列化ライブラリ
nabinno 2021/12/07
pandas

python

performance-engineering
リンク
pandas でメモリに乗らない大容量ファイルを上手に扱う - StatsFragments
概要分析のためにデータ集めしていると、たまにマジか！? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、？このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。サンプルデータたまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan
nabinno 2021/06/30
pandas

chunksize
リンク
Python用データ分析ライブラリ「pandas」の読み方(発音)
Python用データ分析ツール「pandas」の正しい読み方をご存知ですか？筆者は何となく勝手に「パンダス」だと思っていたのですが、どうやらそれほど単純な話ではなさそうです。改めて、pandasの正しい読み方について、調べてみました。 1. 英語の原則としてはどう発音するのかまず、「pandas」は「panda(パンダ)」の複数形と同じスペルなので、それを英語では原則としてどう発音するのかを調べました。ちなみに英語で「panda」は、ジャイアントパンダを表す場合と、レッサーパンダ(red panda)を表す場合があるようです。
nabinno 2021/05/17
Wes McKinneyは「pan-duss」、英語話者は「pan-duhz」と発音している

pandas

python

wes-mckinney

pronounciation
リンク
時間のかかる前処理をDaskで高速化 - ぴよぴよ.py
最近仕事で自然言語処理を使ったモデルを作成していたんですが、前処理やモデルを作る際に数分〜数十分単位の処理待ちの空き時間が頻繁に発生してしまい、その度集中力が切れる問題に悩まされていました。モデルの学習に時間がかかってしまうのはまた別の解決策を考えるとして、今回は時間のかかる前処理をDaskをつかって高速化した方法をお話ししようと思います。この記事は PyLadies Advent Calendar 2018 - Adventar の18日目の記事になります。 Daskとは？ Daskとは、numpyやpandasなどのデータを簡単に並列計算するライブラリ。あまり公式のチュートリアルがわかりやすくない(気がする)ので、基本的な使い方は Python Dask で並列 DataFrame 処理 - StatsFragments を見てみると良い。サンプルデータ今回はKagg
nabinno 2021/04/27
dask

pandas

python

concurrent-computing
リンク
One-Hot Encoding in Python with Pandas and Scikit-Learn
Introduction In computer science, data can be represented in a lot of different ways, and naturally, every single one of them has its advantages as well as disadvantages in certain fields. Since computers are unable to process categorical data as these categories have no meaning for them, this information has to be prepared if we want a computer to be able to process it. This action is called prep
nabinno 2020/11/02
python

pandas

pandas.get_dummies

one-hot

sklearn.preprocessing.labelbinar
リンク
Pandas Categoricals
nabinno 2020/08/23
matthew-rocklin

pandas

python

statistics
リンク
データサイエンティストとして読んで役立った本たち@2020-07｜だみ〜
2016年10月に未経験・新人データサイエンティストで雇ってもらいました。当時はまだ業界が牧歌的だったのと、比較的書類上のスペックが高い若者だったのもあり、運良く拾ってもらえたのでした。今だと100％受かってないです。そんな私が今までで読んだ本の中で、役に立った本をつらつら書いていきます。現代の若者がどんどん優秀になっているので、これくらいでいまんとこいっぱしのデータサイエンティスト（@ビジネスサイド）になれるんだなあという基準を述べようかと思いました。何年か後に振り返りたいですね。もちろん、これが誰かの学習の役に立てばと思っています。ちなみに、アフィリエイト入れてないので気にせず買っていってください。数学無難に解析学と線形代数学を勉強しておくといいと思っています。
nabinno 2020/07/25
note

pandas

matplotlib

python

data-science

statistics
リンク
pandas.DataFrame.melt — pandas 2.2.2 documentation
pandas.DataFrame.melt# DataFrame.melt(id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)[source]# Unpivot a DataFrame from wide to long format, optionally leaving identifiers set. This function is useful to massage a DataFrame into a format where one or more columns are identifier variables (id_vars), while all other columns, considered measured va
nabinno 2020/06/19
pandas

python

pandas.datafrme

pandas.datafrme.melt
リンク
pandas.get_dummies — pandas 2.2.2 documentation
pandas.get_dummies# pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)[source]# Convert categorical variable into dummy/indicator variables. Each variable is converted in as many 0/1 variables as there are different values. Columns in the output are each named after a value; if the input is a DataFrame, the name of the or
nabinno 2020/05/05
pydata

python

pandas

pandas.get_dummies

dummy-data

one-hot
リンク
pandas.DataFrame.isnull — pandas 2.2.2 documentation
nabinno 2020/03/06
pandas

python

pandas.dataframe

pandas.dataframe.isnull
リンク
pandas.ExcelWriter — pandas 2.2.2 documentation
nabinno 2020/03/04
pandas

python

pandas.excelwriter

excel
リンク
1 2 3 4 5 6 7 8 9 10 次のページ