[B! pandas][python] clavierのブックマーク

clavier id:clavier

pandasとpythonに関するclavierのブックマーク (75)

pandasはPolarsに性能面で追いつき追い越せるのか
以下イベントでの発表内容です『Polarsとpandasで学ぶデータ処理アイデアレシピ55』出版記念Polars勉強会 https://connpass.com/event/333059/
clavier 2024/11/14
pandas

polars

python
リンク
【Python】pandasでEUC-JPの全角ハイフンがUTF-8に上手く変換できない際の対処法 | DevelopersIO
データアナリティクス事業本部のueharaです。今回は、pandasでEUC-JPの全角ハイフンがUTF-8に上手く変換できない際の対処法をご紹介します。検証環境前提として、今回は以下の端末で検証をしています。 MacBook Pro（macOS Monterey) 全角ハイフンが上手く変換できない事象について以下の EUC-JP の文字コードのcsvファイルを用意します。 1,関東－１２３ 2,北海道－ＡＢＣ 3,九州－４５６こちらをpandasの read_csv() 関数で読み取り、そのままUTF-8で to_csv() 関数により出力してみます。 import pandas as pd df = pd.read_csv("sample_eucjp.csv", encoding="EUC-JP", header=None, dtype=object) df.to_csv("
clavier 2024/01/30
python

pandas
リンク
Kaggle learnで学ぶ機械学習の基礎（初級編） - Qiita
Kaggleで始める機械学習入門でKaggleのアカウントを作成して、一通りの操作ができました。次はKaggle learnの以下の初級講座を使って機械学習の基礎を学習します。この初級講座は７回のレッスンで構成されており、各回は解説パート(tutorial)と実践パート(exercise)に分かれています。実践パートでは、コンペと同様のNotebookでコードを動かす形になります。実際にやってみた感想です。＜良かった点＞・１回１時間程度でサクッとできる・１回あたりの内容は比較的かんたんで理解しやすい・解説パートで学んだコードを実践パートで入力し、答え合わせできるので達成感がある＜悪かった点＞・すべて英語… 英語なのは仕方ないですね。DeepLに頼りながら読み進めました。内容としては、まず決定木を使ってシンプルなモデルを構築します。次にその結果を評価する方法を学び、良いモデ
clavier 2024/01/15
kaggle

pandas

study

data

python
リンク
import polars as pd でどこまでいけるか！ - Qiita
shape: (891, 12) ┌─────────────┬──────────┬────────┬──────────────────┬───┬────────────┬─────────┬───────┬──────────┐ │ PassengerId ┆ Survived ┆ Pclass ┆ Name ┆ … ┆ Ticket ┆ Fare ┆ Cabin ┆ Embarked │ │ --- ┆ --- ┆ --- ┆ --- ┆ ┆ --- ┆ --- ┆ --- ┆ --- │ │ i64 ┆ i64 ┆ i64 ┆ str ┆ ┆ str ┆ f64 ┆ str ┆ str │ ╞═════════════╪══════════╪════════╪══════════════════╪═══╪════════════╪═════════╪═══════╪═══════
clavier 2024/01/02
pandas

python

polars

qiita
リンク
本当に最低限だけ覚えて一瞬で使い始めるPolars入門 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
clavier 2024/01/02
pandas

python

data
リンク
知っていますか？Pandasをノーコーディングで高速化（CPU環境でも）できるらしい… FireDucks🔥🐦 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
clavier 2024/01/02
pandas

python

あとで読む

performance

programming
リンク
遅くないpandasの書き方 - ML_BearのKaggleな日常
これは何？この記事は Kaggle Advent Calendar 2021 の7日目の記事です。 pandasはデータ分析ライブラリとして非常に便利ですが、書き方を間違えると簡単に処理が遅くなってしまうという欠点があります。そこで、この記事では遅くならない書き方をするために気をつけたいポイントをいくつかご紹介したいと思います。この Colab Notebookの実行結果をエクスポートした上で、不要な部分を一部削って記事にしています。colab notebook をコピーして実行してもらえれば再現することが可能なはずです。(colabにコメント等をいただいても返すことはできないと思います、すみません。) 前提条件この記事ではあくまで「遅くない(なりづらい)書き方を紹介する」ことに努めます。よって、以下のような改善点はあるが一旦考慮の外におくものとして話を進めます。並列化ライブラリ
clavier 2021/12/13
pandas

python

tuning

programming

tips
リンク
Financial market data analysis with pandas - wrighters.io
clavier 2021/12/07
pandas

python
リンク
GitHub - lux-org/lux: Automatically visualize your pandas dataframe via a single print! 📊 💡
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
clavier 2021/12/03
data

python

visualization

pandas

github

recommendation
リンク
Python pandas データのイテレーションと関数適用、pipe - StatsFragments
pandas ではデータを列や表形式のデータ構造として扱うが、これらのデータから順番に値を取得 (イテレーション) して何か操作をしたい / また何らかの関数を適用したい、ということがよくある。このエントリでは以下の 3 つについて整理したい。イテレーション関数適用 pipe (0.16.2 で追加) それぞれ、Series、DataFrame、GroupBy (DataFrame.groupbyしたデータ) で可能な操作が異なるため、順に記載する。まずは必要なパッケージを import する。 import numpy as np import pandas as pd イテレーション Series Series は以下 2つのイテレーション用メソッドを持つ。各メソッドの挙動は以下のようになる。 __iter__: Series の値 ( values ) のみをイテレーシ
clavier 2021/11/07
pandas

python

statistics

map

あとで読む

development
リンク
Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments
概要書いていて長くなったため、まず前編として pandas でデータを行 / 列から選択する方法を少し詳しく書く。特に、個人的にはけっこう重要だと思っている loc と iloc について日本語で整理したものがなさそうなので。サンプルデータの準備 import pandas as pd s = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3']) df = pd.DataFrame({'C1': [11, 21, 31], 'C2': [12, 22, 32], 'C3': [13, 23, 33]}, index = ['I1', 'I2', 'I3']) s # I1 1 # I2 2 # I3 3 # dtype: int64 df # C1 C2 C3 # I1 11 12 13 # I2 21 22 23 # I3 31 32
clavier 2021/11/07
python

pandas

statistics

development

data

programming

machinelearning
リンク
正規表現のポテンシャルを引き出す自作関数３選 [Python] - Qiita
はじめに文字列処理に関する3種類の自作関数を紹介します。具体的には、主に以下の2点を目的としています。・正規表現の円滑な適用・英字 / かな / カナ / 漢字 / 数字の識別 ☆ 02/26 時点で全体構成を刷新しました。下準備
clavier 2021/11/07
python

pandas

あとで読む

Qiita
リンク
Big
Big Data Analytics with Pandas and SQLite in Python/v3 A primer on out-of-memory analytics of large datasets with Pandas, SQLite, and IPython notebooks. Note: this page is part of the documentation for version 3 of Plotly.py, which is not the most recent version. See our Version 4 Migration Guide for information about how to upgrade. New to Plotly?¶Plotly's Python library is free and open source!
clavier 2021/11/06
pandas

analytics

sqlite

python

plotly
リンク
Pythonによるアクセスログ解析入門 / Tutorial on Access Log Analysis by Python
PyConJP 2021での発表(https://2021.pycon.jp/time-table?id=269506) で利用した資料です。サンプルコード (https://colab.research.google.com/drive/1r4GcXWvM-j-dlfT0XF-O-Y5DiyAM-gG…
clavier 2021/11/04
pandas

logging

tutorial

python

study

analytics
リンク
Python open source libraries for scaling time series forecasting solutions
By Francesca Lazzeri. This article is an extract from the book Machine Learning for Time Series Forecasting with Python, also by Lazzeri, published by Wiley. In the first and second articles in this series, I showed how to perform feature engineering on time series data with Python and how to automate the Machine Learning lifecycle for time series forecasting. In this third and concluding article,
clavier 2021/11/03
python

data

pandas

あとで読む

study

DataScience

時系列解析
リンク
pandas 1.0以降での変更点を一部紹介します | フューチャー技術ブログ
SAIGの小橋昌明です。業務ではずっとPythonを書いています。今回は Python連載の6日目です。 Pythonを使ってデータ分析をする上で無くてはならないのがpandasです。リリースノートを見てみると、メジャーアップデートによる1.0.0 がリリースされたのが2020年の1月で、現時点での最新は1.3.3です。ただ、1.0以降の機能で私自身が使ってるものは何だろうかと考えてみると、query関数のエスケープシーケンスだけしか使っていない気がします。DataFrameから条件を指定してデータを抽出するquery関数は、列名に記号を含んでいたりすると上手く動かないことがありますが、v1.0以降はbacktick記号 (` ` )で囲むと動くようになりました。リリースノートはこちら。しかし上記は新しい機能のごく一部にすぎません。せっかくバージョンアップされているのに、機能を使わ
clavier 2021/11/03
python

pandas

tips

まとめ
リンク
Pandas で時系列データをグループ化して集計できる「Grouper」 - kakakakakku blog
Pandas で groupby() 関数を使うと，データセットをグループ化して集計できる．さらに Grouper オブジェクトと組み合わせると，より高機能なグループ化を実現できる．今回は groupby() 関数と Grouper オブジェクトを組み合わせて「時系列データの集計」を試す．最後に関連する resample() 関数も試す． pandas.DataFrame.groupby — pandas 1.2.4 documentation pandas.Grouper — pandas 1.2.4 documentation データセット 🪢 今回使うサンプルデータセットを準備する．まず，Pandas の date_range() 関数を使って 2020/1/1 ~ 2020/12/31 の範囲で1年間の DatetimeIndex を作る．そして DatetimeIndex をイ
clavier 2021/05/25
python

pandas
リンク
Pythonで実装するアヒル本「StanとRでベイズ統計モデリング」 - Qiita
アヒル本とはアヒル本「StanとRでベイズ統計モデリング」、ベイズ界隈では有名な書籍です。ベイズ推定を実装したい、と思ったときにまず最初に手に取ると良いでしょう。しかし、ベイズとは何かという点について解説している本ではないため、ベイズの枠組みで事例を積み重ねることで事後分布を更新できるために得られる利点などについて納得ができていない方は、ベイズ自体の基礎的な解説を読んでからチャレンジしたほうが良いと思います。なぜPythonか上記本のオフィシャルでは、タイトルどおり実装はRなんですね。 Pythonで実装したい方も多いと思います。私もその一人でしたので、Python実装をつくりました。 Python実装にあたって Stanのインターフェイスについては、PyStanでRとほぼ変わらない使いごこちを実現できます。一方で、データ整形についてはPandasを使うので、Rとはかなり異な
clavier 2020/07/05
python

R

統計

pandas
リンク
早く知っておきたかったmatplotlibの基礎知識、あるいは見た目の調整が捗るArtistの話 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? English version available on dev.to はじめに matplotlibで作ったグラフの細かい調整は大変です。何をどういじったらいいのかを調べるのにアホみたいに時間がかかることもあります1。「何を」の部分の名前さえわからないこともあります。解決の糸口を掴んだ後も希望通りの見た目を実現するまでの最後のアレンジに苦労することが多いです2。これらの問題は matplotlibのグラフがどういう要素で構成されていて、それらに対してどういうことができるかを知ることでいくらか改善されます。私はひたすらStack Ov
clavier 2020/04/19
matplotlib

tutorial

python

pandas

visualization
リンク
Google Colaboratoryでバグに悩まされずにcartopyを使う - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
clavier 2020/04/15
pandas

python

cartopy

Colaboratory
リンク
1 2 3 4 次のページ