以下イベントでの発表内容です 『Polarsとpandasで学ぶデータ処理アイデアレシピ55』出版記念Polars勉強会 https://connpass.com/event/333059/

データアナリティクス事業本部のueharaです。 今回は、pandasでEUC-JPの全角ハイフンがUTF-8に上手く変換できない際の対処法をご紹介します。 検証環境 前提として、今回は以下の端末で検証をしています。 MacBook Pro(macOS Monterey) 全角ハイフンが上手く変換できない事象について 以下の EUC-JP の文字コードのcsvファイルを用意します。 1,関東-123 2,北海道-ABC 3,九州-456 こちらをpandasの read_csv() 関数で読み取り、そのままUTF-8で to_csv() 関数により出力してみます。 import pandas as pd df = pd.read_csv("sample_eucjp.csv", encoding="EUC-JP", header=None, dtype=object) df.to_csv("
Kaggleで始める機械学習入門でKaggleのアカウントを作成して、一通りの操作ができました。次はKaggle learnの以下の初級講座を使って機械学習の基礎を学習します。 この初級講座は7回のレッスンで構成されており、各回は解説パート(tutorial)と実践パート(exercise)に分かれています。実践パートでは、コンペと同様のNotebookでコードを動かす形になります。 実際にやってみた感想です。 <良かった点> ・1回1時間程度でサクッとできる ・1回あたりの内容は比較的かんたんで理解しやすい ・解説パートで学んだコードを実践パートで入力し、答え合わせできるので達成感がある <悪かった点> ・すべて英語… 英語なのは仕方ないですね。DeepLに頼りながら読み進めました。 内容としては、まず決定木を使ってシンプルなモデルを構築します。次にその結果を評価する方法を学び、良いモデ
shape: (891, 12) ┌─────────────┬──────────┬────────┬──────────────────┬───┬────────────┬─────────┬───────┬──────────┐ │ PassengerId ┆ Survived ┆ Pclass ┆ Name ┆ … ┆ Ticket ┆ Fare ┆ Cabin ┆ Embarked │ │ --- ┆ --- ┆ --- ┆ --- ┆ ┆ --- ┆ --- ┆ --- ┆ --- │ │ i64 ┆ i64 ┆ i64 ┆ str ┆ ┆ str ┆ f64 ┆ str ┆ str │ ╞═════════════╪══════════╪════════╪══════════════════╪═══╪════════════╪═════════╪═══════╪═══════
これは何? この記事は Kaggle Advent Calendar 2021 の7日目の記事です。 pandasはデータ分析ライブラリとして非常に便利ですが、書き方を間違えると簡単に処理が遅くなってしまうという欠点があります。そこで、この記事では遅くならない書き方をするために気をつけたいポイントをいくつかご紹介したいと思います。 この Colab Notebookの実行結果をエクスポートした上で、不要な部分を一部削って記事にしています。colab notebook をコピーして実行してもらえれば再現することが可能なはずです。(colabにコメント等をいただいても返すことはできないと思います、すみません。) 前提条件 この記事ではあくまで「遅くない(なりづらい)書き方を紹介する」ことに努めます。よって、以下のような改善点はあるが一旦考慮の外におくものとして話を進めます。 並列化ライブラリ
pandas ではデータを 列 や 表形式のデータ構造として扱うが、これらのデータから順番に値を取得 (イテレーション) して何か操作をしたい / また 何らかの関数を適用したい、ということがよくある。このエントリでは以下の 3 つについて整理したい。 イテレーション 関数適用 pipe (0.16.2 で追加) それぞれ、Series、DataFrame、GroupBy (DataFrame.groupbyしたデータ) で可能な操作が異なるため、順に記載する。 まずは必要なパッケージを import する。 import numpy as np import pandas as pd イテレーション Series Series は以下 2つのイテレーション用メソッドを持つ。各メソッドの挙動は以下のようになる。 __iter__: Series の値 ( values ) のみをイテレーシ
概要 書いていて長くなったため、まず前編として pandas で データを行 / 列から選択する方法を少し詳しく書く。特に、個人的にはけっこう重要だと思っている loc と iloc について 日本語で整理したものがなさそうなので。 サンプルデータの準備 import pandas as pd s = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3']) df = pd.DataFrame({'C1': [11, 21, 31], 'C2': [12, 22, 32], 'C3': [13, 23, 33]}, index = ['I1', 'I2', 'I3']) s # I1 1 # I2 2 # I3 3 # dtype: int64 df # C1 C2 C3 # I1 11 12 13 # I2 21 22 23 # I3 31 32
Big Data Analytics with Pandas and SQLite in Python/v3 A primer on out-of-memory analytics of large datasets with Pandas, SQLite, and IPython notebooks. Note: this page is part of the documentation for version 3 of Plotly.py, which is not the most recent version. See our Version 4 Migration Guide for information about how to upgrade. New to Plotly?¶Plotly's Python library is free and open source!
By Francesca Lazzeri. This article is an extract from the book Machine Learning for Time Series Forecasting with Python, also by Lazzeri, published by Wiley. In the first and second articles in this series, I showed how to perform feature engineering on time series data with Python and how to automate the Machine Learning lifecycle for time series forecasting. In this third and concluding article,
SAIGの小橋昌明です。業務ではずっとPythonを書いています。 今回は Python連載 の6日目です。 Pythonを使ってデータ分析をする上で無くてはならないのがpandasです。リリースノートを見てみると、メジャーアップデートによる1.0.0 がリリースされたのが2020年の1月で、現時点での最新は1.3.3です。 ただ、1.0以降の機能で私自身が使ってるものは何だろうかと考えてみると、query関数のエスケープシーケンスだけしか使っていない気がします。DataFrameから条件を指定してデータを抽出するquery関数は、列名に記号を含んでいたりすると上手く動かないことがありますが、v1.0以降はbacktick記号 (` ` )で囲むと動くようになりました。リリースノートはこちら。 しかし上記は新しい機能のごく一部にすぎません。せっかくバージョンアップされているのに、機能を使わ
Pandas で groupby() 関数を使うと,データセットをグループ化して集計できる.さらに Grouper オブジェクトと組み合わせると,より高機能なグループ化を実現できる.今回は groupby() 関数と Grouper オブジェクトを組み合わせて「時系列データの集計」を試す.最後に関連する resample() 関数も試す. pandas.DataFrame.groupby — pandas 1.2.4 documentation pandas.Grouper — pandas 1.2.4 documentation データセット 🪢 今回使うサンプルデータセットを準備する.まず,Pandas の date_range() 関数を使って 2020/1/1 ~ 2020/12/31 の範囲で1年間の DatetimeIndex を作る.そして DatetimeIndex をイ
アヒル本とは アヒル本「StanとRでベイズ統計モデリング」、ベイズ界隈では有名な書籍です。 ベイズ推定を実装したい、と思ったときにまず最初に手に取ると良いでしょう。 しかし、ベイズとは何かという点について解説している本ではないため、ベイズの枠組みで事例を積み重ねることで事後分布を更新できるために得られる利点などについて納得ができていない方は、ベイズ自体の基礎的な解説を読んでからチャレンジしたほうが良いと思います。 なぜPythonか 上記本のオフィシャルでは、タイトルどおり実装はRなんですね。 Pythonで実装したい方も多いと思います。 私もその一人でしたので、Python実装をつくりました。 Python実装にあたって Stanのインターフェイスについては、PyStanでRとほぼ変わらない使いごこちを実現できます。 一方で、データ整形についてはPandasを使うので、Rとはかなり異な
English version available on dev.to はじめに matplotlibで作ったグラフの細かい調整は大変です。何をどういじったらいいのかを調べるのにアホみたいに時間がかかることがあります1。「何を」の部分の名前さえわからないこともあります。解決の糸口を掴んだ後も希望通りの見た目を実現するまでの最後のアレンジに苦労することが多いです2。これらの問題は__matplotlibのグラフがどういう要素で構成されていて、それらに対してどういうことができるかを知る__ことでいくらか改善されます。私はひたすらStack Overflowの回答を読むことでいろんなつまづきを時間をかけて乗り越えてきましたが、最近になってようやく公式チュートリアルにこの苦労を回避できたはずのヒントが書いてあることに気づきました。初期にざっと目を通したのですが「なるほど、よくわからん」と判断して読
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く