並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 152 件 / 152件

新着順 人気順

Pandasの検索結果121 - 152 件 / 152件

  • 【Python】PandasのDataFrameで特定の行を爆速で更新する方法

    10000 rows × 5 columns 更新するデータ target_index = df[np.random.choice([True, False], size=len(df))].index target_value = np.random.randint(low=1000, high=3000, size=len(target_index)) replace_series = pd.Series(target_value, index=target_index) # DataFrameでの置き換えも試してみているので作成。上記と同じデータ。 replace_df = replace_series.to_frame('value') 問題だったコード %%timeit transformed_df = df.copy() for index, row in replace_df

      【Python】PandasのDataFrameで特定の行を爆速で更新する方法
    • pandasで=でコピーした場合とcopy()を使った場合の挙動の違い - Qiita

      pythonのpandasにおいては、dataframeのコピーを=で行うと、データのコピーではなく、いわゆる参照渡しになる。 そうすると、下記のように、コピー先の変数に対して操作を行った結果が、コピー元の変数に対して反映される。 import pandas as pd import numpy as np ## それぞれのやり方でコピーした場合のID df = pd.DataFrame({ 'A' : 'FOO', 'B' : 'foo', 'C' : 'ふー'}, index=[1,2,3]) # 確認(Before) display(df) # コピー(参照渡し) df_copy = df # コピーに対して、1を代入したD列を追加する df_copy['D'] = 1 # 確認(After) display(df)

        pandasで=でコピーした場合とcopy()を使った場合の挙動の違い - Qiita
      • Practical SQL for Data Analysis

        Pandas is a very popular tool for data analysis. It comes built-in with many useful features, it's battle tested and widely accepted. However, pandas is not always the best tool for the job. SQL databases have been around since the 1970s. Some of the smartest people in the world worked on making it easy to slice, dice, fetch and manipulate data quickly and efficiently. SQL databases have come such

          Practical SQL for Data Analysis
        • Pythonで特定口座にあるオルカンを新NISAに買い換えるタイミングを分析してみる - Qiita

          目的 現在特定口座で積み立てているオールカントリー投資信託を新NISA口座に移し替えたい。実際移し替えることはできないので、投資信託を売って、買うことになる。積み立て枠は毎月10万売って10万買えば良い。では成長枠の240万はいつ売って、いつ買えば良いのか? 「セルインメイ(5月に売ってどこかに行け、セント・レジャー・デーまで戻ってくるな)」の格言通り5月に売れば良い? MSCIオールカントリーワールドインデックスの一年の値動きを分析してみる MSCIオールカントリーワールドインデックス(MSCI ACWI)の一年の値動きをYahoo Financeから取得したデータを元に分析してみることにする。 2008年からのデータになっているのはYahoo Financeに2008年より前のデータがないからだ。ちなみに2008年というとリーマンショックの年で、ここから各国中央銀行はじゃぶじゃぶ金融緩

            Pythonで特定口座にあるオルカンを新NISAに買い換えるタイミングを分析してみる - Qiita
          • データ分析に役立つメモリ管理・削減方法 - のんびりしているエンジニアの日記

            皆さんこんにちは お元気ですか。最近自炊が少しずつ捗ってきました。 本日はデータ分析でよく起こる「Memory Error」の対策を書いていこうと思います。 今回のはGPUではなく、CPUです。 そもそもなぜ「Memory Error」と遭遇するのか 大量のデータを解析する、もしくは、大量の特徴量を扱うからです。 または、途中の巨大途中処理が原因で載らなくなったとかですね。 その結果、マシンが落ちることもデータ分析している人が陥るよくあることです。 その場合の処方箋を書いていこうと思います。 メモリ対策 不要な変数のメモリを開放する。 一番シンプルで、もういらないから消してしまえという方式です。 方法は単純です。変数をdelして、ガーベジコレクション(不要なメモリを回収し、空ける方式)を実行することです。 例えば、次の通りです。 import gc import numpy as np m

              データ分析に役立つメモリ管理・削減方法 - のんびりしているエンジニアの日記
            • GitHub - vizzuhq/ipyvizzu: Build animated charts in Jupyter Notebook and similar environments with a simple Python syntax.

              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                GitHub - vizzuhq/ipyvizzu: Build animated charts in Jupyter Notebook and similar environments with a simple Python syntax.
              • R ユーザーのための Pandas 実践ガイド II: siuba と datar - ill-identified diary

                概要 以前にも書いたように Python の pandas は参照透過性に欠けるため, 何度も書き換えて使用するような使い方に向いていない. これは pandas の用途と合わない. pandas をもっと快適にデータハンドリングする方法がないか探したところ, siuba, datar というパッケージを見つけたので紹介する. これらのパッケージの特徴を挙げ, 実験によるパフォーマンス比較してみた. 個人的には siuba のほうが信頼できると思うが, 現時点ではどちらも発展途上のパッケージである. 以前の続きということでタイトルを踏襲したが, 実は私がこれらのパッケージを知ったのは昨日なので「実践」的かどうかは少し疑わしい タイトルの通り R を知っている pandas ユーザーを想定読者としているが, R ユーザでなくても再利用のしやすい書き方は知っていて損はないと思う. その場合は実

                  R ユーザーのための Pandas 実践ガイド II: siuba と datar - ill-identified diary
                • pandasの時系列データにおける頻度(引数freq)の指定方法 | note.nkmk.me

                  pandasの時系列データに対するメソッドの引数で頻度(freq)を指定することが度々ある。頻度を表す文字列(頻度コード)と数値で任意の頻度や期間を指定できる。 例えば元データをリサンプリングするresample()やasfreq()メソッドなどで使う。 関連記事: pandasで時系列データをリサンプリングするresample, asfreq ここでは例としてpd.date_range()を使って、頻度(freq)の指定方法について説明する。 pandas.date_range — pandas 0.23.3 documentation 以下の内容について説明する。 頻度コード一覧 日付関連 時刻関連 数値で間隔を指定 複数の頻度コードの組み合わせ pandas.DataFrameやpandas.Seriesのインデックスをdatetime64型のDatetimeIndexとして設定し時

                    pandasの時系列データにおける頻度(引数freq)の指定方法 | note.nkmk.me
                  • Pandas: JSONはPandasで直接読み込める(知らなかった…)

                    Image by ArtTower JSON ファイルのデータを料理したい🍕 JSON ファイルに入っているデータを料理したい。そこで、Pandas へ JSON を読み込んで片付けよう!。 さて。 今までは、JSON の中身を覗いたり、ちょっとデータを追加したりする程度だったので Vlad Badea さんの超有能アプリケーション、JSON Editor で良かったのですが、今回は少々手の込んだことをする必要があるのでどうしようかなと。 Why Japanese people? たしか、組み込み python module [1] にまさにそのものズバリ、json [2]というのがあったはず。json って基本的に dictionary なんだから、薄切りだろうと厚切りだろうと、Pandas へ JSON を読み込み どうとでも料理できる! というわけで、さっそく、 Script 1

                      Pandas: JSONはPandasで直接読み込める(知らなかった…)
                    • J-PlatPat特許検索データの分析 - Qiita

                      科学技術と関連するWebでの情報調査と分析を行っています。 特許データはJ-PlatPatで収集できます。J-PlatPatは独立行政法人工業所有権情報・研修館が提供する特許検索情報サイトです。特許庁のHPからもアクセスすることができます。 J-PlatPatでは、検索結果をcsvファイルにダウンロードできます。また、検索結果の分類コード(FI)ランキングを画面上で確認でき、コピペでスプレッドシートに保存できます。 さらに、検索された各特許は、全文をPDFファイルとしてダウンロードしたり、請求項と詳細な説明は画面上開いてコピペすることができます。 この記事では、J-PlatPatでの検索結果情報から、 公知年別件数推移 出願人別件数ランキング FI分類コード別件数ランキング をPythonで可視化しました。 ダウンロードするcsvには要約を含めることもできますので、自然言語処理を用いた分析

                        J-PlatPat特許検索データの分析 - Qiita
                      • How can I iterate over rows in a Pandas DataFrame?

                        I have a pandas dataframe, df: c1 c2 0 10 100 1 11 110 2 12 120 How do I iterate over the rows of this dataframe? For every row, I want to access its elements (values in cells) by the name of the columns. For example: for row in df.rows: print(row['c1'], row['c2']) I found a similar question, which suggests using either of these: for date, row in df.T.iteritems(): for row in df.iterrows(): But I d

                          How can I iterate over rows in a Pandas DataFrame?
                        • 図解!Pandas DataFrameのmergeによる結合(JOIN) - ビジPy

                          データを分析する上では、通常は1つのDataFrameだけではなく、複数のDataFrameを組み合わせて、データを確認・分析していく必要があります。その際に必要となるのが、結合の処理です。 DataFrameの結合方法を、データベースにおけるSQLでのテーブルの結合方法に例えると、結合には行単位の連結であるUNION(ユニオン)と、列単位の連結であるJOIN(ジョイン)の2種類があり、それぞれ次のようなものになります。 行単位の連結(UNION):同じ列をもつDataFrameを縦(行を増やす)方向に連結する。列単位の連結(JOIN):結合するキーとなる列を元に、DataFrameを横(列を増やす)方向に連結する。 この記事では、DataFrameの結合方法の1つである列単位の結合(JOIN)について学んでいきましょう。Pandasではmerge()を利用して、DataFrameに対して

                            図解!Pandas DataFrameのmergeによる結合(JOIN) - ビジPy
                          • Python matplotlib 時系列グラフ(時間軸の設定) - Qiita

                            データ読み込み データは2つのエクセルファイルから読み込みます。 ファイル calvert.xlsx 1つめのデータは下に示すもので、作例グラフの緑線を描くためのもの。 エクセルで以下のような形で収納されています。これは自分でデータを打ち込んだので、打ち込みやすいよう、日付(dd)、月(mm)、年(yy)、値(Q) という並びにしています。 欠測期間が長く、グラフの線を連続させたくない場合は、欠測期間中のある一日の日付とデータとして nan をいれることにより、グラフの線を結ばないで描画してくれます。 ファイル v-notch.xlsx 2つめのデータは下に示すもので、作例グラフの濃い青線を描くためのもの。 これは既存のエクセルファイルがあったのでそれを用いていますが、ここで使用するのは、カラム A (Date)とカラム N (RWL) だけです。 エクセルファイルからのデータ読み込み エ

                              Python matplotlib 時系列グラフ(時間軸の設定) - Qiita
                            • Scaling Pandas: Dask vs Ray vs Modin vs Vaex vs RAPIDS

                              Scaling Pandas: Comparing Dask, Ray, Modin, Vaex, and RAPIDSHow can you process more data quicker? Python and its most popular data wrangling library, Pandas, are soaring in popularity. Compared to competitors like Java, Python and Pandas make data exploration and transformation simple. But both Python and Pandas are known to have issues around scalability and efficiency. Python loses some efficie

                                Scaling Pandas: Dask vs Ray vs Modin vs Vaex vs RAPIDS
                              • Pandas DataFrame Visualization Tools - Practical Business Python

                                Introduction I have talked quite a bit about how pandas is a great alternative to Excel for many tasks. One of Excel’s benefits is that it offers an intuitive and powerful graphical interface for viewing your data. In contrast, pandas + a Jupyter notebook offers a lot of programmatic power but limited abilities to graphically display and manipulate a DataFrame view. There are several tools in the

                                  Pandas DataFrame Visualization Tools - Practical Business Python
                                • GitHub - microsoft/coding-pack-for-python: Documentation and issues for the VS Code Python installer.

                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                    GitHub - microsoft/coding-pack-for-python: Documentation and issues for the VS Code Python installer.
                                  • pandasでShift JIS(cp932)で書き出す時のUnicodeErrorと戦う(Pyhton3 windows10) - HYT MachineWorks

                                    pandasでShift JISで書き出す際に出るUnicode Errorとは? 以下のようなコードでpandasでshift JIS(cp932)でcsvを書き出そうとすると import pandas as pd # エラーが出るデータを作成 unicode_data = [["全角\u0020スペース\n", "\xA0ノンブレークスペース"] for _ in range(100)] # dataframeに変換 df = pd.DataFrame(unicode_data) # pandasでshift-jisとして書き込む df.to_csv("./test_sjis.csv", encoding="cp932") 以下のようにエラーが出ることがある。 Traceback (most recent call last): File "C:/Users/hyt/python/p

                                      pandasでShift JIS(cp932)で書き出す時のUnicodeErrorと戦う(Pyhton3 windows10) - HYT MachineWorks
                                    • GitHub - nalepae/pandarallel: A simple and efficient tool to parallelize Pandas operations on all available CPUs

                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                        GitHub - nalepae/pandarallel: A simple and efficient tool to parallelize Pandas operations on all available CPUs
                                      • pandas の DataFrame と SQL の記述方法の比較 - Qiita

                                        動機 仕事で AI や機械学習、データ分析といった技術を身に付ける必要性ができ、 まずは Python を使ったデータ分析を修得するために pandas を 利用したデータ分析にチャレンジしています。 自分にはシステム開発経験があり SQL には使い慣れているのですが、 pandas のデータ分析の記述方法があまり理解できない状況でした。 巷では「pandas は SQL と似ている」といった表現をよく聞くので、 それならば SQL での書き方を pandas の書き方と比較したら 理解が深まるのではないかと思い、今回まとめてみました。 なお本記事は、ある程度のターミナル操作や MySQL、Python、pandas についての知識がある方を対象としています。 なお、ここからの説明は長いためコードの比較結果のみを見たい場合は、 比較結果まとめを参照ください。 環境 項目 内容

                                          pandas の DataFrame と SQL の記述方法の比較 - Qiita
                                        • YutaKaのPython教室

                                          2024-10-06 Google広告でTemuの広告を減らす方法|マイアドセンター設定ガイド PC基本設定 Googleのマイアドセンターを使って、Temuの広告表示を減らす方法を紹介します。簡単なステップで、個別の広告表示頻度を調整し、よりパーソナライズされた広告体験を得られます。Temuの広告が多すぎると感じた場合、この設定を活用して広告のカスタマイズを… 2024-10-05 Raspberry Pi 5にMinicondaをインストールしてPython開発環境を構築する方法【初心者向けガイド】 Anaconda Raspberry Pi この記事では、Raspberry Pi 5にMinicondaをインストールしてPythonの開発環境を構築する方法を詳しく解説しています。Anacondaより軽量なMinicondaを利用することで、仮想環境の管理やライブラリのインストールが簡

                                            YutaKaのPython教室
                                          • Jupyter Notebook で画像をダウンロードすることなく、URLから参照してPandas DataFrame内部に表示させる

                                            Jupyter Notebook で画像をダウンロードすることなく、URLから参照してPandas DataFrame内部に表示させる 2021-12-28 データ分析などをしていると、画像はダウンロードせずに特定の CDN (GCP なら GCS, AWS なら S3 など)で提供されている画像を参照して、 Jupyter Notebook 上で良い感じに表示させたいときがありませんか? 例えば、画像と説明文がペアになっているデータを画像自体はダウンロードせずに Jupyter 上で画像と説明文を DataFrame として表示させたいときが多々ある。 元の画像自体は CDN に格納されていて、画像をダウンロードする必要はなく参照するだけのときにはすごく便利。 毎度画像を CDN からダウンロードするのも無駄なので、画像を加工せずに Jupyter 上で表示するだけなら、この方法がベスト

                                              Jupyter Notebook で画像をダウンロードすることなく、URLから参照してPandas DataFrame内部に表示させる
                                            • JSONファイルをフラットなpandasデータフレームに変換 - Qiita

                                              JSONファイルをpandasのデータフレームに変換したいことがあります。pd.read_jsonというメソッドがありますが、JSONファイルはネスト構造になっていたり、リストを含んでいたり、読み出しルートが違ったりとpd.read_jsonでは望む形に変換できないことがあります。 この記事では ①シンプルな構造のJSON ②ネスト構造のJSON ③ネスト構造とリストを含むJSON ④ルートが読み出しルートではないJSON という4つのパターンのJSONで読み方を検討し、最終的にはすべてのパターンに対応できるスクリプトを用意しました。 サンプル・ノートブック サンプル・データ ①シンプルな構造のJSONの読込 以下のようなシンプルなJSONはpd.read_jsonで読むことができます。 [ { "id":1000, "UP_TIME":0, "POWER":948, "TEMP":250

                                                JSONファイルをフラットなpandasデータフレームに変換 - Qiita
                                              • pandasでUnicodeDecodeError が出たときにやることまとめ - 私の備忘録がないわね...私の...

                                                pandasでCSVファイルを読み込むときにUnicodeDecodeErrorが出た、そんなときは以下のどれかを試しておけばまぁ上手くいくはず......みたいな備忘録 import pandas as pd 普通 選択肢1 選択肢2 選択肢3 選択肢4 参考文献 普通 df = pd.read_csv(path, encoding="utf-8") pd.read_csvはデフォルトでencoding=Noneですが、中身の処理的にはencoding="utf-8"と同じです。 選択肢1 df = pd.read_csv(path, encoding="utf-8-sig") Excelで編集されたCSVファイルとかはよくこれを使うことになります。 選択肢2 df = pd.read_csv(path, encoding="shift-jis") 日本語のCSVファイルだとたまに使いま

                                                  pandasでUnicodeDecodeError が出たときにやることまとめ - 私の備忘録がないわね...私の...
                                                • pandera documentation

                                                  • Pandasでforループを回して処理する方法と注意点

                                                    DataFrameのイテレーション 行ごとのforループ 列ごとの値にアクセス 値の更新 一部の列のみを取り出して処理 Seriesのイテレーション アイテムごとに処理するforループ インデックスラベルごとに処理するforループ 値の更新 forループを使わない方法 まとめ 参考 PandasのDataFrame内の値を使ってforループを回したい時、通常行ごとの処理ならiterrows関数を、列ごとの処理ならiteritems関数をジェネレーターとして使うことが多いです。 本記事では、 DataFrameで行ごとに処理する方法 DataFrameで列ごとに処理する方法 Seriesで値ごとに処理する方法 について解説します。 DataFrameのイテレーション 行ごとのforループ 行ごとにDataFrameを処理したい場合はiterrows関数を使います。 In [1]: impor

                                                      Pandasでforループを回して処理する方法と注意点
                                                    • Kaggle learnで学ぶ機械学習の基礎(初級編) - Qiita

                                                      Kaggleで始める機械学習入門でKaggleのアカウントを作成して、一通りの操作ができました。次はKaggle learnの以下の初級講座を使って機械学習の基礎を学習します。 この初級講座は7回のレッスンで構成されており、各回は解説パート(tutorial)と実践パート(exercise)に分かれています。実践パートでは、コンペと同様のNotebookでコードを動かす形になります。 実際にやってみた感想です。 <良かった点> ・1回1時間程度でサクッとできる ・1回あたりの内容は比較的かんたんで理解しやすい ・解説パートで学んだコードを実践パートで入力し、答え合わせできるので達成感がある <悪かった点> ・すべて英語… 英語なのは仕方ないですね。DeepLに頼りながら読み進めました。 内容としては、まず決定木を使ってシンプルなモデルを構築します。次にその結果を評価する方法を学び、良いモデ

                                                        Kaggle learnで学ぶ機械学習の基礎(初級編) - Qiita
                                                      • japanmapライブラリで都道府県データを可視化してみる | DevelopersIO

                                                        はじめに データアナリティクス事業本部のkobayashiです。 以前Google Colaboratory(以下Colab)でBigQueryのデータを扱うエントリを書きましたが、その中でデータをColabで可視化する際に都道府県別のデータを日本地図で表現するライブラリを使いました。そのライブラリの使い勝手が良かったので深堀りをしてみます。 japanmap · PyPI GitHub - SaitoTsutomu/japanmap japanmapとは できるとこはとてもシンプルで都道府県別に日本地図を塗り分けるライブラリです。 使い方は「辞書型で色情報を渡す」のか「PandasのSeriesで色情報を渡す」の2パターンがあります。 辞書型で色情報を渡す 都道府県名:色情報で辞書を作成してjapanmapのライブラリに指定すれば良いだけです。 色情報は以下の型式で指定します。 カラー名

                                                          japanmapライブラリで都道府県データを可視化してみる | DevelopersIO
                                                        • Python用データ分析ライブラリ「pandas」の読み方(発音)

                                                          Python用データ分析ツール「pandas」の正しい読み方をご存知ですか? 筆者は何となく勝手に「パンダス」だと思っていたのですが、どうやらそれほど単純な話ではなさそうです。改めて、pandasの正しい読み方について、調べてみました。 1.   英語の原則としてはどう発音するのか まず、「pandas」は「panda(パンダ)」の複数形と同じスペルなので、それを英語では原則としてどう発音するのかを調べました。 ちなみに英語で「panda」は、ジャイアントパンダを表す場合と、レッサーパンダ(red panda)を表す場合があるようです。

                                                          • pandasのDataFrameをfloatからintに変換する方法 - 子供の落書き帳 Renaissance

                                                            「pandas float int 変換」で検索する人が結構いるので、まとめておきます。 準備 1列だけをfloatからintに変換する 複数列をfloatからintに変換する すべての列をfloatからintに変換する 文字列とかがある場合は? NaNを含む場合は? int型で欠損値をNaNのままで扱う方法は 何でみんなこれで検索してるのか(read_csvでfloatになってしまった?) 準備 import pandas as pd import numpy as np pd.options.display.notebook_repr_html = False # jupyter notebook上での出力形式を制御するために書いています。無くても動きます。 # 動作環境の確認 print(pd.__version__) print(np.__version__) # --------

                                                              pandasのDataFrameをfloatからintに変換する方法 - 子供の落書き帳 Renaissance
                                                            • 【保存版】Pandas2.0のread_csv関数の全引数、パフォーマンス、活用テクニックを完全解説する! - Qiita

                                                              はじめに みずほリサーチ&テクノロジーズ株式会社の@fujineです。 本記事ではpandas 2.0を対象に、CSVファイルの入力関数である read_csvの全49個(!)の引数をじっくり解説 いたします。具体的には、 各引数には、どんな効果や(公式ドキュメントにも記載されていない)制約があるのか? 引数を工夫することで、処理時間やメモリ消費量などのパフォーマンスが具体的にどれだけ改善されるのか? pandasのver2.0では、それ以前のバージョンからどう変化したのか? 多くの引数を保守しやすく管理するにはどうしたらいいか? を体系的に整理・検証することを目指します。 新入社員/若手社員向けのレクチャーや、これまで「何となく」使っていた引数を「効果的に」使えるようになるためのノウハウ集としてご活用下さい! read_csvの引数が49個もある理由 「ただCSVを読み込むだけなのに、な

                                                                【保存版】Pandas2.0のread_csv関数の全引数、パフォーマンス、活用テクニックを完全解説する! - Qiita
                                                              • PandasのDataFrameのメモリ使用量を見る | mwSoft

                                                                PandasのDataFrameのメモリ使用量を見る 概要 PandasのDataFrameを扱う際に、実際にどの程度メモリを消費しているかを確認したかった。疎行列についても。 pandas.DataFrame.info() メモリ使用量はpandas.DataFrame.info() で見れるらしい。 # 200個のnp.intが入ったDataFrameの作成 df = pd.DataFrame( np.zeros(200).reshape(100, 2), columns=['foo', 'bar'] ) df.info() #=> <class 'pandas.core.frame.DataFrame'> #=> Int64Index: 100 entries, 0 to 99 #=> Data columns (total 2 columns): #=> foo 100 non-n

                                                                • Functions & DAGs: introducing Hamilton, a microframework for dataframe generation | Stitch Fix Technology – Multithreaded

                                                                    Functions & DAGs: introducing Hamilton, a microframework for dataframe generation | Stitch Fix Technology – Multithreaded

                                                                  新着記事