タグ

pandasに関するmnruのブックマーク (20)

  • Pandasで特徴量取得する場合に使う操作をまとめてみた - のんびりしているエンジニアの日記

    皆さんこんにちは お元気ですか。私は元気です。 分析は基的にPythonを使って行います。(大体Pandasですが・・・) Pandasを利用すると色々できます。が、ふとどうするんだっけ処理が増えていきました。 自分のメモがてらカテゴリを分けて記録に残したいと思います。 最後のほうは特徴量の作り方集になっています。 Kaggleで実際に使ったことがある処理も数多く掲載しました。 思いついたら随時、追加しようと思います。 準備 ファイル操作 読み込み 書き込み テーブル操作 1行ごとに処理をする。 複数列を取得する。 選択操作 テーブル条件の指定 複数条件の指定 NaNを埋める。 カラム、テーブルの統計情報を取得する。 完全一致の列を発見し、除去する。 日付操作 日付から日などの情報を取得する。 2つ以上のDataFrameの結合操作 内部結合 外部結合 2つの結合処理 集計操作を使った特

    Pandasで特徴量取得する場合に使う操作をまとめてみた - のんびりしているエンジニアの日記
    mnru
    mnru 2017/08/29
  • https://pandas.pydata.org/pandas-docs/stable/comparison_with_r.html

    mnru
    mnru 2017/08/01
  • Pythonでのデータ分析初心者がまず見るべき情報源のまとめ - Qiita

    データ分析言語としてデータサイエンスの世界での存在を日々増している(と言われる)PythonPythonでのデータ分析、特にPandasの使い方についてまとめてみました。 ・Rユーザーの方がPythonを使いたい場合には特に有用だと思います。 ・基的なデータハンドリングの方法に主眼をおいています。 RユーザーがPandas,Numpyを使う場合の早見表 【Slide Share】Python for R uses Rで使う記法をPythonで再現するにはどうしたらいいかの 比較早見表が列記されており、RでやっていたことをPythonでやろうと 思ったらかなり有用だと思います。 http://www.slideshare.net/ajayohri/python-for-r-users 【Pandas Official】Pandas -comparison with R 上記と同様、Rで

    Pythonでのデータ分析初心者がまず見るべき情報源のまとめ - Qiita
    mnru
    mnru 2017/07/31
  • R vs Python:データ解析を比較 | POSTD

    主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま

    R vs Python:データ解析を比較 | POSTD
  • strftime を憶えられない (rubyの) - Qiita

    Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you can do with signing up

    strftime を憶えられない (rubyの) - Qiita
    mnru
    mnru 2017/05/31
  • pandasで様々な日付フォーマットを取り扱う - Qiita

    新生活応援期間中とのことですので,"pandas"の使い方,特に日付フォーマットについて取り上げたいと思います.「Pythonデータ分析に強い」という評判がありますが,これは以下のような「定番」パッケージによって実現されています. "pandas" for representing and analyzing data "NumPy" for basic numeriacal computation "SciPy" for scientific computation including statistics "StatsModels" for regression and other statistical analysis "matplotlib" for visualization (以上,"Think Stats" より引用.) pandas は,Seriesオブジェクト(1次元

    pandasで様々な日付フォーマットを取り扱う - Qiita
    mnru
    mnru 2017/05/31
  • Python pandas で日時関連のデータ操作をカンタンに - StatsFragments

    概要 Python で日時/タイムスタンプ関連の操作をする場合は dateutil や arrow を使っている人が多いと思うが、 pandas でもそういった処理がわかりやすく書けるよ、という話。 pandas の領は多次元データの蓄積/変形/集約処理にあるが、日時操作に関連した強力なメソッド / ユーティリティもいくつか持っている。今回は それらを使って日時操作を簡単に行う方法を書いてく。ということで DataFrame も Series もでてこない pandas 記事のはじまり。 ※ ここでいう "日時/タイムスタンプ関連の操作" は文字列パース、日時加算/減算、タイムゾーン設定、条件に合致する日時のリスト生成などを想定。時系列補間/リサンプリングなんかはまた膨大になるので別途。 インストール 以下サンプルには 0.15での追加機能も含まれるため、0.15 以降が必要。 pip

    Python pandas で日時関連のデータ操作をカンタンに - StatsFragments
    mnru
    mnru 2017/05/31
  • pandasで時系列データを扱う(pandas.Seriesとpandas.DataFrameを使って時系列データを扱う)1 - 日常メモ

    話題は変わるが、「pandasによるStackingとUnstacking」の続き。 時系列データについては、これまで以下で扱ったので重複する部分もあると思うが反復練習ということで気にしない。 ・Pythonでの時系列データの扱い1 〜 文字列とdatetimeの変換 ・Pythonでの時系列データの扱い2 〜 時系列データの作成および選択 ・Pythonでの時系列データの扱い3 〜 時系列データの頻度設定 ・Pythonでの時系列データの扱い4 〜 「祝日の取得」および「祝日を考慮した営業日の取得」 ・pandas_datareader.dataのDataReaderを使用して株価を取得する 〜 pandas.Panel型で取得したデータ構造からpandas.Panel.minor_xsを使用して特定の銘柄のDataFrameを取得する 扱うテーマは次。 1.時系列データとDatetim

    pandasで時系列データを扱う(pandas.Seriesとpandas.DataFrameを使って時系列データを扱う)1 - 日常メモ
    mnru
    mnru 2017/05/30
  • pandas の loc、iloc、ix の違い – python | コード7区

    from pandas import DataFrame df=DataFrame([[1,2,3], [10,20,30], [100,200,300], [1000,2000,3000]], index=['row_0', 'row_1','row_2','row_3'], columns=['col_0','col_1','col_2']) #----------------------------- # col_0 col_1 col_2 # row_0 1 2 3 # row_1 10 20 30 # row_2 100 200 300 # row_3 1000 2000 3000 #----------------------------- # # 行ラベルを指定 # df.loc[['row_2','row_3']] #----------------------------

    mnru
    mnru 2017/05/30
  • pandasでよく使う文法まとめ - Qiita

    Pythonデータ分析用ライブラリ「pandas」でよく使う文法をまとめました. Change log 2019-02-18 表示拡大の方法を更新 2018-05-06 コメント反映(pd.set_option('display.width', 100)) 2018-02-14 リンクの修正 2017-11-01 df.fillna(method='ffill')の説明を修正 2017-06-09 リンク切れ等の修正 2016-10-10 例の編集 2016-06-21 df.rolling, pd.date_range, pd.datetime, df.pivotの追加,その他の例の追加

    pandasでよく使う文法まとめ - Qiita
    mnru
    mnru 2017/05/23
  • pandas.DataFrame.to_sqlの落とし穴と対処法 - Qiita

    バッチでデータフレーム型のデータを元に、DB上に仮テーブルを作ったものの object型のカラムのデータの64文字目以降が勝手に消えていた。 エラーも警告も出なかったのに…なので対処法まとめ。 以下のようなデータを元にDBにテーブルを作るとする(nameは70文字) name,age AAAAAAAAAABBBBBBBBBBCCCCCCCCCCDDDDDDDDDDEEEEEEEEEEFFFFFFFFFFGGGGGGGGGG,20 AAAAAAAAAABBBBBBBBBBCCCCCCCCCCDDDDDDDDDDEEEEEEEEEEFFFFFFFFFFGGGGGGGGGG,18 AAAAAAAAAABBBBBBBBBBCCCCCCCCCCDDDDDDDDDDEEEEEEEEEEFFFFFFFFFFGGGGGGGGGG,23 AAAAAAAAAABBBBBBBBBBCCCCCCCCCCDDDDD

    pandas.DataFrame.to_sqlの落とし穴と対処法 - Qiita
    mnru
    mnru 2017/05/23
  • pandasメモ - Qiita

    Python for Data Analysisの日語版発売記念に よく使いそうなものとか詰まりそうなところとか めちゃくちゃ長くなってしまったので目次 複数のSeriesを結合してDataFrameに DataFrameのインデックス参照 columnの参照 rowの参照 行と列を同時に範囲指定して参照 (ixによる参照) Seriesのインデックス参照 bool値によるマスキング Series同士, DataFrame同士の演算 階層的インデックス stackメソッドとunstackメソッド 名前付け 行または列の名前付け インデックスラベル自体の名前付け ビンニング 列とインデックスの変換 ランダムサンプリング カテゴリカルデータをダミー変数化 グルーピング 複数のSeriesを結合してDataFrameに concatを使ってでaxis=1にすれば良い s1 = pd.Serie

    pandasメモ - Qiita
    mnru
    mnru 2017/05/22
  • pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments

    概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

    pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments
    mnru
    mnru 2017/05/18
  • 開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD

    システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPython技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。 この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ

    開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD
    mnru
    mnru 2017/04/21
  • クラウドワークス内でPandasとJupyterの布教活動をおこなった話 - クラウドワークス エンジニアブログ

    どうも、Androidアプリの開発をやっています、エンジニアの岩木(@YusukeIwaki)です。 社内ではRubyistたちに囲まれながら、孤独にJavaを書いています(誇張w) クラウドワークスでは、施策の事前調査や効果検証などのデータ測定を、エンジニアが率先しておこなう開発プロセスをとっています。 データ収集ではSQLを使う機会が多いのですが、「会員登録した人の、1週間単位での発注率の推移」のような複雑なデータを取ろうとした時に、わりとつらい思いをすることが多かったため、SQL運用のつらみを解決すべくPandasとJupyterの布教活動をおこなった!という話を共有します。 そもそも解決したかった"SQLのつらみ" 「データ収集をいろんなエンジニアがやる」というシーンにおいて クエリの結果の再利用性が低い 「よく使うベースクエリは関数化して、みんなで使い回す」ということができない。

    クラウドワークス内でPandasとJupyterの布教活動をおこなった話 - クラウドワークス エンジニアブログ
  • Pandas + Jupyter notebookで分析を便利に - Qiita

    環境 Python 3.5.1 :: Anaconda 2.5.0 pandas.DataFrame使ってないの? pythoncsv読み込んだり、json読み込んだり、DBからSQL文書いてexecute(hogehoge)とかやるのは、大変じゃないですか?DBなんかは特に,エラー処理でrollbackとかcommitとか分けたり非常にめんどくさい。 その悩み、pandas使えば解決しますよー よくあるcsvの読み込み

    Pandas + Jupyter notebookで分析を便利に - Qiita
  • Python pandas 図でみる データ連結 / 結合処理 - StatsFragments

    なんかぼやぼやしているうちにひさびさの pandas エントリになってしまった。基的な使い方については網羅したい気持ちはあるので、、、。 今回は データの連結 / 結合まわり。この部分 公式ドキュメント がちょっとわかりにくいので改訂したいなと思っていて、自分の整理もかねて書きたい。 公式の方はもう少し細かい使い方も載っているのだが、特に重要だろうというところだけをまとめる。 連結 / 結合という用語は以下の意味で使っている。まず憶えておいたほうがよい関数、メソッドは以下の 4 つだけ。 連結: データの中身をある方向にそのままつなげる。pd.concat, DataFrame.append 結合: データの中身を何かのキーの値で紐付けてつなげる。pd.merge, DataFrame.join 連結 (concatenate) 柔軟な連結 pd.concat ふたつの DataFram

    Python pandas 図でみる データ連結 / 結合処理 - StatsFragments
    mnru
    mnru 2017/01/25
  • Python pandas でのグルーピング/集約/変換処理まとめ - StatsFragments

    これの pandas 版。 準備 サンプルデータは iris で。 補足 (11/26追記) rpy2 を設定している方は rpy2から、そうでない方は こちら から .csv でダウンロードして読み込み (もしくは read_csv のファイルパスとして直接 URL 指定しても読める)。 import pandas as pd import numpy as np # 表示する行数を設定 pd.options.display.max_rows=5 # iris の読み込みはどちらかで # rpy2 経由で R から iris をロード # import pandas.rpy.common as com # iris = com.load_data('iris') # csv から読み込み # http://aima.cs.berkeley.edu/data/iris.csv names

    Python pandas でのグルーピング/集約/変換処理まとめ - StatsFragments
    mnru
    mnru 2016/09/12
  • 10分でPandasを学ぶ - Qiita

    DataFrameを作る DataFrameの作成方法も幾つかあるので、その整理。 まずは、DataFrameをnumpyで行列を作り、インデックスとラベルを貼り付けるパターン。 インデックスの作成。 #Create a index dates = pd.date_range("20130101", periods=6) dates <class 'pandas.tseries.index.DatetimeIndex'> [2013-01-01, ..., 2013-01-06] Length: 6, Freq: D, Timezone: None #Create a DatFrame df = pd.DataFrame(np.random.randn(6,4),index = dates, columns = list("ABCD")) df A B C D 2013-01-01 0.7

    10分でPandasを学ぶ - Qiita
    mnru
    mnru 2016/09/06
  • Pythonでpandasを使う - 計算物理屋の研究備忘録

    目次 インストール import 使い方 csvファイルの読み込み csvファイルをデータフレームとして読み込む コンマ区切りじゃないとき headerが無い場合 最初の数行をskip n行目をskip カラム名を指定して読み込む カラム名、インデックス名を変える データの参照方法 行をスライシング カラム名を指定 DataFrame.ix を使う 条件でフィルタ データの追加 行を追加 データ解析 合計値を求める 列にデータを追加する インストール pipとかcondaコマンドを使って入れるだけ。 $ conda install pandas import 決まり文句 import matplotlib.pyplot as plt import numpy as np import pandas as pd 使い方 csvファイルの読み込み csvファイルの例。これを例として使う $ c

    Pythonでpandasを使う - 計算物理屋の研究備忘録
    mnru
    mnru 2016/06/22
  • 1