タグ

pythonとpandasに関するthondaのブックマーク (14)

  • Pandasのplotの全引数を解説 | 自調自考の旅

    概要Pythonモジュールのpandasにはplot関数があり、これを使えばpandasで読み込んだデータフレームを簡単に可視化することができます。ただし、大量の引数(34個)があるにもかかわらず、公式マニュアルを見ても引数の一部しか説明されておらず、一体何ができるのか整理したくなり、この記事を書きました。データはirisを使い、plotの各引数の効果を検証しました。 import pandas as pd if __name__ == "__main__": #元データ df = pd.read_csv('iris.csv', index_col=0) どんな引数があるのか?df.plot?とヘルプを叩くことで、変数の一覧と説明(英語)を取得できます。実に34個の引数があるようです。使いこなして、簡単にいろんなグラフを書きたいですね。

    Pandasのplotの全引数を解説 | 自調自考の旅
  • Python pandas 関連エントリの目次 - StatsFragments

    このブログ中の pandas 関連のエントリをまとめた目次です。 最近 pandas 開発チーム と PyData グループ の末席に加えていただき、パッケージ自体の改善にもより力を入れたいと思います。使い方についてご質問などありましたら Twitter で @ ください。 目次につけた絵文字は以下のような意味です。 🔰: 最初に知っておけば一通りの操作ができそうな感じのもの。 🚧: v0.16.0 時点で少し情報が古く、機能の改善を反映する必要があるもの。 🚫: 当該の機能が deprecate 扱いとなり、将来的に 代替の方法が必要になるもの。 基 簡単なデータ操作を Python pandas で行う 🔰 Python pandas でのグルーピング/集約/変換処理まとめ 🔰 また、上記に対応した比較エントリ: R {dplyr}, {tidyr} Rの data.tab

    Python pandas 関連エントリの目次 - StatsFragments
  • Python pandas プロット機能を使いこなす - StatsFragments

    pandas は可視化のための API を提供しており、折れ線グラフ、棒グラフといった基的なプロットを簡易な API で利用することができる。一般的な使い方は公式ドキュメントに記載がある。 Visualization — pandas 0.17.1 documentation これらの機能は matplotlib に対する 薄い wrapper によって提供されている。ここでは pandas 側で一処理を加えることによって、ドキュメントに記載されているプロットより少し凝った出力を得る方法を書きたい。 補足 サンプルデータに対する見せ方として不適切なものがあるが、プロットの例ということでご容赦ください。 パッケージのインポート import matplotlib.pyplot as plt plt.style.use('ggplot') import matplotlib as mpl m

    Python pandas プロット機能を使いこなす - StatsFragments
  • PyData.Tokyo Tutorial & Hackathon #1

    This domain may be for sale!

  • Python 機械学習プログラミング データ分析ライブラリー解説編

    ITエンジニアのための機械学習理論入門」で提供しているサンプルコードに含まれるデータ分析ライブラリ(NumPy/pandasなど)を解説した資料です。 下記の書籍のサンプルコードが理解できるようになることが目標です。 - ITエンジニアのための機械学習理論入門(技術評論社) - http://www.amazon.co.jp/dp/4774176982/ 2015/10/25 ver1.0 公開 2015/10/26 ver1.1 微修正 2016/05/25 ver1.4 subplotの順番を修正 2016/11/15 ver2.0 改訂版公開 2016/11/16 ver2.1 改行幅修正 2017/01/10 ver2.2 微修正 2017/01/12 ver2.3 微修正

    Python 機械学習プログラミング データ分析ライブラリー解説編
  • R vs Python:データ解析を比較 | POSTD

    主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま

    R vs Python:データ解析を比較 | POSTD
  • pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments

    概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

    pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments
  • 「Rプログラミング入門」をPythonで書き直す - めもめも

    何の話かというと RStudioではじめるRプログラミング入門 作者: Garrett Grolemund,大橋真也,長尾高弘出版社/メーカー: オライリージャパン発売日: 2015/03/25メディア: 大型この商品を含むブログを見る 某編集長から上記の書籍が送られてきて、「これは、次はRのを書けという指示か????」と勘ぐってみたものの、筆者はPython派なので、「これと同じことは全部Pythonでもできるんだよー」と言いたくなって、このエントリーを書き始めた次第です。ちなみに、この、Rの入門書としてはよくできているので、これのPython版ができたら、それはそれで役に立つ気もします。 なお、このエントリーでは、あくまでコードの部分だけを書き直して、RとPythonの差異についての説明だけを行ないます。コードそのものの説明については、上記の書籍をご購入ください。 環境準備 IP

    「Rプログラミング入門」をPythonで書き直す - めもめも
  • ナンバーズ予想で学ぶ統計学

    書は数字選択式宝くじ ナンバーズ の予想方法を研究する人と、統計学を独学したいけど同じ勉強するなら(宝くじという)エキサイティングな要素も欲しいという人に向けた統計解析の解説書です。 統計学を学ぶためにナンバーズのデータを利用し、ナンバーズの予想のためにどのような統計的手法が使えるかを学ぶことができる文書です。 書の目指すところ 統計的手法の使い方を学ぶ。 統計学の理論は無視する(高度な数式を勉強しない)。 統計的手法を使ってナンバーズを予想してみる。 統計学の基礎的な知識を学ぶ。 データマイニングも含む。 ナンバーズの予想に使えないかもしれないけどおもしろそうな予想方法も勉強してみる。 統計解析のソフトウェアは Python と関連ライブラリ ( pandas や SciPy library ) を使用します。 エクセル や Google スプレッドシート 、 R もありますけど個人

  • Python:時系列分析(その1) : 分析技術とビジネスインテリジェンス

    Python pandasとstatsmodelsを用いた時系列分析についてまとめる。pandasは欠損値の処理や移動平均の算出に、statsmodelsはARIMAなど時系列解析の実施に用いるとよさそう。以下の内容について順次取り上げていきたい。 ●単純移動平均 ●自己相関関数(ACF:Auto Correlation Function) ●偏自己相関関数(PACF:Partial Auto Correlation Function) ●自己回帰過程:AR(p) ●自己回帰移動平均過程:ARMA(p, q) ●自己回帰和分移動平均過程:ARIMA(p, q, d) ●多変量自己回帰過程:VAR(p) ●状態空間モデル ARIMAまでがひとつの系列のみを対象とした分析。VARはARの多変量版で、ある系列を予測するのに他の系列のデータも活用する。状態空間モデルは、観測方程式と状態方程式(真の

  • numpy/scipy/pandas/matplotlibメモ | mwSoft

    pandasでいろいろplot 概要 pandasとmatplotlibの機能演習のログ。 可視化にはあまり凝りたくはないから、pandasの機能お任せでさらっとできると楽で良いよね。人に説明する為にラベルとか色とか見やすく出す作業とか面倒。 @CretedDate 2014/09/25 @Versions python 2.7.6, pandas0.14, matplotlib1.4.2 DataFrameをplot DataFrameに対してplot()と書くだけで概ね描画できる。 とりあえずimport。 %pylab import pandas as pd import numpy as np from matplotlib import pylab as plt 3つのカラムを持つDataFrameをplotしてみる。 df = pd.DataFrame( [ [0, 1, 2]

    numpy/scipy/pandas/matplotlibメモ | mwSoft
  • http://pandas.pydata.org/pandas-docs/stable/api.html

  • Python と R で連携する - Qiita

    R と Python の連携を考える 最近 R による基的なデータプロッティングやファイル入出力の方法について説明しました。 データ分析の言語としては Python ですべてをやろうという傾向があるようですが、やはり過去の膨大な R による資産は魅力的でそう簡単に切り捨てられるものではありません。 よくあるケースとしては、部分的なデータ解析については R を流用したいが、全体的なプログラミングは Python で書きたいというシーンでしょう。また、プロッティングだけ R でおこないたいという場合もあるでしょう。こんなとき Python と R で連携できれば問題が一気に解決して便利です。 Python から R を利用するライブラリ PypeR かつては RPy2 というライブラリが使われていたようですが、最近使われており主流なのは PypeR です。 PypeR のインストール インス

    Python と R で連携する - Qiita
  • Python+matplotlibでDendrogram付きHeatmap - Qiita

    Rではheatmap(x)と打つだけで、x, y各軸に対してクラスタリングされたデンドログラム付きヒートマップが描画でき、遺伝子の発現量が・・・など日々呟いているbioinformaticiansにはお馴染みの機能なのですが、Python+matplotlib環境で同じことをやろうとした際、あまり情報が無かったので、試行錯誤してみました。 備忘録ついでに公開しときます。 データの準備 まずは、適当なデータとして、細胞組織ごとの遺伝子発現量の増減を表したようなデータを作ります。 ここでの組織のチョイスも、遺伝子のチョイスも、全て適当です。 後でクラスタリングしたときにそれっぽく見えるように、乱数で生成したデータを若干小細工してpandas.DataFrameオブジェクトにします。 #!/usr/bin/env python3 genes = [ 'HIST1H4H', 'SPRN', 'DN

    Python+matplotlibでDendrogram付きHeatmap - Qiita
  • 1