Help us understand the problem. What is going on with this article?
データセットの可視化 iris.csvをサンプルのデータセットとして,pandas, seabornで可視化の練習をした際のメモ.あくまで自分用メモなので図の種類やカラムの選び方など恣意的な箇所があると思いますが,ご了承ください_(..) データ: https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv ヒストグラムの描画 iris.csvは,4つのカラムと1つのカテゴリ値 sepal_length, sepal_width, petal_length, peta_width と species から成る. カテゴリ値であるspeciesの分類を念頭においた可視化をする. まずは1つのカラムについて,分布を確認する. ・sepal_lengthの分布
Table Of Contents What’s New Installation Contributing to pandas Frequently Asked Questions (FAQ) Package overview 10 Minutes to pandas Tutorials Cookbook Intro to Data Structures Essential Basic Functionality Working with Text Data Options and Settings Indexing and Selecting Data MultiIndex / Advanced Indexing Computational tools Working with missing data Group By: split-apply-combine Merge, join
科学技術計算用言語としての Python そもそもなぜデータ分析などの科学技術計算を Python でやるのでしょうか。主に次の二点によります。 NumPy, pandas, matplotlib など豊富なライブラリが揃っている 汎用性の高いグルー言語として利用できる データフレームを利用した計算とそのグラフ描画 (プロッティング) のみであれば R のほうがどちらかといえば簡単かもしれません。しかし統計解析を汎用性の高い Python で完結させることで様々な分野へのより幅広い応用が可能になります。 NumPy 統計解析の多くはベクトル演算を伴います。 NumPy は高速でメモリ効率の良い多次元配列の実装である ndarray を備えています。プログラミング言語に元から備わっている配列・ハッシュオブジェクトでは到底かなわないような高次元のベクトル演算を可能にします。またファンシーインデ
matplotlib と pandas によるさまざまな図の描画方法を以前に紹介しました。しかしその具体的なパラメーターについては触れませんでした。今回から数回に渡り matplotlib による図形描画について追っていこうと思います。 図とサブプロット matplotlib の Figure オブジェクトはプロット機能を提供します。 plt.figure() メソッドは何も描画されていない新しいウィンドウを描画します。 add_subplot() メソッドはその内部にサブプロットを生成します。 import numpy as np from pandas import * from pylab import * import matplotlib.pyplot as plt from matplotlib import font_manager from numpy.random imp
前回までに引き続き matplotlib と pandas によるデータ可視化について話を進めていきます。 外部データを可視化する 今回はより実践的なデータとして外部のデータを利用しましょう。この記事の参考にもしている pydata-book のデータをまずダウンロードしてきます。 pydata-book/ch08/tips.csv https://github.com/pydata/pydata-book/blob/master/ch08/tips.csv import numpy as np from pandas import * import matplotlib.pyplot as plt tips = read_csv('tips.csv') # CSV データのクロス集計をおこなう party_counts = crosstab(tips.day, tips.size) pr
import numpy as np from pandas import * import matplotlib.pyplot as plt # CSV データを読み込む macro = read_csv('macrodata.csv') # いくつかの列をピックアップする data = macro[['cpi', 'm1', 'tbilrate', 'unemp']] # .diff() メソッドは値をひとつ前の行からの差分に変更する # 先頭が NaN になるので .dropna() メソッドで取り除く trans_data = np.log(data).diff().dropna() # trans_data は前行からの変化を示すデータセットになる # 最後の 5 行を表示 print( trans_data[-5:] ) # => # cpi m1 tbilrate unemp
BigQuery is Google Cloud's fully managed, petabyte-scale, and cost-effective analytics data warehouse that lets you run analytics over vast amounts of data in near real time. With BigQuery, there's no infrastructure to set up or manage, letting you focus on finding meaningful insights using GoogleSQL and taking advantage of flexible pricing models across on-demand and flat-rate options. Go to the
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く