pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now!
pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now!
CSV、TSVなどのファイル連携と並んでよく使うのがDBからの入出力です。ここではsqlite3を使用しますが、コネクションオブジェクトを変えれば他のものも使用可能です。 read_sql select文の結果をDataFrameに格納する pandas.io.sqlを使用します。 以下のサンプルは、articleテーブルをメモリ上のsqlite3に作成し、レコードを2件挿入後、select文の結果をDataFrameに格納しています。 read_sqlの引数にSQL文とコネクションを設定します。 import sqlite3 import pandas as pd import pandas.io.sql as psql # sqlite3に接続 con = sqlite3.connect(':memory:') cur = con.cursor() # サンプルテーブルを作成 cur.
3 次元のデータを扱う pandas におけるデータ構造として主要なものに 1 次元つまり線の Series と 2 次元つまり表形式の DataFrame があります。これは pandas における主要なオブジェクトであり Python for Data Analysis でも詳しく解説されています。 しかし実はもう一つ主要なオブジェクトがあります。それが Intro to Data Structures でも 3 つ目に登場する 3 次元の Panel です。 この 3 次元のデータ構造は、たとえば毎日の表データから任意の数値を取り出して時系列のログに関する統計分析をおこないたいといった用途において役立ちます。 Panel オブジェクトを作る Panel は辞書形式にした DataFrame または 3 次元の ndarray を引数にとることで生成することができます。具体的にやってみ
pandasのSeries、DataFrame ITエンジニアのための機械学習理論入門をやり始め、そっこーで DataFrameが何を意味しているか分からず、嵌りました。 調べた結果です。ついでにSeriesも pandas 0.17.1 documentationの公式ドキュメントより The two primary data structures of pandas, Series (1-dimensional) and DataFrame (2-dimensional), handle the vast majority of typical use cases in finance, statistics, social science, and many areas of engineering. For R users, DataFrame provides everythin
Table Of Contents What’s New Installation Contributing to pandas Frequently Asked Questions (FAQ) Package overview 10 Minutes to pandas Tutorials Cookbook Intro to Data Structures Essential Basic Functionality Working with Text Data Options and Settings Indexing and Selecting Data MultiIndex / Advanced Indexing Computational tools Working with missing data Group By: split-apply-combine Merge, join
自分は、1年前からPythonを使い始めました。Pandasを始めとするPythonのデータサイエンス用のライブラリーは便利です。 つい最近、マイクロソフトがExcelにPythonを搭載することを検討しているというニュースが流れました。VBAとは長い付き合いなので、前半でVBAよりPandasが数倍便利だということを書いて、後半でExcelにPythonを搭載されることへのコメントを書くことにします。自分は、ExcelはデータのためのGUIツールとしては便利で役に立つツールだと思っています。ただ、VBAの方が長年放置されていて最近の言語としては落第なのでPythonが搭載されることを期待したいと思っています。急遽テーマを変更したので、時間がなくて以下は「Excel VBA Advent Calendar 2017 20日目」の記事と同じにしてしまいました。 「ExcelにPythonが搭
はじめに 以前、[Python] Plotlyでぐりぐり動かせるグラフを作るの記事で、インタラクティブなグラフを描画することができるPlotlyというライブラリを紹介しました。ただ、Plotlyの描画に至るまでに唱える呪文をいまいち覚えきれず、毎回どこかからコピペをしており、手軽に使用できないかなと常々思っていました。 そんな状況で、Cufflinksという、Pandasのデータフレームから、Plotlyを用いたグラフを一発で描画するライブラリを見つけたので紹介します。 Cufflinksのインストールと使いかた インストールは、pip install cufflinksで完了です。 描画するには、Cufflinksをインポートしてから、df.plot()と同じように、df.iplot()と打ち込むだけと簡単! import pandas as pd import numpy as np
1. はじめに M-1グランプリとは,吉本興業が主催する日本最大級の漫才コンテストです.出場資格や採点制度がシビアであること,また結果がテレビ露出に大きな影響を与えるためことが特徴で,漫才大会とは思えない異様な緊張感を持っています. 先週,M-1グランプリ2017が開催され,予選を勝ち上がった10組による決勝ファーストラウンドと,その上位3組による最終決戦が生放送されました.過去の事例を考慮すると,優勝したとろサーモンはもちろん,最終決戦に進出した和牛やミキは,今後テレビ露出が激増することが予想されます.つまり,決勝ファーストラウンドを勝ち抜けるかどうかが今後の人生を左右するとも言えます. そこで本記事では,データで見る世界,データで見るM1グランプリ2017 〜本当に一番面白かったのはどの漫才だったのか〜1を参考に,M-1グランプリ2017の決勝ファーストラウンドを主成分分析し,最終決戦
Apacheログからの集計で日付毎の集計はよくやるのですが、ピーク時間帯だけを抽出して日付単位に合計と推移を評価したいなんてことが良くあります。 Apacheログ→Pandasでread_csv時にParseするわけなのですが、フォーマットは%Y-%m-%d %H:%M:%Sで列に入っていて日付と時間を分離するのもちょっとめんどくさい話になります。日付抽出はfloor('24h')などを使って時間部分を切り捨てればなんとかなりますが、時間部分だけ分離するのは少々苦労します。 結局断念しました。 で、なにか他の方法がないか探ったら・・いいやつがありました。 以下サンプルコードです。Pandas便利です。 import pandas as pd import datetime import numpy as np rng = pd.date_range(start = '2014-01-01'
平素より、内閣府 地方創生推進室の「RESAS COMMUNITY」をご利用いただきありがとうございました。 RESAS COMMUNITYにつきましては、令和2年3月30日(月)をもちまして終了いたしました。長い間ご利用いただき誠にありがとうございました。 なお、地域経済分析システム(以下、RESAS)につきましては、継続してご利用いただけます。 引き続き、RESASをご利用いただきますようお願いいたします。 RESASはこちらから 内閣府 地方創生推進室 内閣府 地方創生推進室 〒100-8968 東京都千代田区永田町1-6-1 内閣府本府庁舎 Copyright ©Cabinet Office, Government Of Japan. All Rights Reserved.
groupbyでグループ化し, applyでグループ内の要素を結合する関数fを適用します. DataFrameのまま結合するので同じcolumn名は使えないので,ここではnumber,number1,number2,...のように末尾に数字を加えるた新たなcolumnにしています(rsuffix='{0}'.format(i)のところ). これで以下のようにDataFrameを作れます. def f(a): a.index = [0 for i in range(len(a))] del a['ID'] out = a[0:1] for i in range(1, len(a)): out = out.join(a[i:i+1], rsuffix='{0}'.format(i)) return out df = pd.DataFrame([['A', 111, 'nn'], ['A', 1
はじめに Web上で長期間の株価データを探してもなかなか見つからないので,Pythonを用いて株価のヒストリカルデータを取得し,CSV形式で出力,さらに出力したデータをプロットするプログラムを作成しました. 日本株・外国株いずれにも対応しています. 参考までに,例として出力した日経平均株価1のCSVファイルはこちら,さらにプロットすると以下のようになります. ソースコードの紹介 まず,作成したソースコードを紹介します. #!/usr/bin/env python3 # -*- coding:utf-8 -*- ''' 株価データのプロット・CSVへの出力 ''' import datetime as dt from pandas import DataFrame import jsm import pandas_datareader.data as web import matplotli
If you’ve done any data analysis in Python, you’ve probably run across Pandas, a fantastic analytics library written by Wes McKinney. By conferring dataframe analysis functionality to Python, Pandas has effectively put Python on the same footing as some of the more established analysis tools, such as R or SAS. Unfortunately, early on, Pandas had gotten a nasty reputation for being “slow”. It’s tru
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く