You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
以前、このブログでは pandas の DataFrame を Pickle として保存することで読み込み速度を上げる、というテクニックを紹介した。 blog.amedama.jp 実は pandas がサポートしている永続化方式は Pickle 以外にもある。 今回は、その中でも代表的な以下の永続化フォーマットについて特性を調べると共に簡単なベンチマークを取ってみることにした。 Pickle Feather Parquet 使った環境とパッケージのバージョンは次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.5 BuildVersion: 17F77 $ python -V Python 3.6.5 $ pip list --format=columns | egrep "(pandas|feather-format|
PythonでKaggleなどのデータ分析を行う際、pandasでゴリゴリ作業をすることが多いかと思います。 最近知って「めっちゃ便利やん!」ってなったものをまとめておきたいと思います。 全部の関数にドキュメントへのリンクを付けたので参考にしてください。 今回も検証にはTitanicのデータセットを用います。また、文中でのdf.hoge()はpandasのDataFrameのメソッドであることを、pd.hoge()はpandasの関数であることを表します。 df = read_csv('input/train.csv', index_col=0) print(df.shape) df.head() 最低限押さえておきたいやつら まずはここから。 10 Minutes to pandas よく使うやつら。詳しい解説は省略するので、ドキュメントのリンク先を見てください。 関数 内容 リンク d
pandas-datareaderを使うと、Web上の様々なソースに簡単にアクセスして、株価や為替レート、人口などのデータをpandas.DataFrameとして取得できる。 pandas-datareader — pandas-datareader 0.8.0 documentation pydata/pandas-datareader ここでは以下の内容について説明する。 pandas-datareaderの概要 インストール データソース 株価(Alpha Vantage) データ取得 CSVで保存 グラフをプロット 人口、GDPなど(World Bank) データ取得 indicator 階層データの整形 以下のサンプルコードのpandas-datareaderのバージョンは0.8.1。2020年5月22日時点で動作を確認している。バージョンやデータソースの仕様が変わると動作しない
ITエンジニアのためのデータサイエンティスト養成講座(10): 時系列分析II―ARMAモデル(自己回帰移動平均モデル)の評価と将来予測 過去の時系列データを基に、将来予測につながるモデルを検討、実際に将来予測を行って検証してみましょう。(2014/9/1) ITエンジニアのためのデータサイエンティスト養成講座(9): 時系列分析I ――ARMAモデルと時系列分析 システムログも金融取引データも時系列で分析できる。ビジネスシーンで求められるデータ分析の多くを占める「時系列データ」分析の基礎を解説。(2014/6/24) ITエンジニアのためのデータサイエンティスト養成講座(8): 富山県民を分類してみたら……?――クラスタリング分析の手法 あるグループを属性ごとに分類する「クラスタリング分析」の基本を学ぼう。今回も自治体が公開しているオープンデータを題材にします。(2014/3/19) I
システムログも金融取引データも時系列で分析できる。ビジネスシーンで求められるデータ分析の多くを占める「時系列データ」分析の基礎を解説。
まずは、それぞれのデータ型でどのような表記がされるのかを確かめてみましょう。NumPyのndarrayのdtypeは、arr.dtypeのようにして知ることができます。 In [1]: import numpy as np In [2]: a = np.array([0, 1, 2]) # まずは何も指定しない状態で配列を生成。 In [3]: a.dtype # データ型を確かめる。 Out[3]: dtype('int64') In [4]: b = np.array([0, 1, 2], dtype = 'int32') # ビット数を下げてみる。 In [5]: b.dtype Out[5]: dtype('int32') In [6]: b Out[6]: array([0, 1, 2], dtype=int32) In [7]: c = np.array([0, 1, 2],
自分は、1年前からPythonを使い始めました。Pandasを始めとするPythonのデータサイエンス用のライブラリーは便利です。 つい最近、マイクロソフトがExcelにPythonを搭載することを検討しているというニュースが流れました。VBAとは長い付き合いなので、前半でVBAよりPandasが数倍便利だということを書いて、後半でExcelにPythonを搭載されることへのコメントを書くことにします。自分は、ExcelはデータのためのGUIツールとしては便利で役に立つツールだと思っています。ただ、VBAの方が長年放置されていて最近の言語としては落第なのでPythonが搭載されることを期待したいと思っています。急遽テーマを変更したので、時間がなくて以下は「Excel VBA Advent Calendar 2017 20日目」の記事と同じにしてしまいました。 「ExcelにPythonが搭
行数、要素数 行数(レコード数) 行数を出力する場合はlen関数を使用します。また、sizeメソッドを使用すると要素数を取得することができます。 import pandas as pd df = pd.DataFrame([[1, 10], [2, 20], [3, 30]], columns=['col1', 'col2']) # col1 col2 # 0 1 10 # 1 2 20 # 2 3 30 len(df) # 3 上のサンプルでは2列3行のDataFrameの行の長さをlenで取得しています。 要素数 sizeプロパティで要素数を取得することができます。 # 上のサンプル続き df.size # 6 DataFrameのメソッドを使用して、列ごとの基本統計量を取得することができます。 平均、最大最小、標準偏差、分散など df.count() 要素数 # col1 3 # c
秋山です。 機械学習やディープラーニングが流行っていますが、基本的には何をするにも大量のデータを取り扱いますよね。 データの集計・分析は、機械学習をするのに大前提として必要な作業です。 そんなときに便利なライブラリがPandasです。Pandasは、Pythonを使ったデータ解析に便利な機能を提供しているライブラリです。数値や時系列のデータの操作や、データ構造をいじったりすることができます。 というわけで、今回はそんなPandasを使えるようになりたい初心者の人に向けて、ちょっとしたチュートリアルを書いてみます。 ■Pandasって何ぞ Pandasとは超ざっくり簡単に言うと、Pythonを使って、ExcelやSQL、R言語みたいな感じでデータを取り扱えるようにしてくれる便利なライブラリです。 例えば、データの整列、グループ化、データ同士の結合、スライス、欠損データがあった場合の除外、時系
こんにちは。データ分析部のオギワラです。最近は「NANIMONO (feat.米津玄師)」をよく聞いています。 今回はPythonのデータ分析ライブラリであるPandasについて、実践的なテクニックを「データ処理」「データ集計(Group By)」「時系列処理」の3カテゴリに分けてご紹介していきます。 Pandasに関する基本的な内容については、前エントリーで既に紹介されているので、是非こちらもご一読して頂けると幸いです。 data.gunosy.io データ処理 データの取り出し(query) 条件文に基づくデータ処理の適用(where) 各行への関数の適用(apply) データ集計(Group By) カラム毎に異なる集計を適用する(agg) 最大・最小値である行を取り出す(first) 標準化や正規化処理を適用する(transform) 時系列処理 時間の丸め処理(round) 時系
※2017/12/19 20:45 この分析結果の詳細スライドを追加 Top写真(サムネイル)は雰囲気です,あまり気にしなくてOK.*1 Jupyter Advent Calendar 2017 19日目の記事です. ここでは,本年私がやった野球ネタの主に分析環境まわりについての話をサンプルや選定理由を絡めて紹介します. 本日開催されたBaseball Play Study 2017冬の発表資料「うわっ...アイツの年俸、高すぎ...?」を作った時のコードスニペットから作成しています. speakerdeck.com Python初学者〜中級者および,私と同じく野球が好きでたまらないンゴな方の参考になると嬉しいです. 上級者および強者の方には是非もっといい方法があったらコメント頂けると嬉しいです. 申し遅れましたこんにちは,私が「野球の人」ことshinyorke(シンヨーク)です. この記
データ分析ガチ勉強アドベントカレンダー4日目。 今日はpandasを取り扱う。 機械学習系の本にも、numpy、scipy, matplotlibの使い方は載っていても、pandasを載せている本って意外と少ない。 けれど、実際numpyの次くらいによく使う。データを取り扱ったり、計算したりするときにとても便利。一方で、癖があって慣れるまでに時間がかかる。なので、基礎的な事項をまとめておこうと思う。 今回も、githubにコードや扱うデータを配置している。 github.com 都道府県の重心データを使いながら、pandasのお勉強をしようという試みである。 pandasとは 基本事項 データの読み込み/書き込み SeriesとDataFrameの作成 データの基本的な情報をGetする データ内部へのアクセス 新しいcolumnの追加、計算の適用。 イテレーションを回す 統計計算をしてみる
データ分析ガチ勉強アドベントカレンダー 14日目。 時系列データでまず思いつくのは、株価のチャートですよね。 また、最近はやっている仮想通貨。私も最近coincheckに入金しました。 ビットコイン取引所 "coincheck" やっぱ、実際にお金が絡むとちゃんと勉強しようって言う気になる!笑 せっかくチャートを見るわけだし、その見方について勉強しておこうと思いました。 そしてせっかくなので、自分で実装してどういう仕組みなのかまで知っておこうと思いました。 理系だからね、分からないものを使うのは嫌だからね。 というわけで、Python(主にPandasとMatplotlibを用いながら)でテクニカル指標についてやっていきます。扱うデータは三年分の日経平均株価。 指標について知りたい人も、自分で実装してみたいという人もどうぞ。 テクニカル分析とファンダメンタル分析 実装において ローソク足
WEBのシステム開発はPHPを使用していますが、データ解析等のため Python3 の研究を始めました。Python3 は日本語の情報がとても少ないので、エンジニアや学生の皆さんに役立ちそうなことをブログ記事として共有できればと思います。 この記事では Python3 で CSV の読み書きをする方法についてまとめました。CSV は Microsoft Excel(Windows) で読み書きされることがあるため、Shift_JIS による読み書きも載せてみました。 CSVの読み書き事始め Python3 で CSV ファイルの読み書きをする方法は2通りあります。 標準モジュール csv を使う pandas ライブラリを使う CSV ファイルの読み書き程度なら標準モジュールで十分なので、ここでは Python3 にはじめから組み込まれている標準モジュール( csv )を使います。pand
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く