Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

はじめに 以下記事よりGoogleColabratoryでは表示、挙動が不安定とのこと、解決方法があったので紹介します。 【Pythonメモ】pandas-profilingが探索的データ解析にめちゃめちゃ便利だった件 Colaboratoryでやると表示、挙動が不安定でした。 Kaggle KernelはOK。 Colaboratoryでは何か方法があるかもしれません。 IT詳しい方、ご存知でしたら教えてください。 2020/2/4 追記 以前までは以下のように一度htmlファイルに出力してからfrom IPython.display import HTMLを使って描画するようにしていました。 2020/10/3 追記 下記コードの内容を@Kudaka さんの指摘を受けて修正しました。 import pandas as pd import warnings from pandas_pro
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 機械学習や深層学習が人気の昨今ですが、それらのモデルの精度に最もクリティカルに影響するのはインプットするデータの質です。データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます。 本頁では、データ処理の基本ツールとしてPandasの使い方を紹介します。Pandasには便利な機能がたくさんありますが、特に分析業務で頻出のPandas関数・メソッドを重点的に取り上げました。 Pandasに便利なメソッドがたくさんあることは知っている、でもワイが知りたいのは分析に最
ちょっと探して見つからず、何とかかんとかして出し方わかったのでメモ。 お題は「pandas DataFrame内にNaNありますか?」 データがちゃんと処理されているかの簡易的なチェックとして、データフレーム内にNaN値あるか、それがどこにあるか調べたい。 NaNを埋めたい/消したいならfillna()/dropna()使えばいいのだけど、今ここでやりたいのは「NaNがあるか調べて、その行(列)を表示すること」 例として、このデータフレームの2-4行目、または1-3列目だけを抜き出したい。 df=pd.DataFrame(np.random.randn(5,5)) df.ix[2:, 1:3] = np.nan df.columns=list('abcde') df #[Out]# a b c d e #[Out]# 0 -0.678873 -1.277486 -1.062232 0.09
Pandas での データ操作 最近は利用するデータも巨大化しているため、Excelで開くのも大変です。 結構 Excelでは開けない、もしくは開くと Excelが重すぎて操作できないデータが結構あります。 Python の Pandas ライブラリを活用してExcelでのデータ操作を代替してみたいと思います。 Pandas の導入やファイル読み込みに関してはこの文書では説明しませんので、以下のリンク先を参照してください。 Pandas の導入とデータ型 - Qiita Pandas で様々なファイルを読み込み操作する - Qiita データ取得先 機械学習が認知されてきたせいか、オープンデータが多くなってきています。 東京都もいくつかのデータを公開しています。 東京都オープンデータカタログサイトホームページ ちょと東京都の公開するExcelはデータ処理目的だと不便なのでCSVを加工してE
はじめに Qiitaアドベントカレンダー2017 のランキングを見ていて気づいたことがありました。 それは 購読者数ランキングの上位はいろんなカテゴリーがあるのに、いいね数ランキングの上位は「企業・学校・団体」カテゴリーが独占状態 だということです。 不思議だったので Python の Pandas と Jupyter Notebook を使って色々と分析してみました。 調べたこと 主に2つの点を中心に調べてみました。 購読者数といいね数の関係 普通に考えれば購読者数が多ければそれだけいいね数も多くなるはずです。と思っていたのですが、ランキングを見る限りこのような関係は全くないように見えます。 この辺りをはっきりさせるために購読者数といいね数の相関関係を調べました。 「企業・学校・団体」カテゴリーについての仮説 とある「企業・学校・団体」のカレンダーにいいねしているユーザーを見ていたら、そ
3 次元のデータを扱う pandas におけるデータ構造として主要なものに 1 次元つまり線の Series と 2 次元つまり表形式の DataFrame があります。これは pandas における主要なオブジェクトであり Python for Data Analysis でも詳しく解説されています。 しかし実はもう一つ主要なオブジェクトがあります。それが Intro to Data Structures でも 3 つ目に登場する 3 次元の Panel です。 この 3 次元のデータ構造は、たとえば毎日の表データから任意の数値を取り出して時系列のログに関する統計分析をおこないたいといった用途において役立ちます。 Panel オブジェクトを作る Panel は辞書形式にした DataFrame または 3 次元の ndarray を引数にとることで生成することができます。具体的にやってみ
pandasのSeries、DataFrame ITエンジニアのための機械学習理論入門をやり始め、そっこーで DataFrameが何を意味しているか分からず、嵌りました。 調べた結果です。ついでにSeriesも pandas 0.17.1 documentationの公式ドキュメントより The two primary data structures of pandas, Series (1-dimensional) and DataFrame (2-dimensional), handle the vast majority of typical use cases in finance, statistics, social science, and many areas of engineering. For R users, DataFrame provides everythin
自分は、1年前からPythonを使い始めました。Pandasを始めとするPythonのデータサイエンス用のライブラリーは便利です。 つい最近、マイクロソフトがExcelにPythonを搭載することを検討しているというニュースが流れました。VBAとは長い付き合いなので、前半でVBAよりPandasが数倍便利だということを書いて、後半でExcelにPythonを搭載されることへのコメントを書くことにします。自分は、ExcelはデータのためのGUIツールとしては便利で役に立つツールだと思っています。ただ、VBAの方が長年放置されていて最近の言語としては落第なのでPythonが搭載されることを期待したいと思っています。急遽テーマを変更したので、時間がなくて以下は「Excel VBA Advent Calendar 2017 20日目」の記事と同じにしてしまいました。 「ExcelにPythonが搭
はじめに 以前、[Python] Plotlyでぐりぐり動かせるグラフを作るの記事で、インタラクティブなグラフを描画することができるPlotlyというライブラリを紹介しました。ただ、Plotlyの描画に至るまでに唱える呪文をいまいち覚えきれず、毎回どこかからコピペをしており、手軽に使用できないかなと常々思っていました。 そんな状況で、Cufflinksという、Pandasのデータフレームから、Plotlyを用いたグラフを一発で描画するライブラリを見つけたので紹介します。 Cufflinksのインストールと使いかた インストールは、pip install cufflinksで完了です。 描画するには、Cufflinksをインポートしてから、df.plot()と同じように、df.iplot()と打ち込むだけと簡単! import pandas as pd import numpy as np
pandasにはデータを検索する機能があります。 何桁かのIDのうち最初の1文字目によってグループわけされている場合など文字列の一部を検索条件にしたいときの方法で躓いたのでメモ。 コードの実行にはJupyterを利用しました。 pipなどを利用してpandasをインストールしてください。 #環境 Python3.5 pandas0.17 Jupyter notebook #IDの仕様 1桁目:A~E 2桁目:A~E 3桁目:0~9 4桁目:0~9 5桁目:0~9 6桁目:0~9 例:AD3489 #準備:データの作成 ##IDっぽいデータを大量生成 あまり賢いコードではありませんがIDっぽい文字列と名前を200個生成しました。 import random id = [] text=['A','B','C','D','E'] name = [] namelistF = ['Thom','Wa
pandasのGroupByの拡張のようなTimeGrouperについて情報がなかったので備忘録として。 もっとデファクトスタンダードな方法があれば教えてください! 用例:特定の期間内での集計をしたい場合に有用 例 毎月の値を持つデータから6か月ごとに集計する 毎日の値をもつデータから1か月毎の集計をする タイムスタンプで取引記録を持つようなデータから日毎の集計をする 関連するstackoverflow How to groupby time series by 10 minutes using pandas? [1] timegrouper-pandas 用例1:毎月の値を持つデータから6か月ごとに集計する ([1]より) ts = pd.date_range('7/1/2008', periods=30, freq='MS') df = pd.DataFrame(pd.Series(r
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く