import pandas as pd from sklearn import datasets boston = datasets.load_boston() df = pd.DataFrame(boston['data'], columns=boston['feature_names']) df.corr().style.background_gradient(axis=None)
![【1行で】Pandasだけで相関行列をヒートマップっぽく可視化する - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/6d38f62e4d4b8bdc8f4b6a181818baa80aeaa749/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUUzJTgwJTkwMSVFOCVBMSU4QyVFMyU4MSVBNyVFMyU4MCU5MVBhbmRhcyVFMyU4MSVBMCVFMyU4MSU5MSVFMyU4MSVBNyVFNyU5QiVCOCVFOSU5NiVBMiVFOCVBMSU4QyVFNSU4OCU5NyVFMyU4MiU5MiVFMyU4MyU5MiVFMyU4MyVCQyVFMyU4MyU4OCVFMyU4MyU5RSVFMyU4MyU4MyVFMyU4MyU5NyVFMyU4MSVBMyVFMyU4MSVCRCVFMyU4MSU4RiVFNSU4RiVBRiVFOCVBNiU5NiVFNSU4QyU5NiVFMyU4MSU5OSVFMyU4MiU4QiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnM9YmZjOTk5ZDhiZGFmOGUwMzQyZGIyMzUwNGE2MmU3OGY%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBocmFwcHVjY2lubyZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9M2RmZjYyNGEwZWMyODQxNDRjZjEyNWM0ZDQ0NmVkMjE%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3Da5fc5ee118ff98668d961bfebb48ca5e)
Pythonのライブラリの一つ、Pandasはデータサイエンスに欠かせないものです。 Pandasの中でも、read_csvはデータサイエンスの勉強をしている方やデータサイエンティストの方にとって、特に馴染みのある関数かと思います。 read_csvを初めて聞いた人向けに説明すると、この関数はcsv形式のファイルをPandasのDataFrameに読み込むという役割を持っています。*1 基本的な使い方は、以下の通りです。 import pandas as pd df = pd.read_csv("fileName.csv") もし、csvファイルに日本語が含まれている場合はエンコーディングを引数で指定します。 import pandas as pd # cp932 が日本語用のコード df = pd.read_csv("ファイル名.csv", encoding="cp932") ロシア語や
pandasとは、pythonにおいてデータ操作を行うことのできるライブラリで、集計やデータ分析で非常によく利用されています。 目次・検索用 ・データフレームの表示設定(set_option) ・データフレームの作成(DataFrame) ・連番の列をつくる(RangeIndex) ・ファイルの読込からデータフレームを作成する(read_csv,read_excel) ・ファイルを書き込む(to_csv,to_excel) ・クリップボードにコピーする(to_clipboard) ・データ型の変更(astype) ・欠損値を特定の値で埋める(fillna) ・欠損値のある行や列を削除する(dropna) ・特定の行を抽出する([ ]) ・SQLのように行を抽出する(query) ・列ごとの合計、または行ごとの合計を求める(sum) ・指定した列へ関数の適用(apply) ・他の列でグループ
動機 仕事で AI や機械学習、データ分析といった技術を身に付ける必要性ができ、 まずは Python を使ったデータ分析を修得するために pandas を 利用したデータ分析にチャレンジしています。 自分にはシステム開発経験があり SQL には使い慣れているのですが、 pandas のデータ分析の記述方法があまり理解できない状況でした。 巷では「pandas は SQL と似ている」といった表現をよく聞くので、 それならば SQL での書き方を pandas の書き方と比較したら 理解が深まるのではないかと思い、今回まとめてみました。 なお本記事は、ある程度のターミナル操作や MySQL、Python、pandas についての知識がある方を対象としています。 なお、ここからの説明は長いためコードの比較結果のみを見たい場合は、 比較結果まとめを参照ください。 環境 項目 内容
※あくまでもイメージです(適当) 仕事じゃなくて、趣味の方の野球統計モデルで詰まった時にやったメモ的なやつです.*1 一言で言うと、 約19万レコード(110MBちょい)のCSVの統計処理を70秒から4秒に縮めました. # 最初のコード $ time python run_expectancy.py events-2018.csv RUNS_ROI outs 0 1 2 runner 0_000 0.49 0.26 0.10 1_001 1.43 1.00 0.35 2_010 1.13 0.68 0.32 3_011 1.94 1.36 0.57 4_100 0.87 0.53 0.22 5_101 1.79 1.21 0.50 6_110 1.42 0.93 0.44 7_111 2.35 1.47 0.77 python run_expectancy.py events-2018.c
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く