タグ

2018年7月14日のブックマーク (5件)

  • Data Cleaning and EDA Tutorial

    yukirelax
    yukirelax 2018/07/14
    Give me some credit の前処理例
  • カーネル密度推定とは何か? - 俺、サービス売って家買うんだ

    こんにちは、Hayatoです。年末ですね。 カーネル密度推定をおさらいしようと何度かググったのですが良い感じの記事が見当たらなかったので、書き落としておきます。 Index カーネル密度推定って? どういうときに使うといいの? カーネル密度の算出方法 (実際にPythonで) 2次元でカーネル密度推定 カーネル密度推定って? カーネル密度推定は、一言で表すと「なめらかなヒストグラム」です。 なめらかなヒストグラムを利用して、実際のいくつかのデータ(標)から、全体の分布を推定する事ができます。 左がヒストグラムで、右がそれを元にして作成したカーネル密度分布のグラフです。 参照:Kernel density estimation - Wikipedia どういうときに使うといいの? ヒストグラムとは違い曲線になっているので、X値に対応するYを取ることが出来ます。あくまで推定ではありますが、お

    カーネル密度推定とは何か? - 俺、サービス売って家買うんだ
    yukirelax
    yukirelax 2018/07/14
  • 確率密度関数の意味と具体例 | 高校数学の美しい物語

    連続型確率変数 XXX に対して,XXX が aaa 以上 bbb 以下となる確率が,積分を用いて P(a≤X≤b)=∫abf(x)dxP(a\leq X\leq b)=\displaystyle\int_a^bf(x)dxP(a≤X≤b)=∫ab​f(x)dx で与えられるとき,f(x)f(x)f(x) を確率密度関数という。 連続型確率変数および確率密度関数の話です。多くの人は高校では習いませんが,数B(旧課程では数C)の教科書に載っています。理系なら知っておきたい話題。 通常,高校で扱う確率変数はとびとびの値しか取りません。例えば,サイコロの出る目を XXX とすると,XXX がとりうる値は 111 から 666 までの 666 通りです。このような確率変数を離散型確率変数と言います。 しかし,確率変数のとりうる値が連続的なものも考えないといろいろ不便です,例えば,000 以上 11

    確率密度関数の意味と具体例 | 高校数学の美しい物語
    yukirelax
    yukirelax 2018/07/14
  • pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1 - Qiita

    Pythonでのグラフ描画 Pythonチャートを描く場合の定番は「matplotlib」ですが、その見た目のやや野暮ったい感じと、表記法のややこしさが指摘されています。 そこで、この記事ではMatplotlibの機能をより美しく、またより簡単に実現するためのラッパー的存在である、「Seaborn」の使い方を取り上げます。 ◆ Overview of Python Visualization Tools http://pbpython.com/visualization-tools-1.html 上記の記事ではMatplotlibとSeabornについて下記のように書かれています。 matplotlibについて Matplotlib is the grandfather of python visualization packages. It is extremely powerful b

    pythonで美しいグラフ描画 -seabornを使えばデータ分析と可視化が捗る その1 - Qiita
  • SQLでやるこの操作ってpandas.DataFrameではどうやるの! - Qiita

    pandasを触り始めた時に感じた思いをタイトルにしてみました。テーブル操作においてSQLを使うことに慣れすぎて、pandasのDataFrameを操作しようとした時どうやるのか戸惑うことが多かったです。 SQLの基的な構文がpandasではどう実現するのかを1つ1つ並べて確認して行きます。備忘録になれば幸いです。 pandasとは という説明は全部ふっとしばします。その代わりに以下のサイトに綺麗にまとまっているので読んでみてください。 pandasで使われるデータ構造 ~1次元、2次元、3次元のデータの扱い方~ 事前準備 titanicのコードを使います。kaggleのコンペティションからデータをダウンロードしてきます。 import pandas df = pd.read_csv("local/path/to/train.csv") df1 = df[['PassengerId',

    SQLでやるこの操作ってpandas.DataFrameではどうやるの! - Qiita