サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
pythondatascience.plavox.info
Python の IDE (統合開発環境) PyCharm を用いて matplotlib のグラフを出力するには、plt.show() メソッドを忘れずに実行しましょう。plt.show() メソッドがない場合、グラフが表示されません。 PyCharm でグラフが表示できない場合、正しく記載されているかを確認してみましょう。 例: PyCharm で散布図を描画
本ページでは、Python のデータ可視化ライブラリ、Seaborn (シーボーン) を使って回帰モデルや相関を可視化したグラフを出力する方法を紹介します。 Seaborn には、回帰モデルを可視化するクラスとして seaborn.regplot と seaborn.lmplot のクラスが実装されています。 regplot: 回帰モデルの可視化 seaborn.regplot メソッドは、2 次元のデータと線形回帰モデルの結果を重ねてプロットします。 seaborn.regplot の使い方
本ページでは、Python の機械学習ライブラリの scikit-learn を用いて、回帰モデル (Regression model) の予測精度を評価する方法を紹介します。 回帰モデルの評価にはいくつかの指標があり、本ページでは主要な指標として、MAE, MSE, RMSE, 決定係数の 4 つを紹介します。 平均絶対誤差 (MAE) 平均絶対誤差 (MAE, Mean Absolute Error) は、実際の値と予測値の絶対値を平均したものです。MAE が小さいほど誤差が少なく、予測モデルが正確に予測できていることを示し、MAE が大きいほど実際の値と予測値に誤差が大きく、予測モデルが正確に予測できていないといえます。計算式は以下となります。 (: 実際の値, : 予測値, : 件数) scikit-learn には、sklearn.metrics.mean_absolute_er
本ページでは、Python の機械学習ライブラリの scikit-learn を用いて、クラス分類 (Classification) を行った際の識別結果 (予測結果) の精度を評価する方法を紹介します。 混同行列 (Confusion matrix) 機械学習を用いたクラス分類の精度を評価するには、混同行列 (Confusion matrix, 読み方は「コンフュージョン・マトリックス」) を作成して、正しく識別できた件数、誤って識別した件数を比較することが一般的です。 以下の表は、電子メールのスパムフィルタ (迷惑メールフィルタ) の精度評価を行なう場合の混同行列の例で説明します。混同行列は横方向に識別モデルが算出した識別結果、縦に実際の値 (正解データ) を記します。 例えば、スパムフィルタの場合、横方向に「スパム、またはスパムでないとモデルが識別した件数」、縦方向に「実際にそのメー
本ページでは、Python の機械学習ライブラリの scikit-learn を用いてトレーニングデータとテストデータを作成するために、サンプリングを行なう手順を紹介します。 トレーニングデータ・テストデータとは 教師あり機械学習(回帰分析、決定木分析、ランダムフォレスト法、ナイーブベイズ法、ニューラルネットワークなど)によるモデルを作成するには、準備したデータセットをトレーニングデータ(訓練用データ、学習用データとも呼ばれます)とテストデータ(検証用データ、評価用データ、検証用データとも呼ばれます)の 2 つに分割して予測モデルの作成、評価を行なうことが一般的です。このように一定の割合でトレーニングデータとテストデータに分割することをホールドアウト (hold-out) と呼びます。 以下は、クレジットカードの解約予測の分析テーマを例に挙げて、そのイメージを説明します。 トレーニングデー
このページでは、Python のグラフ描画ライブラリの matplotlib で散布図などを出力する際に指定可能なマーカーの名前を紹介します。 matplotlib.markers クラスで定義されているマーカーの種類 “.”
このページでは、前編に引き続き、Ajay Ohri 氏のスライド、”Python for R Users” から、Python と R の違いについて、データ可視化とグラフの作成方法の差異を紹介します。 散布図 R Python
本ページでは、Python のデータ可視化ライブラリ、Seaborn (シーボーン) を使ってヒートマップを出力する方法を紹介します。 Seaborn には、ヒートマップの可視化を行うメソッドとして seaborn.heatmap と seaborn.clustermap の 2 つが実装されています。seaborn.heatmap は通常のヒートマップを出力しますが、seaborn.clustermap は、クラスタ分析を行い、デンドログラムとともにヒートマップを出力します。 heatmap: ヒートマップの可視化 seaborn.heatmap メソッドは、色の濃淡や色相でデータの密度や値の分布を可視化します。 seaborn.heatmap の使い方 seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None,
このページでは、Pandas で作成したデータフレームの特定の行 (レコード) 、列 (カラム) を除去・取り除く方法について紹介します。 なお、条件に基づいて特定の行や列を抽出する方法については、「Pandas でデータフレームから特定の行・列を取得する」もご覧ください。 特定の行を削除する DataFrame.drop() メソッドを利用して、インデックスに基づいて特定の行の削除を行うことができます。リストを指定して、複数の行を一度に削除することもできます。
本ページでは、Python のグラフ作成パッケージ Matplotlib を用いて散布図 (Scatter plot) を描く方法について紹介します。 matplotlib.pyplot.scatter の概要 matplotlib には、散布図を描画するメソッドとして、matplotlib.pyplot.scatter が用意されてます。 matplotlib.pyplot.scatter の使い方
本ページでは、Python の数値計算ライブラリである、Numpy を用いて各種の乱数を出力する方法を紹介します。 一様乱数を出力する 一様乱数 (0.0 – 1.0) の間のランダムな数値を出力するには、numpy.random.rand(出力する件数) を用います。
このページでは、Pandas で作成したデータフレームを操作して、特定の行・列を取得し、目的の形へ加工する手順について紹介します。 なお、特定の行、列を除外する方法については、「Pandas のデータフレームの特定の行・列を削除する」の記事をご参照ください。 特定の列を取得する カラム名 (列名) を指定して、特定の列を抽出できます。
本ページでは、Python のグラフ作成パッケージ Matplotlib を用いて折れ線グラフ (line chart) を描く方法について紹介します。 matplotlib.pyplot.plot の概要 matplotlib には、折れ線グラフを描画するメソッドとして、matplotlib.pyplot.plot が用意されてます。 matplotlib.pyplot.plot の使い方 matplotlib.pyplot.plot メソッド は、内部的に matplotlib.lines.Line2D クラスを参照しているため、使い方は、matplotlib.lines.Line2D クラスを参考にします。
本ページでは、Google Brain Team によって開発された、ディープラーニング (深層学習) をはじめとするオープンソースの機械学習エンジン、TensorFlow のインストール手順について紹介します。 なお、2016 年 7 月時点では、TensorFlow は Linux および Mac のみでのみ利用可能であり、Windows のバイナリ (実行体) は未提供のため、本手順では、Linux (Ubuntu 16.04 LTS) を用います。 本手順は、Ubuntu と Anaconda のインストールが完了した状態から開始します。Python のバージョンは Python 3.5 (Python3) を用います。Anaconda のインストールが済んでいない場合は、Anaconda を利用した Python のインストール (Ubuntu Linux) の手順でインストール
本ページでは、Python のグラフ作成パッケージ Matplotlib を用いてヒストグラム (Histogram) を描く方法について紹介します。 matplotlib.pyplot.hist の概要 matplotlib には、ヒストグラムを描画するメソッドとして、matplotlib.pyplot.hist が用意されてます。 matplotlib.pyplot.histの使い方
このページでは、三角関数や指数関数、対数関数など、基本的な数学関連の関数の使い方を解説します。 三角関数 正弦関数 (sin(x), サイン) 、余弦関数 (cos(x), コサイン)、正接関数 (tan(x), タンジェント) を求める関数として、それぞれ、np.sin(x) 、np.cos(x) があります。なお、x はラジアンで指定する必要があるため、度はラジアンに変換する必要があります。 サンプルコード
Rodeo (ロデオ) とは、Yhat 社 によって開発されている Python の統合開発環境 (IDE) です。同様の Python 開発環境には、PyCharm (PyCharm のインストール方法) や Eclipse プラグインの PyDev などがありますが、Rodeo は R の開発環境として広く使われている RStudio に似た UI (ユーザインターフェース) を持っているという特徴があります。このため、RStudio に扱いなれている方が Python を扱う際に、Rodeo を利用すると効率よく扱うことができるでしょう。 Rodeo は以下のように、RStudio と同じ画面構成となっていることがわかります。 Rodeo をインストール 本手順では、Windows 10 に Rodeo 2.0.13 (2016 年 8 月現在での最新版) をインストールする方法につ
本ページでは、Python の機械学習ライブラリの scikit-learn を用いて線形回帰モデルを作成し、単回帰分析と重回帰分析を行う手順を紹介します。 線形回帰とは 線形回帰モデル (Linear Regression) とは、以下のような回帰式を用いて、説明変数の値から目的変数の値を予測するモデルです。 特に、説明変数が 1 つだけの場合「単回帰分析」と呼ばれ、説明変数が 2 変数以上で構成される場合「重回帰分析」と呼ばれます。 scikit-learn を用いた線形回帰 scikit-learn には、線形回帰による予測を行うクラスとして、sklearn.linear_model.LinearRegression が用意されています。 sklearn.linear_model.LinearRegression クラスの使い方
本ページでは、Python のグラフ作成パッケージ、Matplotlib を用いて円グラフ (pie chart) を描く方法について紹介します。 matplotlib.pyplot.pie の概要 matplotlib には円グラフを描画するメソッドとして、matplotlib.pyplot.pie が用意されています。 matplotlib.pyplot.pie の使い方
このページでは、Pandas で作成した、もしくは、読み込んだデータフレームに行や列 (カラム) を追加する方法について紹介します。 行を追加する
Last update: 2017-10-03 このページでは、Pandas を用いて作成したデータフレームや Pandas を用いて加工したデータを CSV ファイルやテキストファイルとして書き出す方法 (エクスポートする方法) についてご紹介します。 CSV ファイルとして出力する: DataFrame.to_csv() メソッド Pandas には、CSV ファイルとして出力するメソッドとして、DataFrame.to_csv() メソッドが存在します。また、この際、区切り文字を CSV ファイルで用いるカンマ (,) から タブ (\t) などへ置き換えることで、テキストファイルとして出力する事もできます。 DataFrame.to_csv メソッドの書式と引数 (オプション)
このページでは、CSV ファイルやテキストファイル (タブ区切りファイル, TSV ファイル) を読み込んで Pandas のデータフレームに変換する方法について説明します。 Pandas のファイルの読み込み関数 CSV ファイルのロード: read_csv() Pandas には、CSV ファイルをロードする関数として、read_csv() メソッドが用意されています。 テキストファイルのロード: read_table() テキストファイルなど、一般的な可変長のテキストファイルを読み込む関数として、read_table() メソッドが用意されています。 read_csv() メソッドの書式
本ページでは、Python のグラフ描画 (データ可視化) ライブラリである、matplotlib でグラフの線や棒の色に指定可能な色の名前 (カラーコード) とその方法について紹介します。 色の名前で指定 以下のように色の名前を用いて指定できます。指定可能な色の名前は matplotlib.colors.cnames で確認できます。 指定可能な色の名前
PyCharm (パイチャーム) とは、チェコの企業、JetBrains 社によって開発されているPython開発者向けの IDE(統合開発環境)です。IDE とは、編集、ビルド、実行結果の確認などを一元的に行えるアプリケーションを指し、R であれば RStudio や DevelopR IDE、Java であれば Eclipse が代表的です。 PyCharm のダウンロード PyCharm のダウンロードページにアクセスし、Community 版をダウンロードします。 ダウンロードしたインストーラを開きます。 インストーラが起動するので、「Next」を押して次に進みます。 インストール先を確認し、「Next」を押して次に進みます。 チェックボックスにチェックし、拡張子が「.py」のファイルを PyCharm で開くよう設定し、「Next」を押して次に進みます。 スタートメニューへの追加
本ページでは、Python の IDE (統合開発環境である) PyCharm (パイチャーム) の応用的な使い方についてご紹介します。 まだ PyCharm をインストールしていない方、基本的な使い方に関する記事をお探しの方は PyCharm のインストール方法、PyCharm の基本的な使い方 もご参照ください。 矩形選択 矩形選択モード (くけいせんたく, Column Selection Mode) といって、四角形のように文字列を選択するには、 「Edit」 ⇒ 「Column Selection Mode」、もしくは、Shift + Alt + Insert キーを押して矩形選択モードに入ります。その後で、Shift キーを押しながら上下左右キー、もしくはマウスのドラッグ操作で、以下のように選択することができます。 以下のように、矩形で選択できていることがわかります。 コードの
本ページでは、Python の機械学習ライブラリの scikit-learn を用いてクラスタ分析を行う手順を紹介します。 クラスタ分析とは クラスタ分析 (クラスタリング, Clustering) とは、ラベル付けがなされていないデータに対して、近しい属性を持つデータをグループ化する手法です。例をあげると、以下のような活用方法があり、マーケティング施策や商品の企画開発などに活用することます。 製品ごとの特徴 (自動車であれば、価格や定員、燃費、排気量、直近の販売台数) を用いて類似の製品をグループ化 店舗の特徴 (スーパーであれば、売上や面積、従業員数、来客数、駐車場の数) から類似の店舗をグループ化 顧客の特徴 (銀行であれば、性別、年齢、貯蓄残高、毎月の支出、住宅ローンの利用有無など) を用いて似たような利用傾向の顧客をグループ化 クラスタ分析には大別して、K-Means に代表され
このページでは、PyCharm (パイチャーム) の基本的な使い方を紹介します。 インストールがまだ済んでいない場合、「PyCharm のインストール」から PyCharm をインストールしましょう。 Pycharm を起動する (Windows の場合) スタートメニューの「JetBrains PyCharm Community Edition」を押します。 過去に使用した PyCharm はないので「I do not have a previous version of PyCharm …」を選択し、「OK」を押します。(過去に作成した PyCharm の設定をインポートする際には、「I want to import my settings from a custom location」を選択し、格納先のパスを指定します) キーマップ、テーマ、配色を変更できますが、そのまま「OK」を押
このページでは、Pandas を使ってデータフレームを作成する方法を紹介します。 Series (1 次元の値のリスト) を作成する pd.Series() を用いて、1 次元のリスト (Series, シリーズと呼ばれます) を作成します。
本ページでは、Google Brain Team によって開発されたオープンソースの機械学習エンジンである、TensorFlow (テンソルフロー) を利用して、ディープラーニングの一種である、CNN 法 (Convolutional Neural Network, 畳み込みニューラルネットワーク, ConvNet とも呼ばれる) によるモデルを構築して、画像の自動クラス分類器 (判別器) を作成し、実行する方法を紹介します。 もし、まだ TensorFlow をインストールしていない場合は、「TensorFlow をインストール」の手順にてインストール作業を行いましょう。 今回使用するデータ (CIFAR-10 データセット) 本手順では、TensorFlow の Convolutional Neural Network のチュートリアル にしたがって、CIFAR-10 (読み方は、シー
次のページ
このページを最初にブックマークしてみませんか?
『Python でデータサイエンス』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く