Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
モバイルアプリケーションの運営に欠かせない指標の1つであるユーザーリテンション、PartyTrack等の分析サービスを使っていると良く目にすると思う。ただ、自分の持っているデータでグラフを描画したいがWebフロントのJavaScriptは書きたくないというケースもある。 そんな時に見た次のエントリ Making Pinterest — How Pinterest drives sustainable growth http://engineering.pinterest.com/post/86533331849/how-pinterest-drives-sustainable-growth コホートヒートマップが何かで描画されてる!! という訳で同じ見た目のグラフをPythonで描画してみる。 リテンション率のデータ 「ある日xに獲得したユーザーのy日後のアクティブ率z」を次の形で持ってい
こんにちは。 林@アイエンターです。 前回はブログでは数学的なアプローチの回帰分析のお話をいたしました。 最近は統計分析や機械学習の分野では、Pythonが使われるケースが増えています。 Pythonには、数理演算やデータ可視化の強力なライブラリがそろっているのが その一因かと思います。 今回は「scikit-learn」という機械学習で良く用いられるpythonライブラリを紹介します。 非常にパワフルなライブラリーです。 実際、前回のブログのサンプルデータをライブラリーで回帰分析してみます。 ■環境セットアップ 「Anaconda」という、Pythonパッケージをインストールします。 これはPython本体と、科学技術、数学、データ分析関連で良く使われるライブラリを、一括でインストールできるパッケージです。 Windows/MacOS/Linuxのそれぞれのパッケージが用意されています。
>>> import numpy >>> numpy.show_config() lapack_opt_info: extra_link_args = ['-Wl,-framework', '-Wl,Accelerate'] extra_compile_args = ['-msse3'] define_macros = [('NO_ATLAS_INFO', 3)] blas_opt_info: extra_link_args = ['-Wl,-framework', '-Wl,Accelerate'] extra_compile_args = ['-msse3', '-I/System/Library/Frameworks/vecLib.framework/Headers'] define_macros = [('NO_ATLAS_INFO', 3)] にて確認する. 調べた結果,upda
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? こんにちは。 林@アイエンターです。 前回のブログでは、Pandasやデータ可視化用のSeabornを導入し、米国自動車株の解析を行いました。 今回は再びscikit-learnにフォーカスして、機械学習のクラスタリングで用いられる「k平均法(k-means)」で画像の減色処理を行ってみます。 また、今回は画像の扱いには「OpenCV」も使ってみることにします。 k平均法での画像減色 k平均法とはWikiに詳細が記載されておりますが、空間上の点群データをk個のグループに分類するアルゴリズムです。 アルゴリズムから、各点がどこのグループに
Python と matploblib によるデータ可視化についてはすでに pandas + matplotlib による多彩なデータプロッティングや pandas を利用してデータセットの可視化を素早く試行する、 matplotlib (+ pandas) によるデータ可視化の方法などでさまざまな方法を説明してきました。 今回はヒートマップを描くわけですが、その前にあらためで可視化の方法についておさらいしましょう。 配列からのデータ可視化方法のまとめ ここでのデータ可視化とは配列からなるポピュラーな図示をさしています。配列とは、複数の属性値を持ち、 1 つのデータが 1 つの行で表されるデータの形式です。 いろいろなバリエーションがありますが、主軸となる代表的な可視化方法をまとめます。 棒グラフ (bar) データの大きさの比較に適したグラフです。縦や横に描画する方法、積み上げる方法、複
クラスタリングアルゴリズムの一つであるDBSCANの概要や簡単なパラメータチューニングについて, 日本語記事でまとまっているものがないようでしたのでメモしました。 DBSCANの概要は,wikipediaの(雑な)和訳ですのでご容赦ください。 DBSCANとは Density-based spatial clustering of applications with noiseの略 クラスタリングアルゴリズムの一つ アルゴリズムの概要 1.点を3つに分類する Core点 : 半径ε以内に少なくともminPts個の隣接点を持つ点 Reachable点(border点):半径ε以内にminPts個ほどは隣接点がないが,半径ε以内にCore pointsを持つ点 Outlier : 半径ε以内に隣接点がない点 2.Core点の集まりからクラスタを作成し,Reachable点を各クラスタに割り当て
すごいPandasさっくり学ぼう はじめに Pandasとはプログラミング言語Pythonにおいて、データ解析を支援する機能を提供するライブラリです1。PandasはPythonのライブラリでも複雑だと思います2。 しかし、その分、自由度が非常に高く、データ分析やさんにとって、Pandasなしでのデータ分析は考えられません。そこで、「ここまで理解しとけば、あとは(他サイトとかみたら)どうにでもなるわ」ってところまで説明したいと思います3。 攻略方法 \1. 準備 numpy(1次元)のインデックス参照、スライシング、ブールインデックス参照、ファンシーインデックス参照を使えるようにする numpy(2次元)のインデックス参照、スライシング、ブールインデックス参照を使えるようにする。numpy.iloc_関数の挙動を理解する。(ファンシーインデックス参照は2次元でのndarrayでは使いづらい
以前(というか昨年のAdvent Calender)線形SVMについて書かせていただいたのですが、非線形の部分に触れられずに終わってしまったので、今回は続きということで非線形SVMについてまとめてみようと思います。 前回の記事は以下になります。 線形SVM(Machine Learning Advent Calendar 2015) 非線形SVMとは 前回の線形SVMでは、データ集合の実空間上に線形な境界を設けることで、データ集合を2つのグループに分類していました。 例えば、二次元空間上に存在するデータ集合を2つのグループに分類したいとき、線形SVMを使えば両グループが最も乖離する位置に線形な境界(超平面)を定義でき、データ集合を2分することができます(なおこのときのデータ集合は訓練集合であり、各データの正解ラベルはわかっているものとします)。 (同じ色の点は、同じグループのデータであるこ
matplotlib.animation.ArtistAnimation() メソッドを使って、plt.plot() や plt.bar() で出力した個々のグラフを、自動連続再生する動画アニメーションを作ってみた。 アニメーションは何かの変化を表現できるということで、今回は、正規分布 と ポアソン分布 のパラメータを離散的に推移させて、グラフの概形がどのように移り変わるかを 可視化 してみた。 統計教育のツールとして、使えるかも??? (参考ウェブサイト) 「pythonで散布図アニメーションを試してみた」 「matplotlibでランダムウォークをアニメーション」 「Python:matplotlibでScatterを使った2Dアニメーション」 「numpy+matplotlibで正規分布」 memoring 「統計解析」 「Pythonで正規分布に従う乱数を生成する。」 yubais
NMFは次元削減の手法であり、レコメンドの精度を高めることができるといわれています。 機会学習ライブラリのscikit-learnでもNMFを簡単に使うことができます。 今回は、具体例を用いて試して、NMFを直感的に理解することが目的です。 「Matrix Factorizationとは」という記事がわかりやすいです。 NMFとは レコメンドとしてのMatrix Factorizationについてざっくりと理解するには、英語ですが、以下の資料がわかりやすいです。 Matrix Factorization Techniques For Recommender Systems このスライドにある図を引用しながら軽くイメージを説明します。 NMFの手法が一躍有名になった、Netflix Prizeを想定し、ユーザーとその人がどの動画に何点の評価をつけたかを表す行列が与えられるとします(左のRat
Rではheatmap(x)と打つだけで、x, y各軸に対してクラスタリングされたデンドログラム付きヒートマップが描画でき、遺伝子の発現量が・・・など日々呟いているbioinformaticiansにはお馴染みの機能なのですが、Python+matplotlib環境で同じことをやろうとした際、あまり情報が無かったので、試行錯誤してみました。 備忘録ついでに公開しときます。 データの準備 まずは、適当なデータとして、細胞組織ごとの遺伝子発現量の増減を表したようなデータを作ります。 ここでの組織のチョイスも、遺伝子のチョイスも、全て適当です。 後でクラスタリングしたときにそれっぽく見えるように、乱数で生成したデータを若干小細工してpandas.DataFrameオブジェクトにします。 # !/usr/bin/env python3 genes = [ 'HIST1H4H', 'SPRN', 'D
軌道生成や軌道計画、最適制御問題の現代的な数値解の求め方の解説。 【追記2017年3月】 ここで書いている内容の発展系としてpythonのライブラリとして公開しました。 下記で実装している理論はLegendre-Gauss-Lobattoの擬スペクトル法、いまいるページに書いている内容はLegendre-Gaussの擬スペクトル法と内容が異なるので注意です。 https://github.com/istellartech/OpenGoddard https://istellartech.github.io/OpenGoddard/ OpenGoddard使い方1 OpenGoddard使い方2 OpenGoddard使い方3 OpenGoddard使い方4 【追記ここまで】 個人的にはロケットの軌道計画・軌道生成の基礎のつもり。 軌道生成とは例えば飛翔体の燃料を最小にして狙ったところに飛ば
matplotlib.pyplotでたま~に日本語を使う必要があり,そのたびに あれ?fontpropertiesだっけ?propだっけ?property? となるので整理してみたら,凡例だけpropで,あとはfontpropertiesなのですね. (propertyなんて無いし…) ご参考まで. # -*- coding: utf-8 -*- import matplotlib.pyplot as plt from matplotlib.font_manager import FontProperties fp = FontProperties(fname=r'C:\WINDOWS\Fonts\YuGothic.ttf', size=14) plt.bar([1, 2], [5, 10], 0.25) plt.bar([1.25, 2.25], [4, 8], 0.25, color=
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く