Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
科学技術計算用言語としての Python そもそもなぜデータ分析などの科学技術計算を Python でやるのでしょうか。主に次の二点によります。 NumPy, pandas, matplotlib など豊富なライブラリが揃っている 汎用性の高いグルー言語として利用できる データフレームを利用した計算とそのグラフ描画 (プロッティング) のみであれば R のほうがどちらかといえば簡単かもしれません。しかし統計解析を汎用性の高い Python で完結させることで様々な分野へのより幅広い応用が可能になります。 NumPy 統計解析の多くはベクトル演算を伴います。 NumPy は高速でメモリ効率の良い多次元配列の実装である ndarray を備えています。プログラミング言語に元から備わっている配列・ハッシュオブジェクトでは到底かなわないような高次元のベクトル演算を可能にします。またファンシーインデ
1. scikit-learnを使った実験概要 Gradient Boostingについて - 準備編 - ( http://goo.gl/y2EVLI ) の予告通り今回はSklearnで実験をしてみました。目的は、GBDTを使ったfeature transformationが予測を改善するのか、という点を確認する事です。 ところで、Gradient Boostingでfeature transformationする話は昔からあったはずですが、ADKDD'14で発表されたPractical Lessons from Predicting Clicks on Ads at Facebook[1]が非常に有名です。実験はこの論文がやっている事と同じですが、featureの安定性等は計算していません。実務で適用する場合は重要な点ですので、ぜひトライしてみて下さい(結果を教えて頂けるととてもうれ
やりたいこと scikit-learn はPythonのほぼデファクトの機械学習ライブラリです.scikit-learnの利点としては多くのアルゴリズムが実装されていることもそうですが,一貫した形で設計されており様々なアルゴリズムを共通したかたちで扱えることです.scikit-learnにないアルゴリズムを新たに実装したり,他のライブラリを使用するときにsciki-learnの他の推定器と同様に扱えるよう実装すれば,もともと実装されている推定器同様にクロスバリデーションで性能を評価したりグリッドサーチでパラメータを最適化したりできます.ここでは最低限の推定器の実装を示します.ここでは識別器または回帰器をターゲットとして考えます(クラスタリングとか教師なし学習とかは考えない). べたな実装 from sklearn.base import BaseEstimator class MyEsti
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 環境 OS X El Capitan 10.11.6 python: 2.7.11 pandas: 0.18.0 matplotlib: 1.5.1 numpy: 1.10.4 IPython: 4.1.2 初めに Pythonによる作図のおすすめ10 Pythonには様々な作図方法があり、matplotlibというライブラリを使うのが基本です。ただそれは少し野暮ったいので楽にオシャレに描けるようにするseabornというラッパーがあります。これに満足できなかったら、Bokehとかがいいのかもしれません。ggplotはRで使用している方
matplotlib と pandas によるさまざまな図の描画方法を以前に紹介しました。しかしその具体的なパラメーターについては触れませんでした。今回から数回に渡り matplotlib による図形描画について追っていこうと思います。 図とサブプロット matplotlib の Figure オブジェクトはプロット機能を提供します。 plt.figure() メソッドは何も描画されていない新しいウィンドウを描画します。 add_subplot() メソッドはその内部にサブプロットを生成します。 import numpy as np from pandas import * from pylab import * import matplotlib.pyplot as plt from matplotlib import font_manager from numpy.random imp
前回までに引き続き matplotlib と pandas によるデータ可視化について話を進めていきます。 外部データを可視化する 今回はより実践的なデータとして外部のデータを利用しましょう。この記事の参考にもしている pydata-book のデータをまずダウンロードしてきます。 pydata-book/ch08/tips.csv https://github.com/pydata/pydata-book/blob/master/ch08/tips.csv import numpy as np from pandas import * import matplotlib.pyplot as plt tips = read_csv('tips.csv') # CSV データのクロス集計をおこなう party_counts = crosstab(tips.day, tips.size) pr
Grid search とは scikit learnにはグリッドサーチなる機能がある。機械学習モデルのハイパーパラメータを自動的に最適化してくれるというありがたい機能。例えば、SVMならCや、kernelやgammaとか。Scikit-learnのユーザーガイドより、今回参考にしたのはこちら。 3.2.Parameter estimation using grid search with cross-validation Example:Parameter estimation using grid search with cross-validation やったこと 手書き数字(0~9)のデータセットdigitsをSVMで分類 GridSearchCVを使って、交差検定でハイパーパラメータを最適化 最適化時のモデルの評価関数にはf1を使用 データの準備 手書き数字のdigitsをインポ
import numpy as np from pandas import * import matplotlib.pyplot as plt # CSV データを読み込む macro = read_csv('macrodata.csv') # いくつかの列をピックアップする data = macro[['cpi', 'm1', 'tbilrate', 'unemp']] # .diff() メソッドは値をひとつ前の行からの差分に変更する # 先頭が NaN になるので .dropna() メソッドで取り除く trans_data = np.log(data).diff().dropna() # trans_data は前行からの変化を示すデータセットになる # 最後の 5 行を表示 print( trans_data[-5:] ) # => # cpi m1 tbilrate unemp
さくらのVPSとDjangoとscikit-learnを使って、気になる顔画像と類似したAV女優が出てるAVの類似画像検索できるウェブサイトを作った。 サイト名はそっくりナビ 今までアプリの開発をしていたのでunityとかopen-GLとかObjective-Cは使ったことあったのだけど、pythonや機械学習の勉強と実益もかねて、1からウェブサービスを作った履歴を記録します。 初心者がはまるポイントは全部はまっていると思うので初心者の人たちには参考になると思います。 ちなみにSIFTとかCNNとか使わなかったのは、BOVW的なやつの精度が低かったり、次元が大きくなって計算量が増えちゃったからです。CNNやるなら動画から画像抽出とかしないとサンプル数足りない感じになっちゃって貧弱なマシンだったので諦めました。 元ネタ:AV画像認識技術とその周辺 ありがとうございます! 目次 ------
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く