[B! Python][analysis] teddy-gのブックマーク

teddy-g id:teddy-g

Pythonとanalysisに関するteddy-gのブックマーク (10)

Theory Of Retracement - A Complete Overview On Trend
teddy-g 2023/06/20
なんかSTL分解とかして時系列分析したときに参考にした。DowntrendとかUptrendとか。備忘。

python

pandas

data

analysis

bigdata

timeseries
リンク
(Python編) 時系列データをサクッとSTLでトレンド・季節性に分解
幸か不幸か、ビジネス系のデータの多くは時系列データです。売上データもホームーページのアクセスログもセンサーデータも時系列データです。時系列データを手にしたとき、どのようなデータなのか見てみたい、ということは多々あります。多くの場合、折れ線グラフを描き傾向を掴む、ということをやります。折れ線グラフを眺めると、トレンド（上昇傾向や下降傾向）や季節性などが見て取れるケースがあります。そこで、サクッとトレンドや季節性などを掴む手法がSTL分解（Seasonal Decomposition Of Time Series By Loess）です。 STL分解（Seasonal Decomposition Of Time Series By Loess）を実施することで、元データをトレンド、季節性、残差に分解することができます。元データ　＝　トレンド　＋　季節性　＋　残差 STL分解（Seas
teddy-g 2023/06/20
STL分解すれば時系列のトレンドをざっくり捉えることができる。ビジネスデータの場合、Seasonal Factorは12ヶ月と思っておけば大体OK。

python

data

analysis

bigdata

statistics

stats

timeseries

pandas

matplotlib
リンク
[Python]NetworkXでQiitaのタグ関係図を描く
はじめに Pythonのライブラリ、NetworkXの使い方を、Qiitaの投稿に付けられたタグの関係グラフの作成を例にして説明します。 NetworkXを使うと、下に示すような、ノードとエッジで構成されるグラフを描くことができます。実行環境 Windows 10 Python 3.5.2 (Anaconda) Jupyter notebook 元データの取得 Qiitaは、投稿を取得するAPIを公開しているので、簡単に投稿を取得することができます。 JSON形式で返ってくるデータを下記コードでPythonの辞書に変換します。なお、非認証の場合、1リクエストごとに最大100記事、1時間ごとに60回の制限があるので、今回は、100*60 = 6000 記事を対象とします。 import requests import json it ems = [] params = {"page":1
teddy-g 2021/07/26
この通りやればnetworkxでグラフが書けると見せかけてnetworkx 2.x系だと色々と変更しないと動かないという罠。

python

python3

analysis

bigdata

graph

network

graphtheory

networkx
リンク
Random Forestで計算できる特徴量の重要度 - なにメモ
(pixabay.comより) １．背景とか Random Forest[1]とは、ランダムさがもつ利点を活用し、大量に作った決定木を効率よく学習させるという機械学習手法の一種です。SVMなどの既存の手法に比べて、特徴量の重要度が学習とともに計算できること、学習が早いこと、過学習が起きにくいこと（追記注釈１）などの利点が挙げられます。Kinectの姿勢推定に使われているらしいです。最近、Random Forestをカジュアルに使う例が多く（特にうちの研究室）、一部パラメータやら出力やらがわからない人も多いと思います。使い方はTJOさんの資料[2]を読んでもらえれば理解できると思うし、詳細は波部先生の資料[3]をよんでもらえればわかると思います。それで、いろいろな日本語の資料をいくら読んでも、Random Forestがもつ特徴の１つである、特徴量の重要度の詳細に関してはほとんどノータッ
teddy-g 2017/03/26
Random Forestの「寄与率」についてのざっくりとした説明。出来上がった森の内容を直接見るのではなく、森を使ってvalidationする感じ。

randomforest

python

R

statistics

machinelearning

bigdata

analytics

analysis
リンク
Python: Janome で手軽に形態素解析する - CUBE SUGAR CONTAINER
Janome は Pure Python で実装された日本語の形態素解析ライブラリ。形態素解析というのは文章から意味をもった最小の構成単位となる形態素を取り出すことをいう。他の日本語の形態素解析ライブラリは Python から使えてもバインディングが提供されているだけでドキュメントがイマイチだったり、あるいはインストールが大変だったりということも多々あるんだけど Janome はそんなことがない。インストールインストールは実に簡単。 pip を使ってさっくりできる。 $ pip install janome 使ってみる使い方も至ってシンプルで janome.tokenizer.Tokenizer さえ知っていればいい。 Tokenizer#tokenize() メソッドに日本語のユニコード文字列を渡すだけで解析ができる。解析結果はリストで返ってくる。 >>> from jano
teddy-g 2016/11/28
Janomeって蛇の目か。確かに簡単に形態素解析できる。便利。

python

morphological

analysis
リンク
64bit Windows + python 2.7 + MeCab 0.996　な環境をつくる - Qiita
修正履歴 2016/2/19 コードの修正・必要なファイルの更新 2016/2/19 トラブルシューティングの追加はじめにそもそもWindowsでなぜ？という話があると思いますが、理由は一つ。Windowsには強力なIDEであるVisual Studioがあるからです。コード補完、スニペット、デバッグ・・・・多くのメリットがあるIDEですが、いかんせんWindowsでの環境構築には難所が多く、Python関係だとビルドの問題で詰まることが多いようです。理由は様々ですが、Unixのコマンドが通用しなかったり、ファイルパスの書き方が違ったりといったことがあげられます。今回は、そんなハードルを乗り越え、自然言語処理屋さん御用達、MeCabのPythonライブラリを入れてみようという話です。 MeCabって？ MeCabは、形態素解析ツール。形態素は意味の通る単語の最小ブロックといった感
teddy-g 2016/02/29
WindowsのPython環境でMeCab使う為のあれやこれや。

python

mecab

windows

NaturalLanguage

NLP

morphological

analysis
リンク
Python for Financeという本 - xiangze's sparse blog
ipython notebookを使って出版されたらしいPython for Financeという本を読みました。 numpy, scipy, pandas, PyMC3をはじめとしたPythonの数値計算、解析系のパッケージを使った金融工学の計算事例と自作ライブラリについての紹介になっています。 Python for Finance: Analyze Big Financial Data 作者: Yves Hilpisch出版社/メーカー: Oreilly & Associates Inc発売日: 2014/12/27メディア: ペーパーバックこの商品を含むブログを見るhttp://shop.oreilly.com/product/0636920032441.do https://books.google.co.jp/books?id=7tzSBQAAQBAJ&printsec=fron
teddy-g 2015/05/20
金融工学×Pythonは確かに気になる。

python

finance

analytics

analysis

bigdata
リンク
主成分分析と独立成分分析とスパースコーディングの比較[python] - 無限の猿
データを教師なしで変換する行列分解手法、主成分分析（PCA: Principle Component Analysis）、独立成分分析（ICA: Independent Component Analysis）、スパースコーディング(SC: Sparse Coding）の比較。行列分解手法の明確な定義は知らないが、ここではデータを表すベクトルの集合を横に並べた行列をとして、基底を表す行列と係数のを表す行列の積、に変換する手法とする。これはすなわち、元のデータをの列にあたる基底の線形和、で表現することを意味する。はデータの基底で表される空間での表現に相当することになる。ここでが決まっていれば、を求めるのは線形の逆問題（が正則な正方行列であればその逆行列をにかけてやれば良い）となるが、行列分解問題では双方を同時に求める問題となる。自由度も高くなり、、は一意には決まらない。したがって、、に
teddy-g 2014/09/05
数式だらけだけど比較としてはわかりやすいな。まあ、ビジネスマン的には一緒なんだけど。

programming

python

analytics

analysis

bigdata
リンク
単純パーセプトロンをPythonで組んでみる - 渋谷駅前で働くデータサイエンティストのブログ
いきなり自分でハードル上げてみました（笑）。ちなみに何故単純パーセプトロンを最初に持ってきたのか？というと、id:echizen_tmさんのブログ記事でも触れておられる通り機械学習には大きく分けて「識別関数」「識別モデル」「生成モデル」の3つの種類がある。このなかで識別関数は確率を使わないので初心者が入門するのに最適。識別関数で有名なのはSVM(Support Vector Machine、サポートベクターマシン)。名前を聞いたことがある人も多いと思う。そこで早速SVMを学ぼうとすると敷居が高くて挫折しがち。実はSVMは(大雑把に言うと)パーセプトロンという基礎的な識別関数に「マージン最大化」と「カーネル関数」という考え方を導入したもの。なので機械学習入門者は最初にパーセプトロンを学ぶのが良いと思われる。それゆえ、実際に僕も以前Matlabで糞コード書きながら勉強してた時はやはり単
teddy-g 2014/07/25
これで単純パーセプトロンを分かった気になった。

analytics

analysis

R

python

bigdata
リンク
第17回　パーセプトロンを実装してみよう | gihyo.jp
少し間が空いてしまいましたが、今回は実践編。第15回で紹介したパーセプトロンを実装してみましょう。環境はこれまでと同じくPython/numpy/matplotlibを用います。インストールなどの準備は第6回を参照してください。パーセプトロンの復習第15回で紹介したパーセプトロンの学習アルゴリズムをもう一度簡単に振り返っておきましょう。 2次元平面上のデータ点(xn,yn)(n=1,…,N)に正解ラベルtn∈{+1,-1}が与えられているとします。パーセプトロンは、次の予測式の結果がすべて正解になるようにパラメータa, b, cを決めるものでした。そのようなパラメータは、次の手順で求めることができます。データの中からランダムに1点(xn,yn)を取り出し、f(x,y)に代入すると、現在のパラメータを用いた予測値として＋1または－1が得られます。それが正解tnと一致する場合は何もせ
teddy-g 2014/06/19
Pythonでパーセプトロンを実装する。特徴ベクトル化で1を尻につけてるのはバイアス。

bigdata

analysis

analytics

python

neuralnetwork
リンク
1