サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
WWDC25
qiita.com/ynakayama
最近の Windows はディスクが無限にあるとでも思っているのか、やたらと余計なファイルを作りっぱなしにする構造のようです。しばらく使っていたら気がついたら空き容量がほとんどない、あるいはゼロという事態に直面したりします。また、古めのノート PC (Windows) を手渡されて、いろいろインストールしないといけないのに空き容量が全然空いていないといったときにも困ります。 そんなときの対処方法をまとめました。 0. 事前調査 まず、どのファイルのサイズが大きいのか調査します。これはどのツールを使っても良いですが DiskInfo というのが結構良さげ。 これを利用して、想定以上にサイズが大きくなっているフォルダを調べておきます。 1. C:\Windows\Installer ここにはソフトウェアのアンインストーラーが保存されています。インストールするソフトウェアを最小限にしていれば理論
Anaconda は一言でいうと Python 本体に加え科学計算のライブラリ等が最初から付属されているものです。またパッケージ管理とデプロイを簡略化するための工夫がなされており conda というパッケージ管理コマンドが付属しています。 conda と pip について Python の世界ではかなり昔からそれ自体にパッケージ管理ツールというのが付属していて、昔は EasyInstall なるものを使っており pip を使うためにはあとからセットアップしなければならなかった。いちいち面倒であった。最近の Python ではすっかりデフォルトで pip が付属していて最高の時代になっている。このコマンドを使うと PyPI というサイトに公開しているパッケージをコマンドによりインターネット経由でインストールできる。最高の時代である。 さて、よくある話が conda と pip を併用すると「
3 次元のデータを扱う pandas におけるデータ構造として主要なものに 1 次元つまり線の Series と 2 次元つまり表形式の DataFrame があります。これは pandas における主要なオブジェクトであり Python for Data Analysis でも詳しく解説されています。 しかし実はもう一つ主要なオブジェクトがあります。それが Intro to Data Structures でも 3 つ目に登場する 3 次元の Panel です。 この 3 次元のデータ構造は、たとえば毎日の表データから任意の数値を取り出して時系列のログに関する統計分析をおこないたいといった用途において役立ちます。 Panel オブジェクトを作る Panel は辞書形式にした DataFrame または 3 次元の ndarray を引数にとることで生成することができます。具体的にやってみ
はじめに Mac を新しく用意したらまずは自分が使えるように設定する必要があります。 この Mac というのはなかなかの曲者で、人によってだいぶカスタマイズの好みが分かれますし、慣れているいつもの設定ではないとかなりツライものがあります。 たとえばトラックパッドのスクロールの向きやジェスチャー、キーボードが英語か日本語かあるいはその配置、といった基本的なところから人の好みは変わります。他人の設定の Mac だと下手するとろくに文字すら打てないといった事態にすらなることがあります。 Mac という OS は GUI での操作が前提だったりするので GNU/Linux みたいにスクリプトをドバーッと流してあとは放置しておくだけみたいなことがやりづらい部分があります (一部は自動化可能) 。 そこで Mac を新規調達したときに手っ取り早く自分仕様にカスタマイズするための設定箇所をまとめました。
昨日の続きで統計学の実践的な手法を追っていきます。今日はロジスティック回帰についてです。 参考文献 書籍をお持ちの方は最強である p189 実践編 p221 あたりを参照してください。 (後者のほうが詳しいです) またロジスティック回帰の説明としては 概要については ロジスティック回帰の考え方・使い方 - TokyoR #33 http://www.slideshare.net/horihorio/tokyo-r33-logi 説明については ロジスティック回帰と変数選択 (三重大学・奥村先生) http://oku.edu.mie-u.ac.jp/~okumura/stat/140921.html また実務における例としては 回帰分析とその応用③ ~ロジスティック回帰分析 http://www.gixo.jp/blog/2492 マーケターのためのデータマイニング・ヒッチハイクガイド 第
昨日は pandas でのデータセット加工について説明しましたがその続きです。 データを正規化する 実は今までの記事でもさり気なく正規化は登場してきたのですがきちんと説明していなかったと思います。 統計における 正規化 (normalize) とは、異なる基準のデータを一定の基準にしたがって変形し利用しやすくすることです。 たとえば国語が 90 点、数学が 70 点だったとしましょう。単純に数値だけを比較すると国語のほうが成績が良いことになってしまいますが、もし国語の平均点が 85 点、数学の平均点が 55 点だったら果たしてどうでしょうか?このように基準が異なるデータを比較できるようになるといったことが正規化のメリットです。 一般的には平均 0 、分散 (及び標準偏差) が 1 になるように値を変換することを指します。 これは以下の数式で算出できます。
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
なぜ Python を使うのか もう一度、原点に立って考えてみましょう。統計や機械学習について Python を使う理由は何でしょうか。筆者は次のように考えています。 Python 自体はグルー言語として万能性がある 数学、統計、機械学習などの科学計算用のライブラリが非常に豊富であり他の一般的な言語の追随を許さない域にある C/C++ や FORTRAN などで書かれた線形代数などの数学ライブラリを呼び出すためインタプリタ言語でありながら数理計算部分が高速である 純粋に言語としての魅力を語るのであれば Haskell や Ruby など他にもたくさん種類があるでしょう。また、単純に統計数理計算をするだけであれば R 言語がよく知られています。また金融計算や統計分析用のソフトウェアについては有償のものもあります。しかしながら、計算に特化した科学アプリケーションと、一般的なシステム処理を同時に
正規分布とそのフィッティング すでに何度か登場している線形回帰ではデータの分布にフィットする線の理論式を最小二乗法にて求めました。線形回帰など今までに登場したさまざまな分析の多くで正規分布が仮定されます。 フィッティングに欠かせない手法とも言える最小二乗法は、プロットされたデータを理論式にフィッティングさせることによって理論式中に含まれる定数がいくらであるか、そこからさまざまな情報を得ることができます。たとえば各点にフィットする直線の傾きを求めたいとき、正規分布を仮定する分布の統計量を求めたいときなど色々な場面で使われます。 正規分布 (normal distribution) はまたの名を ガウス分布 (Gaussian distribution) と言い、平均値の付近にピークが集積するデータの分布を表した連続変数に関する確率分布であることは過去の記事でも説明しました。正規分布に対する近
サンプルデータの抽出 統計解析においてはデータの前処理が欠かせません。まず計算機で扱えるようデータを読み込むわけですが、大きめのデータを扱う計算処理においてはそのターンアラウンドがしばしば問題になります。このようなときに採るべき策はいくつかあります。 データのサイズを減らす ボトルネックを特定し計算量の削減をする 計算機の性能を上げる ビッグデータなどと言われて久しいですが実際には標本のサイズを大きく取る必要はありません。標本抽出法によって有意なサンプルを抜きだしましょう。 多くのデータ集中処理では I/O がボトルネックになります。このとき必要なデータだけを読み込むようにする、もとのデータを適切に分割して入力サイズそのものを減らす、といったことを検討するのが良いでしょう。 サンプルデータのスライスと集計 スライシング pandas でデータを扱う場合、スライシングは簡単におこなえます。
D3.js によるデータの可視化はインタラクション、探索的データ可視化といったメリットをもたらします。見た目にも動的で派手、かっこいいといった特徴があります。 以前に D3.js について書いた記事を振り返って見ます。 D3.js + NVD3 + Sinatra + Heroku で作るインタラクティブなデータ可視化デモ http://qiita.com/ynakayama/items/f661b493751370ee6568 これと対照的なのが説明的データ可視化であり、これは「一目でわかること」において優れています。延々とアニメーションを見る、ポインティングデバイスを動かすなどのインタラクションをおこなわなければならないといった可視化は、一目で素早く全貌を理解するといった説明的データ可視化には不向きです。 説明的データ可視化の例を挙げてみましょう。次の例は以前にもいくつかの例を挙げた
だいぶ前にも書いたのですけど JpStock は Yahoo ファイナンスをスクレイピングして日本国内の株式に関する情報を取得するものとしては秀逸です。なお、ありがたいことにこちらの記事でも取り上げていただいています。 さて、最近の状況としては世界的な株安が止まらなくなっています。 8/21 の時点で NY ダウは 3.1% 安と年初来安値、その週明けの日経平均は 4.6% 安、上海株は 8.5% といった状況でした。 (参考 : 下図) 上海も下げると米国も下げる、米国が下げると日本の夜間の先物も一段と売りが出る、翌日は現物も下げるという調子で連鎖が続きました。上海も今までジリ上げ基調であった日本株も 17 日の週から薄商いの中、先物主導で下げはじめ 2 万円を割る流れ、翌週には半値戻しに届かない程度の自立反発をするも、さらにここへきてさらに下値を探る展開、なかなかの波乱となっています。
前回の続きです。 ほんの三カ月前まで日経平均株価が 19,000 円達成と言われたばかりですが、いまや日経平均 20,000 円割れは押し目買いのチャンスと言われるまでに底値が切り上がりました。米国の利上げ、ギリシャ問題など外部要因に不透明を抱える中、相変わらず国内の良好なファンダメンタルズが反映されているという感があります。目先に調整局面はありつつも、長期的に見ると 20,000 円はひとつの通過点でしかないという様相を示しているかのようです。 さてこのような時こそデータ分析を生かして手持ちの資産を増やしたいと誰しもが考えるわけですが、そんな中今月はこのようなニュースが話題になりました。 データセクション、ファイブスター投信投資顧問はビッグデータ株価予測システムを共同開発 (6/8) http://www.datasection.co.jp/news/2015/06/20150608.h
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 前回の続きです。 人工知能で金融データを読み解きトレードに生かすという応用を考えているわけですが、これはあくまで応用分野です。言い換えれば、さまざまな他の分野への応用に際しても基礎となる部分は同じです。数学だとか統計学などといったものは、もともとそれ専門の分野が確立されていたわけではありません。 たとえばナイチンゲールのクリミア戦争における医療レポートだとか、ビール醸造会社での大麦栽培の改良の測定だとか、このような現場で生まれた数学的エッセンスを抽出して体系的にまとめたものが生い立ちです。 これを金融データに応用すると、未来を高い精度で
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 突然ですが皆さんは業務システムを開発するとき、どのような手順を踏んでいますか。 要件定義や設計をおこなわずいきなりプログラムを開発するでしょうか。おそらく、そんなことはしないと思います。 そしてこれは人工知能や機械学習といった新しい手法を現行の業務に適用するときも一緒です。まず現行の仕組みをよく理解し、人間がなにをどのように認知してどう判断しているのか、明確なロジックとしてひも解いていく必要があります。 このようなフェーズでは取り組んでいる内容やその成果もあいまいになりがちです。たとえば、コンサルタントに高い費用を支払った上、成果として
昨日は統計のウソを見破る 5 つの視点として統計的誤りに関する注意点を説明しました。 本日はここであらためて、分析しようとしているデータそのものにスポットを当ててみたいと思います。 KPI (key performance indicator) とは目標を達成するために何が必要かを定量的に表す数値です。整形して美人になりたいというのは KPI ではありませんが、体重を 3 ヶ月後までに 10 キロ減らすとか鼻を 1.5 センチ高くするといったものは KPI です。 データにはどのような種類があり KPI として利用しようとしている指標はどんなデータなのか正しく理解していないとしばしば誤った KPI を導き、無意味なデータ分析へとつながる危険を孕みます。 変数とは 社会調査や医療統計など様々な分野で被調査対象者の状態を多方面から特定していきます。たとえばアンケートやカルテを想定してみましょう
前回は機械学習による未来予測の例として、決定木アルゴリズムで株価の予測をする話をしました。このように直近のポートフォリオの変化をあらわす数列の並びから次の数値の上げ下げを単純に予測するといった場面では、複雑なアルゴリズムに頼らずとも決定木のような単純明快な方法で低コストかつそこそこの精度による予測を実現することができます。 機械的な予測はたとえば短期のトレードにおいて威力を発揮するでしょう。週よりも日、日よりも時や分のように短いレンジのほうが向いているでしょうから、現物よりは信用取引などのほうが向いているかもしれません。もし中・長期的な投資をするならば、やはりファンダメンタルズが優良で PER が格安 ROE が良好な銘柄に投資するといった基本的な姿勢が大切になると思います。 テクニカル指標の一覧を見ればわかりますが、そもそも古くから伝わるこれらの計算式は決して複雑ではありません。またその
今回の記事は一応前回の続きなのですが、 scikit-learn による機械学習を利用して、実際に未来を予測する話を書いていきたいと思います。 なにはともあれ、まずは以下の図をみてください。 今回も実験対象のデータとして株価データを利用します。 上の図に挙げたのは弊社 (DTS) の株価であり、本物のデータです。 図にあるように「過去の株価の変化から結果どうなったのか」という情報を、機械学習を利用して計算機に学習させ、それをもとに将来の株価を予測してみます。 決定木アルゴリズム 今回は数ある分類の手法の中から決定木 (デジジョン・ツリー) を利用します。手法の選択理由は以前に書いた記事を参考にしてください。 決定木自体の説明は Wikipedia あたりを読んでいただくと早いかと思います。 また scikit-learn に実装されている決定木についての説明は公式ドキュメントにあります。
前回は scikit-learn に実装されている機械学習の手法をざっくりと書いてみたのですけれども、それなりに需要がありそうなので今日から scikit-learn を使った機械学習のサンプルコードを書きつつ、その手法の理解と実践に迫ってみたいと思います。 まずは以前にもやった K 平均法によってクラスタリングをする例を挙げていきます。 K 平均法はクラスタリングの中でも基本的な手法で、シンプルで高速に動作しますし、入門にも最適です。動作についての説明は毎回おすすめしているのですがこのあたりがわかりやすいです。 クラスタリングする対象としてはやはり株価データを利用します。 株価のデータは 無料で誰でも入手することができる 企業の「業績」を示す指標となるリアルなデータである 定量的なデータであるため分析しやすい といった特長があるため扱いやすいのです。 企業の業績と株価は密接な関係にありま
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 前回、株式の時系列データを分析する話で、後半にちょっとだけ機械学習の話をしました。今日は機械学習ライブラリ scikit-learn に触れます。 scikit-learn といえば以前にも簡単なクラスタリングの例をあげたり、サポートベクトルマシンやクラスタリングで問題を解く、 TF-IDF を計算する、回帰モデルの可視化、 DBSCAN によるクラスタリングといったことをしてきましたが、あらためてライブラリの機能を整理します。 機械学習と言うと難しい数学を駆使するイメージがつきまといますが、完成度の高いライブラリを使えば利用者が機械学
以前に前編を書きましたからそろそろ後編かと思いきや、その話はもう少しだけ置いておいて今回は企業の業績を如実に反映した指標とも言える株価についての話です。 株価データを取得して、加重平均や前日比を算出したりチャートを描画したりといったきめ細かな加工をしたいというニーズは大いにあると思います。このような場面では、実際に第一線のクオンツらの手によって金融取引の現場で生み出された Python のライブラリ pandas を使うと機能も豊富で開発も速いため非常に実用的であり強力で便利です。もっとも、 pandas そのものについては今までの記事でさんざん活用してきましたから今さら説明は不要でしょう。 こちらの記事では pandas で株価データを時系列処理にかけて Gmail に配信するといった内容でまとめられています。 (ありがたいことにこの連載の記事も何点か引用されています。ありがとうございま
今日は 15 年ぶりに日経平均が 19,000 円台を一時回復し、 6 月末までには 2 万円に達するのではとの声も出ていますが、そんな中ビッグデータ (笑) 分析で株式の分析をする話です。 効率的市場仮説 金融の世界には効率的市場仮説というものがあり、どのような情報を利用しても他人よりも高いパフォーマンスを継続してあげることは不可能であるという説があります。これほど誤解されたりあるいは都合良く解釈されたものはないと筆者は考えます。 この辺は効率的市場仮説のパラドックスあたりを読んでいただくと良いでしょう。 普通に考えて、たとえばなぜ証券業界のディーラーやファンドマネージャーが現役で職を保っていられるのか、みんながみんなバフェットの真似をしてみんながお金持ちにならないのはなぜか、などなど考えていけばわかりそうなものです。 賛否両論はこのあたりを読んでいただくとして (ちなみに筆者はアンドリ
今日は昨日に引き続き SciPy and NumPy Optimizing & Boosting your Python Programming の中から scikit-learn を使った例を軽く説明します。クラスタリングについてはすでに食べられるキノコを見分けるやクラスタリングの結果を再利用するといった記事で説明しましたし scikit-learn によるクラスタリング でも取り扱ってきましたから機械学習の中でもすっかりお馴染みの手法かと思います。 scikit-learn でのクラスタリング ポピュラーな kmeans と比較して多くのデータ点を有するコア点を見つける DBSCAN アルゴリズムは、コアが定義されると指定された半径内内でプロセスは反復します。ノイズを多く含むデータに対して、しばしば kmeans と比較される手法です。 原著においてもこれらの手法を比較し可視化していま
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? いままで統計の実践的な方法について書いてきましたが、統計学や計量経済学を身につけるとデータ分析で次々と未来を予測できて株などの投資で大儲けできるのでしょうか。いいえ、それならば統計学者や経済学者は研究もそこそこに投資にせっせと精を出し今頃は大金持ちになっているはずです。 ウォール街のランダム・ウォーカーでは、多くのプロのファンドマネージャーが上場株式全体をランダムに買うような投資方法に勝てていないという科学的実証データが書かれています。将来の予測不能性というのはさまざまな要因が複雑に絡むため、未来を予測するのはとても難しいのです。 たと
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? ようやく前回の続きで今回は後編です。 さてここでみなさんもう一度、原点に立ち返ってみましょう。なぜデータを集めて分析をするのか。それは利益を最大化したいからです。自分が得をするために、判断の根拠となる材料 (データ) を収集し、中身を整理して眺め、行動に結びつけて利益を得ます。 すなわちデータ分析には利益につながる明らかな動機 (目的) が存在し、また分析の結果を行動に結びつけて初めて価値が生まれます。 ゲームと投資 ここで投資の話をしてみましょう。 万人に正しい投資法というのは存在しませんが、たとえば株式においては市場で優位性を得るた
データ分析には表計算ソフトウェア、ドキュメントの執筆にはワープロが活躍します。このようなとき LibreOffice は自由ソフトウェアであり、なおかつクロスプラットフォームなオフィススイートですから、多くの環境で無料で使えてとても便利です。 この LibreOffice には Math という数式エディタが付いており特に理系分野で多く登場する数式の表現に役立ちます。ただし、いくつか問題があります。 TeX と異なる独自記法のため TeX に慣れた人には扱いづらい 一部正確に表現できない記述がある この Qiita も TeX で数式を記述出来ますが、やはり LibreOffice でも手慣れた TeX で記述できたほうが便利です。そこで OpenOffice.org 用の LaTeX 拡張であった OOoLaTex の派生である TexMaths を利用します。これにより LibreOf
次のページ
このページを最初にブックマークしてみませんか?
『@ynakayamaのマイページ - Qiita』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く