サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Pixel 9
wcs.hatenablog.com
今度は説明変数にカテゴリーデータを含む場合の回帰分析を行う。 In [77]: %matplotlib inline 対象となるデータはR処理系のcarパッケージに付属しているPrestigeというデータを write.csv(Prestige, "Prestige.csv", quote=FALSE, row.names=TRUE) でCSVにしたものである。 In [78]: prestige = pd.read_csv("Prestige.csv", index_col=0) prestige.columns Out[78]: Index([u'education', u'income', u'women', u'prestige', u'census', u'type'], dtype='object') このデータの各行は職業で、カナダの国勢調査で得られたデータである。変数は「定
Pythonを使って回帰分析を行う。使用するライブラリはStatsmodelsである。 In [78]: %matplotlib inline まず対象となるデータを読み込む。これはR処理系に付属しているattitudeというデータを write.csv(attitude, "attitude.csv", quote=FALSE, row.names=FALSE) でCSVにしたものである。 In [79]: attitude = pd.read_csv('attitude.csv') attitude.columns Out[79]: Index([u'rating', u'complaints', u'privileges', u'learning', u'raises', u'critical', u'advance'], dtype='object') この記事を書くにあたって参考
機械学習や多変量解析で「時間帯」(何時ごろに発生したイベントであるか)を説明変数として使いたい場合どのようにするのがよいか。 何時に発生したかというのは生データの中では0時から24時までの数値として与えられるだろう。最初に思いつくのはこれをそのまま間隔尺度として利用する方法だ。 まずは実験のための適当なデータを作る。3時、12時、24時を中心に正規分布する3つのグループのデータを生成する。 %matplotlib inline from numpy.random import normal num_samples = 1000 hours = [3, 12, 24] groups =[Series(normal(size=num_samples)).add(hour).mod(24) for hour in hours] bins = (range(0, 24)) plt.hist(gro
このページを最初にブックマークしてみませんか?
『wonderful cool something』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く