# 最大表示範囲を確認 pd.get_option("display.max_columns") pd.get_option("display.max_rows") # 表示範囲を指定(お好みで数値を設定) pd.set_option("display.max_columns",50) pd.set_option("display.max_rows",50) # その他のオプション dir(pd.options.display) # 実行結果 ['chop_threshold', 'colheader_justify', 'column_space', 'date_dayfirst', 'date_yearfirst', 'encoding', 'expand_frame_repr', 'float_format', 'height', 'html', 'large_repr', 'lat
1.きっかけ KaggleとかSIGNATEのcsv系のコンペで前処理をする際に文字で表されたカテゴリデータ(例えば、天気・メーカーなど)があって、このようなデータはone-hotベクトルに変換しないといけない。 scikit-learnのpreprocessingメソッド使っても上手くいかないこと多々ある。 それならNumpyとPandas使って自分でプログラム書いた方が楽なのではと思ったので、この記事を書くに至りました。 2.scikit-learn使った場合 import sklearn.preprocessing as sp import pandas as pd train = pd.read_csv(file_path) le = sp.LabelEncoder() le.fit(train.カラム名.unique()) train.カラム名 = le.fit_transfor
はじめに モチベーション 近頃、ちまたでは人工知能のライブラリが簡単に使えるのだそうです。そしてそれを使ったら、もしかして株価予測とかで一儲けといけるのではないかと思ったりするわけです。 しかし、それには株価のデータを集めなくてはならないんですよね。 AIはデータが命ですから。 データ分析とかAIとかだと、とりあえずpythonでしょう。そこでpythonで何かないかなあと調べてみると、pandas-datareaderといういいものがあるそうな。 (これを使い始めた頃はGoogleとかyahooとかデータが取れたんですが、最近どんどん取れなくなってきています。世知辛い世の中ですね) まあそれはさておき、とりあえず始めていきましょう! 作るもの pandas-datareaderを使って、過去の株価データを拾ってきてCSVに保存するプログラミング。 わざわざ書くまでもないですかね。 使うも
python 初心者です。 1行に1つの数値データがある、長い行列のデータ群を規則に従って読み込んで、行列にする方法として、ベストな方法を検討しております。 <読み込みデータサンプル> 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 . . . と続くデータを、 次のような順番で並べて行列にしたいのですが。 <作りたい行列> 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5.. 上記の数値は、場所を示しています。 実際のデータは、ランダムな実数が入っています。 python,numpy,pandas.. どれで、どのように読み込めば、シンプルなプログラムになるでしょうか? <考え方> 1.一旦全部読み込んで、その後並べる。 2.1行ずつ読み込みながら、行列に配置して行く。 読み込むデータ行数は、10万行以上の行数を想定しています。 アドバイスよろしくお願いいたします。
#! /usr/bin/python # # csv_create.py # # Oct/01/2018 # ------------------------------------------------------------------ import sys import pandas as pd # # ------------------------------------------------------------------ sys.stderr.write("*** 開始 ***\n") # df = pd.DataFrame([ ["t1271","千葉",59476,"2003-9-21"], ["t1272","勝浦",49573,"2003-3-14"], ["t1273","市原",29471,"2003-6-25"], ["t1274","流山",39872
#! /usr/bin/python # # json_create.py # # Oct/01/2018 # ------------------------------------------------------------------ import sys import pandas as pd # # ------------------------------------------------------------------ sys.stderr.write("*** 開始 ***\n") # df = pd.DataFrame({'t0921': ["宇都宮",41295,"2003-8-12"], 't0922': ["小山",41298,"2003-8-12"], 't0923': ["佐野",31925,"2003-5-20"], 't0924': ["足利",
#! /usr/bin/python # -*- coding: utf-8 -*- # # xlsx_create.py # # Oct/01/2018 # ------------------------------------------------------------------ import sys import pandas as pd # # ------------------------------------------------------------------ sys.stderr.write("*** 開始 ***\n") # df = pd.DataFrame([ ["t1271","千葉",59476,"2003-9-21"], ["t1272","勝浦",49573,"2003-3-14"], ["t1273","市原",29471,"2003-6-
#! /usr/bin/python # -*- coding: utf-8 -*- # # sqlite3_create.py # # Oct/01/2018 # ------------------------------------------------------------------ import sys import pandas as pd # import sqlite3 # ------------------------------------------------------------------ sys.stderr.write("*** 開始 ***\n") # df = pd.DataFrame([ ["t1271","千葉",51476,"2003-9-25"], ["t1272","勝浦",42573,"2003-3-16"], ["t1273","
#! /usr/bin/python # -*- coding: utf-8 -*- # # mariadb_create.py # # Oct/01/2018 # ------------------------------------------------------------------ import sys import pandas as pd # import mysql.connector from sqlalchemy import create_engine # ------------------------------------------------------------------ sys.stderr.write("*** 開始 ***\n") # df = pd.DataFrame([ ["t1271","千葉",51476,"2003-9-25"],
#! /usr/bin/python # # postgre_create.py # # Mar/05/2023 # ------------------------------------------------------------------ import sys import pandas as pd # from sqlalchemy import create_engine # ------------------------------------------------------------------ sys.stderr.write("*** 開始 ***\n") # df = pd.DataFrame([ ["t1271","千葉",58471,"2003-9-25"], ["t1272","勝浦",49523,"2003-3-16"], ["t1273","市原
#! /usr/bin/python # -*- coding: utf-8 -*- # # html_create.py # # Oct/01/2018 # ------------------------------------------------------------------ import sys import pandas as pd # # ------------------------------------------------------------------ sys.stderr.write("*** 開始 ***\n") # df = pd.DataFrame([ ["t1271","千葉",93416,"2003-11-5"], ["t1272","勝浦",47573,"2003-6-14"], ["t1273","市原",28451,"2003-9-
Pandas Period の freq Pandasでは日付を Period として扱うことができる。 メリットをあげると例えば以下がある。 期間を扱えるため、四半期後 とか 半年後 などの計算が簡単になる。( + 1 とかすればいい) 期中の中途半端な日付を情報を保存しつつ丸めることが可能 PandasのPeriodは使いこなせれば便利だけど、datetime との行き来がめんどくさかったり、期待している挙動をしないことが多いためメモしておく。 今回は freq に関して。 (そのうちdatetime 変換のところもまとめる。) Periodを使う際に期間の切り方に関するパラメータが freq 。 Q (クォーター) のデフォルトでは Q-DEC になっているため、年末くぎり。 日本の__年度__は4月からなので、それらを指定したいときとかに使う。 パラメータに関する本家リンク fre
ROWS = 500 COLS = 3 np.random.seed(0) index = list(map(lambda x: 'ATTR_{:03d}'.format(x), range(COLS))) names = list(map(lambda x: 'F_{:03d}'.format(x), range(ROWS))) index.insert(0, '_x') index.insert(1, '_y') masks = list(map(lambda x: np.random.choice(2, 2), range(COLS))) ws = list(map(lambda x: np.random.rand(2), range(COLS))) df = pd.DataFrame() print('masks=', masks) print('ws=', ws) a, b =
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く