[B! pandas][python][Python] [3ページ] clavierのブックマーク

clavier id:clavier

pandasとpythonとPythonに関するclavierのブックマーク (75)

Pythonデータ分析手順のカンニングシート（仮） - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
clavier 2019/07/27
python

pandas

あとで読む
リンク
pandas-datareaderで株価や人口のデータを取得 | note.nkmk.me
pandas-datareaderを使うと、Web上の様々なソースに簡単にアクセスして、株価や為替レート、人口などのデータをpandas.DataFrameとして取得できる。 pandas-datareader — pandas-datareader 0.8.0 documentation pydata/pandas-datareader ここでは以下の内容について説明する。 pandas-datareaderの概要インストールデータソース株価（Alpha Vantage）データ取得 CSVで保存グラフをプロット人口、GDPなど（World Bank）データ取得 indicator 階層データの整形以下のサンプルコードのpandas-datareaderのバージョンは0.8.1。2020年5月22日時点で動作を確認している。バージョンやデータソースの仕様が変わると動作しない
clavier 2019/06/15
python

株価

finance

pandas
リンク
LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する - YOMON8.NET
小さなファイルのETLにGlueを使うのがもったいなかったので、Pandasやpyarrowで実装しました。 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成パッケージをアップロード Lambdaのコードエラー対応参考 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成今回利用するのはpandasとpyarrow、s3fsなのですが少し工夫が必要でした。３つを全てを一つのZIPに纏めるとLambda Layerの50MBの制限にかかってしまいます。 3つにZIPを分割するとLambdaにレイヤー追加する時の制限にかかってしまいます。 Layers consume more than the available size of 262144000 bytes 大きなnumpyなどを共有
clavier 2019/06/06
python

lambda

pyarrow

pandas
リンク
PythonでDataFrameを省メモリに縦横変換する - MicroAd Developers Blog
マイクロアドの京都研究所で機械学習エンジニアをしている田中です。機械学習を利用したユーザーの行動予測の研究開発などを担当しています。今回は、データの前処理に関するお話をしたいと思います。データの縦横変換縦横変換するためのpandasの関数省メモリに縦横変換するサンプルデータの準備 pandas.Categoricalの活用 scipy.sparseの疎行列クラスの活用さいごに参考データの縦横変換機械学習や統計解析をする際に頻出するデータの前処理の1つに、データの縦横変換があります。縦横変換とは、縦持ち（またはlong型）のデータと、横持ち（またはwide型）のデータを互いに変換することを指します。縦持ちのデータの例横持ちのデータの例例示したこの２つのテーブルは、表現形式こそ異なりますが、表しているデータ自体はどちらも同じものになります。ユーザーの行動予測をする
clavier 2019/05/12
python

pandas
リンク
pandas.groupby 超簡単なチートシートっぽいもの（自分用） - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
clavier 2019/05/12
python

pandas
リンク
GitHub - databricks/koalas: Koalas: pandas API on Apache Spark
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
clavier 2019/04/29
pandas

python

spark
リンク
Pandasで行うデータ処理を100倍高速にするOut-of-CoreフレームワークVaex - フリーランチ食べたい
TL;DR アウトオブコア、かつマルチコアでデータ処理を行えるVaexの紹介です。 string関係のメソッドで平均して100倍以上の高速化が確認できました。(作者のベンチマークだと最大1000倍) 文字列処理以外でも数倍~数十倍の高速化が行えそうです。この記事では性能の比較のみ行い、解説記事は別で書こうと思います。 pandasより1000倍早いフレームワーク？今週、興味深い記事を読みました。重要な部分だけ抜き出すと次のような内容です。 Vaexの最近のアップデートでの文字列処理が超早くなった 32コアだとpandasと比べて1000倍早い towardsdatascience.com 1000倍って本当なの？って感じですよね。そもそも自分はVaex自体を知らなかったので調べてみました。ちなみに調べていて気づいたのですが、この記事の著者はVaexの作者なんですよね。疑っているわけ
clavier 2019/04/14
python

Pandas
リンク
データサイエンスや機械学習のチートシートを最も効率的に収集する方法 - Qiita
機械学習・データサイエンスのチートシート集、便利なものがたくさん出回っていますが、ちまちまブラウザからダウンロードしていたりしませんか？そんな貴方にお勧めなのがこちらのレポジトリ。 FavioVazquez/ds-cheatsheets https://github.com/FavioVazquez/ds-cheatsheets はい、クリックあるいはコマンド一つで100を超えるチートシートが一括でダウンロードできちゃいますね。以上、釣りタイトル失礼しました。と、これだけではなんなので、個人的に有用性が高いと感じたものを、大きなサムネイル付きでまとめてみました。ソースとして、DataCamp及びRStudio公式ページの情報量は圧倒的なので、一読をお勧めします。科学計算・データ操作・可視化 Python (NumPy/SciPy/Pandas/matplotlib/bokeh) Pyt
clavier 2019/03/01
python

機械学習

pandas

cheatsheet
リンク
pandas group_byとpct_changeの併用時bug (0.23.N) - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
clavier 2019/01/27
python

pandas
リンク
Kaggleで使える！Pandasテクニック集 - Qiita
はじめに Kaggleで使えるPandasの使い方を備忘録として残します。随時更新していく予定です。更新：2019年1月29日15時　様々なコンペで使える便利な関数を追記しました。 Pandas Basics Cheat Sheet(基本的な使い方) [引用]https://becominghuman.ai/cheat-sheets-for-ai-neural-networks-machine-learning-deep-learning-big-data-678c51b4b463 プログレスバーを表示する df.apply()やdf.map()の進捗を見たい時に、 tqdmというライブラリを使うことでプログレスバーを表示することができます。 import pandas as pd import numpy as np from tqdm._tqdm_notebook import t
clavier 2019/01/27
あとで読む

kaggle

python

pandas
リンク
pythonでのデータ分析時、死ぬほど調べるTipsをまとめておく。 - プロクラシスト
こんにちは、ほけきよです。 pythonでデータを取り扱っているとき「あれ、これどうやるんだっけ？？」ってなること、ありませんか？僕は10分に1回程度なります。いや、覚えろと自分でも思うんですが、覚えられないんですよね。100回くらい同じコマンドを調べてたりする。物覚えが良くないので、ココを見れば絶対大丈夫なようにしておこうと思い、まとめてみました。 jupyterで最初に開くときに読み込むモジュールたち datetime 日付⇔文字列の変換 datetimeの足し算引き算 json dict型⇔json jsonファイルの入出力 datetimeをjsonにする時、エラーが出る pandas ～以外を表すやつ andとor inf弾くリストをdfにサクッと変換 datetimeとして読み込み読み込み時にcodecのエラーが出る DataFrameのfor文 numpy lins
clavier 2019/01/18
python

データ分析

pandas
リンク
pandasで1000万件のデータの前処理を高速にするTips集 - Qiita
はじめに当社にアルバイトに来ていた人（来春に新卒入社の予定）に「pandasを高速化するための情報は無いですか？」と尋ねられました。このパッケージの使い方は多数の書籍やWebで体系立った記事で書かれています。しかし、高速化に関しては体系的な情報源が思いつかなかったので、「実際に書いてみて、1つ1つチューニングするしかないです」としか答えられませんでした。そこで、この方を始め、来春（2019年4月）にデータアナリストまたはデータサイエンティストになる新卒へ向けて、pandasの高速化に関する私の経験をTips集にしてお伝えしたいと思います。この記事は今後も内容を充実させるために、Tipsを追加していきます。この記事を読んだ後にできるようになること pandasでレコード数1000万件のデータでも1分以内で完了する前処理が書けるようになります。その結果、1日中実行し続けなければな
clavier 2019/01/06
python

pandas
リンク
大学生の僕に贈るデータ処理と可視化のお話 - Qiita
贈るってつけるとクリスマスっぽくなるかなと思って... どんな人に読んでもらいたいか最近データ処理や可視化を始めた人周りのCやfortran勢に負けずpythonで研究してる人周りのgnuplot勢に負けずmatplotlibで可視化してる人私は誰? 今年新卒で入社しましたテナジマと申します. 今は業務でデータ分析や機械学習を行っています. あと野球が好きで趣味で野球の分析とかもやってます(虎党). なぜこれを書こうと思ったか大学生の頃は計算物理をしていました. 大学の頃も,会社に入った今もpythonを使っているのですが,大学生のときは周りがfortranやCで書いている中でのpythonだったので,技術的な進歩ってのはあまりありませんでした. 動いて正しく計算できればいい!って感じです(そうして秘伝のタレが生まれていく...). 会社に入ってからは先輩からコーディングで気をつ
clavier 2018/12/11
pandas

python

jupyter
リンク
データ分析のプロセスにおけるEDA、データ前処理、特徴エンジニアリング、特徴量重要度抽出に関するまとめ - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめにデータ分析のプロセスとして、CRISP-DM(CRoss Industry Standard Process for Data Mining)というものがあります。ビジネスの理解データの理解データの準備モデリング評価デプロイ機械学習を扱うとなると、モデリングに注目しがちですが実際の作業量としては、それよりも前のステップである、ビジネスの理解、データの理解、データの準備のステップが大半を占めます。これらの作業のうち、「データの理解」は、データの中身を可視化や集計の結果から何らかの仮説を生み出していく作業（EDA (
clavier 2018/11/25
pandas

データ分析

ビジュアライゼーショ

Python
リンク
SQL と Pandas の対応表 - Qiita
トピック SQL のクエリと、Pandas のメソッドの対応表を作成する。 SQL 勉強中のため、備忘録代わりに箇条書き（殴り書き）で書いていく。 Udemy のこちらのコースで勉強していました。 DBやテーブル自体の更新・操作に関するものはこちらにまとめている。（SQL のクエリだけを書き散らかしているだけ）順序記述順序 select from join系(+on) where group by having order by limit 実行順序(※) from join系(+on) where group by select having order by limit (※)追記 @nora1962jp さんからご指摘をいただきましたので、コメント内容を追記します。実行順序 from join系(+on) where SQLについてなら実行順序はonとwhereの順序はonが先
clavier 2018/11/12
sql

python

Pandas
リンク
Data Scientist Cheat Sheets - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
clavier 2018/09/26
python

data

機械学習

pandas

cheatsheet

visualization
リンク
Jupyter/Pythonでデータ分析する人にお勧めしたい！便利なライブラリー「PixieDust」をザクッと紹介します - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめにこんにちわ！石田です。皆様、「PixieDust1 」ってPythonライブラリー、ご存知ですか？昨年出て超便利なのに、なぜか日本ではぜんぜん知られてませんッ2。日本語の記事はQiitaの「これ」くらい。。 Plotlyやipywidgetでシコシコ書くよりぜんぜん楽だし守備範囲も広いので、「このまま埋もれさせるのはモッタイナイ！」と思ってご紹介の記事を書きました。一番ウケそうな「インタラクティブなチャート・ウィジェット」については別記事「Jupyter/Python上でたった3行でインタラクティブなチャート・ウィジェットを作
clavier 2018/09/10
python

pandas

Jupiter
リンク
DataFrameで特徴量作るのめんどくさ過ぎる。。featuretoolsを使って自動生成したろ - Qiita
前にSQLで言う所のcase when x then y else z end的な処理をpandasでやる時にすぐやり方を忘れるから記事にした。あれはあれでいいのだけれど、まだまだ前処理にすごく時間がかかる！！めっちゃめんどいなんとかしたい... 今までpandas.DataFrameで色々特徴量生成（feature creationとかfeature engineering）する時に、ごちゃごちゃpandasのネイティブな機能を使って生成してたけど、kagglerのエレガントなデータの前処理を見ていると下記モジュールを使っている人が多い印象。 scikit-learn.preprocessing category_encoders featuretools 特に大量に特徴量を生成したい場合、**featuretools**がすごく便利そうな予感！！！よっしゃ!! 使ってみよ！！！ F
clavier 2018/06/29
pandas

python
リンク
機械学習用のデータをExcelで用意してもらいpandasで読み込む - Qiita
PCに不慣れな人でも機械学習がとりあえず試せるようなアプリを作ることになった。ユーザーに学習用データや予測したい未知データをどうやって整理してもらうかいろいろと考えた結果、ひな形を1つのExcelファイルにして、それを埋めてもらう形が最も理解されやすかった。ひな形はこんな感じに。・A列に目的変数・B列以降に特徴量・1行目は変数名，2行目以降にデータ・シートの上のほうに学習用データをまとめて配置・未知データはその下にまとめて配置し、A列は空白アプリ側でデータの加工はせず、エラー値の除去や特徴量の正規化、交互作用などの追加はユーザーに任せることに。これをpandasのExcelFileメソッドで読み込み、学習用X,Yと未知Xに分割する。 def xlsx_read(): xl_path = "C:\test.xlsx" xl= pd.ExcelFile(xl_path) d
clavier 2018/06/25
Pandas

python

Excel
リンク
データ分析で頻出のPandas基本操作 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに機械学習や深層学習が人気の昨今ですが、それらのモデルの精度に最もクリティカルに影響するのはインプットするデータの質です。データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます。本頁では、データ処理の基本ツールとしてPandasの使い方を紹介します。Pandasには便利な機能がたくさんありますが、特に分析業務で頻出のPandas関数・メソッドを重点的に取り上げました。 Pandasに便利なメソッドがたくさんあることは知っている、でもワイが知りたいのは分析に最
clavier 2018/04/17
Pandas

python
リンク
前のページ 1 2 3 4 次のページ