[B! Python] De_Loreanのブックマーク

Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常

はじめに自分は元々pandasが苦手でKaggleコンペ参加時は基本的にBigQuery上のSQLで特徴量を作り、最低限のpandas操作でデータ処理をしていました。しかし、あるコードコンペティションに参加することになり、pythonで軽快にデータ処理をこなす必要が出てきたので勉強しました。そこで、当時の勉強メモをもとに「これだけ知っていればKaggleでそこそこ戦えるかな」と思っているpandasの主要機能をまとめました。注記実戦入門のつもりがほぼ辞書になってしまいました orz pandasとはなんぞや的な内容は書いていません (import pandasやDataFrameとは何かなど) pandas1.0系でも動くように書いたつもりですが間違ってたらすみません目次はじめに注記目次 Options DaraFrame 読み書き CSVファイル読み込み書き出

De_Lorean 2020/05/06

“ Kaggleで戦いたい人のためのpandas実戦入門 ”

リンク

Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER

一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。もし、未来のデータがモデルの学習データに混入すると、本来は利用できないデータにもとづいた楽観的な予測が得られてしまう。今回は、そんな時系列データの交差検証と scikit-learn の TimeSeriesSplit の改良について書いてみる。使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G3020 $ python -V Python 3.8.1 下準備あらかじめ、必要なパッケージをインストールしておく。 $ pip install scikit-le

De_Lorean 2020/04/04

リンク

PythonでPandasのPlot機能を使えばデータ加工からグラフ作成までマジでシームレス - Qiita

Pandasのグラフ描画機能この記事ではPandasのPlot機能について扱います。 Pandasはデータの加工・集計のためのツールとしてその有用性が広く知られていますが、同時に優れた可視化機能を備えているということは、意外にあまり知られていません。この機能は Pandas.DataFrame.plot() もしくは Pandas Plot と呼ばれるものです。 Pandas Plotを使いこなすことが出来るようになれば、データの読み込み、保持データの加工データの集計データの可視化というデータ分析の一連のプロセスを全てPandasで完結させることが出来る、つまり分析の「揺りかごから墓場まで」を実現することが出来ます。 Pandasのプロット以外の機能についてこの記事ではPandasのデータハンドリングなどに関わる機能は説明しません。そちらにも興味がある方は下記の記事などを

De_Lorean 2020/04/01

リンク

virtualenv 基本的なコマンド使い方メモ - Qiita

この記事の概要・目的 pythonにおける仮想環境作成ツール、virtualenvの基本コマンドメモになります。対象者たまにしかvirtualenvを使わず、コマンドを忘れてしまった人の備忘録用。 (python開発経験があり、virtualenvを触ったことがある人が対象です。) virtualenvとは? python開発で使う、仮想環境作成ツール。プロジェクト毎に、クリーンな仮想環境を作成することができるツールです。 virtualenvを導入することにより、以下のようなメリットを享受できます。プロジェクト毎に開発環境を作成するため、開発中に他のプロジェクトや、マシン中のグローバルなpython環境を汚さずに済む。プロジェクト中の開発環境が万一壊れても、作り直しが簡単。 virtualenvのインストール他のpythonパッケージと同じく、pipコマンドでinstallで

De_Lorean 2020/03/08

リンク

Jupyter notebook (iPython Notebook)を使う時に気をつけるべき10個のこと - MyEnigma

PythonユーザのためのJupyter[実践]入門posted with カエレバ池内孝啓,片柳薫子,岩尾エマはるか,@driller 技術評論社 2017-09-09 Amazonで検索楽天市場で検索Yahooショッピングで検索目次目次はじめに 1. 環境の独立性を保つために各プロジェクト毎にvirtualenvを使う 2. Python3を使う 3. requirements.txtを保存しておく 4. すべてのimport文とパスの設定は初めのセルに入れる 5. はじめはコードは汚くても良い 6. グローバル名前空間を汚さないために、セルの中の処理は関数とする 7. 長い計算時間の結果をキャッシュするためにJoblibを使う 8. セルの独立性をできるだけ保つ 9. 変数名は短くても良い 10. ユーティリティ関数にはアサーションを使ってテストを書く参考資料 MyE

De_Lorean 2020/03/08

リンク

dplyr のアレを Pandas でやる - Qiita

Pandas と dplyr のより網羅的な対比は、既に記事が出ています。私が参考にしたものをこの記事の末尾で紹介していますので、詳しくはそちらをご覧ください。前置き｜テーブルのキーの扱い方の違い Pandas を使い始める前に理解すべきこととして、dplyr と Pandas ではテーブルのキーの扱い方に大きな違いがあります。この違いを認識していなかった私はかなり苦戦しました…… 以下の2点を理解して (覚悟して？) おくと、学習コストが多少減るのではないでしょうか。 Pandas ではテーブルのキーが Index という別オブジェクトで管理されていること Pandas ではキーや列名に階層構造を持たせられること dplyr におけるキーの扱い R のデータフレームにはテーブルのキーを表す方法として row names という仕組みが用意されています。しかし、dplyr (が利用し

De_Lorean 2020/03/08

リンク

「効果検証入門」をPythonで書いた - Qiita

TL;DR 書籍「効果検証入門正しい比較のための因果推論／計量経済学の基礎」のRソースコードを、Pythonで（ほぼ）再現しました https://github.com/nekoumei/cibook-python 本記事では、主にRではライブラリどーん！で済むけどPythonではそうはいかない部分の解説をします書籍の紹介 https://www.amazon.co.jp/dp/B0834JN23Y 上記Amazonに目次が載っているのでそれを見るのが早い気がしますが。。とても良い本です。正確な意思決定を行うためにどうやってバイアスを取り除くか？に焦点を当てて種々の因果推論の手法（傾向スコア/DiD/RDDなど）をRソースコードによる実装とともに紹介されています。全体を通して、現実問題の効果検証に因果推論を活用するにはどうすればいいか？という観点で書かれており、非常に実用的だなーと

De_Lorean 2020/02/23

“書籍「効果検証入門正しい比較のための因果推論／計量経済学の基礎」のRソースコードを、Pythonで（ほぼ）再現しました”

リンク

私たちはいかにして環状線で”悪さをする列車”を捕まえたか | プログラミング | POSTD

文：Daniel Sim　分析：Lee Shangqian、Daniel Sim、Clarence Ng ここ数ヶ月、シンガポールのMRT環状線では列車が何度も止まるものの、その原因が分からないため、通勤客の大きな混乱や心配の種となっていました。私も多くの同僚と同じように環状線を使ってワンノースのオフィスに通っています。そのため、11月5日に列車が止まる原因を調査する依頼がチームに来た時は、ためらうことなく業務に携わることを志願しました。鉄道運営会社SMRTと陸上交通庁（LTA）による事前調査から、いくつかの電車の信号を消失させる信号の干渉があり、それがインシデントを引き起こすことが既に分かっていました。信号が消失すると列車の安全機能である緊急ブレーキが作動するため、不規則に電車が止まる原因となります。しかし8月に初めて発生した今回のインシデントは、不規則に起こっているように見えるた

De_Lorean 2020/02/02

リンク

PythonでCSVを高速＆省メモリに読みたい - tkm2261's blog

今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、なんとかGILのあるPythonでも高速に読み込みたいと思います。ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。（オレオレライブラリ嫌い） Pickleは早いけど。。。結論はDask使おう！検証環境データ速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

De_Lorean 2020/01/03

“dask”

リンク

Python/Numpyのnp.newaxisの考え方のコツ

はじめに Pythonは機械学習の研究などで多く用いられているプログラミング言語です。特に基礎研究の分野でも使いたいという場合には、これがかえって使いにくくなってしまうことがよくあります。なぜなら、for文を多く書くと遅くなるからです。そこで、for文を書かずに頑張ろうとすると色々なトラブルに出くわすのですが、その中でも筆者が手こずったnp.newaxisの使い方を紹介していこうと思います。これは、いろんなパラメータで実験したいときなどに多く出くわすでしょう。 ※スライスについて事前知識があるものとして説明します。調べるなどして事前に知識を入れておいてください。 [Python]Numpyの参照、抽出、結合 Indexing - docs.scipy.org 本編 1. まず用いるデータを把握しましょうはじめは、どんなデータがあって、どんなゴールへ向かわせたいのかをしっかり整理するとよい

De_Lorean 2019/08/13

Python

リンク

[kaggle写経] pip install graphvizしたのにFileNotFoundError

De_Lorean 2019/08/12

pip install とは別に公式からダウンロード

リンク

Pythonの仮想環境まとめ

「さぁ、 Pythonをはじめよう！」「ええぇっと、まずは pip install ○○ ....」ちょっと待って下さい、Pythonの仮想環境ってご存知ですか？慣れない内はチョットめんどうに感じる仮想環境ですが、エラー少なく気持ちよく Python学習、 Pythonプログラミングを楽しむのなら『仮想環境』は必須項目。今回は、Python初心者向けに情報をまとめてみました。対象者：　Python初心者 "CodeCampus"はオンラインプログラミングスクール No.1のCodeCampが運営するプログラミング未経験の方のための学習メディアです CodeCampとは？（受講生体験記）「エンジニアは女性のキャリアとして魅力的」未経験からの転職体験記リモートワーク×多拠点居住の新しい生き方を実現する。元バレエダンサーの挑戦普通の文系大学生/営業職が、エンジニアへ転職し起業するまで

De_Lorean 2019/08/12

リンク

pyenvでのPython仮想環境の作り方まとめ - Qiita

Pythonのバージョンを管理する。2系と3系の環境分けだけでなく、3.4と3.5の環境分けなども含む。基本的には手動でバージョンを切り替えることになるが、特定のディレクトリに移動すると自動でバージョンを切り替えるようにする設定(pyenv local) などもよく使われている。 virtualenv Pythonのパッケージを管理する。Pythonそのもののバージョンは管理しない。例えば、Django1.8 系を入れた環境と Django1.9系を入れた環境を分けたいときに使う。 pyenv-virtualenv virtualenv をプラグインとして pyenv に組み込んだもの。→ Python のバージョンそのものの管理 + その中でパッケージの管理ができる。使途の整理 2つの仮想環境の作り方（virtualenv系と conda env系） Pythonの仮想環境を作

De_Lorean 2019/08/12

Python
pyenv

リンク

word2vecの学習済み日本語モデルを公開します | カメリオ開発者ブログ

こんにちわ。白ヤギコーポレーションでエンジニアをしている谷田です。自然言語処理では、テキストに含まれる単語をベクトルとして表現するというタスクが頻繁に発生します。最近ではそのために、日本語テキストが来たらMeCabに渡してword2vecに投入する、というのが定番パターンのひとつかと思います。word2vecは単語を分散表現と呼ばれる低次のベクトルに変換するモデルですが、単語をベクトルに変換するためには事前に学習を走らせておく必要があります。word2vecモデルの学習にはよくWikipedia日本語版をコーパスとして使ったりするのですが、全記事で学習を走らせると結構時間がかかります。そこで、白ヤギが作った日本語word2vecモデルを公開します! http://public.shiroyagi.s3.amazon aws.com/latest-ja-word2vec-gensim-mo

De_Lorean 2019/08/12

リンク

seabornの細かい見た目調整をあきらめない - Qiita

はじめに seabornの洗練されたスタイルで作ったグラフはとてもきれいです。見た目だけでなく、列の多いデータの全体像を把握するのにも威力を発揮します1。特に適切に整形されたデータフレームを渡せばカテゴリの比較や全パラメータの相関を一瞥できる図が一瞬で作れる機能は、同等の図をmatplotlibで一から作る苦労を考えると驚愕に値します。データサイエンティストやkagglerに人気があるのも納得です。また、複雑なデータを扱っていないけど単に見た目の良いグラフを作りたいという人の要望にも簡単に答えてくれます。可視化のお作法的にも見た目的にもだいたい勝手にいい感じにしてくれる手軽さが売りのseabornですが、ときには自分で調整したくなるときもあります。matplotlibだと面倒な調整を手軽にやってくれるseabornらしいメソッドで解決できるならいいのですが、たまにseabornのベースであ

De_Lorean 2019/07/28

リンク

早く知っておきたかったmatplotlibの基礎知識、あるいは見た目の調整が捗るArtistの話 - Qiita

English version available on dev.to はじめに matplotlibで作ったグラフの細かい調整は大変です。何をどういじったらいいのかを調べるのにアホみたいに時間がかかることがあります1。「何を」の部分の名前さえわからないこともあります。解決の糸口を掴んだ後も希望通りの見た目を実現するまでの最後のアレンジに苦労することが多いです2。これらの問題はmatplotlibのグラフがどういう要素で構成されていて、それらに対してどういうことができるかを知ることでいくらか改善されます。私はひたすらStack Overflowの回答を読むことでいろんなつまづきを時間をかけて乗り越えてきましたが、最近になってようやく公式チュートリアルにこの苦労を回避できたはずのヒントが書いてあることに気づきました。初期にざっと目を通したのですが「なるほど、よくわからん」と判断して読み込まな

De_Lorean 2019/07/27

リンク

ポケモンデータ解析.py - Qiita

# https://www.kaggle.com/abcsds/pokemon から取得した Pokemon.csv を読み込む。 df = pd.read_csv("Pokemon.csv") # df とは、 pandas の DataFrame 形式のデータを入れる変数として命名 https://www.kaggle.com/abcsds/pokemon によると、各カラム（列）は次のような意味らしいです。 #: PokeDex index number Name: Name of the Pokemon Type 1: Type of pokemon Type 2: Other Type of Pokemon Total: Sum of Attack, Sp. Atk, Defense, Sp. Def, Speed and HP HP: Hit Points Attack: At

De_Lorean 2019/07/21

リンク

【Python】機械学習の可視化が捗るライブラリ「Yellowbrick」 - フリーランチ食べたい

機械学習 Podcast「TWiML＆AI」で先週取り上げられた可視化ライブラリ「Yellowbrick」が非常に便利だったので紹介します！ちなみにPodcastには作者の1人であるRebecca Bilbroさんが出演しているので興味持った方は是非聞いてみてください。 twimlai.com www.scikit-yb.org Yellowbrickとは一言で言うと、機械学習に特化した可視化ライブラリです。実装的な面で言うと(こちらの方がわかりやすいかもしれません)、scikit-learnとmatplotlibをラップして、scikit-learnライクなAPIで使うことができるものです。例えば相関行列のヒートマップをプロットしたい場合は次のように書くだけでグラフを作ることができます。 visualizer = Rank2D(features=features, algorithm=

De_Lorean 2019/05/19

リンク

Python本まとめ・2019年版 - Webとデータ分析を初心者が仕事にするまで - Lean Baseball

毎年恒例、Pythonの本と学び方のまとめ・2019年バージョンとなります. ※2021/1/11更新：2021年版あります ※2020/1/9更新：2020年版もあります, こちらもよろしくおねがいします！ ※ちなみに昨年版はこちら改めましてこんにちは、Pythonと野球を仕事にしています、@shinyorke（Python歴おおよそ8年）ともうします. なお、Python その2 Advent Calendar 2018 12/24記事でもあります. このエントリーはそこそこ長いので、「最初の方をサクッと読んで、残りはつまみ読み」してもらえると良いかもです！*1 ※もちろん全部読んでも構いません！（それはそれで嬉しい）サクッとまとめると入り口としての「独学プログラマー」は万人が読んだほうが良い名著データ分析・解析やりたい人も、Webからやっておくと良いかも（特に前処理） Web

De_Lorean 2018/12/24

Python

リンク

はじめに — 機械学習の Python との出会い

はじめに¶ 機械学習の基本的な手法の実装を通じて，Python による科学技術計算プログラミングについて知ることができるように，このチュートリアルを執筆しました．本チュートリアルの方針¶ このチュートリアルでは，いろいろな機械学習の手法を Python で実装する過程をつうじて，NumPy や SciPy など科学技術計算に関連したモジュールの具体的な使い方を説明します．機械学習の手法についてはごく簡単な説明に留めますので，詳細は他の本を参考にして下さい．また，クラスなどのプログラミングに関する基礎知識や，Python の基本的な文法については知っているものとして説明します．プログラム言語やライブラリの解説の多くは，背景にある概念の説明，ソフトウェアのコア部分の仕様，そして，拡張部分の仕様といった順に，その機能の説明が中心となっています．ここでは，これらとは違うアプローチで Py

De_Lorean 2018/12/04

リンク

はてなブックマーク

タグ

関連タグで絞り込む (22)

Pythonに関するDe_Loreanのブックマーク (36)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス