[B! python][Python][data] teddy-gのブックマーク

teddy-g id:teddy-g

pythonとPythonとdataに関するteddy-gのブックマーク (20)

Theory Of Retracement - A Complete Overview On Trend
teddy-g 2023/06/20
なんかSTL分解とかして時系列分析したときに参考にした。DowntrendとかUptrendとか。備忘。

python

pandas

data

analysis

bigdata

timeseries
リンク
Pythonで連続した日付のリストを作る | 分析ノート
日付の連番を文字列で必要になったので、Pythonで生成する方法を二つメモしておきます。一つ目は、標準ライブラリである datetime を使うものです。開始日を生成して、必要な日数だけtimedeltaで差分を加算したものをリスト化したら得られます。生成したリストはdatetime.datetime型なので、strftimeで文字列に変換して完成です。 from datetime import datetime, timedelta # 日付のリスト生成() date_list = [datetime(2020, 1, 25) + timedelta(days=i) for i in range(10)] # 文字列に変換 date_str_list = [d.strftime("%Y-%m-%d") for d in date_list] print(date_str_list
teddy-g 2023/06/20
日付の連番をPythonで作るときの方法。何に使ったか忘れた。

python

pandas

tips

timeseries

data
リンク
(Python編) 時系列データをサクッとSTLでトレンド・季節性に分解
幸か不幸か、ビジネス系のデータの多くは時系列データです。売上データもホームーページのアクセスログもセンサーデータも時系列データです。時系列データを手にしたとき、どのようなデータなのか見てみたい、ということは多々あります。多くの場合、折れ線グラフを描き傾向を掴む、ということをやります。折れ線グラフを眺めると、トレンド（上昇傾向や下降傾向）や季節性などが見て取れるケースがあります。そこで、サクッとトレンドや季節性などを掴む手法がSTL分解（Seasonal Decomposition Of Time Series By Loess）です。 STL分解（Seasonal Decomposition Of Time Series By Loess）を実施することで、元データをトレンド、季節性、残差に分解することができます。元データ　＝　トレンド　＋　季節性　＋　残差 STL分解（Seas
teddy-g 2023/06/20
STL分解すれば時系列のトレンドをざっくり捉えることができる。ビジネスデータの場合、Seasonal Factorは12ヶ月と思っておけば大体OK。

python

data

analysis

bigdata

statistics

stats

timeseries

pandas

matplotlib
リンク
Clustering cosine similarity matrix
teddy-g 2021/10/31
コサイン距離でクラスタリングする方法について。備忘。

python

python3

datascience

data

unsupervisedlearning

clustering
リンク
Pythonでグラフデータベース Neo4j入門 for ビギナー (Mac OSX向け) - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2021/10/31
Neo4jも試してみたい気がする。備忘。

python

python3

datascience

data

machinelearning

machine learning

graph

graphtheory

neo4j
リンク
Centrality — NetworkX 3.5 documentation
teddy-g 2021/10/31
NetworkXのドキュメントから、各種Centralityの違いについて。Centralityを調べることでノードの重要性とか調べることができる。

python

python3

datascience

data

graph

graphtheory
リンク
Tutorial — pyvis 0.1.3.1 documentation
teddy-g 2021/10/31
Pythonでインタラクティブなグラフ作りたかったらとりあえずPyvis。簡単に描けて、ぐりぐり動かせてべんり。

python

python3

jupyter

pyvis

graph

graphtheory

datascience

data

machinelearning

machine learning
リンク
Cyberpunk Style with Matplotlib
teddy-g 2020/10/21
Matplotlibを使って黒背景・ネオン効果ありのクールなグラフを作る方法。小ネタ。

python

matplotlib

statistics

stats

graph

data

datascience
リンク
Bubble map with Python and Basemap
teddy-g 2020/10/08
とにかくBasemapのことは忘れるんだ！MapBoxを思い出せ！

python

python3

basemap

mapbox

data

datascience

bigdata

statistics
リンク
Basemapをインストールしようとしたらつまづいたので忘備録 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2020/10/08
地図可視化ではBasemapは諦めてMapBoxでやりなはれ、と将来の自分に警告を送るべく残しておく。

python

python3

basemap

mapbox

tips

map

data

bigdata

statistics

datascience
リンク
Pythonで地名から住所と座標を割り出すジオコーディングを試してみる
2020年新年最初の投稿です色々とPython製のライブラリについて調べていたら、仕事でも使えそうなライブラリを見つけたので、今回はそれを試してみます。地名から座標を割り出す今回はジオコーディングの一種でもある地名や住所から座標を割り出してくれるPython Geocoderというのを使っていきます。Geocoderというものは、多言語にもあるライブラリだそうです。 Geocoderの特徴は、複数のマップサービスのAPIを統一されたスキーマや文法などで代わりに呼び出してくれます。約30個近くのマップサービスに対応しており、GeocoderからGoogle Map、OpenStreetMapとあらゆるマップサービスからマップの情報を引き出してくれます。ちなみにGoogle MapなどはAPI Keyが必要ですが、API Keyを設定していなくても、API Key不要なOpenStreet
teddy-g 2020/10/08
地名だけじゃなくランドマークとかMountain View, CAみたいな表現からもGeocodingできるスグレモノ。毎度取りに行かずGeocoding結果をcsvにして再利用すれば良い。Excelの地図可視化がヘボくなったのでこっち推奨。

python

python3

geocoding

map

data

bigdata

datascience

tips

statistics
リンク
GeoIP2を使ってIPアドレスの情報を取得 (Python編) - Tahoo!!
前のエントリーでは、PHPでGeoIPを使ってIPアドレスを解析した。本エントリーでは、Pythonを使ったやり方をメモ。と、言ってもほぼPHPと同じｗデータベースのダウンロード上記のエントリーと同様なので、上記のエントリーを参照のこと。インストールインストールにはpipを使う。pipのインストールに関しては、pythonを使っている場合大抵インストールされていると思われるので省略する。 PHPと同様にGithubの公式ページが参考になる。 GeoIP2 Python APIのインストール $ pip install geoip2 これでインストールは完了。使ってみる以下のサイトを参考に、PythonでもIPアドレスから地域の情報を取得してみる。サンプルコード import geoip2.database # データベースの読み込み reader = geoip2.data
teddy-g 2020/10/08
うっかり間違えてインストールしたら割と便利だったGeoIP2。Plotly/Mapboxと組み合わせればIP→位置情報→地図可視化のコンボを決められる。

python

python3

geocoding

map

data

bigdata

datascience

tips

geoip
リンク
Pandasでヒストグラムの作成や頻度を出力する方法
ヒストグラムを作成するhist関数基数の数を変更する (bins) ラベルを元にヒストグラムを作成する by 非数値データの頻度をヒストグラムで表示するまとめ参考 Pandasにもヒストグラムを作成する関数hist()が存在します。この関数は値を表示するのではなく、ヒストグラムをmatplotlibを使ってプロットします。単純に頻度の数値データが欲しい場合はvalues_counts関数が便利な関数です。本記事ではヒストグラムの作成の仕方 value_counts関数を使った非数値データの頻度の出力方法について解説します。今回扱うサンプルデータはKaggleのチュートリアルからとってきたものです。 Titanic - Kaggle ここのtrain.csvという名前のファイルを使います。（ダウンロードするためにはユーザー登録が必要ですが簡単なものなのでしておくことをお勧めし
teddy-g 2020/10/08
Pandasでヒストグラムを書くときのポイントをいくつか。備忘まで。

python

python3

pandas

data

bigdata

datascience

statistics

tips
リンク
Pandasでピボットテーブルを手軽に作成するpivot_table関数の使い方
pivot_table関数 APIドキュメント params: returns: ピボットテーブルを作成する複数要素を元に多層化させるデータの個数をカウントする列ごとと行ごとの合計を表示複数の統計量を表示させる関数を使って統計処理を指定する欠損値を補完欠損値があるデータも表示させるまとめ参考ピボットテーブルとはエクセルで有名な機能の1つで馴染みの方も多いかもしれません。複雑なデータ構造を一目で分かりやすくする目的でよく使われるもので、クロス集計したものをまとめたものとなります。 2つの要素間の相関が分かりやすく現れるので使いこなせると重宝するでしょう。例えば男女間での科目ごとの平均点といったものをひと目で把握することができます。 Pandasでも手軽にピボットテーブルを作成できるpivot_table関数が実装されています。そこで本記事ではpivot_table関数
teddy-g 2020/08/17
PandasでEXCELのピボットと同じことができる。インデックスがmulti-indexになるのでその辺の値の操作は注意する必要がある。関数を柔軟に適用できるのでEXCELより凝った集計・統計を作りたいときは便利。

python

data

datascience

statistics

stats

tips

pandas
リンク
gensim入門 - Qiita
手軽にトピック分析を実行できるgensimを知ったので、gensimを使用して簡単な文章をトピック分析するチュートリアルを実行してみました。トピック分析、LDA、gensimとは詳しく理解してはいないので、簡単に言うと、トピック分析とは、大量の文章からいくつかのトピックを分類して、与えられた文章がどのトピックに属するかを分類する手法 LDAとは、トピック分析の1種 gensimとは、トピック分析を行うことができるPython製のソフトウェア gensimを使ったトピック分析は、以下の手順で行えるようです。文章を準備文章を単語ごとに分割、調整辞書を作成コーパスを作成 LDAモデルを作成分類したい文章をLDAモデルで分類前提 Docker Python 2環境を作るのが面倒だったのでDockerを使っているだけです。 $ docker version Client: Vers
teddy-g 2018/02/18
gensim使えば簡単に分析できるがその前にまず自分でやってみないと

bigdata

data

datascience

analytics

word2vec

mecab

gensim

lda

python
リンク
JTP Technology Port - JTP株式会社
JTP Techno logy Portにアクセスいただきましてありがとうございます。 JTP Techno logy Port は、2021年3月31日ををもちまして閉鎖いたしました。これまでご利用いただきました皆さまには、心より御礼申し上げます。トップに戻る
teddy-g 2018/02/18
OSXにMecab入れるまで。この通りやったら簡単に入る。

data

bigdata

datascience

analytics

mecab

python
リンク
PythonからMeCab（とCaboCha）を使うまで - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2018/02/18
タイトルの通り。この通りやったらMecab使えるようになる。

python

bigdata

data

datascience

analytics

mecab

cabocha
リンク
Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita
はじめにこんにちは、Speeeでデータサイエンティストをしている@To_Murakamiと申します。エンジニアではないのですが、コーディングを含めた分析例を発信しようと思い、企業のAdvent Calendarに参加させていただきました。 12月も暮れに差し掛かってきましたね。本日は、Word2Vec(ワードトゥベック)という自然言語処理を活用した分析例を紹介します。このロジックを実装した目的は、ことばの表記ゆれ（類義語）発見器みたいなのを作ってみたいと思ったからです。なぜ、Word2Vecからことばの表記ゆれが分かるのでしょうか？仕組みの概要（下記）が分かると、理由を理解できます。 Word2Vecの仕組み（簡単に） Word2Vecとは言葉通り、単語をベクトル化したものです。ベクトル化した中身には当然数字が入ります。つまり、単語という言語データを数値化することができるのです！数値
teddy-g 2018/02/18
これも単語分散表現の話。Word2Vecの仕組みをわかりやすく書いてる。

bigdata

datascience

data

analytics

python

word2vec
リンク
Pythonで単語分散表現のクラスタリング - Ahogrammer
最近の自然言語処理では、単語の分散表現は当たり前のように使われています。単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。本記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。イメージ的には、以下のような感じで単語をクラスタにまとめます。では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。準備まずは、作業用のディレクトリを作成しておきましょう。また、必要に応じて Python の仮想環境も用意します。以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work
teddy-g 2018/02/18
単語分散表現は色々とやってみたいがなかなか時間が取れない

bigdata

data

analytics

datascience

python

word2vec
リンク
13.1. csv — CSV File Reading and Writing — Python 2.7.18 documentation
This document is for an old version of Python that is no longer supported. You should upgrade and read the Python documentation for the current stable release. The so-called CSV (Comma Separated Values) format is the most common import and export format for spreadsheets and databases. There is no “CSV standard”, so the format is operationally defined by the many applications which read and write i
teddy-g 2015/09/25
PythonでCSVファイルをいじるときはcsvモジュール。超基本。そして便利。

python

programming

tips

hacks

database

data
リンク
1