[B! python][Python][bigdata] teddy-gのブックマーク

teddy-g id:teddy-g

pythonとPythonとbigdataに関するteddy-gのブックマーク (32)

Theory Of Retracement - A Complete Overview On Trend
teddy-g 2023/06/20
なんかSTL分解とかして時系列分析したときに参考にした。DowntrendとかUptrendとか。備忘。

python

pandas

data

analysis

bigdata

timeseries
リンク
(Python編) 時系列データをサクッとSTLでトレンド・季節性に分解
幸か不幸か、ビジネス系のデータの多くは時系列データです。売上データもホームーページのアクセスログもセンサーデータも時系列データです。時系列データを手にしたとき、どのようなデータなのか見てみたい、ということは多々あります。多くの場合、折れ線グラフを描き傾向を掴む、ということをやります。折れ線グラフを眺めると、トレンド（上昇傾向や下降傾向）や季節性などが見て取れるケースがあります。そこで、サクッとトレンドや季節性などを掴む手法がSTL分解（Seasonal Decomposition Of Time Series By Loess）です。 STL分解（Seasonal Decomposition Of Time Series By Loess）を実施することで、元データをトレンド、季節性、残差に分解することができます。元データ　＝　トレンド　＋　季節性　＋　残差 STL分解（Seas
teddy-g 2023/06/20
STL分解すれば時系列のトレンドをざっくり捉えることができる。ビジネスデータの場合、Seasonal Factorは12ヶ月と思っておけば大体OK。

python

data

analysis

bigdata

statistics

stats

timeseries

pandas

matplotlib
リンク
[Python]NetworkXでQiitaのタグ関係図を描く
はじめに Pythonのライブラリ、NetworkXの使い方を、Qiitaの投稿に付けられたタグの関係グラフの作成を例にして説明します。 NetworkXを使うと、下に示すような、ノードとエッジで構成されるグラフを描くことができます。実行環境 Windows 10 Python 3.5.2 (Anaconda) Jupyter notebook 元データの取得 Qiitaは、投稿を取得するAPIを公開しているので、簡単に投稿を取得することができます。 JSON形式で返ってくるデータを下記コードでPythonの辞書に変換します。なお、非認証の場合、1リクエストごとに最大100記事、1時間ごとに60回の制限があるので、今回は、100*60 = 6000 記事を対象とします。 import requests import json it ems = [] params = {"page":1
teddy-g 2021/07/26
この通りやればnetworkxでグラフが書けると見せかけてnetworkx 2.x系だと色々と変更しないと動かないという罠。

python

python3

analysis

bigdata

graph

network

graphtheory

networkx
リンク
PandasでNaNの列を処理する
Pandas でデータを扱うことで、データ分析の前処理が格段に楽になります。列データにおける NaN の処理を例に、Pandasの便利さの説明をしたいと思います。 NaNとはNaN（Not a Number）は浮動小数点型における異常な値のことを意味します。わかりやすい例で言うと、0での割り算が該当します。これは実数では表せないため、 NaN になります。 Pandas において NaN は値が欠損している場合によく遭遇する表現です。具体例で見ていきましょう。以下のようなサンプルデータ（sample.csv）を作成します。 ID,名前,年齢,性別,趣味 1,小林,20,男,野球観戦 2,田中,35,女,飲み会 3,佐藤,29,男 4,鈴木,44,女,編み物データを read_csv 関数で読み出して DataFrame とした後、表示してみます。 1import pandas
teddy-g 2021/02/14
DataFrameにNaNが入っているかどうかをチェックするにはisna().any()でチェック。NaNを埋めるのはfillna('埋め文字')。fillnaでは元のDataFrameは上書きされないので注意。

python

pandas

tips

datascience

bigdata
リンク
Bubble map with Python and Basemap
teddy-g 2020/10/08
とにかくBasemapのことは忘れるんだ！MapBoxを思い出せ！

python

python3

basemap

mapbox

data

datascience

bigdata

statistics
リンク
Basemapをインストールしようとしたらつまづいたので忘備録 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2020/10/08
地図可視化ではBasemapは諦めてMapBoxでやりなはれ、と将来の自分に警告を送るべく残しておく。

python

python3

basemap

mapbox

tips

map

data

bigdata

statistics

datascience
リンク
Pythonで地名から住所と座標を割り出すジオコーディングを試してみる
2020年新年最初の投稿です色々とPython製のライブラリについて調べていたら、仕事でも使えそうなライブラリを見つけたので、今回はそれを試してみます。地名から座標を割り出す今回はジオコーディングの一種でもある地名や住所から座標を割り出してくれるPython Geocoderというのを使っていきます。Geocoderというものは、多言語にもあるライブラリだそうです。 Geocoderの特徴は、複数のマップサービスのAPIを統一されたスキーマや文法などで代わりに呼び出してくれます。約30個近くのマップサービスに対応しており、GeocoderからGoogle Map、OpenStreetMapとあらゆるマップサービスからマップの情報を引き出してくれます。ちなみにGoogle MapなどはAPI Keyが必要ですが、API Keyを設定していなくても、API Key不要なOpenStreet
teddy-g 2020/10/08
地名だけじゃなくランドマークとかMountain View, CAみたいな表現からもGeocodingできるスグレモノ。毎度取りに行かずGeocoding結果をcsvにして再利用すれば良い。Excelの地図可視化がヘボくなったのでこっち推奨。

python

python3

geocoding

map

data

bigdata

datascience

tips

statistics
リンク
GeoIP2を使ってIPアドレスの情報を取得 (Python編) - Tahoo!!
前のエントリーでは、PHPでGeoIPを使ってIPアドレスを解析した。本エントリーでは、Pythonを使ったやり方をメモ。と、言ってもほぼPHPと同じｗデータベースのダウンロード上記のエントリーと同様なので、上記のエントリーを参照のこと。インストールインストールにはpipを使う。pipのインストールに関しては、pythonを使っている場合大抵インストールされていると思われるので省略する。 PHPと同様にGithubの公式ページが参考になる。 GeoIP2 Python APIのインストール $ pip install geoip2 これでインストールは完了。使ってみる以下のサイトを参考に、PythonでもIPアドレスから地域の情報を取得してみる。サンプルコード import geoip2.database # データベースの読み込み reader = geoip2.data
teddy-g 2020/10/08
うっかり間違えてインストールしたら割と便利だったGeoIP2。Plotly/Mapboxと組み合わせればIP→位置情報→地図可視化のコンボを決められる。

python

python3

geocoding

map

data

bigdata

datascience

tips

geoip
リンク
Pandasでヒストグラムの作成や頻度を出力する方法
ヒストグラムを作成するhist関数基数の数を変更する (bins) ラベルを元にヒストグラムを作成する by 非数値データの頻度をヒストグラムで表示するまとめ参考 Pandasにもヒストグラムを作成する関数hist()が存在します。この関数は値を表示するのではなく、ヒストグラムをmatplotlibを使ってプロットします。単純に頻度の数値データが欲しい場合はvalues_counts関数が便利な関数です。本記事ではヒストグラムの作成の仕方 value_counts関数を使った非数値データの頻度の出力方法について解説します。今回扱うサンプルデータはKaggleのチュートリアルからとってきたものです。 Titanic - Kaggle ここのtrain.csvという名前のファイルを使います。（ダウンロードするためにはユーザー登録が必要ですが簡単なものなのでしておくことをお勧めし
teddy-g 2020/10/08
Pandasでヒストグラムを書くときのポイントをいくつか。備忘まで。

python

python3

pandas

data

bigdata

datascience

statistics

tips
リンク
PythonとPlotlyでオープンデータを可視化する - Pythonと本と子供と雑談と
teddy-g 2020/10/08
PlotlyとMapboxでデータを地図上に可視化するサンプル的な話。あまり参考にならないが日本語でサンプル説明している例があまりないので備忘まで。

python

python3

plotly

mapbox

map

visualization

bigdata

datascience
リンク
gensim入門 - Qiita
手軽にトピック分析を実行できるgensimを知ったので、gensimを使用して簡単な文章をトピック分析するチュートリアルを実行してみました。トピック分析、LDA、gensimとは詳しく理解してはいないので、簡単に言うと、トピック分析とは、大量の文章からいくつかのトピックを分類して、与えられた文章がどのトピックに属するかを分類する手法 LDAとは、トピック分析の1種 gensimとは、トピック分析を行うことができるPython製のソフトウェア gensimを使ったトピック分析は、以下の手順で行えるようです。文章を準備文章を単語ごとに分割、調整辞書を作成コーパスを作成 LDAモデルを作成分類したい文章をLDAモデルで分類前提 Docker Python 2環境を作るのが面倒だったのでDockerを使っているだけです。 $ docker version Client: Vers
teddy-g 2018/02/18
gensim使えば簡単に分析できるがその前にまず自分でやってみないと

bigdata

data

datascience

analytics

word2vec

mecab

gensim

lda

python
リンク
JTP Technology Port - JTP株式会社
JTP Techno logy Portにアクセスいただきましてありがとうございます。 JTP Techno logy Port は、2021年3月31日ををもちまして閉鎖いたしました。これまでご利用いただきました皆さまには、心より御礼申し上げます。トップに戻る
teddy-g 2018/02/18
OSXにMecab入れるまで。この通りやったら簡単に入る。

data

bigdata

datascience

analytics

mecab

python
リンク
PythonからMeCab（とCaboCha）を使うまで - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2018/02/18
タイトルの通り。この通りやったらMecab使えるようになる。

python

bigdata

data

datascience

analytics

mecab

cabocha
リンク
Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita
はじめにこんにちは、Speeeでデータサイエンティストをしている@To_Murakamiと申します。エンジニアではないのですが、コーディングを含めた分析例を発信しようと思い、企業のAdvent Calendarに参加させていただきました。 12月も暮れに差し掛かってきましたね。本日は、Word2Vec(ワードトゥベック)という自然言語処理を活用した分析例を紹介します。このロジックを実装した目的は、ことばの表記ゆれ（類義語）発見器みたいなのを作ってみたいと思ったからです。なぜ、Word2Vecからことばの表記ゆれが分かるのでしょうか？仕組みの概要（下記）が分かると、理由を理解できます。 Word2Vecの仕組み（簡単に） Word2Vecとは言葉通り、単語をベクトル化したものです。ベクトル化した中身には当然数字が入ります。つまり、単語という言語データを数値化することができるのです！数値
teddy-g 2018/02/18
これも単語分散表現の話。Word2Vecの仕組みをわかりやすく書いてる。

bigdata

datascience

data

analytics

python

word2vec
リンク
Pythonで単語分散表現のクラスタリング - Ahogrammer
最近の自然言語処理では、単語の分散表現は当たり前のように使われています。単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。本記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。イメージ的には、以下のような感じで単語をクラスタにまとめます。では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。準備まずは、作業用のディレクトリを作成しておきましょう。また、必要に応じて Python の仮想環境も用意します。以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work
teddy-g 2018/02/18
単語分散表現は色々とやってみたいがなかなか時間が取れない

bigdata

data

analytics

datascience

python

word2vec
リンク
Random Forestで計算できる特徴量の重要度 - なにメモ
(pixabay.comより) １．背景とか Random Forest[1]とは、ランダムさがもつ利点を活用し、大量に作った決定木を効率よく学習させるという機械学習手法の一種です。SVMなどの既存の手法に比べて、特徴量の重要度が学習とともに計算できること、学習が早いこと、過学習が起きにくいこと（追記注釈１）などの利点が挙げられます。Kinectの姿勢推定に使われているらしいです。最近、Random Forestをカジュアルに使う例が多く（特にうちの研究室）、一部パラメータやら出力やらがわからない人も多いと思います。使い方はTJOさんの資料[2]を読んでもらえれば理解できると思うし、詳細は波部先生の資料[3]をよんでもらえればわかると思います。それで、いろいろな日本語の資料をいくら読んでも、Random Forestがもつ特徴の１つである、特徴量の重要度の詳細に関してはほとんどノータッ
teddy-g 2017/03/26
Random Forestの「寄与率」についてのざっくりとした説明。出来上がった森の内容を直接見るのではなく、森を使ってvalidationする感じ。

randomforest

python

R

statistics

machinelearning

bigdata

analytics

analysis
リンク
開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD
システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPythonの技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ
teddy-g 2016/03/04
Python使うとまだまだ楽できそうだなあ。

python

programming

bigdata

machinelearning

tips

analytics

statistics
リンク
標準python、numpy、pandasを行ったり来たりするために① - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? # !/usr/bin/env python # -*- coding: utf-8 -*- # インポート import numpy as np import scipy as py import pandas as pd import itertools as it ''' 作成 ''' # リスト作成 list_value = [10,11,12] list_value Out[374]: [10, 11, 12] # タプル作成 tuple_value = (10,11,12) tuple_value Out[375]: (10
teddy-g 2016/03/02
Python標準、Numpy、Pandasのでリストとかタプルとか配列とかデータフレームとかを相互変換する為のTips。まさに行ったり来たり。

python

numpy

pandas

scikit-learn

scipy

machinelearning

bigdata

tips
リンク
TruncatedSVD
TruncatedSVD# class sklearn.decomposition.TruncatedSVD(n_components=2, *, algorithm='randomized', n_iter=5, n_oversamples=10, power_iteration_normalizer='auto', random_state=None, tol=0.0)[source]# Dimensionality reduction using truncated SVD (aka LSA). This transf ormer performs linear dimensionality reduction by means of truncated singular value decomposition (SVD). Contrary to PCA, this estimato
teddy-g 2016/02/27
scikit-learnを使って特異値分解（SVD）。UとVはいいとして、Σはどうやって得るんだろ。

python

machinelearning

scikit-learn

bigdata

statistics

svd
リンク
NMF
NMF# class sklearn.decomposition.NMF(n_components='auto', *, init=None, solver='cd', beta_loss='frobenius', tol=0.0001, max_iter=200, random_state=None, alpha_W=0.0, alpha_H='same', l1_ratio=0.0, verbose=0, shuffle=False)[source]# Non-Negative Matrix Factorization (NMF). Find two non-negative matrices, i.e. matrices with all non-negative elements, (W, H) whose product approximates the non-negative
teddy-g 2016/02/27
Scikit-LearnのNMFの使い方説明公式ページ。Initial処理にランダム以外にNNDSVDも指定できる。fit_transformで次元削減した行列が得られて、components_に削減したFeatureが格納される。便利。

python

statistics

bigdata

machinelearning

scikit-learn

nmf
リンク
1 2 次のページ