[B! Python][datascience] teddy-gのブックマーク

teddy-g id:teddy-g

Pythonとdatascienceに関するteddy-gのブックマーク (27)

Clustering cosine similarity matrix
teddy-g 2021/10/31
コサイン距離でクラスタリングする方法について。備忘。

python

python3

datascience

data

unsupervisedlearning

clustering
リンク
Pythonでグラフデータベース Neo4j入門 for ビギナー (Mac OSX向け) - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2021/10/31
Neo4jも試してみたい気がする。備忘。

python

python3

datascience

data

machinelearning

machine learning

graph

graphtheory

neo4j
リンク
Centrality — NetworkX 3.3 documentation
teddy-g 2021/10/31
NetworkXのドキュメントから、各種Centralityの違いについて。Centralityを調べることでノードの重要性とか調べることができる。

python

python3

datascience

data

graph

graphtheory
リンク
Tutorial — pyvis 0.1.3.1 documentation
teddy-g 2021/10/31
Pythonでインタラクティブなグラフ作りたかったらとりあえずPyvis。簡単に描けて、ぐりぐり動かせてべんり。

python

python3

jupyter

pyvis

graph

graphtheory

datascience

data

machinelearning

machine learning
リンク
編集距離についての説明及びPythonでの実装 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2021/10/31
レーベンシュタイン距離の基本とPython実装について。比較する文字同士のマトリクスを作って比較していく。

python

python3

datascience

machine learning

machinelearning

math
リンク
PandasでNaNの列を処理する
Pandas でデータを扱うことで、データ分析の前処理が格段に楽になります。列データにおける NaN の処理を例に、Pandasの便利さの説明をしたいと思います。 NaNとはNaN（Not a Number）は浮動小数点型における異常な値のことを意味します。わかりやすい例で言うと、0での割り算が該当します。これは実数では表せないため、 NaN になります。 Pandas において NaN は値が欠損している場合によく遭遇する表現です。具体例で見ていきましょう。以下のようなサンプルデータ（sample.csv）を作成します。 ID,名前,年齢,性別,趣味 1,小林,20,男,野球観戦 2,田中,35,女,飲み会 3,佐藤,29,男 4,鈴木,44,女,編み物データを read_csv 関数で読み出して DataFrame とした後、表示してみます。 1import pandas
teddy-g 2021/02/14
DataFrameにNaNが入っているかどうかをチェックするにはisna().any()でチェック。NaNを埋めるのはfillna('埋め文字')。fillnaでは元のDataFrameは上書きされないので注意。

python

pandas

tips

datascience

bigdata
リンク
Cyberpunk Style with Matplotlib
teddy-g 2020/10/21
Matplotlibを使って黒背景・ネオン効果ありのクールなグラフを作る方法。小ネタ。

python

matplotlib

statistics

stats

graph

data

datascience
リンク
Bubble map with Python and Basemap
teddy-g 2020/10/08
とにかくBasemapのことは忘れるんだ！MapBoxを思い出せ！

python

python3

basemap

mapbox

data

datascience

bigdata

statistics
リンク
Basemapをインストールしようとしたらつまづいたので忘備録 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2020/10/08
地図可視化ではBasemapは諦めてMapBoxでやりなはれ、と将来の自分に警告を送るべく残しておく。

python

python3

basemap

mapbox

tips

map

data

bigdata

statistics

datascience
リンク
Pythonで地名から住所と座標を割り出すジオコーディングを試してみる
2020年新年最初の投稿です色々とPython製のライブラリについて調べていたら、仕事でも使えそうなライブラリを見つけたので、今回はそれを試してみます。地名から座標を割り出す今回はジオコーディングの一種でもある地名や住所から座標を割り出してくれるPython Geocoderというのを使っていきます。Geocoderというものは、多言語にもあるライブラリだそうです。 Geocoderの特徴は、複数のマップサービスのAPIを統一されたスキーマや文法などで代わりに呼び出してくれます。約30個近くのマップサービスに対応しており、GeocoderからGoogle Map、OpenStreetMapとあらゆるマップサービスからマップの情報を引き出してくれます。ちなみにGoogle MapなどはAPI Keyが必要ですが、API Keyを設定していなくても、API Key不要なOpenStreet
teddy-g 2020/10/08
地名だけじゃなくランドマークとかMountain View, CAみたいな表現からもGeocodingできるスグレモノ。毎度取りに行かずGeocoding結果をcsvにして再利用すれば良い。Excelの地図可視化がヘボくなったのでこっち推奨。

python

python3

geocoding

map

data

bigdata

datascience

tips

statistics
リンク
GeoIP2を使ってIPアドレスの情報を取得 (Python編) - Tahoo!!
前のエントリーでは、PHPでGeoIPを使ってIPアドレスを解析した。本エントリーでは、Pythonを使ったやり方をメモ。と、言ってもほぼPHPと同じｗデータベースのダウンロード上記のエントリーと同様なので、上記のエントリーを参照のこと。インストールインストールにはpipを使う。pipのインストールに関しては、pythonを使っている場合大抵インストールされていると思われるので省略する。 PHPと同様にGithubの公式ページが参考になる。 GeoIP2 Python APIのインストール $ pip install geoip2 これでインストールは完了。使ってみる以下のサイトを参考に、PythonでもIPアドレスから地域の情報を取得してみる。サンプルコード import geoip2.database # データベースの読み込み reader = geoip2.data
teddy-g 2020/10/08
うっかり間違えてインストールしたら割と便利だったGeoIP2。Plotly/Mapboxと組み合わせればIP→位置情報→地図可視化のコンボを決められる。

python

python3

geocoding

map

data

bigdata

datascience

tips

geoip
リンク
Pandasでヒストグラムの作成や頻度を出力する方法
ヒストグラムを作成するhist関数基数の数を変更する (bins) ラベルを元にヒストグラムを作成する by 非数値データの頻度をヒストグラムで表示するまとめ参考 Pandasにもヒストグラムを作成する関数hist()が存在します。この関数は値を表示するのではなく、ヒストグラムをmatplotlibを使ってプロットします。単純に頻度の数値データが欲しい場合はvalues_counts関数が便利な関数です。本記事ではヒストグラムの作成の仕方 value_counts関数を使った非数値データの頻度の出力方法について解説します。今回扱うサンプルデータはKaggleのチュートリアルからとってきたものです。 Titanic - Kaggle ここのtrain.csvという名前のファイルを使います。（ダウンロードするためにはユーザー登録が必要ですが簡単なものなのでしておくことをお勧めし
teddy-g 2020/10/08
Pandasでヒストグラムを書くときのポイントをいくつか。備忘まで。

python

python3

pandas

data

bigdata

datascience

statistics

tips
リンク
PythonとPlotlyでオープンデータを可視化する - Pythonと本と子供と雑談と
teddy-g 2020/10/08
PlotlyとMapboxでデータを地図上に可視化するサンプル的な話。あまり参考にならないが日本語でサンプル説明している例があまりないので備忘まで。

python

python3

plotly

mapbox

map

visualization

bigdata

datascience
リンク
主成分分析を Python で理解する - Qiita
主成分分析（principal component analysis）とは多変量解析手法のうち次元削減手法としてよく用いられる手法の一種で、相関のある多変数から、相関のない少数で全体のばらつきを最もよく表す変数を合成します。主成分分析を行う便利なツールとして、Pythonで利用可能なScikit-learnなどがありますが、ここではScikit-learnでのPCAの使い方を概観したあと、Scikit-learnを使わずにpandasとnumpyだけでPCAをしてみることで、Pythonの勉強とPCAの勉強を同時に行いたいと思います。プログラミングにおいて大事なのは「コピペ・タブ補完・ヒストリー機能を極力使うこと」、「一字一句を理解できないと先に進めないのではなく、まずは全部を理解できなくてもいいからゴールまで辿り着き、中身の理解はその後ですること」、「出来上がっているコードの中で、ど
teddy-g 2020/10/03
PCAをPythonでやるときの参考に。

python

scikit-learn

pca

datascience

statistics
リンク
Pandasでピボットテーブルを手軽に作成するpivot_table関数の使い方
pivot_table関数 APIドキュメント params: returns: ピボットテーブルを作成する複数要素を元に多層化させるデータの個数をカウントする列ごとと行ごとの合計を表示複数の統計量を表示させる関数を使って統計処理を指定する欠損値を補完欠損値があるデータも表示させるまとめ参考ピボットテーブルとはエクセルで有名な機能の1つで馴染みの方も多いかもしれません。複雑なデータ構造を一目で分かりやすくする目的でよく使われるもので、クロス集計したものをまとめたものとなります。 2つの要素間の相関が分かりやすく現れるので使いこなせると重宝するでしょう。例えば男女間での科目ごとの平均点といったものをひと目で把握することができます。 Pandasでも手軽にピボットテーブルを作成できるpivot_table関数が実装されています。そこで本記事ではpivot_table関数
teddy-g 2020/08/17
PandasでEXCELのピボットと同じことができる。インデックスがmulti-indexになるのでその辺の値の操作は注意する必要がある。関数を柔軟に適用できるのでEXCELより凝った集計・統計を作りたいときは便利。

python

data

datascience

statistics

stats

tips

pandas
リンク
pandas.DataFrameの複数の列の文字列を結合して新たな列を生成 | note.nkmk.me
pandas.DataFrameの複数の列の文字列を結合（連結）して新たな列を生成する方法について、以下の内容を説明する。文字列の列同士の結合（連結） str.cat() +演算子欠損値NaNの処理文字列の列と数値の列の結合（連結）連結した列をpandas.DataFrameに追加例として、以下のデータを使用する。 import pandas as pd df = pd.read_csv('data/src/sample_pandas_normal.csv').head(3) print(df) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 2 Charlie 18 CA 70
teddy-g 2020/07/11
Pandasで複数のカラムから文字列を取り出して単純にくっつけたいときはstr.cat。セパレータも指定できる。

python

pandas

dataframe

datascience

machinelearning
リンク
Setting up text preprocessing pipeline using scikit-learn and spaCy
teddy-g 2020/07/11
NLTKとspaCyを使ったtokenizationのTips。Stop Words、emoticon、HTMLタグ、punctuationの対応も書いてあり親切。

NLP

python

spaCy

nltk

scikit-learn

datascience

machine learning

machinelearning
リンク
階層的クラスタリングと、任意の数のクラスタへの分割 - Qiita
2016年に作った資料を公開します。もう既にいろいろ古くなってる可能性が高いです。（追記：新しい記事は階層的クラスタリングとシルエット係数をご覧ください。）本実習では教師なし学習の一種である階層的クラスタリングを行ないます。 * 階層的クラスタリングとは何か、知らない人は下記リンク参照↓ * 階層的クラスタリングとは * クラスタリング (クラスター分析) まずはサンプルデータの取得から # URL によるリソースへのアクセスを提供するライブラリをインポートする。 import urllib # ウェブ上のリソースを指定する url = 'https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/iris.txt' # 指定したURLからリソースをダウンロードし、名前をつける。 url
teddy-g 2020/07/06
Pythonで階層的クラスタリングをやる方法について。距離行列を作った後のステップも説明されていて丁寧。

python

scipy

clustering

datascience

statistics

machinelearning
リンク
scipyのlinkage関数の結果について | 分析ノート
前回の記事の続きです。参考:scipyで階層的クラスタリング前回の記事で階層的クラスタリングを実行し可視化するところまで紹介しましたが、今回は一歩戻ってlinkage関数の戻り値の中身を見てみます。とりあえず、 linkage matrix をprintして結果を見てみましょう。 from sklearn.datasets import load_iris from scipy.cluster.hierarchy import linkage X = load_iris().data[::10, 2:4] print(X.shape) # (15, 2) # ユークリッド距離とウォード法を使用してクラスタリング z = linkage(X, metric='euclidean', method='ward') print(z.shape) # (14, 4) print(z) #
teddy-g 2020/07/06
scipyのlinkage関数を使って得た結果は、ノード1、ノード2、距離、ノード数となっている。ポイントはこうしてペアが作られる度に新しいノードIDが追加されていること。

python

clustering

machinelearning

datascience

statistics

scipy
リンク
Linguistic Features · spaCy Usage Documentation
GuidesGet startedInstallationModels & LanguagesFacts & FiguresspaCy 101New in v3.7New in v3.6New in v3.5GuidesLinguistic FeaturesPOS TaggingMorphologyLemmatizationDependency ParseNamed EntitiesEntity LinkingTokenizationMerging & SplittingSentence SegmentationMappings & ExceptionsVectors & SimilarityLanguage DataRule-based MatchingProcessing PipelinesEmbeddings & Transf ormersLarge Language ModelsTr
teddy-g 2020/07/05
Similarity計算するときにはen_core_web_lg入れなさいって話。

spaCy

python

machine learning

machinelearning

NLP

NaturalLanguage

datascience
リンク
1 2 次のページ