[B! data] [2ページ] teddy-gのブックマーク

teddy-g id:teddy-g

dataに関するteddy-gのブックマーク (51)

https://www.thecompleteuniversityguide.co.uk/league-tables/rankings/art-and-design
teddy-g 2018/09/03
世界の大学ランキング。

university

rankings

data
リンク
World University Rankings
Everything you need for each step of your study abroad journey The Times Higher Education World University Rankings 2018 list the top 1,000 universities in the world, making it our biggest international league table to date. It is the only global university performance table to judge research-intensive universities across all of their core missions: teaching, research, knowledge transfer and inter
teddy-g 2018/09/03
世界の大学ランキング。

university

rankings

data
リンク
単語の分散表現と構成性の計算モデルの発展
2. 分散表現 (Hinton+ 1986) • 局所表現（local representation） • 各概念に１つの計算要素 (記号, ニューロン, 次元) を割り当て • 分散表現（distributed representation） • 各概念は複数の計算要素で表現される • 各計算要素は複数の概念の表現に関与する 2015-05-31 OS-1 (2)意味と理解のコンピューティング 2 バス萌えバス … … #2948 … … #19023840334 バス萌えバス萌えトラックニューロンの興奮パターン ≒ベクトル表現 http://ja.wikipedia.org/wiki/富士急山梨バス http://saori223.web.fc2.com/ 3. 構成性（Frege 1892） • Partee (1984) • The meaning of an expres
teddy-g 2018/02/18
単語分散表現他、計算モデルについてざっと説明してある。

bigdata

data

datascience

analytics

word2vec

mecab
リンク
統計的変化点検出の手法 - Qiita
ログデータの異常検知を行う必要が発生したので、変化点検出の統計的な手法をざっくりと調べてみた。偏差の累積和による方法各データ点に対して標本平均との偏差の累積和を求め、これが最も大きくなる点を変化点とする方法。手順は下記の通り。系列全体の平均値(標本平均)を計算して、各点について平均値との差を求める平均値との差の累積和を計算し、絶対値が最大になる点を変化点とする。変化点によって区切られた各区間について、1,2を再帰的に繰り返す。平均値でなく分散を使うバージョンもある。特徴 1次元のデータ列に適用可能。変化していない部分のデータは同一の確率分布に従い、かつ観測値はすべて互いに独立であることを仮定。上記を満たしていれば、データが特定の分布に従うことを仮定しない。もちろんデータの独立性が仮定できなければ使えないので、ログのような時間相関のありがちなデータにおいて使える場面は限
teddy-g 2018/02/18
統計的に変化点検知≒異常検知をする方法の説明。ARモデルを調べてたら行き着いた。

bigdata

data

analytics

datascience

statistics

anomalydetection
リンク
gensim入門 - Qiita
手軽にトピック分析を実行できるgensimを知ったので、gensimを使用して簡単な文章をトピック分析するチュートリアルを実行してみました。トピック分析、LDA、gensimとは詳しく理解してはいないので、簡単に言うと、トピック分析とは、大量の文章からいくつかのトピックを分類して、与えられた文章がどのトピックに属するかを分類する手法 LDAとは、トピック分析の1種 gensimとは、トピック分析を行うことができるPython製のソフトウェア gensimを使ったトピック分析は、以下の手順で行えるようです。文章を準備文章を単語ごとに分割、調整辞書を作成コーパスを作成 LDAモデルを作成分類したい文章をLDAモデルで分類前提 Docker Python 2環境を作るのが面倒だったのでDockerを使っているだけです。 $ docker version Client: Vers
teddy-g 2018/02/18
gensim使えば簡単に分析できるがその前にまず自分でやってみないと

bigdata

data

datascience

analytics

word2vec

mecab

gensim

lda

python
リンク
JTP Technology Port - JTP株式会社
JTP Techno logy Portにアクセスいただきましてありがとうございます。 JTP Techno logy Port は、2021年3月31日ををもちまして閉鎖いたしました。これまでご利用いただきました皆さまには、心より御礼申し上げます。トップに戻る
teddy-g 2018/02/18
OSXにMecab入れるまで。この通りやったら簡単に入る。

data

bigdata

datascience

analytics

mecab

python
リンク
PythonからMeCab（とCaboCha）を使うまで - Qiita
環境 Mac OS 10.9.4 Python 2.7 Cabochaのインストール CaboChaを使うのにはMeCabが必要 CRF++のインストール執筆時での最新版は 0.58 http://crfpp.googlecode.com/svn/trunk/doc/index.html#download 解凍して $ cd CRF++-0.58 $ ./configure $ make $ make install $ cd python $ sudo python setup.py install MeCabのインストール執筆時での最新版は 0.996 https://code.google.com/p/mecab/ Downloadsから mecab-0.996.tar.gz（mecab本体） mecab-python-0.996.tar.gz mecab-ipadic-2.7.
teddy-g 2018/02/18
タイトルの通り。この通りやったらMecab使えるようになる。

python

bigdata

data

datascience

analytics

mecab

cabocha
リンク
Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita
はじめにこんにちは、Speeeでデータサイエンティストをしている@To_Murakamiと申します。エンジニアではないのですが、コーディングを含めた分析例を発信しようと思い、企業のAdvent Calendarに参加させていただきました。 12月も暮れに差し掛かってきましたね。本日は、Word2Vec(ワードトゥベック)という自然言語処理を活用した分析例を紹介します。このロジックを実装した目的は、ことばの表記ゆれ（類義語）発見器みたいなのを作ってみたいと思ったからです。なぜ、Word2Vecからことばの表記ゆれが分かるのでしょうか？仕組みの概要（下記）が分かると、理由を理解できます。 Word2Vecの仕組み（簡単に） Word2Vecとは言葉通り、単語をベクトル化したものです。ベクトル化した中身には当然数字が入ります。つまり、単語という言語データを数値化することができるのです！数値
teddy-g 2018/02/18
これも単語分散表現の話。Word2Vecの仕組みをわかりやすく書いてる。

bigdata

datascience

data

analytics

python

word2vec
リンク
Pythonで単語分散表現のクラスタリング - Ahogrammer
最近の自然言語処理では、単語の分散表現は当たり前のように使われています。単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。本記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。イメージ的には、以下のような感じで単語をクラスタにまとめます。では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。準備まずは、作業用のディレクトリを作成しておきましょう。また、必要に応じて Python の仮想環境も用意します。以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work
teddy-g 2018/02/18
単語分散表現は色々とやってみたいがなかなか時間が取れない

bigdata

data

analytics

datascience

python

word2vec
リンク
次元の呪い、あるいは「サクサクメロンパン問題」 - 蛍光ペンの交差点
超球の体積、すなわち多次元空間における球は、一般的に私たちが観測する３次元の球体の体積とは遥かに異質な性質を示すらしい。機械学習の有名な教科書によれば、 Our geometrical intuitions, formed through a life spent in a space of three dimensions, can fail badly when we consider spaces of higher dimensionality. 拙訳：　我々の幾何学に関する直観は、３次元空間の中で過ごした人生の中で形成されたものだが、高次元空間を考えるときには、まるで役立たないことがある。 ("パターン認識と機械学習上", 原書, p.36) ... in spaces of high dimensionality, most of the volume of a spher
teddy-g 2018/02/18
次元の呪いを直感的に説明しようとしてくれてるんだけど今ひとつ直感的にわからない。

bigdata

data

datascience

analytics
リンク
次元の呪いについて - Qiita
この記事について以下の観点から高次元空間の性質についてまとめます。次元数と最近傍・最遠傍との距離の関係データ数と最近傍・最遠傍との距離の関係人工データと実データの比較はじめに機械学習を使って何らかのタスクを解く上で、データの次元数は常に気にする必要があります。なぜなら、機械学習で扱う多くの問題はデータの次元数が大きくなるごとに難易度が跳ね上がるからです。「次元の呪い」とも呼ばれるこの問題の原因は、高次元空間の性質にあると言われています。データの次元数を大きくすると、私達の直感に反する興味深い挙動が確認できます。今回は、高次元空間の性質を簡単な数値実験で調べてみました。次元の呪いとはデータの次元数が高次元になると、データが空間の外側に集中して分布する現象です。高次元空間の直感的な理解のためには下記が参考になると思います。次元の呪い、あるいは「サクサクメロンパン問題」
teddy-g 2018/02/18
次元の呪いという中二病っぽい頻出用語の真面目な説明

bigdata

analytics

data

datascience
リンク
Consumer Complaint Database | Consumer Financial Protection Bureau
teddy-g 2018/02/18
Consumer Complaint Databaseなんてものがアメリカでは公開されてる

data

database
リンク
GitHub - scikit-tda/kepler-mapper: Kepler Mapper: A flexible Python implementation of the Mapper algorithm.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
teddy-g 2017/04/03
Pythonで作られたTDA、ってかMapper。ちょっと使ってみたいなー

TDA

topology

data

analysis

analytics

bigdata
リンク
Difference between Topological Data Analysis and Graph Technology
teddy-g 2017/03/31
TDAと（Oracleの）グラフ技術の違いは何よ？って質問にGurjeetとAnthonyが回答してる。TDAは別空間に写像するからより汎用的という話。

math

bigdata

TDA

topology

data

analytics

analysis
リンク
判別分析（マハラノビス）
トップページ→研究分野と周辺→システムの評価→ 例えば二次元で考えると、x軸y軸平面に多数の点が散らばり、これが幾つかのグループに分かれているとする。判別分析では、新たな点が与えられたとき、どのグループに属するかを判別する。判別分析には、幾つかの方法があり、「サポートベクターマシン（SVM）」のように区分する線を引く方法もある。ここでは、マハラノビス距離を用いた判別分析について述べる。マハラノビス距離最も一般的に使われる距離はユークリッド距離である。一次元（例えばx軸上）では、x座標の差がそのまま距離となる。例えば二つのグループがあるとき、新たな点が与えられてどちらのグループに属するかを判別する際、新たな点のx座標と双方のグループの中心とのユークリッド距離を測り、短い方に属すると考える事も出来る。しかし、この方法では、以下のような場合に問題となる。青い点と赤い点の二つのグルー
teddy-g 2017/01/11
[unsupervisedlearning]マハラノビス距離に関し、２変数の場合が丁寧に説明してある。

bigdata

data

analysis

analytics

statistics

stats

math

anomalydetection
リンク
尤度の解説
このドメインはお名前.com から取得されました。お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。日本のドメイン登録業者(レジストラ)（「ICANNがレジストラとして認定した企業」一覧（InterNIC提供）内に「Japan」の記載があるもの）を対象。レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年10月時点の調査。
teddy-g 2017/01/03
ある観測データの下での仮説の確からしさが尤度。H0とH1の尤度の比がロッド値で、どっちが確からしいかを見るのに使う。

statistics

stats

math

bayes

bayesiannetwork

data

analysis

analytics

bigdata
リンク
8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset - MachineLearningMastery.com
Has this happened to you? You are working on your dataset. You create a classification model and get 90% accuracy immediately. “Fantastic” you think. You dive a little deeper and discover that 90% of the data belongs to one class. Damn! This is an example of an imbalanced dataset and the frustrating results it can cause. In this post you will discover the tactics that you can use to deliver great
teddy-g 2017/01/03
不均衡データを機械学習で取り扱う時の実践手法について。データを増やす、評価を変える、サンプリングを変える、モデルを変える、等典型的なパターンの纏め。

machine learning

machinelearning

bigdata

data

analysis

analytics

R
リンク
【統計学】正規分布とカイ二乗分布の関係を可視化してみる。 - Qiita
統計学、可視化してみるシリーズの続編です。カイ二乗分布は、ABテストのカイ二乗検定等でよく使う分布です。$\chi^2$と書いてカイ二乗です。グラフにすると下記のような形で、自由度と呼ばれるkの値に応じて形が変化します。 (グラフ描画のコードはこちら) 今回もWikipedia先生にカイ二乗分布の定義を聞いてみると、独立に標準正規分布に従う $k$ 個の確率変数 $X_1, ..., X_k$ をとる。このとき、統計量$$Z = \sum_{i = 1}^k X_i^2$$の従う分布のことを自由度 $k$ のカイ二乗分布と呼ぶ。という返事が返ってきました。うーん、どういうこと？正規分布の密度関数を２乗するの？どうやら違うようです。まず、「独立に標準正規分布に従う $k$ 個の確率変数」ということなのでまずは標準正規分布に従う乱数のヒストグラムを書いてみようとおもいます。30,0
teddy-g 2017/01/03
カイ二乗分布と正規分布の関係がビジュアルに理解できる。正規分布の対数から計算されるマハラノビス距離が自由度＝次元数のカイ二乗分布に従うのも納得。

statistics

stats

math

data

bigdata

analysis

analytics

anomalydetection
リンク
Semi-Supervised Learning (Chapelle et al., 2006)のChapter 2読んだ - Fire and Motion
A Taxonomy for Semi-Supervised Learning Methods Seeger, M. Ch 2(pp.15-31)もどちらかというとoverviewっぽい．半教師あり学習の分類について書かれている．相変わらず簡単なまとめメモ＋適当な意訳あり．あとはてダの数式が綺麗ではないので，少しがんばってみた．はてなブログの方が数式綺麗らしいので乗り換えようかなぁ…． 1. The Semi-Supervised Learning Probl em 半教師あり学習には2つの基本的手法がある unlabeled dataを無視した教師あり分類問題 2. Paradigms for Semi-Supervised learning 半教師あり学習は教師あり学習のテクニックなので，当然生成モデル的アプローチと識別モデル的アプローチに分類できるこの節では統計学や機械学習でよく用い
teddy-g 2017/01/02
半教師あり学習について。備忘。

machinelearning

machine learning

bigdata

data

analysis

analytics

supervised

unsupervisedlearning

semi-supervised
リンク
SSSSLIDE
teddy-g 2016/12/31
機械学習に関する諸々の良いまとめ。

machine learning

machinelearning

data

bigdata

analysis

analytics
リンク
前のページ 1 2 3 次のページ