[B! bigdata][analytics] teddy-gのブックマーク

teddy-g id:teddy-g

bigdataとanalyticsに関するteddy-gのブックマーク (107)

単語の分散表現と構成性の計算モデルの発展
岡崎直観. 2015. 単語の分散表現と構成性の計算モデルの発展. 2015年度人工知能学会全国大会(第29回), OS-1 意味と理解のコンピューティング (2), 2F5-OS-01b-1.Read less
teddy-g 2018/02/18
単語分散表現他、計算モデルについてざっと説明してある。

bigdata

data

datascience

analytics

word2vec

mecab
リンク
統計的変化点検出の手法 - Qiita
ログデータの異常検知を行う必要が発生したので、変化点検出の統計的な手法をざっくりと調べてみた。偏差の累積和による方法各データ点に対して標本平均との偏差の累積和を求め、これが最も大きくなる点を変化点とする方法。手順は下記の通り。系列全体の平均値(標本平均)を計算して、各点について平均値との差を求める平均値との差の累積和を計算し、絶対値が最大になる点を変化点とする。変化点によって区切られた各区間について、1,2を再帰的に繰り返す。平均値でなく分散を使うバージョンもある。特徴 1次元のデータ列に適用可能。変化していない部分のデータは同一の確率分布に従い、かつ観測値はすべて互いに独立であることを仮定。上記を満たしていれば、データが特定の分布に従うことを仮定しない。もちろんデータの独立性が仮定できなければ使えないので、ログのような時間相関のありがちなデータにおいて使える場面は限
teddy-g 2018/02/18
統計的に変化点検知≒異常検知をする方法の説明。ARモデルを調べてたら行き着いた。

bigdata

data

analytics

datascience

statistics

anomalydetection
リンク
gensim入門 - Qiita
手軽にトピック分析を実行できるgensimを知ったので、gensimを使用して簡単な文章をトピック分析するチュートリアルを実行してみました。トピック分析、LDA、gensimとは詳しく理解してはいないので、簡単に言うと、トピック分析とは、大量の文章からいくつかのトピックを分類して、与えられた文章がどのトピックに属するかを分類する手法 LDAとは、トピック分析の1種 gensimとは、トピック分析を行うことができるPython製のソフトウェア gensimを使ったトピック分析は、以下の手順で行えるようです。文章を準備文章を単語ごとに分割、調整辞書を作成コーパスを作成 LDAモデルを作成分類したい文章をLDAモデルで分類前提 Docker Python 2環境を作るのが面倒だったのでDockerを使っているだけです。 $ docker version Client: Vers
teddy-g 2018/02/18
gensim使えば簡単に分析できるがその前にまず自分でやってみないと

bigdata

data

datascience

analytics

word2vec

mecab

gensim

lda

python
リンク
JTP Technology Port - JTP株式会社
JTP Techno logy Portにアクセスいただきましてありがとうございます。 JTP Techno logy Port は、2021年3月31日ををもちまして閉鎖いたしました。これまでご利用いただきました皆さまには、心より御礼申し上げます。トップに戻る
teddy-g 2018/02/18
OSXにMecab入れるまで。この通りやったら簡単に入る。

data

bigdata

datascience

analytics

mecab

python
リンク
PythonからMeCab（とCaboCha）を使うまで - Qiita
環境 Mac OS 10.9.4 Python 2.7 Cabochaのインストール CaboChaを使うのにはMeCabが必要 CRF++のインストール執筆時での最新版は 0.58 http://crfpp.googlecode.com/svn/trunk/doc/index.html#download 解凍して $ cd CRF++-0.58 $ ./configure $ make $ make install $ cd python $ sudo python setup.py install MeCabのインストール執筆時での最新版は 0.996 https://code.google.com/p/mecab/ Downloadsから mecab-0.996.tar.gz（mecab本体） mecab-python-0.996.tar.gz mecab-ipadic-2.7.
teddy-g 2018/02/18
タイトルの通り。この通りやったらMecab使えるようになる。

python

bigdata

data

datascience

analytics

mecab

cabocha
リンク
Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita
はじめにこんにちは、Speeeでデータサイエンティストをしている@To_Murakamiと申します。エンジニアではないのですが、コーディングを含めた分析例を発信しようと思い、企業のAdvent Calendarに参加させていただきました。 12月も暮れに差し掛かってきましたね。本日は、Word2Vec(ワードトゥベック)という自然言語処理を活用した分析例を紹介します。このロジックを実装した目的は、ことばの表記ゆれ（類義語）発見器みたいなのを作ってみたいと思ったからです。なぜ、Word2Vecからことばの表記ゆれが分かるのでしょうか？仕組みの概要（下記）が分かると、理由を理解できます。 Word2Vecの仕組み（簡単に） Word2Vecとは言葉通り、単語をベクトル化したものです。ベクトル化した中身には当然数字が入ります。つまり、単語という言語データを数値化することができるのです！数値
teddy-g 2018/02/18
これも単語分散表現の話。Word2Vecの仕組みをわかりやすく書いてる。

bigdata

datascience

data

analytics

python

word2vec
リンク
Pythonで単語分散表現のクラスタリング - Ahogrammer
最近の自然言語処理では、単語の分散表現は当たり前のように使われています。単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。本記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。イメージ的には、以下のような感じで単語をクラスタにまとめます。では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。準備まずは、作業用のディレクトリを作成しておきましょう。また、必要に応じて Python の仮想環境も用意します。以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work
teddy-g 2018/02/18
単語分散表現は色々とやってみたいがなかなか時間が取れない

bigdata

data

analytics

datascience

python

word2vec
リンク
次元の呪い、あるいは「サクサクメロンパン問題」 - 蛍光ペンの交差点
超球の体積、すなわち多次元空間における球は、一般的に私たちが観測する３次元の球体の体積とは遥かに異質な性質を示すらしい。機械学習の有名な教科書によれば、 Our geometrical intuitions, formed through a life spent in a space of three dimensions, can fail badly when we consider spaces of higher dimensionality. 拙訳：　我々の幾何学に関する直観は、３次元空間の中で過ごした人生の中で形成されたものだが、高次元空間を考えるときには、まるで役立たないことがある。 ("パターン認識と機械学習上", 原書, p.36) ... in spaces of high dimensionality, most of the volume of a spher
teddy-g 2018/02/18
次元の呪いを直感的に説明しようとしてくれてるんだけど今ひとつ直感的にわからない。

bigdata

data

datascience

analytics
リンク
次元の呪いについて - Qiita
この記事について以下の観点から高次元空間の性質についてまとめます。次元数と最近傍・最遠傍との距離の関係データ数と最近傍・最遠傍との距離の関係人工データと実データの比較はじめに機械学習を使って何らかのタスクを解く上で、データの次元数は常に気にする必要があります。なぜなら、機械学習で扱う多くの問題はデータの次元数が大きくなるごとに難易度が跳ね上がるからです。「次元の呪い」とも呼ばれるこの問題の原因は、高次元空間の性質にあると言われています。データの次元数を大きくすると、私達の直感に反する興味深い挙動が確認できます。今回は、高次元空間の性質を簡単な数値実験で調べてみました。次元の呪いとはデータの次元数が高次元になると、データが空間の外側に集中して分布する現象です。高次元空間の直感的な理解のためには下記が参考になると思います。次元の呪い、あるいは「サクサクメロンパン問題」
teddy-g 2018/02/18
次元の呪いという中二病っぽい頻出用語の真面目な説明

bigdata

analytics

data

datascience
リンク
なぜ自然言語処理にとって単語の分散表現は重要なのか？ - Qiita
なぜ自然言語処理にとって単語の分散表現は重要なのでしょうか？この記事をご覧になっている方は Word2vec(Mikolov et al., 2013) についてご存知かもしれません。Word2vec ではまるで単語の意味を捉えられているかのような演算を行うことができます。例えば King から Man を引き Woman を足すと Queen が得られる(King - Man + Woman = Queen)というのは有名な例です。 from https://www.tensorflow.org/get_started/embedding_viz 実はその内部では、単語を分散表現(あるいは埋め込み表現)と呼ばれる200次元ほどのベクトルで表現してベクトルの足し引きを行っています。この200次元ほどのベクトル内部に各単語の特徴が格納されていると考えられています。そのため、ベクトルの足し引
teddy-g 2018/01/02
単語の分散表現について。課題は類似性と関連性、及び曖昧性の考慮がなされていないこと。

NLP

bigdata

analytics

machine learning

machinelearning

deeplearning
リンク
Plotly
plotly.js abstracts the types of statistical and scientific charts that you would find in packages like matplotlib, ggplot2, or MATLAB. d3.json('https://plotly.com/~DanielCarrera/13.json', function(figure){ var trace = { x: figure.data[0].x, y: figure.data[0].y, z: figure.data[0].z, type: 'contour', autocolorscale: false, colorscale: [[0,"rgb( 0, 0, 0)"],[0.3,"rgb(230, 0, 0)"],[0.6,"rgb(255,210, 0
teddy-g 2017/10/15
ブラウザで各種グラフ表示をするJSライブラリ。仕事で知る必要あって調べたんだが、個人的にもちょっと使ってみたい。

javascript

visualization

graph

analytics

bigdata
リンク
情報量 | 情報エントロピー（平均情報量）の求め方とその取りうる値域の証明
2021.03.30 情報量は「場合の数」の比を対数化したものである（情報の分野で、対数底として 2 を用いる）。例えば、コドンを一つ想定したとき、単にコドンと言われると、その取りうる場合の数は 4×4×4 = 64 通りとなる。次に、「コドンの 1 番目の塩基は T です。」という情報が得られたとする。この情報を知った後、コドンの取りうる場合の数は 1×4×4 = 16 通りになる。「コドンの 1 番目の塩基は T です。」という情報を知る前は 64 通り、知った後は 16 通りになる。このとき、「コドンの 1 番目の塩基は T です。」という情報の情報量は log(64/16) = 2 のように計算される。このように、情報量はある情報を「知る前の場合の数」と「知った後の場合の数」の比を対数化したもので定義される。 \[ p = \log\frac{\text{事前の場合の数}}{\te
teddy-g 2017/08/30
パケットのビットのエントロピーを計算したくて調べた。256ビットだとエントロピーはMAX256になるということでいいのかしら。

bigdata

analytics

statistics

math
リンク
Convolutional Neural Networkとは何なのか - Qiita
機械学習の世界において、画像といえばConvolutional Neural Network(以下CNN)というのは、うどんといえば香川くらい当たり前のこととして認識されています。しかし、そのCNNとは何なのか、という解説は意外と少なかったりします。そこで、本記事ではCNNについてその仕組みとメリットの解説を行っていきたいと思います。なお、参考文献にも記載の通り解説の内容はStanfordのCNNの講座をベースにしています。こちらの講座はNeural NetworkからCNN、はてはTensorflowによる実装まで解説される予定なので、興味がある方はそちらもご参照ください。 CNNはその名の通り通常のNeural NetworkにConvolutionを追加したものです。ここでは、Convolution、畳み込みとは一体なんなのか、という点と、なぜそれが画像認識に有効なのかについて説
teddy-g 2017/05/29
CNNについて簡潔に説明してある。備忘。

deeplearning

CNN

datascience

bigdata

analysis

analytics
リンク
The Defense Chain
teddy-g 2017/04/10
Threat HuntingではKill Chainの各PhaseをDefense Chainで捕まえるべし。David BIaoncoのブログだけどたぶんNSAは皆こんな考え方してる。

cybersecurity

threats

hunt

threathunting

UEBA

analytics

bigdata
リンク
GitHub - scikit-tda/kepler-mapper: Kepler Mapper: A flexible Python implementation of the Mapper algorithm.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
teddy-g 2017/04/03
Pythonで作られたTDA、ってかMapper。ちょっと使ってみたいなー

TDA

topology

data

analysis

analytics

bigdata
リンク
Difference between Topological Data Analysis and Graph Technology
teddy-g 2017/03/31
TDAと（Oracleの）グラフ技術の違いは何よ？って質問にGurjeetとAnthonyが回答してる。TDAは別空間に写像するからより汎用的という話。

math

bigdata

TDA

topology

data

analytics

analysis
リンク
Random Forestで計算できる特徴量の重要度 - なにメモ
(pixabay.comより) １．背景とか Random Forest[1]とは、ランダムさがもつ利点を活用し、大量に作った決定木を効率よく学習させるという機械学習手法の一種です。SVMなどの既存の手法に比べて、特徴量の重要度が学習とともに計算できること、学習が早いこと、過学習が起きにくいこと（追記注釈１）などの利点が挙げられます。Kinectの姿勢推定に使われているらしいです。最近、Random Forestをカジュアルに使う例が多く（特にうちの研究室）、一部パラメータやら出力やらがわからない人も多いと思います。使い方はTJOさんの資料[2]を読んでもらえれば理解できると思うし、詳細は波部先生の資料[3]をよんでもらえればわかると思います。それで、いろいろな日本語の資料をいくら読んでも、Random Forestがもつ特徴の１つである、特徴量の重要度の詳細に関してはほとんどノータッ
teddy-g 2017/03/26
Random Forestの「寄与率」についてのざっくりとした説明。出来上がった森の内容を直接見るのではなく、森を使ってvalidationする感じ。

randomforest

python

R

statistics

machinelearning

bigdata

analytics

analysis
リンク
判別分析（マハラノビス）
トップページ→研究分野と周辺→システムの評価→ 例えば二次元で考えると、x軸y軸平面に多数の点が散らばり、これが幾つかのグループに分かれているとする。判別分析では、新たな点が与えられたとき、どのグループに属するかを判別する。判別分析には、幾つかの方法があり、「サポートベクターマシン（SVM）」のように区分する線を引く方法もある。ここでは、マハラノビス距離を用いた判別分析について述べる。マハラノビス距離最も一般的に使われる距離はユークリッド距離である。一次元（例えばx軸上）では、x座標の差がそのまま距離となる。例えば二つのグループがあるとき、新たな点が与えられてどちらのグループに属するかを判別する際、新たな点のx座標と双方のグループの中心とのユークリッド距離を測り、短い方に属すると考える事も出来る。しかし、この方法では、以下のような場合に問題となる。青い点と赤い点の二つのグルー
teddy-g 2017/01/11
[unsupervisedlearning]マハラノビス距離に関し、２変数の場合が丁寧に説明してある。

bigdata

data

analysis

analytics

statistics

stats

math

anomalydetection
リンク
尤度の解説
このドメインはお名前.com から取得されました。お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。日本のドメイン登録業者(レジストラ)（「ICANNがレジストラとして認定した企業」一覧（InterNIC提供）内に「Japan」の記載があるもの）を対象。レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年10月時点の調査。
teddy-g 2017/01/03
ある観測データの下での仮説の確からしさが尤度。H0とH1の尤度の比がロッド値で、どっちが確からしいかを見るのに使う。

statistics

stats

math

bayes

bayesiannetwork

data

analysis

analytics

bigdata
リンク
8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset - MachineLearningMastery.com
Has this happened to you? You are working on your dataset. You create a classification model and get 90% accuracy immediately. “Fantastic” you think. You dive a little deeper and discover that 90% of the data belongs to one class. Damn! This is an example of an imbalanced dataset and the frustrating results it can cause. In this post you will discover the tactics that you can use to deliver great
teddy-g 2017/01/03
不均衡データを機械学習で取り扱う時の実践手法について。データを増やす、評価を変える、サンプリングを変える、モデルを変える、等典型的なパターンの纏め。

machine learning

machinelearning

bigdata

data

analysis

analytics

R
リンク
1 2 3 4 5 6 次のページ