タグ

bigdataとanalyticsに関するteddy-gのブックマーク (107)

  • 単語の分散表現と構成性の計算モデルの発展

    岡崎直観. 2015. 単語の分散表現と構成性の計算モデルの発展. 2015年度人工知能学会全国大会(第29回), OS-1 意味と理解のコンピューティング (2), 2F5-OS-01b-1.Read less

    単語の分散表現と構成性の計算モデルの発展
    teddy-g
    teddy-g 2018/02/18
    単語分散表現他、計算モデルについてざっと説明してある。
  • 統計的変化点検出の手法 - Qiita

    ログデータの異常検知を行う必要が発生したので、変化点検出の統計的な手法をざっくりと調べてみた。 偏差の累積和による方法 各データ点に対して標平均との偏差の累積和を求め、これが最も大きくなる点を変化点とする方法。 手順は下記の通り。 系列全体の平均値(標平均)を計算して、各点について平均値との差を求める 平均値との差の累積和を計算し、絶対値が最大になる点を変化点とする。 変化点によって区切られた各区間について、1,2を再帰的に繰り返す。 平均値でなく分散を使うバージョンもある。 特徴 1次元のデータ列に適用可能。 変化していない部分のデータは同一の確率分布に従い、かつ観測値はすべて互いに独立であることを仮定。 上記を満たしていれば、データが特定の分布に従うことを仮定しない。 もちろんデータの独立性が仮定できなければ使えないので、ログのような時間相関のありがちなデータにおいて使える場面は限

    統計的変化点検出の手法 - Qiita
    teddy-g
    teddy-g 2018/02/18
    統計的に変化点検知≒異常検知をする方法の説明。ARモデルを調べてたら行き着いた。
  • gensim入門 - Qiita

    手軽にトピック分析を実行できるgensimを知ったので、gensimを使用して簡単な文章をトピック分析するチュートリアルを実行してみました。 トピック分析、LDA、gensimとは 詳しく理解してはいないので、簡単に言うと、 トピック分析とは、大量の文章からいくつかのトピックを分類して、与えられた文章がどのトピックに属するかを分類する手法 LDAとは、トピック分析の1種 gensimとは、トピック分析を行うことができるPython製のソフトウェア gensimを使ったトピック分析は、以下の手順で行えるようです。 文章を準備 文章を単語ごとに分割、調整 辞書を作成 コーパスを作成 LDAモデルを作成 分類したい文章をLDAモデルで分類 前提 Docker Python 2環境を作るのが面倒だったのでDockerを使っているだけです。 $ docker version Client: Vers

    gensim入門 - Qiita
    teddy-g
    teddy-g 2018/02/18
    gensim使えば簡単に分析できるが その前にまず自分でやってみないと
  • JTP Technology Port - JTP株式会社

    JTP Technology Portにアクセスいただきましてありがとうございます。 JTP Technology Port は、2021年3月31日ををもちまして閉鎖いたしました。 これまでご利用いただきました皆さまには、心より御礼申し上げます。 トップ に戻る

    JTP Technology Port - JTP株式会社
    teddy-g
    teddy-g 2018/02/18
    OSXにMecab入れるまで。この通りやったら簡単に入る。
  • PythonからMeCab(とCaboCha)を使うまで - Qiita

    環境 Mac OS 10.9.4 Python 2.7 Cabochaのインストール CaboChaを使うのにはMeCabが必要 CRF++のインストール 執筆時での最新版は 0.58 http://crfpp.googlecode.com/svn/trunk/doc/index.html#download 解凍して $ cd CRF++-0.58 $ ./configure $ make $ make install $ cd python $ sudo python setup.py install MeCabのインストール 執筆時での最新版は 0.996 https://code.google.com/p/mecab/ Downloadsから mecab-0.996.tar.gz(mecab体) mecab-python-0.996.tar.gz mecab-ipadic-2.7.

    PythonからMeCab(とCaboCha)を使うまで - Qiita
    teddy-g
    teddy-g 2018/02/18
    タイトルの通り。この通りやったらMecab使えるようになる。
  • Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita

    はじめに こんにちは、Speeeでデータサイエンティストをしている@To_Murakamiと申します。エンジニアではないのですが、コーディングを含めた分析例を発信しようと思い、企業のAdvent Calendarに参加させていただきました。 12月も暮れに差し掛かってきましたね。日は、Word2Vec(ワードトゥベック)という自然言語処理を活用した分析例を紹介します。 このロジックを実装した目的は、ことばの表記ゆれ(類義語)発見器みたいなのを作ってみたいと思ったからです。なぜ、Word2Vecからことばの表記ゆれが分かるのでしょうか?仕組みの概要(下記)が分かると、理由を理解できます。 Word2Vecの仕組み(簡単に) Word2Vecとは言葉通り、単語をベクトル化したものです。ベクトル化した中身には当然数字が入ります。つまり、単語という言語データを数値化することができるのです! 数値

    Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita
    teddy-g
    teddy-g 2018/02/18
    これも単語分散表現の話。Word2Vecの仕組みをわかりやすく書いてる。
  • Pythonで単語分散表現のクラスタリング - Ahogrammer

    最近の自然言語処理では、単語の分散表現は当たり前のように使われています。 単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。 これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。 記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。 これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。 イメージ的には、以下のような感じで単語をクラスタにまとめます。 では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。 準備 まずは、作業用のディレクトリを作成しておきましょう。 また、必要に応じて Python の仮想環境も用意します。 以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work

    Pythonで単語分散表現のクラスタリング - Ahogrammer
    teddy-g
    teddy-g 2018/02/18
    単語分散表現は色々とやってみたいがなかなか時間が取れない
  • 次元の呪い、あるいは「サクサクメロンパン問題」 - 蛍光ペンの交差点

    超球の体積、すなわち多次元空間における球は、一般的に私たちが観測する3次元の球体の体積とは遥かに異質な性質を示すらしい。 機械学習の有名な教科書によれば、 Our geometrical intuitions, formed through a life spent in a space of three dimensions, can fail badly when we consider spaces of higher dimensionality. 拙訳: 我々の幾何学に関する直観は、3次元空間の中で過ごした人生の中で形成されたものだが、高次元空間を考えるときには、まるで役立たないことがある。 ("パターン認識と機械学習 上", 原書, p.36) ... in spaces of high dimensionality, most of the volume of a spher

    次元の呪い、あるいは「サクサクメロンパン問題」 - 蛍光ペンの交差点
    teddy-g
    teddy-g 2018/02/18
    次元の呪いを直感的に説明しようとしてくれてるんだけど今ひとつ直感的にわからない。
  • 次元の呪いについて - Qiita

    この記事について 以下の観点から高次元空間の性質についてまとめます。 次元数と最近傍・最遠傍との距離の関係 データ数と最近傍・最遠傍との距離の関係 人工データと実データの比較 はじめに 機械学習を使って何らかのタスクを解く上で、データの次元数は常に気にする必要があります。なぜなら、機械学習で扱う多くの問題はデータの次元数が大きくなるごとに難易度が跳ね上がるからです。 「次元の呪い」とも呼ばれるこの問題の原因は、高次元空間の性質にあると言われています。 データの次元数を大きくすると、私達の直感に反する興味深い挙動が確認できます。今回は、高次元空間の性質を簡単な数値実験で調べてみました。 次元の呪いとは データの次元数が高次元になると、データが空間の外側に集中して分布する現象です。 高次元空間の直感的な理解のためには下記が参考になると思います。 次元の呪い、あるいは「サクサクメロンパン問題」

    次元の呪いについて - Qiita
    teddy-g
    teddy-g 2018/02/18
    次元の呪いという中二病っぽい頻出用語の真面目な説明
  • なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita

    なぜ自然言語処理にとって単語の分散表現は重要なのでしょうか? この記事をご覧になっている方は Word2vec(Mikolov et al., 2013) についてご存知かもしれません。Word2vec ではまるで単語の意味を捉えられているかのような演算を行うことができます。例えば King から Man を引き Woman を足すと Queen が得られる(King - Man + Woman = Queen)というのは有名な例です。 from https://www.tensorflow.org/get_started/embedding_viz 実はその内部では、単語を分散表現(あるいは埋め込み表現)と呼ばれる200次元ほどのベクトルで表現してベクトルの足し引きを行っています。この200次元ほどのベクトル内部に各単語の特徴が格納されていると考えられています。そのため、ベクトルの足し引

    なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita
    teddy-g
    teddy-g 2018/01/02
    単語の分散表現について。課題は類似性と関連性、及び曖昧性の考慮がなされていないこと。
  • Plotly

    plotly.js abstracts the types of statistical and scientific charts that you would find in packages like matplotlib, ggplot2, or MATLAB. d3.json('https://plotly.com/~DanielCarrera/13.json', function(figure){ var trace = { x: figure.data[0].x, y: figure.data[0].y, z: figure.data[0].z, type: 'contour', autocolorscale: false, colorscale: [[0,"rgb( 0, 0, 0)"],[0.3,"rgb(230, 0, 0)"],[0.6,"rgb(255,210, 0

    Plotly
    teddy-g
    teddy-g 2017/10/15
    ブラウザで各種グラフ表示をするJSライブラリ。仕事で知る必要あって調べたんだが、個人的にもちょっと使ってみたい。
  • 情報量 | 情報エントロピー(平均情報量)の求め方とその取りうる値域の証明

    2021.03.30 情報量は「場合の数」の比を対数化したものである(情報の分野で、対数底として 2 を用いる)。例えば、コドンを一つ想定したとき、単にコドンと言われると、その取りうる場合の数は 4×4×4 = 64 通りとなる。次に、「コドンの 1 番目の塩基は T です。」という情報が得られたとする。この情報を知った後、コドンの取りうる場合の数は 1×4×4 = 16 通りになる。「コドンの 1 番目の塩基は T です。」という情報を知る前は 64 通り、知った後は 16 通りになる。このとき、「コドンの 1 番目の塩基は T です。」という情報の情報量は log(64/16) = 2 のように計算される。このように、情報量はある情報を「知る前の場合の数」と「知った後の場合の数」の比を対数化したもので定義される。 \[ p = \log\frac{\text{事前の場合の数}}{\te

    teddy-g
    teddy-g 2017/08/30
    パケットのビットのエントロピーを計算したくて調べた。256ビットだとエントロピーはMAX256になるということでいいのかしら。
  • Convolutional Neural Networkとは何なのか - Qiita

    機械学習の世界において、画像といえばConvolutional Neural Network(以下CNN)というのは、うどんといえば香川くらい当たり前のこととして認識されています。しかし、そのCNNとは何なのか、という解説は意外と少なかったりします。 そこで、記事ではCNNについてその仕組みとメリットの解説を行っていきたいと思います。 なお、参考文献にも記載の通り解説の内容はStanfordのCNNの講座をベースにしています。こちらの講座はNeural NetworkからCNN、はてはTensorflowによる実装まで解説される予定なので、興味がある方はそちらもご参照ください。 CNNはその名の通り通常のNeural NetworkにConvolutionを追加したものです。ここでは、Convolution、畳み込みとは一体なんなのか、という点と、なぜそれが画像認識に有効なのかについて説

    Convolutional Neural Networkとは何なのか - Qiita
    teddy-g
    teddy-g 2017/05/29
    CNNについて簡潔に説明してある。備忘。
  • The Defense Chain

    teddy-g
    teddy-g 2017/04/10
    Threat HuntingではKill Chainの各PhaseをDefense Chainで捕まえるべし。David BIaoncoのブログだけどたぶんNSAは皆こんな考え方してる。
  • GitHub - scikit-tda/kepler-mapper: Kepler Mapper: A flexible Python implementation of the Mapper algorithm.

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - scikit-tda/kepler-mapper: Kepler Mapper: A flexible Python implementation of the Mapper algorithm.
    teddy-g
    teddy-g 2017/04/03
    Pythonで作られたTDA、ってかMapper。ちょっと使ってみたいなー
  • Difference between Topological Data Analysis and Graph Technology

    teddy-g
    teddy-g 2017/03/31
    TDAと(Oracleの)グラフ技術の違いは何よ?って質問にGurjeetとAnthonyが回答してる。TDAは別空間に写像するからより汎用的という話。
  • Random Forestで計算できる特徴量の重要度 - なにメモ

    (pixabay.comより) 1.背景とか Random Forest[1]とは、ランダムさがもつ利点を活用し、大量に作った決定木を効率よく学習させるという機械学習手法の一種です。SVMなどの既存の手法に比べて、特徴量の重要度が学習とともに計算できること、学習が早いこと、過学習が起きにくいこと(追記注釈1)などの利点が挙げられます。Kinectの姿勢推定に使われているらしいです。 最近、Random Forestをカジュアルに使う例が多く(特にうちの研究室)、一部パラメータやら出力やらがわからない人も多いと思います。使い方はTJOさんの資料[2]を読んでもらえれば理解できると思うし、詳細は波部先生の資料[3]をよんでもらえればわかると思います。 それで、いろいろな日語の資料をいくら読んでも、Random Forestがもつ特徴の1つである、特徴量の重要度の詳細に関してはほとんどノータッ

    Random Forestで計算できる特徴量の重要度 - なにメモ
    teddy-g
    teddy-g 2017/03/26
    Random Forestの「寄与率」についてのざっくりとした説明。出来上がった森の内容を直接見るのではなく、森を使ってvalidationする感じ。
  • 判別分析(マハラノビス)

    トップページ→研究分野と周辺→システムの評価→ 例えば二次元で考えると、x軸y軸平面に多数の点が散らばり、これが幾つかのグループに分かれているとする。判別分析では、新たな点が与えられたとき、どのグループに属するかを判別する。 判別分析には、幾つかの方法があり、「サポートベクターマシン(SVM)」のように区分する線を引く方法もある。 ここでは、マハラノビス距離を用いた判別分析について述べる。 マハラノビス距離 最も一般的に使われる距離はユークリッド距離である。一次元(例えばx軸上)では、x座標の差がそのまま距離となる。 例えば二つのグループがあるとき、新たな点が与えられてどちらのグループに属するかを判別する際、新たな点のx座標と双方のグループの中心とのユークリッド距離を測り、短い方に属すると考える事も出来る。 しかし、この方法では、以下のような場合に問題となる。 青い点と赤い点の二つのグルー

    teddy-g
    teddy-g 2017/01/11
    [unsupervisedlearning]マハラノビス距離に関し、2変数の場合が丁寧に説明してある。
  • 尤度の解説

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年10月時点の調査。

    teddy-g
    teddy-g 2017/01/03
    ある観測データの下での仮説の確からしさが尤度。H0とH1の尤度の比がロッド値で、どっちが確からしいかを見るのに使う。
  • 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset - MachineLearningMastery.com

    Has this happened to you? You are working on your dataset. You create a classification model and get 90% accuracy immediately. “Fantastic” you think. You dive a little deeper and discover that 90% of the data belongs to one class. Damn! This is an example of an imbalanced dataset and the frustrating results it can cause. In this post you will discover the tactics that you can use to deliver great

    8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset - MachineLearningMastery.com
    teddy-g
    teddy-g 2017/01/03
    不均衡データを機械学習で取り扱う時の実践手法について。データを増やす、評価を変える、サンプリングを変える、モデルを変える、等典型的なパターンの纏め。