2018年1月8日のブックマーク (13件)

  • 決定係数が高ければOKは危ない!決定係数を正しく理解しよう | ADVA

    重回帰分析の結果を読み取る指標のひとつ「決定係数」。1に近いほど分析の精度が高いことを表します。しかし、決定係数だけに気を取られていると分析結果を読み違えてしまうことも。決定係数を正しく理解しましょう。 回帰分析の分析結果で一番気になるものの一つが決定係数ではないでしょうか。 決定係数とは、回帰分析によって求められた目的変数の予測値が、実際の目的変数の値とどのくらい一致しているかを表している指標です。 回帰分析には、y=ax+bという式で表すことができる単回帰分析と、説明変数が複数ある重回帰分析があります。まずは単回帰分析から見ていき、決定係数とは何か? を考えてみましょう。 単回帰分析における決定係数 単回帰分析ではy=ax+bの形で目的変数(y)の値を予測しますが、あくまで「予測値」のため実際の目的変数の値とは完全に一致しません。 そのため、何を説明変数(x)とするかによって、「予測が

    決定係数が高ければOKは危ない!決定係数を正しく理解しよう | ADVA
    kent-where-the-light-is
    kent-where-the-light-is 2018/01/08
    “目的や仮説とは一切関係ない変数を、決定係数が上がるからという理由だけで無秩序に分析に加えてしまうと、そのモデルは解釈が難しくなり当初の目的を果たせない”
  • Pythonの相関係数 - WHAT' CHA GONNA DO FOR ME?

    Pythonの相関係数の挙動が予想と違っていたので、忘れないようにメモ。 確認のため、コレスキー分解を用いて相関を持つ多変量正規乱数を発生させ、相関係数を計算させる。 相関係数の計算には、NumPyのcorrcoefか、pandasのデータフレームのcorr()が使えるが、以下のように挙動が異なっているため注意が必要。 NumPyのcorrcoefはデフォルトでは行間の相関係数を計算する。そのため、Rのcor関数と同じ出力を得るためには転置するか、rowvar=Falseをオプションとして指定する必要あり。 一方のpandasのデータフレームのcorr()メソッドは、列間の相関を計算するためRのcor関数と同じように使える。 共分散を計算させるのも同じような考慮が必要。 # -*- coding: utf-8 -*- import numpy as np import matplotlib

    Pythonの相関係数 - WHAT' CHA GONNA DO FOR ME?
    kent-where-the-light-is
    kent-where-the-light-is 2018/01/08
    “NumPyのcorrcoefは行間の相関を計算するため転置する必要あり。”
  • seabornを使ってデータを可視化する(pairplot) : 私的メモ

    引き続きseabornのグラフ描画です。 基モジュールを読み込みます。 import numpy as np import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt import seaborn as sns今回はirisデータセットを使用します。 iris = sns.load_dataset("iris",engine="python") pairplot datasetの項目毎の関連性をプロットします。 sns.pairplot(iris) hueを指定して項目分散もプロット可能です。 sns.pairplot(iris,hue="species") diag_kind="kde"とするとカーネル密度グラフに変更されます。 sns.pairplot(iris,hu

    seabornを使ってデータを可視化する(pairplot) : 私的メモ
  • pandas, seaborn による可視化メモ - Qiita

    データセットの可視化 iris.csvをサンプルのデータセットとして,pandas, seabornで可視化の練習をした際のメモ.あくまで自分用メモなので図の種類やカラムの選び方など恣意的な箇所があると思いますが,ご了承ください(..)_ データ: https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv ヒストグラムの描画 iris.csvは,4つのカラムと1つのカテゴリ値 sepal_length, sepal_width, petal_length, peta_width と species から成る. カテゴリ値であるspeciesの分類を念頭においた可視化をする. まずは1つのカラムについて,分布を確認する. ・sepal_lengthの分布 import pandas as pd im

    pandas, seaborn による可視化メモ - Qiita
    kent-where-the-light-is
    kent-where-the-light-is 2018/01/08
    “diag_kind="kde"とすると,対角線成分には,カーネル密度推定による密度関数を描画する.何も指定しないと単にヒストグラムが表示される.”
  • 10年間のプログラミングの変化といえばクラウド、型推論、リアクティブ - きしだのHatena

    この10年間のプログラミングの変化、というのが流れてきたのだけど、個人的にはクラウド、型推論付き静的型、リアクティブかなぁという風に思ってます。 クラウド(とスマホ) 2008年にGoogle App Engineが出たり、最初のHadoopサミットが行われたり、ちょうど10年前に始まったとも言えるクラウドは、すでに流行ではなく常識になっています。 いまや、クラウドを考えずにシステムを組むということはないんじゃないでしょうか。 スマホもこの10年で広まり、端末にUI、データはクラウドということも当たり前になっています。 40%の視聴率をもった紅白で視聴者が同時投票するようなことも、AWSを使って危なげなく行えるようになっていますが、10年前にこのようなサービスをたった4時間だけ行うということはなかなか考えにくいもので、実現できるのも限られたベンダーだけだったと思います。けれどもいまではそれ

    10年間のプログラミングの変化といえばクラウド、型推論、リアクティブ - きしだのHatena
    kent-where-the-light-is
    kent-where-the-light-is 2018/01/08
    “処理の高速化からリソースの効率利用に並列処理の視点が変わってきたのが、この10年の変化だと思います。”
  • Anbox - Android in a box

  • 【お勉強してみた】RANSACのおはなし - Qiita

    三行で 自然界のデータにはたくさんノイズがある ノイズがあると、法則性をうまく見つけられないことがある そんなノイズをうまく無視するのがRANSAC こんにちは。今日は大学院でやっているの情報学に関するネタをお送りします。 先日ふと、「そういえばちゃんと勉強したことがなかったなぁ」と思い立ったので、RANSACを勉強 & 実装してみました。 RANSACとは 大学院の研究で画像などの自然界のデータをとっていると、ノイズなどの原因で法則性から大きく外れて現れた「外れ値」がデータ中に含まれることがあります。外れ値は、データから法則性を見出す時に邪魔をします。そんな時に、外れ値をうまく無視して法則性(パラメータ)を推定をする手法がRANSACです。 ...なんて概念の話では分かりにくいので、具体例を見てみましょう。以下、法則性を「モデル」と読み替えます。 直線のモデル推定 与えられた点群から、そ

    【お勉強してみた】RANSACのおはなし - Qiita
    kent-where-the-light-is
    kent-where-the-light-is 2018/01/08
    “自然界のデータにはたくさんノイズがある ノイズがあると、法則性をうまく見つけられないことがある そんなノイズをうまく無視するのがRANSAC”
  • HashingVectorizer

    HashingVectorizer# class sklearn.feature_extraction.text.HashingVectorizer(*, input='content', encoding='utf-8', decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern='(?u)\\b\\w\\w+\\b', ngram_range=(1, 1), analyzer='word', n_features=1048576, binary=False, norm='l2', alternate_sign=True, dtype=<class 'numpy.float64'>)[source]

    kent-where-the-light-is
    kent-where-the-light-is 2018/01/08
    “This text vectorizer implementation uses the hashing trick to find the token string name to feature integer index mapping.”
  • Pythonのジェネレータのnextメソッドについて - Qiita

    def my_generator(): yield 1 yield 2 yield 3 gen = my_generator() gen.next() gen.next() gen.next() ・想定した結果 1 2 3 ・現実の結果 AttributeError: 'generator' object has no attribute 'next' ・環境 Python3.6 原因 AttributeErrorってまず何やねんってレベルなのでひとまず検索。 すると早速素晴らしい記事を発見。 [参考にさせて頂いた記事] Pythonエラー一覧(日語) こちらの記事によると Attribute系(AttributeError) AttributeError: 'X' object has no attribute 'Y' 'X'オブジェクト(Xにはstrやmoduleなどの型名が入ります

    Pythonのジェネレータのnextメソッドについて - Qiita
  • Pythonのnextメソッドの使い方

    今回は Python におけるイテレータと next() メソッドについて説明します。 イテレータとは イテレータは繰り返しを抽象化したもので、組み込みのリストなどのコレクションオブジェクトの要素を繰り返し参照するために使われます。例えば、for 文では内部的にイテレータを使って繰り返しを実現しています。 イテレータの基的な使い方 next()でリストの要素を順番に取り出す iter() 関数を使うと、引数に指定した組み込みのリスト等のコレクションに対して __iter()__ メソッドを適用し、イテレータオブジェクトを返します。

  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
    kent-where-the-light-is
    kent-where-the-light-is 2018/01/08
    “トップワードというのは自然言語処理する際に一般的で役に立たない等の理由で処理対象外とする単語のことです。たとえば、助詞や助動詞などの機能語(「は」「の」「です」「ます」など)が挙げられます。これらの単
  • 特徴抽出と TF-IDF - Qiita

    今日は TF-IDF についてざっくりとまとめます。 特徴量と特徴抽出 TF-IDF は情報検索や文書推薦などで幅広く利用される特徴量の指標です。 特徴量 - 対象の特徴を表現する値 特徴抽出 - 対象から特徴量を取り出す 日語の特徴抽出 英語の場合はホワイトスペースで分割してから記号などを取り除くだけで特徴抽出できます。 日語の場合は形態素解析または N-Gram などの索引文字列抽出方法を利用します。 索引語頻度 TF (Term Frequency) ある文書 d の中に出現する索引語 t の頻度です。文書中にその単語が何回現れたかをあらわします。 単語 回数

    特徴抽出と TF-IDF - Qiita
    kent-where-the-light-is
    kent-where-the-light-is 2018/01/08
    “TF / DF であらわします。 (IDF は DF の対数)”
  • tf-idf - Wikipedia

    情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量(数値)である[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリング(英語版)における重み係数(英語版)にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究