nhayatoのブックマーク / 2017年9月22日

not found

nhayato 2017/09/22

リンク

Linux DNS Suffix Configuration

nhayato 2017/09/22

リンク

急増!カフェイン中毒相次ぐ救急搬送いま何が - NHK クローズアップ現代全記録

私たちの周りには、カフェインが入った、さまざまな商品があふれています。コーヒーにお茶、そして眠気防止の錠剤、栄養ドリンク、そして、特に成長が著しいのがエナジードリンクです。一般的にはカフェインを多く含む飲料を指します。私たちが確認しただけでも、日本で４０種類以上が売られています。多いものでは、１缶でカフェイン１６０ミリグラムと、コーヒーおよそ２杯分の分量が入っているんです。田中：こうしたカフェインの過剰摂取による中毒の実態が初めて明らかになりました。７月、日本中毒学会が、全国３８の病院を対象に実態調査をしたところ、急性カフェイン中毒で救急搬送された患者が、５年間で１０１人いたことが分かりました。症状は吐き気や意識の低下、中には心肺停止状態で運ばれた人も。そのうち３人が亡くなっています。搬送された人の平均年齢は２５歳。圧倒的に若い世代が多いのが特徴です。さらに、こんなデータもあります。去年

nhayato 2017/09/22

リンク

フォントのインストール

gccとccの違い by 言霊 (06/09) Windows に OpenSSH をインストールする by くじら (03/21) Ubuntu サーバの設定　SSH ログファイルの確認 by nyu (10/19) Windows に OpenSSH をインストールする by 韓国スーパーコピーウブロ gショック (07/14) Ubuntu インストールしたらやること：Eclipseのインストールと日本語化 (Mars) by 師子乃 (03/11) Ubuntu インストールしたらやること：Eclipseのインストールと日本語化 (Luna) by 師子乃 (12/04) Ubuntu インストールしたらやること：時刻を同期するNTPサーバーを変更する by (07/14) Ubuntu インストールしたらやること：時刻を同期するNTPサーバーを変更する by doskouUE

nhayato 2017/09/22

“~/.local/share/fonts/”

リンク

フォッサマグナが境目になる物事の多さよ :: デイリーポータルZ

以前「なぜ『金ちゃんヌードル』は西日本でしか販売されていないのか」という記事を書いた。静岡や沖縄で定番のカップ麺・金ちゃんヌードルは、静岡を境に西日本でしか販売されていないという情報を元に、なぜ西日本でしか販売されていないのか、なぜ静岡が境目になっているのかなどを調べた。販売元の徳島製粉へのインタビューでその理由はわかったのだが、それとは別に「静岡県民は静岡のことを西日本だと思ってるんかい」というツッコミを多数いただいたのだ。そうか、静岡は西日本ではないのか。ん？だからといって東日本という感じもしないし、どっちだ？この疑問をきっかけに、さまざまな物事の境目がいったいどこにあるのか調べてみた。

nhayato 2017/09/22

リンク

相鉄・東急直通線向け新型車　10cm細いボディーに個性 - 日本経済新聞

2022年度下期開業を目指して新線建設工事が進む「相鉄・東急直通線」。相模鉄道（相鉄）は、東急東横線・目黒線を経由して渋谷・目黒方面と直通するこのルートを走る新型車両「20000系」を公表した。車体幅を、東急線のトンネルをくぐれるように2770mmに抑えた。相鉄沿線と都心を結ぶ新線は、この相鉄・東急直通線と、JR東海道貨物線・横須賀線などを経由する「相鉄・JR直通線」の2ルート。相鉄・JR直通

nhayato 2017/09/22

リンク

Python pandas 欠損値/外れ値/離散化の処理 - StatsFragments

データの前処理にはいくつかの工程がある。書籍「データ分析プロセス」には欠損など前処理に必要なデータ特性の考慮とその対処方法が詳しく記載されている。が、書籍のサンプルは R なので、Python でどうやればよいかよく分からない。同じことを pandas でやりたい。データ分析プロセス (シリーズ Useful R 2) 作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行本この商品を含むブログ (2件) を見るとはいえ、pandas 自身は統計的 / 機械学習的な前処理手法は持っていない。また Python には R と比べると統計的な前処理手法のパッケージは少なく、自分で実装しないと使えない方法も多い。ここではそういった方法は省略し、pandas でできる前処理 / 可視化を中心に書く。また、方法自体の説明は記載しないので、詳細

nhayato 2017/09/22

リンク

リピーターを増やす重要項目は何か、アンケートと相関係数で明らかにする方法 | 隣IT

なのですが…てんでダメ！ダメなんです！！何がダメかというと、そもそもこのアンケートの目的って何だったっけ？というのがすっぽ抜けているんですね。今回は、このアンケートの目的をもう一度考え直します。そして、その目的を達成するにはどの要素が重要なのかを相関係数という統計のテクニックを使って明らかにしていきたいと思います。あ、そんなに難しくないですから、最後までお付き合いしてもらえると嬉しいです。最終的にはエクセルでちょちょいですから。どうぞよろしくお願いいたします！ラーメン屋さんのアンケートの目的とはおさらいなのですが、今回行ったアンケートの結果はこちらでした。どのラーメンを食べたか、当店を知った認知経路は何か、という点に加えて、味や価格や接客などの各要素に対して5点満点で評価を頂いています。冒頭に紹介した記事でピボットテーブルを使って簡単に集計したり色々な切り口で見たり、とい

nhayato 2017/09/22

リンク

アンケートの相関係数と満足度の散布図により最重要改善項目を洗い出す | 隣IT

みなさん、こんにちは！この一連の記事を見ているラーメン屋さんがどれだけいるのか気になっているタカハシ(@ntakahashi0505)です。とあるラーメン屋さんがリピーターを増やしたいと考えています。そこでアンケートを実施して、相関係数というちょっとした統計的なテクニックを使って、「接客」と「味」が「来店意向」との関係性が強いことを発見しました。というのが、前回までのお話です。詳しくはこちらの記事をどうぞ。さて、この「接客」と「味」なのですが、どちらか一方しか改善できないとしたら、どちらを選びますか？看板娘にもっと接客を頑張ってもらうか、また別の良いスタッフを募集するか、はたまたこれまで大事に守ってきたスープのレシピを変えるのか…いずれにしてもお金も時間も限られていますから、全部が全部の対策をとることはできません。そんな時に使えるテクニックとして、相関係数と満足度から作る散布図

nhayato 2017/09/22

リンク

第14回　万能の散布図その2：散布図＝相関関係ではない。昨対比、予実比、満足度比較など、ビジネス情報の整理にも有用 | gihyo.jp

グラフ仕事人六道数人～陥りやすいデータ分析の誤りと効率的なグラフの利用方法第14回万能の散布図その2：散布図＝相関関係ではない。昨対比、予実比、満足度比較など、ビジネス情報の整理にも有用 ※本稿では『直感でわかるデータ分析』（⁠2015年9月30日、技術評論社刊）の一部内容を参考にし、データなどを転載しています。様也は数人の描いた散布図に目を奪われていた。店舗別売上利益率（棒グラフ）「いいですか、お父さん。ご覧のように散布図なら利益率と売上がともに高い店舗をひとめで見つけることができます。同様に、どちらも低い店舗も一目瞭然です」「た、確かにそうだ。こんな使い方があるなんて、知らなかった」縦軸を利益率、横軸を売上にすることによって、同時に両方の数値の大きいものと小さなものを把握できるようになっている。「ふーむ、これはいわば常識と思っていたのですが、そうでもないようですね。それ

nhayato 2017/09/22

リンク

スピアマン順位相関係数の計算 - Qiita

スピアママン順位相関係数とは２つ順位データに対して、相関を表す指標。詳しくは下記のURLに書いてあるので参考に。 Wiki:スピアマン順位相関係数朱鷺の杜Wiki:Spearman順位相関係数いくつか計算式がありますが今回は、こちらの計算式を使用します。また、作ったプログラムの答え合わせには、下記のURLにあるものを使用するといいと思います。順位相関係数は有名なので調べれば他のサンプルも拾えると思います。スピアマンの順位相関係数統計学入門計算プログラム def spearman(list_a, list_b): N = len(list_a) return 1 - ((6 * sum(map(lambda a, b: (a - b) ** 2, \ list_a, list_b) / float(N ** 3 - N) ) こんな感じで、簡単に計算ができます。引数のlis

nhayato 2017/09/22

リンク

無相関の検定―相関係数の有意性を検定する | ブログ | 統計WEB

※コラム「統計備忘録」の記事一覧はこちら※ 「幾つデータが必要か？　-　相関係数の有意性検定」をアップして以来、「相関係数の有意性検定」を調べている方のアクセスが増えているので、Excelを利用した検定の方法についても書いておきます。相関係数の有意性検定は、「母相関係数が 0 である」を帰無仮説としています。「母相関係数が 0 」ということは2つの変数が独立している、「無相関」ということです。このことから相関係数の有意性検定のことを「無相関の検定」と言います。計算の結果、P値が有意水準を下回れば、帰無仮説が棄却され、無相関では無いだろうということになります。検定方法はいたって簡単です。 1) correl関数を使って相関係数(r)を求める。 2) 相関係数(r)とサンプルサイズ(n)から、検定統計量(t)を求める。 3) tdist関数を使って P値を求める。次の例では、A,B、2

nhayato 2017/09/22

リンク

「相関係数」ってなんですか？ -意味と利点と欠点をわかりやすく- - Data Science by R and Python

「相関」って何．統計学を学んだことがあれば、誰もが一度は聞いたことがある「相関」という言葉。最近では、高校でも扱われる概念になったようですが、「相関」っていったい何でしょうか？教科書（という名のWikipedia）にはこういう風に書かれています。相関係数（そうかんけいすう、英: correlation coefficient）とは、2 つの確率変数の間の相関（類似性の度合い）を示す統計学的指標である。原則、単位は無く、−1 から 1 の間の実数値をとり、1 に近いときは2 つの確率変数には正の相関があるといい、−1 に近ければ負の相関があるという。0 に近いときはもとの確率変数の相関は弱い。因みに 1 もしくは −1 となる場合は 2 つの確率変数は線形従属の関係にある。ここでは、相関ではなく、相関係数という言葉を用いていますね。「相関」というのは、2つ以上のもとがあるときに、それら

nhayato 2017/09/22

リンク

相関係数の有意性を確かめる方法について -相関係数について1歩踏み込む- - Data Science by R and Python

相関係数とは？相関係数については、８月のエントリーを参照してもらうと良いかと思います。「相関係数」ってなんですか？ -意味と利点と欠点をわかりやすく- - Data Science by R and Python 簡単に説明しておくと、相関というのは「2つの変数の間に存在する、直線的関係」を指しています。相関係数というのは、その直線度合いを0~1の数字で表したものと言えます。ただし、値には大小関係しかありません（相関係数0.8は、相関係数0.4のときよりも2倍相関が強いという意味ではないので注意してください）。さて、データの分析・解析に関わらず、いくつかの変数があるデータでは、相関係数を計算して、変数の間に関係があるかをチェックするのが一般的です。前のエントリーにもあるようにこれは「直線的な関係」しか調べられないですし、色々と制約もあり、いちいち確認するのは面倒ですが、それでも使い勝

nhayato 2017/09/22

リンク

<4D6963726F736F667420576F7264202D2090B695A8939D8C768A77815191E68250825189F1918A8AD695AA90CD>

nhayato 2017/09/22

リンク

Microsoft Word - apstattext06.docx

1 ６章相関係数の検定と回帰分析この章では２つの量的なデータの関係を調べる検定手法を学びます。２つの量的なデータを表示するには散布図がよく用いられ、描画された点の散らばり方によって、相関係数が計算されました。この相関係数はピアソン（Pearson）の相関係数と呼ばれ、２つのデータの間の線形の（散布図では直線的な）関係を調べるものでした。しかし、一般に関係は線形なものとは限らず、非線形な（散布図では曲線的な）関係も多く見られます。我々はこのような関係も考える必要がありますが、このように非線形な、但し大小関係だけは考えた、相関係数にスピアマン（Spearman）の順位相関係数があります。これは２つの変数の大きさの順位を用いた相関係数です。我々はこれらの２つの相関係数を使って、相関の有無を調べることにします。 6.1 （Pearson の）相関係数ここでは Pe

nhayato 2017/09/22

リンク

Python Tips: Python でゼロパディングしたい

今回は Python でゼロパディングする方法をご紹介します。 int の場合 str の場合 1. int の場合整数型の場合は str 型の format() メソッドや % 演算子を使う方法が最もシンプルかと思います。 format() メソッド: number = 50 number_padded = '{0:04d}'.format(number) print(number_padded) # => '0050'

nhayato 2017/09/22

リンク

pandas.DataFrameのcopyメソッドはデフォルトでdeep copy - Qiita

結論はタイトルの通りです。公式ドキュメントにも書かれています。同僚が「pandasのassignメソッドは内部でデータフレームのコピーを作っているから、メモリ食ってしまって遅くて困っているんだよ」という話をしました。「Python/pandasのデータ処理で再帰代入撲滅委員会」を読み、統計のバッチ処理をメソッドチェーンを使ってきれいに書くことにハマっていました。ところが、実際のpandasのコードを見ると、 # コメントや他のメソッドは略 class DataFrame(NDFrame): def insert(self, loc, column, value, allow_duplicates=False): data = self.copy() # do all calculations first... results = {} for k, v in kwargs.it ems

nhayato 2017/09/22

リンク

Pandasを使ったデータ操作の基本 - ぴよぴよ.py

データ分析の会社に転職してから3ヶ月。最初の1ヶ月はPandasの扱いに本当に困ったので、昔メモしてたことを簡単にブログに記録しておく(o ･ω･)ﾉ【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型テストデータについて余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロードデータのサイズデータのカラム行列から必要な列(カラム)を取り出す条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す追記(2017/12/14) 行列から必要な行番号を指定してを取り出すグループ分けと集計新たな列を追加する固有値を追加する他の列を加工して新たな列を作る他の複数列を加工して新

nhayato 2017/09/22

リンク

カテゴリカルデータの相関係数 | Sunny side up!

この記事では，カテゴリカル・データの相関係数である，ポリコリック相関係数について書きます。カテゴリカルデータの相関係数心理尺度でデータを測定した場合、5件法や7件法によるリッカート法を使うことが多いと思います。リッカート法とは、ある質問について、当てはまる程度を１．まったく当てはまらない～５．非常に当てはまる、といった感じで5段階（場合によっては3段階や7段階など）で評定を求める方法です。このようなリッカート法を使ってデータを収集する場合、得られた値を「間隔尺度」として扱って分析することがほとんどです。これはもちろん、間隔尺度のほうが扱える分析法が圧倒的に多いので、便利だからです。しかし、心理学者の中でも、リッカート尺度は本来「順序尺度」なので、間隔尺度として扱うことに限界を感じている研究者も多いです。その理由としては、値に与えられているラベル（まったく当てはまらない、など）間

nhayato 2017/09/22

リンク

Python pandas データ選択処理をちょっと詳しく <中編> - StatsFragments

こちらの続き。上の記事では bool でのデータ選択について最後にしれっと書いて終わらせたのだが、一番よく使うところなので中編として補足。まず __getit em__ や ix の記法では、次のような指定によって行 / 列を選択することができた。 index, columns のラベルを直接指定しての選択 index, columns の番号(順序)を指定しての選択 index, columns に対応する bool のリストを指定しての選択ここでは上記の選択方法をベースとして、ユースケースごとに Index や Series のプロパティ / メソッドを使ってできるだけシンプルにデータ選択を行う方法をまとめる。補足一部の内容はこちらの記事ともかぶる。下の記事のほうが簡単な内容なので、必要な方はまずこちらを参照。簡単なデータ操作を Python pandas で行う - S

nhayato 2017/09/22

リンク

Python PandasのSeries、Dataframeの基本操作（１） - Qiita

二次元配列でこれを表現するとき、「ハチマン」「ユキノ」「ユイ」や「数学」「国語」「英語」といった文字の扱いに困る。Dataframeではこれをcolumnsやindexで表せる。しかし、この型はいろいろと厄介な仕様があり、私はのっけから躓いてしまった。これはpandas超初心者の私が自分用に作った、超初歩的なpandas操作マニュアルである。 pythonのバージョンは3.5.2（標準pythonではなく、Anacondan4.2.0を使っている） pandasのバージョンは0.18.1 コードはiPython5.1.0で実行している状況をイメージしている。 pandasを使う前の準備 pandasのインストール私はAnacondaで一括で入れた。（Anacondaはpython+よく使われるライブラリみたいなものである。NumpyやiPythonも入れられる）そのほかにも、pip

nhayato 2017/09/22

リンク

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.assign.html

nhayato 2017/09/22

リンク

Python DataFrame の行 or 列を元に行った演算結果を、DataFrameに列追加 or 行追加して格納する際に使えるメソッドいろいろ - Qiita

>>> >>> import pandas as pd >>> >>> data_dict = {'A':[100, 564, 347], 'B':[1200, 853, 139]} >>> df = pd.DataFrame(data_dict) >>> >>> print(type(df)) <class 'pandas.core.frame.DataFrame'> >>> >>> print(df) A B 0 100 1200 1 564 853 2 347 139 >>> >>> print(df['A']) 0 100 1 564 2 347 Name: A, dtype: int64 >>> >>> print(df['B']) 0 1200 1 853 2 139 Name: B, dtype: int64 >>> >>> df['A * B + 2*A'] = df['A

nhayato 2017/09/22

リンク

Python/pandasのデータ処理で再帰代入撲滅委員会

Help us understand the probl em. What is going on with this article?

nhayato 2017/09/22

リンク

Python Tips: リストから辞書を作成したい

Python でリストから辞書を作成する方法についてご紹介します。要素数 2 のタプルからなるリストの場合まずは元のリストが要素数 2 のタプルからできている場合です。この場合はそのまま dict() を使います。 # リストの要素がすでに2個組のタプルとなっている li1 = [("a", 3), ("b", 2), ("c", 5)] di1 = dict(li1) # => {'b': 2, 'c': 5, 'a': 3}

nhayato 2017/09/22

リンク

Ruby on Rails チュートリアル：実例を使ってRailsを学ぼう - Michael Hartl (マイケル・ハートル)

Ruby on Rails チュートリアルプロダクト開発の０→１を学ぼう Railsチュートリアルとは？

nhayato 2017/09/22

リンク

２変量の相関の検定 t検定統計学入門

有意水準α=0.05で設定し、自由度は10-2=8なので、t 分布表より2.306を得ます。そこで、相関係数を計算します。 rxy = sxy/√(sxsy) = (Σxy-x~y~)/√{(Σx2-nx~2)×(Σy2-ny~2)} = (7785600-855×908)/√{(7431900-8552)(8285200-9082)} = 7009260/√(6700875×7460736) = 0.9913 検定統計量T = 0.9913√(10-2)/√(1-0.99132) = 21.3 T＞k なので帰無仮説を棄却し、対立仮説を採用。つまり、有意水準α=0.05で２変量には相関関係があるといえます。

nhayato 2017/09/22

リンク

[Python] Pandas のデータフレームの他のデータフレームと特定列が一致しないものを抽出 - Qiita

df3 = df1[~df1['row1'].isin(df2['row2'])] こういうことをやりたいあるデータフレームdf1から、そのデータフレームのもつcolumn 'row1'と、比較対象データフレームdf2のもつcolumn 'row2'を比較し、 row2には存在しないrow1をもつ行をdf1から抽出したい。 SQLで書くとこうです。

nhayato 2017/09/22

リンク

Pandasにてdict -> DataFrame, MúmのSmilewound, 蚊取り線香 - at backyard

Pandasにて、dictionary objectからDataFrameを作る時完全に自分用メモ。 dictからDataFrameに変換したいとき、下記のやり方で実現できる。 df = pd.DataFrame.from_dict(my_dict,orient='index') だが、これだと、カラム名がない。当然、下記のような書き方はできない。 df = pd.DataFrame.from_dict(my_dict,orient='index',columns=['column1','column2']) そういう場合は少しだけ遠回りして、下記のような書き方でDataFrameを作成する。 df = pd.DataFrame(list(my_dict.it ems()),columns=['column1','column2']) 情報源はstack overflow stackov

nhayato 2017/09/22

リンク

ディープラーニングの応用のための具体的方針まとめ - HELLO CYBERNETICS

はじめに目標の設定と指標の決定目標の設定指標の決定評価指標に対する最低限の知識機械学習における知識（補足）ニューラルネットワークの学習最初に使うニューラルネットワーク時間的にも空間的にも独立である複数の特徴量を持つデータ空間の局所的な構造に意味のある多次元配列データ（例えば画像）時間的な変動に意味のあるデータ（例えば音声、自然言語）ニューラルネットワークの細かい設定ユニットの数と層の数正則化活性化関数ドロップアウトバッチ正規化学習の早期終了性能が出ない場合データの追加収集ニューラルネットの設定をいじる用いるニューラルネット自体を変更する新たなニューラルネットワークの考案コードを書くにあたってデータ成形結果を記録するコードフレームワークの利用フレームワークの選択 ChainerとPyTorch TensorFlow Keras 最後には

nhayato 2017/09/22

難しいとかコメントあるけど，（はてブでコメントされがちな）ウェブアプリケーション作るのも同様に難しいと思うし慣れの問題では......

リンク

Pandasを用いた基礎分析 - Platinum Data Blog by BrainPad

本記事は、当社オウンドメディア「Doors」に移転しました。約5秒後に自動的にリダイレクトします。こんにちは、アナリティクスサービス部の辻陽行です。今回は、データ分析を行う際のデータの前処理や集計を行う時に非常に役に立つ、PandasというPythonの便利なモジュールを紹介したいと思います。モジュールを紹介する前に、分析作業の流れとPandasがどのあたりに関与してくるかを先に説明しておきます。私たちの仕事は、さまざまなデータ分析をお客さまへ提供し、それを付加価値の核としているわけですが、行き当たりばったりでデータを分析していくのでは、到底価値のある結果を導きだすことはできません。大抵の場合、以下の手順に沿って分析を進めていくことになります。データ分析のフローヒアリング・仮説形成（お客さまからの）データ受領データの前処理・整形基礎集計仮説の修正・分析方針の再検

nhayato 2017/09/22

リンク

本能寺が変（字が）

天正十年六月二日、天下統一目前であった織田信長は、京都の本能寺において、家臣である明智光秀の謀反にあい、弑されてしまう。これを「本能寺の変」という。日本の義務教育で歴史の授業を受けた人ならだれでも知っているこの事件。舞台となった本能寺に実際に行ってみたところ、なんだかちょっと様子がおかしいのだ。本能寺の「能」が変なのである。