mahler-5のブックマーク - はてなブックマーク

【Kaggle】tsfreshを使って多次元時系列データを特徴量エンジニアリングしてみた - Qiita

0. はじめに突然ですが、時系列データって扱いが難しいですよね。しかも、変数が増えるとますます心が折れそうになると思います。でも、「時系列データから特徴量さえ抽出してしまえば、あとは何とでもなる！」って人も多いのではないかと思います。今回はそのような方に向けて、tsfresh という多次元時系列データの特徴量エンジニアリングに役立ちそうなライブラリを紹介します。以下の記事を参考にさせて頂きました。 - 時系列データから自動で特徴抽出するライブラリ tsfresh - tsfreshで時系列データの統計的処理を簡単に 1. tsfreshのインストール僕は pip 経由でインストールしました。pip を新しめにしておかないと pip から install できなかったので、pip を upgrade しといて下さい。

mahler-5 2021/11/19

リンク

Python3チートシート(基本編) - Qiita

import os def function(): # インデントはPEP8(*)に従い、半角スペース4つ print('Hello world') (*)PEP8(Python Enhancement Proposal) https://www.python.org/dev/peps/pep-0008/ Indentation Use 4 spaces per indentation level. # 数値 num = 1 # 文字列 name = 'Tanaka' # リスト list = [1, 2, 3, 4, 5] # 明示的な型宣言 num: int = 1 name: str = 'Tanaka' # 型変換 old_num = '1' # String型 new_num = int(num) # integer型に変換してnew_numに代入

mahler-5 2021/09/16

リンク

Python クラスについて - Qiita

これで変数xにTestClassのインスタンスが代入されました。 ##メソッドクラスに関数を宣言する方法を説明します。クラス内の関数をメソッドと呼びます。メソッドの宣言は、クラス外と同じようにdefを使用して宣言します。クラス外で宣言した場合と異なる点は、第一引数にそのクラスのインスタンスを表すオブジェクトを受け取ります。そのオブジェクト名は、慣習で「self」という名称になっています。

mahler-5 2021/09/16

リンク

Pythonのselfとかinitを理解する - Qiita

class some_class: def __init__(self,something): self.something = something def some_function(self): print(self.something) クラス構造を用いる理由は、主に大規模なソフトウェアの構築の際の効率化にあるらしく、小規模なコードであれば普通に関数だけ書いていくやり方でも混乱は起きない模様。参考までにどのような場合でクラスの活用が有効かを調べたところ、こちらには、次のメリットの記載があり。・グローバル変数を無くし、すべての変数を何らかのスコープに属させる・処理を効率的に使い回す・一つの処理は一つの箇所に実装し、修正箇所を最小化する・関数実行中に、関数自身が再度呼び出される場合の対処クラスとインスタンスこちらの記事にもあるように、Pythonのクラス構造はインスタンスの生

mahler-5 2021/09/16

リンク

【日本語モデル付き】2021年に自然言語処理をする人にお勧めしたい事前学習済みモデル - Qiita

要点 T5（Text-To-Text Transfer Transf ormer、論文、日本語解説記事）の日本語モデル（事前学習済みモデル）を作り、公開しました。ご活用ください。 T5とは、様々な自然言語処理タスクの入出力がともにテキストになるよう問題形式を再定義することにより、一つの事前学習済みモデルを多様なタスク用に転移学習させることができる高い柔軟性を持ち、かつ、性能も優れている深層ニューラルネットワークです。転移学習の例: 文章分類、文章要約、質問応答、対話応答、機械翻訳、含意関係認識、文の類似度計算、文法的妥当性判定、タイトル生成、スタイル変換、誤字修正、検索結果のリランキングなど（固有表現抽出などのシーケンスラベリングの実施例はない？）日本語T5モデルはHugging Face Model Hubからダウンロードできます。ベンチマークとして、ある分類問題について、既存のmT

mahler-5 2021/04/26

リンク

エンジニア向けデザイン基礎（社内勉強会の資料） - Qiita

これは何私が所属している株式会社エイチームでは社内勉強会を自由に開ける制度があります。エンジニア向けにデザインの基礎をレクチャーする会を開いたのですがせっかくだったらオープンにしようと思い、投稿しました。今回の勉強会では「Webサービスを作る」レベルまでは踏み込めませんでしたが、ちょっとしたUIを作る際の手助けにはなれる気がしています。なお、勉強会用に書いた原稿なので書き言葉としてあまり適切でない箇所もあります。ご了承ください。また、この研修の次の年に行った研修も記事として投稿しています。設計の話はじめに：デザイン業務の内訳とよくある誤解デザイン業務の内訳まず最初に設計の考え方をレクチャーするのですが、その前に1つ。普段デザイナーが行っている業務について簡単に説明します。後の方で話す内容と繋がってくるので、ちょっと本筋から外れますが聞いてください。話を分かりやすく

mahler-5 2021/03/26

リンク

Rで共分散構造分析をする時の簡単なテンプレート - Qiita

追記共分散構造分析に関する新しい記事を書きました。この記事にも共分散構造分析をする際のテンプレートになる様なコードを書きました。実際に分析する際に使用していたコードを載っけたので、こちらの方が参考になるかもしれません。 Rで共分散構造分析をする際に参考になりそうな情報まとめ - Qiita 「実際に分析する際のコードの例」という項です。 Rで共分散構造分析をする時のマニュアルみたいなものが欲しかったので、簡単なテンプレートを作成してみました。分析に関する主なパラメータや、実行結果として表示される省略語の意味などもコメントしてあります。このままでも、スクリプトを順に実行して行けば、PoliticalDemocracyデータを共分散構造分析する事が出来ます。 # ===============================================================

mahler-5 2021/03/17

リンク

2019年末版形態素解析器の比較 - Qiita

形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。（SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では？と申し上げておきたいです） MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました（Janomeというものがありましたがmecab-python3の方が高速です）。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。辞書はIPA辞書が推奨されていますが、Un

mahler-5 2021/02/16

リンク

初心者の初心者による初心者のためのニューラルネットワーク#1〜理論：順伝播編〜 - Qiita

機械学習初心者でも、ニューラルネットワーク(neural network : NN)について理解しなければならない日がいつか来る。なので初心者代表の私が、ニューラルネットワークについて初心者なりに分かりにくいところなどを含め解釈したものをまとめてみました。加筆修正のコメント等あれば、遠慮なく教えてください。『3.1.ニューラルネットワークとは』『3.3. ニューラルネットワークによって何ができるのか』を少し軽く読んでから頭から読むとより分かりやすいかもしれません。 1. なぜ人はニューラルネットワークを学ぶのか今や日常生活の様々な場面に用いられている、機械学習のコアの部分だからです。（多分） 2. ニューラルネットワークの概念『ニューラルネットワークとは、人間の脳神経系のニューロンを数理モデル化したもののこと』だと初心者の初心者による初心者のための単純パーセプトロンでは述べられてい

mahler-5 2021/01/02

リンク

R - ShinyによるWebアプリケーション作成: shinydashboard編 - Qiita

はじめにシステムの稼働状況とかミドルウェアの統計情報とかを手っ取り早く可視化するためにRを使ってみようということで書き始めた連載企画です。 Rでは、集計結果をサクッとWebアプリケーションとして作成するためのShinyというステキなパッケージが提供されています。Shinyを使えば、Webアプリケーションの知識があまり無くても、割と簡単にWebアプリが作れて、きれいなWebページでRによる集計結果を表示させることができます。今回はshinydashboard編です。関連記事インフラ屋さんのためのR言語: 環境構築編オフラインでのR環境構築 on RHEL z/OSにRを導入してみたインフラ屋さんのためのR言語: プログラミング編 R Markdownによるレポート生成 R MarkdownのHTMLレポートをブラッシュアップ R - ShinyによるWebアプリケーション作成:

mahler-5 2020/11/09

Shiny
R

リンク

[R] 実データを時系列解析して結果を考察してみる - Qiita

Rで時系列データを時系列解析するモデルを推定し実測値と予測値を比較してみたら面白かったので、記事にしてみました。さらに予測の精度が悪かった箇所を考察してみました。(2018/6/2更新) 主な参考文献は、田中考文著「Rによる時系列分析入門」です。使用する時系列データは、経済産業省鉱工業指数集計結果より2008年1月から2016年12月までの酒類の総合原指数月次付加価値額生産(IIP)とします。 2017年の酒類のIPPは予測値と比較するために使用します。なんとなく目についたので酒類にしてみました。この時系列データを使って2017年の酒類のIIPを予測し、2017年の酒類のIPPを実測値として比較することで予測精度を確認してみます。ちなみに、使用する時系列データをプロットするとこんな感じ。データの増減に規則性があり予測しやすそうですが、このグラフだけでは確証が持てません。

mahler-5 2020/09/14

リンク

Rによるネットワーク分析をまとめました<ネットワークの指標編> - Qiita

はじめにネットワーク分析に興味を持ち、共立出版のRで学ぶデータサイエンスシリーズの「ネットワーク分析」を読みました。適用範囲は未知数ですが、なかなか面白いと思いました。２,3回に分けて内容を簡単にまとめたいと思います。初めはネットワークの構造やノードの特徴を表す指標についてです。 igraphとggraph、tidygraphパッケージを中心に使用していきます。こちらで掲載しているコードの詳細はgithubにあげています。ネットワーク分析についてネットワークとはネットワークとは頂点とそれらをつなぐ辺で構成された頂点との関係を表現するものです。例えば、頂点は人、辺を人々の繋がりであるとするとネットワークは組織内のコミュニケーション関係を表現するものになります。インターネットも、頂点はWebページ、辺はリンクであり、一種のネットワークであると言えます。また、グラフ理論にお

mahler-5 2020/08/16

リンク

PythonでDirectLiNGAM - Qiita

PythonでDirectLiNGAM(with bootstrapping) メモ＆備忘録目次 ◆はじめに ◆環境 ◆手順 ◆３変数編 --準備 --データ生成 --ブートストラップ --向きの確認 --DAGの確認 ◆７変数編 --準備 --データ生成 --ブートストラップ --向きの確認 --DAGの確認 ◆参照はじめに前回実装したlingamパッケージを用いて、シミュレーションデータを推定してみた。 PythonでLiNGAM https://qiita.com/kumalpha/it ems/f05bd031cf9daac464a0 環境 OS: Mojave (version; 10.14.6) Python: 3.7.6 JupyterLab: 1.2.6 手順準備データ生成ブートストラップ向きの確認 DAGの確認 3変数編準備 # DirectLiNGAM #

mahler-5 2020/08/03

リンク

統計的因果探索 LiNGAMの高速化 by using Python - Qiita

はじめにこの記事はLiNGAMの高速化を実装したものに加え、いくつかの拡張を行ったものです。概要統計的因果探索手法にLinear non-Gaussian Acyclic Model(LiNGAM)という手法があります。これは下記仮定の下で因果関係を推定することができます。（仮定については条件付きで緩和が進められている）未観測共通原因が存在しない有向非巡回モデルである各変数が連続変数である各変数の誤差項は非ガウス分布に従う各変数の関係は線形である因果関係は下記構造方程式の$\boldsymbol{B}$を推定することで実現します。 $$\boldsymbol{x} = \boldsymbol{B}\boldsymbol{x} + \boldsymbol{e}$$ $\boldsymbol{B}$はICA（独立成分分析）による混合行列を上記仮定を用いて一意に特定します。

mahler-5 2020/07/31

[

リンク

Causal ML パッケージと学ぶ Meta-Learner - Qiita

はじめに仕事関係で Uplift Modeling について調べていたら、CATE (Conditional Average Treatment Effect) にたどり着きました。 CATE は ATE (Average Treatment Effect) をある特徴量で条件付けたもので、ATE が"平均的な"処置効果を算出しているのに対し、効果は各属性 (特徴量) によって変わるはずであるという考えのもと、非均質性 (heterogeneity) を織り込んだ形での処置効果を算出しています。 $$ATE:=E[Y(1)-Y(0)]$$ $$CATE:=E[Y(1)-Y(0)|X=x]$$ ここで、$Y(1)$、$Y(0)$ は潜在的結果変数、$X=x$ はある特徴量となります。 CATE、すなわち個人やセグメントレベルでの処置効果を推定することができれば、処置効果がプラスの人にのみキ

mahler-5 2020/07/25

リンク

stepwiseとlasso回帰における変数選択を比較 - Qiita

> model.rg <- glm(Y.train~., data = X.train) > step.result<-step(model.rg) "略" > step.result Call: glm(formula = Y.train ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X13 + X18 + X20, data = X.train) Coefficients: (Intercept) X1 X2 X3 X4 X5 X6 2.87439 0.67332 -0.42552 0.29593 -0.90412 0.50839 0.64421 X7 X13 X18 X20 -0.03680 0.05682 0.02724 0.02971 Degrees of Freedom: 799 Total (i.e. Null); 789 Residual Nul

mahler-5 2020/07/08

リンク

潜在クラス分析についてまとめて、Rでお試し - Qiita

最近ある研究会で潜在クラス分析が多用されてました。潜在クラス分析の概要は理解していましたが、具体的な部分については理解していませんでした。今後仕事等で利用するような場面が出てきそうな気がするので、ここでまとめておきたいと思いました。潜在クラス分析の理論面の話とRによる実装を行っていきます。潜在クラスモデル潜在クラスモデルとは、調査された個体は、いずれかの潜在クラスに属すると考えるモデルである。ただし、どこか1つのクラスに決定してしまう(ハードクラスタリング)とみるのではなく、それぞれの潜在クラスに属する確率をもって表す(ソフトクラスタリング)ことになる。対象のクラスの構成割合を見たり、説明変数による条件付き確率を見ることで回答のクラスごとの差を比較することができる。個体$i$(=1,...,n)から発生したデータ$y_i$について考える。個体$i$は観測されていない$C$

mahler-5 2020/07/07

リンク

R言語 - tf-idfによる文書の特徴抽出 - Qiita

はじめに似たような文書がいくつかあって、それらの違いが何なのかを大まかに把握したいというシチュエーションはありませんか？例えば、とある製品の新機能を紹介した資料があって、昔と今のトレンドにどのような変化があるかを大まかに把握したい、というようなシチュエーションです。このような場合、文書の特徴を抽出する手法の一つである、tf-idf(Term Frequency - Inverse Document Frequency)を利用するとよいでしょう。 tf-idf は、文書中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用されます。tf-idf を簡単にご説明すると、単語が１つの文書中にどれだけ出現するか、それと、全文書の中で単語が出現する文書がどれだけあるかを計算しています。詳しい計算式は Web で調べてもらえればすぐに見つかると思います。この Tips では、tf-

mahler-5 2020/06/02

tf-idf

リンク

モダンなRによるテキスト解析 - Qiita

概要すぐに使えるKNBCコーパスを対象に、モダンなRの書き方でテキスト解析したときのメモです。TF-IDFや共起頻度（ネットワーク作成）、LDAやGloVeまでをパッケージで実行しました。 - 解析済みブログコーパス定義・設定最初に処理で利用するライブラリの読み込みや定数・関数の定義。 library(pacman) library(widyr) # 読み込むパッケージ SET_LOAD_PACKAGE <- c("tidyverse", "Rcpp", "chunked", "tidytext", "visNetwork", "textmineR", "Matrix", "topicmodels", "LDAvis", "text2vec") # コーパスファイルの設定 SET_CORPUS_FILE <- list( DOWNLOAD_URL = "http://nlp.ist.

mahler-5 2020/03/27

リンク

【Python】トピックモデル（LDA） - Qiita

トピックモデルとは？最近、自然言語処理の分野はディープラーニング一色ですが、古典的1な手法がまだ使われることもあります。その古典的な手法の一つにトピックモデルというものがあります。トピックモデルを簡単に説明すると、確率モデルの一種で、テキストデータ（例：ニュース記事、口コミ）のクラスタリングでよく使われるモデルです。クラスタリングといえばk平均法（k-means法）が有名ですが、トピックモデルはk平均法とは異なるモデル（アルゴリズム）です。具体的には、下記のように複数のクラスタに属することを許すのか、許さないかのかが違います。 k平均法データは一つのクラスタのみに属するトピックモデルデータは複数のクラスタに属する例えば、「テニスプレイヤーの大坂なおみ選手が日産自動車から『GT-R』というスポーツカーを寄贈された。」というニュースが先日ありました。大坂なおみ選手の観点から

mahler-5 2020/03/27

リンク

はてなブックマーク

タグ

ブックマーク / qiita.com (153)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス