タグ

ブックマーク / qiita.com (153)

  • 【Kaggle】tsfreshを使って多次元時系列データを特徴量エンジニアリングしてみた - Qiita

    0. はじめに 突然ですが、時系列データって扱いが難しいですよね。 しかも、変数が増えるとますます心が折れそうになると思います。 でも、「時系列データから特徴量さえ抽出してしまえば、あとは何とでもなる!」 って人も多いのではないかと思います。 今回はそのような方に向けて、tsfresh という多次元時系列データの特徴量エンジニアリングに役立ちそうなライブラリを紹介します。 以下の記事を参考にさせて頂きました。 - 時系列データから自動で特徴抽出するライブラリ tsfresh - tsfreshで時系列データの統計的処理を簡単に 1. tsfreshのインストール 僕は pip 経由でインストールしました。pip を新しめにしておかないと pip から install できなかったので、pip を upgrade しといて下さい。

    【Kaggle】tsfreshを使って多次元時系列データを特徴量エンジニアリングしてみた - Qiita
  • Python3チートシート(基本編) - Qiita

    import os def function(): # インデントはPEP8(*)に従い、半角スペース4つ print('Hello world') (*)PEP8(Python Enhancement Proposal) https://www.python.org/dev/peps/pep-0008/ Indentation Use 4 spaces per indentation level. # 数値 num = 1 # 文字列 name = 'Tanaka' # リスト list = [1, 2, 3, 4, 5] # 明示的な型宣言 num: int = 1 name: str = 'Tanaka' # 型変換 old_num = '1' # String型 new_num = int(num) # integer型に変換してnew_numに代入

    Python3チートシート(基本編) - Qiita
  • Python クラスについて - Qiita

    これで変数xにTestClassのインスタンスが代入されました。 ##メソッド クラスに関数を宣言する方法を説明します。クラス内の関数をメソッドと呼びます。 メソッドの宣言は、クラス外と同じようにdefを使用して宣言します。 クラス外で宣言した場合と異なる点は、第一引数にそのクラスのインスタンスを表すオブジェクトを受け取ります。 そのオブジェクト名は、慣習で「self」という名称になっています。

    Python クラスについて - Qiita
  • Pythonのselfとかinitを理解する - Qiita

    class some_class: def __init__(self,something): self.something = something def some_function(self): print(self.something) クラス構造を用いる理由は、主に大規模なソフトウェアの構築の際の効率化にあるらしく、小規模なコードであれば普通に関数だけ書いていくやり方でも混乱は起きない模様。参考までにどのような場合でクラスの活用が有効かを調べたところ、こちらには、次のメリットの記載があり。 ・グローバル変数を無くし、すべての変数を何らかのスコープに属させる ・処理を効率的に使い回す ・一つの処理は一つの箇所に実装し、修正箇所を最小化する ・関数実行中に、関数自身が再度呼び出される場合の対処 クラスとインスタンス こちらの記事にもあるように、Pythonのクラス構造はインスタンスの生

    Pythonのselfとかinitを理解する - Qiita
  • 【日本語モデル付き】2021年に自然言語処理をする人にお勧めしたい事前学習済みモデル - Qiita

    要点 T5(Text-To-Text Transfer Transformer、論文、日語解説記事)の日語モデル(事前学習済みモデル)を作り、公開しました。ご活用ください。 T5とは、様々な自然言語処理タスクの入出力がともにテキストになるよう問題形式を再定義することにより、一つの事前学習済みモデルを多様なタスク用に転移学習させることができる高い柔軟性を持ち、かつ、性能も優れている深層ニューラルネットワークです。 転移学習の例: 文章分類、文章要約、質問応答、対話応答、機械翻訳、含意関係認識、文の類似度計算、文法的妥当性判定、タイトル生成、スタイル変換、誤字修正、検索結果のリランキングなど(固有表現抽出などのシーケンスラベリングの実施例はない?) 日語T5モデルはHugging Face Model Hubからダウンロードできます。 ベンチマークとして、ある分類問題について、既存のmT

    【日本語モデル付き】2021年に自然言語処理をする人にお勧めしたい事前学習済みモデル - Qiita
  • エンジニア向け デザイン基礎(社内勉強会の資料) - Qiita

    これは何 私が所属している株式会社エイチームでは社内勉強会を自由に開ける制度があります。 エンジニア向けにデザインの基礎をレクチャーする会を開いたのですがせっかくだったらオープンにしようと思い、投稿しました。 今回の勉強会では「Webサービスを作る」レベルまでは踏み込めませんでしたが、ちょっとしたUIを作る際の手助けにはなれる気がしています。 なお、勉強会用に書いた原稿なので書き言葉としてあまり適切でない箇所もあります。 ご了承ください。 また、この研修の次の年に行った研修も記事として投稿しています。 設計の話 はじめに:デザイン業務の内訳とよくある誤解 デザイン業務の内訳 まず最初に設計の考え方をレクチャーするのですが、その前に1つ。 普段デザイナーが行っている業務について簡単に説明します。 後の方で話す内容と繋がってくるので、ちょっと筋から外れますが聞いてください。 話を分かりやすく

    エンジニア向け デザイン基礎(社内勉強会の資料) - Qiita
  • Rで共分散構造分析をする時の簡単なテンプレート - Qiita

    追記 共分散構造分析に関する新しい記事を書きました。この記事にも共分散構造分析をする際のテンプレートになる様なコードを書きました。実際に分析する際に使用していたコードを載っけたので、こちらの方が参考になるかもしれません。 Rで共分散構造分析をする際に参考になりそうな情報まとめ - Qiita 「実際に分析する際のコードの例」という項です。 Rで共分散構造分析をする時のマニュアルみたいなものが欲しかったので、簡単なテンプレートを作成してみました。 分析に関する主なパラメータや、実行結果として表示される省略語の意味などもコメントしてあります。 このままでも、スクリプトを順に実行して行けば、PoliticalDemocracyデータを共分散構造分析する事が出来ます。 # ===============================================================

    Rで共分散構造分析をする時の簡単なテンプレート - Qiita
  • 2019年末版 形態素解析器の比較 - Qiita

    形態素解析は日語処理の初歩であり、文を単語に分割したり、品詞や活用形、基形を分析するために行います。記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un

    2019年末版 形態素解析器の比較 - Qiita
  • 初心者の初心者による初心者のためのニューラルネットワーク#1〜理論:順伝播編〜 - Qiita

    機械学習初心者でも、ニューラルネットワーク(neural network : NN)について理解しなければならない日がいつか来る。なので初心者代表の私が、ニューラルネットワークについて初心者なりに分かりにくいところなどを含め解釈したものをまとめてみました。 加筆修正のコメント等あれば、遠慮なく教えてください。 『3.1.ニューラルネットワークとは』『3.3. ニューラルネットワークによって何ができるのか』を少し軽く読んでから頭から読むとより分かりやすいかもしれません。 1. なぜ人はニューラルネットワークを学ぶのか 今や日常生活の様々な場面に用いられている、機械学習のコアの部分だからです。(多分) 2. ニューラルネットワークの概念 『ニューラルネットワークとは、人間の脳神経系のニューロンを数理モデル化したもののこと』だと初心者の初心者による初心者のための単純パーセプトロンでは述べられてい

    初心者の初心者による初心者のためのニューラルネットワーク#1〜理論:順伝播編〜 - Qiita
  • R - ShinyによるWebアプリケーション作成: shinydashboard編 - Qiita

    はじめに システムの稼働状況とかミドルウェアの統計情報とかを手っ取り早く可視化するためにRを使ってみようということで書き始めた連載企画です。 Rでは、集計結果をサクッとWebアプリケーションとして作成するためのShinyというステキなパッケージが提供されています。Shinyを使えば、Webアプリケーションの知識があまり無くても、割と簡単にWebアプリが作れて、きれいなWebページでRによる集計結果を表示させることができます。 今回はshinydashboard編です。 関連記事 インフラ屋さんのためのR言語: 環境構築編 オフラインでのR環境構築 on RHEL z/OSにRを導入してみた インフラ屋さんのためのR言語: プログラミング編 R Markdownによるレポート生成 R MarkdownHTMLレポートをブラッシュアップ R - ShinyによるWebアプリケーション作成:

    R - ShinyによるWebアプリケーション作成: shinydashboard編 - Qiita
  • [R] 実データを時系列解析して結果を考察してみる - Qiita

    Rで時系列データを時系列解析する モデルを推定し実測値と予測値を比較してみたら面白かったので、記事にしてみました。 さらに予測の精度が悪かった箇所を考察してみました。(2018/6/2更新) 主な参考文献は、田中考文著「Rによる時系列分析入門」です。 使用する時系列データは、経済産業省 鉱工業指数 集計結果より2008年1月から2016年12月までの酒類の総合原指数月次付加価値額生産(IIP)とします。 2017年の酒類のIPPは予測値と比較するために使用します。 なんとなく目についたので酒類にしてみました。 この時系列データを使って2017年の酒類のIIPを予測し、2017年の酒類のIPPを実測値として比較することで予測精度を確認してみます。 ちなみに、使用する時系列データをプロットするとこんな感じ。 データの増減に規則性があり予測しやすそうですが、このグラフだけでは確証が持てません。

    [R] 実データを時系列解析して結果を考察してみる - Qiita
  • Rによるネットワーク分析をまとめました<ネットワークの指標編> - Qiita

    はじめに ネットワーク分析に興味を持ち、共立出版のRで学ぶデータサイエンスシリーズの「ネットワーク分析」を読みました。 適用範囲は未知数ですが、なかなか面白いと思いました。 2,3回に分けて内容を簡単にまとめたいと思います。 初めはネットワークの構造やノードの特徴を表す指標についてです。 igraphとggraph、tidygraphパッケージを中心に使用していきます。 こちらで掲載しているコードの詳細はgithubにあげています。 ネットワーク分析について ネットワークとは ネットワークとは頂点とそれらをつなぐ辺で構成された頂点との関係を表現するものです。 例えば、頂点は人、辺を人々の繋がりであるとするとネットワークは組織内のコミュニケーション関係を表現するものになります。 インターネットも、頂点はWebページ、辺はリンクであり、一種のネットワークであると言えます。 また、グラフ理論にお

    Rによるネットワーク分析をまとめました<ネットワークの指標編> - Qiita
  • PythonでDirectLiNGAM - Qiita

    PythonでDirectLiNGAM(with bootstrapping) メモ&備忘録 目次 ◆はじめに ◆環境 ◆手順 ◆3変数編 --準備 --データ生成 --ブートストラップ --向きの確認 --DAGの確認 ◆7変数編 --準備 --データ生成 --ブートストラップ --向きの確認 --DAGの確認 ◆参照 はじめに 前回実装したlingamパッケージを用いて、シミュレーションデータを推定してみた。 PythonでLiNGAM https://qiita.com/kumalpha/items/f05bd031cf9daac464a0 環境 OS: Mojave (version; 10.14.6) Python: 3.7.6 JupyterLab: 1.2.6 手順 準備 データ生成 ブートストラップ 向きの確認 DAGの確認 3変数編 準備 # DirectLiNGAM #

    PythonでDirectLiNGAM - Qiita
  • 統計的因果探索 LiNGAMの高速化 by using Python - Qiita

    はじめに この記事はLiNGAMの高速化を実装したものに加え、いくつかの拡張を行ったものです。 概要 統計的因果探索手法にLinear non-Gaussian Acyclic Model(LiNGAM)という手法があります。 これは下記仮定の下で因果関係を推定することができます。(仮定については条件付きで緩和が進められている) 未観測共通原因が存在しない 有向非巡回モデルである 各変数が連続変数である 各変数の誤差項は非ガウス分布に従う 各変数の関係は線形である 因果関係は下記構造方程式の$\boldsymbol{B}$を推定することで実現します。 $$\boldsymbol{x} = \boldsymbol{B}\boldsymbol{x} + \boldsymbol{e}$$ $\boldsymbol{B}$はICA(独立成分分析)による混合行列を上記仮定を用いて一意に特定します。

    統計的因果探索 LiNGAMの高速化 by using Python - Qiita
  • Causal ML パッケージと学ぶ Meta-Learner - Qiita

    はじめに 仕事関係で Uplift Modeling について調べていたら、CATE (Conditional Average Treatment Effect) にたどり着きました。 CATE は ATE (Average Treatment Effect) をある特徴量で条件付けたもので、ATE が"平均的な"処置効果を算出しているのに対し、効果は各属性 (特徴量) によって変わるはずであるという考えのもと、非均質性 (heterogeneity) を織り込んだ形での処置効果を算出しています。 $$ATE:=E[Y(1)-Y(0)]$$ $$CATE:=E[Y(1)-Y(0)|X=x]$$ ここで、$Y(1)$、$Y(0)$ は潜在的結果変数、$X=x$ はある特徴量となります。 CATE、すなわち個人やセグメントレベルでの処置効果を推定することができれば、処置効果がプラスの人にのみキ

    Causal ML パッケージと学ぶ Meta-Learner - Qiita
  • stepwiseとlasso回帰における変数選択を比較 - Qiita

    > model.rg <- glm(Y.train~., data = X.train) > step.result<-step(model.rg) "略" > step.result Call: glm(formula = Y.train ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X13 + X18 + X20, data = X.train) Coefficients: (Intercept) X1 X2 X3 X4 X5 X6 2.87439 0.67332 -0.42552 0.29593 -0.90412 0.50839 0.64421 X7 X13 X18 X20 -0.03680 0.05682 0.02724 0.02971 Degrees of Freedom: 799 Total (i.e. Null); 789 Residual Nul

    stepwiseとlasso回帰における変数選択を比較 - Qiita
  • 潜在クラス分析についてまとめて、Rでお試し - Qiita

    最近ある研究会で潜在クラス分析が多用されてました。 潜在クラス分析の概要は理解していましたが、具体的な部分については理解していませんでした。 今後仕事等で利用するような場面が出てきそうな気がするので、ここでまとめておきたいと思いました。 潜在クラス分析の理論面の話とRによる実装を行っていきます。 潜在クラスモデル 潜在クラスモデルとは、調査された個体は、いずれかの潜在クラスに属すると考えるモデルである。 ただし、どこか1つのクラスに決定してしまう(ハードクラスタリング)とみるのではなく、それぞれの潜在クラスに属する確率をもって表す(ソフトクラスタリング)ことになる。 対象のクラスの構成割合を見たり、説明変数による条件付き確率を見ることで回答のクラスごとの差を比較することができる。 個体$i$(=1,...,n)から発生したデータ$y_i$について考える。 個体$i$は観測されていない$C$

    潜在クラス分析についてまとめて、Rでお試し - Qiita
  • R言語 - tf-idfによる文書の特徴抽出 - Qiita

    はじめに 似たような文書がいくつかあって、それらの違いが何なのかを大まかに把握したいというシチュエーションはありませんか?例えば、とある製品の新機能を紹介した資料があって、昔と今のトレンドにどのような変化があるかを大まかに把握したい、というようなシチュエーションです。このような場合、文書の特徴を抽出する手法の一つである、tf-idf(Term Frequency - Inverse Document Frequency)を利用するとよいでしょう。 tf-idf は、文書中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用されます。tf-idf を簡単にご説明すると、単語が1つの文書中にどれだけ出現するか、それと、全文書の中で単語が出現する文書がどれだけあるかを計算しています。詳しい計算式は Web で調べてもらえればすぐに見つかると思います。この Tips では、tf-

    R言語 - tf-idfによる文書の特徴抽出 - Qiita
  • モダンなRによるテキスト解析 - Qiita

    概要 すぐに使えるKNBCコーパスを対象に、モダンなRの書き方でテキスト解析したときのメモです。TF-IDFや共起頻度(ネットワーク作成)、LDAやGloVeまでをパッケージで実行しました。 - 解析済みブログコーパス 定義・設定 最初に処理で利用するライブラリの読み込みや定数・関数の定義。 library(pacman) library(widyr) # 読み込むパッケージ SET_LOAD_PACKAGE <- c("tidyverse", "Rcpp", "chunked", "tidytext", "visNetwork", "textmineR", "Matrix", "topicmodels", "LDAvis", "text2vec") # コーパスファイルの設定 SET_CORPUS_FILE <- list( DOWNLOAD_URL = "http://nlp.ist.

    モダンなRによるテキスト解析 - Qiita
  • 【Python】トピックモデル(LDA) - Qiita

    トピックモデルとは? 最近、自然言語処理の分野はディープラーニング一色ですが、古典的1な手法がまだ使われることもあります。 その古典的な手法の一つにトピックモデルというものがあります。 トピックモデルを簡単に説明すると、確率モデルの一種で、テキストデータ(例:ニュース記事、口コミ)のクラスタリングでよく使われるモデルです。 クラスタリングといえばk平均法(k-means法)が有名ですが、トピックモデルはk平均法とは異なるモデル(アルゴリズム)です。 具体的には、下記のように複数のクラスタに属することを許すのか、許さないかのかが違います。 k平均法 データは一つのクラスタのみに属する トピックモデル データは複数のクラスタに属する 例えば、「テニスプレイヤーの大坂なおみ選手が日産自動車から『GT-R』というスポーツカーを寄贈された。」というニュースが先日ありました。 大坂なおみ選手の観点から

    【Python】トピックモデル(LDA) - Qiita