mahler-5のブックマーク - はてなブックマーク

mahler-5 id:mahler-5

mahler-5のブックマーク (14,409)

Practical Data Science with R and Python: 実践的データサイエンス
実践的データサイエンスはじめにデータ分析のためにコンピュータを利用する際、RおよびPython言語のいずれかを使うことが多いと思います(Julia言語は高レベル・高パフォーマンスな技術計算のための言語で今後期待が膨らみます）。これらの2つの言語では、データ操作や可視化、データ分析、モデリングに使われるライブラリが豊富にあり、どれを使うのが良いのか迷うような状況が続いていました。しかしその状態は落ち着きを見せ、成熟期を迎えつつあります。 R言語ではパイプ演算子の登場によりデータフレームに対する操作に大きな変化が生じ、tidyverseによるデータ読み込みからデータ整形、可視化までが可能になりました。またtidyverseのような、機械や人間の双方が扱いやすいパッケージが増えてきました。特にR言語の強力な一面でもあったデータ分析の操作はtidymodelsに代表されるパッケージがユーザの
mahler-5 2021/02/09
python

R

機械学習

まとめ
リンク
Google Colabで統計的因果探索手法LiNGAMを動かしてみた｜Dentsu Digital Tech Blog
電通デジタルでデータサイエンティストをしている中嶋です。前回の記事は「Airflow 2.0でDAG定義をよりシンプルに！TaskFlow APIの紹介」でした。 Advent Calendar 10日目となる本記事では因果探索の一手法であるLiNGAM(Linear Non-Gaussian Acyclic Model)の解説及び、Google Colabでの分析例について紹介します。因果探索とは最近のトレンド最近、広告配信やマーケティング分析の文脈で施策の効果を適切に評価する手法として実験計画法や因果推論が注目を浴びています。産業界でも株式会社ソニーコンピュータサイエンス研究所、クウジット株式会社、株式会社電通国際情報サービスの三社が提供するCALCという要因分析ツールや、最近はNECの因果分析ソリューション causal analysisも出ていたりと盛り上がりを見せています。
mahler-5 2021/02/09
因果推論

python

あとで読む
リンク
潜在的意味インデキシング（LSI）徹底入門
LSI については「特異値分解とLSIの意味」でも触れたことがありますが、この時はまだ理解不足だったので改めて解説したいと思います。 LSI (Latent Semantic Indexing) 1は検索などに用いられる次元圧縮手法です。例えば、「車で行く」と「自動車で行く」は意味として全く同じですが、単語そのものを見ると「車」と「自動車」が異なるため違う文として扱われてしまい、「車」で検索しても「自動車で行く」という文がヒットしません。しかし、「車」も「自動車」も同じ意味なので同じ文として扱われるようにしたいですよね。これを実現する手法の1つが LSI です。ベクトル空間モデル LSI では Bag of Words によるベクトル空間モデルが使用されます。要は単語の出現順を考慮せず、単語の出現頻度などによって文書をベクトルで表現するモデルです。例えば次の4つの文書があったと
mahler-5 2021/02/09
自然言語処理

R

LSA

*あとで読む
リンク
BERT（Keras BERT）を使用した文章分類を学習から予測まで紹介！ | cloud.config Tech Blog
概要絶賛フロントエンド勉強中の井上です。今回は自然言語処理界隈で有名なBERTを用いた文書分類（カテゴリー分類）について学習（ファインチューニング）から予測までを紹介したいと思います。本記事では実装ベースでお話しするので、「そもそもBERTって何？」という方は検索するか、参考URLを載せておくのでそこから飛んでいただけると助かります。目次事前準備学習評価予測参考文献事前準備 Google Colaboratory 学習は膨大な計算量が必要なので、Google Colaboratoryを使用します https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja 無料でTPU（Tensor Processing Unit）が使えるのでお得！ googleさんありがとうございます TPUはIntelのHaswellと
mahler-5 2021/02/09
BERT

python

自然言語処理

あとで読む
リンク
Rでデータクレンジング | ブログ一覧 | DATUM STUDIO株式会社
読み込み何はともあれ読み込まないと始まらなりません。ダーティーデータ相手なら、汎用性が高く読み込み速度もそこそこなread_csv()がおすすめです。col_typesは列数が少ない場合、全列characterが無難です。 #### あたりをつけるために、頭5行だけを読み込み。 test_read <- read_csv("https://datumstudio.jp/wp-content/uploads/2017/09/170912_data_cleansing.csv", col_types = cols(.default = "c"), # 全列character # na = c("", "NA"), # ""と"NA"をNAに置換されたくない場合はここを弄ります # trim_ws = TRUE, # 要素末尾の半角スペースを削除されたくない場合はここをFALSEにします n_
mahler-5 2021/02/03
前処理

R

まとめ
リンク
NLPリソース - LANGUAGE MEDIA PROCESSING LAB
データ・コーパス † 京都大学テキストコーパス京都大学ウェブ文書リードコーパス京都大学格フレーム京都大学名詞格フレーム BERT日本語Pretrainedモデル基本料理知識ベース Textual Entailment 評価データ日英中基本文データ述部意味関係コーパス Asian Scientific Paper Excerpt Corpus (ASPEC) Workshop on Asian Translation (WAT) Chinese Penn Treebank 5.0 Reannotation Chinese Character-level POS Annotation A Chinese Treebank in Scientific Domain (SCTB) Kyoto University & JST Trilingual Technical Term Dict
mahler-5 2021/02/03
BEAT

python
リンク
ツイートを取得してクレンジングするPythonパッケージ「Tweetl」 - deepblue
はじめにこの記事では弊社で開発したTwitterのTweetsを取得して自動でクレンジング（テキストからURLを削除・リツイートの除外など）を行うパッケージを紹介します。先日弊社ではPythonのパッケージの作成にチャレンジして、pip installできるようにするための公開方法の手順を紹介しました。（参考：【PyPI】自作のPythonパッケージを公開する）今回はその際に作成したTwitterのAPIを使ってTweetsを取得するライブラリを実際に使用してみたいと思います。「Tweetl」の主な機能ユーザーIDと任意のキーワードでツイートを取得テキストのクレンジング(前処理) ハッシュタグ、URL、画像、絵文字、メンション、RTを削除文字の統一（大文字から小文字、半角から全角）重複ツイートの削除（RTの可能性があるため）インストールとAPIキーの設定 PyPIに公開済
mahler-5 2021/02/02
twitter

python

正規表現

前処理
リンク
収集したTwitterの対話データの前処理をする。 - どん底から這い上がるまでの記録
以前書いた記事でTwitterの対話データを集める方法を紹介しました。 www.pytry3g.com 紹介した方法を使えば膨大な数の対話データが簡単に手に入るというメリットがありますが、一方でTwitter特有の単語が多く含まれていてデータとして使えないなどのデメリットもあります。今回はその収集したデータに前処理をかけて、データとして使えるものとそうでないものに分けたいと思います。関連リンク正規表現を使う URL URLを含まないテキスト URL(https)を含むテキスト URL(http)を含むテキスト使用例おまけハッシュタグサンプル１サンプル２サンプル３ - 顔文字ユーザ名サンプル１サンプル２サンプル３ - 顔文字サンプル４ - 顔文字サンプル５ - 顔文字 replaceを使う。ソースコードおわりに関連リンク 6.2. re — 正規表現操作
mahler-5 2021/02/02
python

webスクレイピング

正規表現

前処理

twitter
リンク
RStanで『予測にいかす統計モデリングの基本』の売上データの分析をする - StatModeling Memorandum
12/22(日)にBUGS/Stan勉強会#2がドリコム株式会社にて催されました。そこで2つ発表をしました。そのうちの1つ「『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた」に関する詳細＆補足＆苦労話をここで書きたいと思います。RStanというパッケージでRからStanというMCMCサンプリングソフトを使っています。最初に発表内容のスライドは以下になります。ざっと見るにはこれで十分です。『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた from . . 以降ではスライドごとに簡単に補足していきます。予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書) 作者:樋口知之発売日: 2011/04/07メディア: 単行本（ソフトカバー）まずは元となった書籍の紹介です。時系列解析の第一人者による分かりやすく丁寧に
mahler-5 2021/01/31
rstan

Stan

状態空間モデル

MCMC

R
リンク
検索量を用いた状態空間モデルによる売上予測 - sigma
この記事はStan Advent Calendar 2018 qiita.com の23日目の記事です。本記事では状態空間モデルを用いた時系列予測について実データでの分析例を紹介します。 2015年度人工知能学会全国大会（第29回）での論文、状態空間モデルを用いた検索トレンドとページビューからの自動車販売台数の予測, 角田孝昭, 吉田光男, 津川翔, 山本幹雄 www.jstage.jst.go.jp と同内容の状態空間モデルによる予測をStanを用いて行ってみました。この論文では、自動車の販売台数の月次データの予測を状態空間モデルを用いて行っていて、説明変数として絵googleの検索量を用いることで予測が改善するかどうかを調べています。使用データについて今回使用したデータは論文と同様に日本自動車販売協会連合会自販連のホームページからとってきた車種ごとの月次販売台数データ
mahler-5 2021/01/31
Stan

rstan

状態空間モデル

R
リンク
brmsを使ってみる - まずは蝋の翼から。
brmsというStanのラッパーパッケージで遊ぶ。概要例えば、rstanを使う場合はStanコードを別ファイルの.stanに記述してそれを呼び出す形でbayes推定をおこなう。一方、brmsを用いるとStanコードをわざわざ書かなくてもbrmsパッケージの関数を用いればbayes推定ができる。正確には、関数を介して内部的にStanコードを走らせているらしい。そのため、brmsを用いて書いたbayes modelが内部的に持っているStanコードはどうなっているか知りたい場合はそのコードを出力することも可能。また、指定するための事前分布が豊富に存在するので、例えばStanで記述するのが面倒なゼロ過剰ポアソン分布なども簡単に使えるらしい。ちなみに、brmsははBayesian Regression Models using Stanの略。今回、brmsの練習のために「StanとRでベ
mahler-5 2021/01/31
brms

R

MCMC
リンク
pandasで複数条件のAND, OR, NOTから行を抽出（選択） | note.nkmk.me
pandasで複数の条件のAND, OR, NOTからpandas.DataFrameの行を抽出する方法を説明する。注意点は二つ。 &、|、~を使う（and、or、notだとエラー）比較演算子を使うときは条件ごとに括弧で囲む（括弧がないとエラー）なお、ここではブーリアンインデックス（Boolean indexing）を用いた方法を説明するが、query()メソッドを使うとより簡潔に書ける。関連記事: pandas.DataFrameの行を条件で抽出するquery 本記事のサンプルコードのpandasのバージョンは以下の通り。以下のpandas.DataFrameを例として使う。 sample_pandas_normal.csv import pandas as pd print(pd.__version__) # 2.0.3 df = pd.read_csv('data/src/s
mahler-5 2021/01/31
正規表現

python

pandas
リンク
RPubs - MMM Training VIII 動学的市場反応モデル(2)
- 1 user
- rpubs.com
- 学び
mahler-5 2021/01/22
状態空間モデル

R

kfas

MMM
リンク
トピックモデル入門：WikipediaをLDAモデル化してみた - GMOインターネットグループグループ研究開発本部
こんにちは。次世代システム研究室のJK（男）です。これまではDeep Learning系の話をしてきましたが、今回はちょっと目線を変えてトピックモデルの話をしたいと思います。トピックモデルはちょっと前に話題になったモデルで、取得した結果がわかりやすいというところが魅力的かなーと思います。今回の内容は、(1) トピックモデルと(2) LDAについて簡単に説明したあと、(3) python libraryのgensimを用いてWikipediaの文章についてLDAでモデル化します。(4) 最後に得られた結果を考察します。 1. トピックモデルとはトピックモデルとは、ざっくり言えばある文章をトピックごとの成分に情報圧縮するモデルです。ちゃんと理解したい人は教科書(これとかこれ)を読むことをお薦めします。ただいきなり読むと挫折する可能性があるので、ここでは教科書への架け橋的な説明をしてみます（
mahler-5 2021/01/22
LDA

python

tf-idf
リンク
Agent Based Models and RNetLogo
mahler-5 2021/01/17
マルチエージェント

R

RNetLogo
リンク
はじめての自然言語処理 BERT を用いた自然言語処理における転移学習 | オブジェクトの広場
前回は Rasa NLU を用いて文章分類と固有表現抽出について紹介しました。今回は昨年後半に話題となった BERT について説明し、chABSAデータセットを用いた感情分析での実験結果、アプリケーションへの組み込み方などを紹介します。 1. 始めに本記事では Google の BERT について、その概要を紹介し、BERT の事前学習済みモデルを用いてファインチューニングにより独自のモデルを構築することを念頭に、BERT の入出力インタフェースや学習データの構造を説明します。そして、ファインチューニングにより独自のモデルを構築する例として、chABSA データセットを用いた感情分析モデル生成の実験結果およびアプリケーションから利用する際のポイントを紹介します。 2. BERTの概要 BERT (Bidirectional Encoder Representations from Tra
mahler-5 2021/01/17
TensorFlow

BERT

自然言語処理

python

形態素解析

NLP
リンク
8 回帰分析 | Rによる統計入門
8.1 概要回帰分析という統計手法は、独立変数（説明変数・予測変数）と従属変数（被説明変数・目的変数・応答変数）の関係を記述するのに使われます。回帰分析を使うことで、目的変数と関連のある説明変数を特定したり、変数間の関係式を記述したり、説明変数から目的変数を予測したりすることができます。
mahler-5 2021/01/15
MMM

時系列解析

R
リンク
機械学習を応用して広告効果を正しく測定する
プラットフォームの概要 AI Platform 生成 AIおよび予測 AIのプラットフォームもっと詳しくドキュメント新機能ログイン無料で始める運用自信を持ってAIを拡張し、比類のないエンタープライズ・モニタリングとコントロールでビジネス価値を促進デプロイと実行再学習と最適化監視と介入ガバナンス AIの環境、チーム、およびワークフローを統合し、大規模な範囲での完全な可視性と監視を実現レジストリと管理監査と承認コンプライアンスドキュメント生成構築ニーズの進化に合わせて自由に適応できるオープンなAIエコシステムで、迅速なイノベーションを実現分析と変換学習とチューニング組立てと比較プラットフォーム統合インフラストラクチャーへのデプロイソリューション業界ごとヘルスケア製造小売業金融サービス成果ごとユースケースのライブラリーお客様事例 Dat
mahler-5 2021/01/15
MMM

因果推論
リンク
初心者の初心者による初心者のためのニューラルネットワーク#1〜理論：順伝播編〜 - Qiita
機械学習初心者でも、ニューラルネットワーク(neural network : NN)について理解しなければならない日がいつか来る。なので初心者代表の私が、ニューラルネットワークについて初心者なりに分かりにくいところなどを含め解釈したものをまとめてみました。加筆修正のコメント等あれば、遠慮なく教えてください。『3.1.ニューラルネットワークとは』『3.3. ニューラルネットワークによって何ができるのか』を少し軽く読んでから頭から読むとより分かりやすいかもしれません。 1. なぜ人はニューラルネットワークを学ぶのか今や日常生活の様々な場面に用いられている、機械学習のコアの部分だからです。（多分） 2. ニューラルネットワークの概念『ニューラルネットワークとは、人間の脳神経系のニューロンを数理モデル化したもののこと』だと初心者の初心者による初心者のための単純パーセプトロンでは述べられてい
mahler-5 2021/01/02
深層学習

ディープラーニング

ニューラルネットワー
リンク
機械学習の結果を解釈する方法まとめてみた | マサムネの部屋
機械学習の困りごとの一つとして、結果の解釈が難しい、という事があります。特徴量が結果に与える効果を評価する術が存在するので、結果の解釈が出来たりすることが多いです。記事では、以下の方法を紹介します。モデル毎に使える時と使えない時があるので注意1しましょう。 t値ジニ係数permutation importanceheat map 記事で使っているソースコードはgithub に置いてあります。 https://github.com/msamunetogetoge t値始めはt値を解説します。実務では回帰だけで事足りることが多いと思いますが、特徴量の効果を測る方法の一つに、t値があります。2 t値は、大きければ大きい程回帰係数に意味があると思うと良いです。定義を確認し、python 上で表示してみましょう。 t値の定義簡単の為に、単回帰分析の場合で考えましょう。 $$\begin{
mahler-5 2021/01/02
変数重要度

機械学習
リンク
前のページ 1 2 3 4 5 6 7 8 9 10 次のページ