タグ

mahler-5のブックマーク (14,409)

  • Practical Data Science with R and Python: 実践的データサイエンス

    実践的データサイエンス はじめに データ分析のためにコンピュータを利用する際、RおよびPython言語のいずれかを使うことが多いと思います(Julia言語は高レベル・高パフォーマンスな技術計算のための言語で今後期待が膨らみます)。これらの2つの言語では、データ操作や可視化、データ分析、モデリングに使われるライブラリが豊富にあり、 どれを使うのが良いのか迷うような状況が続いていました。しかしその状態は落ち着きを見せ、成熟期を迎えつつあります。 R言語ではパイプ演算子の登場によりデータフレームに対する操作に大きな変化が生じ、tidyverseによるデータ読み込みからデータ整形、可視化までが可能になりました。またtidyverseのような、機械や人間の双方が扱いやすいパッケージが増えてきました。特にR言語の強力な一面でもあったデータ分析の操作はtidymodelsに代表されるパッケージがユーザの

  • Google Colabで統計的因果探索手法LiNGAMを動かしてみた|Dentsu Digital Tech Blog

    電通デジタルでデータサイエンティストをしている中嶋です。 前回の記事は「Airflow 2.0でDAG定義をよりシンプルに!TaskFlow APIの紹介」でした。 Advent Calendar 10日目となる記事では因果探索の一手法であるLiNGAM(Linear Non-Gaussian Acyclic Model)の解説及び、Google Colabでの分析例について紹介します。 因果探索とは最近のトレンド 最近、広告配信やマーケティング分析の文脈で施策の効果を適切に評価する手法として実験計画法や因果推論が注目を浴びています。産業界でも株式会社ソニーコンピュータサイエンス研究所、クウジット株式会社、株式会社電通国際情報サービスの三社が提供するCALCという要因分析ツールや、最近はNECの因果分析ソリューション causal analysisも出ていたりと盛り上がりを見せています。

    Google Colabで統計的因果探索手法LiNGAMを動かしてみた|Dentsu Digital Tech Blog
  • 潜在的意味インデキシング(LSI)徹底入門

    LSI については「特異値分解とLSIの意味」でも触れたことがありますが、この時はまだ理解不足だったので改めて解説したいと思います。 LSI (Latent Semantic Indexing) 1は検索などに用いられる次元圧縮手法です。 例えば、「車で行く」と「自動車で行く」は意味として全く同じですが、単語そのものを見ると「車」と「自動車」が異なるため違う文として扱われてしまい、「車」で検索しても「自動車で行く」という文がヒットしません。 しかし、「車」も「自動車」も同じ意味なので同じ文として扱われるようにしたいですよね。 これを実現する手法の1つが LSI です。 ベクトル空間モデル LSI では Bag of Words によるベクトル空間モデルが使用されます。 要は単語の出現順を考慮せず、単語の出現頻度などによって文書をベクトルで表現するモデルです。 例えば次の4つの文書があったと

    潜在的意味インデキシング(LSI)徹底入門
  • BERT(Keras BERT)を使用した文章分類を学習から予測まで紹介! | cloud.config Tech Blog

    概要 絶賛フロントエンド勉強中の井上です。今回は自然言語処理界隈で有名なBERTを用いた文書分類(カテゴリー分類)について学習(ファインチューニング)から予測までを紹介したいと思います。記事では実装ベースでお話しするので、「そもそもBERTって何?」という方は検索するか、参考URLを載せておくのでそこから飛んでいただけると助かります。 目次 事前準備 学習 評価 予測 参考文献 事前準備 Google Colaboratory 学習は膨大な計算量が必要なので、Google Colaboratoryを使用します https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja 無料でTPU(Tensor Processing Unit)が使えるのでお得! googleさんありがとうございます TPUはIntelのHaswellと

    BERT(Keras BERT)を使用した文章分類を学習から予測まで紹介! | cloud.config Tech Blog
  • Rでデータクレンジング | ブログ一覧 | DATUM STUDIO株式会社

    読み込み 何はともあれ読み込まないと始まらなりません。ダーティーデータ相手なら、汎用性が高く読み込み速度もそこそこなread_csv()がおすすめです。col_typesは列数が少ない場合、全列characterが無難です。 #### あたりをつけるために、頭5行だけを読み込み。 test_read <- read_csv("https://datumstudio.jp/wp-content/uploads/2017/09/170912_data_cleansing.csv", col_types = cols(.default = "c"), # 全列character # na = c("", "NA"), # ""と"NA"をNAに置換されたくない場合はここを弄ります # trim_ws = TRUE, # 要素末尾の半角スペースを削除されたくない場合はここをFALSEにします n_

    Rでデータクレンジング | ブログ一覧 | DATUM STUDIO株式会社
  • NLPリソース - LANGUAGE MEDIA PROCESSING LAB

    データ・コーパス † 京都大学テキストコーパス 京都大学ウェブ文書リードコーパス 京都大学格フレーム 京都大学名詞格フレーム BERT日語Pretrainedモデル 基料理知識ベース Textual Entailment 評価データ 日英中基文データ 述部意味関係コーパス Asian Scientific Paper Excerpt Corpus (ASPEC) Workshop on Asian Translation (WAT) Chinese Penn Treebank 5.0 Reannotation Chinese Character-level POS Annotation A Chinese Treebank in Scientific Domain (SCTB) Kyoto University & JST Trilingual Technical Term Dict

  • ツイートを取得してクレンジングするPythonパッケージ「Tweetl」 - deepblue

    はじめに この記事では弊社で開発したTwitterのTweetsを取得して自動でクレンジング(テキストからURLを削除・リツイートの除外など)を行うパッケージを紹介します。 先日弊社ではPythonのパッケージの作成にチャレンジして、pip installできるようにするための公開方法の手順を紹介しました。(参考:【PyPI】自作のPythonパッケージを公開する) 今回はその際に作成したTwitterAPIを使ってTweetsを取得するライブラリを実際に使用してみたいと思います。 「Tweetl」の主な機能 ユーザーIDと任意のキーワードでツイートを取得 テキストのクレンジング(前処理) ハッシュタグ、URL、画像、絵文字、メンション、RTを削除 文字の統一(大文字から小文字、半角から全角) 重複ツイートの削除(RTの可能性があるため) インストールとAPIキーの設定 PyPIに公開済

    ツイートを取得してクレンジングするPythonパッケージ「Tweetl」 - deepblue
  • 収集したTwitterの対話データの前処理をする。 - どん底から這い上がるまでの記録

    以前書いた記事でTwitterの対話データを集める方法を紹介しました。 www.pytry3g.com 紹介した方法を使えば膨大な数の対話データが簡単に手に入るというメリットがありますが、一方でTwitter特有の単語が多く含まれていてデータとして使えないなどのデメリットもあります。 今回はその収集したデータに前処理をかけて、データとして使えるものとそうでないものに分けたいと思います。 関連リンク 正規表現を使う URL URLを含まないテキスト URL(https)を含むテキスト URL(http)を含むテキスト 使用例 おまけ ハッシュタグ サンプル1 サンプル2 サンプル3 - 顔文字 ユーザ名 サンプル1 サンプル2 サンプル3 - 顔文字 サンプル4 - 顔文字 サンプル5 - 顔文字 replaceを使う。 ソースコード おわりに 関連リンク 6.2. re — 正規表現操作

    収集したTwitterの対話データの前処理をする。 - どん底から這い上がるまでの記録
  • RStanで『予測にいかす統計モデリングの基本』の売上データの分析をする - StatModeling Memorandum

    12/22(日)にBUGS/Stan勉強会#2がドリコム株式会社にて催されました。そこで2つ発表をしました。そのうちの1つ「『予測にいかす統計モデリングの基』の売上データの分析をトレースしてみた」に関する詳細&補足&苦労話をここで書きたいと思います。RStanというパッケージでRからStanというMCMCサンプリングソフトを使っています。 最初に発表内容のスライドは以下になります。ざっと見るにはこれで十分です。 『予測にいかす統計モデリングの基』の売上データの分析をトレースしてみた from . . 以降ではスライドごとに簡単に補足していきます。 予測にいかす統計モデリングの基―ベイズ統計入門から応用まで (KS理工学専門書) 作者:樋口 知之発売日: 2011/04/07メディア: 単行(ソフトカバー) まずは元となった書籍の紹介です。時系列解析の第一人者による分かりやすく丁寧に

    RStanで『予測にいかす統計モデリングの基本』の売上データの分析をする - StatModeling Memorandum
  • 検索量を用いた状態空間モデルによる売上予測 - sigma

    この記事はStan Advent Calendar 2018 qiita.com の23日目の記事です。記事では状態空間モデルを用いた時系列予測について実データでの分析例を紹介します。 2015年度人工知能学会全国大会(第29回)での論文、 状態空間モデルを用いた検索トレンドとページビューからの自動車販売台数の予測, 角田 孝昭, 吉田 光男, 津川 翔, 山 幹雄 www.jstage.jst.go.jp と同内容の状態空間モデルによる予測をStanを用いて行ってみました。この論文では、自動車の販売台数の月次データの予測を状態空間モデルを用いて行っていて、説明変数として絵googleの検索量を用いることで予測が改善するかどうかを調べています。 使用データについて 今回使用したデータは論文と同様に日自動車販売協会連合会 自販連のホームページ からとってきた車種ごとの月次販売台数データ

    検索量を用いた状態空間モデルによる売上予測 - sigma
  • brmsを使ってみる - まずは蝋の翼から。

    brmsというStanのラッパーパッケージで遊ぶ。 概要 例えば、rstanを使う場合はStanコードを別ファイルの.stanに記述してそれを呼び出す形でbayes推定をおこなう。一方、brmsを用いるとStanコードをわざわざ書かなくてもbrmsパッケージの関数を用いればbayes推定ができる。正確には、関数を介して内部的にStanコードを走らせているらしい。そのため、brmsを用いて書いたbayes modelが内部的に持っているStanコードはどうなっているか知りたい場合はそのコードを出力することも可能。 また、指定するための事前分布が豊富に存在するので、例えばStanで記述するのが面倒なゼロ過剰ポアソン分布なども簡単に使えるらしい。 ちなみに、brmsははBayesian Regression Models using Stanの略。 今回、brmsの練習のために「StanとRでベ

    brmsを使ってみる - まずは蝋の翼から。
  • pandasで複数条件のAND, OR, NOTから行を抽出(選択) | note.nkmk.me

    pandasで複数の条件のAND, OR, NOTからpandas.DataFrameの行を抽出する方法を説明する。 注意点は二つ。 &、|、~を使う(and、or、notだとエラー) 比較演算子を使うときは条件ごとに括弧で囲む(括弧がないとエラー) なお、ここではブーリアンインデックス(Boolean indexing)を用いた方法を説明するが、query()メソッドを使うとより簡潔に書ける。 関連記事: pandas.DataFrameの行を条件で抽出するquery 記事のサンプルコードのpandasのバージョンは以下の通り。以下のpandas.DataFrameを例として使う。 sample_pandas_normal.csv import pandas as pd print(pd.__version__) # 2.0.3 df = pd.read_csv('data/src/s

    pandasで複数条件のAND, OR, NOTから行を抽出(選択) | note.nkmk.me
  • RPubs - MMM Training VIII 動学的市場反応モデル(2)

  • トピックモデル入門:WikipediaをLDAモデル化してみた - GMOインターネットグループ グループ研究開発本部

    こんにちは。次世代システム研究室のJK(男)です。 これまではDeep Learning系の話をしてきましたが、今回はちょっと目線を変えてトピックモデルの話をしたいと思います。トピックモデルはちょっと前に話題になったモデルで、取得した結果がわかりやすいというところが魅力的かなーと思います。今回の内容は、(1) トピックモデルと(2) LDAについて簡単に説明したあと、(3) python libraryのgensimを用いてWikipediaの文章についてLDAでモデル化します。(4) 最後に得られた結果を考察します。 1. トピックモデルとは トピックモデルとは、ざっくり言えばある文章をトピックごとの成分に情報圧縮するモデルです。ちゃんと理解したい人は教科書(これとかこれ)を読むことをお薦めします。ただいきなり読むと挫折する可能性があるので、ここでは教科書への架け橋的な説明をしてみます(

    トピックモデル入門:WikipediaをLDAモデル化してみた - GMOインターネットグループ グループ研究開発本部
  • Agent Based Models and RNetLogo

  • はじめての自然言語処理 BERT を用いた自然言語処理における転移学習 | オブジェクトの広場

    前回は Rasa NLU を用いて文章分類と固有表現抽出について紹介しました。今回は昨年後半に話題となった BERT について説明し、chABSAデータセットを用いた感情分析での実験結果、アプリケーションへの組み込み方などを紹介します。 1. 始めに 記事では Google の BERT について、その概要を紹介し、BERT の事前学習済みモデルを用いてファインチューニングにより独自のモデルを構築することを念頭に、BERT の入出力インタフェースや学習データの構造を説明します。そして、ファインチューニングにより独自のモデルを構築する例として、chABSA データセットを用いた感情分析モデル生成の実験結果およびアプリケーションから利用する際のポイントを紹介します。 2. BERTの概要 BERT (Bidirectional Encoder Representations from Tra

    はじめての自然言語処理 BERT を用いた自然言語処理における転移学習 | オブジェクトの広場
  • 8 回帰分析 | Rによる統計入門

    8.1 概要 回帰分析という統計手法は、独立変数(説明変数・予測変数)と従属変数(被説明変数・目的変数・応答変数)の関係を記述するのに使われます。 回帰分析を使うことで、 目的変数と関連のある説明変数を特定したり、 変数間の関係式を記述したり、 説明変数から目的変数を予測したり することができます。

  • 機械学習を応用して広告効果を正しく測定する

    プラットフォームの概要 AI Platform 生成 AIおよび予測 AIのプラットフォーム もっと詳しく ドキュメント 新機能 ログイン 無料で始める 運用 自信を持ってAIを拡張し、比類のないエンタープライズ・モニタリングとコントロールでビジネス価値を促進 デプロイと実行 再学習と最適化 監視と介入 ガバナンス AIの環境、チーム、およびワークフローを統合し、大規模な範囲での完全な可視性と監視を実現 レジストリと管理 監査と承認 コンプライアンスドキュメント生成 構築 ニーズの進化に合わせて自由に適応できるオープンなAIエコシステムで、迅速なイノベーションを実現 分析と変換 学習とチューニング 組立てと比較 プラットフォーム統合 インフラストラクチャーへのデプロイ ソリューション 業界ごと ヘルスケア 製造 小売業 金融サービス 成果ごと ユースケースのライブラリー お客様事例 Dat

    機械学習を応用して広告効果を正しく測定する
  • 初心者の初心者による初心者のためのニューラルネットワーク#1〜理論:順伝播編〜 - Qiita

    機械学習初心者でも、ニューラルネットワーク(neural network : NN)について理解しなければならない日がいつか来る。なので初心者代表の私が、ニューラルネットワークについて初心者なりに分かりにくいところなどを含め解釈したものをまとめてみました。 加筆修正のコメント等あれば、遠慮なく教えてください。 『3.1.ニューラルネットワークとは』『3.3. ニューラルネットワークによって何ができるのか』を少し軽く読んでから頭から読むとより分かりやすいかもしれません。 1. なぜ人はニューラルネットワークを学ぶのか 今や日常生活の様々な場面に用いられている、機械学習のコアの部分だからです。(多分) 2. ニューラルネットワークの概念 『ニューラルネットワークとは、人間の脳神経系のニューロンを数理モデル化したもののこと』だと初心者の初心者による初心者のための単純パーセプトロンでは述べられてい

    初心者の初心者による初心者のためのニューラルネットワーク#1〜理論:順伝播編〜 - Qiita
  • 機械学習の結果を解釈する方法まとめてみた | マサムネの部屋

    機械学習の困りごとの一つとして、結果の解釈が難しい、という事があります。 特徴量が結果に与える効果を評価する術が存在するので、結果の解釈が出来たりすることが多いです。 記事では、以下の方法を紹介します。モデル毎に使える時と使えない時があるので注意1しましょう。 t値ジニ係数permutation importanceheat map 記事で使っているソースコードはgithub に置いてあります。 https://github.com/msamunetogetoge t値 始めはt値を解説します。実務では回帰だけで事足りることが多いと思いますが、特徴量の効果を測る方法の一つに、t値があります。2 t値は、大きければ大きい程回帰係数に意味がある と思うと良いです。 定義を確認し、python 上で表示してみましょう。 t値の定義 簡単の為に、単回帰分析の場合で考えましょう。 $$\begin{