タグ

2021年2月9日のブックマーク (4件)

  • Practical Data Science with R and Python: 実践的データサイエンス

    実践的データサイエンス はじめに データ分析のためにコンピュータを利用する際、RおよびPython言語のいずれかを使うことが多いと思います(Julia言語は高レベル・高パフォーマンスな技術計算のための言語で今後期待が膨らみます)。これらの2つの言語では、データ操作や可視化、データ分析、モデリングに使われるライブラリが豊富にあり、 どれを使うのが良いのか迷うような状況が続いていました。しかしその状態は落ち着きを見せ、成熟期を迎えつつあります。 R言語ではパイプ演算子の登場によりデータフレームに対する操作に大きな変化が生じ、tidyverseによるデータ読み込みからデータ整形、可視化までが可能になりました。またtidyverseのような、機械や人間の双方が扱いやすいパッケージが増えてきました。特にR言語の強力な一面でもあったデータ分析の操作はtidymodelsに代表されるパッケージがユーザの

  • Google Colabで統計的因果探索手法LiNGAMを動かしてみた|Dentsu Digital Tech Blog

    電通デジタルでデータサイエンティストをしている中嶋です。 前回の記事は「Airflow 2.0でDAG定義をよりシンプルに!TaskFlow APIの紹介」でした。 Advent Calendar 10日目となる記事では因果探索の一手法であるLiNGAM(Linear Non-Gaussian Acyclic Model)の解説及び、Google Colabでの分析例について紹介します。 因果探索とは最近のトレンド 最近、広告配信やマーケティング分析の文脈で施策の効果を適切に評価する手法として実験計画法や因果推論が注目を浴びています。産業界でも株式会社ソニーコンピュータサイエンス研究所、クウジット株式会社、株式会社電通国際情報サービスの三社が提供するCALCという要因分析ツールや、最近はNECの因果分析ソリューション causal analysisも出ていたりと盛り上がりを見せています。

    Google Colabで統計的因果探索手法LiNGAMを動かしてみた|Dentsu Digital Tech Blog
  • 潜在的意味インデキシング(LSI)徹底入門

    LSI については「特異値分解とLSIの意味」でも触れたことがありますが、この時はまだ理解不足だったので改めて解説したいと思います。 LSI (Latent Semantic Indexing) 1は検索などに用いられる次元圧縮手法です。 例えば、「車で行く」と「自動車で行く」は意味として全く同じですが、単語そのものを見ると「車」と「自動車」が異なるため違う文として扱われてしまい、「車」で検索しても「自動車で行く」という文がヒットしません。 しかし、「車」も「自動車」も同じ意味なので同じ文として扱われるようにしたいですよね。 これを実現する手法の1つが LSI です。 ベクトル空間モデル LSI では Bag of Words によるベクトル空間モデルが使用されます。 要は単語の出現順を考慮せず、単語の出現頻度などによって文書をベクトルで表現するモデルです。 例えば次の4つの文書があったと

    潜在的意味インデキシング(LSI)徹底入門
  • BERT(Keras BERT)を使用した文章分類を学習から予測まで紹介! | cloud.config Tech Blog

    概要 絶賛フロントエンド勉強中の井上です。今回は自然言語処理界隈で有名なBERTを用いた文書分類(カテゴリー分類)について学習(ファインチューニング)から予測までを紹介したいと思います。記事では実装ベースでお話しするので、「そもそもBERTって何?」という方は検索するか、参考URLを載せておくのでそこから飛んでいただけると助かります。 目次 事前準備 学習 評価 予測 参考文献 事前準備 Google Colaboratory 学習は膨大な計算量が必要なので、Google Colaboratoryを使用します https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja 無料でTPU(Tensor Processing Unit)が使えるのでお得! googleさんありがとうございます TPUはIntelのHaswellと

    BERT(Keras BERT)を使用した文章分類を学習から予測まで紹介! | cloud.config Tech Blog