ブックマーク / kento1109.hatenablog.com (5)

  • pytorch-transformersを触ってみる② - 機械学習・自然言語処理の勉強メモ

    はじめに 前回はの入門ということで、QuikStartの内容を触ってみました。 kento1109.hatenablog.com 前回は英語でしたが、日語のテキストを扱う場合はそのまま使うことは出来ません。 ということで、今回はpytorch-transformersで日語のテキストを扱ってみようと思います。 Pretrained model 日語でのPretrained modelとしては、京大の黒橋・河原研究室が公開しているものが有名です。 BERT日語Pretrainedモデル - KUROHASHI-KAWAHARA LAB このリソースを利用した既存のやってみたシリーズとしては以下などが参考となります。 Pytorchで日語のbert学習済みモデルを動かすまで - Qiita pytorchでBERTの日語学習済みモデルを利用する - 文章埋め込み編 - Out-of

    pytorch-transformersを触ってみる② - 機械学習・自然言語処理の勉強メモ
  • 隠れマルコフモデル(HMM)について - 機械学習・自然言語処理の勉強メモ

    隠れマルコフモデル(HMM) 直前の結果のみから次の結果が確率的に求まるという「マルコフ性」を仮定して、事象をモデル化。 隠れマルコフモデル(以降HMM)では、過去の状態の遷移は不明(隠れている)な状態であり、その状態の出力結果より事象をモデル化する。 例題 下記ブログの例が分かりやすかったので、引用させて頂く。 satomacoto: 隠れマルコフモデルの例 ある友達が遠くに住んでいて、毎日何をしたかをあなたに電話で話します。友達は「散歩」「買物」「掃除」の3つのことにしか関心がありません。友達が何をするかはもっぱらその日の天気で決めます。あなたは友達が住んでいるところの天気の明確な情報は持っていません。 友人が初日に「散歩」二日目に「買い物」三日目に「掃除」という順で行動したら、その観測結果が得られる確率はいくらでしょうか、そして、このような観測結果が得られたとき三日間の天気はどのよう

    隠れマルコフモデル(HMM)について - 機械学習・自然言語処理の勉強メモ
  • pytorch-transformersを触ってみる① - 機械学習・自然言語処理の勉強メモ

    今更ながら、pytorch-transformersを触ってみます。 このライブラリはドキュメントが充実していて、とても親切です。 なので、今回はドキュメントに基づいて触ってみただけの備忘録です。 以下、有名どころのBERTで試してます。 詳しいことはここなどを参照してください。 huggingface.co はじめに 以下で、入手できます。簡単です。 pip install pytorch-transformersインストールしたら、以下でimportします。 import torch from pytorch_transformers import BertTokenizer, BertModel pytorch-transformersの基は以下の3つのクラスで構成されます。 model classes モデル体 configuration classes モデルのパラメータを設

    pytorch-transformersを触ってみる① - 機械学習・自然言語処理の勉強メモ
  • gensimでDoc2Vec - 機械学習・自然言語処理の勉強メモ

    Doc2Vecとは Doc2Vecは、任意の長さの文書をベクトル化する技術。 文書やテキストの分散表現を獲得することができる。 *ベクトル同士の類似度を測定して、文書分類や似た文書を探すことができる。 Word2VecのCBoWにおける入力は、単語をone-hot表現した単語IDだけだったが、 Doc2Vecは、単語IDにパラグラフIDを付加した情報を入力とする。 下図のイメージ 下記、論文より抜粋 [1405.4053] Distributed Representations of Sentences and Documents 日語での要約記事としてはこちらが分かりやすい。 【論文紹介】Distributed Representations of Sentences and Documents from Tomofumi Yoshida www.slideshare.net Word

    gensimでDoc2Vec - 機械学習・自然言語処理の勉強メモ
  • (論文)BERTによる日本語構文解析 - 機械学習・自然言語処理の勉強メモ

    今日は以下の論文についてまとめます。 BERTによる日語構文解析の精度向上(柴田ら 2019) 昨年の「言語処理学会」で発表されたものです。 日語で分かりやすいのですが、整理もかねてまとめます。 BERT自体の解説はググれば分かりやすい説明があります。 また、以前にまとめましたので、詳細は割愛します。 kento1109.hatenablog.com なにがスゴい? 「BERTを使って既存の構文解析器の精度を大幅に上回った」という点です。 ここでは、既存の構文解析器として「KNP, Cabocha, J.depP」と比較しています。 従来Shift-Reduce 法やチャンキング段階適用により、係り受け関係を特定する手法が知られています。 「SVMを用いた 統計的日語係り受け解析」の手法では「係り元(A)」と「係り先(B)」の素性を利用して、 「(A)が(B)に係るか」という二値分類

    (論文)BERTによる日本語構文解析 - 機械学習・自然言語処理の勉強メモ
  • 1