gengohouseのブックマーク - はてなブックマーク

pytorch-transformersを触ってみる② - 機械学習・自然言語処理の勉強メモ

はじめに前回はの入門ということで、QuikStartの内容を触ってみました。 kento1109.hatena blog.com 前回は英語でしたが、日本語のテキストを扱う場合はそのまま使うことは出来ません。ということで、今回はpytorch-transf ormersで日本語のテキストを扱ってみようと思います。 Pretrained model 日本語でのPretrained modelとしては、京大の黒橋・河原研究室が公開しているものが有名です。 BERT日本語Pretrainedモデル - KUROHASHI-KAWAHARA LAB このリソースを利用した既存のやってみたシリーズとしては以下などが参考となります。 Pytorchで日本語のbert学習済みモデルを動かすまで - Qiita pytorchでBERTの日本語学習済みモデルを利用する - 文章埋め込み編 - Out-of

gengohouse 2022/05/10

リンク

隠れマルコフモデル（HMM）について - 機械学習・自然言語処理の勉強メモ

隠れマルコフモデル（HMM）直前の結果のみから次の結果が確率的に求まるという「マルコフ性」を仮定して、事象をモデル化。隠れマルコフモデル（以降HMM）では、過去の状態の遷移は不明（隠れている）な状態であり、その状態の出力結果より事象をモデル化する。例題下記ブログの例が分かりやすかったので、引用させて頂く。 satomacoto: 隠れマルコフモデルの例ある友達が遠くに住んでいて、毎日何をしたかをあなたに電話で話します。友達は「散歩」「買物」「掃除」の3つのことにしか関心がありません。友達が何をするかはもっぱらその日の天気で決めます。あなたは友達が住んでいるところの天気の明確な情報は持っていません。友人が初日に「散歩」二日目に「買い物」三日目に「掃除」という順で行動したら、その観測結果が得られる確率はいくらでしょうか、そして、このような観測結果が得られたとき三日間の天気はどのよう

gengohouse 2022/01/22

リンク

pytorch-transformersを触ってみる① - 機械学習・自然言語処理の勉強メモ

今更ながら、pytorch-transf ormersを触ってみます。このライブラリはドキュメントが充実していて、とても親切です。なので、今回はドキュメントに基づいて触ってみただけの備忘録です。以下、有名どころのBERTで試してます。詳しいことはここなどを参照してください。 huggingface.co はじめに以下で、入手できます。簡単です。 pip install pytorch-transf ormersインストールしたら、以下でimportします。 import torch from pytorch_transf ormers import BertTokenizer, BertModel pytorch-transf ormersの基本は以下の3つのクラスで構成されます。 model classes モデル本体 configuration classes モデルのパラメータを設

gengohouse 2021/07/11

リンク

gensimでDoc2Vec - 機械学習・自然言語処理の勉強メモ

Doc2Vecとは Doc2Vecは、任意の長さの文書をベクトル化する技術。文書やテキストの分散表現を獲得することができる。＊ベクトル同士の類似度を測定して、文書分類や似た文書を探すことができる。 Word2VecのCBoWにおける入力は、単語をone-hot表現した単語IDだけだったが、 Doc2Vecは、単語IDにパラグラフIDを付加した情報を入力とする。下図のイメージ下記、論文より抜粋 [1405.4053] Distributed Representations of Sentences and Documents 日本語での要約記事としてはこちらが分かりやすい。【論文紹介】Distributed Representations of Sentences and Documents from Tomofumi Yoshida www.slideshare.net Word

gengohouse 2020/09/17

リンク

（論文）BERTによる日本語構文解析 - 機械学習・自然言語処理の勉強メモ

今日は以下の論文についてまとめます。 BERTによる日本語構文解析の精度向上（柴田ら 2019）昨年の「言語処理学会」で発表されたものです。日本語で分かりやすいのですが、整理もかねてまとめます。 BERT自体の解説はググれば分かりやすい説明があります。また、以前にまとめましたので、詳細は割愛します。 kento1109.hatena blog.com なにがスゴい？「BERTを使って既存の構文解析器の精度を大幅に上回った」という点です。ここでは、既存の構文解析器として「KNP, Cabocha, J.depP」と比較しています。従来Shift-Reduce 法やチャンキング段階適用により、係り受け関係を特定する手法が知られています。「SVMを用いた統計的日本語係り受け解析」の手法では「係り元（A）」と「係り先（B）」の素性を利用して、「（A)が（B）に係るか」という二値分類

gengohouse 2020/06/08

文献

リンク

はてなブックマーク

タグ

ブックマーク / kento1109.hatenablog.com (5)

お知らせ

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス