[B! *algorithm][NLP][cs.LG] sh19910711のブックマーク

sh19910711 id:sh19910711

*algorithmとNLPとcs.LGに関するsh19910711のブックマーク (2)

Transformerにおける相対位置エンコーディングを理解する。 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 自然言語処理を中心に近年様々な分野にて成功を納めているTransf ormerでは、入力トークンの位置情報をモデルに考慮させるために「positional encoding（位置エンコーディング）」と呼ばれる処理が必要になります。この位置エンコーディングは通常、トークン系列の開始時点を基準とした絶対的な位置情報を埋め込みます。しかし、タスクによってはトークンの絶対的な位置ではなくトークン間の相対的な位置関係をモデルに考慮させたい場合もあると思います。そういった需要に応えるため、トークン間の相対的な位置を考慮した位置エンコーディング技
sh19910711 2024/10/03
"自然言語以外の様々な系列データにTransformerが適用されていますが、その全てのデータにおいて絶対位置情報が重要であるとは限りません / 物理世界由来の時空間データは基本的に相対的な位置関係が重要" arXiv:1809.04281 '21

*algorithm

NLP

系列

--

cs.LG
リンク
スクレイピング時に本文だけを抽出する最高精度ツールが優秀！【日本語版も公開】 - Qiita
n,pはそれぞれnegative(ノイズ),positive(本文)を基準とした時の評価を表します。例としてノイズ部分をN,本文をPとし,正解をT(True)、間違いをF(False)とした時にPresicionはそれぞれ以下の式です。 $$ Presicion_{[n]} = \frac{TN}{TN + FN} $$ $$ Presicion_{[p]} = \frac{TP}{TP + FP} $$ nのf値はどれだけ正確にノイズを除去できているかを、pのf値はどれだけ正確に本文を抽出できているかを評価していると考えればよいでしょう。元のデータでの再現学習も問題無く行えました。また日本語対応版もおおよそ元論文と同程度の精度が出ています。要点2:軽量でCPUでも1ページ0.02s程度の時間で予測できる Core i7,8コアのCPU環境でも1ページ0.02s程度の時間で予測が可能
sh19910711 2024/05/06
"boilerplate removal: ヘッダーやフッター、広告などの本文と関係の無い文章を除外するタスク / タグと文章情報を埋め込んで双方向LSTMに入力 / formタグはルールベースで落としてしまうのが良さそう" arXiv:2004.14294 2020

*algorithm

NLP

収集

--

系列

cs.LG
リンク
1