オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models
![P値のトリセツ](https://cdn-ak-scissors.b.st-hatena.com/image/square/f3a43af82450233490404e4681aa024fcfff036d/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2F7b37dad2fcd34c1e864758e7986e4cdc%2Fslide_0.jpg%3F21848398)
2022-03-14, 言語処理学会 第28回年次大会でのチュートリアル「最適輸送と自然言語処理」のスライドです。当日利用版から増補改訂しました。 講演動画 (YouTube)
import re re.match(r'\d{4}-\d{2}', '٢٠٢٢-٠٦') Pythonで書いてはいますが、内容を補足します。「'٢٠٢٢-٠٦'」という文字列が、数字4文字+ハイフン+数字2文字にマッチするかどうか、という正規表現を書いています。 一見するとどう見ても数字4桁ではないので、正規表現にマッチしないように見えますよね???? 実は正規表現にマッチします!!!というのが今回の記事の内容になります。 そもそも正規表現における数字の扱いとは 今回はPythonの正規表現のライブラリを利用しているので、公式のリファレンスを見てみましょう。 該当の部分には以下のような記述があります。 \d Unicode (str) パターンでは: 任意の Unicode 10 進数字 (Unicode 文字カテゴリ [Nd]) にマッチします。これは [0-9] とその他多数の数字を
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く