knokのブックマーク / 2022年6月25日 - はてなブックマーク

P値のトリセツ

オープンな日本語埋め込みモデルの選択肢 / Exploring Publ icly Available Japanese Embedding Models

knok 2022/06/25

リンク

1より2の方が有名なもの

ストⅡ ザクⅡ ターミネーター2

knok 2022/06/25

マツケンサンバII

リンク

最適輸送と自然言語処理

2022-03-14, 言語処理学会第28回年次大会でのチュートリアル「最適輸送と自然言語処理」のスライドです。当日利用版から増補改訂しました。講演動画 (YouTube)

knok 2022/06/25

WGANぐらいしか知らなかったけどこんなに応用が利くとは

リンク

君たちは正規表現におけるインド数字の罠にハマったことはあるかい？(١٢٣٤٥٦٧٨٩) - Qiita

import re re.match(r'\d{4}-\d{2}', '٢٠٢٢-٠٦') Pythonで書いてはいますが、内容を補足します。「'٢٠٢٢-٠٦'」という文字列が、数字4文字+ハイフン+数字2文字にマッチするかどうか、という正規表現を書いています。一見するとどう見ても数字4桁ではないので、正規表現にマッチしないように見えますよね？？？？実は正規表現にマッチします！！！というのが今回の記事の内容になります。そもそも正規表現における数字の扱いとは今回はPythonの正規表現のライブラリを利用しているので、公式のリファレンスを見てみましょう。該当の部分には以下のような記述があります。 \d Unicode (str) パターンでは: 任意の Unicode 10 進数字 (Unicode 文字カテゴリ [Nd]) にマッチします。これは [0-9] とその他多数の数字を