サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
参議院選挙2025
qiita.com/takeda25
みなさん、ワンライナーで日本語を簡単に処理したい場合、何を使うでしょうか。 ワンライナーで言語処理といえばPerlですよね[要出展]。 Perlでは、「ひらがな」「カタカナ」「漢字」といった文字にマッチする正規表現を簡単に書くことができます。 例えば、青春→鯖鰆みたいなやつという記事では、漢字にマッチさせるのに\p{Han}という正規表現を使っていました。 $ perl -Mutf8 -CSD -le 'print "漢" =~ m{\p{Han}} ? 1 : 0' 1 $ perl -Mutf8 -CSD -le 'print 1 if "あ" =~ m{\p{Han}} ? 1 : 0' 0 なんてこった。 "「"は明らかに漢字じゃないだろう? 調べてみると、perlunicodeに以下のような記述がありました。 Prior to Perl v5.26, the single for
テキストデータからランダムにN行取り出す方法ですが、まず「シャッフルしてN行取り出す」というのがあります。 しかし、データが大きいとシャッフルにも大量のメモリが必要になるので、別の方法を考えたいところです。 ここで、全体の行数がわかっていれば簡単に書ける(後で書きます)ところですが、一度行数を調べてから取り出すとなると二度手間になってしまいます。 こういうときは、Perl(-nオプション)で次のように書くと、$n個を配列に格納することができます(順序はランダムではありません)。
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
このページを最初にブックマークしてみませんか?
『qiita.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く