[B! ruby][utf-8] hate-urumaのブックマーク

hate-uruma id:hate-uruma

rubyとutf-8に関するhate-urumaのブックマーク (1)

UTF-8のコードポイントはどうやって高速に数えるか - Qiita
UTF-8文字列からコードポイント数を計算するアルゴリズムについて紹介します。コードポイント数カウントは、シンプルに書くのはそれほど難しくないものの、高効率な実装は意外にややこしいです。内容は二本立てです。実践的な実装について、Ruby(CRuby)の内部実装(string.c)で使われているものを紹介します。標準Cの範囲を超えて、SIMD命令(AVX/AVX2)を使った実装についても述べます軽く検索する限りだと既知のアルゴリズムが見当たらなかったので、アドホックな実装をひねり出しましたが、そんなに効率は悪くなさそうですおまけで簡単な性能評価をやってみました。なお、UTF-8文字列はバリデーション済み（不正なシーケンスでないことが分かっている）であるとします。 Rubyの内部実装だとどうやっているかまずは、それがコードポイントの先頭バイト(leading byte)かを判定す
hate-uruma 2019/06/20
ruby

utf-8
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx