タグ

ブックマーク / qiita.com/nomaton (1)

  • 【Rust】文字列型のUTF-8検証の中身 - Qiita

    コード値:00000000_00000000_0xxxxxxx(1-7ビット) ⇒ UTF-8:0xxxxxxx(1バイト) コード値:00000000_00000yyy_yyxxxxxx(8-11ビット) ⇒ UTF-8:110yyyyy 10xxxxxx(2バイト) コード値:00000000_zzzzyyyy_yyxxxxxx(12-16ビット) ⇒ UTF-8:1110zzzz 10yyyyyy 10xxxxxx(3バイト) コード値:000wwwzz_zzzzyyyy_yyxxxxxx(17-21ビット) ⇒ UTF-8:11110www 10zzzzzz 10yyyyyy 10xxxxxx(4バイト) 特に重要な点は以下の2つである。 1バイト目(開始バイト)の先頭のビットパターンによって全体のバイト数を判定できる。 (0...:1バイト、110...:2バイト、1110...

    【Rust】文字列型のUTF-8検証の中身 - Qiita
    crode
    crode 2020/09/29
  • 1