タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

unicodeに関するkrogueのブックマーク (8)

  • Unicode Character Search

    Unicode Character Search Query: include Han codepoints? Cancel A-Z index | Search options

  • Unicodeのハイフンっぽい文字いろいろ - こせきの技術日記

    全角ハイフンを半角に変換する処理ではまったので。同じに見える字形で違うコードを指してた。 #!/usr/bin/ruby # 'HYPHEN-MINUS' (U+002D) # http://www.fileformat.info/info/unicode/char/002d/index.htm puts "\x2D" # 'MINUS SIGN' (U+2212) # http://www.fileformat.info/info/unicode/char/2212/index.htm puts "\xE2\x88\x92" # 'FULLWIDTH HYPHEN-MINUS' (U+FF0D) # http://www.fileformat.info/info/unicode/char/ff0d/index.htm puts "\xEF\xBC\x8D" # 'KATAKANA-HIR

    Unicodeのハイフンっぽい文字いろいろ - こせきの技術日記
  • .NET TIPS 文字列のひらがな/カタカナをチェックするには? - C# - @IT

    ここで、次に示すように表中のブロック名の先頭に“Is”を付け文字列を中カッコでくくり、“\p”を付けたものが正規表現における「名前付き文字クラス」となる(文字列が漢字だけからなるかどうかのチェックは実際の業務システムではあまりないと思われるが、参考までに漢字についても併記しておく)。 \p{IsHiragana} \p{IsKatakana} \p{IsCJKUnifiedIdeographs} これらの正規表現はブロック名が示す範囲に含まれる文字と一致する。よって、例えばひらがなだけからなる文字列と一致する正規表現は次のようになる。 ^\p{IsHiragana}*$ ここで、“^”は行頭、“$”は行末にマッチし、“*”は直前の要素の0個以上の繰り返しにマッチする。正規表現とそのプログラミングについては「スマートな文字列処理のための正規表現入門」で解説されているのでそちらを参考にしていた

    krogue
    krogue 2008/12/21
    unicodeにおけるひらがな・カタカナ・漢字の範囲
  • Matzにっき(2007-03-12)「あいうえお」はインド由来

    << 2007/03/ 1 1. [Ruby] Rubyist Magazine - Rubyist Magazine 0018 号 2. ストレートタイプのスマートフォン「NOKIA E61」レポート 3. ITmedia エンタープライズ:TopCoderで世界と渡り合う日IBMの異才 - 夷藤勇人 4. My Sleepless Nights in the Big Apple: Apple、サブノート市場へ再参入へ 5. ITmedia Biz.ID:失敗しないプロジェクトマネジメント -- AppleはてなGoogleに学ぶ3つのヒント 6. 平成19年度「情報大航海プロジェクト(モデルサービスの開発と実証)」に係る委託先の公募について 7. [言語] PyCon 2007 Review 8. [Ruby] deep_science:Re:バザール「オープンソース、そして「R

    krogue
    krogue 2008/12/21
    現状UTF-8がベターな選択
  • UTF-8

    ASCII範囲内の文字はASCIIコードと完全に一致する 第2バイト〜第4バイトは必ず10…ではじまり,第1バイトのビットパターンとは重ならないようにしてある. この工夫により,もしも伝送誤りが起こったりした場合でも,その誤りの影響が1文字の中に収まるようになっている. ストリームを読み進めると数バイト先には10以外ののパターンがきているはずで,底が次の文字の先頭バイトだとわかる. 1バイトだけ覗いてみてもいろいろわかる 0ではじまっていたら→ASCII範囲内の文字で1バイトで表される文字 10ではじまっていたら→マルチバイト文字の第2バイト〜第4バイトのどれか 110ではじまってたら→2バイトの先頭文字 1110ではじまってたら→3バイトの文字の先頭文字 11110ではじまってたら→サロゲートペアで4バイトの文字 サロゲートペアはUTF-16でエンコードする場合, サロゲートペアの参照す

  • Unicodeblock Hiragana – Wikipedia

    Der Unicodeblock Hiragana (U+3040 bis U+309F) enthält die Silbenschrift Hiragana, die einen von drei Bestandteilen der japanischen Schrift darstellt. In Hiragana werden vor allem grammatische Wörter und Affixe geschrieben.

    krogue
    krogue 2008/12/21
    ひらがな一覧表
  • Unicodeblock Katakana – Wikipedia

    Der Unicodeblock Katakana (U+30A0 bis U+30FF) enthält die Silbenschrift Katakana, die einen von drei Bestandteilen der japanischen Schrift darstellt. In Katakana werden vor allem Fremdwörter oder die Ainu-Sprache geschrieben – letztere zusätzlich auch mit dem Unicodeblock Katakana, Phonetische Erweiterungen.

    krogue
    krogue 2008/12/21
    カタカナ一覧表
  • 波ダッシュはチルダではない

    コード変換において、JIS X 0208/0213の波ダッシュ「〜」(1面1区33点、 シフトJISでは8160)をUnicodeの「FULLWIDTH TILDE」(U+FF5E)にうつす実装は 不適切である。適切な変換先はWAVE DASH (U+301C)である。以下に理由を述べ る。 JISの規格では「〜」は「波ダッシュ」と記述されており、文字名称は WAVE DASHと規定されている。よってUnicodeのWAVE DASHに対応すると考える のが妥当。UnicodeのもとになったJIS X 0208-1990においてもやはり「波ダッ シュ」であった。チルダではない。 区点の並びからも、ダッシュやハイフンのような一般の記述記号の中にあ り、チルダが属すべきダイアクリティカルマークとは離れている。 Unicode仕様書のWAVE DASHの説明には「JIS punctuation」

  • 1