[B! unicode] eclipse-aのブックマーク

eclipse-a id:eclipse-a

unicodeに関するeclipse-aのブックマーク (8)

波ダッシュはチルダではない
コード変換において、JIS X 0208/0213の波ダッシュ「〜」(1面1区33点、シフトJISでは8160)をUnicodeの「FULLWIDTH TILDE」(U+FF5E)にうつす実装は不適切である。適切な変換先はWAVE DASH (U+301C)である。以下に理由を述べる。 JISの規格では「〜」は「波ダッシュ」と記述されており、文字名称は WAVE DASHと規定されている。よってUnicodeのWAVE DASHに対応すると考えるのが妥当。UnicodeのもとになったJIS X 0208-1990においてもやはり「波ダッシュ」であった。チルダではない。区点の並びからも、ダッシュやハイフンのような一般の記述記号の中にあり、チルダが属すべきダイアクリティカルマークとは離れている。 Unicode仕様書のWAVE DASHの説明には「JIS punctuation」
eclipse-a 2008/11/17
unicode
リンク
Unicodeblock Katakana – Wikipedia
Der Unicodeblock Katakana (U+30A0 bis U+30FF) enthält die Silbenschrift Katakana, die einen von drei Bestandteilen der japanischen Schrift darstellt. In Katakana werden vor allem Fremdwörter oder die Ainu-Sprache geschrieben – letztere zusätzlich auch mit dem Unicodeblock Katakana, Phonetische Erweiterungen.
eclipse-a 2008/10/31
カタカナ一覧表

unicode
リンク
Unicodeblock Hiragana – Wikipedia
Der Unicodeblock Hiragana (U+3040 bis U+309F) enthält die Silbenschrift Hiragana, die einen von drei Bestandteilen der japanischen Schrift darstellt. In Hiragana werden vor allem grammatische Wörter und Affixe geschrieben.
eclipse-a 2008/10/13
ひらがな一覧表

unicode
リンク
UTF-8
ASCII範囲内の文字はASCIIコードと完全に一致する第2バイト〜第4バイトは必ず10…ではじまり，第1バイトのビットパターンとは重ならないようにしてある．この工夫により，もしも伝送誤りが起こったりした場合でも，その誤りの影響が1文字の中に収まるようになっている．ストリームを読み進めると数バイト先には10以外ののパターンがきているはずで，底が次の文字の先頭バイトだとわかる． 1バイトだけ覗いてみてもいろいろわかる 0ではじまっていたら→ASCII範囲内の文字で1バイトで表される文字 10ではじまっていたら→マルチバイト文字の第2バイト〜第4バイトのどれか 110ではじまってたら→2バイトの先頭文字 1110ではじまってたら→3バイトの文字の先頭文字 11110ではじまってたら→サロゲートペアで4バイトの文字サロゲートペアはUTF-16でエンコードする場合，サロゲートペアの参照す
eclipse-a 2008/10/13
unicode
リンク
Matzにっき(2007-03-12)「あいうえお」はインド由来
<< 2007/03/ 1 1. [Ruby] Rubyist Magazine - Rubyist Magazine 0018 号 2. ストレートタイプのスマートフォン「NOKIA E61」レポート 3. ITmedia エンタープライズ：TopCoderで世界と渡り合う日本IBMの異才 - 夷藤勇人 4. My Sleepless Nights in the Big Apple: Apple、サブノート市場へ再参入へ 5. ITmedia Biz.ID：失敗しないプロジェクトマネジメント -- Appleやはてな、Googleに学ぶ3つのヒント 6. 平成19年度「情報大航海プロジェクト（モデルサービスの開発と実証）」に係る委託先の公募について 7. [言語] PyCon 2007 Review 8. [Ruby] deep_science:Re:バザール「オープンソース、そして「R
eclipse-a 2008/09/25
現状UTF-8がベターな選択

unicode
リンク
.NET TIPS 文字列のひらがな／カタカナをチェックするには？ - C# - ＠IT
ここで、次に示すように表中のブロック名の先頭に“Is”を付け文字列を中カッコでくくり、“\p”を付けたものが正規表現における「名前付き文字クラス」となる（文字列が漢字だけからなるかどうかのチェックは実際の業務システムではあまりないと思われるが、参考までに漢字についても併記しておく）。 \p{IsHiragana} \p{IsKatakana} \p{IsCJKUnifiedIdeographs} これらの正規表現はブロック名が示す範囲に含まれる文字と一致する。よって、例えばひらがなだけからなる文字列と一致する正規表現は次のようになる。 ^\p{IsHiragana}*$ ここで、“＾”は行頭、“＄”は行末にマッチし、“＊”は直前の要素の0個以上の繰り返しにマッチする。正規表現とそのプログラミングについては「スマートな文字列処理のための正規表現入門」で解説されているのでそちらを参考にしていた
eclipse-a 2008/09/25
unicodeにおけるひらがな・カタカナ・漢字の範囲

unicode
リンク
Unicodeのハイフンっぽい文字いろいろ - こせきの技術日記
全角ハイフンを半角に変換する処理ではまったので。同じに見える字形で違うコードを指してた。 #!/usr/bin/ruby # 'HYPHEN-MINUS' (U+002D) # http://www.fileformat.info/info/unicode/char/002d/index.htm puts "\x2D" # 'MINUS SIGN' (U+2212) # http://www.fileformat.info/info/unicode/char/2212/index.htm puts "\xE2\x88\x92" # 'FULLWIDTH HYPHEN-MINUS' (U+FF0D) # http://www.fileformat.info/info/unicode/char/ff0d/index.htm puts "\xEF\xBC\x8D" # 'KATAKANA-HIR
eclipse-a 2008/08/01
unicode
リンク
Unicode Character Search
Unicode Character Search Query: include Han codepoints? Cancel A-Z index | Search options
eclipse-a 2008/08/01
unicode

search
リンク
1