[B! Unicode] nozomのブックマーク

波ダッシュ Unicodeに関連する問題 - Wikipedia

波ダッシュ（なみダッシュ、wave dash[注釈 1]）とは、日本語表記における約物のひとつで、波線「」（はせん、なみせん）を指している。ダッシュ記号（—）の波形であることからそう呼ばれる[注釈 2]。日本語における用法の多くは範囲を示すenダッシュ記号としての用法と長音符としての用法がある。範囲を示す場合、「から」という日本語の約物であり、純然たる日本語である。日本以外ではこのように使用されることはない。なお中国語でもenダッシュの代用又は長音符などとして使われることがある。 Windows XP等における日本語環境下では、表示字形が「」ではなく、波形の反転した「」に変わってしまう問題が発生していた[注釈 3]。これに付随して、波ダッシュの代用として音声記号等として用いられる全角チルダが不適切に使われることがあるため、混乱の元となっている[1][注釈 4]。日本語において範囲を表す

nozom 2008/01/22

"Windows独自のUnicodeが産んだ非互換性により、U+301Cが環境によっては文字化けを起こす機種依存文字となってしまっている。"

Unicode

リンク

新しいUnicode符号化方式

新しい文字符号化方式戻るリンク文字符号についてユニコード UTFCP UTFCP2 UTFCP-TABLE 文字符号化方式比較文字コード用語 UTFCPとUTF-JP 新しいUNICODE符号の必要性 UTF8では、日本語に対応する文字(ひらがな、カタカナ、全ての漢字)の符号長が3バイトです。一方、Shift_JISやEUCでは、2バイトで表せます。この意味で、UTF8は、今までの文字コードよりもある意味において改悪されています。この事情は、他国の文字に置いても同様で、例えば、中国語の文字(漢字)においても、今まで2バイトで表せていた物が、UTF8では、3バイト必要になります。これは、欧米/中東圏以外の世界のあらゆる国や言語の文字において言えます。今まで2バイトで余裕を持って扱えていたものを、突然3バイトで扱わなければならないと言われれば、誰でも納得しがたいものでしょ

nozom 2007/03/11

Unicode

リンク

UTF-16の誕生 | yasuokaの日記 | スラド

たとえば「16ビットのコードを2つ組み合わせることで急場をしのいだ」といった書き方は、いかにも行き当たりばったりでサロゲートペアを作ったように見えますが、実際には最初から計画的にサロゲート用のコードはリザーブしてあったわけですよね。「最初から計画的にサロゲート用のコードはリザーブしてあった」というのは、どう考えても嘘だ。この際だからUTF-16の誕生に関して、私の知る限りのことを記しておこうと思う。 Joseph Dermansly BeckerがJTC1/SC2/WG2に『Proposal for Extended UCS-2 being also a Proposal for Extended Unicode』を提出したのは、1993年4月のことだ。後にJTC1/SC2/WG2 N883と呼ばれるこの文書において、Beckerは、High Half Zoneとして2C00～2FFFを

nozom 2007/01/08

Unicode

リンク

複数の事象を混同しがちなVistaの文字問題

既にいくつかの記事で報道されているように，Windows Vistaでは，JIS X 0213:2004（JIS2004）と呼ぶ規格に対応し，利用できる文字数が増えるとともに一部の文字の形が変わる。そのことで，Windows Vistaを使うと文字に関して何か問題を起こすかのように思われている節があるようだ。私が書いた記事でも，「これらの文字を使ってWindows Vistaで作った文書を，JIS2004に対応していない既存のWindowsで開くと，『・』や『■』などで表示される恐れがある」と記述しており，読者に対して余計な不安を与えてしまったかもしれない。また，「追加文字を使った文書を保存するときは，エンコーディングをUnicodeにする必要がある」との記述は，Windows Vistaだけのことかと誤解を与えてしまったかもしれない。これは，後で説明するようにWindows 98/NT

nozom 2006/12/16

リンク

「すべての漢字を取り出す正規表現」をPHPで試す、を正しく行う:phpspot開発日誌

Information Flow and Stock: [PHP] mb_ereg()じゃない、preg_match_all()に/uをつけるんだ！なので、できる限りpreg系の関数を使いたいわけですが、検索対象や検索パターンに日本語が含まれているときは、日本語処理に対応したereg系の関数であるmb_ereg系の関数が使われることが多いようです。以前、「すべての漢字を取り出す正規表現」をPHPで試す、を正しく行う方法。以前はmb_eregによる方法を示しましたが、次の方法の方がうまく動作するようです。 preg_match_all('/[一-龠]+|[ぁ-ん]+|[ァ-ヴー]+|[a-zA-Z0-9]+|[ａ-ｚＡ-Ｚ０-９]+/u', $strToSplit, $aMatches); print_r($aMatches); // マッチ結果が全出力確かに、なぜか取れない漢字があ

nozom 2006/12/13

リンク

Unicode正規化

正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

nozom 2006/11/29

Unicode

リンク

文字コード規格の基礎：ITpro

この記事は，日経ソフトウエア 1999年10月号に掲載したものです。それ以降の情報が盛り込まれていませんので，現在とは異なる場合があります。文字コード規格の基礎を手早く理解したい場合などにお役立てください。文字コードは間違いなく情報を交換するための「決まりごと」なので，正確を期すため厳密な仕様が規定されている。だが，その仕様そのものを実装するプログラムを作る場合を除けば，プログラマが仕様の詳細を隅々まで理解している必要はない。六法全書を読んでいなくても問題なく普段の生活ができるようなものだ。ここでは，通常のプログラミングをするうえで必要と思われる範囲のことを，なるべく簡潔に説明したい。「半角カナ」のような呼び名は正確さを欠くものだが，多くの人に伝わりやすいので説明の中でも使っていく。説明を簡略化するため「正確な仕様を知りたいときは規格書そのものを必ず参照してほしい」と書きたいところだ

nozom 2006/11/25

リンク

備忘録: Unicode, UCS, and UTF : 404 Blog Not Found

2005年12月20日11:45 カテゴリiTechLogos 備忘録: Unicode, UCS, and UTF まだ混乱が収まっていらっしゃらないようなので、備忘録を兼ねてここでまとめておきましょう。電脳社会の日本語加藤弘一 quinta essentia - del.icio.us買収, Yonahあってるかな? Character Set (文字集合) vs. Encoding (符号化) まずこの二つが別物だということを抑えましょう。UCSというのは名前からわかる通り、Character Set (文字集合)です(とはいえ、Unicode.orgのGlossaryを見ると、符号化の一手段にも見えなくはない)。この段階では、各文字は「背番号」を持っているに過ぎません。狭義の「Unicode」はこの「背番号」を指します。これをどう実際のデータにするのかがEncoding (

nozom 2006/11/24

Unicode

リンク

Client Challenge

A required part of this site couldn’t load. This may be due to a browser extension, network issues, or browser settings. Please check your connection, disable any ad blockers, or try using a different browser.

nozom 2006/11/24

リンク

Unicodeは文字集合か符号化方式か : 404 Blog Not Found

2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。文字コード規格の基礎：ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合，文字の集合エンコード方法という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが，ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。まずUnic

nozom 2006/11/24

Unicode

リンク

404 Blog Not Found:perl & Unicode - その字の名前

2006年11月20日23:00 カテゴリLogos一日一行野郎 perl & Unicode - その字の名前 Unicodeの隠れた功績として、こうした「何て呼べばいいの?」という文字に(はんば無理矢理)名前をつけてくれたこともあります。例えば、新方言時代〜「小さい“お”」って何？「々」はなんていえばいいのだろうか？には々 U+3005 IDEOGRAPHIC ITERATION MARK といった具合に。この手の調査は、Perl5.8以降が手元にあると簡単に出来ます。例えば、 perl -Mencoding=utf8 -MHTML::Entities -Mcharnames=:full -ple \ '$o=ord; $_=sprintf"$_ U+%04X %s", $o, charnames::viacode($o)' で、こんな具合にコードポイントとUnicode

nozom 2006/11/21

Perl
Unicode

リンク

opentechpress.jp - このウェブサイトは販売用です！ - opentechpress リソースおよび情報

This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

nozom 2006/11/09

Unicode

リンク

MySQL 文字化け問題を本気で直す

mysql> status; -------------- mysql Ver 14.7 Distrib 4.1.20, for redhat-linux-gnu (i386) using readline 4.3 Connection id: 36 Current database: staff2006 Current user: maiha@localhost SSL: Not in use Current pager: lv Using outfile: '' Using delimiter: ; Server version: 4.1.20 Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: latin1 Db characterset: latin1 Client char

nozom 2006/10/20

SQL
Unicode

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

nozom 2006/10/06

Perl
Unicode

リンク

Journal of miyagawa (1653)

nozom 2006/10/03

Perl
Unicode

リンク

http://afromania.org/~k-ozaki/diary/20060222.html

nozom 2006/07/16

リンク

Perl Tips: Unicode 文字列: blog.bulknews.net

Perl Tips: Unicode 文字列 Perl 5.6 以降では、文字列に Unicode フラグというのがつきます。 XML など文字コードを明示的に指定した場合などは Unicode 文字列として扱われ、length などが文字セマンティクスで動作します。ある変数に Unicode フラグがたっているかどうかは、Devel::Peek モジュールでわかります。 use Devel::Peek; Dump $s ここで問題になるのが、文字列連結での自動アップグレード問題といわれるもので、内部的に Unicode フラグがたっている文字列と、そうでない文字列を連結すると、自動的にそうでないほうが Unicode にアップグレードされます。ここが文字化けの原因になります。 1. テンプレートを UTF-8 で記述し、Template-Toolkit で読み込み 2. DB は My

nozom 2006/07/07

リンク

daily dayflower - 半角←→全角変換，Unicode::Japanese に未公開機能が…

2008-10-21 追記いまだに（ありがたいことですが）検索で飛んできたりブクマされたりというのがちょいちょいあるので，最新動向を書いておきます。 id:tokuhirom さんが Lingua::JA::Regular::Unicode という Pure Perl Module をリリースなさいました（→ http://d.hatena.ne.jp/tokuhirom/20081018/1224300947）。あなたが作っているアプリで文字列まわりを Unicode::Japanese インスタンスですべて持ちたいわけでなければ（そして，たいていのばあい，持つ必要はないのですが），この Lingua::JA::Regular::Unicode を使うのがベターです。依存性もなく，とても軽量ですので。 2008-10-21 追記おわりウェブアプリを作っていると，ユーザが入力した半角

nozom 2006/05/31

Perl
Unicode

リンク

naoya.dyndns.org is offline

naoya.dyndns.org is currently offline. Please try again later. Questions about our services? Learn more at Dyn.com.

nozom 2006/04/16

Perl
Unicode

リンク

20060401-BundledLibraries - Perlish Magazine

標準添付ライブラリ紹介〜Encode〜書いた人: Ktat 標準添付ライブラリ紹介〜Encode〜はじめにこの連載について Perlの文字コード変換の経緯 jcode.pl Jcode Encode Encode の前に UTF8 フラグ付き文字列 Perl の内部表現 (internal representation) ソースに書かれた文字列は？ Encode Encode::encode Encode::decode Encode::from_to エラーハンドリング Encode::FB_DEFAULT( == 0) Encode::FB_CROAK( == 1) Encode::FB_QUIET Encode::FB_WARN コードリファレンス Encode::Guess 文字コードの推測 Encodeの関数の引数に "Guess" を与える guess_encodin

nozom 2006/04/16

Perl
Unicode

リンク

はてなブックマーク

タグ

関連タグで絞り込む (15)

Unicodeに関するnozomのブックマーク (36)

お知らせ

月間はてなブックマーク数ランキング（2026年4月）

今週のはてなブックマーク数ランキング（2026年4月第4週）

今週のはてなブックマーク数ランキング（2026年4月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス