タグ

Unicodeに関するotsuneのブックマーク (30)

  • テキストの文字種分割の補足 - daily dayflower

    Perl で日語テキストを簡単に字種かたまりに分割できないかな、 と思い、perlunicode を読みながらサンプルプログラムを書いてみました。 対象テキストは UTF-8Perl で日語テキストを字種分割 たつをさんは,m// でマッチングさせて分割させてますけど,これだと正規表現で網羅されてないトークンが失われてしまうと思います。 #!/usr/bin/perl use strict; use warnings; use utf8; binmode \*STDOUT, ':utf8'; my $src = <<"END_DATA"; zーあyxルーラでう、う9 10AB.DE「"GH'」★で漢字をカ・ナったー!?MJD39\x{2466}。 END_DATA print $src, "\n"; my @cs = ( $src =~ m/ ( \p{M}+ | \p{N}+

    テキストの文字種分割の補足 - daily dayflower
  • Perl 5.8.x で BOM を扱う

    Perl 5.8.8 でも、UnicodeのBOMを自動的に削ってくれない。わりとよくやるので、BOM.pmというのをとりあえず作ってみた。 (その後、便利なモジュールを発見したので、アルゴリズムに興味がない人は「Perl 5.8.x 以降で BOM を操作するモジュール」を参照してください) package BOM; our @TABLE; BEGIN{ @TABLE = ( ['UTF-32BE', pack('C*',   0,   0,0xFE,0xFF)], ['UTF-32LE', pack('C*',0xFF,0xFE,   0,   0)], ['UTF-16BE', pack('C*',0xFE,0xFF          )], ['UTF-16LE', pack('C*',0xFF,0xFE          )], ['UTF-8'   , pack('C*',0x

    otsune
    otsune 2007/05/19
    PerlにおけるUnicodeフラグとBOMについてってperldoc perlunicodeより噛み砕いた文章ってあるのか
  • はてなにUnicode文字を入力する方法。 - Underconstruction by Taiyo

    &#x[16bitコード]; Mac OS Xなら文字パレットで検索すりゃおっけい……ていうか、一日もはやくUnicodeに対応してほしいところ。

    はてなにUnicode文字を入力する方法。 - Underconstruction by Taiyo
  • 安岡孝一の日記: 鴎と鷗と朝日字体

    「表外漢字字体表」の答申をうけて、新聞業界も続々と表外漢字を伝統的字体に戻しはじめた。平成16年にはJIS規格も国語審議会の答申を生かすべく改正され、「かもめ」のコードは朝日字体に譲って、あらたに「かもめの正字体」に対応するコードが作られた。 違う。JIS規格において「鴎」と「鷗」の文字コードが分離されたのは、1990年10月1日のJIS X 0212制定の時点だ。JIS X 0212の76区31点に「鷗」が収録されたことで、JIS X 0208の18区10点の「鴎」との分離がおこなわれた、と考えるべきだ。この結果、1995年1月1日制定のJIS X 0221においても「鴎」と「鷗」は異なる文字コードとなっており、Windows 98ですら「鴎」と「鷗」の両方を表示できた。あるいは、JIS X 0213に限ったとしても、2000年1月20日の制定時点で「鴎」と「鷗」には別の文字コードが付与

  • Matzにっき(2007-03-12)「あいうえお」はインド由来

    << 2007/03/ 1 1. [Ruby] Rubyist Magazine - Rubyist Magazine 0018 号 2. ストレートタイプのスマートフォン「NOKIA E61」レポート 3. ITmedia エンタープライズ:TopCoderで世界と渡り合う日IBMの異才 - 夷藤勇人 4. My Sleepless Nights in the Big Apple: Apple、サブノート市場へ再参入へ 5. ITmedia Biz.ID:失敗しないプロジェクトマネジメント -- AppleはてなGoogleに学ぶ3つのヒント 6. 平成19年度「情報大航海プロジェクト(モデルサービスの開発と実証)」に係る委託先の公募について 7. [言語] PyCon 2007 Review 8. [Ruby] deep_science:Re:バザール「オープンソース、そして「R

  • 文字コードモヒカン族 (#1083022) | Windows Vistaの文字セット問題 | スラド

    勝手に「文字化け」の意味を拡大解釈した上でタイトルとして使うのはどうなのかと。この記事は XP と Vista では字形が変わるという問題だけ言っていてソリューションを一切説明していない辺りが微妙すぎます。 わざとなのか知らないのかは知りませんが (おそらく後者)、Vista で採用されている MS 明朝/ゴシック 3.2 は XP や Server 2003 にも提供されます。このため、XP 環境でも Vista と同じ字形での表示は可能となります。 さらに移行期間中の措

  • UTF-16の誕生 | yasuokaの日記 | スラド

    たとえば「16ビットのコードを2つ組み合わせることで急場をしのいだ」といった書き方は、いかにも行き当たりばったりでサロゲートペアを作ったように見えますが、実際には最初から計画的にサロゲート用のコードはリザーブしてあったわけですよね。 「最初から計画的にサロゲート用のコードはリザーブしてあった」というのは、どう考えても嘘だ。この際だからUTF-16の誕生に関して、私の知る限りのことを記しておこうと思う。 Joseph Dermansly BeckerがJTC1/SC2/WG2に『Proposal for Extended UCS-2 being also a Proposal for Extended Unicode』を提出したのは、1993年4月のことだ。後にJTC1/SC2/WG2 N883と呼ばれるこの文書において、Beckerは、High Half Zoneとして2C00~2FFFを

  • JIS X 0212-1990とJIS X 0213:2004 | yasuokaの日記 | スラド

    とあったので、さすがにギョッとなった。そんなこと、私、語ってないぞ。『JIS X 0212とJIS X 0213』(京都大学大型計算機センター第64回研究セミナー報告, 2000年3月24日, pp.19-46)にも書いたとおり、JIS X 0212-1990の文字のうち3144字程度はJIS X 0213:2000に含まれていない。ここで「程度」と書いたのにはわけがあって、「嶲」「殩」「瓯」「籩」「鳦」などのように、JIS X 0212とJIS X 0213で包摂関係がないにもかかわらず、Unicodeが共有されているというヤヤコシイ字があるからだ。さらには、JIS X 0213:2000とJIS X 0213:2004との間で追加された10字のうち、「瘦」と「繫」の2字がJIS X 0212に含まれているが、「瘦」の方はJIS X 0212と微妙に字体が違う、というヤヤコシサだ。こうい

  • VistaでUnicode以外の選択肢はなかったのか?──京大の安岡助教授が語る

    「『JIS X 0213』の基的な考えは,必要な漢字を使いたくても使えなくて困っている人たちを助けることだった」。こう語るのは,京都大学人文科学研究所附属漢字情報研究センター助教授の安岡孝一氏。1997年以来JISの委員としてJIS規格の文字コード(「JIS X 0213」や「JIS X 0213:2004」など)の策定にかかわってきた安岡氏に,最近の文字コードの変遷や,Windows VistaにおけるJIS X 0213対応に関する見解を聞いた。 ──JIS X 0213の概要や,それが2004年に改訂された経緯などを教えてほしい。 安岡氏:過去に使われていた文字集合「JIS X 0208」や「JIS X 0212」には,日の地名で使われている文字が抜けているなど,重要な文字の不足がありました。ただしこの問題は,そこに住む地元の人は困っていても,日全体で見るとほとんどの人が困って

    VistaでUnicode以外の選択肢はなかったのか?──京大の安岡助教授が語る
  • Windows Vistaのjp90タグにおける「喩」の問題 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    Microsoftのサイト(JIS X 0213:2004 対応と新日フォント「メイリオ」について)から入手できる資料には、Windows VistaのMSゴシックおよびMS明朝について、以下のような記述がある。 字形セットとしては、Windows XPで利用可能だった122文字のJIS90字形に、'jp90' OpenType feature tagによりアクセスができるようになっています。 この122文字のリストには、「喩」が含まれている*1。そして、「喩」については、「JIS90字形」欄のグリフ(「人」形)は、「JIS90字形」ではない。逆に、「JIS2004字形」欄のグリフ(「入」形)のほうが「JIS90字形」である。 JIS X 0208の規格票における「喩」の例示字体は、JIS78とJIS83では「人」形、JIS90以降は「入」形。つまり、JIS78もJIS83も略字風の字

    Windows Vistaのjp90タグにおける「喩」の問題 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 安岡孝一の日記: JIS X 0213:2004で追加された10字

    それは,先の字体の変更ではなく,追加となった10文字だ。具体的には次の通りである。 倶 剥 叱 呑 嘘 妍 屏 并 痩 繋 これらの文字の正字を使うと,これまで使っていた略字とは別のキャラクタ・コードになる。検索などが面倒になるだけでなく,これらの文字を使ってWindows Vistaで作った文書を,JIS2004に対応していない既存のWindowsで開くと,「・」や「■」などで表示される恐れがある。 最初の8字(俱・剝・𠮟・吞・噓・姸・屛・幷)については、確かに表示が化ける可能性は否定できないが、瘦と繫の2字は大丈夫なはずだ。というのも、これら2字はJIS X 0212に収録されていたので、Microsoftは日語版Windows 98以降、表示に関してはサポートしてきたからだ。つまり、まずいのは「JIS X 0213:2004で追加された10字」などではなく、「JIS X 0213

  • hide-k.net#blog: 続 C::P::Email::Japaneseの文字化け対処

    hide-k.net#blog: C::P::Email::Japaneseの文字化け対処 でWAVE DASH問題に何とか対応しようとしてMIME::TT::Lite::Japaneseに手を加えるというトンチンカンなことをやっていましたが、subtech - Bulknews::Subtech - cp932 vs. shift_jisでEncode::Aliasを使えばいいんじゃないかというお話があったのでEncode::Unicode::Japaneseとからめて試してみました。 sub send : Private { use Encode::Alias; use Encode::Unicode::Japanese; define_alias( qr/jis$/i => '"unijp-jis"' ); $c->email( Template => 'email.tt', To

  • Unicode 5.0:言語の分裂に挑み続けるUnicodeの新バージョン | OSDN Magazine

    Unicode Consortiumの究極的な目的は、人間界で用いられているすべての言語をコンピュータ上で再現するための標準を定めることだ。こうした目的を完全に達成するのはしばらく先のことになりそうだが、およそ3年をかけた作業の成果としてリリースされるUnicodeバージョン5.0の登場は、目標達成に向けて更なる一歩を前進させることになるだろう。こう説明するのは、同標準の創設者の1人でありUnicode委員会の代表を務めるMark Davis氏である。最終的な公開日が至近に迫った先日、Davis氏は多忙な中時間を割き、Unicodeの開発過程と克服すべき課題について語ってくれた。 Unicodeによるエンコードは、キャラクタとそのプロパティおよび文書による説明という3つの要素で構成されていると、Davis氏は説明する。ただし誤解されがちだが、ここで言うキャラクタとは特定のフォントセット内で

    Unicode 5.0:言語の分裂に挑み続けるUnicodeの新バージョン | OSDN Magazine
  • Encode.pm, Jcode.pm, Text::Iconv のベンチマーク比較@Public Diary, Encode, Text::Iconv, Unicode::Japanese, Jcode, jcode.pl のベンチマ.. - [ぴ](2006-10-27)

    _ [Perl] Encode.pm, Jcode.pm, Text::Iconv のベンチマーク比較@Public Diary Encode.pm Jcode.pm のベンチマーク比較@isoya9の日記 なるほど。 あと Unicode::Japanese と jcode.pl も加えて、自動検出の使用・不使用での差も見たいところですね。 _ [Perl] Encode, Text::Iconv, Unicode::Japanese, Jcode, jcode.pl のベンチマーク比較 というわけで、やってみました。 入力コードの自動判別機能を持つモジュールはそれを使った場合 (guess) と使わない場合 (fixed) 両方でテストjcode.pl は型グロブ渡し (grob) 参照渡し (ref) 両方をテストjcode.pl はキャッシュ使用 (cache) 不使用 (noca

    Encode.pm, Jcode.pm, Text::Iconv のベンチマーク比較@Public Diary, Encode, Text::Iconv, Unicode::Japanese, Jcode, jcode.pl のベンチマ.. - [ぴ](2006-10-27)
  • リナックス上のbig5エンコード - huixingの日記

    台湾政府の不手際もあって台湾での繁体字は民間で作られたbig5が採用されているが政府がこれを正式に標準と認めたことはない。これに加えて漢字の不足を埋めるためにさまざまな拡張big5が現れたが、互いに相容れないものとなっている。会話でよく出てくる殺手鐧のような単語においても、鐧が出ないので鍆で代用するなど漢字文化に対する重大な問題になっている。またコード衝突問題で有名な許蓋功問題がある。これはもともとASCIIコードの0x5Cと0x7Cをbig5に取り込んでしまったためにリナックスで中国語処理をする際、必ずこれら三文字に対して特別処理をしなければならないようになってしまった。big5には問題が多々あるためユニコードに移る傾向にあるがbig5とユニコードは必ずしも一対一で対応するものでもない。例えば中国海字集のかなりの字がユニコードには見あたらないものだ。 Big5 碼基上是以兩個 ASCI

    リナックス上のbig5エンコード - huixingの日記
  • Public Diary(2006-10-27)

    ● [プログラミング] Encode.pm, Jcode.pm, Text::Iconv のベンチマーク比較 Encode.pm Jcode.pm のベンチマーク比較 ではEncode.pmとJcode.pmのベンチマークをとっていて便利。ただし、もう一つの変換系であるText::Iconvが含まれていなかったので、追試も兼ねてText::Iconvを含めたベンチマークをやってみる。スクリプトはこんな感じ: use strict; use warnings; use Benchmark ':all'; use Jcode; use Encode; use Text::Iconv; my $text = qq{ASCII, 漢字、カタカナ、ひらがなの混じったtext}; cmpthese( sort timethese( 10000, { "Jcode::new" => sub { $tex

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • 多符号化対応w3m

    <Top of this site> <Top of programming pages in this site> <English version of this document> 多符号化方式対応 w3m 以下の方式で符号化された文字セットに対応させたw3mの亜種を公開します: ISO 2022 UTF-8、UTF-16、UTF-16BE、UTF-16LE Shift_JIS Big Five EUC-tw GBK、GB 18030-2000 (a.k.a. GBK2K) Johab Unified Hangul KOI8-R KOI8-U Microsoft Windows Codepage 1250 〜 1258 …だけのつもりだったのだけれども、 諸般の事情により ローカルファイルやHTTPレスポンスのボディのencodingの処理プログラムを実行時に動的に指定可能、 ローカ

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    otsune
    otsune 2006/08/14
    YAMLの日本語エンコード関係は良くわかんネェな
  • 某日記(前期): Unicode 嫌いによる Unicode 擁護

    大阪: .加古川 103: .西脇市で乗り換え: .へそ: .谷川 113: .福知山着: .福知山から特急きのさきでワープ: .綾部 113: .東舞鶴から 125: .若狭湾の小島: .敦賀からサンダーバード: .富山にて TLR (乗らなかったけど): .富山から南下: .猪谷にて神岡鉄道おくひだ1号(乗らず): .猪谷駅舎。ここからはバス: .バス。道狭い: バラストが真新しい線路: 作業車: 国交省の応急組立橋: 線路つぶして道にしてる: 製作中: ここも線路の上に道を通してる。道路が直らない限り鉄道も復旧しない: 今日はおだやかな宮川: 鉄橋用橋脚製作中: 別の鉄橋組み立て櫓: さらに別の鉄橋の取付部製作中: 網で覆われた橋桁: .角川: 飛騨の観光には車が必要: .古川からは特急ひだ: .高山: 増結するために、古川から来た方の編成は 3 番線→ 1 番線と渡る: .今日の