[B! Unicode] otsuneのブックマーク

テキストの文字種分割の補足 - daily dayflower

Perl で日本語テキストを簡単に字種かたまりに分割できないかな、と思い、perlunicode を読みながらサンプルプログラムを書いてみました。対象テキストは UTF-8。 Perl で日本語テキストを字種分割たつをさんは，m// でマッチングさせて分割させてますけど，これだと正規表現で網羅されてないトークンが失われてしまうと思います。 #!/usr/bin/perl use strict; use warnings; use utf8; binmode \*STDOUT, ':utf8'; my $src = <<"END_DATA"; zーあyxルーラでう、う9 10AB.DE「"GH'」★で漢字をカ・ナ食ったー!?ＭＪＤ３９\x{2466}。 END_DATA print $src, "\n"; my @cs = ( $src =~ m/ ( \p{M}+ | \p{N}+

otsune 2008/02/07

Unicode

リンク

Perl 5.8.x で BOM を扱う

Perl 5.8.8 でも、UnicodeのBOMを自動的に削ってくれない。わりとよくやるので、BOM.pmというのをとりあえず作ってみた。 (その後、便利なモジュールを発見したので、アルゴリズムに興味がない人は「Perl 5.8.x 以降で BOM を操作するモジュール」を参照してください） package BOM; our @TABLE; BEGIN{ @TABLE = ( ['UTF-32BE', pack('C*', 0, 0,0xFE,0xFF)], ['UTF-32LE', pack('C*',0xFF,0xFE, 0, 0)], ['UTF-16BE', pack('C*',0xFE,0xFF )], ['UTF-16LE', pack('C*',0xFF,0xFE )], ['UTF-8' , pack('C*',0x

otsune 2007/05/19

PerlにおけるUnicodeフラグとBOMについてってperldoc perlunicodeより噛み砕いた文章ってあるのか

Perl
Unicode

リンク

はてなにUnicode文字を入力する方法。 - Underconstruction by Taiyo

&#x[16bitコード]; Mac OS Xなら文字パレットで検索すりゃおっけい……ていうか、一日もはやくUnicodeに対応してほしいところ。

otsune 2007/05/09

リンク

安岡孝一の日記: 鴎と鷗と朝日字体

「表外漢字字体表」の答申をうけて、新聞業界も続々と表外漢字を伝統的字体に戻しはじめた。平成16年にはＪＩＳ規格も国語審議会の答申を生かすべく改正され、「かもめ」のコードは朝日字体に譲って、あらたに「かもめの正字体」に対応するコードが作られた。違う。JIS規格において「鴎」と「鷗」の文字コードが分離されたのは、1990年10月1日のJIS X 0212制定の時点だ。JIS X 0212の76区31点に「鷗」が収録されたことで、JIS X 0208の18区10点の「鴎」との分離がおこなわれた、と考えるべきだ。この結果、1995年1月1日制定のJIS X 0221においても「鴎」と「鷗」は異なる文字コードとなっており、Windows 98ですら「鴎」と「鷗」の両方を表示できた。あるいは、JIS X 0213に限ったとしても、2000年1月20日の制定時点で「鴎」と「鷗」には別の文字コードが付与

otsune 2007/03/20

Unicode

リンク

Matzにっき(2007-03-12)「あいうえお」はインド由来

<< 2007/03/ 1 1. [Ruby] Rubyist Magazine - Rubyist Magazine 0018 号 2. ストレートタイプのスマートフォン「NOKIA E61」レポート 3. ITmedia エンタープライズ：TopCoderで世界と渡り合う日本IBMの異才 - 夷藤勇人 4. My Sleepless Nights in the Big Apple: Apple、サブノート市場へ再参入へ 5. ITmedia Biz.ID：失敗しないプロジェクトマネジメント -- Appleやはてな、Googleに学ぶ3つのヒント 6. 平成19年度「情報大航海プロジェクト（モデルサービスの開発と実証）」に係る委託先の公募について 7. [言語] PyCon 2007 Review 8. [Ruby] deep_science:Re:バザール「オープンソース、そして「R

otsune 2007/03/19

Unicode

リンク

文字コードモヒカン族 (#1083022) | Windows Vistaの文字セット問題 | スラド

勝手に「文字化け」の意味を拡大解釈した上でタイトルとして使うのはどうなのかと。この記事は XP と Vista では字形が変わるという問題だけ言っていてソリューションを一切説明していない辺りが微妙すぎます。わざとなのか知らないのかは知りませんが (おそらく後者)、Vista で採用されている MS 明朝/ゴシック 3.2 は XP や Server 2003 にも提供されます。このため、XP 環境でも Vista と同じ字形での表示は可能となります。さらに移行期間中の措

otsune 2007/01/03

リンク

UTF-16の誕生 | yasuokaの日記 | スラド

たとえば「16ビットのコードを2つ組み合わせることで急場をしのいだ」といった書き方は、いかにも行き当たりばったりでサロゲートペアを作ったように見えますが、実際には最初から計画的にサロゲート用のコードはリザーブしてあったわけですよね。「最初から計画的にサロゲート用のコードはリザーブしてあった」というのは、どう考えても嘘だ。この際だからUTF-16の誕生に関して、私の知る限りのことを記しておこうと思う。 Joseph Dermansly BeckerがJTC1/SC2/WG2に『Proposal for Extended UCS-2 being also a Proposal for Extended Unicode』を提出したのは、1993年4月のことだ。後にJTC1/SC2/WG2 N883と呼ばれるこの文書において、Beckerは、High Half Zoneとして2C00～2FFFを

otsune 2007/01/03

Unicode

リンク

JIS X 0212-1990とJIS X 0213:2004 | yasuokaの日記 | スラド

とあったので、さすがにギョッとなった。そんなこと、私、語ってないぞ。『JIS X 0212とJIS X 0213』(京都大学大型計算機センター第64回研究セミナー報告, 2000年3月24日, pp.19-46)にも書いたとおり、JIS X 0212-1990の文字のうち3144字程度はJIS X 0213:2000に含まれていない。ここで「程度」と書いたのにはわけがあって、「嶲」「殩」「瓯」「籩」「鳦」などのように、JIS X 0212とJIS X 0213で包摂関係がないにもかかわらず、Unicodeが共有されているというヤヤコシイ字があるからだ。さらには、JIS X 0213:2000とJIS X 0213:2004との間で追加された10字のうち、「瘦」と「繫」の2字がJIS X 0212に含まれているが、「瘦」の方はJIS X 0212と微妙に字体が違う、というヤヤコシサだ。こうい

otsune 2007/01/03

Unicode

リンク

VistaでUnicode以外の選択肢はなかったのか？──京大の安岡助教授が語る

「『JIS X 0213』の基本的な考えは，必要な漢字を使いたくても使えなくて困っている人たちを助けることだった」。こう語るのは，京都大学人文科学研究所附属漢字情報研究センター助教授の安岡孝一氏。1997年以来JISの委員としてJIS規格の文字コード（「JIS X 0213」や「JIS X 0213:2004」など）の策定にかかわってきた安岡氏に，最近の文字コードの変遷や，Windows VistaにおけるJIS X 0213対応に関する見解を聞いた。 ──JIS X 0213の概要や，それが2004年に改訂された経緯などを教えてほしい。安岡氏：過去に使われていた文字集合「JIS X 0208」や「JIS X 0212」には，日本の地名で使われている文字が抜けているなど，重要な文字の不足がありました。ただしこの問題は，そこに住む地元の人は困っていても，日本全体で見るとほとんどの人が困って

otsune 2006/12/26

Unicode

リンク

Windows Vistaのjp90タグにおける「喩」の問題 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

Microsoftのサイト（JIS X 0213:2004 対応と新日本語フォント「メイリオ」について）から入手できる資料には、Windows VistaのMSゴシックおよびMS明朝について、以下のような記述がある。字形セットとしては、Windows XPで利用可能だった122文字のJIS90字形に、'jp90' OpenType feature tagによりアクセスができるようになっています。この122文字のリストには、「喩」が含まれている*1。そして、「喩」については、「JIS90字形」欄のグリフ（「人」形）は、「JIS90字形」ではない。逆に、「JIS2004字形」欄のグリフ（「入」形）のほうが「JIS90字形」である。 JIS X 0208の規格票における「喩」の例示字体は、JIS78とJIS83では「人」形、JIS90以降は「入」形。つまり、JIS78もJIS83も略字風の字

otsune 2006/12/08

Unicode

リンク

安岡孝一の日記: JIS X 0213:2004で追加された10字

それは，先の字体の変更ではなく，追加となった10文字だ。具体的には次の通りである。倶　剥　叱　呑　嘘　妍　屏　并　痩　繋これらの文字の正字を使うと，これまで使っていた略字とは別のキャラクタ・コードになる。検索などが面倒になるだけでなく，これらの文字を使ってWindows Vistaで作った文書を，JIS2004に対応していない既存のWindowsで開くと，「・」や「■」などで表示される恐れがある。最初の8字(俱・剝・𠮟・吞・噓・姸・屛・幷)については、確かに表示が化ける可能性は否定できないが、瘦と繫の2字は大丈夫なはずだ。というのも、これら2字はJIS X 0212に収録されていたので、Microsoftは日本語版Windows 98以降、表示に関してはサポートしてきたからだ。つまり、まずいのは「JIS X 0213:2004で追加された10字」などではなく、「JIS X 0213

otsune 2006/11/30

Unicode

リンク

hide-k.net#blog: 続 C::P::Email::Japaneseの文字化け対処

hide-k.net#blog: C::P::Em ail::Japaneseの文字化け対処でWAVE DASH問題に何とか対応しようとしてMIME::TT::Lite::Japaneseに手を加えるというトンチンカンなことをやっていましたが、subtech - Bulknews::Subtech - cp932 vs. shift_jisでEncode::Aliasを使えばいいんじゃないかというお話があったのでEncode::Unicode::Japaneseとからめて試してみました。 sub send : Private { use Encode::Alias; use Encode::Unicode::Japanese; define_alias( qr/jis$/i => '"unijp-jis"' ); $c->em ail( Template => 'em ail.tt', To

otsune 2006/11/17

Perl
Unicode

リンク

Unicode 5.0：言語の分裂に挑み続けるUnicodeの新バージョン | OSDN Magazine

Unicode Consortiumの究極的な目的は、人間界で用いられているすべての言語をコンピュータ上で再現するための標準を定めることだ。こうした目的を完全に達成するのはしばらく先のことになりそうだが、およそ3年をかけた作業の成果としてリリースされるUnicodeバージョン5.0の登場は、目標達成に向けて更なる一歩を前進させることになるだろう。こう説明するのは、同標準の創設者の1人でありUnicode委員会の代表を務めるMark Davis氏である。最終的な公開日が至近に迫った先日、Davis氏は多忙な中時間を割き、Unicodeの開発過程と克服すべき課題について語ってくれた。 Unicodeによるエンコードは、キャラクタとそのプロパティおよび文書による説明という3つの要素で構成されていると、Davis氏は説明する。ただし誤解されがちだが、ここで言うキャラクタとは特定のフォントセット内で

otsune 2006/11/09

Unicode

リンク

Encode.pm, Jcode.pm, Text::Iconv のベンチマーク比較@Public Diary, Encode, Text::Iconv, Unicode::Japanese, Jcode, jcode.pl のベンチマ.. - [ぴ](2006-10-27)

_ [Perl] Encode.pm, Jcode.pm, Text::Iconv のベンチマーク比較@Public Diary Encode.pm Jcode.pm のベンチマーク比較@isoya9の日記なるほど。あと Unicode::Japanese と jcode.pl も加えて、自動検出の使用・不使用での差も見たいところですね。 _ [Perl] Encode, Text::Iconv, Unicode::Japanese, Jcode, jcode.pl のベンチマーク比較というわけで、やってみました。入力コードの自動判別機能を持つモジュールはそれを使った場合 (guess) と使わない場合 (fixed) 両方でテストjcode.pl は型グロブ渡し (grob) 参照渡し (ref) 両方をテストjcode.pl はキャッシュ使用 (cache) 不使用 (noca

otsune 2006/10/31

Perl
Unicode

リンク

リナックス上のbig5エンコード - huixingの日記

台湾政府の不手際もあって台湾での繁体字は民間で作られたbig５が採用されているが政府がこれを正式に標準と認めたことはない。これに加えて漢字の不足を埋めるためにさまざまな拡張big5が現れたが、互いに相容れないものとなっている。会話でよく出てくる殺手鐧のような単語においても、鐧が出ないので鍆で代用するなど漢字文化に対する重大な問題になっている。またコード衝突問題で有名な許蓋功問題がある。これはもともとASCIIコードの0x5Cと0x7Cをbig5に取り込んでしまったためにリナックスで中国語処理をする際、必ずこれら三文字に対して特別処理をしなければならないようになってしまった。big5には問題が多々あるためユニコードに移る傾向にあるがbig5とユニコードは必ずしも一対一で対応するものでもない。例えば中国海字集のかなりの字がユニコードには見あたらないものだ。 Big5 碼基本上是以兩個 ASCI

otsune 2006/10/30

Unicode

リンク

Public Diary(2006-10-27)

● [プログラミング] Encode.pm, Jcode.pm, Text::Iconv のベンチマーク比較 Encode.pm Jcode.pm のベンチマーク比較ではEncode.pmとJcode.pmのベンチマークをとっていて便利。ただし、もう一つの変換系であるText::Iconvが含まれていなかったので、追試も兼ねてText::Iconvを含めたベンチマークをやってみる。スクリプトはこんな感じ: use strict; use warnings; use Benchmark ':all'; use Jcode; use Encode; use Text::Iconv; my $text = qq{ASCII, 漢字、カタカナ、ひらがなの混じったtext}; cmpthese( sort timethese( 10000, { "Jcode::new" => sub { $tex

otsune 2006/10/29

Perl
Unicode

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

otsune 2006/10/28

Unicode

リンク

多符号化対応w3m

<Top of this site> <Top of programming pages in this site> <English version of this document> 多符号化方式対応 w3m 以下の方式で符号化された文字セットに対応させたw3mの亜種を公開します: ISO 2022 UTF-8、UTF-16、UTF-16BE、UTF-16LE Shift_JIS Big Five EUC-tw GBK、GB 18030-2000 (a.k.a. GBK2K) Johab Unified Hangul KOI8-R KOI8-U Microsoft Windows Codepage 1250 〜 1258 …だけのつもりだったのだけれども、諸般の事情によりローカルファイルやHTTPレスポンスのボディのencodingの処理プログラムを実行時に動的に指定可能、ローカ

otsune 2006/10/01

Unicode
w3m

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

otsune 2006/08/14

YAMLの日本語エンコード関係は良くわかんネェな

リンク

某日記(前期): Unicode 嫌いによる Unicode 擁護

．大阪: ．加古川 103: ．西脇市で乗り換え: ．へそ: ．谷川 113: ．福知山着: ．福知山から特急きのさきでワープ: ．綾部 113: ．東舞鶴から 125: ．若狭湾の小島: ．敦賀からサンダーバード: ．富山にて TLR (乗らなかったけど): ．富山から南下: ．猪谷にて神岡鉄道おくひだ1号(乗らず): ．猪谷駅舎。ここからはバス: ．バス。道狭い: バラストが真新しい線路: 作業車: 国交省の応急組立橋: 線路つぶして道にしてる: 製作中: ここも線路の上に道を通してる。道路が直らない限り鉄道も復旧しない: 今日はおだやかな宮川: 鉄橋用橋脚製作中: 別の鉄橋組み立て櫓: さらに別の鉄橋の取付部製作中: 網で覆われた橋桁: ．角川: 飛騨の観光には車が必要: ．古川からは特急ひだ: ．高山: 増結するために、古川から来た方の編成は 3 番線→ 1 番線と渡る: ．今日の

otsune 2006/07/10

Unicode

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

Unicodeに関するotsuneのブックマーク (30)

お知らせ

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

今週のはてなブックマーク数ランキング（2025年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス