[B! CJKV][encoding] yuguiのブックマーク

いわゆる全角スペースが必要な場合の逃げ道 - Backtrace (2006-10-05)

yugui 2006/10/06

全角スペースをソースに書くのは危険なので、どうやってescape表記するか。Rubyも標準でスマートな方法が欲しいよなぁ。2.0で入るんだっけ。というか、Unicode準拠の処理系は全角空白もnbspもSP扱いして欲しいなぁ。

リンク

iR3の日記 - ActiveMailer の subject 文字化け

http://radiantcms.org/ 遂に Rails の CMS が.. アジャイル（オブジェクト指向スクリプト）言語 Ruby http://www.ruby-lang.org/ja/ サイトも Radiant CMS で模様換え @_@ すばらしい！前田さん GoodJob!!! Railsメールは ActiveHeart で日本語化するのが定番で、そのように実装してきたのですが、メールsubject は MIMEエンコードが必要。メールにかけられた呪文「MIME〜前編」 http://www.atmarkit.co.jp/fnetwork/rensai/netpro03/netpro01.html ActiveHeartだけではこの MIME対応が無いので、そのままではsubjectは文字化けしてしまいます。西さん（舞波乙）の「Ruby on Rails入門」では、

yugui 2006/09/12

リンク

より適切な文字処理のための基礎的研究

概要・目的近年、ISO/IEC 10646 (Unicode) や JIS X 0213、GB18030 などの大規模漢字コード規格が公表され、少なくとも文字数の上では大幅な改善がなされたように見える。しかし、これらの規格の内容を詳細に検討してみると、多くの重複や採録条件の矛盾等が少なからず見出される。現在、データベースやソフトウェアの多くがこれらの規格に依存しているのであるが、上記のような問題点を早急に指摘し改善をしていかなければ、その価値が著しく損なわれる可能性がある。本データベースは、これら大規模漢字規格の問題点をあぶり出すための基礎資料として、また、テキスト・データベースの検索エンジンや、次世代の文字処理系、言語処理系、OSなどにして組み込まれることを目的とするものである。そのため、公開は自由な利用が可能なライセンスの下で行われる。このデータベー

yugui 2006/08/19

リンク

Unicode::Normalize で遊ぶ - daily dayflower

Unicode の規格では，文字の合字（リガチャ等）等を統一的に扱えるように，「正規化」という処理が仕様として定まっています。この正規化処理のうち「互換性分解」という処理を行うと副作用として半角カナを全角カナに変換できます（逆に全角カナ→半角カナはできません）。 #!/usr/bin/perl use strict; use utf8; use Encode; use Unicode::Normalize; my $src = 'ﾎﾟﾝｼﾞｭｰｽ'; my $dst = Unicode::Normalize::NFKC($src); print Encode::encode('utf8', "${src} => ${dst}\n"); # OUTPUT is: ﾎﾟﾝｼﾞｭｰｽ => ポンジュースUnicode の正規化についてはperl5.8のUnicodeサポートおよび http:/

yugui 2006/06/23

リンク

eucJP-ms と CP51932 の違いコードページ932/ウェブリブログ

「ウェブリブログ」は 2023年1月31日をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

yugui 2006/06/12

"ConvertINetMultiByteToUnicode()"

リンク

「すべての漢字を取り出す正規表現」の続き - totonのブログ

id:toton:20051102 がはてなブックマークの「最近の人気エントリー」のトップに来ていたため、アクセスが結構あった様子。っちゅーわけでアフターケアとして少し検証してみます。間違いがあったらヤなのでwww.unicode.orgのUnihan Radical-Stroke Index っちゅーunicodeデータベース検索で「一:U+4E00」と「龠:U+9FA0」の境界を調べてみた。参考：id:toton:20050120 「一:U+4E00」のコード体系とフォント表示と「龠:U+9FA0」のコード体系とフォント表示一発で検索できて便利ですね。ではU+9F00からU+9FFFまでのテーブルを参照しましょう。 9Fのテーブル内で「龠:U+9FA0」を探すのだからA0(最上段の右端)を見ると、U+9FA5まで漢字が存在する。こりゃいかんと思ったが「龠:U+9FA0」はJIS

yugui 2006/06/08

リンク

daily dayflower - 半角←→全角変換，Unicode::Japanese に未公開機能が…

2008-10-21 追記いまだに（ありがたいことですが）検索で飛んできたりブクマされたりというのがちょいちょいあるので，最新動向を書いておきます。 id:tokuhirom さんが Lingua::JA::Regular::Unicode という Pure Perl Module をリリースなさいました（→ http://d.hatena.ne.jp/tokuhirom/20081018/1224300947）。あなたが作っているアプリで文字列まわりを Unicode::Japanese インスタンスですべて持ちたいわけでなければ（そして，たいていのばあい，持つ必要はないのですが），この Lingua::JA::Regular::Unicode を使うのがベターです。依存性もなく，とても軽量ですので。 2008-10-21 追記おわりウェブアプリを作っていると，ユーザが入力した半角

yugui 2006/05/30

リンク

PDF　千夜一夜: 2006年05月18日アーカイブ

PDFからテキスト抽出のために　ToUnicode CMap PDFにおけるフォントの取り扱いに関連して、ToUnicode CMapというものがあります。今日はこれについて説明します。アウトライン・フォントについての説明でお分かりいただけたかと思いますが、PDFにアウトライン・フォントを使って記録された文字を表示する仕組みは、フォントの中にあるグリフのアウトラインをラスタライザで可視化することになります。これに対して、もう一つのPDFの利用方法として、PDFを読み上げたり、あるいは、検索エンジンで検索したり、あるいはテキスト情報を取り出して他のアプリケーションで使用する、などが考えられます。通常、上で述べたような処理にはテキストが必要です。テキストについては、2005年12月15日 PDFと文字（4) – 文字の取り扱いで説明しましたので、初めての方は12月15日の話をお読みになっ

yugui 2006/05/18

リンク

日本語ファイル名

まだよくわかっていないことが多いので，お気づきの点がありましたらご教示ください。 [2006-05-08] WindowsのIEで化けていた(^^;)ので直しました。 [2007-03-14] IE5/6はUTF-8をURLエンコードした名前でもOKだそうです（Thanks: 白水さん）。問題点日本語ファイル名の扱い方はブラウザによって異なり，たいへん厄介です。まず，ファイル名はURLのパスとして与えることができます： <a href="fakefile.php/日本語ファイル名.txt">クリックしてね</a> この場合，ブラウザは「日本語ファイル名.txt」というファイルを見ているつもりになりますが，サーバ側では fakefile.php を実行し，/日本語ファイル名.txt はその実行の際に環境変数 PATH_INFO として渡されるだけです。また，ファイル名はHTTPヘッダ

yugui 2006/05/07

リンク

日本語文字コード

フォームメール(mb_send_mail)php ジェネレーターオープンフォトライブラリー自由に画像を登録・紹介できます文字コード（日本語漢字コード表）日本語漢字コード表が、Shift-JIS、EUC-JP、JIS、UTF-8と複数存在する事から、ホームページ作成・維持管理、データ収集をする上で、文字コードについての多くの諸問題が発生します。その解決に少しでもお役に立てれば幸いです文字コード表（実体）シフトＪＩＳコード表 Shift-JIS による一覧表ＥＵＣコード表 EUC-JP による一覧表ＪＩＳコード表 JIS による一覧表 JIS X 0201 (1976) to Unicode 文字コード表 Shift-JIS による一覧表 JIS X 0208 (1990) to Unicode 漢字コード表 Shift-JIS による一覧表(UTF-8のコードはこちらにあり

yugui 2006/04/08

リンク

2006-02-08

サードパーティのアプリケーションサービスにて Windows XP SP1 および Windows Server 2003 にて特権の上昇が可能とのこと。より分かり易く充実した情報提供のため、JVN をご利用される皆様のご意見・ご要望を伺いたく、アンケートを実施いたします。だそうです。今さらな感もあるけど、備忘録ついでにメモ。 WebAppSec XSSにより発生しうる被害 − WebAppSec CSRF対策をちゃんとしていて、なおかつセッションCookieが取れない状況でも、スクリプトが動けばブログの更新とか勝手にできちゃうこともあるわけで。 Windows 上で Unicode を扱う場合に発生するセキュリティ上の問題点などについて不定期に書いていくことにします。以前の内容と重なる部分も多いですし、時間的にもどこまで書けるかわかりませんけれど…。さて第1回目は、 Window

yugui 2006/04/07

リンク

文字コード：ほら貝

文字コード問題を考える加藤弘一 ◇ 新着案内 ◇ 主な変更履歴　　　　　　　　　　　　　　Apr07 2000 ◇ 一太郎で使う異体字タグ　　　　　　　　　普請中 ◇ インターネットと漢字　　　　　　　　　　Nov11 2004 ◇ 文字コード案内 ──どこから読むか？　　　　Mar30 2000 ◇ 「文字コードから見た住基ネットの問題点」 Aug10 2002 ◇ 「アジアの多言語処理」　　　　　　　　　Jun22 2002 ◇ 『図解雑学文字コード』サポートページ　　Aug10 2002 ◇ 『電脳社会の日本語』サポートページ　　　May27 2000 ◇ 二千年紀の文字コード問題　　　　　　　　Nov18 1999 「二千年紀の文字コード問題」掲載の経緯 ◇ 「超漢字」の「多国語」と称する機能について Mar26 2000 ◇ 多言語テキスト処理はどこまで可能か　　　 Jun

yugui 2006/01/17

リンク

小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの

小形克宏の「文字の海、ビットの舟」 ―― 文字コードが私たちに問いかけるもの [Reported by 小形克宏] 第1部　2000JISがやってきた第1回　2000JISとはなんだ？　（2000年1月19日）第2回　2000JISの原案はなぜ修整されたか？　（2000年1月26日）加筆修正 2000年2月22日第3回　前回までの訂正と補遺　（2000年2月2日）加筆修正 2000年2月22日第4回　JCS委員長、芝野耕司の反論（前編）　（2000年2月9日）加筆修正 2000年2月12日第5回　JCS委員長、芝野耕司の反論（後編）　（2000年2月16日）加筆修正 2000年2月22日特別編　MacOS Xの新フォントと2000JISの関係　（2000年2月23日）特別編2　ISO/IEC 10646で却下された(?)

yugui 2006/01/03

リンク

Hey! Java Programming! //Japanese//

このページでは日本語の漢字コードについてのものです。Java では UNICODE が使用されていますが、ここでは Shift-JIS・JIS・EUC 焦点を当て、それぞれの特徴と変換方法などを解説しようと思います。日本語の種類元々コンピュータというのは英語を使用する欧米用に設計されたものです。もちろん初期のコンピュータでは日本語なんて扱うことができませんでした。欧米で使用される言葉は英語でもフランス語でも少ない文字 (アルファベットなど) を組み合わせて単語を構成します。したがってコンピュータ用に設計された文字規格も、とても少ない種類しか扱うことができません。日本語や中国語のような表意文字はとてもたくさんの種類があります。高々 1バイト (0～255) までではすべての漢字を表すことができません。日本語や中国語のような表意文字を使う言語圏では、一つの文字を表すのに 2バイト使用しま

yugui 2006/01/01

文字コード判定法

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

CJKVとencodingに関するyuguiのブックマーク (14)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス