タグ

CJKVとencodingに関するyuguiのブックマーク (14)

  • いわゆる全角スペースが必要な場合の逃げ道 - *Backtrace* (2006-10-05)

    yugui
    yugui 2006/10/06
    全角スペースをソースに書くのは危険なので、どうやってescape表記するか。Rubyも標準でスマートな方法が欲しいよなぁ。2.0で入るんだっけ。というか、Unicode準拠の処理系は全角空白もnbspもSP扱いして欲しいなぁ。
  • iR3の日記 - ActiveMailer の subject 文字化け

    http://radiantcms.org/ 遂に Rails の CMS が.. アジャイル(オブジェクト指向スクリプト)言語 Ruby http://www.ruby-lang.org/ja/ サイトも Radiant CMS で 模様換え @_@ すばらしい! 前田さん GoodJob!!! Railsメールは ActiveHeart で日語化するのが定番で、そのように実装してきたのですが、メールsubject は MIMEエンコードが必要。 メールにかけられた呪文「MIME〜前編」 http://www.atmarkit.co.jp/fnetwork/rensai/netpro03/netpro01.html ActiveHeartだけではこの MIME対応が無いので、そのままではsubjectは文字化けしてしまいます。 西さん(舞波乙)の「Ruby on Rails入門」では、

    iR3の日記 - ActiveMailer の subject 文字化け
  • より適切な文字処理のための基礎的研究

    概要・目的 近年、ISO/IEC 10646 (Unicode) や JIS X 0213、GB18030 などの大規模漢字コード規格が公表され、 少なくとも文字数の上では大幅な改善がなされたように見える。 しかし、これらの規格の内容を詳細に検討してみると、多くの重複や採録条件の矛盾等が少なからず見出される。 現在、データベースやソフトウェアの多くがこれらの規格に依存しているのであるが、 上記のような問題点を早急に指摘し改善をしていかなければ、その価値が著しく損なわれる可能性がある。 データベースは、これら大規模漢字規格の問題点をあぶり出すための基礎資料として、 また、テキスト・データベースの検索エンジンや、次世代の文字処理系、言語処理系、OSなどにして組み込まれることを目的とするものである。 そのため、公開は自由な利用が可能なライセンスの下で行われる。 このデータベー

  • Unicode::Normalize で遊ぶ - daily dayflower

    Unicode の規格では,文字の合字(リガチャ等)等を統一的に扱えるように,「正規化」という処理が仕様として定まっています。この正規化処理のうち「互換性分解」という処理を行うと副作用として半角カナを全角カナに変換できます(逆に全角カナ→半角カナはできません)。 #!/usr/bin/perl use strict; use utf8; use Encode; use Unicode::Normalize; my $src = 'ポンジュース'; my $dst = Unicode::Normalize::NFKC($src); print Encode::encode('utf8', "${src} => ${dst}\n"); # OUTPUT is: ポンジュース => ポンジュースUnicode の正規化についてはperl5.8のUnicodeサポート および http:/

    Unicode::Normalize で遊ぶ - daily dayflower
  • eucJP-ms と CP51932 の違い コードページ932/ウェブリブログ

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

    yugui
    yugui 2006/06/12
    "ConvertINetMultiByteToUnicode()"
  • 「すべての漢字を取り出す正規表現」の続き - totonのブログ

    id:toton:20051102 がはてなブックマークの「最近の人気エントリー」のトップに来ていたため、アクセスが結構あった様子。っちゅーわけでアフターケアとして少し検証してみます。 間違いがあったらヤなのでwww.unicode.orgのUnihan Radical-Stroke Index っちゅーunicodeデータベース検索で「一:U+4E00」と「龠:U+9FA0」の境界を調べてみた。 参考:id:toton:20050120 「一:U+4E00」のコード体系とフォント表示と「龠:U+9FA0」のコード体系とフォント表示 一発で検索できて便利ですね。 ではU+9F00からU+9FFFまでのテーブルを参照しましょう。 9Fのテーブル内で「龠:U+9FA0」を探すのだからA0(最上段の右端)を見ると、U+9FA5まで漢字が存在する。こりゃいかんと思ったが「龠:U+9FA0」はJIS

    「すべての漢字を取り出す正規表現」の続き - totonのブログ
  • daily dayflower - 半角←→全角変換,Unicode::Japanese に未公開機能が…

    2008-10-21 追記 いまだに(ありがたいことですが)検索で飛んできたりブクマされたりというのがちょいちょいあるので,最新動向を書いておきます。 id:tokuhirom さんが Lingua::JA::Regular::Unicode という Pure Perl Module をリリースなさいました(→ http://d.hatena.ne.jp/tokuhirom/20081018/1224300947)。 あなたが作っているアプリで文字列まわりを Unicode::Japanese インスタンスですべて持ちたいわけでなければ(そして,たいていのばあい,持つ必要はないのですが),この Lingua::JA::Regular::Unicode を使うのがベターです。依存性もなく,とても軽量ですので。 2008-10-21 追記おわり ウェブアプリを作っていると,ユーザが入力した半角

    daily dayflower - 半角←→全角変換,Unicode::Japanese に未公開機能が…
  • PDF 千夜一夜: 2006年05月18日 アーカイブ

    PDFからテキスト抽出のために ToUnicode CMap PDFにおけるフォントの取り扱いに関連して、ToUnicode CMapというものがあります。今日はこれについて説明します。 アウトライン・フォントについての説明でお分かりいただけたかと思いますが、PDFにアウトライン・フォントを使って記録された文字を表示する仕組みは、フォントの中にあるグリフのアウトラインをラスタライザで可視化することになります。 これに対して、もう一つのPDFの利用方法として、PDFを読み上げたり、あるいは、検索エンジンで検索したり、あるいはテキスト情報を取り出して他のアプリケーションで使用する、などが考えられます。 通常、上で述べたような処理にはテキストが必要です。テキストについては、2005年12月15日 PDFと文字(4) – 文字の取り扱いで説明しましたので、初めての方は12月15日の話をお読みになっ

  • 日本語ファイル名

    まだよくわかっていないことが多いので,お気づきの点がありましたらご教示ください。 [2006-05-08] WindowsのIEで化けていた(^^;)ので直しました。 [2007-03-14] IE5/6はUTF-8をURLエンコードした名前でもOKだそうです(Thanks: 白水さん)。 問題点 日語ファイル名の扱い方はブラウザによって異なり,たいへん厄介です。 まず,ファイル名はURLのパスとして与えることができます: <a href="fakefile.php/日語ファイル名.txt">クリックしてね</a> この場合,ブラウザは「日語ファイル名.txt」というファイルを見ているつもりになりますが,サーバ側では fakefile.php を実行し,/日語ファイル名.txt はその実行の際に環境変数 PATH_INFO として渡されるだけです。 また,ファイル名はHTTPヘッダ

  • 日本語文字コード

    フォームメール(mb_send_mail)php ジェネレーター オープンフォトライブラリー自由に画像を登録・紹介できます 文字コード(日語漢字コード表) 日語漢字コード表が、Shift-JIS、EUC-JP、JIS、UTF-8と複数存在する事から、 ホームページ作成・維持管理、データ収集をする上で、文字コードについての多くの諸問題が発生します。 その解決に少しでもお役に立てれば幸いです 文字コード表(実体) シフトJISコード表 Shift-JIS による一覧表 EUCコード表 EUC-JP による一覧表 JISコード表 JIS による一覧表 JIS X 0201 (1976) to Unicode 文字コード表 Shift-JIS による一覧表 JIS X 0208 (1990) to Unicode 漢字コード表 Shift-JIS による一覧表(UTF-8のコードはこちらにあり

  • 2006-02-08

    サードパーティのアプリケーションサービスにて Windows XP SP1 および Windows Server 2003 にて特権の上昇が可能とのこと。 より分かり易く充実した情報提供のため、JVN をご利用される皆様のご意見・ご要望を伺いたく、アンケートを実施いたします。 だそうです。 今さらな感もあるけど、備忘録ついでにメモ。 WebAppSec XSSにより発生しうる被害 − WebAppSec CSRF対策をちゃんとしていて、なおかつセッションCookieが取れない状況でも、スクリプトが動けばブログの更新とか勝手にできちゃうこともあるわけで。 Windows 上で Unicode を扱う場合に発生するセキュリティ上の問題点などについて不定期に書いていくことにします。以前の内容と重なる部分も多いですし、時間的にもどこまで書けるかわかりませんけれど…。 さて第1回目は、 Window

    2006-02-08
  • 文字コード:ほら貝

    文字コード問題を考える 加藤弘一 ◇ 新着案内 ◇ 主な変更履歴              Apr07 2000 ◇ 一太郎で使う異体字タグ         普請中 ◇ インターネットと漢字          Nov11 2004 ◇ 文字コード案内 ──どこから読むか?    Mar30 2000 ◇ 「文字コードから見た住基ネットの問題点」 Aug10 2002 ◇ 「アジアの多言語処理 」         Jun22 2002 ◇ 『図解雑学 文字コード』サポートページ  Aug10 2002 ◇ 『電脳社会の日語』サポートページ   May27 2000 ◇ 二千年紀の文字コード問題        Nov18 1999 「二千年紀の文字コード問題」掲載の経緯 ◇ 「超漢字」の「多国語」と称する機能について Mar26 2000 ◇ 多言語テキスト処理はどこまで可能か    Jun

  • 小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの

    小形克宏の「文字の海、ビットの舟」 ―― 文字コードが私たちに問いかけるもの [Reported by 小形克宏] 第1部 2000JISがやってきた 第1回 2000JISとはなんだ? (2000年1月19日) 第2回 2000JISの原案はなぜ修整されたか? (2000年1月26日)加筆修正 2000年2月22日 第3回 前回までの訂正と補遺 (2000年2月2日)加筆修正 2000年2月22日 第4回 JCS委員長、芝野耕司の反論(前編) (2000年2月9日)加筆修正 2000年2月12日 第5回 JCS委員長、芝野耕司の反論(後編) (2000年2月16日)加筆修正 2000年2月22日 特別編 MacOS Xの新フォントと2000JISの関係 (2000年2月23日) 特別編2 ISO/IEC 10646で却下された(?)

  • Hey! Java Programming! //Japanese//

    このページでは日語の漢字コードについてのものです。Java では UNICODE が使用されていますが、ここでは Shift-JIS・JIS・EUC 焦点を当て、それぞれの特徴と変換方法などを解説しようと思います。 日語の種類 元々コンピュータというのは英語を使用する欧米用に設計されたものです。もちろん初期のコンピュータでは日語なんて扱うことができませんでした。欧米で使用される言葉は英語でもフランス語でも少ない文字 (アルファベットなど) を組み合わせて単語を構成します。したがってコンピュータ用に設計された文字規格も、とても少ない種類しか扱うことができません。 日語や中国語のような表意文字はとてもたくさんの種類があります。高々 1バイト (0~255) までではすべての漢字を表すことができません。日語や中国語のような表意文字を使う言語圏では、一つの文字を表すのに 2バイト使用しま

    yugui
    yugui 2006/01/01
    文字コード判定法
  • 1