文字コードに関するkkmymのブックマーク (36)

  • ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに

    UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。また、UnicodeはASCIIだけでなく、Western Europeanもほぼ同時に追い越している。 Unicodeは多くの言語に対応した標準文字コード体系で、発音区別符号などを利用したローマ字なども扱っている。何十年も前に定められたASCIIコードは128文字あるいは256文字(ASCIIで128 文字、拡張ASCIIで256文字)しか表現できず、タイプライターの影響を受けた同文字コードの拡張は苦戦している。 UnicodeがASCIIとWestern Europeanを追い越したのは12月で、双方が追い越された日は10日も違わなかった。 Unicodeの動きについ

    ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに
  • ASCII記号のURLエンコード対応表:phpspot開発日誌

    ASCII記号のURLエンコード対応表。 ちょろっとエンコード値を調べたい時にこういった表を用意しておくとWEB開発やチェック、入力なんかの時に便利かもしれませんね。 こういうのをブックマークに置いておき、一瞬で情報を調べられるようにしておくのもライフハックの1つと思います。

  • Category: 絵文字 - ぎじゅっやさん

    PHP, PEAR, 絵文字, Apache, xHTML, ケータイ, Docomo(i-mode), au(ezweb), softbank(vodafone, j-phone), 文字コード, UTF-8 08:46:12, by dozo , 253 words, 5362 views   やってることを徒然なるまま。。。 (ノ・・)ン。。。。。。(((●コロコロッ ウノウラボ Unoh Labs: http://labs.unoh.net/2007/08/php_9.html http://labs.unoh.net/2007/09/post_104.html を読んで、 (・υ・)オレドウシテタッケ。 ってことで、 あと、 http://codezine.jp/a/article/aid/689.aspx ここが( ̄-  ̄ ) ウー

    kkmym
    kkmym 2007/07/11
    絵文字、メール送信など
  • ケータイの絵文字と文字コード(PDF)

    ケータイの絵文字と文字コード 安岡孝一1 著者抄録: ケータ イ を使っ て イ ン ターネ ッ ト に ア ク セスす る際に, 最も注意し なければな ら ないの は, 絵文字の問題であ る。 ケータ イ の絵文字を イ ン ターネ ッ ト 上で使う と , ほぼ確実に文字化けす る。 文字化けが起こ る のは, 各社が勝手な文字コー ド をケータ イ 上に実装し てお り , その結果, 文 字コー ド に よ る情報交換の一意性が, ケータ イ の絵文字に関し ては ま っ た く 保証されな く な っ て し ま っ てい るか ら であ る。 しかし なが ら 文字化けの問題は, ケータ イ のみの問題 と い う わけではない。 実は Microsoft Windowsが採用し てい る CP932 において も, 文字化けの問題が内在し てい る。 その意 味では, J

    kkmym
    kkmym 2007/07/09
    ケータイの絵文字と文字コード
  • miniturbo::Memo - 携帯電話での文字コード対応表 まとめ

    このリストを見る限り、最近の機種は殆どが対応しているようです。SO506iCがEUC-JPに対応しているのは意外でした。 各社の仕様書を見比べると、Shift JISは全社とも対応していて、DoCoMoのXHTML対応機種に限りUTF-8にも対応していることが記載されていました。また、SoftBankの携帯電話はメール及びウェブの文字コードを手動選択できるようです。各社の仕様書を以下にリンクいたしましたので、ご覧ください。 iモード対応HTMLの概要 iモード対応XHTMLの概要 EZWeb サーバ設定・文字コード指定 SoftBank Developers Support Site なお、検証への誘導をしていただいた真琴さんと、多くの機種を検証していただいたreaさん、サンプルを怪しみながらも協力してくれた僕の友人、それからわざわざコメントorトラックバックしていただいた皆々様方に深く感

    kkmym
    kkmym 2007/06/27
    端末の対応文字コード一覧。
  • 「JSPを使って iモードに絵文字を出したい」(1) Mobile Connection - @IT

    IT 会議室 Indexリンク Windows Server Insider Insider.NET System Insider XML & SOA Linux Square Master of IP Network Java Solution Security & Trust Database Expert RFID+IC リッチクライアント & 帳票 Server & Storage Coding Edge @ITクラブ Cafe VB業務アプリケーション開発研究 @IT SpecialPR

    kkmym
    kkmym 2007/06/16
    metaしか見ない、ってほんま?
  • OZACC.blog: 続・ICU4J

    Java | 続・ICU4J Normalizer.normalize( "全角英数字や半角カタカナ", Normalizer.NFKC);この一行で「全角英数字や半角カタカナ」で指定した文字列が半角英数字と全角カタカナに変換されて返ってくる。PHPではこんなのは組み込み関数で簡単にできるけど、前にJavaで似たようなクラスを作ったときは結構大変だった。もっと前から知っていれば・・・ ICUを使って西暦-和暦の変換する方法が分からない。誰か知ってたらご教授ください。 その他のクールな変換機能。変換速度は遅いので注意。 Transliterator t = Transliterator.getInstance("Hiragana-Katakana"); String result = t.transliterate("ひらがながカタカナに"); System.out.println(re

  • ICU - International Components for Unicode - Downloading ICU

    2024-04-17: ICU 75 is now available. It updates to CLDR 45 (beta blog) locale data with new locales and various additions and corrections. C++ code now requires C++17 and is being made more robust. The CLDR MessageFormat 2.0 specification is now in technology preview, together with a corresponding update of the ICU4J (Java) tech preview and a new ICU4C (C++) tech preview. See Downloading ICU > ICU

  • 「JSPのエンコード・外字の使用について」(1) Java Solution - @IT

    IT 会議室 Indexリンク Windows Server Insider Insider.NET System Insider XML & SOA Linux Square Master of IP Network Java Solution Security & Trust Database Expert RFID+IC リッチクライアント & 帳票 Server & Storage Coding Edge @ITクラブ Cafe VB業務アプリケーション開発研究 @IT SpecialPR

  • SetCharacterEncoding - バグ修正という名の仕様変更?

    SetCharacterEncoding - バグ修正という名の仕様変更? Servlet API 2.2(Tomcat3.x) 2.3(Tomcat4.x) と思ったら、 2.4(Tomcat5.x) 対処 参考 バグ修正という名の仕様変更? Servlet API 2.2(Tomcat3.x) そもそも、requestの文字コードを設定するインターフェースがない。 String val = new String(val.getBytes("8859_1"),"Shift_JIS"); って日中で何回書かれたのやら。 Tomcatとの兼ね合いで行くと3.3の<DecodeInterceptor/>のことも触れにゃならんか。 2.3(Tomcat4.x) HttpServletRequest#setCharacterEncodingメソッドが追加され、日中のServ

  • Ethna - PHPウェブアプリケーションフレームワーク

    Ethna > ドキュメント > 開発マニュアル > ethna-document-dev_guide-app > EthnaでShift_JISなサイトを作る EthnaでShift_JISなサイトを作る 書いた人:cocoiti 概要 Ethnaは、内部コードがEUC-JPでできています。(変換かければ、どうにでもなりますが)。 基的に問題はないのですが、携帯サイトなどを作る時に、やむえず、出力をShift_JISにしたくなるときがあります。 その方法について記述していきます。 なお、以下のポリシーで記述しています。 内部コードはEUC-JP 入力コードはShift_JIS(自動判別のフィルタを書く方法は別途記述) 出力コードはShift_JIS(sjis-win) 内部コードはEUC-JPで書く 各種テンプレート(HTML、メール)も含め通常通り、EUC-JPで記述します

  • 3 日坊主日記 - 携帯絵文字コードの相互変換表を作るスレ

    _ 携帯絵文字コードの相互変換表を作るスレ 携帯の Web とメールでは、使う絵文字コードが違うらしい。 PC やサーバから (Ruby を使って) 携帯宛てに配信するメールで絵文字を使いたい。 ルール: キャリアが公開しているデータを元にする。 電子的に変換する。 最初からテキスト形式で用意していないことに対して悪意を感じる。 EZweb (AU) xdoc2txt で typeD.pdf から テキスト要素を抽出する。 $ xdoc2txt -f typeD.pdf 得られた typeD.txt から変換表を取り出す。 src = IO.read('typeD.txt') src.scan(/[0-9A-F]{16,18}/s) do |str| puts str[-16,16] end 18文字拾って右から16文字拾う。これは[0-9A-F]を含むタイトルが変換表にくっつくため。 例

  • 対策遅らせるHTMLエンコーディングの「神話」

    クロスサイト・スクリプティングという言葉は元々,WebアプリケーションのHTMLエンコード漏れなどを利用することによって第三者にJavaScriptを実行させる手法を指す。広義では,HTMLのエンコードによる画面改変などを含むこともある。 前回述べたように,クロスサイト・スクリプティングのぜい弱性はWebアプリケーションに見付かるぜい弱性の半分以上を占める。数年前から指摘されているにもかかわらず,一向になくならない。その理由として,クロスサイト・スクリプティング対策あるいはHTMLエンコード注1)に対する「神話」があり,正しい対策の普及を遅らせているように思う。その「神話」の数々について説明しよう。 注1)実体参照(entity reference)というのが正式だが,あまり普及していない用語なので,HTMLエンコードという用語を用いる 「すべからくHTMLエンコードすべし」が鉄則 HTM

    対策遅らせるHTMLエンコーディングの「神話」
  • 404 Blog Not Found:ajax - 文字化け判定表

    2007年04月14日01:20 カテゴリLightweight Languages ajax - 文字化け判定表 「誰か」という時にhyukiさんの視線を感じたのは気のせいかしらん。 結城浩のはてな日記 以下のような「文字化け判定表」があるといいなあと思って作り始めましたが、飽きちゃいました(←おい)。誰か作って…。というわけで、そっこーで作ったのが以下。 を で表示 漢字、カタカナ、ひらがなの入ったquery。 これはUTF-8で書かれたテスト 文字化けを解決することは 鯖側のソースはこちら倉側はお使いのブラウザーで「ソースを見て」下さい。 Enjoy! Dan the Man with too Many Mojibake to Fix See Also: 文字化けクイズ(解答編) - 西尾泰和のはてなダイアリー 「Lightweight Languages」カテゴリの最新記事

    404 Blog Not Found:ajax - 文字化け判定表
  • テンプレートShift_JISでそれ以外UTF-8の場合 - Unknown::Programming

    っていうのがなかなかできなくて。 テンプレートファイルはShift_JISなんだけどソースコードやDBUTF-8でやりたい。 でさらに最終出力は携帯用サイトなのでShift_JISでっていうレアなケースを実現したいと。 テンプレートをUTF-8にさえすればCatalyst::Plugin::Charsets::Japaneseで一発OKなんだけどね。 テンプレートをクライアントが触りたいとかってケースでUTF-8とかわからんからShift_JISでお願いとかって結構あるのでそーゆー場合のお話ですね。 まぁクライアントが触る部分だけをうまく切り離してなんとかするってのが普通のやり方なのかもしれないけどとりあえず。 ってことでまずはShift_JISで書かれたテンプレートを動的にUTF-8に変える必要があります。 それはTemplate::Provider::Encodeでできるわけです。

    テンプレートShift_JISでそれ以外UTF-8の場合 - Unknown::Programming
  • miniturbo::Blog 携帯電話での文字コード対応表

    このリストを見る限り、最近の機種は殆どが対応しているようです。SO506iCがEUC-JPに対応しているのは意外でした。 各社の仕様書を見比べると、Shift JISは全社とも対応していて、DoCoMoのXHTML対応機種に限りUTF-8にも対応していることが記載されていました。また、SoftBankの携帯電話はメール及びウェブの文字コードを手動選択できるようです。各社の仕様書を以下にリンクいたしましたので、ご覧ください。 iモード対応HTMLの概要 iモード対応XHTMLの概要 EZWeb サーバ設定・文字コード指定 SoftBank Developers Support Site なお、検証への誘導をしていただいた真琴さんと、多くの機種を検証していただいたreaさん、サンプルを怪しみながらも協力してくれた僕の友人、それからわざわざコメントorトラックバックしていただいた皆々様方に深く感

  • hxxk.jp - Re: miniturbo::blog EZWebでの文字コード

    記事データ 投稿者 望月真琴 投稿日時 2006-12-27T02:39+09:00 タグ au charset 仕様 携帯電話 概要 仕様上はどのキャリアの携帯電話も Shift_JIS のみのサポートのようですが、最近の携帯電話はそれ以外の文字コードもサポートしているようです。 リプライ 4 件のリプライがあります。 教えることはできないけど、人柱になら喜んでなるよ miniturbo::blog EZWebでの文字コードで、 昔、課題として携帯用のコンテンツを作成していたときに3キャリアの仕様書をにらめっこしていたのですが、どのキャリアもサポートする文字コードはShift JISだったのです。 しかし、miniturbo.orgはUTF-8にて書かれています。 なのに文字化けしないのはどうしてなんだろう…。 と書かれているのを「へええ」と頷きながら読みました。 携帯電話での Web

  • miniturbo::Blog EZWebでの文字コード

    miniturbo.orgは携帯でも一応見れるのですが(コンテンツ量が多すぎるとメモリエラーがおきるかも)、それもこれもXHTMLで書いているからなのです。そこでふと疑問に思うことが。 追記(2006-12-28 01:17) サンプルページに直接飛べるQRコードを作成いたしましたので、「別に手伝ってあげてもいいんだからねっ」という方はご協力お願い致します!「QRコード対応してないんだけど…」という方は、お手数ですが http://miniturbo.org/m/ からご確認お願いいたします。 お使いの携帯電話の機種名と、各サンプルが文字化けしているか/していないかをコメント欄に書いていただけると大変助かります! 昔、課題として携帯用のコンテンツを作成していたときに3キャリアの仕様書をにらめっこしていたのですが、どのキャリアもサポートする文字コードはShift JISだったのです。しかし、

  • multipart/form-data をお忘れなく : 404 Blog Not Found

    2006年05月28日22:55 カテゴリLightweight LanguagesLogos multipart/form-data をお忘れなく 趣旨には賛同するけど私的には森林太郎を救って脚気の犠牲者の恨みを買いたくはないよなあ。 革命の日々! プロジェクト「セーブ・ザ・鷗外」 いかついオッサンが「たすけてー」と泣いている様は想像するだに楽しいのでこうしてみた。 んで、題。 革命の日々! プロジェクト「セーブ・ザ・鷗外」 HTMLの規格上、ブラウザは文字列をPOSTするのに、 のmethod属性を設定しないと文字列を URLEncodingというエンコーディングを行ってからPOSTします。 とは、実は今では限りません。<form>タグでenctypeの指定をはしょるとapplication/x-www-form-urlencodedになりますが、もう一つ、multipart/for

    multipart/form-data をお忘れなく : 404 Blog Not Found
  • 文字コードの基本:ITpro

    コンピュータで文字を取り扱う際,文字コードについて知っておく必要があります。特に日では複数の文字コードが混在して使われる上,プラットフォームによって取り扱う文字の種類も異なることから,状況が複雑になっています。記事では文字を正しく取り扱うための基礎知識について簡単に紹介します。 コンピュータはすべてのデータを数値として取り扱います。文字を取り扱うときも,数値に対応づけて処理します。 例えば,「ようこそITpro」というテキスト・データをWindows XPのメモ帳で作成し,ファイルに保存します。そのファイルをバイナリ・エディタで開くと写真1のような数値が並んでいることが分かります。各文字と数値は表1のように対応づけられています。

    文字コードの基本:ITpro