[B! charset] webmarksjpのブックマーク

webmarksjp id:webmarksjp

charsetに関するwebmarksjpのブックマーク (18)

ＰＨＰの文字化けを本気で解決する - ぎじゅっやさん
webmarksjp 2008/07/15
php

文字化け

文字コード

多言語

charset

encode

mbstring
リンク
シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories
2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら
webmarksjp 2008/07/14
開発

charset

資料

文字コード

*tips

まとめ

プログラム

変換

文字化け
リンク
ＰＨＰの文字化けを本気で解決する - ぎじゅっやさん
webmarksjp 2008/07/14
encoding

charset

php

tips

Web制作

文字化け

programming
リンク
Going My Way: 携帯で利用する Gmail が文字化けしないための URL
webmarksjp 2008/07/14
it

mobile

au

携帯

mail

otsune

charset

gmail

g-mail

あとで
リンク
2004 JIS をめぐる混乱
2004 JIS （ JIS2004 ）について、問題となる混乱を解説します。［ 2005.08.12. ］ ※　この文書の目的は、誰かを非難または攻撃することではなくて、世間にある誤解または錯覚をほどくことです。 ★　「個々の文字をどう使えばいいのか」という実用的な結論については、下記のページをご覧ください。 →　Open ブログ「文字使用の指針・まとめ」このページには、「指針１」「指針２」「指針３」というリンクもあります。 ★ 本文書では、学術的・理念的・原理的な話題を主に扱います。本文書を公開したあとの新しい情報ついては、次のページをご覧ください。 →　Open ブログ「文字規格」ここには、細々とした話題がいろいろとあります。「2004 JIS をめぐる混乱」について語ろう。新しい漢字規格の問題については、2005年７月末にマイクロソフトが方針を示して
webmarksjp 2008/07/14
92 CHARSET

920 JISX0213

文字コード

漢字

文化

tech

#memo

JIS2004

charset
リンク
daily dayflower - 半角←→全角変換，Unicode::Japanese に未公開機能が…
2008-10-21 追記いまだに（ありがたいことですが）検索で飛んできたりブクマされたりというのがちょいちょいあるので，最新動向を書いておきます。 id:tokuhirom さんが Lingua::JA::Regular::Unicode という Pure Perl Module をリリースなさいました（→ http://d.hatena.ne.jp/tokuhirom/20081018/1224300947）。あなたが作っているアプリで文字列まわりを Unicode::Japanese インスタンスですべて持ちたいわけでなければ（そして，たいていのばあい，持つ必要はないのですが），この Lingua::JA::Regular::Unicode を使うのがベターです。依存性もなく，とても軽量ですので。 2008-10-21 追記おわりウェブアプリを作っていると，ユーザが入力した半角
webmarksjp 2008/07/14
cpan

perl

charset

Programming

*perl

encoding

文字コード
リンク
文字コードの話
本稿は、1996年に筆者が大学の所属サークルの機関誌に寄稿した記事をもとに加筆訂正したものです。(最終更新 1999.7.31) 目次はじめに第1章日本語のコード体系第2章 ASCIIと1バイト文字コード第3章 JIS漢字コードとエンコーディング法第4章 ISO 2022 第5章 ISO 2022の実例第6章中国語・韓国語の文字コード第7章 ISO 10646とUnicode おわりに参考文献はじめに ASCIIだけで用が足りるアメリカと違って、私たちは日本語を扱わなくてはならないため、より深く文字コードの問題と関わらざるをえません。それでも、MS-DOS/WindowsやMacを使う限りでは、 ASCIIとシフトJIS(たまにJIS)を知っていれば済みますが、 UNIXやインターネットを使い始めると、 JIS・EUC・シフトJISとさまざまな日本語コードに頭を
webmarksjp 2008/07/14
92 CHARSET

文字コード

charset

テキスト処理

解説

charaset
リンク
404 Blog Not Found:ajax - 文字化け判定表
2007年04月14日01:20 カテゴリLightweight Languages ajax - 文字化け判定表「誰か」という時にhyukiさんの視線を感じたのは気のせいかしらん。結城浩のはてな日記以下のような「文字化け判定表」があるといいなあと思って作り始めましたが、飽きちゃいました（←おい）。誰か作って…。というわけで、そっこーで作ったのが以下。をで表示漢字、カタカナ、ひらがなの入ったquery。これはUTF-8で書かれたテスト文字化けを解決することは鯖側のソースはこちら倉側はお使いのブラウザーで「ソースを見て」下さい。 Enjoy! Dan the Man with too Many Mojibake to Fix See Also: 文字化けクイズ(解答編) - 西尾泰和のはてなダイアリー「Lightweight Languages」カテゴリの最新記事
webmarksjp 2008/07/14
webサービス

ajax

charset

dankogai

*javascript

perl

tool

文字コード

文字化け

Javascript
リンク
Windows Vistaで追加された文字の利用にはご注意
図2●Windows Vistaで字形が追加された文字の例。字体の変更ではなく文字の追加なので，同じフォントのまま2つの字体を同時に利用できるのは一見便利なようだが，検索性などの面では不便だ。Windows VistaのMS-IMEでは，「環境依存文字」と表示される図3●Windows Vistaで追加された文字を使った文書をWindows XPで開いたときの例。中央のVMware Workstation上で動作しているのがWindows Vista。その文書をWindows XPで開いたのが左上のメモ帳。「叱」の正字が「・」になる。だが，「剥」の正字は正しく表示される。ただし，ゴシック体に変更しても明朝体で表示される既に報道されているとおり，Windows Vistaでは，日本語の扱いについて大きく2つの変更がある。1つは，一部の文字について形（字形）が変わること。もう1つは，利用で
webmarksjp 2008/07/13
®Windows

92 CHARSET

®Vista

*windows

Vista

microsoft

os

font

charset
リンク
文字コードの基本文献は？ - もじのなまえ
そういえば日曜日の「もじもじカフェ」、お出でくださった皆様どうもありがとうございました。いつも一番の楽しみは、終わった後の懇親会だったりするんですが、その席である学生さんから「文字コードを勉強するとっかかりになるような文章、ありませんか？」との質問が。ネット上で入手できて、信頼性が高く、しかも読んだ後に次のステップが見えてくるような文章。つまり基本文献ですね。もちろん、ぼくなどの原稿ではダメダメ。しばらく考えて挙げたのが以下のもの。皆さんならどんな文章を挙げますか？漢字・日本語処理技術の発展：漢字コードの標準化（芝野耕司）日本の漢字コードを前史の段階から詳述 JIS X 0221（ISO/IEC 10646）の目指すもの（芝野耕司） ISO/IEC 10646（Unicode)についての基本文献ならこれ文字コードと図書館（芝野耕司）標題にとどまらず、国際規格の歴史を詳述 JIS漢
webmarksjp 2008/07/13
92 CHARSET

*pc

*programming

モ・文字

book

programming

charset

文字コード
リンク
シフトJISを捨てられるか? - 記者のつぶやき：ITpro
これまで，Windows Vistaの文字の扱いに関する事柄を何度か取り上げてきた。同じキャラクタ・コードで，Windows XPのときと文字の形が変わったり，Unicodeでしか扱えない文字があったりするという話題だ。今回は，エンコーディングについて考えてみたい。これまでの記事でも書いてきたが，文字処理とエンコーディングに関する問題は，何もWindows Vistaに始まったわけではない。Windows XPやWindows 2000など，既存のWindowsでも同様だ。例えば，「鴎」の旧字である「シナカモメ」は，Unicodeでしか扱えない文字だが，Windows XP以前のMS-IMEでも入力できる。石鹸の「鹸」の旧字もそうである。これらの文字を扱うには，アプリケーション・ソフトが，文字列をUnicodeで処理しなればならない。シフトJISに変換した瞬間に，文字情報が無くなってしま
webmarksjp 2008/07/13
92 CHARSET

*雑学

*IT

文字コード

コンピュータ

2_prog

2m_文字コード

security

charset

encoding
リンク
複数の事象を混同しがちなVistaの文字問題
既にいくつかの記事で報道されているように，Windows Vistaでは，JIS X 0213:2004（JIS2004）と呼ぶ規格に対応し，利用できる文字数が増えるとともに一部の文字の形が変わる。そのことで，Windows Vistaを使うと文字に関して何か問題を起こすかのように思われている節があるようだ。私が書いた記事でも，「これらの文字を使ってWindows Vistaで作った文書を，JIS2004に対応していない既存のWindowsで開くと，『・』や『■』などで表示される恐れがある」と記述しており，読者に対して余計な不安を与えてしまったかもしれない。また，「追加文字を使った文書を保存するときは，エンコーディングをUnicodeにする必要がある」との記述は，Windows Vistaだけのことかと誤解を与えてしまったかもしれない。これは，後で説明するようにWindows 98/NT
webmarksjp 2008/07/13
windows vista

92 CHARSET

®Windows

®Vista

windows

unicode

vista

charset

外字コード

仕事
リンク
Servlet Garden » Unicode and Character Sets (Translation)
勉強を兼ねての勝手に翻訳シリーズ第3弾です。今回はJoel Spolsky氏のブログに掲載されていたThe Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)です。掲載されたのは2003年10月と、5年近く前のことなので、現状にそぐわないところもあるかもしれませんが、とても参考になる解説です。ソフトウェ開発者なら絶対に最低限知っていなければならないユニコードと文字セットについて（言い訳はなしですよ！）不可解なContent-Typeタグについてかつて疑問に思ったことはないでしょうか？おそらくHTMLファイルに書き込むものということは知ってるでしょうが、なんのためにそれなければいけないのかまでは知ら
webmarksjp 2008/07/13
ブラウザチェック

文字コード

01.よむ

charset

joel

engineer

geek

*あとで読む

unicode

joel spolsky
リンク
An Unicode vendor-specific character table for japanese (日本語のUnicodeベンダ依存文字表)
webmarksjp 2008/07/13
文字コード

文字化け

charset

tips

*SE

unicode

charcode
リンク
memo.xight.org - PHPの文字化け - 5つの誤解と5つの対策
Summary 設定すべき項目は以下． ;; Disable Output Buffering output_buffering = Off ;; Set HTTP header charset ; default_charset = EUC-JP ;; Set default language to Japanese mbstring.language = Japanese ;; HTTP input encoding translation is enabled. mbstring.encoding_translation = off ;; Set HTTP input encoding conversion to auto mbstring.http_input = pass ;; Convert HTTP output to EUC-JP mbstring.http_output
webmarksjp 2008/07/12
php

文字化け

文字コード

charset
リンク
Vista で導入される JIS X 0213:2004(JIS2004) のまとめ（お勉強編）
「日本語文字セットがVista最大の問題として急浮上：ITpro」　が初めのネタになったのですが、なかなか時間もとれず、この記事を書き始めてはや３週間も経ってしまいました・・・orz Windows Vistaは、新しい文字セットに関するJIS規格「JIS X 0213:2004」に準拠した日本語フォントを標準で搭載する。これにより、既存の漢字のうち122文字の字形が変更になり、約900文字の漢字、約200文字の非漢字（英語の発音記号や記号、アイヌ文字など）が新たに表示可能になる。〜中略〜さらに、追加される新しい文字の一部をUnicodeで表現すると、通常の2バイトではなく4バイトで表現されるものがある。をみて、SJIS → UTF-8 → SJIS とかやると文字化けするものとかでるじゃん！大丈夫だっけ？大丈夫じゃなかったら、どんな対策をとったらいいんだっけ？ってのを考察しています
webmarksjp 2008/07/12
92 CHARSET

®Windows

®Vista

jis2004

文字コード

Windows

-

charset

フォント
リンク
vimエディタで「文字コード、改行コードを変更して保存する。」
vimエディタで、ファイルの文字コード、改行コードを修正、もしくは変更する時の話。ファイルの文字コードや、改行コードを変更する時は、変更したいファイルを開いた状態で、・文字コードの変更 :set fileencoding=文字コード :set fenc=文字コード (上のコマンドの短い形式。こちらでも良い。) :set fileencoding=euc-jp (エンコーディングEUC-JPに変更。) :set fileencoding=shift_jis (エンコーディングSHIFT_JISに変更。) :set fileencoding=utf-8 (エンコーディングUTF-8に変更。) ・ファイルフォーマットの種類の変更 :set fileformat=ファイルフォーマットの種類 :set ff=ファイルフォーマットの種類 (上のコマンドの短い形式。こちらでも良い。) :set f
webmarksjp 2008/07/12
vim

charset

editor

tips

エンコーディング

メモ
リンク
Shift-JISテキストを正しく扱う　perl 日本語パターンマッチ正規表現　の問題と落とし穴
最近の更新履歴 2006-10-28: 「Shift-JISの漢字を含むファイル名/パス名」について若干追記。 2005-03-26: 「最初に」中、XML日本語プロファイル第2版に基づき、若干追記。 2005-03-09: 「最初に」中、文章を若干修正。 2003-06-24: Shift-JISの漢字を含むファイル名/パス名 2003-05-31: 「最初に」中、「シフトJIS」などの表記について。 2003-05-24: CP932重複定義文字の変換 2002-08-30: Perl 5.8.0 について。 2002-01-17: 長い文字列に対する正規表現検索 2001-12-15: ShiftJIS::Collate が overrideCJK パラメータを廃止したことに伴う日本語文字列を並び替えるの書き換え。最初に日本語の文字コードにはいくつかのものが使われています。ある
webmarksjp 2008/07/12
perl

も-文字コード

charset

encoding

Document
リンク
1