[B! encode] somatのブックマーク

utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

somat 2014/01/23

リンク

Unicodeの似た文字を整理してみた - y-kawazの日記

XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。分かりやすいよう、青は文字化けなし、黄

somat 2013/02/15

リンク

perlの波ダッシュの文字コード変換のまとめ - (ﾟ∀ﾟ)o彡 sasata299's blog

2009年02月22日22:31 Perl perlの波ダッシュの文字コード変換のまとめ perlの文字コード周りはなかなかカオスです。外部エンコードとか、perl内部での文字コードとか、UTF8フラグとか。UTF8フラグ？なにそれ？な人は、こことかここを見てみると良いかも。（・∀・）基本的には外部から入ってきた時点でdecodeして、出力時にencodeしてやれば全て解決するんですが、「〜（波ダッシュ）」と「−（全角マイナス）」だけは特別です。注意が必要なのはこの2パターン。 ① utf8⇔shift_jis ② utf8⇔euc-jp ①については以前、perl utf8→sjisで文字化けという記事で紹介しましたが、encode時に、'sjis'では無くて、'cp932'を指定すればOK。※「〜」とか「−」はsjisには含まれていない文字なのが原因。今回紹介したいのは②の場合です

somat 2013/02/15

リンク

3.18.1 Javaにおける文字化けの問題についての注意事項

Javaにおける文字化けの問題についての注意事項を以下に述べます。 Javaで異機種間結合を行う場合、あるいは、データベース接続を行う場合に起こる問題の1つに、文字化けの問題があります。例えば、Solaris OEマシンからWindowsマシンにネットワークを介して全角のチルダ記号('～')を送ると、Windowsマシンで表示したときに文字化けが発生することがあります。これは既存の日本語コード(JIS、EUC、シフトJIS)をUnicodeに変換する際の変換規則が各ベンダによって異なるために起きる問題です。この問題はJava VMで解決できるものではなく、Javaのシステム開発者がこの問題を避けるための自衛的手段を講じる必要があります。この問題を理解するには、この問題が起きた背景を理解する必要があります。この背景を、以下で説明します。 ■Unicodeの特徴 UnicodeはUnic

somat 2012/12/14

リンク

Perl io layer

somat 2011/08/05

リンク

Perl5.8 の UNICODE 対応

perl は 5.8 から Unicode(utf-8) がサポートされました．5.6 でも Unicode に対応はしていましたが，ぜんぜん使い物にならず，ようやく 5.8 でまともに使えるようになったということです．ただせっかく使えるにもかかわらず perldoc などを見てもイマイチ使い方がわからないので，独自にまとめてみたのがこのページです．誤った書き方や勘違いをしていることもあるので，形式的ですがこのページの内容は無保証です．内容文字コード変換 perlIO jperlからの移行 UTF-8フラグ文字コード自動判別 Unicode Standard Unicode 正規化その他参考資料文字コード変換とりあえず perl5.8 で新しく組み込まれた機能を見るために，euc-jp から shift_jis への変換スクリプトをいくつか載せます． openを利用し

somat 2010/10/09

リンク

emacsで文字コードを指定して開く - PC日記

emacs で、utf-8のファイルを開くときに、文字コードの判別に失敗することがある。おぼろげな記憶で、C-u C-x C-f とかで文字コードの指定ができたかな～なんて思っていたのだけれど、できない。調べてみたら、以下のページが見つかった。 >emacs によるコードの自動判定は、今のところ成功していますが、失敗する >かもしれません。emacs で、buffer-file-coding-system を明示的に与えて >find-file するには、どうすればいいでしょうか？文字コードを指定して開く C-x RET c 文字コードを入力 RET C-x C-f 開きなおす C-x RET c 文字コードを入力 RET C-x C-v RET だそうです。おまけ emacs の文字コードの自動判別を助ける方法として、auto-coding-alistやauto-coding-r

somat 2010/10/08

リンク

eucJP-ms と CP51932 の違いコードページ932/ウェブリブログ

「ウェブリブログ」は 2023年1月31日をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

somat 2009/12/11

リンク

Text Escaping and Unescaping in JavaScript(Unicode の文字列をエスケープする JavaScript)

Notes No data is sent to the server (i.e. everything is done in JavaScript). Conversion from Unicode to other encodings such as Shift_JIS can be slow first time as it needs to initialize internal conversion tables. Surrogate pairs in UTF-16 are supported. Try inserting \uD840\uDC0B in the second form. Three-byte characters in EUC-JP are not supported. Links JavaScript Unicode Charts Try GNU Libidn

somat 2009/07/05

via Ajaxian http://ajaxian.com/archives/encoding

リンク

Perl 5.8.x Unicode関連

-> 趣旨と注意書き -> UTF8フラグ？ -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル趣旨と注意書き Perl 5.8.x のUnicode 関連です。正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。使ってみると、よくわかんなくなったので、ちょっとまとめてみました。今でもあんまりわかってないかもしれないので、内容は無保証です。突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

somat 2009/02/20

リンク

Blu-ray/DVDコピー総合情報のBackupStreet

somat 2008/09/21

リンク

Perl 5.8.x における日本語コード変換★

Perl 5.8ではEncode.pmが標準モジュールとなり、多バイト文字を標準で簡単に扱えるようになりました。が、jcode.plやJcode.pmを用いたコード変換の経験があると、逆にこれが仇となって文字化けの嵐に遭います。（私の場合そうだったというだけで、普通はそんなこと無いのかもしれないのですが。）漸く最近になって基本的な考え方が飲み込めるようになって来たので、この辺をまとめておこうと思います。なお、本メモは新たにPerl 5.8.x的なPerlスクリプトを書く際に気をつけることをまとめたものであり、基本的には既存のスクリプトにPerl 5.8 + Encode.pmを適用するためのものではありません。また、utf8でスクリプトを書くことを前提にしています。が、どちらにせよ、この知識は参考になると思います。（たぶん。）本文冒頭ですが、まず参照先を示しておきます。以下のドキュメント

somat 2008/08/26

Perl
encode

リンク

invalid byte sequence for encoding "EUC_JP": 0x9356 （携帯と文字コード） - WEBプログラミング NOW!

invalid byte sequence for encoding "EUC_JP": 0x9356 （携帯と文字コード）私が作成したWEBアプリでは、たいてい、異常なエラーが発生した場合に、自分のところにメールが来るように設計しています。たとえば、ありえないデータがPOSTされた場合や、何らかの理由でデータベースに正常に登録されなかった時などです。で、今日、 invalid byte sequence for encoding "EUC_JP": 0x9356 というPostgreSQLでエラーが発生した旨、私のところにメールが来ました。英語のメッセージですが、違約すれば「EUC-JPという文字エンコードではありえない、0x9356という文字列を検出しました」ぐらいの意味です。この「0x9356」なるバイト並びはEUC-JPであるはずがないとPostgreSQL閣下が断じておられるの

somat 2008/02/21

リンク

日本語と文字コード

コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト（7/8ビット）を基本単位として扱う前提で作られているものが中心です。そのなかで日本語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日本語の文字コードに関する基本を整理しておきます。 JIS漢字コード（情報交換用符号化漢字集合）区点コード JISコード（符号化方式）シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ参考文献、リソース文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード（情報交換用符号

somat 2008/02/21

リンク

その文字列はセーフ？本当は奥深いデコード処理

＠IT messenger v1.4 ジュン　%82%b1%82%f1%82%ce%82%f1%82%cd%81%5b クウ　お。こんばんは〜。こないだの勉強会はありがとうございました。楽しかったです♪ ジュン　%8a%79%82%b5%82%f1%82%c5%82%e0%82%e7%82%a6%82%bd%82%dd%82%bd%82%a2%82%c5%82%e6%82%a9%82%c1%82%bd%82%9f クウ　ちょっとどしたんすか？！なんか文字化けしてますよっ。ジュン　%95%b6%8e%9a%89%bb%82%af%82%b6%82%e1%82%c8%82%a2%82%e6%82%c1%81%49 クウ　むむむ……

somat 2008/01/28

encode

リンク

MySQL 文字化け問題を本気で直す

mysql> status; -------------- mysql Ver 14.7 Distrib 4.1.20, for redhat-linux-gnu (i386) using readline 4.3 Connection id: 36 Current database: staff2006 Current user: maiha@localhost SSL: Not in use Current pager: lv Using outfile: '' Using delimiter: ; Server version: 4.1.20 Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: latin1 Db characterset: latin1 Client char

somat 2007/04/14

リンク

「半角カタカナを入力しないで下さい」は失格？!

まず、この「半角カタカナ」という名称について考えてみます。半角カタカナというのは、正確な表現できないというのをご存知でしょうか？　「全角」に対して「半角」があるわけですが、これはフォントに依存します。こちらに違いがよく分かるような比較表を作成しました。この比較表を見ていただければ分かりますが、「MS UI Gothic」や「ＭＳＰ明朝」のようなプロポーショナルフォントでは、半角カタカナでは全角カタカナの半分の幅ではありません。強いて言えば、「MS UI Gothic」で約80%カタカナ、「ＭＳＰ明朝」で約70%カタカナになります。また、いわゆる半角カタカナは1バイトカタカナという場合があります。確かにShift_JISでは1バイトなのですが、EUC-JPでは8Eという制御文字が1バイト名について２バイトになります。ですので、1バイトカタカナという名称も、厳密に言えば正しくありません。