[B! Unicode] shckorのブックマーク

Perl DBI と UTF8フラグと文字化け問題 (2017/05/31追記) - adiary開発日誌

Perl 5.20にしたら、DBIが何やら不可解な動作をするようになりました。問題の原因保存されいてる文字コードがおかしい解決策 DBD::Pg編 DBD::MySQL 比べると DBIの仕様 DBD::Pgの仕様変更 2017/05/30 まとめ問題の原因どうやら UTF8 を扱う機能が増えたみたいです。DBIの接続時のパラメーターにこんなものが増えています。 pg_enable_utf8 => 1 , # 結果をUTF8フラグ付きにする（PostgreSQL） mysql_enable_utf8 => 1 , # 結果をUTF8フラグ付きにする（MySQL） PerlのDBIモジュールで自動的にUTF8フラグを付けるこの影響で、PostgreSQL運用のシステムを Perl 5.14 から 5.20 にアップグレードしたところ文字化け発生。また厄介なことをしてくれたものです

shckor 2020/06/15

リンク

Unicode�$BBP1~�(B �$BJ8;z%3!<%II=�(B

�$B!!�(BUnicode�$BBP1~$N�(BJIS�$BBhFs?e=`4A;z$NJ8;z%3!<%II=$G$9!#�(B �$B!!%V%i%&%6$r;H$C$F!"J8;z$dJ8;z%3!<%I$r8!:w$7$FC5$9$3$H$,$G$-$^$9!#�(B Unicode�$BBP1~$K$D$$$F�(B �$B!!�(BUnicode�$B$KBP1~$7$F!"6hE@HV9f!"�(BJIS�$B%3!<%I!"%7%U%H�(BJIS�$B%3!<%I!"�(BEUC�$B%3!<%I!"�(BUnicode(UTF-8, UTF-16)�$B$NBP1~I=$r:n@.$7$F$_$^$7$?!#�(B �$B!!�(BUTF-16�$B$O!"�(BUTF-16BE�$B!J%S%C%0%(%s%G%#%"%s!K$GI=<($7$^$9!#�(B

shckor 2013/01/12

リンク

グーグルが絵文字を世界標準に提案した理由--国際化エンジニアに聞くプロジェクトの舞台裏（後編）

2008年11月27日、Googleは日本の携帯電話の絵文字をUnicodeに収録する計画を公表した。Googleはどんなプロセスを経て絵文字をUnicodeに提案すると決めたのだろうか。2月25日に公開した前編はこちらから。 Appleが絵文字提案に加わったいきさつ ――「絵文字シンボル符号化の提案（PDF）」（ISO/IEC 10646への提案書）を読むと、GoogleだけでなくAppleの名前もあります。これはどういう経緯なのでしょう。 2008年8月になって、Appleさんが200文字だったか300文字だったか、UTCのシンボル小委員会に絵文字のプロポーザルを出して来たんです。私達のプロポーザルでは約720文字あったんですが、より少ないコアセットにしようというものでした。Appleさんは、720文字も出したら通らないのではないかという危機感を持っていたようです。この年の秋に日本でi

shckor 2010/02/26

リンク

JIS-Unicode間の変換表の選択について

背景多言語対応アプリケーションでは、文字列を扱う場合に内部でUnicodeを用いることが一般的に行われています。しかし、ファイルとして保存する場合や、ネットワークを通す場合には、ISO-2022-JP・EUC-JP・シフトJISが使われるため、入出力の段階で変換する必要があります。特定のプラットフォームを対象としたアプリケーションの場合は、プラットフォームの変換モジュールを利用できますが、クロスプラットフォームのアプリケーションのために、言語処理系やアプリケーション自身が、Unicodeと既存のエンコーディングとの変換モジュールを持つことが多くなっています。シフトJISなどのエンコーディングは、 JIS X 0201 や JIS X 0208 などの文字集合を元にしていますが、これらの文字集合とUnicodeとの対応は、規格として厳密には定まっていないため、実装ごとに変換表が違っていま

shckor 2010/01/18

Unicode

リンク

404 Blog Not Found:perl - Encode 入門

2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門すでにOSCONでもYAPCでも、あちこちそちこちでこの基本方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改めだまってコードを書けよハゲ入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです！とにかくこの基本方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

shckor 2008/04/09

リンク

Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改メ tokuhirom’s blog

Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

shckor 2008/04/08

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

shckor 2008/02/28

ファイル名はバイナリ列（と解釈されている）なのか？

リンク

UTF8 フラグあれこれ - daily dayflower

UTF8 フラグについてわかってるつもりだったんですが，utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので，自分なりにまとめてみました。間違いがありましたらご指摘よろしく。まとめスカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがあるスカラー変数は（リファレンス等は別として）下記のものを格納できる (A) 文字列（内部表象: UTF-8） (B) 文字列（内部表象: ISO-8859-1） (C) バイナリ列純粋なバイナリストリーム（画像ファイル等）かもしれないし， UTF-8 octet stream かもしれないし， CP932 octet stream かもしれないし，etc, etc ... Perl は（後方互換性確保などの理由から）ISO-8859-1

shckor 2008/02/21

Perl
Unicode

リンク

ウノウラボ Unoh Labs: Mac OS X上のUnicode

Firefoxは内部的に変換処理を行うようになっているようです。問題はSafariとOperaですね。選択されたファイルのパスからJavaScriptでファイル名を抜き出してタイトルに設定する部分で、正しく扱えるような文字コードに変換することにしたいと思います。基本的な流れとしては、UTF-8-MAC特有の「U+3099」（COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK）、「U+309A」（COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK）がファイル名に含まれている場合は、その前の文字と結合して濁音・半濁音の文字にしてあげればいいでしょう（ひらがな・カタカナのみの暫定的な対処に過ぎませんが）。変換用の文字テーブルを用意して、逐一変換していくかたちにしたいと思います。というわけ

shckor 2007/09/04

Unicode

リンク

UTF-8 エンコーディングの危険性 - WebOS Goodies

基本的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです（昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ

shckor 2007/02/22

リンク

シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら

shckor 2006/06/28

リンク

tokuhirom blog

Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

shckor 2006/01/17

Encode::_utf8_on/off >> utf8::encode/decode > Encode::encode/decode > pack/unpack らしい

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

Unicodeに関するshckorのブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス