[B! 文字コード] [2ページ] paselaのブックマーク

perl - use encoding; #は黒歴史 : 404 Blog Not Found

2009年06月08日14:30 カテゴリLightweight Languages perl - use encoding; #は黒歴史ぎゃあぁぁ length関数で文字列の長さを求める - perl初心者BLOG - Hatena::Group::Perl 日本語の文字数を正確に求めたい場合、use encodingを指定する use encoding;は、jperlなど、かつて存在したL10Nされたperl用に書かれたレガシースクリプトを、モダンperlで動かすときのためのおまじないです。こういう目的で利用すべきではありません。このあたりのことは、以前 404 Blog Not Found:perl - no encoding; # whenever possible でも書いたのですが、大事なことなのでまた書きます。スクリプトはUTF-8で書き、use utf8;するのがモ

pasela 2009/06/08

リンク

日本語エンコーディング各種まとめその1 - かずめもラジカル - AndroidとDebianのある生活 -

2009/04/01バグパレード登録済 (外字追加) (画像だとやっぱり良くないかなと思ってテーブルにしてみた) Unicode←→JIS/SJIS/EUCの癖をまとめてみた。基準はWindows。というか秀丸(汗)。秀丸は、きちんとしたEUC-JPだとかJISを解釈できるわけではないので、そこんところはバイナリエディタとか併用して。 Unicode Shift_JISISO-2022 -JPx-euc-jp -linuxEUC-JPeucJP -Openwindows -31jx-windows -iso2022jpCP50220 \ (005C)\ (005C)\ (005C)\ (005C)\ (005C)\ (005C)\ (005C)\ (005C)\ (005C) ¥ (00A5)\ (005C) 集約¥ (005C) JISX0201\ (005C) 集約\ (005C) 集

pasela 2009/05/29

文字コード

リンク

fujistaff.com - fujistaff リソースおよび情報

This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

pasela 2009/05/15

文字コード

リンク

ＰＨＰの文字化けを本気で解決する - ぎじゅっやさん

pasela 2009/04/22

リンク

UTF-8で変換できない機種依存文字を置換する

Summary UTF-8 のページから (株) やローマ数字の I などの文字をメールで送信すると，文字化けする．文字化けしそうな文字を，ad hoc に機種依存しない文字に変換する．ローマ数字もカッコで括るか，スペースを挿入したほうが良いかも． Source function replaceText($str){ $arr = array( /* --- 0x2100 - 0x2138 (文字種記号) --- */ // 0x2100 - 0x210F '\xE2\x84\x80' => 'a/c', '\xE2\x84\x81' => 'a/s', '\xE2\x84\x82' => 'C', '\xE2\x84\x83' => '?', '\xE2\x84\x84' => '?', '\xE2\x84\x85' => 'c/o', '\xE2\x84\x86' => 'c/u

pasela 2009/04/21

リンク

機種依存文字とUnicode - WebStudio

導入機種依存文字と呼ばれる文字があります。例えばWindowsでは、大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、丸囲み文字(㊤㊥㊦㊧㊨)、カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、単位記号(㎝㎏㎡)、複数のアルファベットを合成した文字(㏍℡№)、元号(㍻㍼㍽㍾)、会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。機種依存文字は一般的に、異機種間でデータの交換を行った場合、例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。しかし、これらは機種依存文字と呼ばれているものの、その意味はあ

pasela 2009/04/21

リンク

へぼへぼCTO日記 - libmysqlclientを使うプログラムはset namesをutf8であっても使ってはいけない

mysql_enable_utf8 => 1 で DBIC::UTF8Columns 要らなくなるっぽいComments 上記の記事のブクマに set namesを直接実行しちゃうのはutf8であってもコンパイルオプションによっては問題起こるのでお勧めできない http://b.hatena.ne.jp/nihen/20090204#bookmark-11950629 ってことを書かせてもらったんだけど、この最後のset namesはutf8でも使っちゃダメという話を軽く説明します。まずは、基本的なことはMySQL5開拓団 - 日本語処理の鉄則 / KLab株式会社を読んでください。mysqlの日本語処理についてのドキュメントとしては、私は今一番信頼できるドキュメントだと思っています。さて、上記のページのを、勝手ながらすべて引用させていただくことにする。(手抜きもいいところだな） ■

pasela 2009/04/15

リンク

GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ

GT Nitro: Car Game Drag Raceは、典型的なカーゲームではありません。これはスピード、パワー、スキル全開のカーレースゲームです。ブレーキは忘れて、これはドラッグレース、ベイビー！古典的なクラシックから未来的なビーストまで、最もクールで速い車とカーレースできます。スティックシフトをマスターし、ニトロを賢く使って競争を打ち破る必要があります。このカーレースゲームはそのリアルな物理学と素晴らしいグラフィックスであなたの心を爆発させます。これまでプレイしたことのないようなものです。 GT Nitroは、リフレックスとタイミングを試すカーレースゲームです。正しい瞬間にギアをシフトし、ガスを思い切り踏む必要があります。また、大物たちと競いつつ、車のチューニングとアップグレードも行わなければなりません。世界中で最高のドライバーと車とカーレースに挑むことになり、ドラッグレースの王冠

pasela 2009/03/09

リンク

perl - EncodeでXSSを防ぐ : 404 Blog Not Found

2009年03月03日19:00 カテゴリLightweight Languages perl - EncodeでXSSを防ぐ良記事。第7回■文字エンコーディングが生み出すぜい弱性を知る：ITpro だけど、問題点のみ具体例があって、対策にないのが片手落ちに感じられたので、その点を補足。結論だけ言ってしまえば、Perlなら以下の原則を守るだけです。 404 Blog Not Found:perl - Encode 入門すでにOSCONでもYAPCでも、あちこちそちこちでこの基本方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改めだまってコードを書けよハゲ入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これが

pasela 2009/03/03

リンク

eucJP-ms

TOG/JVC (オープン・グループ / 日本ベンダ協議会) CDE/Motif 技術検討 WG が定めたコードセット名です。UI-OSF共通日本語EUC にユーザー定義文字とIBM拡張文字、NEC特殊文字を追加した日本語EUC (eucJP-open) と Unicode (UCS) との間のコード変換規則に Microsoft Windows NT 3.51 の式の変換規則を用いる場合に、このコードセット名を用います。 Unicode 経由で Windows-31J で使用できる全文字 (コードポイント) の相互変換が可能となるように変換規則が定められています。変換規則 eucJP-ms の変換規則の概要は次の通りです。 EUC コードセット0 (ASCII) ASCII (ISO/IEC 646 IRV) とみなして Unicode に変換する。 EUC コードセット1 (JIS

pasela 2009/01/08

文字コード

リンク

http://www.hi-matic.org/diary/?200709a

pasela 2009/01/08

リンク

ウノウラボ Unoh Labs: Mac OS X上のUnicode

Firefoxは内部的に変換処理を行うようになっているようです。問題はSafariとOperaですね。選択されたファイルのパスからJavaScriptでファイル名を抜き出してタイトルに設定する部分で、正しく扱えるような文字コードに変換することにしたいと思います。基本的な流れとしては、UTF-8-MAC特有の「U+3099」（COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK）、「U+309A」（COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK）がファイル名に含まれている場合は、その前の文字と結合して濁音・半濁音の文字にしてあげればいいでしょう（ひらがな・カタカナのみの暫定的な対処に過ぎませんが）。変換用の文字テーブルを用意して、逐一変換していくかたちにしたいと思います。というわけ

pasela 2008/11/20

文字コード

リンク

サイボウズ株式会社

サイボウズはクラウドベースのグループウェアや業務改善サービスを軸に、社会のチームワーク向上を支援しています。

pasela 2008/07/20

リンク

「～」徹底解析

今回のテーマはずばり、「～」文字についてです。この文字による文字化けで悩まされたことのある人も多いはずです。実は2種類なぜこの文字がそんなにややこしいかというと、実はこの「～」には2種類の文字があるのです。 Type A : Type B : 若干違いますね。通常見慣れているのはType Aの方でしょうか。文字コードによる違い Windows-31J (MS932) Windowsが標準で採用している文字コードです。後述しますが、これは「Shift_JIS」とは異なるものです。ほとんど似てはいますが、少しでも異なるという事は全く違うものだという認識をしておいた方が良いでしょう。この文字コードでは、Type A は表現できますが Type B は表現できません。つまり、ほとんどの人がType A の「～」しか知らないわけです。 Shift_JIS JIS X 0208で

pasela 2008/07/18

リンク

Windows環境でShift_JISなファイル名をPath::Class使って問題なく操作する方法 - Unknown::Programming

ちょっとした野暮プログラムで、あるフォルダのファイル名の抽出を行おうと思ったんだ。ほんと軽い気持ちで、そう軽い気持ちでちょこちょこっとさ。 use Path::Class; use Perl6::Say; for my $file ( dir('./hoge')->children ) { say $file->basename; } こんなのね。すごいシンプル。ちょうシンプル。コレでhogeフォルダ以下のファイルを取得できるのね。で、動かしてみたの。もちろん云わずもかなWindows環境ね。Windows環境。するとね。うまくファイル名が抽出できなかったのさ。そう、よくあることだ。Shift_JISだよShift_JIS。Shift_JISのせいなんだ。ファイル名にShift_JISが含まれてるの。 Shift_JISの「予」や「表」とかの文字コードは2バイト目がバックスラッシュ

pasela 2008/07/14

リンク

図解: Perl と Unicode 文字列 - daily dayflower

id:tomi-ru さんが [http://e8y.net/mag/015-encode/:title] というとてもプラクティカルな [http://search.cpan.org/perldoc?Encode:title=Encode] 入門をお書きになったので，わたしも違う切り口で書いてみたくなりました。いちおうの基礎（読み飛ばし可）文字セット, キャラクタセット, 文字集合, 文字集合 - Wikipedia エンコーディング, 符号化方式, 文字符号化方式 - Wikipedia この2つは異なります。とくに知らなくても下記の文書を読むことはできますが，理解しているとためになります。くわしく知りたい人は自習してください。文字セットの例 Unicode JIS X 0208 ひらがなとかカタカナとか漢字とか ASCII 文字エンコーディングの例 UTF-8 ISO-202

pasela 2008/06/21

文字コード

リンク

今日のCPANモジュール（跡地）目次

Redirecting… Click here if you are not redirected.

pasela 2008/06/13

リンク

「〜」と「潤オ」-きむずか - ゆびとまSNS-ブログ

以前に書いた関連記事上の投稿で「〜」が「潤オ」に文字化けする理由として、「〜」には２種類あると書きました。フォントで表すと以下の２種類です。全角チルダ：〜　（半角 ~ の全角版）波ダッシュ：〜ウィキペディア：チルダウィキペディア：波ダッシュ上記ウィキペディアを読み比べてみると「１〜２」とか範囲を表すには本来、波ダッシュ「〜」を使い、チルダは、「Ã」のように使うのが正解らしい。（機種依存文字なので表示できていない機種もあります　=>アルファベットの「Ａ」の上に「〜」を書いています）また、「なにぃ〜！」とかいう長音符は「〰」と「〜」を使いわけるべきだというマンガ家もいます。つまり、Windows側での用法（MSの解釈？）が誤っていると取れるのですがどうでしょうか。（読解力のある方おねげぇします）しかも、この変なミミズのような「にょろ」のフォントは Win3.1(3

pasela 2007/06/29

文字コード

リンク

潤オ-きむずか - ゆびとまSNS-ブログ

繁忙期も落ち着いてきましたのでそろそろ復活することにします。【文字化けはなぜおこるのか】「潤オ」で検索すると結構ヒットします。「潤オ」の検索結果これは、「要潤オフィシャルサイト」は別として「〜」が「潤オ」に文字化けして表示されているのですが、理由がわからないという人が多いので少し説明します。そもそもコンピュータに保存されている"文字"は、実は文字ではなく、単なる 0 と 1 の集まりに過ぎません。（ 0 か 1 しかないので２進数です。）この２進数に文字を割り当てて表現する場合、半角英数字と記号、半角カナも含めて256種類もあれば足りるので一文字は、00000000 〜 11111111 の間のいずれかに割り当てて表現します。例えば 10000001 という組み合わせは、半角英大文字の "A" にあたります。これでは何が何だかわからなくなるので、プログラミングをす

pasela 2007/06/29