[B! 文字コード] clavierのブックマーク

clavier id:clavier

文字コードに関するclavierのブックマーク (31)

文字ときどきRuby / Character and Ruby (NSEG)
「髙」 > '髙'.encode('Windows-31J') "\x{FBFC}" > '髙'.encode('SJIS') # SJIS は Windows-31J の別名 "\x{FBFC}" > '髙'.encode('Shift_JIS') # Shift_JIS と SJIS は異なる # `encode': U+9AD9 from UTF-8 to Shift_JIS # (Encoding::UndefinedConversionError) 20
clavier 2024/01/31
ruby

文字コード

unicode
リンク
楽しい文字コード入門知っておきたいUnicode Emoji編
Bizreach Tech Beer Bashでの発表資料です
clavier 2016/10/03
文字コード

Unicode
リンク
JISから迫る文字コード入門
第16回渋谷Javaでの発表資料です。
clavier 2016/07/26
文字コード

JIS

Java
リンク
文字化けメール - tmtms のメモ
DELL にユーザー登録したらメールが送られてきたんですが、そのメールが文字化けしてました。文字化けメール研究家としては解析せざるを得ません。メーラーで見ると Subject が次のようになっていました。デルアカウントに$4EPO?$$$?$@$-!"$"$j$,$H$&$4$6$$$^$9! メールのソースを見ると次のようになっていました。 Subject: =?iso-2022-jp?Q?=1B=24B=25G=25k=25=22=25=2B=25=26=25s=25H=24K?= =?iso-2022-jp?Q?=244EPO=3F=24=24=24=3F=24=40=24=2D=21=22=24=22=24j=24?= =?iso-2022-jp?Q?=2C=24H=24=26=244=246=24=24=24=5E=249=1B=28B=21?= この Subject の
clavier 2016/02/21
mail

文字コード
リンク
７.２ ASCII の NUL と DEL の本来の意味 - 文字コードに関する覚え書きと実験
文字コードについて調べたことや実験したこと，テストプログラム，データファイルなどを随時掲載する予定です．ただし筆者の理解不足や誤解により誤りがあるかもしれませんので，ご利用は自己責任で．このページの主な更新は Blog でお知らせします．表示確認ブラウザ：FireFox 22.0，IE8．０．目次シフトJIS Shift_JIS と Windows-31J (CP932) の違いシフトJIS ２バイト文字の判定謎の検索ワード集 (シフトJIS編) 「Shift_JIS(SJIS，Windows-31J，CP932) ３バイト文字」「Shift_JIS(SJIS，Windows-31J，CP932) サロゲート(ペア)」「UTF-8 4バイト文字 Shift_JIS(SJIS，Windows-31J，CP932) 変換」「Unicode(UTF-8，UTF-16) か
clavier 2015/03/03
文字コード

charset

unicode

encoding
リンク
U+FFFF以上の文字ってなんや　→　サロゲートペアってなんや　→　Spring Web Services が言うことを聞きません！　とかで一日潰れた話 - エンジニア的なネタを毎週書くブログ
表題のような感じなのですが、これまで理解が曖昧だったUnicodeとか何とかが今までよりわかったのでメモ。尚、こちらのサイトを非常に参考にさせていただきました。 Unicodeについてコードポイントとは　文字コードとは今日覚えた単語その一。Unicodeに限らず、文字をコンピュータ上で表現する際、1つの文字に1つの数値を対応させるわけですが、この文字に対応する数値をコードポイントというそう。いままでASCIIコードとか呼んでました。そして、文字と数値の割り当てのルールのことを「文字コード」と言うんだそうです。 Unicodeとは　から　UTF-XXは何が違うんじゃ　という話へ Unicode誕生文字コードが乱立したため、あるコードポイントで表現される文字が、文字コードによって、てんでばらばらという状況に。ややこしいから、ひとつの統一した文字コードをつくろう！　ということで「U
clavier 2014/09/17
文字コード

unicode

encoding
リンク
文字コードの脆弱性はこの3年間でどの程度対策されたか?
4. デモ1:半端な先行バイトによるXSS • 半端な先行バイトとは – Shift_JIS、EUC-JP、UTF-8などマルチバイト文字の1 バイト目だけが独立して存在する状態 – 次の文字が、マルチバイト文字の2バイト目以降の文字として「食われる」状況になる – input要素などの引用符「”」を食わせて、イベントハンドラを注入する攻撃 Copyright © 2010-2014 HASH Consulting Corp. 4 5. デモ１：PHPソース <?php session_start(); header('Content-Type: text/html; charset=Shift_JIS'); $p1 = @$_GET['p1']; $p2 = @$_GET['p2']; ?> <body> <form> PHP Version:<?php echo htmlspeci
clavier 2014/02/26
security

文字コード
リンク
Ruby 1.9で文字コードの自動判別を行う
たまにRubyの話題でも。 Ruby 1.9で文字コードの自動判別をさせようとおもったら、意外に良いライブラリが見つからなくて苦労しました。結局ICUをbindingした、charlock_holmesがちゃんと使えたので、メモです。 OSXで使う場合は、下記の様にしてICUライブラリをインストールします。Linuxでは適当なパッケージシステムを使ってインストールしてください。 curl -O http://download.icu-project.org/files/icu4c/4.8.1.1/icu4c-4_8_1_1-src.tgz tar xvzf icu4c-4_8_1_1-src.tgz cd icu/source ./runConfigureICU MacOSX --with-library-bits=64 --disable-samples --enable-static
clavier 2012/01/10
文字コード

ruby

mac
リンク
Pythonで unicodedata.normalize を使って全角半角を正規化する方法
（この記事は 2008年03月14日に別のブログに投稿した記事を移動・編集したものです。）インターネット上の日本語を扱っていると、全角半角が統一されていない事による表記揺れをなんとかしたい場面に出くわします。半角で書かれた iPod も、全角で書かれたｉＰｏｄも同じものとして扱いたいときや、あるいは単に見た目がきれいになるように、英数字は半角に、カタカナは全角にそろえたい、という場合です。 Python では setomitsさんによる zenhan.py を使うと、文字種ごとに全角半角を選択して変換することができ、除外文字も設定できるので便利です。ただ、そこまで柔軟でなくても良く、単に表記揺れがなくなれば良い、という場合も多いかと思います。その場合はPythonの標準ライブラリに含まれる unicodedata モジュールの normalize 関数を使うと便利です。 >>> impo
clavier 2011/03/29
python

文字コード
リンク
文字化け - odz buffer
ref:ＰＨＰの文字化けを本気で解決する - ぎじゅっやさん via:よくきたはてダ - 惜しいが間違っている上鍵さんからツッコミが入ってますが、別の点を。先ほどの例の時にも書いたが、ＰＨＰには内部エンコードという概念は存在しない。ではmbstring.internal_encodingとは何なのか。これは mbstring関数のデフォルトエンコードなだけである。しかし、変換元が固定になるというのは重要なことなので、これはソースコードと揃えておくのがBetter。変換元て。mbstring の関数てエンコーディング変換だけじゃないんだけどなぁ。mb_strlen だって mb_ereg 系の関数だってデフォルトのエンコーディングは mbstring.internal_encoding になるわけで、ソースコードと揃えるのは「Better」というより「原則」だろう。全ての mbs
clavier 2007/02/16
php

文字コード
リンク
memo.xight.org - PHPの文字化け - 5つの誤解と5つの対策
Summary 設定すべき項目は以下． ;; Disable Output Buffering output_buffering = Off ;; Set HTTP header charset ; default_charset = EUC-JP ;; Set default language to Japanese mbstring.language = Japanese ;; HTTP input encoding translation is enabled. mbstring.encoding_translation = off ;; Set HTTP input encoding conversion to auto mbstring.http_input = pass ;; Convert HTTP output to EUC-JP mbstring.http_output
clavier 2007/02/16
php

文字コード
リンク
ＰＨＰの文字化けを本気で解決する - ぎじゅっやさん
clavier 2007/02/14
php

文字コード
リンク
/halt/Snapshot - EthnaでUTF8を扱うもっともシンプルな方法
ようやくUTF8での運用に慣れたきがするので、どうやってUTF-8を使っているのか紹介。 EthnaでUTF-8なWebアプリを作る場合、templateをすべてUTF-8で書いてやればいいわけですが、ActionFormのValidateなどで表示されるEthna内部に書かれているエラーメッセージがEUC-JPの為、エラーメッセージが文字化けしてしまいます。今までは、Ethna全体や、エラーメッセージが書かれたファイルをUTF-8化してみたりしていましたが、結構面倒です。(ちょっと力技過ぎる) そこで、エラーメッセージを表示するメソッドを継承して文字コード変換を行います。以下のコード(Ethna_ActionError_UTF8.php)をコントローラーの設定を変更してActionErrorと置き換えるだけです。 _getActionForm(); $form_name = $af-
clavier 2006/10/24
php

文字コード
リンク
MySQL 文字化け問題を本気で直す
mysql> status; -------------- mysql Ver 14.7 Distrib 4.1.20, for redhat-linux-gnu (i386) using readline 4.3 Connection id: 36 Current database: staff2006 Current user: maiha@localhost SSL: Not in use Current pager: lv Using outfile: '' Using delimiter: ; Server version: 4.1.20 Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: latin1 Db characterset: latin1 Client char
clavier 2006/10/20
mysql

文字コード
リンク
コアテクの路地: EUC-JP と Shift_JIS
弊社ブログユメのチカラで、MySQL で ujis の 0x5C が sjis の 0x815F に変換されてしまう問題が取り上げられていましたので、なぜ、そのような変換が行なわれるのか、そしてそのような実装が間違いとは言いきれない事を話たいと思います。 MySQL での ujis と sjis は、それぞれ、IANA で定義されている EUC-JP と Shift_JIS に相当します。まずは、それぞれの定義を見てみましょう。 EUC-JP の定義 Name: Extended_UNIX_Code_Packed_Format_for_Japanese MIBenum: 18 Source: Standardized by OSF, UNIX International, and UNIX Systems Laboratories Pacific. Uses ISO
clavier 2006/10/19
文字コード
リンク
FC2Blog - 404 Error
Page not found ご指定のファイルが見つかりませんでした 30秒後にトップページへ移動します
clavier 2006/09/27
rails

mysql

文字コード
リンク
EUC-JP で変換できない機種依存文字を置換する - memo.xight.org
Summary UTF-8で変換できない機種依存文字を置換する[2006-06-19-13] のEUC-JP版のつもり．追記 [2006-08-09] 結果は失敗．文字化け発生． Source function replaceText($str){ $arr = array( // ADA0 - ADB4 "\xAD\xA1" => "(1)", "\xAD\xA2" => "(2)", "\xAD\xA3" => "(3)", "\xAD\xA4" => "(4)", "\xAD\xA5" => "(5)", "\xAD\xA6" => "(6)", "\xAD\xA7" => "(7)", "\xAD\xA8" => "(8)", "\xAD\xA9" => "(9)", "\xAD\xAA" => "(10)", "\xAD\xAB" => "(11)", "\xAD\xAC"
clavier 2006/08/12
EUC

文字コード
リンク
JavaScript++かも日記 - 1997年からの
Testnetがアップデートされたのは知ってたけれど、libra-authのデモも動かなくなったのでちょっと調…
clavier 2006/07/30
ajax

文字コード
リンク
Hawk's Laboratory » HaskellでUTF-8処理（Parsec版）
このドメインを購入する。 hawklab.jp 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
clavier 2006/06/13
UTF-8

Haskell

文字コード
リンク
rssに非UTF8の不正な文字列がある場合の対処法
PHP5のSimpleXMLが、rss内に不正な文字列があるとパースエラーを起こしてしまうのだけど、ついに対処法を編み出した。というか朝思いつきでやったら動いたｗｗｗｗｗ $xmlStr = mb_convert_encoding($xmlStr, "SJIS", "UTF-8"); //一度sjisにする $xmlStr = mb_convert_encoding($xmlStr, "UTF-8", "SJIS"); //またutf8に戻す mb_convert_encodingスゴス。
clavier 2006/06/05
php

rss

tips

文字コード
リンク
1 2 次のページ