[B! utf-8] issmのブックマーク

issm id:issm

utf-8に関するissmのブックマーク (29)

mysqlのcollateを使って大文字-小文字や全角-半角を無視した検索 - end0tknr's kipple - web写経開発
mysqlでは、collate = utf8_unicode_ciを指定すると、大文字-小文字だけでなく、全角-半角を同一視できるそうですが、実際にどの文字が同一視されるのかを試してみました。 collateとは http://tetlist.info/2009/01/mysql ↑このエントリでも分かりやすく紹介されていますが、collate(照合順序)とは、文字を比較(一致/不一致や表示順)する際のルールです。 utf8_unicode_ciで大文字-小文字だけでなく、全角-半角を同一視 mysqlのデフォルトcollateであるutf8_general_ciでは、大文字-小文字を同一視しますが、utf8_unicode_ciでは、さらに半角-全角も同一視します。 ※ci とは Case Insensitive の略称のようです tableやcolumn自体にcollateを設定する
issm 2013/12/27
mysql

utf-8
リンク
メールアドレスのバリデーション崩壊のお知らせ、もしくは、全てが UTF-8 になる, 「エンジニアのためのイベント映像活用方法」の第2回が gihyo.jp に掲載されました - 雑文発散(2013-01-24)
▼ [雑] メールアドレスのバリデーション崩壊のお知らせ、もしくは、全てが UTF-8 になる JANOG31 のページをつらつら見てたら気になるセッションがあった。「メールアドレスの国際化(JANOG25からの変更点)」というものだ。（多用されているかはともかく）Web で使われるドメイン名では国際化が進んでいたけど、メールアドレスに関してはほとんど進んでいなかった印象だったのに、どうも RFC での標準化がほぼ完了したらしい。セッションページからダウンロードできる「IETF 85 報告 DNS, 国際化関連」という資料を見てみたら、次のような記述があった。ほとんどすべてのメールヘッダにUTF-8を許可 – メールアドレス部 <ローカルパート@ドメイン名> – Display-name, (コメント), SubjectヘッダにもUTF-8 (従来はMIME) 資料には具体例も記載さ
issm 2013/01/24
email

rfc

utf-8

protocol
リンク
Unicode（東アジア） - CyberLibrarian
Unicodeの字種の表です。下表のリンク先のページに、十六進数の数値文字参照で記述した文字コード表を掲載しています。文字コード表中の各文字は、ユニコード・コンソーシアムが提供しているUnihanデータベースの該当文字へリンクしてあります。文字コード表中の文字は、環境によっては正しく表示されない場合がありますが、各ページからリンクしているPDFでは正しく表示されます。字源的には同じだが字形の異なる中国語、日本語、朝鮮語、ベトナム語の漢字に同じコードを与えて統合した漢字です。 CJK統合漢字、拡張Aと拡張Bには、JIS X 0213の漢字が含まれています。拡張Bには、多数の重複字の存在が指摘されています。拡張Fには、文字情報基盤整備事業が提案した漢字（1,645字）、大蔵経テキストデータベース研究会が提案した漢字（2,884字）も含まれています。拡張Gには、大蔵経テキストデータベー
issm 2012/11/14
unicode

utf-8

charset
リンク
utf8_general_ci と utf8_unicode_ci の違い - Ceekz Logs (Move to y.ceek.jp)
以前までは、データベース MySQL を利用したアプリケーションを作るときは、文字コードとして EUC-JP を利用していました。最近は、国際化との兼ね合いなどから UTF-8 を利用するようにしています。 MySQL で UTF-8 を扱う場合、照会順序として utf8_bin を使用していました（何も考えずに）。 utf8_bin の場合、部分一致探索 LIKE などの使用時に英字の大文字小文字が区別されてしまう。大文字小文字を区別されないようにするためには、照会順序として utf8_general_ci を使用すればよいのですが、他にも utf8_unicode_ci があることに気がつきました。 utf8_general_ci と utf8_unicode_ci では、どこが違うのだろう？ utf8_general_ci also is satisfactory for both
issm 2012/10/13
mysql

utf-8
リンク
Encode::UTF8Mac - トミールの技術系日記
探したのだけど作っている人がいなかったので、いわゆるutf-8-macと呼ばれるエンコーディングを追加するEncode::Encodingをつくりました。 https://github.com/tomi-ru/Encode-UTF8Mac use Encode; use Encode::UTF8Mac; print Encode::encode('utf-8-mac', '蘄藭づけ'); use Path::Class; for my $entry (dir(".")->children) { my $filename = Encode::decode('utf-8-mac', $entry); } 反応みてPODちゃんと書いたらUPしようと思っている →POD書いた. PODの方が少し整理されているのでわかりやすいかもしれない。 https://github.com/tomi-ru/En
issm 2010/12/19
mac

utf-8-mac

utf-8

unicode

charset

encode
リンク
UCS-2とUTF-8
最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例
issm 2010/11/04
character

unicode

utf-8

rfc
リンク
[mac][emacs] EmacsからC/MigemoをUTF-8で使う - 生活。
Emacs環境をUTF-8化してからしばらく経ちますが、Migemoの辞書は未だにEUC-JPであるのでこの際UTF-8化しておこうと思ったのでメモしておきます。 C/Migemoのインストール今回はUTF-8にも標準で対応しているC/Migemoの1.3開発版を使用します。http://www.kaoriya.net/dist/var/cmigemo-1.3c.tar.bz2 1.2まではUTF-8に対応していません。上記のファイルをダウンロードしてきて、解凍。 $ tar xvf cmigemo-1.3c.tar.bz2 マニュアルはきちんと読みましょう。基本です。日本語ならdoc/README_j.txtにあります。今回はosxにインストールするので、マニュアルに従って作業します。 $ ./configure && make osx && make osx-dict 最後のosx
issm 2010/10/07
emacs

migemo

cmigemo

elisp

utf-8
リンク
perl - use utf8; #って何だ? : 404 Blog Not Found
2009年06月15日07:00 カテゴリLightweight Languages perl - use utf8; #って何だ? id:otsuneに建設予定フラグがたてられていたので。冬通りに消え行く制服ガールは、夢物語にリアルを求めない。 - subtech Perl の utf8 関係が未だ全く理解できない。わからないことがわからないので整理 use utf8はいつフラグをたてるか use utf8 しててもフラグたたないことがある…… これは、以下の実例を見ていただくのが一番よいだろう。 #!/usr/bin/perl use strict; use warnings; use utf8 (); sub check_flag{ my $str = shift; print qq("$str" ), utf8::is_utf8($str) ? 'is' : 'IS NOT',
issm 2010/04/22
dankogai

utf-8

perl

encode
リンク
はてなブログ | 無料ブログを作成しよう
週報 2024/04/28 川はただ流れている 4/20（土）初期値依存性さいきん土曜日は寝てばかり。平日で何か消耗しているらしい。やったことと言えば庭いじりと読書くらい。ベランダの大改造をした。サンドイッチ一年前に引っ越してからこんな配置だったのだけど、さいきん鉢を増やしたら洗濯担当大臣の妻氏…
issm 2010/01/06
svn

charset

utf-8

utf-16
リンク
DBIx::Encoding でPerlとDB間の文字コード & utf8 flagを透過的に扱う - JPerl Advent Calendar 2009
DBIx::Encoding でPerlとDB間の文字コード & utf8 flagを透過的に扱う - JPerl Advent Calendar 2009 Perl に関するちょっとした Tips をのっけてみるよ。ちゃんと続くかな？はじめにはじめまして、myfinderといいます。 Casual Trackの記事をupしたときに話が出たので、記事を書いてみたいと思います。今回ご紹介するモジュールは DBIx::Encoding です。 DBIx::Encodingは非常に小粒なモジュールですが、BKだなと自分でも思っています。 cho45さんの紹介されているモジュールと割と趣が近い気がします。 Casual Trackのxai cronさんの記事にもあるように、いわゆるモダンなPerl開発ではソースコードをUTF-8で記述し「use utf8;」し、文字列は「入力時にdecode、
issm 2009/12/19
perl

dbi

utf-8

encode

db

mysql
リンク
Encodeでラクラク日本語処理 - JPerl Advent Calendar 2009
こんにちは！ラブプラスとときメモ４の狭間で揺れ動いているxai cronです！！今日は日本でプログラムを書いていたら避けては通れない気がする、Encodeの話をしようと思います！はじめにまず、この記事を読む前に、Perlのバージョンの確認をしてください。以下のようにやればバージョンが表示されます。 % perl -v ここで、5.8.1より下の数字ができてきた方は、Perlのバージョンアップをしてください。5.8.1より下のバージョンでは、Perlの内部文字コードが安定していないので、いい感じになりません。できれば5.8.8以上のバージョンを使いましょう。それから、文字コードってなによって人も適当にWikiとかで調べてから読んだ方がいいと思います！！ Encode.pm Encodeは昔のjcode.plやJcode.pmに代わる、現在の文字コード処理のスタンダードModuleです。
issm 2009/12/10
この辺のルールが不安定だったので，改めて徹底せねば．

perl

encode

utf-8
リンク
YAMLやYAML::Syckでutf8でdecodeしながら読む - Unknown::Programming
メモ。 YAML::Syckの場合 use YAML::Syck(); my $file = 'data.yaml'; local $YAML::Syck::ImplicitUnicode = 1; my $data = YAML::Syck::LoadFile($file); $YAML::Syck::ImplicitUnicodeを使うことでデコードしながら読むことができる。 YAMLの場合 my $data = YAML::LoadFile($file); my $yaml = YAML::Dump($data); utf8::decode($yaml); $data = YAML::Load($yaml); YAML parser - Bulknews::Subtech - subtech miyagawaさんとこの記事でこう書かれてたんだけど、コレって普通にファイル読み込んだ方が
issm 2009/10/21
perl

yaml

utf-8
リンク
MySQL 文字化け問題を本気で直す
mysql> status; -------------- mysql Ver 14.7 Distrib 4.1.20, for redhat-linux-gnu (i386) using readline 4.3 Connection id: 36 Current database: staff2006 Current user: maiha@localhost SSL: Not in use Current pager: lv Using outfile: '' Using delimiter: ; Server version: 4.1.20 Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: latin1 Db characterset: latin1 Client char
issm 2009/08/19
mysql

charset

tips

trouble

utf-8
リンク
Unicode正規化
正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ
issm 2009/08/06
unicode

utf-8

charset
リンク
最近、画像に表示されているように、文字化けがごくまれに起きるようになりました。…
最近、画像に表示されているように、文字化けがごくまれに起きるようになりました。この画像はFirefoxを使った時のGoogle検索結果の一部です。これは「グランドアクシス」という文字が入るようですが、濁音だけうまく表示されていません。「グランドアクシス」と検索した際の文字表示はすべて問題ないのですが・・。これは何が起こっているのでしょうか？
issm 2009/08/06
utf-8

utf-8-mac
リンク
NFS サーバ側でUTF8 NFD ⇔ UTF8 NFC の変換はできるのか？
MacOSX で Unicode が全面的にサポートされている。その中で一番分からないのは、ファイル名が UTF8 NFD (Normalization Form Decomposition) で正規化されていることである。詳しく言えば NFD をベースにした微妙に異なるルールらしい(1, 2)。その結果なのか知れないが UTF-8-MAC と呼ばれることが多い。 Linux 界隈でサポートされる UTF8 は NFC で正規化されると言われている。ただし、正規化処理が為された結果ではなく、専ら合成済みの文字のみを扱っている結果として、UTF-8 NFC なんだと思う。 Windows とおんなじ理由と思う。根拠は全くない。 Linux というより上位のフレームワーク／アプリケーション(Gnome,KDE 等)の扱いの問題なんだと思う。 UTF8 の正規化の問題は、Samba や net
issm 2009/08/06
utf-8-mac

utf-8

nfs

mac

linux
リンク
正規化 - odz buffer
ref:ウノウラボ Unoh Labs: Mac OS X上のUnicode ref:はてなブックマーク - ウノウラボ Unoh Labs: Mac OS X上のUnicode 符号化方式と正規化の問題を激しく混同した解説をどうも。ブックマークコメントをみても正しく問題が伝わっていないように思える。というか、書いた人がきちんと認識してないんじゃないか。 2007年09月04日 omaya omaya 誰が悪いんだろう。強いて言えば NFD な Unicode の入力に対してまともに動かない Web アプリじゃないかな。 2007年09月04日 mattn mattn macosx, unicode ブラウザのバグだしバージョンで処理しないといけないのかな... ブラウザのバグではない。しかもややこしいことに、UTF-8で濁点をあらわすコードは「U+309B」（KATAKANA-HIR
issm 2009/06/30
unicode

utf-8

filesystem

mac
リンク
UTF-8-MAC - MacWiki
UTF-8-MAC とは[編集] UTF-8-MAC とは、Mac OS X に付属する iconv にて利用できる文字エンコードの一つで、 Normalization Form D (NFD) で符号化した UTF-8 のことを指します。一般に UTF-8 とだけいった場合には、Normalization Form C (NFC) でエンコードされたものを意味します。 Unicode 標準では、NFC は正規結合(Canonical Composition)、 NFD は正規分解(Canonical Decomposition)として規定されています。たとえば、「が」の字を NFC で表現すると U+304C (HIRAGANA LETTER GA) ですが、 NFD では U+304B U+3099 (HIRAGANA LETTER KA + COMBINING KATAKANA-
issm 2009/06/30
mac

filesystem

unicode

utf-8
リンク
Legacy Communities - IBM Community
If you’re looking for a developerWorks forum — Don't panic! You are in the right place. You are here because specific IBM developerWorks forums, blogs and other Connections content have been decommissioned. This page will help you find the content you are looking for, get answers to your questions, and find a new community to call home. Where am I? You are on the IBM Community area, a collection o
issm 2009/06/30
windows

linux

samba

filesystem

utf-8
リンク
http://j3e.de/linux/convmv/man/
issm 2009/06/30
linux

tool

utf-8

filesystem
リンク
1 2 次のページ