![Ruby の invalid byte sequence in UTF-8 例外を encode("UTF-8", "UTF-8") で回避するのはおかしいよ、という話 : sonots:blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/da78a05937633f7a2b4b2219826151c370cd607b/height=288;version=1;width=512/https%3A%2F%2Fparts.blog.livedoor.jp%2Fimg%2Fusr%2Fcmn%2Fogp_image%2Flivedoor.png)
August 15, 201211:31 カテゴリ統計 Twitterの140文字は他言語では何文字くらいか ...というのが気になって以前調べたことがあるんだけど、先に同じことをやってた人を見つけた。 → Twitterは560文字制限!? 同じ文字数に込められる情報量の違い ↑は聖書の各国語翻訳版を使って文字数を比べてる。 自分の場合は wikisource を使った。例えばジキル博士とハイド氏のページを見ると、同じ内容に対して5カ国語の対訳があるので、これで文字数を比べることができる。 上のリンク先の記事の方がカバーしている言語が多くて精度も良さげなんだけど、微妙に異なるところもあるし、せっかくなので対応表を作ってみた。 言語英語1に対する utf-8 一文字の情報量140文字を英語に換算した文字数上記記事 による一文字の情報量(参考)中国語3.28459(約4.0)日本語1.942
こんにちは!ラブプラスとときメモ4の狭間で揺れ動いているxaicronです!! 今日は日本でプログラムを書いていたら避けては通れない気がする、Encodeの話をしようと思います! はじめに まず、この記事を読む前に、Perlのバージョンの確認をしてください。以下のようにやればバージョンが表示されます。 % perl -v ここで、5.8.1より下の数字ができてきた方は、Perlのバージョンアップをしてください。5.8.1より下のバージョンでは、Perlの内部文字コードが安定していないので、いい感じになりません。できれば5.8.8以上のバージョンを使いましょう。 それから、文字コードってなによって人も適当にWikiとかで調べてから読んだ方がいいと思います!! Encode.pm Encodeは昔のjcode.plやJcode.pmに代わる、現在の文字コード処理のスタンダードModuleです。
2009年06月08日14:30 カテゴリLightweight Languages perl - use encoding; #は黒歴史 ぎゃあぁぁ length関数で文字列の長さを求める - perl初心者BLOG - Hatena::Group::Perl 日本語の文字数を正確に求めたい場合、use encodingを指定する use encoding;は、jperlなど、かつて存在したL10Nされたperl用に書かれたレガシースクリプトを、モダンperlで動かすときのためのおまじないです。こういう目的で利用すべきではありません。 このあたりのことは、以前 404 Blog Not Found:perl - no encoding; # whenever possible でも書いたのですが、大事なことなのでまた書きます。 スクリプトはUTF-8で書き、use utf8;する のがモ
2007年11月27日13:30 カテゴリLightweight Languages perl - 文字列ばらしはsplit //, $strで うーん、ここがあきまへん。 [を] 転置インデックスによる検索システムを作ってみよう! 9 my @char = ($c =~ /([\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]| 10 [\xE0-\xEF][\x80-\xBF]{2}| 11 [\xF0-\xF7][\x80-\xBF]{3})/gsx); 文字列をばらして(utf8の)文字一つ一つの配列にするには、バイト列に正規表現をかますのではなく、utf8文字列にしてからそれにsplit //をかますのが一番です。単にわかりやすいだけではなく、その方がずっと高速です。以下、Benchmark。 #!/usr/local/bin/perl use strict; u
JIS X 0213の第3・4水準漢字の一部が4バイトとなる。マイナーな文字ですね。 例えば、第1・2水準漢字だけ対応していればよい案件などでは考慮しなくてよいでしょう。 MySQLではこのUTF-8で4バイトになる文字を扱えないのだとか(MySQL6なら対応したそうだ)。 数値文字参照で全部書いてみた。 (パッチのあたっていないWindowsXPなどでは表示されないです。) 𠀋 𡈽 𡌛 𡑮 𡢽 𠮟 𡚴 𡸴 𣇄 𣗄 𣜿 𣝣 𣳾 𤟱 𥒎 𥔎 𥝱 𥧄 𥶡 𦫿 𦹀 𧃴 𧚄 𨉷 𨏍 𪆐 𠂉 𠂢 𠂤 𠆢 𠈓 𠌫 𠎁 𠍱 𠏹 𠑊 𠔉 𠗖 𠘨 𠝏 𠠇 𠠺 𠢹 𠥼 𠦝 𠫓 𠬝 𠵅 𠷡 𠺕 𠹭 𠹤 𠽟 𡈁 𡉕 𡉻 𡉴 𡋤 𡋗 𡋽 𡌶 𡍄 𡏄 𡑭 𡗗 𦰩 𡙇 𡜆 𡝂 𡧃
前回の「さくらのVPSサーバー構築メモ – 基本設定編」の続きです。 必要なものをインストールする vimをインストール $ sudo yum -y install vim-enhanced .vimrcのサンプル。最低限、UTF-8の設定だけしておく。 $ vi ~/.vimrc set encoding=utf-8 set fileencodings=utf-8,iso-2022-jp,euc-jp,sjis zshをインストール zshを知らない人はこのあたりを参照→漢のzsh – マイコミジャーナル $ sudo yum -y install zsh zshを使用する設定をする。 $ vi ~/.bash_profile # use zsh if [ -f /bin/zsh ]; then exec /bin/zsh fi zshrcのサンプル。 $ vi ~/.zshrc # #
Perl › モジュール › here 日本語などのマルチバイト文字をPerlで適切に扱うにはEncodeモジュールを使用します。次の3つのことを覚えておけば多くの場合適切に日本語を扱うことができます。 外部から入力された文字列はEncodeモジュールのdecode関数でデコードする 外部へ出力する文字列はEncodeモジュールのencode関数でエンコードする ソースコードはUTF-8で保存しutf8プラグマを有効にする この解説での用語 この解説では外部から入力された文字列のことを「バイト文字列」と呼ぶことにします。Perlの内部表現に変換された文字列を「内部文字列」と呼ぶことにします。また「バイト文字列」が特定の文字コードで記述されている場合は「UTF-8バイト文字列」「Shift_JISバイト文字列」などと呼ぶことにします。 プログラミングで日本語を扱う場合にその文字列がバイト文字
はてな人力検索への回答です。 http://q.hatena.ne.jp/1182403623 文字コードいろいろ 日本語文字コードの代表としては、「Shift_JIS」「EUC-JP」「UTF-8」があります。 このうち「Shift_JIS」と「EUC-JP」には完全な互換性がありません。 また「UTF-8」へ変換するための正式な変換テーブルもないためこれが標準というのはありません。 Shift_JIS 日本語Windows標準 EUC_JP 日本語UNIXの業界標準 UTF-8 国際規格 まだ運用を始めて間もないなら「UTF-8」のままがお奨めです。 Debianのsambaで確認しましたが、デフォルト「UTF-8」のようです。 どれを取っても若干の問題がでてくるので、国際規格を選択したほうが後々いいような気がします。 文字コード関連の設定 とりあえず「UTF-8」前提で説明します。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く