[B! UTF-8] kazuph1986のブックマーク

kazuph1986 id:kazuph1986

UTF-8に関するkazuph1986のブックマーク (11)

Ruby の invalid byte sequence in UTF-8 例外を encode("UTF-8", "UTF-8") で回避するのはおかしいよ、という話 : sonots:blog
kazuph1986 2014/05/01
encode

encoding

UTF-8

文字コード

プログラミング

rails
リンク
nabokov7; rehash : Twitterの140文字は他言語では何文字くらいか
August 15, 201211:31 カテゴリ統計 Twitterの140文字は他言語では何文字くらいか ...というのが気になって以前調べたことがあるんだけど、先に同じことをやってた人を見つけた。 → Twitterは560文字制限!? 同じ文字数に込められる情報量の違い ↑は聖書の各国語翻訳版を使って文字数を比べてる。自分の場合は wikisource を使った。例えばジキル博士とハイド氏のページを見ると、同じ内容に対して5カ国語の対訳があるので、これで文字数を比べることができる。上のリンク先の記事の方がカバーしている言語が多くて精度も良さげなんだけど、微妙に異なるところもあるし、せっかくなので対応表を作ってみた。言語英語1に対する utf-8 一文字の情報量140文字を英語に換算した文字数上記記事による一文字の情報量(参考)中国語3.28459(約4.0)日本語1.942
kazuph1986 2012/08/18
ほむほむ

twitter

utf-8

language

言語
リンク
Encodeでラクラク日本語処理 - JPerl Advent Calendar 2009
こんにちは！ラブプラスとときメモ４の狭間で揺れ動いているxai cronです！！今日は日本でプログラムを書いていたら避けては通れない気がする、Encodeの話をしようと思います！はじめにまず、この記事を読む前に、Perlのバージョンの確認をしてください。以下のようにやればバージョンが表示されます。 % perl -v ここで、5.8.1より下の数字ができてきた方は、Perlのバージョンアップをしてください。5.8.1より下のバージョンでは、Perlの内部文字コードが安定していないので、いい感じになりません。できれば5.8.8以上のバージョンを使いましょう。それから、文字コードってなによって人も適当にWikiとかで調べてから読んだ方がいいと思います！！ Encode.pm Encodeは昔のjcode.plやJcode.pmに代わる、現在の文字コード処理のスタンダードModuleです。
kazuph1986 2012/03/09
お腹いっぱい。

encode

utf-8

perl

文字コード

module

programming

utf8

decode
リンク
perl - use encoding; #は黒歴史 : 404 Blog Not Found
2009年06月08日14:30 カテゴリLightweight Languages perl - use encoding; #は黒歴史ぎゃあぁぁ length関数で文字列の長さを求める - perl初心者BLOG - Hatena::Group::Perl 日本語の文字数を正確に求めたい場合、use encodingを指定する use encoding;は、jperlなど、かつて存在したL10Nされたperl用に書かれたレガシースクリプトを、モダンperlで動かすときのためのおまじないです。こういう目的で利用すべきではありません。このあたりのことは、以前 404 Blog Not Found:perl - no encoding; # whenever possible でも書いたのですが、大事なことなのでまた書きます。スクリプトはUTF-8で書き、use utf8;するのがモ
kazuph1986 2012/03/07
文字コードの歴史はいっかい追っておきたいなぁ。

utf8

utf-8

perl

dankogai

blog

プログラミング

programming

文字コード

encode
リンク
perl - 文字列ばらしはsplit //, $strで : 404 Blog Not Found
2007年11月27日13:30 カテゴリLightweight Languages perl - 文字列ばらしはsplit //, $strでうーん、ここがあきまへん。 [を] 転置インデックスによる検索システムを作ってみよう！ 9 my @char = ($c =~ /([\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]| 10 [\xE0-\xEF][\x80-\xBF]{2}| 11 [\xF0-\xF7][\x80-\xBF]{3})/gsx); 文字列をばらして(utf8の)文字一つ一つの配列にするには、バイト列に正規表現をかますのではなく、utf8文字列にしてからそれにsplit //をかますのが一番です。単にわかりやすいだけではなく、その方がずっと高速です。以下、Benchmark。 #!/usr/local/bin/perl use strict; u
kazuph1986 2012/03/07
本とか読んでると出てくる。

regexp

CPU

programming

TIPS

dankogai

utf-8

Perl

文字コード

utf8

perl
リンク
技林ブログ: Perl5.8でUTF-8のメモ
This domain may be for sale!
kazuph1986 2012/03/07
utf8

utf-8

プログラミング

perl

文字コード

utf8フラグ
リンク
UTF-8で4バイトになる文字 at softelメモ
JIS X 0213の第3・4水準漢字の一部が4バイトとなる。マイナーな文字ですね。例えば、第1・2水準漢字だけ対応していればよい案件などでは考慮しなくてよいでしょう。 MySQLではこのUTF-8で4バイトになる文字を扱えないのだとか（MySQL6なら対応したそうだ）。数値文字参照で全部書いてみた。（パッチのあたっていないWindowsXPなどでは表示されないです。）𠀋𡈽𡌛𡑮𡢽𠮟𡚴𡸴𣇄𣗄𣜿𣝣𣳾𤟱𥒎𥔎𥝱𥧄𥶡𦫿𦹀𧃴𧚄𨉷𨏍𪆐𠂉𠂢𠂤𠆢𠈓𠌫𠎁𠍱𠏹𠑊𠔉𠗖𠘨𠝏𠠇𠠺𠢹𠥼𠦝𠫓𠬝𠵅𠷡𠺕𠹭𠹤𠽟𡈁𡉕𡉻𡉴𡋤𡋗𡋽𡌶𡍄𡏄𡑭𡗗𦰩𡙇𡜆𡝂𡧃
kazuph1986 2012/02/29
utf-8

MySQL

unicode

utf8

mysql

文字コード

日本語
リンク
さくらのVPSサーバー構築メモ – vim, zsh, gitをインストール – Yuyak
前回の「さくらのVPSサーバー構築メモ – 基本設定編」の続きです。必要なものをインストールする vimをインストール $ sudo yum -y install vim-enhanced .vimrcのサンプル。最低限、UTF-8の設定だけしておく。 $ vi ~/.vimrc set encoding=utf-8 set fileencodings=utf-8,iso-2022-jp,euc-jp,sjis zshをインストール zshを知らない人はこのあたりを参照→漢のzsh – マイコミジャーナル $ sudo yum -y install zsh zshを使用する設定をする。 $ vi ~/.bash_profile # use zsh if [ -f /bin/zsh ]; then exec /bin/zsh fi zshrcのサンプル。 $ vi ~/.zshrc # #
kazuph1986 2011/11/05
vim

vi

vimrc

history

bash

サーバー

さくらのVPS

インストール

utf-8

VPS
リンク
Encode 日本語などのマルチバイト文字列を適切に処理する - Perl入門〜サンプルコードによるPerl入門〜
Perl › モジュール › here 日本語などのマルチバイト文字をPerlで適切に扱うにはEncodeモジュールを使用します。次の3つのことを覚えておけば多くの場合適切に日本語を扱うことができます。外部から入力された文字列はEncodeモジュールのdecode関数でデコードする外部へ出力する文字列はEncodeモジュールのencode関数でエンコードするソースコードはUTF-8で保存しutf8プラグマを有効にするこの解説での用語この解説では外部から入力された文字列のことを「バイト文字列」と呼ぶことにします。Perlの内部表現に変換された文字列を「内部文字列」と呼ぶことにします。また「バイト文字列」が特定の文字コードで記述されている場合は「UTF-8バイト文字列」「Shift_JISバイト文字列」などと呼ぶことにします。プログラミングで日本語を扱う場合にその文字列がバイト文字
kazuph1986 2011/10/05
utf-8

perl

encode

デコード

文字コード

utf8

プログラミング

tips
リンク
sambaの文字コードはUTF-8に設定するとベスト - サーバー技術メモ
はてな人力検索への回答です。 http://q.hatena.ne.jp/1182403623 文字コードいろいろ日本語文字コードの代表としては、「Shift_JIS」「EUC-JP」「UTF-8」があります。このうち「Shift_JIS」と「EUC-JP」には完全な互換性がありません。また「UTF-8」へ変換するための正式な変換テーブルもないためこれが標準というのはありません。 Shift_JIS 日本語Windows標準 EUC_JP 日本語UNIXの業界標準 UTF-8 国際規格まだ運用を始めて間もないなら「UTF-8」のままがお奨めです。 Debianのsambaで確認しましたが、デフォルト「UTF-8」のようです。どれを取っても若干の問題がでてくるので、国際規格を選択したほうが後々いいような気がします。文字コード関連の設定とりあえず「UTF-8」前提で説明します。
kazuph1986 2011/06/14
utf-8

設定

文字コード

linux

blog

memo

unicode

debian
リンク
tmuxで日本語が文字化けする - Humanity
alias tmux='tmux -u'で解決。 -u Instruct tmux that the terminal support UTF-8.というかなんでデフォルトでこの挙動じゃないんですか。
kazuph1986 2011/06/07
tmux

utf-8
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx