iconvで文字コード自動判別するもの作った。その名も「iconv_guess」。これの強みはiconvに対応している文字コード全てに対応している事。nkfには文字コード推測機能があるけどiconvにはなかったから多分便利。 https://t.co/nCpTWHGo
なんとかして制限を超えないといけない時ってありますよね。 MySQLで、InnoDBでPK・Uniqueをはるカラムには、フィールド長の制限があります。 俗に言う767byte問題です。 MySQLの767byte問題 1,テーブルの文字コードをシングルバイトにする 2,カラムの文字コードをシングルバイトにする 3,カラムを分割する 総評 MySQLの767byte問題 プリフィックスは最高で1000バイトの長さまで可能です。(InnoDB テーブルは767バイト)非バイナリ データ タイプ(CHAR、VARCHAR、TEXT)では CREATE INDEX ステートメントのプリフィックス長は文字数で解釈される一方、プリフィックス リミットはバイトで計算されるという事を覚えておいて下さい。マルチバイトの文字セットを利用するカラムのプリフィックス長を指定する時にはこれを考慮に入れておいて下さ
JIS X 0213の第3・4水準漢字の一部が4バイトとなる。マイナーな文字ですね。 例えば、第1・2水準漢字だけ対応していればよい案件などでは考慮しなくてよいでしょう。 MySQLではこのUTF-8で4バイトになる文字を扱えないのだとか(MySQL6なら対応したそうだ)。 数値文字参照で全部書いてみた。 (パッチのあたっていないWindowsXPなどでは表示されないです。) 𠀋 𡈽 𡌛 𡑮 𡢽 𠮟 𡚴 𡸴 𣇄 𣗄 𣜿 𣝣 𣳾 𤟱 𥒎 𥔎 𥝱 𥧄 𥶡 𦫿 𦹀 𧃴 𧚄 𨉷 𨏍 𪆐 𠂉 𠂢 𠂤 𠆢 𠈓 𠌫 𠎁 𠍱 𠏹 𠑊 𠔉 𠗖 𠘨 𠝏 𠠇 𠠺 𠢹 𠥼 𠦝 𠫓 𠬝 𠵅 𠷡 𠺕 𠹭 𠹤 𠽟 𡈁 𡉕 𡉻 𡉴 𡋤 𡋗 𡋽 𡌶 𡍄 𡏄 𡑭 𡗗 𦰩 𡙇 𡜆 𡝂 𡧃
Captcha security check stack3.com is for sale Please prove you're not a robot View Price Processing
初日に続き、新潟Perl人のneko_gata_s(shinpei)です。猫型さんとかしんぺいさんとかぺーちゃんとかいろんな呼ばれ方をしてるので好きに呼んでください。今日は拙作のAcme::Text::Glitchというモジュールの紹介をさせていただきます。CPANにはあがっておらず、GitHubに置いてあるのでインストールは $ cpanm https://github.com/Shinpeim/p5-Acme-Text-Glitch/tarball/master からどうぞ。 何をするモジュールなのか/どう使うのか その名のとおり、テキストをグリッチします。つまり、たとえば"Glitch"という文字列をAcme::Text::Glitchに掛けると、̦̩̲ͩ́͘G̬̤̱̈́͜l̠̺͑͟ỉ͓͚̹̓͊͟͞t̛͇̙̩̟̐ͪͣchとなります。 なんだがぐちゃぐちゃになりましたね。使い方は以下の
今更だが、Localeを正しく設定し、/share 以下にある日本語ファイル名が Windowsとdebian環境、双方の環境で文字化けしないようにする。初めに、デフォルトでは、locales がインストールされていないのでapt-get しておく。 次に、debian 環境で使用するデフォルトのlocale をEUC-JP にするのか、UTF-8 にするのかを選択する。これは、samba の/etc/samba/smb.conf で設定したコーディングの設定と同じにする必要がある。筆者の場合は、以下のようにUTF-8に設定してある。LANDISKのデフォルトでは、SJIS でファイルを書き込むので、debian 環境の samba でcharset を UTF-8に設定して起動しているとWindowsからもdebian 環境からも文字化けが発生する。なので、この文字化けを修正するためには
トップページに戻る vimの文字コード自動認識 最終更新日:2013. 3.31 vimは非常に軽量で多機能なエディタですが、多くの文字コードを扱う場合、 標準設定のままではシステムのデフォルト文字コードのUTF-8以外の文字コードのファイルを開いた場合に文字化けを起こすことがあります。 これを回避するための設定を行いましょう。 設定 (1)設定ファイル.vimrcを開きます。 $ vi ~/.vimrc (2)設定ファイル.vimrcに以下のように記述します。 set encoding=utf-8 この設定はvimの内部で使われる文字コードで、複数の文字コードを扱う可能性がある場合は端末のデフォルトの文字コードに設定しておく事を推奨します。 最近のバージョンのLinuxであればUTF-8が標準の文字コードになっているはずです。 この値には、編集するファイル内の全ての文字を表せるエンコーデ
2005-06-15 URLエンコードされた日本語文字列のデコード <お急ぎの方は後半の「まとめ」をご覧ください> 概要 Perl5.8のEncodeモジュールを使って,URLエンコードされた日本語文字列をデコードする方法をお話します。 <対象> HTTPのGET要求に含まれるURLエンコーディングをデコードしたい人 サーチエンジンの検索文字列をデコードしたい人 あらまし 最初にバージョン5.8より古いPerlのお話です。URLエンコードされた日本語文字列をデコードするにはどうしたらよいのでしょうか。私が調べたいくつかの書籍では, $str =~ tr/+/ /; $str =~ s/%([a-fA-F0-9]{2})/pack( 'C', hex($1) )/eg ; というコードで最後に文字コードを合わせればよい,なんて記述をよく見かけました。文字コードの変換にはJcode.plがよ
2010.02.27 Ubuntuで圧縮File解凍時の文字化け解決方法! カテゴリ:Ubuntu Ubuntuを使用していて、圧縮Fileを解凍する際、文字化けが気になっていた。 たとえば、zipファイルを書庫 マネージャーで開こうとすると、 となり、 文字化けする際は、Win側に 圧縮Fileを受け渡して解凍していた。 なんかいい方法はないかと調べたところ、Ubuntuのフォーラムに答えが載っていた。 コマンド操作は、苦手なので、とった方法は パッケージマネージャーを使う方法。 p7で検索をかけます。p7zip-fullが文字化けの原因です。 7zipを解凍したいひとは残しておきましょう。 p7zipを削除指定します。p7zip-fullで右クリックですよ。 アンインストール指定ができるとボックスに×マークがつくので、適用をクリックします。 これで、p7zip-fullは、アンインスト
新年早々、大笑いしてしまったこと。 下らないといえば下らないので書くまでもないかと思ったのですが、後で忘れた頃に読み返すと面白いかもしれないので書きとめておくことにします。 何があったのかは下記のページに詳しく書かれてあります。こちらを読んでいただければ、ぶっちゃけそれ以上のことはないです。 「LINEウイルス」の正体とは―LINE内で流行する「ウイルス攻撃」の現状について 簡単にまとめていうと、 LINE上で「ウイルス」なるものを送りつけることができるという噂があって、実際にそれを送りつけられるとLINEのアプリが誤動作(重くなる)らしい 実際のところ、ここで「ウイルス」と呼ばれているものはある特定の文字列である (プログラムではない。であるからしてウイルスでもない) 特定の文字列を受け取ると動作が極端に重くなる不具合のあるアプリがある、というのが真相らしい 問題を引き起こす文字列は、U
今や国語辞典にも「笑うことをあらわす文字」として載っているという「w」(関連記事)。そんな「w」に新種が見つかったと2ちゃんねるで話題になっています。「w」がタテに2つつながったもので、並べるとこんな感じに。 LINEで編集長に送ってみた 2ちゃんねるの「wが縦に二つ重なった文字の出し方教えて」スレッドで発見され、たちまち「すげえʬʬʬʬʬʬʬ」「なんだこれʬʬʬʬʬʬʬʬʬʬʬʬʬʬʬʬʬʬʬʬʬʬʬ」と話題に。「半芝(w)単芝(w)に変わる双芝誕生」といった声も見られました。 この「ʬ」はもともとラテン文字で「バイラビアル・パーカッシブ(両唇衝撃音)」というのだそう。コピペなどを使えばスマートフォンでも出せますが、環境によっては化けてしまうのでちょっとだけ注意が必要です。 元スレではこんな活用例も 関連キーワード 2ちゃんねる | 文化 advertisement 関連記事 2ちゃんね
URLエンコード・URLデコードとは CGIスクリプトなどでデータを送受信する際に使用されるもので、極力、文字化けを回避してどんな環境でも同じ結果を得るための手法です。 特に多バイト文字(マルチバイト文字、日本語、韓国語、中国語等)を0と1からなる数字の並び(ビット・ビットパターン)で様々なことを処理する事ができるコンピュータが理解するにはいくつかの段階が必要です。 この時、データを送信する側、仲介する側、受け取る側などそれぞれウェブサーバやOSを含め様々な環境に対応する事から一般に文字コードと言われるEUC、ASCII、JISなどの標準規格で定められた文字体系もそれらの環境で基本として使われるものも共通とは限りません。 ※URLはURIに含まれる定義でURIが公式の呼び方です(IRI/URI/URL/URN) こうした事からHTML、XHTMLからscript(スクリプト)に送信する際な
CGIで掲示板を作ってみた。 http://www.sugyan.dynalias.com/~sugi/cgi-bin/cheapbbs.cgi どうも送信後にフォームの文字が化ける。おかしいなぁ。 ・・・と思ってググってみると、やっぱり情報があった!! CGI.pm の textfield(), popup_menu(), checkbox_group() などを使ったときに HTML が文字化けするときの対処方法 - 刺身☆ブーメランのはてなダイアリー これは、 CGI::escapeHTML() のエスケープ処理が原因 (textfield() などは内部で escapeHTML() を呼んでいるため、影響を受ける)。 いろいろなパターンを検証したわけではないが、 ソースコードの文字エンコーディングは UTF-8 出力する文字エンコーディングも UTF-8 のときに、文字化けがおこっ
2013年07月16日23:30 【第392回】謎の書名『Programmer痴 Guide』 カテゴリ文字コード【プチ】研究 query1000 Comment(0)Trackback(0) またしょうもない文字化け話。 Unicodeが一般的になる前、日本語のマニュアルは当然Shift_JISで作ることが多かった。 WindowsだけではなくMacもそうだった。 一方、翻訳するもとになる英語のマニュアルはWindows 1252でエンコードされていた。 ふつう英語はASCIIで書かれていると思われているが、実際にはISO 8859-1で書かれている、と思われているが、実際にはWindows 1252で書かれている。 ASCIIは1文字1バイトであるが0x00~0x7Fの領域しか使っていない。 よって7ビットコードである。 ISO 8859-1は0x80~0xFFのうち0x80~0x9F
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く