タグ

charsetに関するIMAKADOのブックマーク (8)

  • ははぁん大分見えてきた…けどね orz - がるの健忘録

    さすがに見逃せない話が多々あったので、ちと調べてみた。 で…大分見えてきた。ポイントは多分「3つの自動化」。 まずわかりやすいのは「文字コードの自動化」。 彼ら的には、EUCとしての「おはよう」とUTF-8としての「おはよう」を、つまり euc('おはよう') = utf-8('おはよう')を、trueにしたいわけだ。 まぁわからんでもない。面倒起こしやすいことも多々あるのだが。 次に。「スペースパディング」の自動化。 padding(パディング)はいいよね? ゼロパディングとかあるし。雑に書くと「データ量の不足分を一定の文字で埋める」の。 で。 charとvarcharの違い。charは固定長なのに対して、varcharは可変長。んじゃ可変部分をどうやってるかって言うと、大抵は「先頭の1バイトとか2バイトとか4バイトとか8バイトとか使ってそこにlengthを埋め込んでる」の。 翻って。c

    ははぁん大分見えてきた…けどね orz - がるの健忘録
    IMAKADO
    IMAKADO 2009/08/10
  • SAKURAインターネットでsvn文字化け - s_nobuの日記

    sakuraインターネットで「LANG=ja_JP.UTF-8」していてもsubversionがエラーを出してくる。で、 alias svn="LANG=ja_JP.eucJP svn" でもいいんだけど、diffやlogが化けるので以下でお茶を濁す。 #!/bin/sh SVN="$HOME/local/bin/svn $@" if [ $1 = 'ci' -o $1 = 'comit' ]; then LANG=ja_JP.eucJP $SVN else LANG=ja_JP.eucJP $SVN | nkf --utf8 fi 追記: と思ったけどsvn:ssh://だとまだ変になる。 追記2: svn: warning: cannot set LC_CTYPE locale svn: warning: environment variable LANG is ja_JP.UTF-8

    SAKURAインターネットでsvn文字化け - s_nobuの日記
  • 文字コードと文化と言語 - 川口耕介のブログ

    UTF8がデフォのほうがましですね。最近はクロスプラットフォームを考慮してソース等はすべてUTF8で扱うことが多いですから。 日語環境悪化か - しんさんの出張所 はてな編 実は自分の作ったMaven2プロジェクトUTF-8を指定しているか日語を使っていないものばかりなので、自分は当事者ではないのだけど。 http://nekop.programmers.jp/diary/?date=20080428 僕が日にいた頃は、専らVisual C++とかJavaのソースコードといえばShift JISで書くのが普通だった。WindowsではShift JIS、Unix上はEUCという棲み分けができていたから、cvsのEOL処理と同様に文字コードをコンバートしてリポジトリに保管するためのパッチが書かれていたりした(そうしないと両方で編集できない)。Unicodeはあったはずだが、普及してい

    文字コードと文化と言語 - 川口耕介のブログ
  • これだから世の中にはiso-8859-1しかないと思ってる奴らは... - 川口耕介のブログ

    NetBeansの中の人経由でこれを発見した。 Without default value for source encoding, platform encoding is used, which is bad for build reproducibility. Then setting a default value consistently across every Maven plugin will improve build reproducibility. Proposed default value: ISO-8859-1, which must be supported by every JVM (see java.nio.Charset) and is already the default value for some plugins (the majority of

    これだから世の中にはiso-8859-1しかないと思ってる奴らは... - 川口耕介のブログ
  • Perl の内部形式に関する考察

    もともとこの記事は daily dayflower さんとこの UTF8 フラグあれこれ の記事を見て、内部表象 (内部形式: internal format) について自分が持っている認識と違う部分があったため自分なりの考察を書いていました。その考察に対して Perl (5.8) での文字列の内部表象について返信 にて誤りの指摘をして頂いたので(ありがとうございます)改めて今現在の自分が持っている認識を書いておきます。(2008.03.13) なお、Perl (5.8) での文字列の内部表象について返信 で引用して頂いた元々の文書は、こちら に移動しました。内容は誤っているため参考にしないようにしてください。 はじめに 重要なこととして、Perl 5.8 以降では、文字列 (text strings) とバイナリ列 (binary strings) は区別されるということがあります。バイ

  • Shift_JISにおける危険な文字まとめ

    今時Shift_JISでプログラミングするバカな奴はいないだろうけど折角まとめたので公開 2バイト目がアスキーコードど丸被りしているものを列挙する@[\]^_`{|}~405B5C5D5E5F607B7C7D7E81 ー―‐/\??+??±×82・・・・・・A・・・・83ァゼソゾタダチボポマミ84АЪЫЬЭЮЯклмн85・・・・・・・・・・・86・・・・・・・・・・・87????????・????・・・??88・・・・・・・・・・・89院閏噂云運雲荏閲榎厭円8A魁骸浬馨蛙垣柿顎掛笠樫8B機擬欺犠疑祇義宮弓急救8C掘啓圭珪型契形鶏芸迎鯨8D后梗構江洪浩港砿鋼閤降8E察纂蚕讃賛酸餐施旨枝止8F宗充十従戎柔汁旬楯殉淳90拭深申疹真神秦須酢図厨91繊措曾曽楚狙疏捜掃挿掻92叩端箪綻耽胆蛋畜竹筑蓄93邸甜貼転顛点伝怒倒党冬94如納能脳膿農覗倍培媒梅95鼻票表評豹廟描府怖扶敷96法房暴望某棒冒翻凡

    Shift_JISにおける危険な文字まとめ
  • Servlet Garden » Unicode and Character Sets (Translation)

    勉強を兼ねての勝手に翻訳シリーズ第3弾です。今回はJoel Spolsky氏のブログに掲載されていたThe Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)です。掲載されたのは2003年10月と、5年近く前のことなので、現状にそぐわないところもあるかもしれませんが、とても参考になる解説です。 ソフトウェ開発者なら絶対に最低限知っていなければならないユニコードと文字セットについて(言い訳はなしですよ!) 不可解なContent-Typeタグについてかつて疑問に思ったことはないでしょうか?おそらくHTMLファイルに書き込むものということは知ってるでしょうが、なんのためにそれなければいけないのかまでは知ら

  • KDDI/AUでutf-8のHTMLフォームから送られてくる絵文字コード - Bulknews::Subtech - subtech

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    KDDI/AUでutf-8のHTMLフォームから送られてくる絵文字コード - Bulknews::Subtech - subtech
  • 1