タグ

utf-8に関するruedapのブックマーク (12)

  • Alfred V2用のAlfredTweet Workflowsが、今ちょっと(追記あり) | 毎日考

    Twitterにも朝アレしましたが、覚え書きとしてざっと殴り書いておきます。Alfred V2用のWorkflowsであるAlfredTweetには現状だと若干の問題があり、自分ではまだ普段のアカウン...

    Alfred V2用のAlfredTweet Workflowsが、今ちょっと(追記あり) | 毎日考
  • Rubyのエンコーディング - tmtms のメモ

    Ruby 1.9 から文字列や正規表現オブジェクトはそれぞれエンコーディング(いわゆる文字コード)を保持するようになりました。 たとえば 0xB1 0xB2 という2バイトは EUC-JP エンコーディングでは「渦」、SHIFT_JIS エンコーディングでは「アイ」という文字になります。つまり同じバイト列でもエンコーディングが異なれば異なる文字として解釈されます。 1.8 では文字列はただのバイト列でした。なので、それがどのような文字を表しているのか、つまりエンコーディングが何なのかはプログラムが知っている必要がありました。 1.9 では文字列オブジェクト自身が自分が何のエンコーディングかを知っています。同じ 0xB1 0xB2 というバイト列でも、それが EUC-JP の「渦」なのか SHIFT_JIS の「アイ」なのかは、文字列自身が知っています。 スクリプトエンコーディング スクリプ

    Rubyのエンコーディング - tmtms のメモ
    ruedap
    ruedap 2012/08/13
    わかりやすい
  • msysGit(Git for Windows)がいよいよ公式に UTF-8 をサポート! - てっく煮ブログ

    git最近、Git について勉強しています。Windows で Git をやるなら Cygwin と msysGit(Git for Windows) がメジャーなようです。Cygwin Git のいいとこ悪いとこCygwin は UTF-8 な日語ファイル名にも対応しており、Cygwin の中で閉じて Git を使っている分には何不自由なく使えるのでお勧めです。ただし、次のような悲しいポイントがあります。 Cygwin 版 Git は、Windows 向けの GUI な Git ソフト(TortoiseGit や Git Extensions)との相性が悪い Windows のエディタやマージツールと連携しようとするとパスのポリシーが違うのでうまくいかないnkf を噛ませようとしても、Cygwin 用の nkf バイナリは公式配布されておらず、わざわざ Cygwin 上で make す

    ruedap
    ruedap 2012/02/21
    ついに
  • L'eclat des jours(2011-02-05)

    _ OSXのファイル名について教えてもらったこと 昨日の東京Ruby会議で、かわばたさんからNFCとかNFDとかについて教えてもらった。 Unicodeでは、文字の合成がサポートされている。たとえば「か」と濁点「゛」は合成することもできるし、「が」という1つの文字で登録もされている。しかし「あ」と濁点を組み合わせた1つの文字は登録されていない。でも「あ」と「゛」を組み合わせた「あ゛」も作れる。作った場合にどう表現するかはフォント(描画エンジンかも知れないな)に依存する(日語よりも、おそらくウムラウトとかを使う欧州言語のほうで意味を持つ仕様だと思う)。 ということは、「が」という文字が実際には登録されている「が」という1つの文字なのか、それとも「か」+「゛」なのかは、特に文字列の比較をする場合には問題となりうる。人間としては等価として扱いたいが、コンピュータとしてはかたや1文字、かたや2文

  • Mac 環境構築 その6 - vim の文字コード設定 [mac]

    Mac でも快適に vim7 が使えるようになり,vim7 からは unicode サポートが改善されているとのことなので,これを機に vim のデフォルト文字コードを UTF-8 にしてみた. vim の文字コード設定は少し複雑で,たまに間違って解説しているページも見かけるので,以下にまとめてみよう. まず文字コード設定に関係するオプションは, 'encoding' (短縮名 'enc') 'fileencoding' (短縮名 'fenc') 'fileencodings' (短縮名 'fencs') の3つ.fenc と fencs は名前が紛らわしすぎるので注意. vim は 'enc' で指定された文字コードをデフォルトとし,ファイルを開く時に 'fencs' で指定された文字コードから順番に 'enc' の文字コードへ変換を試み,成功したところでやめる,全部失敗したら変換せずに

  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • Excel 2007 の CSV と 文字エンコーディング の関係 - Hello Another World!

    自己紹介 上亮介 (ue) @ わんくま同盟 Microsoft MVP for Development Platforms - VSTO (Jul 2008 - Jun 2009) Xbox Live Xbox 360 で遊んでいます。 あわせて読みたい この記事は Excel 2003 の CSV と 文字エンコーディング の関係 の改訂版です。 改訂前の記事は Excel 2003 ベースですが、YamaKenさんから Excel 2007 だとどうなるのかとの旨コメントを頂きました。 Yamakenさん、ありがとうございます。 カンマ区切り、タブ区切りそれぞれのテキストファイルを Excel 2007 で開いたときの挙動をまとめました。 先に結果を言うと、ほとんどの場合 Excel 2007 は Excel 2003 と同じ挙動を示します。 違う挙動を示すのは

  • Excel 2003 の CSV と 文字エンコーディング の関係 - Hello Another World!

    自己紹介 上亮介 (ue) @ わんくま同盟 Microsoft MVP for Development Platforms - VSTO (Jul 2008 - Jun 2009) Xbox Live Xbox 360 で遊んでいます。 あわせて読みたい この記事は Excel 2003 の CSV と Unicode の関係 の改訂版です。 改訂前の記事に PASSJ 理事の河端善博さんから改訂に必要な情報をコメントして頂きました。 河端さん、ありがとうございました。カンマ区切り、タブ区切りそれぞれのテキストファイルを Excel 2003 で開いたときの挙動をまとめました。調査に使用したテキストファイルのエンコーディングは以下の5種です。Shift_JIS(CP932) 形式 UTF-7 形式 UTF-8 形式 (BOM 有り・BOM 無し) UTF-16 LE 形式

  • [XL2002] UTF-8 形式のテキスト ファイルが文字化けする - Microsoft サポート

    上記製品の総称を以下 Excel とします。 概要 この資料は、Excel にて UTF-8 形式のテキスト ファイルを開くと文字化けが発生する動作について説明しています。 現象 Excel にて、UTF-8 形式のテキスト ファイル (拡張子 CSV や TXT) を開くと文字化けが発生します。 原因 Excel では、UTF-8 形式でテキスト ファイルを開くことができません。 状況 この現象は Excel の仕様に基づく制限事項です。 詳細 Excel でテキスト ファイルを開く場合は、以下のように動作します。 CSV ファイルの場合 ~~~~~~~~~~~~~~~~ システムの既定の言語のコード ページで開きます。 従って、日語 OS の場合は文字コード Shift-JIS でテキストを取り込みます。 そのため、それ以外の形式の文字は正しく表示できません。 HTML ファイルの場

  • 波ダッシュ

    波ダッシュと全角チルダ 期間などの範囲を表したり、省略などを意味するものに「〜」(波ダッシュ)という文字があります。この記号は、現代日語ではかなり頻繁に使われる文字の一つであり、ユニコードにも「WAVE DASH」として収録されています。 ところが、文章中で頻繁に使われる基的な記号であるにも関わらず、波ダッシュは使う側が十分注意して扱わないとトラブルになりかねない、問題のある文字なのです。波ダッシュに関わる問題はあまり知られていないようですから、ここで具体的に解説しておきましょう。 文字をコンピュータで扱うには、まず文字コードで定義しなければなりません。JIS X 0208で規定されている「波ダッシュ」のコード番号は0133(区点コード)ですが、多くのパソコンで実際に使われている標準的な文字コードであるシフトJISでは「0×8160」というコード番号が割り当てられています。 ちなみに

  • ERRP | Expired Registration Recovery Policy

    Please notice: This domain name registration has expired and renewal or deletion are pending. If you are the registrant and want to renew the domain name, please contact your registration service provider. Bitte beachten Sie: Diese Domainregistrierung ist abgelaufen und die Verlängerung oder Löschung der Domain stehen an. Wenn Sie der Registrant sind und die Domainregistrierung verlängern möchten,

  • それ、BOM 付きです - Windows 上の apache で Internal Server Error になる原因を調べる修行 - 昨日知ったこと

    Windows 上の apache でなぜか Internal Server Error になるんですけど、という問題の調査依頼。まずは apache のエラーログをごっそりもらって中を覗いてみる。 D:/path/to/apache/.htaccess: Invalid command '\xff\xfeO', perhaps misspelled or defined by a module not included in the server configuration てなエラーが続いている。なんだマルチバイトコードが紛れ込んでいるのか、ということで、とりあえず一旦 .htaccess を削除した上で再度試してもらおうと結論づけた。 が、数時間後、ふと気づいた。これって BOM じゃないのか? そうだとすると、いろいろが説明つきやすいぞ。 Windows XP とかのメモ帳と BO

    それ、BOM 付きです - Windows 上の apache で Internal Server Error になる原因を調べる修行 - 昨日知ったこと
  • 1