タグ

文字コードに関するktmcのブックマーク (9)

  • nmh - Stories of Your Life and Others

    NMH (Nihongo Moji-code Hanbetsu) Library 紹介 日語の文字コードを判別するためのライブラリです。 現在、UTF-8, EUC-JP, ISO-2022-JP, Shift_JISに対応しています。 文字コードを変換するだけであれば準標準ライブラリと言えるiconvが利用できるのですが、文字コードの判別は nkf , ICU , BABEL といった追加ライブラリの導入が必要でした。 そういうライブラリを入れるまでもない、お手軽に文字コードの判別ができるように、という思いから作ってみました。 変更履歴 version 0.0.1 first release インストール 1. ソースコードをダウンロード githubもしくはこちらからダウンロードが可能です。 $ git clone https://github.com/shnya/nmh.gi

  • C#で高精度なテキストファイル文字コード自動判別(2014年版) - hnx8のブログ

    C#(.NET Framework)に限ったことではありませんが、汎用的にテキストファイルを扱うようなアプリケーションを作っていると、よく 特定の文字コードのファイルしか読み出せないのでは困る ⇒文字コードを自動判別し、テキストの内容を取り出したい 読み出したファイルと同じ文字コードでファイルを書き出したい ⇒読み出したファイルの文字コードを知りたい といった場面に出くわします。 ですが、C#(.NET Framework)標準のライブラリではそのような機能は提供されていないため、文字コードを判定するには、 自前で文字コード判定のロジックを実装する 出来合いの外部ライブラリ、Windows版NKF32.dll、ICU4Cなどを利用する IE用の文字コード判別ライブラリ(mlang.dll)を利用する ※COMコンポーネント呼び出し要 のいずれかの方法を取ることになります。 HNXgrepと

    C#で高精度なテキストファイル文字コード自動判別(2014年版) - hnx8のブログ
  • IE9ヤバイ。IE9の文字間隔・互換モード・DOCTYPE宣言について

    IE9文字間隔確認用サンプル 文字間隔や段落の間隔をチェックする為のサンプルです。とりあえずFirefox3.6とFirefox4でズレない事を確認。文字間隔のチェック用なので意味不明な文字が並んでいます。 ※追記・注意:下記ページはスタイルシートで少しだけ調整しています。 全くの未調整の場合、段落の高さが大きく異なったり、半角英数字のフォントが 文字コードで変わったり、かなり比較し難いものになったため。 後述しますが、英数字フォントにsans-serifを指定すると問題が発生するようです。 ※サーバー引っ越し後、以下リンクは文字化けするようになりました (修正予定なし) HTML 4.01 サンプル HTML 4.01+UTF8  HTML 4.01+EUC-JP  HTML 4.01+SHIFT-JIS XHTML 1.0 サンプル XHTML 1.0+UTF8  XHTML 1.0+

    IE9ヤバイ。IE9の文字間隔・互換モード・DOCTYPE宣言について
  • EUC で LF 改行のデータを SHIFT_JIS として読む

    Set Stream = CreateObject( "ADODB.Stream" ) Stream.Open Stream.Type = 2 ' テキスト Stream.Charset = "euc-jp" Stream.LoadFromFile "euc_lf.txt" Stream.Position = 0 Stream.LineSeparator = 10 ' LF Do While not Stream.EOS ' -2 は、ストリームから次の行を読み取ります strRet = Stream.ReadText( -2 ) Loop Stream.Close Set Stream = CreateObject( "ADODB.Stream" ) Set Stream2 = CreateObject( "ADODB.Stream" ) Stream.Open Stream.Type

  • ADODB.Streamオブジェクトを利用したUTF-8ファイルの読み書き - 小さい頃はエラ呼吸

    はじめに VBScriptでファイルを扱う場合、通常はFileSystemObjectを利用します。しかしながら、FileSystemObjectはShift_JISあるいはUTF-16形式で保存されたファイルしか扱えません。このため、VBScriptでUTF-8のファイルを扱うにはADODB.Streamオブジェクトを利用します。 CreateTextFileの第3引数をtrueにするとUTF-16でファイルを作る。falseにするとShift_JIS。UTF-8で作ることはできない。UTF-8で作りたいときはFileSystemObjectではなくADODB.Streamを使う。 FileSystemObjectの使い方まとめ - 今日覚えたこと 最速攻略 VBScriptサンプル大全集 Windows7/Vista/XP/2000対応posted with amazlet at 13

    ADODB.Streamオブジェクトを利用したUTF-8ファイルの読み書き - 小さい頃はエラ呼吸
  • 文字列をBase64でエンコード/デコードするには?[C#、VB]

    連載目次 Base64は、マルチバイト文字列や、画像などのバイナリ・データをテキスト形式に変換する手法の1つで、メールの送信などで多く用いられる。 .NET Framework上でBase64を利用するにはConvertクラス(System名前空間)が使えるが、この際に日語などのマルチバイト文字列を正しく扱うには、UTF-8やShift-JISといった文字コードを考慮しなければならない。 そこで次のようなクラスを作っておくと、Base64の処理が簡単に行える。 using System; using System.Text; public class MyBase64str { private Encoding enc; public MyBase64str(string encStr) { enc = Encoding.GetEncoding(encStr); } public str

    文字列をBase64でエンコード/デコードするには?[C#、VB]
  • .NET TIPS 文字列をURLエンコードするには? - C# VB.NET Webフォーム - @IT

    文字列データをURLに埋め込むような場合には、Webサーバとの間で正しく情報をやりとりするために、その文字列を別の表記形式に変換する(エンコードする)必要がある。これは、文字列データが空白文字や一部の記号(「$」、「#」など)、全角文字などを含んでいると正しく送信されない可能性があるためである。 例えば、IEを使ってGoogleで、 ".NET TIPS" を検索したときには、検索結果の画面でのURL(IEの[アドレス]部分)が次のようになっているはずだ。 http://www.google.co.jp/search?hl=ja&ie=UTF-8&q=%22.NET+TIPS%22&lr= このURLでは、検索文字列「".NET TIPS"」が「%22.NET+TIPS%22」にエンコードされている(「"」が「%22」に、半角スペースが「+」に変換されている。このようなURLのエンコードは

  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • 絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道

    Unicodeが携帯電話の絵文字を収録へ 絵文字ってなに?そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな! 8割の女性は「恋人以外にも使う」』(RBB NAVI)なんていうニュースもありました。携帯電話の個人普及率が9割を上回る(平成20年内閣府消費動向調査)この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。 まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの

    絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道
  • 1