タグ

文字コードに関するmaisenakajimaのブックマーク (5)

  • NonSoft - 文字コード判定のサンプル(VB.NET)

    <このサンプルの概要> このサンプルは以下のアルゴリズムで文字コード判定をしています。文字コードの性質上、 100%完璧な文字コード判定は難しいですが出来るだけ精度の高い判定を目指しています。 1.JIS(ISO-2022-JP)の文字コード判定 以下の制御コード列が存在したらJIS(ISO-2022-JP)と判定とする。 ・&H1B, &H28, &H42 (ASCII) ・&H1B, &H28, &H4A (JISローマ字) ・&H1B, &H28, &H49 (JISカナ字) ・&H1B, &H24, &H40 (旧JIS漢字) ・&H1B, &H24, &H42 (新JIS漢字) ・&H1B, &H24, &H44 (JIS補助漢字) 存在しなければ他の文字コードと判定する。 2.UNICODEの文字コード判定 以下の制御コード列が存在したらUNICODEと判定とする。 ・&HFF

  • NonSoft - 文字コードを判定して指定の文字コードに変換するサンプル(VB.NET)

    <このサンプルの概要> 文字コードを自動判定(判別と言うべきか?)して指定の文字コードに変換するサンプルです。 文字コードの変換にはVB.NETのSystem.Text.Encodingを使用しています。 文字コードの判定には文字コード判定のサンプル(VB6/VB.NET)を使用しています。 VB.NETではSystem.Text.Encodingを使用する事で簡単に文字コードの変換が出来るようです。 手順は以下の通りです。 (1)入力ファイルをバイナリ形式で入力 (2)文字コード判定 (3)判定した文字コードをString(UNICODE)に変換 (4)String(UNICODE)を出力したい文字コードのByte配列に変換 (5)出力ファイルをバイナリ形式で出力 (6)ファイルのクローズ もっと簡単に文字コード変換を実現したい場合はこちらのDLLがおすすめです。 文字コード判定/変換D

  • 第1回 漢字コードの基礎、JISコード

    官庁や自治体における、いわゆる行政情報システムでは、一風変わった漢字コードが用いられている。人名や地名に必要な漢字を、それぞれの省庁が思い思いの形で、情報システムに搭載してきたためだ。特集では、これら行政情報処理用漢字コードのうち、現在かなり大きなシェアを持つ3つの漢字コードの現状をお伝えしようと思う。 その3つとは、総務省系の「住民基台帳ネットワーク統一文字」、法務省系の「戸籍統一文字」および「入国管理局正字」だ。さらに、これら3つの漢字コードを一体に統合すべく構築されつつある、経済産業省系の「文字情報基盤(IPAmj)」を最終回で扱う。 ただ、これら4つの漢字コードを理解するためには、JISで制定された漢字コードの理解が不可欠なことから、第1回の今回は、「JIS X 0213」と「JIS X 0212」について、行政情報処理の視点、特に異体字処理の視点から述べることにする。 マイナ

    第1回 漢字コードの基礎、JISコード
    maisenakajima
    maisenakajima 2014/07/04
    知らないところで使われているのだ。
  • ssh接続先の文字コードが接続元と違うときの対処法 - 文字っぽいの。

    問題 自分の環境:UTF-8 SSH接続先:EUC-JP とかよくありますね。 $ export LANG=eucJP とか $ export LANG=ja_JP.UTF-8 してあげてもいいんですが、わざわざやるのも面倒ですし、「ログイン先とこっちのどっちで設定するといいんだ?」みたいに悩みます。 解決法 cocotというツールを使います。 $ brew install cocot でインストール終わり。後は $ cocot -t UTF-8 -p EUC-JP ssh tarou@example.com とすると、手元のUTF-8環境に合わせて向こう側のEUC-JPをコンバートしてくれます。 参考 Ubuntu日語フォーラム / GNOMEの文字コードを常にEUC-JPにする方法

    ssh接続先の文字コードが接続元と違うときの対処法 - 文字っぽいの。
    maisenakajima
    maisenakajima 2013/12/15
    cocotというツールを使う。
  • JavaSE 7でメソッド名に使えなくなった文字 | 株式会社エイチ・オー・エス

    パッケージJava製品開発担当の大です。こんにちは。 朝晩はだいぶ肌寒くなって、秋らしい空気になってきましたね。 前回も書いたとおり、現在HOSでは製品のJavaSE 7での動作検証を進めています。JavaSE 7で早く使いたい方、申し訳ありませんがいましばらくお待ちください。 さて、検証している上でちょっと困ったことが出てきました。従来動いていたテストコードの一部が、JavaSE 7ではコンパイルもできなくなってしまったのです。これはJavaSE 7の不具合か?と思い、調査してみました。 日語のテストメソッド名 製品のクラス名やメソッド名では使いませんが、開発時のユニットテストのメソッド名やクラス名は、最近は、基的に日語で書くようになりました。これまで日語メソッド名で特に問題が起こっていなかったことと、テストのレポートの出力がアルファベットのキャメルケースに比べ圧倒的に見やすいか

    JavaSE 7でメソッド名に使えなくなった文字 | 株式会社エイチ・オー・エス
    maisenakajima
    maisenakajima 2013/11/26
    Javaの変数名には、'・'(U+30FB)ナカグロは使用できない。JavaSE7がUnicode4.1に合わせたため。JavaSE6はOK。
  • 1