タグ

文字コードに関するixion753のブックマーク (4)

  • C#で高精度なテキストファイル文字コード自動判別(2014年版) - hnx8のブログ

    C#(.NET Framework)に限ったことではありませんが、汎用的にテキストファイルを扱うようなアプリケーションを作っていると、よく 特定の文字コードのファイルしか読み出せないのでは困る ⇒文字コードを自動判別し、テキストの内容を取り出したい 読み出したファイルと同じ文字コードでファイルを書き出したい ⇒読み出したファイルの文字コードを知りたい といった場面に出くわします。 ですが、C#(.NET Framework)標準のライブラリではそのような機能は提供されていないため、文字コードを判定するには、 自前で文字コード判定のロジックを実装する 出来合いの外部ライブラリ、Windows版NKF32.dll、ICU4Cなどを利用する IE用の文字コード判別ライブラリ(mlang.dll)を利用する ※COMコンポーネント呼び出し要 のいずれかの方法を取ることになります。 HNXgrepと

    C#で高精度なテキストファイル文字コード自動判別(2014年版) - hnx8のブログ
  • サロゲートペア - 闘うITエンジニアの覚え書き

    2024-02-04 Goでリフレクション 他のdocker-compose へのネットワーク接続 2024-01-09 Grafanaパネルプラグイン開発(create-plugin版) Grafanaプラグイン開発(grafana/toolkit版) 2023-09-23 Jupyter Lab に他言語カーネルインストール 2023-09-19 Rustの基礎 Rustのインストール Rust 2022-11-01 MacBook(M1チップ) でOracledockerイメージ作成 2022-02-04 Grafanaバックエンドデータソースプラグイン開発 2021-02-11 dockernginxSSL証明書の自動更新 2021-01-17 GoExcelを読む 2021-01-05 GoでAzure AAD認証 2020-12-16 FrontPage 2020-12

  • 文字コードについて

    文字コードについての実用的な説明です。 このページの仕様にもとづいて作成した文字コード表や、16進ダンプを使った解説のページもあります。 文字の種類 1バイト・2バイト文字は、ローマ字、カナ、記号などのJIS非漢字と、第1・第2・第3・第4水準のJIS漢字に分類され、JIS規格によって決められています。 この他に、制御コードと呼ばれるデータがあり、文字と同様に扱っています。 また漢字は、94×94の領域に1字づつ配置されています。 この横の行を区、縦の列を点と呼び、区点番号で表すこともあります。 これに対して、UCS(Universal Coded Character Set)のマルチバイト文字では、全世界の文字を扱えるようにISO/IECで決められた国際規格です。

  • 従来の文字コードとUnicodeの対応に関する諸問題

    最終更新: 1998.12.20 目次 はじめに 似た文字 旧JISと新JIS ベンダー固有文字 「全角」「半角」 ASCIIとJIS X 0201ローマ文字 おわりに 余談 1. はじめに ISO/IEC 10646とUnicode(以下Unicode)は、いろいろと論議をかもしてきましたが、 すでにいろいろなところで陰に陽に使われるようになってきました。 Windows NTの内部コードがUnicodeであるのはよく知られています。 BeOSでは、内部だけでなく全面的にUnicodeが使われています。 また、Javaのchar型もUnicodeです。 しかし、とくに入出力においては、当分は従来の文字コードと共存することになります。 すなわち、意識するしないに関わらず、Unicodeと従来コードの変換が頻繁に行われます。 変換といっても、Unicodeコンソーシアムが提供しているテーブル

  • 1