[B! 文字コード] ixion753のブックマーク

C#で高精度なテキストファイル文字コード自動判別（2014年版） - hnx8のブログ

C#（.NET Framework）に限ったことではありませんが、汎用的にテキストファイルを扱うようなアプリケーションを作っていると、よく特定の文字コードのファイルしか読み出せないのでは困る ⇒文字コードを自動判別し、テキストの内容を取り出したい読み出したファイルと同じ文字コードでファイルを書き出したい ⇒読み出したファイルの文字コードを知りたいといった場面に出くわします。ですが、C#（.NET Framework）標準のライブラリではそのような機能は提供されていないため、文字コードを判定するには、自前で文字コード判定のロジックを実装する出来合いの外部ライブラリ、Windows版NKF32.dll、ICU4Cなどを利用する IE用の文字コード判別ライブラリ（mlang.dll）を利用する ※COMコンポーネント呼び出し要のいずれかの方法を取ることになります。 HNXgrepと

ixion753 2015/01/04

リンク

サロゲートペア - 闘うITエンジニアの覚え書き

2024-02-04 Goでリフレクション他のdocker-compose へのネットワーク接続 2024-01-09 Grafanaパネルプラグイン開発(create-plugin版) Grafanaプラグイン開発(grafana/toolkit版) 2023-09-23 Jupyter Lab に他言語カーネルインストール 2023-09-19 Rustの基礎 Rustのインストール Rust 2022-11-01 MacBook(M1チップ) でOracleのdockerイメージ作成 2022-02-04 Grafanaバックエンドデータソースプラグイン開発 2021-02-11 dockerのnginxのSSL証明書の自動更新 2021-01-17 GoでExcelを読む 2021-01-05 GoでAzure AAD認証 2020-12-16 FrontPage 2020-12

ixion753 2011/03/12

リンク

文字コードについて

文字コードについての実用的な説明です。このページの仕様にもとづいて作成した文字コード表や、16進ダンプを使った解説のページもあります。文字の種類 1バイト・2バイト文字は、ローマ字、カナ、記号などのJIS非漢字と、第1・第2・第3・第4水準のJIS漢字に分類され、JIS規格によって決められています。この他に、制御コードと呼ばれるデータがあり、文字と同様に扱っています。また漢字は、94×94の領域に1字づつ配置されています。この横の行を区、縦の列を点と呼び、区点番号で表すこともあります。これに対して、UCS（Universal Coded Character Set）のマルチバイト文字では、全世界の文字を扱えるようにISO/IECで決められた国際規格です。

ixion753 2011/03/12

リンク

従来の文字コードとUnicodeの対応に関する諸問題

最終更新: 1998.12.20 目次はじめに似た文字旧JISと新JIS ベンダー固有文字「全角」「半角」 ASCIIとJIS X 0201ローマ文字おわりに余談 1. はじめに ISO/IEC 10646とUnicode(以下Unicode)は、いろいろと論議をかもしてきましたが、すでにいろいろなところで陰に陽に使われるようになってきました。 Windows NTの内部コードがUnicodeであるのはよく知られています。 BeOSでは、内部だけでなく全面的にUnicodeが使われています。また、Javaのchar型もUnicodeです。しかし、とくに入出力においては、当分は従来の文字コードと共存することになります。すなわち、意識するしないに関わらず、Unicodeと従来コードの変換が頻繁に行われます。変換といっても、Unicodeコンソーシアムが提供しているテーブル

ixion753 2011/03/12

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

文字コードに関するixion753のブックマーク (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス