タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

文字コードに関するhondamsのブックマーク (15)

  • .NETでテキストファイルの文字コードの判定 - holmesのメモ帳

    特定の業務のデータの場合は文字コードがある程度一定になるけれど 汎用的なツールを作ろうとするとどんな文字コードのファイルが来るか解らないので 文字コードの判定が必要になってくる。 しかし.NET Frameworkでは文字コードを判別する方法が用意されていない.. 最初に参考にさせて頂いたのはDOBON.NETさんの「文字コードを判別する」というページ http://dobon.net/vb/dotnet/string/detectcode.html Jcode.pmを参考にした方法という事でロジックを追いかけてみると 全ての文字をバイナリ配列に変換しEUC、SJIS、UTF8の可能性の高いところにカウントして 最終的にカウントの一番大きかったのをこれじゃない?って感じで返してくる で、最初はこのライブラリをそのまま使っていて問題なかったのだけど ある日別の仕事で扱ったデータを試しに流して

    .NETでテキストファイルの文字コードの判定 - holmesのメモ帳
  • @IT:.NET TIPS Encodingクラスで扱えるエンコーディング名は? - C#

    稿は2003/04/11に初版公開、2008/07/24に改訂した記事を再改訂し、Visual Studio 2017でコードの動作検証、図版の追加、全般的な構成の変更などを行ったものです。 ファイルの読み書きなどで文字コードを指定したいときがある。そのために使うEncodingクラス(System.Text名前空間)のインスタンスは、どのようにして取得すればよいだろうか? また、日語独自のエンコーディングを指定するには、どのようなエンコーディング名が使えるのだろうか? 稿で整理して紹介する。

    @IT:.NET TIPS Encodingクラスで扱えるエンコーディング名は? - C#
  • 日本語文字コードの判別 - Linux関連 - 博客频道 - CSDN.NET

    1.最初に 昔から言われていることなのですが 日語の文字コード判別は非常に難しいです それの原因のひとつにSJIS・EUCにおける半角カナが互いのコード領域に完全に被っているためです そのためインターネットの掲示板などでは半角カナを使うことはある意味ルール違反だったりします でも実際のところは2ちゃんねるとかは半角カナであふれているわけですが・・・ では半角カナにさせつつ文字コードを判別するにはどうすればいいでしょうか? 今回はISO-2022-JP(JIS) SJIS(SHIFT_JIS) EUC UTF-8 UTF-8Nでの判別について解説します 実際の活用例はこちら(文字コード判別・変換クラス)へ 2.ISO-2022-JPの解説 いわゆるエスケープシーケンス(以下ESC)を利用して使う文字コードを変えていく形式です そのため漢字やひらがなを使うたびにESCが発生します ESCは最

  • 文字情報基盤整備事業 | IPA 文字情報基盤整備事業に関するWebサイトです

    「文字情報基盤」成果物を一般社団法人文字情報技術促進協議会へ移管しました ~ 相互運用性のさらなる拡大へ ~ IPA(独立行政法人情報処理推進機構、理事長:富田 達夫)は、文字情報基盤整備事業成果物の今後の一層の普及・活用を図るため、フォント、文字情報一覧表等の提供・保守・活用促進を一般社団法人 文字情報技術促進協議会 (代表理事:小林 龍生)へ信託する契約を締結しました。IPAでは、2007年のIPAフォントの一般公開以来一貫して、環境を選ばず自由に使える日語文字フォントの開発と提供を進めてきました。これらの事業の成果物である、フォント、文字情報一覧表等を一般社団法人文字情報技術促進協議会による管理へ引き継ぐことになりました。一般社団法人文字情報技術促進協議会は、多くのIT、文字フォント関係企業が参加しており、「外字の無い世界」を目指し、文字に関わる相互運用性拡大のために一貫して活動し

  • 日本語と文字コード

    コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト(7/8ビット)を基単位として扱う前提で作られているものが中心です。そのなかで日語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日語の文字コードに関する基を整理しておきます。 JIS漢字コード(情報交換用符号化漢字集合) 区点コード JISコード(符号化方式) シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ 参考文献、リソース 文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード(情報交換用符号

  • XML Jap. Prof. 目次

  • Welcome to m-bsys.com

    Welcome to m-bsys.com If you are the domain administrator get started creating your home page with Google Sites

  • 3.18.1 Javaにおける文字化けの問題についての注意事項

    Javaにおける文字化けの問題についての注意事項を以下に述べます。 Javaで異機種間結合を行う場合、あるいは、データベース接続を行う場合に起こる問題の1つに、文字化けの問題があります。例えば、Solaris OEマシンからWindowsマシンにネットワークを介して全角のチルダ記号('~')を送ると、Windowsマシンで表示したときに文字化けが発生することがあります。 これは既存の日語コード(JIS、EUC、シフトJIS)をUnicodeに変換する際の変換規則が各ベンダによって異なるために起きる問題です。この問題はJava VMで解決できるものではなく、Javaのシステム開発者がこの問題を避けるための自衛的手段を講じる必要があります。 この問題を理解するには、この問題が起きた背景を理解する必要があります。 この背景を、以下で説明します。 ■Unicodeの特徴 UnicodeはUnic

  • Javaの文字化け対策FAQ

    実運用の障害対応時間比較に見る、ログ管理基盤の効果 (2017/5/9) ログ基盤の構築方法や利用方法、実際の案件で使ったときの事例などを紹介する連載。今回は、実案件を事例とし、ログ管理基盤の有用性を、障害対応時間比較も交えて紹介 Chatwork、LINENetflixが進めるリアクティブシステムとは何か (2017/4/27) 「リアクティブ」に関連する幾つかの用語について解説し、リアクティブシステムを実現するためのライブラリを紹介します Fluentd+Elasticsearch+Kibanaで作るログ基盤の概要と構築方法 (2017/4/6) ログ基盤を実現するFluentd+Elasticsearch+Kibanaについて、構築方法や利用方法、実際の案件で使ったときの事例などを紹介する連載。初回は、ログ基盤の構築、利用方法について プログラミングとビルド、Androidアプリ開

  • 停止中

     当サイトは障害のため一時的に停止しています。 This site is temporarily suspended due to failure.

  • 文字コードについて

    文字コード、標準化について 文字コードについての実用的な説明です。 文字コード表 JIS X 0201、JIS X 0208、JIS X 0213のJIS、EUC-JP、Shift_JIS、Unicodeの文字コード表と、JIS X 0221のUnicodeの文字コード表です。 JIS X 0211 の制御コード表(JIS制御コード) JIS X 0201 の文字コード表(JISローマ字:ASCII、JISカナ) JIS X 0201 の文字コード一覧(Unicode対応) JIS X 0208 の文字コード表(JIS漢字:第1・第2水準) JIS X 0208 の文字コード一覧(Unicode対応) JIS X 0213 の文字コード表(JIS漢字:第1・第2・第3・第4水準) [UTF-8テキスト版] Unicode、常用漢字、人名漢字対応 JIS X 0213 の文字コード一覧 [U

  • 参考資料 - CyberLibrarian

    図書館員のコンピュータ基礎講座 TOP 参考資料 基礎情報 2進数、16進数と10進数 情報の単位 論理演算 数詞 ローマ数字 年月の表現 西暦・和暦対照表 暦の年月と季節 暦注 月の大小 紙の寸法 人名 文字、文字コード Unicode JIS X 0208コード表 JIS X 0212コード表 JIS X 0213コード表 JIS83制定時の変更点 JIS90制定時の変更点 JIS補助漢字および拡張漢字で復活した字体 JIS2004制定時の変更点 JIS X 0208およびJIS X 0213の字形・字体の変更点 JIS包摂規準 新旧字体表 常用漢字表 人名用漢字 文字 > ラテン文字 | ラテン特殊文字 | キリル文字 | ギリシア文字 | アラビア文字 書字方向 ローマ字 点字表 URIで使用できる文字 文字サイズ GB 2312-80コード表 Big5-1984コード表 KS X

  • Character Sets

    Last Updated 2022-07-14 Available Formats XML HTML Plain text Registry included below Character Sets Registration Procedure(s) Expert Review Expert(s) Martin Dürst Reference [RFC2978] Note These are the official names for character sets that may be used in the Internet and may be referred to in Internet documentation. These names are expressed in ANSI_X3.4-1968 which is commonly called US-ASCII or

  • 7.2 ASCII の NUL と DEL の本来の意味 - 文字コードに関する覚え書きと実験

    文字コードについて調べたことや実験したこと, テストプログラム,データファイルなどを随時掲載する予定です. ただし筆者の理解不足や誤解により誤りがあるかもしれませんので, ご利用は自己責任で. このページの主な更新は Blog でお知らせします. 表示確認ブラウザ:FireFox 22.0,IE8. 0.目次 シフトJIS Shift_JIS と Windows-31J (CP932) の違い シフトJIS 2バイト文字の判定 謎の検索ワード集 (シフトJIS編) 「Shift_JIS(SJIS,Windows-31J,CP932) 3バイト文字」 「Shift_JIS(SJIS,Windows-31J,CP932) サロゲート(ペア)」 「UTF-8 4バイト文字 Shift_JIS(SJIS,Windows-31J,CP932) 変換」 「Unicode(UTF-8,UTF-16) か

    7.2 ASCII の NUL と DEL の本来の意味 - 文字コードに関する覚え書きと実験
  • サポートされているエンコーディング

    java.io.InputStreamReader、java.io.OutputStreamWriter、java.lang.String、および java.nio.charset パッケージのクラスを使用すると、Unicode とその他のいくつかの文字エンコーディング間の変換を行うことができます。サポートされるエンコーディングは、Java プラットフォームの実装によって異なります。Java Platform Standard Edition 6 の各実装によるサポートが必要なエンコーディングの一覧は、「java.nio.charset.Charset クラスの解説」を参照してください。 Sun の Java SE Development Kit 6 の全プラットフォーム (SolarisTM オペレーティング環境、LinuxMicrosoft Windows) 版と Java SE R

  • 1