[B! charset] [2ページ] nilabのブックマーク

香港増補字符集 - Wikipedia

香港増補字符集（ホンコンぞうほじふしゅう、中: 香港增補字符集，英: Hong Kong Supplementary Character Set，HKSCS）は、香港特別行政区政府が定めた香港で必要とされる文字を集めたコンピュータ用の文字セット。最新版は2017年5月に発表された『香港增補字符集-2016』で、漢字、漢字の部品、仮名、キリル文字など、計5033字が収録されている。香港では繁体字が使われ、1980年代にMS-DOSが普及した時点から台湾のソフトウェア、ハードウェアを使っていた関係から、台湾で制定された文字コード（文字セット）であるBig5が普及し、デファクトスタンダードとなっていた。しかしBig5は台湾の標準中国語を表記するのに必要な漢字を集めただけで、香港の広東語や台湾の台湾語、客家語などに特有の方言字は意識的・網羅的に収録されることがなく実用上不十分であった。香港に

nilab 2010/07/02

香港増補字符集 - Wikipedia:Hong Kong Supplementary Character Set、HKSCS「香港特別行政区政府が定めた、香港で必要とされる文字を集めたコンピュータ用の文字セット」「漢字、漢字の部品、仮名、キリル文字など」

charset

リンク

機種依存文字とUnicode - WebStudio

導入機種依存文字と呼ばれる文字があります。例えばWindowsでは、大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、丸囲み文字(㊤㊥㊦㊧㊨)、カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、単位記号(㎝㎏㎡)、複数のアルファベットを合成した文字(㏍℡№)、元号(㍻㍼㍽㍾)、会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。機種依存文字は一般的に、異機種間でデータの交換を行った場合、例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。しかし、これらは機種依存文字と呼ばれているものの、その意味はあ

nilab 2010/05/19

機種依存文字とUnicode - WebStudio

リンク

UTF-8で変換できない機種依存文字を置換する

Summary UTF-8 のページから (株) やローマ数字の I などの文字をメールで送信すると，文字化けする．文字化けしそうな文字を，ad hoc に機種依存しない文字に変換する．ローマ数字もカッコで括るか，スペースを挿入したほうが良いかも． Source function replaceText($str){ $arr = array( /* --- 0x2100 - 0x2138 (文字種記号) --- */ // 0x2100 - 0x210F '\xE2\x84\x80' => 'a/c', '\xE2\x84\x81' => 'a/s', '\xE2\x84\x82' => 'C', '\xE2\x84\x83' => '?', '\xE2\x84\x84' => '?', '\xE2\x84\x85' => 'c/o', '\xE2\x84\x86' => 'c/u

nilab 2010/05/19

UTF-8で変換できない機種依存文字を置換する:「UTF-8 のページから (株) やローマ数字の I などの文字をメールで送信すると，文字化けする．文字化けしそうな文字を，ad hoc に機種依存しない文字に変換する」変換リスト

charset

リンク

iconv - Wikipedia

iconv（アイコンブ）は異なる文字コード間の相互変換を行う標準API。または、そのAPIに付属する文字コード変換ユーティリティプログラム。名前は「International Codeset Conversion Library」に由来する[1]。GNUによる実装[2]が有名で、変換ライブラリ libiconv のライセンスはLGPL、変換プログラム iconv のライセンスはGPLである。 iconvのAPIは、おもにUNIX環境で文字列の文字コード変換を行う標準インタフェースである。iconvは最初HP-UXで開発され、後にPOSIX規格として標準化された。そのため、ほとんどのUnix系のシステムで使用できる。 iconv APIは文字コード変換プログラムのほか、既存のプログラムを国際化または多言語化するためにも用いられる。例えば、Sambaの国際化にはiconvが利用されている。 X

nilab 2010/02/10

iconv - Wikipedia

リンク

libiconv - GNU Project - Free Software Foundation (FSF)

Introduction to libiconv International text is mostly encoded in Unicode. For historical reasons, however, it is sometimes still encoded using a language or country dependent character encoding. With the advent of the internet and the frequent exchange of text across countries - even the viewing of a web page from a foreign country is a "text exchange" in this context -, conversions between these

nilab 2010/01/18

libiconv - GNU Project - Free Software Foundation (FSF)

リンク

MyNA Web Site

Counter: 1379, today: 1, yesterday: 0 Last-modified: Sun, 25 Mar 2007 15:45:04 JST (6567d) Site admin: webmaster B-Wiki 20050210 Copyright © 2003-2005 ishii. License is GPL. Based on "PukiWiki" 1.4.5-2005/02/10 by PukiWiki Developers Team. Powered by PHP 5.5.9-1ubuntu4.29. HTML convert time: 0.007 sec.

nilab 2010/01/08

MyNA Web Site : UTF-8 の４バイト文字一覧(jisx0213)

リンク

新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH（クロステック）

普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。　　　　　（日経コンピュータ） 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ

nilab 2010/01/08

新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 - 新常用漢字が引き起こす文字コード問題:「2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢

charset

リンク

【改定常用漢字表試案への意見】テンプレート | yasuokaの日記 | スラド

『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「改定常用漢字表試案への意見」の例を書いてほしい、という依頼がかなりたくさん届いた。しかも、電子メールで送れる形にしてほしい、という人が多いらしい。とりあえず、私(安岡孝一)なりのテンプレートを書いてみることにした。 To: kanzihyo@bunka.go.jp Subject: 【改定常用漢字表試案への意見】氏名・年齢・性別・職業住所・電話番号「叱・填・剥・頬」の4字を、それぞれ対応する常用漢字の許容字体として、角括弧つきで併記することを要望します。また、＊が付された「彙・茨・淫・牙・葛・韓・嗅・僅・惧・稽・恣・煎・詮・箋・嘲・捗・溺・賭・箸・蔑・喩」の21字および「羨・蔽・籠」の3字については、これまでの常用漢字と同じ構成要素の字体を、やはり許容字体として併記することを要望します。その上で、「

nilab 2010/01/08

【改定常用漢字表試案への意見】テンプレート - yasuoka の日記:「これまでの漢字小委員会の議事録を読む限り、理由をいくら書いても審議の対象にしてもらえない」

charset

リンク

終了いたしました。

nilab 2009/05/06

JAVA PRESS Vol.15 入校原稿 : 『当世JAVA日本語事情』

リンク

fam.cx

This domain may be for sale!

nilab 2008/10/22

_charset_:_charset_ hack:「IE には <input type="hidden" name="_charset_"/> を form 要素中に潜ませておくと query や application/x-www-form-urlencoded に _charset_=charset 名を入れてくれるという機能があります」

リンク

18643 - add support for _charset_ field in form submissions [form sub]

nilab 2008/10/22

Bug 18643 – add support for _charset_ field in form submissions [form sub]

リンク

Kazuho@Cybozu Labs: C++ テンプレートを使って MBCS と Unicode ちゃんぽんなコードを書く話

nilab 2008/10/17

Kazuho@Cybozu Labs: C++ テンプレートを使って MBCS と Unicode ちゃんぽんなコードを書く話

c++
charset

リンク

これだから世の中にはiso-8859-1しかないと思ってる奴らは... - 川口耕介のブログ

NetBeansの中の人経由でこれを発見した。 Without default value for source encoding, platform encoding is used, which is bad for build reproducibility. Then setting a default value consistently across every Maven plugin will improve build reproducibility. Proposed default value: ISO-8859-1, which must be supported by every JVM (see java.nio.Charset) and is already the default value for some plugins (the majority of

nilab 2008/04/28

これだから世の中にはiso-8859-1しかないと思ってる奴らは... - 川口耕介の日記:Maven:正当化の理由が「ソースファイルをiso-8859-1以外で書いているプロジェクトは無視できるくらい少数」っていう風に書いてあるところ

charset
java

リンク

Utilz: キャラクタセット作成

Top Java関連 Servletメール処理 JavaでFlash(Ming) JSPWikiフォーム JavaでアニメーションGIF Webページのキャプチャ JDBCのロギング JavaMailとTLS Gmail 自己署名自己署名(2) プログレッシブJPEG 携帯サイト関連再配布不可識別子 Forward Lock トルカのメール添付携帯位置情報(GPS) 画像の位置情報動画の位置情報 JSFで携帯ページデコメールテンプレート携帯識別携帯クローラ携帯アフィリエイト携帯関連リンク集チュートリアルキャラクタセット作成 Misc E61 IMAP IDLE ソフトウェア Emf(絵文字フィルタ) インストール絵文字の表示絵文字メールカスタム設定サンプル Scf(補助文字フィルタ) インストールサンプル詳細設定 GCalViewer 開発メモ

nilab 2008/02/15

Utilz: キャラクタセット作成 : java.nio.charset.spi.CharsetProvider, java.nio.charset.Charset, CharsetEncoder, CharsetDecoder

リンク

MacJapanese - Wikipedia

Mac JapaneseはIANAによって登録されていない。そのためRFC 2045の§ 6.3に従って、XML、MIMEなどでは "x-Mac-Japanese" という文字列がこの文字コードの名前として使われている（Apple製であるiPodもこの名前を認識する[1]）。また、Mac JapaneseをUnicodeにマッピング（対応付け）した上で、Unicode用の文字符号化方式（UTF-16、UTF-8など）を使って符号化する方法もあり、macOSのファイル名などにはこの方法が使われている。ただし、Mac Japanese固有の文字を私用領域 (Private Use Area) のU+F860、U+F861、U+F862、U+F87A、U+F87E、U+F87Fを使って表現するので、macOS以外の環境との互換性は無い。

nilab 2008/01/10

MacJapanese - Wikipedia : x-Mac-Japanese

charset

リンク

Microsoftコードページ932 - Wikipedia

この記事には複数の問題があります。改善やノートページでの議論にご協力ください。出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。（2011年11月）出典は脚注などを用いて記述と関連付けてください。（2011年11月）出典検索?: "Microsoftコードページ932" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL MS932とその他の日本語に関連した文字集合との関係オイラー図 Microsoft コードページ 932（マイクロソフトコードページ 932）は（以下 CP932）、マイクロソフト及び、MS-DOSのOEMベンダがShift_JISを独自に拡張した文字コードである。また、同時にCP932は、Shift_JISのWindowsアプリケーションにおける「

nilab 2008/01/10

Microsoftコードページ932 - Wikipedia

charset

リンク

文字コード掲示板

093 Java の MS932, Cp943C, SJIS の違い <森山将之> 2003/08/26(火) 23:44 Java の MS932, Cp943C, SJIS の違い Java※ の MS932, Cp943C, SJIS の変換で異なる点、および注意を要する点をまとめてみました。 ※調査したバージョン：Java(TM) 2 Runtime Environment, Standard Edition (build 1.4.1_02-b06) ■概要 MS932 と Cp943C の両者は、Windows-31J の文字セットを扱えます。主な違いは、Unicode への変換で一部異なるコードポイントに変換される事と、NEC特殊文字とIBM拡張文字の両方で定義されている文字を、Unicode から MS932/Cp943C に変換する際に、どちらのコードポイントかという点

nilab 2008/01/10

文字コード掲示板:Java の MS932, Cp943C, SJIS の違い:変換:1.4.1_02-b06:MS932 と Cp943C で異なる Unicode コードポイント:JIS X 0208-1983 で追加された文字に変換されるコードポイント

charset
java

リンク

Javaエンコーディング名別名一覧 - Wiki＠oku's room

Java エンコーディング名別名一覧 (JDK 1.4.1 版) JDK 1.4.1 でのエンコーディング名の一覧を抽出してみました。JDK 1.3.1 の一覧についてはこちらのサイトで公開されているかたがいらっしゃいます。 JDK 1.3.1 から変更されている点については簡単にコメントを追加してあります。また表記形式については前述のサイトを参考にさせていただきました。参照元: j2sdk-1_4_1-src-scsl.zip に含まれていた /j2se/src/share/classes/sun/io/CharacterEncoding.java エイリアス名は大文字小文字を区別しませんが、正式名(右側のもの)は大文字小文字を区別するので注意してください。 ↑ 日本語用エンコーディング名別名一覧 // Specialized auto-detection for Jap

nilab 2008/01/10

Javaエンコーディング名別名一覧 - Wiki＠oku's room : Java エンコーディング名別名一覧 (JDK 1.4.1 版)

java
charset

リンク

http://www2s.biglobe.ne.jp/~katsum/java/encoding.html

nilab 2008/01/10

j2sdk-1_3_1-src.tar.gz に含まれている /j2sdk1.3.1/src/share/classes/sun/io/Charactエンコーディング名別名一覧 : erEncoding.java からの抜粋

java
charset

リンク

Windows-31J の重複符号化文字と Unicode

Windows-31J (マイクロソフト Code Page 932) では重複符号化されている文字があります。ここでは、その重複符号化されている文字の変換をどのように行うかについて扱っています。マイクロソフトの Code Page 932 の文字コード変換では重複符号化されている文字は Unicode への変換で同一のコードポイントへ変換され、Unicode からシフトJISに変換する際には特定のコードポイントが用いられるようになっています。基本的なルールは次のようになっていて、1 から順番にルールが適用されます。 2区にある文字は2区のコードポイントを用いる 13区にある文字は13区のコードポイントを用いる 115～119区にある文字は115～119区のコードポイントを用いる具体的なコードポイントを表にすると次のようになり、Unicode からシフトJISへの変換では、強調表示の

nilab 2008/01/10

Windows-31J の重複符号化文字と Unicode

charset

リンク

はてなブックマーク

タグ

関連タグで絞り込む (33)

charsetに関するnilabのブックマーク (98)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第2週）

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス