タグ

charsetに関するnilabのブックマーク (98)

  • 香港増補字符集 - Wikipedia

    香港増補字符集(ホンコンぞうほじふしゅう、中: 香港增補字符集,英: Hong Kong Supplementary Character Set,HKSCS)は、香港特別行政区政府が定めた香港で必要とされる文字を集めたコンピュータ用の文字セット。最新版は2017年5月に発表された『香港增補字符集-2016』で、漢字、漢字の部品、仮名、キリル文字など、計5033字が収録されている。 香港では繁体字が使われ、1980年代にMS-DOSが普及した時点から台湾のソフトウェア、ハードウェアを使っていた関係から、台湾で制定された文字コード(文字セット)であるBig5が普及し、デファクトスタンダードとなっていた。 しかしBig5は台湾の標準中国語を表記するのに必要な漢字を集めただけで、香港の広東語や台湾台湾語、客家語などに特有の方言字は意識的・網羅的に収録されることがなく実用上不十分であった。 香港に

    nilab
    nilab 2010/07/02
    香港増補字符集 - Wikipedia:Hong Kong Supplementary Character Set、HKSCS「香港特別行政区政府が定めた、香港で必要とされる文字を集めたコンピュータ用の文字セット」「漢字、漢字の部品、仮名、キリル文字など」
  • 機種依存文字とUnicode - WebStudio

    導入 機種依存文字と呼ばれる文字があります。 例えばWindowsでは、 大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、 小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、 丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、 丸囲み文字(㊤㊥㊦㊧㊨)、 カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、 単位記号(㎝㎏㎡)、 複数のアルファベットを合成した文字(㏍℡№)、 元号(㍻㍼㍽㍾)、 会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。 機種依存文字は一般的に、異機種間でデータの交換を行った場合、 例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、 これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。 しかし、これらは機種依存文字と呼ばれているものの、 その意味はあ

    nilab
    nilab 2010/05/19
    機種依存文字とUnicode - WebStudio
  • UTF-8で変換できない機種依存文字を置換する

    Summary UTF-8 のページから (株) や ローマ数字の I などの文字をメールで送信すると,文字化けする. 文字化けしそうな文字を,ad hoc に機種依存しない文字に変換する. ローマ数字もカッコで括るか,スペースを挿入したほうが良いかも. Source function replaceText($str){ $arr = array( /* --- 0x2100 - 0x2138 (文字種記号) --- */ // 0x2100 - 0x210F '\xE2\x84\x80' => 'a/c', '\xE2\x84\x81' => 'a/s', '\xE2\x84\x82' => 'C', '\xE2\x84\x83' => '?', '\xE2\x84\x84' => '?', '\xE2\x84\x85' => 'c/o', '\xE2\x84\x86' => 'c/u

    nilab
    nilab 2010/05/19
    UTF-8で変換できない機種依存文字を置換する:「UTF-8 のページから (株) や ローマ数字の I などの文字をメールで送信すると,文字化けする. 文字化けしそうな文字を,ad hoc に機種依存しない文字に変換する」 変換リスト
  • iconv - Wikipedia

    iconv(アイコンブ)は異なる文字コード間の相互変換を行う標準API。または、そのAPIに付属する文字コード変換ユーティリティプログラム。名前は「International Codeset Conversion Library」に由来する[1]。GNUによる実装[2]が有名で、変換ライブラリ libiconv のライセンスはLGPL、変換プログラム iconv のライセンスはGPLである。 iconvのAPIは、おもにUNIX環境で文字列の文字コード変換を行う標準インタフェースである。iconvは最初HP-UXで開発され、後にPOSIX規格として標準化された。そのため、ほとんどのUnix系のシステムで使用できる。 iconv APIは文字コード変換プログラムのほか、既存のプログラムを国際化または多言語化するためにも用いられる。例えば、Sambaの国際化にはiconvが利用されている。 X

    nilab
    nilab 2010/02/10
    iconv - Wikipedia
  • libiconv - GNU Project - Free Software Foundation (FSF)

    Introduction to libiconv International text is mostly encoded in Unicode. For historical reasons, however, it is sometimes still encoded using a language or country dependent character encoding. With the advent of the internet and the frequent exchange of text across countries - even the viewing of a web page from a foreign country is a "text exchange" in this context -, conversions between these

    nilab
    nilab 2010/01/18
    libiconv - GNU Project - Free Software Foundation (FSF)
  • MyNA Web Site

    Counter: 1379, today: 1, yesterday: 0 Last-modified: Sun, 25 Mar 2007 15:45:04 JST (6567d) Site admin: webmaster B-Wiki 20050210 Copyright © 2003-2005 ishii. License is GPL. Based on "PukiWiki" 1.4.5-2005/02/10 by PukiWiki Developers Team. Powered by PHP 5.5.9-1ubuntu4.29. HTML convert time: 0.007 sec.

    nilab
    nilab 2010/01/08
    MyNA Web Site : UTF-8 の 4バイト文字一覧(jisx0213)
  • 新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)

    普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。     (日経コンピュータ) 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。 新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ

    新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)
    nilab
    nilab 2010/01/08
    新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 - 新常用漢字が引き起こす文字コード問題:「2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢
  • 【改定常用漢字表試案への意見】テンプレート | yasuokaの日記 | スラド

    『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「改定常用漢字表試案への意見」の例を書いてほしい、という依頼がかなりたくさん届いた。しかも、電子メールで送れる形にしてほしい、という人が多いらしい。とりあえず、私(安岡孝一)なりのテンプレートを書いてみることにした。 To: kanzihyo@bunka.go.jp Subject: 【改定常用漢字表試案への意見】 氏名・年齢・性別・職業 住所・電話番号 「叱・填・剥・頬」の4字を、それぞれ対応する常用漢字の許容字体として、角括弧つきで併記することを要望します。また、*が付された「彙・茨・淫・牙・葛・韓・嗅・僅・惧・稽・恣・煎・詮・箋・嘲・捗・溺・賭・箸・蔑・喩」の21字および「羨・蔽・籠」の3字については、これまでの常用漢字と同じ構成要素の字体を、やはり許容字体として併記することを要望します。その上で、「

    nilab
    nilab 2010/01/08
    【改定常用漢字表試案への意見】テンプレート - yasuoka の日記:「これまでの漢字小委員会の議事録を読む限り、理由をいくら書いても審議の対象にしてもらえない」
  • 終了いたしました。

    作者ホームページサービス(hp.vector)は終了いたしました。 長らくのご利用、ありがとうございます。 ご不明な点があれば、お問い合わせページをご覧の上、お問い合わせください。 ※15秒後にトップページに戻ります。 (c) Vector HOLDINGS Inc.All Rights Reserved.

    nilab
    nilab 2009/05/06
    JAVA PRESS Vol.15 入校原稿 : 『当世JAVA日本語事情』
  • fam.cx

    This domain may be for sale!

    nilab
    nilab 2008/10/22
    _charset_:_charset_ hack:「IE には <input type="hidden" name="_charset_"/> を form 要素中に潜ませておくと query や application/x-www-form-urlencoded に _charset_=charset 名 を入れてくれるという機能があります」
  • 18643 - add support for _charset_ field in form submissions [form sub]

    nilab
    nilab 2008/10/22
    Bug 18643 – add support for _charset_ field in form submissions [form sub]
  • Kazuho@Cybozu Labs: C++ テンプレートを使って MBCS と Unicode ちゃんぽんなコードを書く話

    nilab
    nilab 2008/10/17
    Kazuho@Cybozu Labs: C++ テンプレートを使って MBCS と Unicode ちゃんぽんなコードを書く話
  • これだから世の中にはiso-8859-1しかないと思ってる奴らは... - 川口耕介のブログ

    NetBeansの中の人経由でこれを発見した。 Without default value for source encoding, platform encoding is used, which is bad for build reproducibility. Then setting a default value consistently across every Maven plugin will improve build reproducibility. Proposed default value: ISO-8859-1, which must be supported by every JVM (see java.nio.Charset) and is already the default value for some plugins (the majority of

    これだから世の中にはiso-8859-1しかないと思ってる奴らは... - 川口耕介のブログ
    nilab
    nilab 2008/04/28
    これだから世の中にはiso-8859-1しかないと思ってる奴らは... - 川口耕介の日記:Maven:正当化の理由が「ソースファイルをiso-8859-1以外で書いているプロジェクトは無視できるくらい少数」っていう風に書いてあるところ
  • Utilz: キャラクタセット作成

    Top Java関連 Servletメール処理 JavaでFlash(Ming) JSPWikiフォーム JavaでアニメーションGIF Webページのキャプチャ JDBCのロギング JavaMailとTLS Gmail 自己署名 自己署名(2) プログレッシブJPEG 携帯サイト関連 再配布不可識別子 Forward Lock トルカのメール添付 携帯位置情報(GPS) 画像の位置情報 動画の位置情報 JSFで携帯ページ デコメールテンプレート 携帯識別 携帯クローラ 携帯アフィリエイト 携帯関連リンク集 チュートリアル キャラクタセット作成 Misc E61 IMAP IDLE ソフトウェア Emf(絵文字フィルタ) インストール 絵文字の表示 絵文字メール カスタム設定 サンプル Scf(補助文字フィルタ) インストール サンプル 詳細設定 GCalViewer 開発メモ

    nilab
    nilab 2008/02/15
    Utilz: キャラクタセット作成 : java.nio.charset.spi.CharsetProvider, java.nio.charset.Charset, CharsetEncoder, CharsetDecoder
  • MacJapanese - Wikipedia

    MacJapaneseはIANAによって登録されていない。そのためRFC 2045の§ 6.3に従って、XML、MIMEなどでは "x-Mac-Japanese" という文字列がこの文字コードの名前として使われている(Apple製であるiPodもこの名前を認識する[1])。 また、MacJapaneseをUnicodeにマッピング(対応付け)した上で、Unicode用の文字符号化方式(UTF-16、UTF-8など)を使って符号化する方法もあり、macOSのファイル名などにはこの方法が使われている。ただし、MacJapanese固有の文字を私用領域 (Private Use Area) のU+F860、U+F861、U+F862、U+F87A、U+F87E、U+F87Fを使って表現するので、macOS以外の環境との互換性は無い。

    nilab
    nilab 2008/01/10
    MacJapanese - Wikipedia : x-Mac-Japanese
  • Microsoftコードページ932 - Wikipedia

    この記事には複数の問題があります。 改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2011年11月) 出典は脚注などを用いて記述と関連付けてください。(2011年11月) 出典検索?: "Microsoftコードページ932" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL MS932とその他の日語に関連した文字集合との関係オイラー図 Microsoft コードページ 932(マイクロソフト コードページ 932)は(以下 CP932)、マイクロソフト及び、MS-DOSのOEMベンダがShift_JISを独自に拡張した文字コードである。また、同時にCP932は、Shift_JISのWindowsアプリケーションにおける「

    Microsoftコードページ932 - Wikipedia
    nilab
    nilab 2008/01/10
    Microsoftコードページ932 - Wikipedia
  • 文字コード掲示板

    093 Java の MS932, Cp943C, SJIS の違い <森山 将之> 2003/08/26(火) 23:44 Java の MS932, Cp943C, SJIS の違い Java※ の MS932, Cp943C, SJIS の変換で異なる点、および注意を要する点をまとめてみました。 ※調査したバージョン:Java(TM) 2 Runtime Environment, Standard Edition (build 1.4.1_02-b06) ■概要 MS932 と Cp943C の両者は、Windows-31J の文字セットを扱えます。 主な違いは、Unicode への変換で一部異なるコードポイントに変換される事と、NEC特殊文字とIBM拡張文字の両方で定義されている文字を、Unicode から MS932/Cp943C に変換する際に、どちらのコードポイントかという点

    nilab
    nilab 2008/01/10
    文字コード掲示板:Java の MS932, Cp943C, SJIS の違い:変換:1.4.1_02-b06:MS932 と Cp943C で異なる Unicode コードポイント:JIS X 0208-1983 で追加された文字に変換されるコードポイント
  • Javaエンコーディング名別名一覧 - Wiki@oku's room

    Java エンコーディング名 別名一覧 (JDK 1.4.1 版) JDK 1.4.1 でのエンコーディング名の一覧を抽出してみました。JDK 1.3.1 の一覧については こちらのサイト で 公開されているかたがいらっしゃいます。 JDK 1.3.1 から変更されている点については簡単にコメントを追加してあります。 また表記形式については前述のサイトを参考にさせていただきました。 参照元: j2sdk-1_4_1-src-scsl.zip に含まれていた /j2se/src/share/classes/sun/io/CharacterEncoding.java エイリアス名は大文字小文字を区別しませんが、正式名(右側のもの)は 大文字小文字を区別するので注意してください。 ↑ 日語用エンコーディング名 別名一覧 // Specialized auto-detection for Jap

    nilab
    nilab 2008/01/10
    Javaエンコーディング名別名一覧 - Wiki@oku's room : Java エンコーディング名 別名一覧 (JDK 1.4.1 版)
  • http://www2s.biglobe.ne.jp/~katsum/java/encoding.html

    nilab
    nilab 2008/01/10
    j2sdk-1_3_1-src.tar.gz に含まれている /j2sdk1.3.1/src/share/classes/sun/io/Charactエンコーディング名別名一覧 : erEncoding.java からの抜粋
  • Windows-31J の重複符号化文字と Unicode

    Windows-31J (マイクロソフト Code Page 932) では重複符号化されている文字があります。ここでは、その重複符号化されている文字の変換をどのように行うかについて扱っています。 マイクロソフトの Code Page 932 の文字コード変換では重複符号化されている文字は Unicode への変換で同一のコードポイントへ変換され、Unicode からシフトJISに変換する際には特定のコードポイントが用いられるようになっています。 基的なルールは次のようになっていて、1 から順番にルールが適用されます。 2区にある文字は2区のコードポイントを用いる 13区にある文字は13区のコードポイントを用いる 115~119区にある文字は115~119区のコードポイントを用いる 具体的なコードポイントを表にすると次のようになり、Unicode からシフトJISへの変換では、強調表示の

    nilab
    nilab 2008/01/10
    Windows-31J の重複符号化文字と Unicode