タグ

unicodeに関するpugleeのブックマーク (7)

  • UTN #28: Nearly Plain-Text Encoding of Mathematics

  • upLaTeXを使おう [電脳世界の奥底にて]

    2017/07/02: 内容が古い旨の警告を追加。 2010/07/30: 「付録: upLaTeX 機能一覧」を追加。 2010/07/29: 「GT 書体フォントの利用」を追加。 2009/11/16: OTF パッケージのオプションについての説明を修正。 pxbabel の説明を大幅に書き直し、PXbase バンドル のページに移動した。 欧文 TeX において Unicode の登場以前から、TeX ではアクセント付のラテン文字を 「文字とアクセントのグリフを合成する」ことで表現し、 それにより多くの欧州の言語を出力する能力をもっていた。 さらに入力文字列をマクロで処理することにより、 ラテン文字以外の文字に関しても、 TeX のソース上での文字の表現方法(ASCII 文字での翻字、 8 ビットのコードページの利用、等) と必要なグリフを収めたフォントさえあれば 出力が可能であり、

  • TeX memo - upTeX

    upTeX, upLaTeX − 内部Unicode版 pTeX, pLaTeX の実装実験 2008年09月04日更新 [ English ] 概要 ASCII pTeXの内部コードをUnicodeにする実験をしています。 pTeX, pLaTeXのUnicode版: `upTeX', `upLaTeX' と名付けました。 入出力のエンコーディングをUTF-8とし、U+FFFFまでの範囲は漢字/仮名/和文記号/ハングルとして、さらに、Unicodeの最大値U+10FFFFまでの範囲は漢字として扱うことが出来ます。 また\kcatcodeの設定切替えで欧文LaTeXの\inputenc{utf8}やBabelが障害なく利用でき、和文や中韓の言語と共存もできます。 ASCII pTeXのほぼ上位互換となっており、従来のEUCやSJISの動作に切替えることも可能です。 土村さんの pt

    puglee
    puglee 2014/11/03
    直接ここから取得することは無いが, TeXLive の一部として利用する
  • Unicode/UTF-8-character table

    UTF-8 encoding table and Unicode characters page with code points U+0000 to U+00FF We need your support - If you like us - feel free to share.help/imprint (Data Protection)

  • Unicodeの似た文字を整理してみた - y-kawazの日記

    XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。 文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。 ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル 表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。 見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。 分かりやすいよう、青は文字化けなし、黄

    Unicodeの似た文字を整理してみた - y-kawazの日記
  • ものかの >> archive >> Unicode正規化 その1

    Unicode正規化 その1 (2010.3.21 改訂) Unicodeのテキストをあつかう上で、「結合文字列」と「Unicode正規化」はどうしても避けることのできない問題です。ここではあまり深く掘り下げずに、ユーザの眼を通してこれを見ていこうと思います。 まずはじめに、Unicodeには「特殊な文字」があることを知っておきましょう。 Unicodeの特殊な文字 ここに2つの「ポ」があります。OS X のエディタ「テキストエディット」に表示された文字です。 まったく同じに見えますが、この2文字、実は文字データとして全く違うものです。左は普通の1文字ですが、右は「ホ+半濁音」の2文字のデータで構成されています。両方とも見た目が1文字なので違いがまったく分かりません。 そこで、違いを実感できるように「簡単なソフト」を作ってみました。 >> download(Mac OS X 用) 左に「ポ

  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

  • 1