タグ

utf-8に関するpugleeのブックマーク (7)

  • upLaTeXを使おう [電脳世界の奥底にて]

    2017/07/02: 内容が古い旨の警告を追加。 2010/07/30: 「付録: upLaTeX 機能一覧」を追加。 2010/07/29: 「GT 書体フォントの利用」を追加。 2009/11/16: OTF パッケージのオプションについての説明を修正。 pxbabel の説明を大幅に書き直し、PXbase バンドル のページに移動した。 欧文 TeX において Unicode の登場以前から、TeX ではアクセント付のラテン文字を 「文字とアクセントのグリフを合成する」ことで表現し、 それにより多くの欧州の言語を出力する能力をもっていた。 さらに入力文字列をマクロで処理することにより、 ラテン文字以外の文字に関しても、 TeX のソース上での文字の表現方法(ASCII 文字での翻字、 8 ビットのコードページの利用、等) と必要なグリフを収めたフォントさえあれば 出力が可能であり、

  • TeX memo - upTeX

    upTeX, upLaTeX − 内部Unicode版 pTeX, pLaTeX の実装実験 2008年09月04日更新 [ English ] 概要 ASCII pTeXの内部コードをUnicodeにする実験をしています。 pTeX, pLaTeXのUnicode版: `upTeX', `upLaTeX' と名付けました。 入出力のエンコーディングをUTF-8とし、U+FFFFまでの範囲は漢字/仮名/和文記号/ハングルとして、さらに、Unicodeの最大値U+10FFFFまでの範囲は漢字として扱うことが出来ます。 また\kcatcodeの設定切替えで欧文LaTeXの\inputenc{utf8}やBabelが障害なく利用でき、和文や中韓の言語と共存もできます。 ASCII pTeXのほぼ上位互換となっており、従来のEUCやSJISの動作に切替えることも可能です。 土村さんの pt

    puglee
    puglee 2014/11/03
    直接ここから取得することは無いが, TeXLive の一部として利用する
  • Ruby 2.1.0 に追加される不正なバイト列を除去する String#scrub の紹介 : sonots:blog

    Ruby 2.1.0 に追加される不正なバイト列を除去する String#scrub の紹介 : sonots:blog
  • Unicode/UTF-8-character table

    UTF-8 encoding table and Unicode characters page with code points U+0000 to U+00FF We need your support - If you like us - feel free to share.help/imprint (Data Protection)

  • ほぅほぅじょせつ : UTF-8とUTF-8Nの違いによるワナ

    2008年02月27日08:32 カテゴリ UTF-8UTF-8Nの違いによるワナ rubyを書いているのだが、結構意外なところではまって、時間を費やしてしまったのでメモしておく。 どうやらUTF-8にはUTF-8UTF-8Nの2種類がある。それらの違いは、UTF-8ではBOM(Byte Order Mark)と呼ばれる、エンディアンを判定するためのデータが先頭3バイトに書き込まれ、UTF-8Nでは書き込まれないというもの。 (追記20080401:コメントでご指摘をいただいたように、上の表記は適切ではありません。正しくは「UTF-8」では基的にBOMは付与されず、BOMが付与された場合に限り「UTF-8BOM」などの表記を与えて区別するべきであるようです。wikipadia「UTF-8」 来であればすべての表記を変更すべきですが、ここではTerePadがBOMつきのUTF-8を「

  • ものかの >> archive >> Unicode正規化 その1

    Unicode正規化 その1 (2010.3.21 改訂) Unicodeのテキストをあつかう上で、「結合文字列」と「Unicode正規化」はどうしても避けることのできない問題です。ここではあまり深く掘り下げずに、ユーザの眼を通してこれを見ていこうと思います。 まずはじめに、Unicodeには「特殊な文字」があることを知っておきましょう。 Unicodeの特殊な文字 ここに2つの「ポ」があります。OS X のエディタ「テキストエディット」に表示された文字です。 まったく同じに見えますが、この2文字、実は文字データとして全く違うものです。左は普通の1文字ですが、右は「ホ+半濁音」の2文字のデータで構成されています。両方とも見た目が1文字なので違いがまったく分かりません。 そこで、違いを実感できるように「簡単なソフト」を作ってみました。 >> download(Mac OS X 用) 左に「ポ

  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

  • 1