タグ

2015年11月10日のブックマーク (8件)

  • 日本語組版処理の要件(日本語版)

    1.1 この文書の目的 すべての文化集団は,独自の言語,文字,書記システムを持つ.それゆえ,個々の書記システムをサイバースペースに移転することは,文化的資産の継承という意味で,情報通信技術にとって非常に重要な責務といえよう. この責務を実現するための基礎的な作業として,この文書では,日語という書記システムにおける組版上の問題点をまとめた.具体的な解決策を提示することではなく,要望事項の説明をすることにした.それは,実装レベルの問題を考える前提条件をまず明確にすることが重要であると考えたからである. 1.2 この文書の作成方法 この文書の作成は,W3C Japanese Layout Task Forceが行った.このタスクフォースは,次のようなメンバーで構成され,ユーザーコミュニティーからの要望と専門家による解決策を調和させるために様々な議論を行ってきた. 日語組版の専門家(“JIS

    none53
    none53 2015/11/10
    日本語組版処理の要件(日本語版)
  • 小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの

    小形克宏の「文字の海、ビットの舟」 ―― 文字コードが私たちに問いかけるもの [Reported by 小形克宏] 第1部 2000JISがやってきた 第1回 2000JISとはなんだ? (2000年1月19日) 第2回 2000JISの原案はなぜ修整されたか? (2000年1月26日)加筆修正 2000年2月22日 第3回 前回までの訂正と補遺 (2000年2月2日)加筆修正 2000年2月22日 第4回 JCS委員長、芝野耕司の反論(前編) (2000年2月9日)加筆修正 2000年2月12日 第5回 JCS委員長、芝野耕司の反論(後編) (2000年2月16日)加筆修正 2000年2月22日 特別編 MacOS Xの新フォントと2000JISの関係 (2000年2月23日) 特別編2 ISO/IEC 10646で却下された(?)JIS X 0213の新漢字一覧表 (2000年3月8日

    none53
    none53 2015/11/10
    小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの
  • http://www.unicode.org/Public/UCD/latest/ucd/LineBreak.txt

    none53
    none53 2015/11/10
    www.unicode.org/Public/UCD/latest/ucd/LineBreak.txt
  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによる

    Unicode正規化
    none53
    none53 2015/11/10
    Unicode正規化
  • Unicode テキスト境界処理覚え書き

    [1] 「アショクがホッケべた!」の意。 ただし、このコード・ポイントの連続を実際にコンピュータ上でどのようなビットで表現するかは実装によって異なってきます。 符号化方式 最大で 10FFFF(16 進)を取るコード・ポイントを実際にコンピュータで扱うことを考えてみます。コード・ポイントの連続を実際にコンピュータ上でどのようなビットで表現するかを、「符号化方式(encoding)」と言います。 UTF-32 ひとつのコード・ポイントを 32 ビットの整数値として保持するようにした場合は話は簡単です。すべてのコード・ポイントが 32 ビットに収まるので、このような実装の場合、Unicode 文字列は 32 ビットの整数値の連続となり、このシーケンスの長さがすなわち格納しているコード・ポイントの数になります。この符号化方式を UTF-32 と呼びます。UTF は “Unicode Trans

    none53
    none53 2015/11/10
    Unicode テキスト境界処理覚え書き
  • 半角濁点の編集上の扱いについて

    結合文字ではない半角片仮名の濁点(U+FF9E)が、カーソル移動/削除で前の文字と一まとめになる現象とその理由について。IVSも同じ扱いだということです。

    半角濁点の編集上の扱いについて
    none53
    none53 2015/11/10
    togetter.com/li/116718
  • Firefoxなどで半角濁点が前の文字と一緒に選択される理由 - しろもじメモランダム

    Firefox などで下の半角濁点「゙」・半角半濁点「゚」を選択してみてほしい。 ガ、あ゙、漢゙、a゙、 ゙、☃゙、✐゙ え゙゙゙゙゙゙゙゙゙゙゙゙゙゙゙゙゙っ!! ぷ゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚。 ぬ゙゙゚゙゙゙゚゚゚゚゙゙゙゙゚゙゚゙゙゚゙゙゙゙゙゚゙゙゙゚゙゚゚゚゙゙゙゚゚゚゚゚゚゚゙゙゙゚ーん いくら半角(半)濁点だけを選択しようとしても、前の文字まで(それがスペースだろうが記号だろうが)一緒に選択されてしまうと思う。もう少し正確に言えば選択されるのは [^゙゚][゙゚]* にマッチする部分で、カーソルの移動の際にも [^゙゚][゙゚]* が一文字として扱われる。delete キーを押すと [^゙゚][゙゚]* が一気に消えるが、backspace キーでは半角(半)濁点がひとつずつ消える。 Windows のメモ帳*1など昔ながらのアプリケーショ

    none53
    none53 2015/11/10
    Firefoxなどで半角濁点が前の文字と一緒に選択される理由 - しろもじメモランダム
  • Google、ディープラーニングをサポートした機械学習ライブラリ「TensorFlow」をオープンソースで公開

    Googleは、脳の活動を模したニューラルネットワークによって学習を実現する「ディープラーニング」をサポートした機械学習ライブラリ「TensorFlow」をオープンソースで公開しました。ライセンスはApache 2.0オープンソースラインセンスです。 Googleはすでに数年前からディープラーニングを同社のサービスに組み込んでいます。「私たちが社内でディープラーニングの基盤である「DistBelief」を開発したのは2011年のことだ」(ブログ「TensorFlow - Google’s latest machine learning system, open sourced for everyone」から)。 TensorFlowは、このDistBeliefをさらに強化したものだと説明されています。 TensorFlow is general, flexible, portable, e

    Google、ディープラーニングをサポートした機械学習ライブラリ「TensorFlow」をオープンソースで公開
    none53
    none53 2015/11/10