タグ

2005年12月16日のブックマーク (3件)

  • JIS, EUC, SJIS の漢字コードについて

    back 3つの 漢字コード 現在、コンピュータ上で日語テキストを表現するのに用いられている 漢字コードはおもに 3種類ある (昔は区点コードというコード体系も あったが、今ではすたれてしまった)。その 3種類は次のようなものである。 なお、最初に「0x」がつく文字列は、それが 16進数 (Hexadecimal) 表記であることを表す。 JIS漢字コード ASCII コード 0x21 〜 0x7E の文字 2つを組み合わせて 1つの 漢字を表現する。制御文字 (文字コード 0x1F 以下の文字) と共有できる、7bit 転送でも表現できる などの利点があるものの、漢字と通常の ASCII コード文字 (single-byte のアルファベット) が 共存できない。このために「漢字 IN」と「漢字 OUT」という 2つの 制御シーケンス (制御文字列) が導入されている。 漢字 IN …

  • 新聞記事にあらわれるカッコの使用法

    語の新聞には、英語の新聞に比べて非常に多くの丸カッコ () が使われています。 かぎカッコ 「」 は英語におけるクォーテーションマーク “ ” と ほぼ同じように扱えるものの、丸カッコについてはじつにさまざまな構文があり、 意味的にもその扱いは多種多様です。しかしカッコの中にはときに情報抽出にとって 重要な情報 (年齢・日時など) が含まれているため、丸カッコを無視することはできません。 ここでは無作為に抽出した新聞記事の中から、かぎカッコと丸カッコについて それぞれその使用法を分類してみました。 英語と日語の新聞にみる丸カッコの使用率の比較: 英語 (Wall Street Journal., PennTreeBank に含まれているものを使用): 1476文/49722文 = 3% 日語 (毎日新聞、95年 1月分): 2955文/23055文 = 13% 注意: 以下の例は、

    mhrs
    mhrs 2005/12/16
  • http://homepage3.nifty.com/cafe-in-the-junkyard/archive/2005-12.html

    mhrs
    mhrs 2005/12/16
    「閲覧者至上主義ではなく、文書至上主義として、自身を批判する」