タグ

ブックマーク / web.sfc.keio.ac.jp/~masudako (2)

  • 標準エラー出力

  • Awkによる日本語文字の処理(メモ)

    わたしがAwkで処理するデータはおもに数値だが、文字列も含んでいる。 その大部分はASCIIだが、地名などはいろいろな言語の文字コードが含まれていることがある。 日で作られたデータファイルには日語文字を含むものが多い。 日の多くの人は、 日語文字列のマッチングや置きかえを含む処理をしたいだろう。 そういう処理の参考になる例文がのっているは、 伊藤(1992)など1990年代に出されたものがいくつかある。 しかし残念なことに、Awk処理系(インタプリタ)の多くは、 1文字が1バイトであることを想定して作られてきたので、 1文字を2バイトで表わす日語文字(ここではいわゆる「全角」の漢字・かなをさす)の 処理が期待どおりにならないことがある。 たとえば、文字コードとして日語EUCが使われているとし、 ファイルokehutaには「桶蓋」という文字が含まれているとしよう。 2005年

    dosequis
    dosequis 2007/07/15
  • 1