わたしがAwkで処理するデータはおもに数値だが、文字列も含んでいる。 その大部分はASCIIだが、地名などはいろいろな言語の文字コードが含まれていることがある。 日本で作られたデータファイルには日本語文字を含むものが多い。 日本の多くの人は、 日本語文字列のマッチングや置きかえを含む処理をしたいだろう。 そういう処理の参考になる例文がのっている本は、 伊藤(1992)など1990年代に出されたものがいくつかある。 しかし残念なことに、Awk処理系(インタプリタ)の多くは、 1文字が1バイトであることを想定して作られてきたので、 1文字を2バイトで表わす日本語文字(ここではいわゆる「全角」の漢字・かなをさす)の 処理が期待どおりにならないことがある。 たとえば、文字コードとして日本語EUCが使われているとし、 ファイルokehutaには「桶蓋」という文字が含まれているとしよう。 2005年