タグ

文字コードに関するharukasanのブックマーク (2)

  • 404 Blog Not Found:perl - Encode 入門

    2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門 すでにOSCONでもYAPCでも、あちこちそちこちでこの基方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改め だまってコードを書けよハゲ 入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです!とにかくこの基方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

    404 Blog Not Found:perl - Encode 入門
  • 安岡孝一(インターネット・文字の歴史など)

    安岡孝一の Universal DependenciesとBERT/RoBERTa/DeBERTaモデルによる多言語情報処理 京都大学人文科学研究所・未踏科学研究ユニット・データサイエンスで切り拓く総合地域研究ユニット (2024年2月). 住民基台帳ネットワーク漢字辞典 京都大学未踏科学研究ユニット・学知創生ユニット・人文科学研究所 (2019年1月). 日中国台湾・香港・韓国の常用漢字と漢字コード 京都大学未踏科学研究ユニット・学知創生ユニット・人文科学研究所 (2017年3月). [京都大学リポジトリ] 新しい常用漢字と人名用漢字 三省堂 (2011年3月), ISBN978-4-385-36523-7. 新常用漢字表の文字論 勉誠出版 (2009年12月), ISBN978-4-585-03227-4. [訂正] 石刻千字文 京都大学21世紀COE (2008年3月).

  • 1