タグ

ブックマーク / kamosawa.hatenablog.com (1)

  • Unicodeでは濁点や半濁点を別扱いしてることがあるので結合した - はてなの鴨澤

    PDFをテキストに変換して使うことがときどきあります。 今日処理してたPDF電子書籍の中に、テキストデータは持っているのに、なんかしらんけど検索がうまくかからないことが多い、という変なファイルがありました。ぜんぜん検索できないならまだわかるんだけど、できる検索語とできない検索語があるかんじ。 pdftotextでテキストファイルにしてみたところ、なんとこのテキストファイルが同じように検索できたりできなかったりする。さすがにちょっと不思議。 で、「が」という文字が入ってると検索がかからないのに気がついたので、「が」だけ切り出したテキストファイルを作り、ほかに普通のエディタで「が」だけ入力したテキストファイルを作って、PythonでUnicodeコードポイントを見てみました。ga.txtが検索のかからないもの、ga2.txtがかかるものです。 >>> for line in open('ga

    Unicodeでは濁点や半濁点を別扱いしてることがあるので結合した - はてなの鴨澤
  • 1