Unicodeでは濁点や半濁点を別扱いしてることがあるので結合した - はてなの鴨澤

テクノロジーカテゴリーの変更を依頼記事元:

kamosawa.hatenablog.com

15 usersがブックマークコメント

コメント

3

記事へのコメント3件

注目コメント
新着コメント

UDONCHAN はい

2017/08/16 リンク

nilab 「濁点付き、半濁点付きの文字（たとえば「が」）を表現するのに「が」1文字のコードポイントで表現してもいいし（U+304C）、「か（U+304B）」+「濁点(U+3099)」で表現してもいい、ということになっているのです」

2017/06/21 リンク

agricola Macで作成されたZIPファイルに入ってるファイルの名前がこれだと、Windowsのエクスプローラで展開できないという悲惨な事態を招く。

2016/01/19 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Unicodeでは濁点や半濁点を別扱いしてることがあるので結合した - はてなの鴨澤

PDFをテキストに変換して使うことがときどきあります。今日処理してたPDFな電子書籍の中に、テキストデ... PDFをテキストに変換して使うことがときどきあります。今日処理してたPDFな電子書籍の中に、テキストデータは持っているのに、なんかしらんけど検索がうまくかからないことが多い、という変なファイルがありました。ぜんぜん検索できないならまだわかるんだけど、できる検索語とできない検索語があるかんじ。 pdftotextでテキストファイルにしてみたところ、なんとこのテキストファイルが同じように検索できたりできなかったりする。さすがにちょっと不思議。で、「が」という文字が入ってると検索がかからないのに気がついたので、「が」だけ切り出したテキストファイルを作り、ほかに普通のエディタで「が」だけ入力したテキストファイルを作って、PythonでUnicodeコードポイントを見てみました。ga.txtが検索のかからないもの、ga2.txtがかかるものです。 >>> for line in open('ga

ブックマークしたユーザー

um-mtt2024/01/25
otori3342022/03/17
UDONCHAN2017/08/16
syou61622017/08/15
Ryanak2017/06/21
nilab2017/06/21
fjbl5f2017/02/21
maple_magician2017/02/18
agricola2016/01/19
zu22015/10/20

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx