[B! unicode] lost_and_foundのブックマーク

CJK Type Blog | CJK Fonts, Character Sets & Encodings.

lost_and_found 2021/01/28

unicode

リンク

Find all Unicode Characters from Hieroglyphs to Dingbats – Unicode Compart

lost_and_found 2019/09/26

unicode

リンク

Find all Unicode Characters from Hieroglyphs to Dingbats – Unicode Compart

lost_and_found 2019/09/26

unicode

リンク

インターネットの怪異 - インターネット

そのことに最初に気付いたのは、ずいぶん前だったような気がする。通勤時間の暇潰しのためにWikipediaのアプリを入れてたまに読んでいるのだが、そのアプリの機能として「よく読まれている記事」という一種のアクセスランキング機能がある。例えば芸能人が不祥事を起こしたり亡くなればその人のページが翌日ランクインするし、何かの事件の判決が出たらその事件のページがランクインしたりする。ある意味では「ネットユーザーの興味の総意」みたいなところがあるランキングである。しかし、ある時奇妙な項目がランクインしていたのを目にした。それは「今昔文字鏡」というソフトウェアに対する記事である。あまり一般に知られたソフトではないにも関わらず、今世間一般で話題になっている数々の項目を抑えてランクインしていたのである。 ja.wikipedia.org これだけなら「まぁ一部で何か話題になったんだろう、たまにはそんなこ

lost_and_found 2019/04/25

unicode

リンク

Unicode文字ツール

Unicodeに収録されている文字について、各種エンコーディング(文字コード)でのデータ並び(バイトシーケンス)を調べることができます。調べ方は、3通りの中から選べます。データ並びは、すべて%xx形式(URLエンコード、パーセントエンコーディングともいう)で表示します。併せて、JIS漢字コード、区点コード(面区点番号)、JIS漢字水準も調べられます。目次文字列を入力して調べる文字番号を入力して調べる１文字入力して調べるその他詳しい説明文字列を入力して調べる文字列(最大200文字)を入力して、URLエンコード、もしくはユニバーサル文字名またはHTML数値文字参照へのエンコードを行います。異体字セレクタ(IVS)等のUnicode制御文字も文字数としてカウントされます。 ↓(1)エンコードしたい文字列を入力する。(例:北欧) ↓(2)エンコードの種類を選択する。 URL

lost_and_found 2019/01/25

unicode

リンク

PHP: normalizer_normalize を使って Unicode 正規化を行う

normalizer_normalize を使って Unicode 正規化を行うtransliterator_transliterate を使って Unicode エスケープシーケンスを文字に変換するPHP: Collator を使って文字列の照合を行うPHP: IntlBreak Iterator を使って文字数を求めるPHP: IntlBreak Iterator を使って1文字単位でコールバックを適用する関数を定義するPHP: IntlCodePointBreak Iterator を使ってコードポイントを求めるPHP: ResourceBundle を使って複数のロケールのメッセージを管理する2014年7月20日追記：「濁点」が「半濁点」に誤表記されていたのを修正しました。 2013年6月20日追記：Unicode 正規化によって全角記号が ASCII に変換されることで生み出される脆弱

lost_and_found 2018/06/14

unicode
php

リンク

まだ CSV の文字化けで消耗してるの？（Excel で直接開いても文字化けしない CSVファイルを Python3 で作成するスマートな方法） - akiyoko blog

この投稿は「python Advent Calendar 2017 - Qiita」の 9日目の記事です。こんにちは、akiyoko です。「Python Advent Calendar」は 4年連続 4度目の参加になります。　*1,　*2,　*3 はじめに皆さん、CSV は好きですよね？　Excel も大好きですね？じゃあ当然、CSVファイルは Excel で開きますよね。文字化けは？　・・もちろん嫌いですよね。でも CSVファイルを Excel で開こうとしたときに、こんな文字化け地獄を経験したことはありませんでしたか？　*4 ということで今回は、Excel で直接開いたときに文字化けしない CSV ファイルを Python3 で作成する方法を紹介したいと思います。（おまけで Python2 でのやり方も書いておきますが、今時 Python2 で消耗している人なんてい

lost_and_found 2017/12/11

リンク

絵文字がある種のUnicodeバグを世界から一掃しつつある件について｜Rui Ueyama

UnicodeのUTF-16エンコーディングではほとんどの文字（コードポイント）は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

lost_and_found 2017/11/13

unicode

リンク

Google最高経営責任者「月曜までにチーズバーガー絵文字を直す」 - iPhone Mania

Googleのチーズバーガー絵文字をめぐって議論が巻き起こっています。Appleなど他社のバーガー絵文字と異なり、Googleの絵文字はチーズがバーガーパテの下に配置されており、そんなチーズバーガーは存在しないと批判の声が上がっています。ベジタリアンの集団はこれだから困るライターとして知られるトーマス・バクダール氏（@baekdal）は、Appleはチーズバーガー絵文字のチーズをバーガーパテの上に置いているにも関わらず、Googleのはなぜかチーズがパテの下にきていておかしいと指摘しました。 I think we need to have a discussion about how Google's burger emoji is placing the cheese underneath the burger, while Apple puts it on top pic.twit

lost_and_found 2017/10/31

IVSでいろんなチーズバーガーを作れるようにしよう

unicode

リンク

Unicode 10、変体仮名と縦書きレイアウト導入へ

Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems. Unicode Consortiumは3月9日(米国時間)、「The Unicode Blog: Unicode 10.0 Beta Review」において、次のバージョンのUnicode 10.0で実施される変更点や新しく追加される機能などについて伝えた。Unicode 10.0ではいくつかの変更が行われることになっており、Unicode Line Breaking Algorithmn、Unicode Text Segmentation、Unicode Identifier an

lost_and_found 2017/03/13

unicode

リンク

Google、オープンソースフォント「Noto」がUnicode標準をフルサポートしたことを明らかに

lost_and_found 2016/10/11

リンク

JavaScriptでのサロゲートペア文字列のメモ - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

lost_and_found 2016/01/20

リンク

［ウェブサービスレビュー］テキストに含まれる条件外の漢字を一括チェックできる「総合漢字チェッカー」

内容：「総合漢字チェッカー」は、テキストに含まれる常用漢字や教育漢字などをまとめてチェックできるサービスだ。小学校の指定した学年では読めない漢字をチェックしたり、常用漢字やJISの指定水準に含まれない漢字をすばやく見つけられるほか、文字数や漢字使用率のチェックもまとめて行える豊富な機能が売りだ。「総合漢字チェッカー」は、テキストに含まれる常用漢字や教育漢字などをまとめてチェックできるサービスだ。小学校の指定した学年では読めない漢字をチェックしたり、常用漢字やJISの指定水準に含まれない漢字をすばやく見つけられるほか、文字数や漢字使用率のチェックもまとめて行える豊富な機能が売りだ。使い方は簡単で、サイトの入力フォームにテキストを貼り付けたのち、下段からチェックしたい項目を選択して「チェック」ボタンをクリックするだけ。チェックの結果、条件に当てはまる漢字が赤字で強調表示されるという仕組みだ

lost_and_found 2015/11/16

リンク

長年の懸案だった“外字問題”が解決へ、6万字を1万字に対応付ける「縮退マップ」が完成 | IT Leaders

IT Leaders トップ＞経営課題一覧＞データ活用＞技術解説＞長年の懸案だった“外字問題”が解決へ、6万字を1万字に対応付ける「縮退マップ」が完成データ活用データ活用記事一覧へ [技術解説] 長年の懸案だった“外字問題”が解決へ、6万字を1万字に対応付ける「縮退マップ」が完成 2015年9月30日(水)田口潤（IT Leaders編集部）リスト普段は意識しないが、データや情報のデジタル化、そして利活用に少なからぬ影響があるのが、語彙の定義や文字コードの問題だ。これらは今も、氏名を扱う情報システム、例えば電子政府や電子自治体などにおいて問題であり続けている。その解消に向けた大きな前進が、2015年9月末にあった。業界や社会、国を超えてデータや情報を流通させ共有したい。そのためには何が必要か？──。この設問に対して、読者は何と回答するだろうか？「インターネットに

lost_and_found 2015/10/02

unicode

リンク

Unicode正規化用語の混乱について第4.2版 – ものかの

初版　2010/4/5 第2版　2013/5/10　誤解を修正。全面的に書き直し。第3版　2014/7/13　なるべく分かりやすく全面的に書き直し。第4版　2015/5/20　さらに分かりやすく全面的に書き直し。第4.1版　2015/5/27　まだ分かりにくいと不評なので書き直し。第4.2版　2015/5/27　さらに分かりやすく調整。 Unicode正規化の考え方自体はとてもシンプルです。でも、よく知ろうとしていろいろ調べると、用語がハイコンテキストすぎて、混乱してワケがわからなくなります。日本で一般的に見られる用語を図にしてみましょう。混乱するのはどこだと思いますか？ “合成済み文字” と “合成文字” の２か所です。どちらも言葉として同じ意味です。それなのに、異なった状態を表す用語として無理矢理に使い分けようとしています。ここから、以下のような奇妙な文章ができあがります。

lost_and_found 2015/05/27

unicode

リンク

utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる

RailsがMySQLのcollationをサーバー側のデフォルトのutf8_general_ciからutf8_unicode_ciにわざわざ変えてるのどうせ大した理由じゃないだろと思って掘ってみたらやっぱり大した理由じゃなかった… https://t.co/6NeetGhTF0— Ryuta Kamizono (@kamipo) April 18, 2014 Railsでcollationとしてutf8_unicode_ci(RailsのDEFAULT_COLLATION)が採用されるのはcharsetが未指定もしくはutf8(RailsのDEFAULT_CHARSET)のときだけで、utf8mb4にすることとかは全く考慮されてない。— Ryuta Kamizono (@kamipo) April 19, 2014 @frsyuki MySQLのcharset utf8のときのデフォルト