そのことに最初に気付いたのは、ずいぶん前だったような気がする。 通勤時間の暇潰しのためにWikipediaのアプリを入れてたまに読んでいるのだが、そのアプリの機能として「よく読まれている記事」という一種のアクセスランキング機能がある。例えば芸能人が不祥事を起こしたり亡くなればその人のページが翌日ランクインするし、何かの事件の判決が出たらその事件のページがランクインしたりする。ある意味では「ネットユーザーの興味の総意」みたいなところがあるランキングである。 しかし、ある時奇妙な項目がランクインしていたのを目にした。それは「今昔文字鏡」というソフトウェアに対する記事である。あまり一般に知られたソフトではないにも関わらず、今世間一般で話題になっている数々の項目を抑えてランクインしていたのである。 ja.wikipedia.org これだけなら「まぁ一部で何か話題になったんだろう、たまにはそんなこ
Unicodeに収録されている文字について、各種エンコーディング(文字コード)でのデータ並び(バイトシーケンス)を調べることができます。 調べ方は、3通りの中から選べます。 データ並びは、すべて%xx形式(URLエンコード、パーセントエンコーディングともいう)で表示します。 併せて、JIS漢字コード、区点コード(面区点番号)、JIS漢字水準も調べられます。 目次 文字列を入力して調べる 文字番号を入力して調べる 1文字入力して調べる その他 詳しい説明 文字列を入力して調べる 文字列(最大200文字)を入力して、URLエンコード、もしくはユニバーサル文字名またはHTML数値文字参照へのエンコードを行います。 異体字セレクタ(IVS)等のUnicode制御文字も文字数としてカウントされます。 ↓(1)エンコードしたい文字列を入力する。(例:北欧) ↓(2)エンコードの種類を選択する。 URL
normalizer_normalize を使って Unicode 正規化を行うtransliterator_transliterate を使って Unicode エスケープシーケンスを文字に変換するPHP: Collator を使って文字列の照合を行うPHP: IntlBreakIterator を使って文字数を求めるPHP: IntlBreakIterator を使って1文字単位でコールバックを適用する関数を定義するPHP: IntlCodePointBreakIterator を使ってコードポイントを求めるPHP: ResourceBundle を使って複数のロケールのメッセージを管理する2014年7月20日追記:「濁点」が「半濁点」に誤表記されていたのを修正しました。 2013年6月20日追記:Unicode 正規化によって全角記号が ASCII に変換されることで生み出される脆弱
この投稿は 「python Advent Calendar 2017 - Qiita」 の 9日目の記事です。 こんにちは、akiyoko です。 「Python Advent Calendar」は 4年連続 4度目の参加になります。 *1, *2, *3 はじめに 皆さん、CSV は好きですよね? Excel も大好きですね? じゃあ当然、CSVファイルは Excel で開きますよね。 文字化けは? ・・もちろん嫌いですよね。 でも CSVファイルを Excel で開こうとしたときに、こんな文字化け地獄を経験したことはありませんでしたか? *4 ということで今回は、Excel で直接開いたときに文字化けしない CSV ファイルを Python3 で作成する方法 を紹介したいと思います。(おまけで Python2 でのやり方も書いておきますが、今時 Python2 で消耗している人なんてい
UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語
Googleのチーズバーガー絵文字をめぐって議論が巻き起こっています。Appleなど他社のバーガー絵文字と異なり、Googleの絵文字はチーズがバーガーパテの下に配置されており、そんなチーズバーガーは存在しないと批判の声が上がっています。 ベジタリアンの集団はこれだから困る ライターとして知られるトーマス・バクダール氏(@baekdal)は、Appleはチーズバーガー絵文字のチーズをバーガーパテの上に置いているにも関わらず、Googleのはなぜかチーズがパテの下にきていておかしいと指摘しました。 I think we need to have a discussion about how Google's burger emoji is placing the cheese underneath the burger, while Apple puts it on top pic.twit
Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems. Unicode Consortiumは3月9日(米国時間)、「The Unicode Blog: Unicode 10.0 Beta Review」において、次のバージョンのUnicode 10.0で実施される変更点や新しく追加される機能などについて伝えた。Unicode 10.0ではいくつかの変更が行われることになっており、Unicode Line Breaking Algorithmn、Unicode Text Segmentation、Unicode Identifier an
内容:「総合漢字チェッカー」は、テキストに含まれる常用漢字や教育漢字などをまとめてチェックできるサービスだ。小学校の指定した学年では読めない漢字をチェックしたり、常用漢字やJISの指定水準に含まれない漢字をすばやく見つけられるほか、文字数や漢字使用率のチェックもまとめて行える豊富な機能が売りだ。 「総合漢字チェッカー」は、テキストに含まれる常用漢字や教育漢字などをまとめてチェックできるサービスだ。小学校の指定した学年では読めない漢字をチェックしたり、常用漢字やJISの指定水準に含まれない漢字をすばやく見つけられるほか、文字数や漢字使用率のチェックもまとめて行える豊富な機能が売りだ。 使い方は簡単で、サイトの入力フォームにテキストを貼り付けたのち、下段からチェックしたい項目を選択して「チェック」ボタンをクリックするだけ。チェックの結果、条件に当てはまる漢字が赤字で強調表示されるという仕組みだ
IT Leaders トップ > 経営課題一覧 > データ活用 > 技術解説 > 長年の懸案だった“外字問題”が解決へ、6万字を1万字に対応付ける「縮退マップ」が完成 データ活用 データ活用記事一覧へ [技術解説] 長年の懸案だった“外字問題”が解決へ、6万字を1万字に対応付ける「縮退マップ」が完成 2015年9月30日(水)田口 潤(IT Leaders編集部) リスト 普段は意識しないが、データや情報のデジタル化、そして利活用に少なからぬ影響があるのが、語彙の定義や文字コードの問題だ。これらは今も、氏名を扱う情報システム、例えば電子政府や電子自治体などにおいて問題であり続けている。その解消に向けた大きな前進が、2015年9月末にあった。 業界や社会、国を超えてデータや情報を流通させ共有したい。そのためには何が必要か?──。この設問に対して、読者は何と回答するだろうか?「インターネットに
初版 2010/4/5 第2版 2013/5/10 誤解を修正。全面的に書き直し。 第3版 2014/7/13 なるべく分かりやすく全面的に書き直し。 第4版 2015/5/20 さらに分かりやすく全面的に書き直し。 第4.1版 2015/5/27 まだ分かりにくいと不評なので書き直し。 第4.2版 2015/5/27 さらに分かりやすく調整。 Unicode正規化の考え方自体はとてもシンプルです。でも、よく知ろうとしていろいろ調べると、用語がハイコンテキストすぎて、混乱してワケがわからなくなります。日本で一般的に見られる用語を図にしてみましょう。 混乱するのはどこだと思いますか? “合成済み文字” と “合成文字” の2か所です。どちらも言葉として同じ意味です。それなのに、異なった状態を表す用語として無理矢理に使い分けようとしています。ここから、以下のような奇妙な文章ができあがります。
RailsがMySQLのcollationをサーバー側のデフォルトのutf8_general_ciからutf8_unicode_ciにわざわざ変えてるのどうせ大した理由じゃないだろと思って掘ってみたらやっぱり大した理由じゃなかった… https://t.co/6NeetGhTF0— Ryuta Kamizono (@kamipo) April 18, 2014 Railsでcollationとしてutf8_unicode_ci(RailsのDEFAULT_COLLATION)が採用されるのはcharsetが未指定もしくはutf8(RailsのDEFAULT_CHARSET)のときだけで、utf8mb4にすることとかは全く考慮されてない。— Ryuta Kamizono (@kamipo) April 19, 2014 @frsyuki MySQLのcharset utf8のときのデフォルト
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く