[B! charset] oinumeのブックマーク

文字コード | 衆議院議員河野太郎公式サイト

2023.05.10 官報に使われる「官報文字」というものがあります。そこには渡辺さんの「辺」の異体字が１４０文字も登録されています。日本語の常用漢字には２１３６文字ありますが、そこには邉や邊などは入っていません。そこでＪＩＳの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも５５，２７０文字もあります。全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を２０１１年に策定し、それにあわせたフォントを作成し、無償で提供しています。この「文字情報基盤」（ＭＪ）には、５８，８６２文字が含まれています。しかし、このＭＪを全庁的に採用している自治体は、川口

oinume 2023/05/11

charset

リンク

MySQL :: MySQL 8.4 Reference Manual :: 12.10 Supported Character Sets and Collations

oinume 2016/06/13

charsetとcollationのデフォルト値

リンク

Goで[]byteをshift-jisの文字列に変換する

エンコードの変換には、定番の text.encoding パッケージを使用しますが、code.google.com/p/go.text/encoding パッケージは使わないでください。去年末 (Go 1.4 に先駆けて) から推奨されるパッケージ名が変わりました。現在では golang.org/x/text/encoding パッケージが使われます。サンプルコード : package main import ( "fmt" "strings" "bytes" "io" "io/ioutil" "golang.org/x/text/transf orm" // "code.google.com/p/go.text/transf orm" // deprecated "golang.org/x/text/encoding/japanese" // "code.google.com/p/go.

oinume 2015/07/07

リンク

Atom Flight Manual

CompanyEngineeringProductSunsetting AtomWe are archiving Atom and all projects under the Atom organization for an official sunset on December 15, 2022. January 30, 2023 Update: Update to the previous version of Atom before February 2 On December 7, 2022, GitHub detected unauthorized access to a set of repositories used in the planning and development of Atom. After a thorough investigation, we hav

oinume 2015/07/06

リンク

utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる

RailsがMySQLのcollationをサーバー側のデフォルトのutf8_general_ciからutf8_unicode_ciにわざわざ変えてるのどうせ大した理由じゃないだろと思って掘ってみたらやっぱり大した理由じゃなかった… https://t.co/6NeetGhTF0— Ryuta Kamizono (@kamipo) April 18, 2014 Railsでcollationとしてutf8_unicode_ci(RailsのDEFAULT_COLLATION)が採用されるのはcharsetが未指定もしくはutf8(RailsのDEFAULT_CHARSET)のときだけで、utf8mb4にすることとかは全く考慮されてない。— Ryuta Kamizono (@kamipo) April 19, 2014 @frsyuki MySQLのcharset utf8のときのデフォルト

oinume 2015/06/25

リンク

MySQL と寿司ビール問題 - かみぽわーる

MySQL と Unicode Collation Algorithm (UCA) - かみぽわーるに関連するトピックで、 MySQL には寿司ビール問題というのがある。寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。あれ？ MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる？ SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select

oinume 2015/03/23

リンク

バックスラッシュ - Wikipedia

この項目には、一部のコンピュータや閲覧ソフトで表示できない文字（半角のバックスラッシュや円記号など）が含まれています（詳細）。バックスラッシュ（英: backslash）、逆斜線（ぎゃくしゃせん）、あるいはリバースソリダス（英: reverse solidus）は、約物の一つで、「 \ 」と書き表される。バックスラッシュとはスラッシュ「 / 」の逆という意味である。ただしスラッシュとは異なり、自然言語ではほぼ使われることのない記号である。バックスラッシュと円記号 (¥) の問題については、円記号も参照のこと。歴史[編集] ホイートストン式鍵盤鑽孔機。3列目の最後にバックスラッシュがある。 1966年6月14日以前のASCII文字セットからなるASR-33キーボード配列。Shift+L でバックスラッシュを入力する。 2021年11月現在、起源は特定されておらず、判明している最も古い文

oinume 2013/09/24

charset

リンク

円マークとバックスラッシュ

文字コードの話題です。発端は「ソースコードのバックスラッシュを円マークに統一していいですか?」という編集の方からのツッコミでした。すっかり、Unicode馴れしていた私は、もはや円マークなんて目にしなくなって数年。HTMLに含める時は、¥ と明示的に書く場面でもなければ、基本「バックスラッシュ」がデフォルトになっていました。改めて「円マーク」で良いのか…と聞かれて、どうも自信が無くなったので、記憶を掘り返してみることに。 SJIS時代は文字コードにそもそもバックスラッシュが含まれず、円マークが代用されていたわけですが、それがUnicodeになりちゃんと分けましょう、という話に当然なります(当たり前!)。そして、円マークには別途「00A5」が割り振られた、という経緯のようです。 ※UTF8の場合、正確には「C2A5」に割り振られます。 Unicode (あるいは Latin 1)

oinume 2013/09/24

charset

リンク

本当はこわいエンコーディングの話 // Speaker Deck

東京Ruby会議10 で発表したスライド

oinume 2013/01/14

ruby
charset

リンク

chardet

Meta License: GNU Lesser General Public License v2 or later (LGPLv2+) (LGPL) Author: Mark Pilgrim Maintainer: Daniel Blanchard Tags encoding, i18n, xml Requires: Python >=3.7 Chardet: The Universal Character Encoding Detector Detects ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants) Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simplified Chinese) EUC-JP, SHIFT_JIS, CP932, IS

oinume 2011/04/12

文字コード自動検出してくれる

リンク

MySQLに既に存在するデータベース内部の文字コードを、latin1からutf8に変換する方法。

MySQL/Rubyのバージョンをあげたら、MySQLから取ってきてたデータが全部文字化けしてたので、なんでかなぁ〜と思ったら... MySQLのデータベース内部のエンコーディングが、latin1になってた（汗 dumpしたSQLを見てる限り、文字コードがUTF-8のDBの中に、文字コードをlatin1に指定したテーブルを作っちゃってたらしい...orz MySQLとデータベース自体はEncoding=utf8だったので、どうやら昔のプラグインが悪さしてた？ MySQL/Rubyを、Webサーバ上のmysql-configがlatin1（もしくはエンコーディング設定無し）の状態でソースから入れたのが原因かなぁ〜？まぁサーバ環境設定したのが1年以上前なんで、原因ははっきりとは分からずなのですが、ひとまず文字コードを「MySQL文字コードの移行」という記事を手本に、MySQL内部のlat

oinume 2011/03/23

リンク

emacsで文字コードを指定して開く - PC日記

emacs で、utf-8のファイルを開くときに、文字コードの判別に失敗することがある。おぼろげな記憶で、C-u C-x C-f とかで文字コードの指定ができたかな～なんて思っていたのだけれど、できない。調べてみたら、以下のページが見つかった。 >emacs によるコードの自動判定は、今のところ成功していますが、失敗する >かもしれません。emacs で、buffer-file-coding-system を明示的に与えて >find-file するには、どうすればいいでしょうか？文字コードを指定して開く C-x RET c 文字コードを入力 RET C-x C-f 開きなおす C-x RET c 文字コードを入力 RET C-x C-v RET だそうです。おまけ emacs の文字コードの自動判別を助ける方法として、auto-coding-alistやauto-coding-r

oinume 2010/02/10

リンク

Meadow2.20-devをXPで使っています。ときどき、日本語のファイルが化けます。…

Meadow2.20-devをXPで使っています。ときどき、日本語のファイルが化けます。「は」が「￥317」などとなります。 EUCのファイルを開いたときなどになるようですが、どういうときにトラブルが起きるかよく分かりません。修正方法や、どのようなことが起こっているかの説明のあるページがあるとありがたいです。

oinume 2008/02/02

これだ!!

リンク

Servlet Garden » Unicode and Character Sets (Translation)

勉強を兼ねての勝手に翻訳シリーズ第3弾です。今回はJoel Spolsky氏のブログに掲載されていたThe Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)です。掲載されたのは2003年10月と、5年近く前のことなので、現状にそぐわないところもあるかもしれませんが、とても参考になる解説です。ソフトウェ開発者なら絶対に最低限知っていなければならないユニコードと文字セットについて（言い訳はなしですよ！）不可解なContent-Typeタグについてかつて疑問に思ったことはないでしょうか？おそらくHTMLファイルに書き込むものということは知ってるでしょうが、なんのためにそれなければいけないのかまでは知ら

oinume 2008/02/02

charset

リンク

may_decode('latin1', "...") - Tociyuki::Diary

これ(↓)ですけど、utf8 フラグの立った文字列に、utf8 が立っていないけど \x80-\xff を含む文字列を連結しようとすると警告が出るのだと思い込んでいました。でも、やってみたら、警告でませんね。う〜む。そういうふるまいだったのか。 ⇒ subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes すでに utf-8 なバイト列を latin-1 と解釈して utf-8 に二重エンコードすることで起きる文字化け（を表現する短い言葉ってないのかな）を直すコード。で、私はあまのじゃくなので、逆を考えてみました。つまり連結するときに、どういう decode 処理をすれば、latin-1 と utf-8 を共存させることができるのだろうかと。まずは下調べ。decode、decode_utf8 にどういう文字列を渡すと utf8 フラグが立ち

oinume 2007/02/15

perl
charset

リンク

subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

oinume 2007/02/14

perl
charset

リンク

文字コード入門

コンテンツ一覧インデックスページ←いまここコンピュータ上での数値の扱いコンピュータで文字を扱うには？ ASCIIとJISローマ字 JIS漢字コード：JIS第一・第二水準 JIS補助漢字・第三・第四水準漢字中国の文字コード台湾の文字コード Unicode 大規模文字集合参考資料（書籍）本ページを作るにあたって参考にした書籍です。川俣晶『パソコンにおける日本語処理文字コードハンドブック』技術評論社芝野耕司編『JIS漢字字典』日本規格協会漢字文献情報処理研究会編『電脳中国学』『電脳中国学II』『電脳中国学入門』好文出版小池和夫／府川充男／直井靖／永瀬唯／『漢字問題と文字コード』　太田出版　1999 安岡孝一／素子『文字コードの世界』　東京電気大学出版局　1999 ユニコード漢字情報辞典編纂委員会編　『ユニコード漢字情報辞典』　三省堂　2000 小林／安岡／戸村／三上編　bi

oinume 2007/02/12

charset

リンク

文字コードの話

本稿は、1996年に筆者が大学の所属サークルの機関誌に寄稿した記事をもとに加筆訂正したものです。(最終更新 1999.7.31) 目次はじめに第1章日本語のコード体系第2章 ASCIIと1バイト文字コード第3章 JIS漢字コードとエンコーディング法第4章 ISO 2022 第5章 ISO 2022の実例第6章中国語・韓国語の文字コード第7章 ISO 10646とUnicode おわりに参考文献はじめに ASCIIだけで用が足りるアメリカと違って、私たちは日本語を扱わなくてはならないため、より深く文字コードの問題と関わらざるをえません。それでも、MS-DOS/WindowsやMacを使う限りでは、 ASCIIとシフトJIS(たまにJIS)を知っていれば済みますが、 UNIXやインターネットを使い始めると、 JIS・EUC・シフトJISとさまざまな日本語コードに頭を

oinume 2007/02/12

charset

リンク

JIS X 0212コード表(全コード) - CyberLibrarian

JIS X 0212(JIS補助漢字)の表です。JIS補助漢字はすべてUnicodeに収録されており、数値文字参照で記述することができます。ただし、OSやブラウザのバージョンなどの環境によっては、文字化けする可能性があります。別表として、Unicode番号付きの表(4分割)も掲載しています。 02区～11区非漢字 266字 16区～77区漢字 5,801字区点 JIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 2 0 2220 8FA2A0

oinume 2007/02/12

charset

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

charsetに関するoinumeのブックマーク (19)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス