タグ

charsetに関するoinumeのブックマーク (19)

  • 文字コード | 衆議院議員 河野太郎公式サイト

    2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

    文字コード | 衆議院議員 河野太郎公式サイト
  • MySQL :: MySQL 8.4 Reference Manual :: 12.10 Supported Character Sets and Collations

    oinume
    oinume 2016/06/13
    charsetとcollationのデフォルト値
  • Goで[]byteをshift-jisの文字列に変換する

    エンコードの変換には、定番の text.encoding パッケージを使用しますが、code.google.com/p/go.text/encoding パッケージは使わないでください。 去年末 (Go 1.4 に先駆けて) から推奨されるパッケージ名が変わりました。現在では golang.org/x/text/encoding パッケージが使われます。 サンプルコード : package main import ( "fmt" "strings" "bytes" "io" "io/ioutil" "golang.org/x/text/transform" // "code.google.com/p/go.text/transform" // deprecated "golang.org/x/text/encoding/japanese" // "code.google.com/p/go.

    Goで[]byteをshift-jisの文字列に変換する
  • Atom Flight Manual

    CompanyEngineeringProductSunsetting AtomWe are archiving Atom and all projects under the Atom organization for an official sunset on December 15, 2022. January 30, 2023 Update: Update to the previous version of Atom before February 2 On December 7, 2022, GitHub detected unauthorized access to a set of repositories used in the planning and development of Atom. After a thorough investigation, we hav

    Atom Flight Manual
  • utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる

    RailsMySQLのcollationをサーバー側のデフォルトのutf8_general_ciからutf8_unicode_ciにわざわざ変えてるのどうせ大した理由じゃないだろと思って掘ってみたらやっぱり大した理由じゃなかった… https://t.co/6NeetGhTF0— Ryuta Kamizono (@kamipo) April 18, 2014 Railsでcollationとしてutf8_unicode_ci(RailsのDEFAULT_COLLATION)が採用されるのはcharsetが未指定もしくはutf8(RailsのDEFAULT_CHARSET)のときだけで、utf8mb4にすることとかは全く考慮されてない。— Ryuta Kamizono (@kamipo) April 19, 2014 @frsyuki MySQLのcharset utf8のときのデフォルト

    utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる
  • MySQL と寿司ビール問題 - かみぽわーる

    MySQL と Unicode Collation Algorithm (UCA) - かみぽわーる に関連するトピックで、 MySQL には寿司ビール問題というのがある。 寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。 あれ? MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる? SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select

    MySQL と寿司ビール問題 - かみぽわーる
  • バックスラッシュ - Wikipedia

    この項目には、一部のコンピュータや閲覧ソフトで表示できない文字(半角のバックスラッシュや円記号など)が含まれています(詳細)。 バックスラッシュ(英: backslash)、逆斜線(ぎゃくしゃせん)、あるいはリバースソリダス(英: reverse solidus)は、約物の一つで、「 \ 」と書き表される。バックスラッシュとはスラッシュ「 / 」の逆という意味である。ただしスラッシュとは異なり、自然言語ではほぼ使われることのない記号である。 バックスラッシュと円記号 (¥) の問題については、円記号も参照のこと。 歴史[編集] ホイートストン式鍵盤鑽孔機。3列目の最後にバックスラッシュがある。 1966年6月14日以前のASCII文字セットからなるASR-33キーボード配列。Shift+L でバックスラッシュを入力する。 2021年11月現在、起源は特定されておらず、判明している最も古い文

  • 円マークとバックスラッシュ

    文字コードの話題です。発端は「ソースコードのバックスラッシュを円マークに統一していいですか?」という編集の方からのツッコミでした。すっかり、Unicode馴れしていた私は、もはや円マークなんて目にしなくなって数年。HTMLに含める時は、¥ と明示的に書く場面でもなければ、基「バックスラッシュ」がデフォルトになっていました。 改めて「円マーク」で良いのか…と聞かれて、どうも自信が無くなったので、記憶を掘り返してみることに。 SJIS時代は文字コードにそもそもバックスラッシュが含まれず、円マークが代用されていたわけですが、それがUnicodeになりちゃんと分けましょう、という話に当然なります(当たり前!)。そして、円マークには別途「00A5」が割り振られた、という経緯のようです。 ※UTF8の場合、正確には「C2A5」に割り振られます。 Unicode (あるいは Latin 1)

  • 本当はこわいエンコーディングの話 // Speaker Deck

    東京Ruby会議10 で発表したスライド

    本当はこわいエンコーディングの話 // Speaker Deck
  • chardet

    Meta License: GNU Lesser General Public License v2 or later (LGPLv2+) (LGPL) Author: Mark Pilgrim Maintainer: Daniel Blanchard Tags encoding, i18n, xml Requires: Python >=3.7 Chardet: The Universal Character Encoding Detector Detects ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants) Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simplified Chinese) EUC-JP, SHIFT_JIS, CP932, IS

    chardet
    oinume
    oinume 2011/04/12
    文字コード自動検出してくれる
  • MySQLに既に存在するデータベース内部の文字コードを、latin1からutf8に変換する方法。

    MySQL/Rubyのバージョンをあげたら、MySQLから取ってきてたデータが全部文字化けしてたので、なんでかなぁ〜と思ったら... MySQLのデータベース内部のエンコーディングが、latin1になってた(汗 dumpしたSQLを見てる限り、文字コードがUTF-8DBの中に、文字コードをlatin1に指定したテーブルを作っちゃってたらしい...orz MySQLとデータベース自体はEncoding=utf8だったので、どうやら昔のプラグインが悪さしてた? MySQL/Rubyを、Webサーバ上のmysql-configがlatin1(もしくはエンコーディング設定無し)の状態でソースから入れたのが原因かなぁ〜? まぁサーバ環境設定したのが1年以上前なんで、原因ははっきりとは分からずなのですが、ひとまず文字コードを「MySQL文字コードの移行」という記事を手に、MySQL内部のlat

  • emacsで文字コードを指定して開く - PC日記

    emacs で、utf-8のファイルを開くときに、文字コードの判別に失敗することがある。 おぼろげな記憶で、C-u C-x C-f とかで文字コードの指定ができたかな~なんて思っていたのだけれど、できない。 調べてみたら、以下のページが見つかった。 >emacs によるコードの自動判定は、今のところ成功していますが、失敗する >かもしれません。emacs で、buffer-file-coding-system を明示的に与えて >find-file するには、どうすればいいでしょうか? 文字コードを指定して開く C-x RET c 文字コードを入力 RET C-x C-f 開きなおす C-x RET c 文字コードを入力 RET C-x C-v RET だそうです。 おまけ emacs の文字コードの自動判別を助ける方法として、auto-coding-alistやauto-coding-r

  • Meadow2.20-devをXPで使っています。 ときどき、日本語のファイルが化けます。…

    Meadow2.20-devをXPで使っています。 ときどき、日語のファイルが化けます。 「は」が「¥317」などとなります。 EUCのファイルを開いたときなどになるようですが、どういうときにトラブルが起きるかよく分かりません。 修正方法や、どのようなことが起こっているかの説明のあるページがあるとありがたいです。

    oinume
    oinume 2008/02/02
    これだ!!
  • Servlet Garden » Unicode and Character Sets (Translation)

    勉強を兼ねての勝手に翻訳シリーズ第3弾です。今回はJoel Spolsky氏のブログに掲載されていたThe Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)です。掲載されたのは2003年10月と、5年近く前のことなので、現状にそぐわないところもあるかもしれませんが、とても参考になる解説です。 ソフトウェ開発者なら絶対に最低限知っていなければならないユニコードと文字セットについて(言い訳はなしですよ!) 不可解なContent-Typeタグについてかつて疑問に思ったことはないでしょうか?おそらくHTMLファイルに書き込むものということは知ってるでしょうが、なんのためにそれなければいけないのかまでは知ら

  • may_decode('latin1', "...") - Tociyuki::Diary

    これ(↓)ですけど、utf8 フラグの立った文字列に、utf8 が立っていないけど \x80-\xff を含む文字列を連結しようとすると警告が出るのだと思い込んでいました。でも、やってみたら、警告でませんね。う〜む。そういうふるまいだったのか。 ⇒ subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes すでに utf-8 なバイト列を latin-1 と解釈して utf-8 に二重エンコードすることで起きる文字化け(を表現する短い言葉ってないのかな)を直すコード。 で、私はあまのじゃくなので、逆を考えてみました。つまり連結するときに、どういう decode 処理をすれば、latin-1 と utf-8 を共存させることができるのだろうかと。 まずは下調べ。decode、decode_utf8 にどういう文字列を渡すと utf8 フラグが立ち

    may_decode('latin1', "...") - Tociyuki::Diary
  • subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes
  • 文字コード入門

    コンテンツ一覧 インデックスページ←いまここ コンピュータ上での数値の扱い コンピュータで文字を扱うには? ASCIIとJISローマ字 JIS漢字コード:JIS第一・第二水準 JIS補助漢字・第三・第四水準漢字 中国の文字コード 台湾の文字コード Unicode 大規模文字集合 参考資料(書籍) ページを作るにあたって参考にした書籍です。 川俣晶『パソコンにおける日語処理文字コードハンドブック』技術評論社 芝野耕司編『JIS漢字字典』日規格協会 漢字文献情報処理研究会編『電脳中国学』『電脳中国学II』『電脳中国学入門』好文出版 小池和夫/府川充男/直井靖/永瀬唯/『漢字問題と文字コード』 太田出版 1999 安岡孝一/素子『文字コードの世界』 東京電気大学出版局 1999 ユニコード漢字情報辞典編纂委員会編 『ユニコード漢字情報辞典』 三省堂 2000 小林/安岡/戸村/三上編 bi

  • 文字コードの話

    稿は、1996年に筆者が大学の所属サークルの機関誌に寄稿した記事をもとに加筆訂正したものです。(最終更新 1999.7.31) 目次 はじめに 第1章 日語のコード体系 第2章 ASCIIと1バイト文字コード 第3章 JIS漢字コードとエンコーディング法 第4章 ISO 2022 第5章 ISO 2022の実例 第6章 中国語・韓国語の文字コード 第7章 ISO 10646とUnicode おわりに 参考文献 はじめに ASCIIだけで用が足りるアメリカと違って、 私たちは日語を扱わなくてはならないため、 より深く文字コードの問題と関わらざるをえません。 それでも、MS-DOS/WindowsMacを使う限りでは、 ASCIIとシフトJIS(たまにJIS)を知っていれば済みますが、 UNIXやインターネットを使い始めると、 JIS・EUC・シフトJISとさまざまな日語コードに頭を

  • JIS X 0212コード表(全コード) - CyberLibrarian

    JIS X 0212(JIS補助漢字)の表です。JIS補助漢字はすべてUnicodeに収録されており、数値文字参照で記述することができます。ただし、OSやブラウザのバージョンなどの環境によっては、文字化けする可能性があります。別表として、Unicode番号付きの表(4分割)も掲載しています。 02区~11区 非漢字 266字 16区~77区 漢字 5,801字 区 点 JIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 2 0 2220 8FA2A0

  • 1