[B! 文字コード] delegateのブックマーク

Goの標準のutf8.RuneStart関数がエレガントすぎる

先日以下の記事を書きました。ここでUTF-8の最初の文字かどうかの判定を以下の自作した関数で実装していました。 const ( t1 = 0b00000000 tx = 0b10000000 t2 = 0b00000110 t3 = 0b00001110 t4 = 0b00011110 ) func isUTF8LeadByte(tmp byte) bool { if tmp&tx == t1 { return true } tmp >>= 3 if tmp == t4 { return true } tmp >>= 1 if tmp == t3 { return true } tmp >>= 1 if tmp == t2 { return true } return false }

delegate 2024/05/20

リンク

アイヌ語仮名「ㇷ゚」に対する正規表現の罠

導入アイヌ語は日本語と異なり、閉音節（子音で終わる音節）も存在するので、表記の際音素文字であるラテン文字なら、そのまま p, t, k, m, n, s, r などの子音文字を後ろの付ければ良いわけなので、アイヌ語ローマ字表記では、何も問題が生じない。しかし、元々開音節言語である日本語に特化したカタカナのような仮名文字で表記する際、鼻音 n は「ン」でなんとかなる（実はそれでもまずい事になっているけどここでは割愛する）が、p, t, k, m, n, s, r, h はどうしようもないので、特殊の捨て仮名（小書き仮名文字）を利用することになっている。具体的には以下のような特殊仮名文字（通称　アイヌ語仮名）である。ㇷ゚ -p ッ -t ㇰ -k ㇺ -m ㇱ -s ㇻ -(a)r, ㇼ -(i)r, ㇽ -(u)r, ㇾ -(e)r, ㇿ -(o)r お分かり頂けただろうか… 問題 r

delegate 2023/09/01

リンク

JavaScript における文字コードの初歩 - 30歳からのプログラミング

この記事では、 JavaScript で文字コードを扱う際に知っておくべき概念である Code Point や Code Unit、サロゲートペア、といったものについて説明していく。また、具体的にそれらの概念を使ってどのようにコードを書いていくのかについても扱う。この記事に出てくるコードの動作確認は以下の環境で行った。 Deno 1.26.0 TypeScript 4.8.3 Code Point （符号位置）プログラムで文字を表現する方法は複数あるが、 JavaScript では Unicode という方法を採用している。 Unicode ではあらゆる文字に対して一意の値を割り振ることを目的としており、この値のことを Code Point （符号位置）という。 Code Point は 16 進数の非負整数で、文章中で表記するときは接頭辞としてU+をつける。例えばAという文字の

delegate 2022/10/24

リンク

Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ

Pythonがファイルを開くときなどに使われるエンコーディングはロケール（WindowsではANSIコードページ）依存でした。 Unixの世界ではどんどんUTF-8ロケールが一般的になっている一方、WindowsのANSIコードページはなかなかUTF-8になりません。そのために、Unixユーザーが open(filepath) のようにエンコーディングを指定しないままUTF-8を仮定するコードを気軽に書いてしまって、Windowsユーザーがエラーで困るといった問題が発生します。また、Windowsでもメモ帳（Notepad.exe）やVSCodeはすでにUTF-8をデフォルトのエンコーディングで使用しています。ANSIコードページがUTF-8になるのを待っていたらどんどん周りの環境から置いていかれ、レガシー化してしまいます。 Pythonがデフォルトで利用するエンコーディングをWind

delegate 2022/04/27

リンク

(プログラマのための)いまさら聞けない標準規格の話第2回文字コード実践編 | オブジェクトの広場

プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第2回は文字コードの実践編です。 0. 前回の復習と今回の概要システム開発で必要となる標準規格の話、前回は文字コードの概要について説明しました。ざっくりまとめるとこんな内容でした。「符号化文字集合」で文字集合と符号位置を定義し、「符号化方式」でバイト表現に変換していること。日本では、しばらく文字集合 JIS X 0208 を、ISO-2022-JP、EUC-JP、Shift_JIS の符号化方式で利用してきたこと。近年は、世界中の文字が扱える Unicode が主流となっており、UTF-8、UTF-16 などの符号化方式があること。常用漢字、人名用漢字に限っても、字体を正確に扱おうとすると、JIS X 0208 の範囲では不十分であり、JIS X 0213、Unicode、サロゲートペ

delegate 2022/02/03

文字コード

リンク

Windowsでちょっと文字コードを調べたいときの方法 (1/2)

Windows PowerShellを使えば、文字コードを簡単に調べることができる。パターンさえ覚えれば、プログラミングの知識は不要で、アプリを別途インストールする必要もないコンピュータを使っていると、文字コードを調べなければならないことがある。昔なら文字コードは8bitしかなかったので、ASCIIコード表からすぐだったが、現在は多数の言語の文字を収録したUnicode（ユニコード）が一般的なので、一覧表から調べることは難しい。文字1つぐらいならインターネット検索でもなんとかなるが、2つ、3つとなると面倒だ。かといって、文字コードを調べるソフトウェアを探してインストールするのもまた面倒。こういうときには、Windowsの標準機能を使うといい。 Windowsには、「文字コード表」というプログラムもあるが、一覧から文字を探して、そのコードを表示することはできるが、文字そのものから直接コー

delegate 2021/11/22

リンク

(プログラマのための) いまさら聞けない標準規格の話第1回文字コード概要編 | オブジェクトの広場

プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第1回は文字コードの概要編です。 0. はじめに業務システムを開発する場合、プログラミング言語、フレームワーク、ミドルウェア、業務知識など以外に、共通で必要となる知識があります。文字コード、国際化、日付・時刻の扱い、住所コード、郵便番号、電話番号などの各種コード、…。本連載では、プログラマがシステム開発で必要となる、技術と業務の狭間の共通知識を解説して行きたいと思います。連載第1回は文字コードの概要編です。コンピュータシステムにおいて、文字情報は文字コードを用いて処理されます。文字コードとは、各文字に対応付けられた数値 (符号) のことです。近年、新規に開発される業務システムでは Unicode が使われることが多いと思いますが、既存システムとの連携など他の文字コードが使用されることもまだま

delegate 2021/07/15

文字コード

リンク

文字列を反転させたい｜nona

こんにちは。徒然なるままにTweetを眺めていたら、Tanakaさんがこのようなことを呟いていました。そういやRustのStringにreverseメソッドないなと思ったけど、まあよく考えたらUTF-8で文字逆転させるとか地獄のような話になるしそもそも長さが変わるケースとかあったりしそうで怖いわな･･･(´･_･`) — Hideyuki Tanaka (@tanakh) May 1, 2021 背景等はよくわからないですが、文字列の反転というのは確かに難しい問題ですし、どう難しいのかというのを、ちょっと真面目に考えて解説してみました。というノートです。本文での表記についてこれから文字とそのバイト表現の話をしていきます。文字のエンコードの方式で同じ数値でも色々意味が分かれてしまいますので、本文では以下のように表記することにします。 Unicodeコードポイント（以下、単にコードポイント

delegate 2021/05/03

リンク

文字コード地獄秘話第2話：聖母マリアよ、二人を何故別々に？ | ALBERT Engineer Blog

はじめに二人を最初から一つにしておけば、何も問題など起こらなかったのだ。一つのものを二つに分けたその時から、長い物語が始まる。おや？また会いましたね。どうも、文字コードおじさんです。もう半年近くも前になりますが、前回の投稿はだいぶ反響があったようで驚いております。ありがとうございます。今回も文字コードネタですが、Unicodeにおける結合文字列を取り上げてみようと思います。高度に発達した文字コードは地獄と見分けがつかない次の画像はTwitterの投稿フォームですが、おかしな点があります。わかりますか？そうです。4文字しか入力していないはずなのに 5文字分とカウントされていますね。おかしいと思いませんか？あなた？改行とかスペース入れてるんじゃねーだろうな？とか言わないで下さいね？さらに次の画像を見てみてください。こちらは4文字とカウントされていますね。先のものとは一体

delegate 2021/03/17

リンク

本当は怖い文字コードの話記事一覧 | gihyo.jp

delegate 2020/12/25

文字コード

リンク

７.２ ASCII の NUL と DEL の本来の意味 - 文字コードに関する覚え書きと実験

文字コードについて調べたことや実験したこと，テストプログラム，データファイルなどを随時掲載する予定です．ただし筆者の理解不足や誤解により誤りがあるかもしれませんので，ご利用は自己責任で．このページの主な更新は Blog でお知らせします．表示確認ブラウザ：FireFox 22.0，IE8．０．目次シフトJIS Shift_JIS と Windows-31J (CP932) の違いシフトJIS ２バイト文字の判定謎の検索ワード集 (シフトJIS編) 「Shift_JIS(SJIS，Windows-31J，CP932) ３バイト文字」「Shift_JIS(SJIS，Windows-31J，CP932) サロゲート(ペア)」「UTF-8 4バイト文字 Shift_JIS(SJIS，Windows-31J，CP932) 変換」「Unicode(UTF-8，UTF-16) か

delegate 2020/12/23

文字コード

リンク

Visual C++における文字コード変換 - C++と色々

前提環境日本語版WindowsかつVisual C++の環境の話です*1。Windows以外のOSや非日本語のWindows、Visual C++以外のコンパイラは当てはまりません。用語ここでは char const* の文字列や char の文字 std::string で表現されるマルチバイト文字(列)をまとめて string と表現します。また、 wchar_t const* の文字列 wchar_t の文字、 std::wstring で表現されるワイド文字(列)をまとめて wstring と表現します。文字列と文字を区別すると文章が長くなるため一律文字と表現します。内部表現前述の環境において、stringの内部表現にはShift_JISが使われています。また C++11で入ったUTF-8リテラルの型にもstringが使われています。つまりstringにはShift_J

delegate 2020/08/17

リンク

UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま

Shift_JIS の CSV で連携する外部サービスがあり、DB では UTF-8 でテキストを持っていたため文字コードを変換する必要が生じた。ところが UTF-8 に存在する多くの文字は Shift_JIS に対応がないため変換することができない1。そこで、事前に NFKC 形式で Unicode 正規化することで変換可能な文字を増やすことを試みた。まずは Unicode 正規化の前提として、Unicode の正準等価と互換等価について説明する。以降の U+16進数という表記は Unicode のコードポイント (文字に ID のようなものが割り当てられている) を示す。また、コードポイントに対応する文字の詳細は https://codepoints.net/ といったサイトで確認することができる。正準等価例として、ひらがなの「が」について考える。Unicode では「

delegate 2020/08/06

リンク

本当は怖くないCP932 - Qiita

先に結論 CP932 は、Shift_JIS の独自実装符号化文字集合がいろいろ拡張されている拡張文字の有無で、Shift_JIS と判別可能 CP932ってなあに? 実はいろいろある Microsoftコードページ932 IBMコードページ932 PC-9800仕様OEMコードページ932 Windows-31J(MS932) Microsoftコードページ932 Microsoftが、MS-DOS 用に作った Shift_JIS の実装 IBMコードページ932PC-9800仕様OEMコードページ932 IBM、NECが作った、Microsoftコードページ932 の拡張 Windows-31J(MS932) Microsoftが互換性確保の為に、IBM、NECの拡張を吸収した、Windows 用の CP932 CP932 といったらほぼほぼこれを指す MS932 は、Java で

delegate 2020/07/21

リンク

文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！｜ハイクラス転職・求人情報サイト AMBI（アンビ）

文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基本的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。文字コードとは？ Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み

delegate 2020/04/28

文字コード

リンク

Unicodeと、C#での文字列の扱い

進化の過程で煩雑な文字コード体系になっているUnicodeは、プログラミングでの取り扱いが面倒だ。C#とUnicodeの関係はどうなっているのか？ C#が抱える課題とその解決策について見てみよう。 ← 前回連載 INDEX 前編では、文字コード、そしてUnicodeがこれまでにどのような進化の道程を歩んできたかを見た。そこで説明したように、文字コード自体が結構な複雑さになっている。当然、プログラミング言語における文字列の扱いにも面倒が付きまとう。後編である今回は、C#のstring型がどういう実装になっているかや、現状抱えている課題、それに対して検討している解決策などについて説明していく（以下、文字コードは全て16進数で表記する）。文字列型まずは、プログラミング言語内部での文字列の扱いについて話そう。Unicodeの歴史で話した通り、もともと、Unicodeは2Bytes固定長の文

delegate 2020/02/20

リンク

MySQL と寿司ビール問題 - かみぽわーる

MySQL と Unicode Collation Algorithm (UCA) - かみぽわーるに関連するトピックで、 MySQL には寿司ビール問題というのがある。寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。あれ？ MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる？ SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select

delegate 2016/01/25

リンク

MySQLの文字コードをutf8mb4に変更 - Qiita

delegate 2015/10/16

リンク

mysqlで文字コードをutf8にセットする - Qiita

mysqlの文字コードはチェックする場所が多いので原因を突き止めるのに毎回苦労します。大きく二種類に分けられて、クライアント側、サーバー側（mysqlサーバー）、及びそれらの接続の文字コードデータベース/テーブル/カラムの文字コードです。デフォルトをきちんと設定しておくそもそも作成したDBの文字コードが意図しない設定になっていたら、デフォルトの設定が間違っている可能性が高いので、再度同じ問題を起こさないためにも、設定見直し→DBをdrop→DBをcreateという順番で直しに行きます。 1も2もデフォルトの設定は下記を実行すればok。 +--------------------------+----------------------------+ | Variable_name | Value | +--------------------------+-----------

delegate 2015/10/16

リンク

mysql に 4バイトutf8 の文字を入れたい

MySQL に iOS の絵文字など、4バイトUTF-8 の文字を入れると、そこで途切れるという現象がありました。残念ながら発生したサーバの MySQL バージョンは5.1系でバージョンアップせずに対応したのですが、最近構築したサービスイン前のサーバは5.5系だったので設定してみました。 ■設定内容 1. 文字コードを utf8 → utf8mb4 に変更 2. skip-character-set-client-handshake を設定 ■詳細 1. 文字コードを utf8 → utf8mb4 に変更 MySQLの UTF-8 は4バイトに対応していません。ですが、絵文字や中国漢字、日本語でも特殊漢字などは4バイトが含まれています。詳しくはこちら↓ iOS の絵文字（4bytes UTF-8）が入った文字列を MySQL に INSERT/UPDATE すると絵文字以降の文字がぶ

delegate 2015/10/16

リンク

はてなブックマーク

タグ

関連タグで絞り込む (36)

文字コードに関するdelegateのブックマーク (38)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス