[B! unicode][文字コード] zaki1010のブックマーク

zaki1010 id:zaki1010

unicodeと文字コードに関するzaki1010のブックマーク (15)

「メモ帳」に多数の改善、BOMなしUTF-8がデフォルト保存形式に～「Windows 10 19H1」／新しいショートカットキーや長いパスへの対応なども魅力
zaki1010 2022/04/24
文字コード

unicode

windows
リンク
バイト順マーク - Wikipedia
バイト順マーク (バイトじゅんマーク、英: byte order mark) 、バイトオーダーマークあるいはBOM（ボム）は、Unicodeの符号化形式で符号化したテキストの先頭につける数バイトのデータ。元にUnicodeで符号化されていることおよび符号化の種類の判別に使用する。概要[編集] プログラムがテキストデータを読み込む時、その先頭の数バイトからそのデータがUnicodeで表現されていること、また符号化形式（エンコーディング）としてどれを使用しているかを判別できるようにしたものである。[1] 経緯[編集] Unicodeが開発された当初は、アメリカではASCII、ヨーロッパなどではISO-8859、日本ではShift_JISやEUC-JPといった他の文字コードが主流であり、使用されている符号化方式がUnicodeのものであることを明示する必要があった。また、Unicodeの符号化
zaki1010 2022/04/24
文字コード

unicode
リンク
CSVファイルを読み込むときはBOM付きUTF-8に気をつける - Pepabo Tech Portal
EC事業部エンジニアのharashoです。この記事はEC事業部ブログリレーの13日目の記事で、12日目は@ku00さんによるカラーミーショップの一機能をAngular Elementsで実装しましたでした。タイトルがこの記事の結論になりますが、私が遭遇したCSVファイルの読み込み処理で起きた不具合と原因、対応方法について書きます。 CSVファイルの読み込み処理で起きた不具合不具合の原因 BOMについて対応方法: BOMを取り除くおわりに CSVファイルの読み込み処理で起きた不具合私が開発に携わったカラーミーリピートの一括発送アプリには、注文に対する発送リストをCSVファイルから一括登録して、発送処理を行う機能があります。以下はその機能の簡単な流れと、CSVファイルのイメージです。
zaki1010 2022/04/24
文字コード

unicode
リンク
blog-entry-1080.html
こんにちは、さちです。ウェブサイトの制作では、文字化け防止のため文字コードを「UTF-8」にするのが一般的。よーし！　「UTF-8」でサイト作っちゃうぞー！　ファイルを「UTF-8」で保存すればいいだけでしょ？えっ、「BOM」？　何それ意味分かんないんだけど……。「BOM」ってなに？テキストファイルによく使われる文字コード「UTF-8」には、「BOM」という仕組みがあります。「BOM」とは、「バイトオーダーマーク（Byte Order Mark）」の略で、ファイルの文字コードが「UTF-8」であることを示します。（バイナリの先頭に付いてる「EF BB BF」が BOM）簡単に言うと、「UTF-8 で文字を書いたよ」と PC に知らせるものです。「BOM」を付ける／付けないは任意なので、テキストエディタによっては保存時にその選択ができます。（画像は「Mery」の保存画面）
zaki1010 2022/04/24
文字コード

unicode
リンク
BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2)
かつてWindowsでテキストファイルといえばシフトJIS形式のものが大半だった。しかし最近では、UTF-8形式のテキストファイルも普通に見かけるようになってきた。世の中はUTF-8が主流になりつつあると言っていいだろう。しかし、WindowsでUTF-8を使うと、ちょっと困ったことがある。それは、エクスプローラーの検索欄などで用いるWindows Searchが、UTF-8にはしっかり対応していないのである。正確に言うと、Windows Searchはファイル先頭に「BOM」のあるUTF-8は認識して正確にインデックス化し、ファイルの全文検索が可能になるが、BOMのないUTF-8では正しくインデックス化できず、ファイルの全文検索はASCIIコードのみ可能で、日本語などの非ASCII文字では全文検索ができない。同じ内容のテキストをUTF-8、UTF-8 BOM付き、UTF-16ビッグエ
zaki1010 2022/04/24
文字コード

unicode
リンク
Windows と日本語のテキストについて - Windows Blog for Japan
すべての Microsoft 製品 Global Microsoft 365 Teams Copilot Windows Surface Xbox セール法人向けサポートソフトウェア Windows アプリ AI OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入するアクセサリ VR & 複合現実エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム映画とテレビ番組法人向け Microsoft Cloud Microsoft Security Azure Dynamics 365 一般法人向け Microsoft 365 Microsoft Industry Microsoft Power Platform W
zaki1010 2020/02/21
日本語

文字コード

unicode

windows
リンク
Unicode 12.0正式版が登場。日本語では小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が追加。新元号が発表され次第、次の12.1で新元号キャラクタを追加
Unicode 12では4つの言語（script）、554種類の文字が追加されました。これによりUnicodeに収録されている言語は150、文字は13万7292種類になりました。追加された文字には日本語の文字が7種類、小さな文字としての「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が含まれています（通常の大きさの文字は以前からありました）。これらは古い文書を記述するために使われるとされています。そのほか、現在のイラン南西部に存在したアケメネス朝で使われていたアラム語のElymaic文字。南インドのサンスクリット語、カンナダ語で使われていたNandinagari文字。ラオス、タイ、ベトナム、フランス、オーストラリア、カナダ、米国などで使われていた現代White Hmong語、Green Hmong語のNyiakeng Puachue Hmong文字。インド、ミャンマー、ブータンの現代Wanc
zaki1010 2019/03/07
unicode

文字コード
リンク
【山田祥平のRe:config.sys】さよならシフトJIS、主なしとて春な忘れそ - PC Watch
zaki1010 2018/12/14
Excelもxmlファイル上ではUTF-8なのに、csvで保存するとShiftJISになるのホント困る。

文字コード

unicode

windows
リンク
文字エンコーディングを変換するとき、対応していない文字を数値実体参照に変換する - Qiita
参考: 神名地名難読漢字・ユニコード対照表この投稿では、この処理を実現する方法について紹介します。前提知識:対応していない文字とは? 世界には様々な文字が存在し、それをコンピュータで扱う場合は対応する数値に変換する必要があります。この、数値に変換するときのルールがいわゆる文字コードで、この投稿でいうところの「文字エンコーディング」です。このルールには様々な方式があります。例えばUTF-8やShift_JIS、EUC-JP、JIS(ISO-2022-JP)など。これ以外にも、Big5、GBK、US-ASCIIなど、様々です。このルールは、Unicode(後述)が登場するまでは国ごとにバラバラで、自国の文字を表示するために新しいルールを作ったり、既存のルールを拡張したりしていました。そしてこのルールを作る時、データ量を減らすため、また文字の処理を容易にするために対応する文字の数を
zaki1010 2018/08/08
文字コード

unicode

tips
リンク
UTF-8からSJISに文字化けすると糸偏の漢字がよく出てくる - Qiita
はじめに Twitterで、文字化けネタを幾つかつぶやきました。サッちゃんはねサチコっていうんだほんとはねだけどちっちゃいから自分のこと SJISで保存するんだよおかしいな繧ｵ繝ちゃん — ロボ太 (@kaityo256) 2017年10月10日「私魔女のキキです。こっちはSJISの繧ｸ繧ｸ」 — ロボ太 (@kaityo256) 2018年1月6日 UTF-8「もしかして…」 SJIS「私達…」「「入れ替わ縺縺ｦ繧九≦縲懶ｼ†」」 — ロボ太 (@kaityo256) 2018年2月13日どれもUTF-8で保存された文字をSJISとして解釈したための文字化けを表現したものですが、パッと見で「糸偏の漢字が多いな」ということがわかるかと思います。なぜそうなるかを簡単に説明してみようと思います。なお、文字コードはいろいろ面倒なので、ここではざっくりとしたことしか言い
zaki1010 2018/02/16
文字コード

日本語

unicode
リンク
プレス発表　「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了：IPA 独立行政法人情報処理推進機構
IPA（独立行政法人情報処理推進機構、理事長：富田達夫）国際標準推進センターは、2010年9月から推進していた「文字情報基盤整備事業」において、漢字6万文字の国際規格化が完了したことを発表します。これは、ISO（国際標準化機構）より文字コード国際規格の第5版の発行を受けてのことです。 IPAでは、内閣官房IT総合戦略室、経済産業省と共に、「文字情報基盤整備事業」を2010年9月より推進してきました。この事業は、行政の実務で求められる人名や地名等の正確な表記をコンピュータで可能にするため、約6万文字の漢字について、文字フォントの整備や文字コードの国際規格化等を行ってきたものです。なお、国際規格化にあたっては、一般社団法人情報処理学会情報規格調査会SC2専門委員会と連携し、順次進めてきました。 12月22日（日本時間）、文字コード国際規格書の最新版である、ISO/IEC 10646 (U
zaki1010 2017/12/25
IPA

日本語

漢字

文字コード

unicode
リンク
コンピューターで全漢字使用可に６万字コード化 | NHKニュース
日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。このためＩＰＡ＝情報処理推進機構は平成１４年から、経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進め
zaki1010 2017/12/25
日本語

漢字

文字コード

unicode
リンク
絵文字がある種のUnicodeバグを世界から一掃しつつある件について｜Rui Ueyama
UnicodeのUTF-16エンコーディングではほとんどの文字（コードポイント）は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語
zaki1010 2017/11/13
文字コード

unicode

絵文字

歴史

programming
リンク
JavaScriptでのサロゲートペア文字列のメモ - Qiita
I. UnicodeとJavaScript文字列の前提知識 I-I. Unicodeのエスケープシークエンスで文字列を表す "\uXXXX"形式の4桁の16進数で表す // シングルクォートとダブルクォートの差はない "\u3042"; // => "あ" '\u3042'; // => "あ" // 正規表現リテラルでも表現可能 /\u3042/.test('あ'); // => true
zaki1010 2017/10/06
javascript

文字コード

unicode

tips
リンク
「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。意味論的に等価な異なる字形の集合同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ
zaki1010 2017/03/13
文字コード

font

日本語

unicode
リンク
1