タグ

2021年6月14日のブックマーク (2件)

  • UTF-8のBOM付き・BOM無しの違いと確認方法

    文字コードの一種であるUnicodeにはBOM無しとBOM付きの2種類が存在します。BOMはバイトオーダーマーク(byte order mark)の略で、Unicodeで符号化したテキストの先頭に付与される数バイトのデータのことです。 今回はUTF-8のBOM付き・BOM無しの違いと確認方法について紹介します。 BOM付き・BOM無しの違いについて プログラムがテキストデータを読み込む際に先頭の数バイトによりUnicodeのデータであることやどの種類の符号化形式を採用しているのかを判別しています。BOM付きのUTF-8であれば先頭の3バイトがBOMであり、<0xEF 0xBB 0xBF>というデータになります。 Microsoft ExcelなどのアプリケーションによってはBOM付きでなければ符号化方式がUTF-8なのかUTF-16なのか、またはUTF-32なのか、あるいはまったく別の文字

  • 全国民に配るべき!総務省が示した「データ入力の統一ルール」|Excel医ブログ

    2020年12月、総務省より 【機械判読可能なデータの表記方法の統一ルール】が策定されました。 統計表における機械判読可能なデータの表記方法の統一ルールの策定 https://www.soumu.go.jp/menu_news/s-news/01toukatsu01_02000186.html 2020年11月に河野太郎 行政改革担当大臣のツイートが話題となりました。 その後正式に統一ルールが公開された形です。 各省庁がネット上で公開する統計を機械判読可能にするために、データの表記方法を統一させます。「政府統計の総合窓口(e-Stat)」で日から12月1日までの間、表記方法案に関する意見照会を行います。研究者をはじめ、皆様のご意見をお待ちしています。https://t.co/h07tCTDazc — 河野太郎 (@konotarogomame) November 25, 2020

    全国民に配るべき!総務省が示した「データ入力の統一ルール」|Excel医ブログ