タグ

文字コードに関するmakoreeのブックマーク (6)

  • 全ての開発者が知っておくべきUnicodeについての最低限の知識

    2003年には「プレーンテキストなんてものは全く存在しない」と言われ、テキストの解読には文字コードの情報が必須となっていました。しかし、2023年になるまでの20年の間に絵文字などのおかげでUnicodeの利用率は98%へと到達し、再び文字コードを気にせずにすむ時代がやってきています。そんな時代において、正しくUnicodeを使うために必要な知識をエンジニアのニキータ・プロコポフさんが解説しています。 The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me https://tonsky.me/blog/unicode/ Unicodeの歴史と利用率の推移をまとめたグラフは下図の通り。2000年代後半から急速に普及が進んでいったこ

    全ての開発者が知っておくべきUnicodeについての最低限の知識
  • 基本4情報での名寄せは難しい|MORIDaisuke

    先日は住所の件でお楽しみでしたね。 私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。 異体字に加えて外字も根深いですし、日付型に収まらない住基の生年月日とか、屋号を含んだ個人事業主の口座名義とか、外国人氏名における住民登録のアルファベットと口座名義のカタカナとの解離とか、旧姓併記の例外処理とか、文字列型に刻まれたバッドノウハウの塊ですね https://t.co/GOaytijfst — Masanori Kusunoki / 楠 正憲 (@masanork) June 6, 2023 このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。 一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。 なお、住所

    基本4情報での名寄せは難しい|MORIDaisuke
  • Perl: 文字コードとutf8フラグについて

    文字コードとutf8フラグ Perl において、「文字コード」と「utf8フラグ」は別物です。文字コードの話の中で utf8フラグが語られるので、同じもののように思っている人も多いかもしれませんが、別物です。いや、たとえば同じものだとしても、別物だと思った方が理解しやすいと思います。 文字コード は文字とコードのマッピングに名前をつけたもので、utf8フラグは、Perlにおける文字列の扱いに付随するフラグのことです。 たとえば、以下のようなソースコードをレガシーな感じに EUC-JP で書いていたとして、 my $euc_str = 'ソースが EUC-JP なのでここは EUC-JP'; $euc_str には EUC-JP の文字列が格納されています。 これを、utf8フラッグド(utf8 flag on)にしてみます。 use Encode; my $euc_str = 'ソースが

    Perl: 文字コードとutf8フラグについて
  • 文字コードと改行コードについて[Apache/CGI/Perl]

    {{tag: go, test, testing, actually }} actually は Go の testing ライブラリです。明示的なインターフェースと一貫性の高いメソッド群、そしてメンテナンスやリファクタリングの際に力を発揮するフェイルレポートを備えています。 [[https://github.com/bayashi/actually ac... つづきを読む

    文字コードと改行コードについて[Apache/CGI/Perl]
  • .htaccessファイルの作り方と設置方法 - [ホームページ作成] All About

    .htaccessとは? .htaccessとは、Apache(アパッチ)と呼ばれるウェブサーバで使える設定ファイルのことです。中身はプレーンテキストなので、テキストエディタを使えば簡単に作成や編集ができます。多くのレンタルサーバなどでも、利用者が何らかの設定を記述する目的に利用されています。 ウェブサーバ上の任意のディレクトリに「.htaccess」というドット記号で始まる特殊なファイル名の設定ファイルを設置しておくと、ウェブサイトに対する様々な設定ができます。例えば、アクセス制限を施したり、IDとパスワードによるユーザー認証機能を用意したり、404や503などのエラー表示をカスタマイズしたり、条件に応じてリダイレクト(自動転送)したりする処理などがあります。 記事では、この便利な設定ファイルである.htaccessファイルの作成方法や書き方の例、アップロード方法、エラーが出た場合の対

    .htaccessファイルの作り方と設置方法 - [ホームページ作成] All About
  • HTML、PHPファイルで文字コードUTF-8使用時の注意点(BOMあり、無し)|PHP工房

    HTMLPHPなどWebで使うファイルはUTF-8がほぼ標準となって久しいですが、扱いには注意点があります。 通常のHTMLだけであれば問題にはならないですが、PHPなどのプログラムが絡むと問題になることがあります。 UTF-8にはBOMあり、BOMなしの2種類があり、 Webで使う.htmlや.phpファイルは基的に BOMなしで保存、上書きする必要があります。 DreamWeaverではデフォルトでBOMなしに設定されているので問題ないですが、TeraPadやメモ帳には以下のような点があるので、UTF-8のファイルを扱う際は注意が必要です。 ※TeraPadはインストールしたままの状態(設定を変更していない)であれば基的に問題ないはずです。 DreamWeaverではデフォルトが以下のようになってるので問題ない。 ※ちなみに以下の画面はファイルを開いた状態で「上部のメニュー」→「

    HTML、PHPファイルで文字コードUTF-8使用時の注意点(BOMあり、無し)|PHP工房
  • 1