タグ

encodingに関するlizyのブックマーク (31)

  • C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita

    C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方 当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。 お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - cpprefjp C++語リファレンス 追記 全ての開発者が知っておくべきUnicodeについての最低限の知識 - GIGAZINE Unicodeについて簡潔にまとまってるいい記事を見つけました。 Caution この文章には以下の要素が含まれます。苦手

    C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita
  • MySQLの文字コード事情 2017版

    10. 文字集合文字集合 US-ASCII 数字、英字、32個の記号 JIS X 0201 US-ASCII(「」→「¥」/「~」→「‾」)+カタカ ナ JIS X 0208 数字、ひらがな、カタカナ、漢字、ラテン文字、 ギリシャ文字、記号等々 JIS X 0213 JIS X 0208 + 第三水準/第四水準、ローマ数字、 鼻濁音文字等々 11. 文字集合文字集合 Windows-31J JIS X 0201 + JIS X 0208 + NEC特殊文字 + IBM 拡張文字(「⑧」「Ⅷ」「㈱」「髙」「﨑」「彅」 等) Unicode 世界中の文字。絵文字(「�����������������」「�������������������」等)も含む。

    MySQLの文字コード事情 2017版
  • 開発者向けUnicode FAQ--もう知らないではすまされない - builder by ZDNet Japan

    クラウドネイティブの実現 モダンインフラの構築・運用の課題解決へ コンテナの可能性を広げるVMware Tanzu DX時代のアプリケーションセキュリティ 未来革新プロジェクトに邁進するSOMPO 基幹システムのモダナイゼーションに迫る VMware 渡辺氏に聞く 顧客のデジタル変革のために 自らも改革を続けるヴイエムウェアの戦略 日清品グループのDX(前編) 現場が主役のDXのススメ トップの強い意思で変革に弾み Microsoft 365のデータは安全か? クラウド型アプリを採用する企業のための 包括的なデータ保護のありかたを解説 ともにDXを推進する コンテナ化されたワークロードを管理 継続的な価値を生みだす「協創」への挑戦 ITインフラ運用からの解放 HCI+JP1による統合運用による負荷激減で 次世代IT部門への役割変革へ一歩前進 エンドポイントセキュリティの転機 情報セキュリ

    開発者向けUnicode FAQ--もう知らないではすまされない - builder by ZDNet Japan
  • いいから聞け! 俺が文字コードについて教えてやるよ その1(前提知識編) - 谷本 心 in せろ部屋

    ちょっと久々のJavaネタですが、 前から書き溜めていた、文字コードやエンコードについてのノウハウを書きます。 今回は、詳細な説明に入る前に、前提になる知識や用語について説明しておきます。 文字コードとエンコードって違うの? 新人くん「では、HTMLの文字コードはUTF-8でお願いします」 先輩社員「文字コードじゃなくてエンコーディングでしょ?」 新人くん「えっ。あぁ、はい、それで」 文字コードとエンコード(エンコーディング)を混同して使ったりすると、 ちょっと原理主義的な人に怒られたりするんですけど、 大まかに言えば、「文字コード」は文字に割り当てられた「数字」のことで、 「エンコード」は文字と数字をマッピングする「方式」のことだと捉えていれば、大きくは外れません。 ただ、「文字コード」という言葉は、「数字」「方式」の両方で使われるほか、 文字一覧を示す「Charset」という意味で使わ

    いいから聞け! 俺が文字コードについて教えてやるよ その1(前提知識編) - 谷本 心 in せろ部屋
  • 文字コードに起因する脆弱性とその対策

    4. 徳丸浩の自己紹介 • 経歴 – 1985年 京セラ株式会社入社 – 1995年 京セラコミュニケーションシステム株式会社(KCCS)に出向・転籍 – 2008年 KCCS退職、HASHコンサルティング株式会社設立 • 経験したこと – 京セラ入社当時はCAD、計算幾何学、数値シミュレーションなどを担当 – その後、企業向けパッケージソフトの企画・開発・事業化を担当 – 1999年から、携帯電話向けインフラ、プラットフォームの企画・開発を担当 Webアプリケーションのセキュリティ問題に直面、研究、社内展開、寄稿などを開始 – 2004年にKCCS社内ベンチャーとしてWebアプリケーションセキュリティ事業を立ち上げ • その他 – 1990年にPascalコンパイラをCabezonを開発、オープンソースで公開 「大学時代のPascal演習がCabezonでした」という方にお目にかかること

    文字コードに起因する脆弱性とその対策
  • 第32回 Encode:日本語だけ扱えればよいのではなく | gihyo.jp

    一般的には推奨されないencodingプラグマ 前回取り上げたencodingプラグマは、簡単なjperl用のスクリプトを移植したい場合には便利ですが、perlunifaqというPerl付属のマニュアルにははっきり「Don't use it.」と書いてあるくらい、一般的には使えないプラグマと認識されています。 前回も見たように、encodingプラグマが対応しているのは、ソースコードに埋め込まれている文字列やそれに類する正規表現、そして標準入力からのデータを指定された文字コードからPerlの内部表現に変換し、標準出力へ出力する際には内部表現を指定された文字コードに変換することだけです。ほかのファイル入出力部分や、コマンドラインから受け取った引数、標準エラー出力などの変換は行わないので、ちょっと凝ったことをしようと思うと、結局「外から入ってきたものはデコード、外に出すものはエンコード」という

    第32回 Encode:日本語だけ扱えればよいのではなく | gihyo.jp
  • 404 Blog Not Found:perl - Encode 入門

    2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門 すでにOSCONでもYAPCでも、あちこちそちこちでこの基方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改め だまってコードを書けよハゲ 入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです!とにかくこの基方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

    404 Blog Not Found:perl - Encode 入門
  • るびま

    『るびま』は、Ruby に関する技術記事はもちろんのこと、Rubyist へのインタビューやエッセイ、その他をお届けするウェブ雑誌です。 Rubyist Magazine について 『Rubyist Magazine』、略して『るびま』は、日 Ruby の会の有志による Rubyist の Rubyist による、Rubyist とそうでない人のためのウェブ雑誌です。 最新号 Rubyist Magazine 0058 号 バックナンバー Rubyist Magazine 0058 号 RubyKaigi 2018 直前特集号 Rubyist Magazine 0057 号 RubyKaigi 2017 直前特集号 Rubyist Magazine 0056 号 Rubyist Magazine 0055 号 Rubyist Magazine 0054 号 東京 Ruby 会議 11 直

  • Perl 5.8.x Unicode関連

    -> 趣旨と注意書き -> UTF8フラグ? -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル 趣旨と注意書き Perl 5.8.x のUnicode 関連です。 正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。 使ってみると、よくわかんなくなったので、ちょっとまとめてみました。 今でもあんまりわかってないかもしれないので、内容は無保証です。 突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

  • Snow LeopardのMailはUTF-8のメールを量産する - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    Apple Mail(Mail.app)がcharset=ISO-2022-JPのメッセージを表示する際の変換テーブルが、おかしい。 WindowsMacでは、JIS X 0208に含まれる文字の範囲において、下図のようなUnicodeマッピングの相違が存在する。たとえばWindowsはJIS X 0208の1区33点「〜」(波ダッシュ)をU+FF5E FULLWIDTH TILDEと解釈し、Macは同じ文字をU+301C WAVE DASHと解釈する。 ところがMac OS X 10.6 Snow LeopardのMail 4.1(1076)は、Apple製の(そしてもちろんMac専用の)アプリケーションであるにもかかわらず、上図のすべての文字について、Windows側のマッピングによってcharset=ISO-2022-JPのメッセージを解釈する。 その一方でMailは、「Unico

    Snow LeopardのMailはUTF-8のメールを量産する - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • perl - use utf8; #って何だ? : 404 Blog Not Found

    2009年06月15日07:00 カテゴリLightweight Languages perl - use utf8; #って何だ? id:otsuneに建設予定フラグがたてられていたので。 冬通りに消え行く制服ガールは、夢物語にリアルを求めない。 - subtech Perl の utf8 関係が未だ全く理解できない。わからないことがわからないので整理 use utf8はいつフラグをたてるか use utf8 しててもフラグたたないことがある…… これは、以下の実例を見ていただくのが一番よいだろう。 #!/usr/bin/perl use strict; use warnings; use utf8 (); sub check_flag{ my $str = shift; print qq("$str" ), utf8::is_utf8($str) ? 'is' : 'IS NOT',

    perl - use utf8; #って何だ? : 404 Blog Not Found
  • Mercurial/日本語ファイル名、日本語コミットログ関係 - TOBY SOFT wiki

    はじめに † WindowsでTorotoiseHg 0.7とMercurial 1.2でのお話。 何故かデフォルトではエンコードを考慮してくれません。 Subversionみたいにコンバートしてくれないので、 WindowsでCP932(≒SJIS)のファイル名を突っ込むと、そのままリポジトリに入るので他の環境では化け化けになってしまいます。 コミットログも同様?みたいです。 勘違いしてました。今まで日語ファイル名はそもそも駄目だったみたいです。 リポジトリにUTF-8でファイル名を入れるためのhg-fixutf8拡張が必要な模様。 どちらにせよ、日語ログ、日語ファイル名を扱う時は対処が必要です。 一人でも対処していない人がいるとリポジトリに異物が混入されてしまうようです。 ※このページの内容はまだかなり混沌としています。自分で実験して試されることをオススメします。 ちなみに、この

  • Mercurialを文字化けさせないTIPS - それマグで!

    Mercurialは便利な分散バージョン管理システムです。結論から言うと、『Mercurialは設定すれば日語が化けない。』すごくすてき。 日語が化ける箇所 コミットメッセージ ファイルの内容 ファイル名 mecurialの場合 コミットメッセージ とくに何もしなくても、Unicodeで保存されてUtf-8になるみたい。便利だね。 ファイルの内容。 保存時の文字コードで保存される。 ファイル名 Windowsでの日語ファイル名はCP-932で構成。しかし、Ubuntu/MacはUtf8で出来ている。つまり、ファイル名は、文字化けが起きる。 ファイル名文字化けを防ぐ 文字化けを防ぐ方法は、環境を限定すること。Windowsだけで使う。Ubuntuだけで使う。 これは不便すぎる。 不便すぎるから、何とかしたいです。つまりWindows環境ではCo/Ci時にファイル文字コードを修正したい。

    Mercurialを文字化けさせないTIPS - それマグで!
  • 第4回 UTF-8の冗長なエンコード | gihyo.jp

    今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1~4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U+0000からU+007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C(\⁠)⁠、0x2F(/)などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。 表1 UTF-8でのビットパターン

    第4回 UTF-8の冗長なエンコード | gihyo.jp
  • 第4回 Ruby M17N 事始め:文字コード編 | gihyo.jp

    はじめに 今回は文字列を扱う際には忘れてはならない文字コードについて、日人が知っておくべきエンコーディングを中心に解説していきます。 US-ASCII ASCIIは、ASA(American Standards Association、のちにUSASIを経てANSI)によって、1963年6月17日にASA X3.4-1963として制定され、1967年7月7日にUSASI(United States of America Standards Institute、ASAから1966年8月24日に改組)によってUSAS X3.4-1967へと改訂されてほぼ現在の形となりました。 その後の多くの文字コードがASCIIのスーパーセットとして作られたため、ASCIIは共通のサブセットとして特別な位置に置かれるようになりました。RubyでもASCIIに含まれる文字のみで構成されるStringは、ASC

    第4回 Ruby M17N 事始め:文字コード編 | gihyo.jp
  • 第2回 Ruby M17N 事始め:入門編 | gihyo.jp

    はじめに 2007年のクリスマス(UTC)から始まったRuby1.9にはRuby M17Nが搭載されています。Ruby M17Nによって、Ruby1.9は世界中の文字を別々のエンコーディングで同時に扱えるようになりました。この記事ではそんなRuby M17Nを紹介します。 M17Nとは そもそもM17NとはMultilingualizationの略で、多言語化という意味です。頭文字のMと末尾のNの間に17文字あるので、M17Nと略します。同様の略し方をする言葉には、国際化(Internationalization)を意味するI18N、地域化(Localization)を意味するL10Nなどがあります。この略し方はDEC起源で、元々Scherpenhuizenという名前の人のアカウント名を制限6文字以下で名付ける際に、管理者がS12Nと付けたことに由来するそうです。 Ruby1.8の状況 プ

    第2回 Ruby M17N 事始め:入門編 | gihyo.jp
  • 文字化けに関するトラブルに強くなる【実践編】

    連載バックナンバー Oracleトラブル対策の基礎知識 主な内容 JavaベースのWebアプリケーションにおける「~」の文字化け JavaベースのWebアプリケーションのシステム構成と変換表 「~」文字化けのメカニズム JA16SJISTILDE・JA16EUCTILDEによる対処 Vistaが新たに対応したJIS X 0213とは? Oracle DatabaseでJIS X 0213に対応するには JIS X 0213とクライアント環境 補助文字(追加文字)とサロゲートペア (関連キーワード:文字化け、SJIS16TILDE、チルダ文字、サロゲートペア、補助文字(追加文字) WindowsJavaなどのように、OSやプログラミング言語の内部処理では、文字データをUnicodeで扱うことが一般的になってきています。Unicodeの目的の1つは、同一のプログラムで複数言語に対応することで

    文字化けに関するトラブルに強くなる【実践編】
  • GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ

    GT Nitro: Car Game Drag Raceは、典型的なカーゲームではありません。これはスピード、パワー、スキル全開のカーレースゲームです。ブレーキは忘れて、これはドラッグレース、ベイビー!古典的なクラシックから未来的なビーストまで、最もクールで速い車とカーレースできます。スティックシフトをマスターし、ニトロを賢く使って競争を打ち破る必要があります。このカーレースゲームはそのリアルな物理学と素晴らしいグラフィックスであなたの心を爆発させます。これまでプレイしたことのないようなものです。 GT Nitroは、リフレックスとタイミングを試すカーレースゲームです。正しい瞬間にギアをシフトし、ガスを思い切り踏む必要があります。また、大物たちと競いつつ、車のチューニングとアップグレードも行わなければなりません。世界中で最高のドライバーと車とカーレースに挑むことになり、ドラッグレースの王冠

    GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ
  • Ruby1.9をこれから使う人のためのM17Nまとめ

    仙台Ruby会議01で発表した内容のM17Nの部分をまとめました。 これから1.9を使う人の参考になればと思います。 重要なこと Stringのインスタンスが Encoding情報を持つようになりました 利用者は常にこのことを意識する必要があります。 1.9のStringには次のようなメソッドが追加されています String#encoding 現在のencodingを返します。 "牛タン".encoding => #<Encoding:UTF-8> String#force_encoding(encoding) データはそのままで、encoding情報のみ変更します。 バイト列自体は変更されません。 破壊的に変更されます。 "牛タン".force_encoding("EUC-JP") => "\xE7\x89\x9B\xE3\x82??\x83\xB3" String#encode(enc

    Ruby1.9をこれから使う人のためのM17Nまとめ
  • Mac OSX用FFMPEGフロントエンド·Datura MOONGIFT

    FFMPEGと言えば、動画や音楽を別なフォーマットに変換する際によく使われるソフトウェアだ。動画携帯変換君でも使われており、その恩恵にあずかっている人も多いはずだ。 複数ファイルをバッチで変換処理できる 既に別なソフトウェアでラッピングされている場合は良いが、そうでない場合はFFMPEGをコマンドラインで利用する。だがオプションが多く、一般向けとは言い難い。そこでDaturaを使ってFFMPEGに触れよう。 今回紹介するオープンソース・ソフトウェアはDatura、Mac OSX向けのFFMPEGフロントエンドだ。 Daturaはバッチ処理で複数の動画や音楽ファイルを変換することができる。入力元のコーデックを指定して、出力時のフォーマットを指定すれば後は自動で変換処理を行ってくれる。 変換設定 嬉しいのはDaturaの中にFFMPEGが予め設置されていることだ。コーデックのインストールなどが

    Mac OSX用FFMPEGフロントエンド·Datura MOONGIFT