タグ

Character Encodingに関するelfのブックマーク (21)

  • 携帯絵文字のSJIS拡張とUnicode PRIVATE AREA変換ルールはcp932と基本的に同じ - Bulknews::Subtech - subtech

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    携帯絵文字のSJIS拡張とUnicode PRIVATE AREA変換ルールはcp932と基本的に同じ - Bulknews::Subtech - subtech
  • ‘愛’で学ぶ文字コードと文字化けの常識 (1/4) - @IT

    連載は、Java言語やその文法は一通り理解しているが、「プログラマー」としては初心者、という方を対象とします。Javaコアパッケージを掘り下げることにより「プログラマーの常識」を身に付けられるように話を進めていきます。今回は、文字コードや文字化けについて。OSや携帯電話の機種の違い、メール、Webブラウザ、DB入出力、国の違いなどさまざま原因で起きる文字化けを徹底解説! 文字コードや文字化けの知識はプログラマーの常識 今回は、文字コードや文字化けなどの文字に関する常識をJavaを通して身に付けていきます。 私たちプログラマーにとって、文字や文字列を扱うことはとてもありふれたことです。ほとんどのプログラムにおいて、何らかの形で文字や文字列を扱っていることでしょう。 インターネット時代には必須の知識 コンピュータ1台で動作するプログラムを扱っている範囲では、皆さんは特に何の困難に出合うことも

    ‘愛’で学ぶ文字コードと文字化けの常識 (1/4) - @IT
  • UTF-8 エンコーディングの危険性 - WebOS Goodies

    的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。 例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです(昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ

  • [ThinkIT] 第3回:実は差があるキャラクターセットの違い (1/3)

    今回は日語データの取り扱いについて取り上げます。日語データの取り扱いについては、連載「徹底比較!! PostgreSQL vs MySQL」でも少し説明しましたが、今回はさらに仕組みや性能面について取り上げていきます。 まずは、PostgreSQLMySQLがデータベース内に収めることができる日語データのキャラクターセットを示します(表1)。 PostgreSQL 8.1.8 EUC-JP UTF-8 MySQL 5.0.22 EUC-JP Shift-JIS UTF-8 UCS-2 cp932 表1の通りPostgreSQLMySQLでは、サポートする日語データのキャラクターセットの種類に違いがあります。その中でも注意する必要があるのは、PostgreSQLでは代表的な日語キャラクターセットの1つShift-JISをデータベース内に収めることができない点です。 とはいうもの

  • エンコーディング変換の高速化 - odz buffer

    ref:404 Blog Not Found:perl tips - Encodeを速く使う方法 当然の話だけど、対象の文字列が長くなると、Encode::encode も、$e->encode も大差ない。 ちょっといじって試してみる。 use strict; use warnings; use Benchmark qw/cmpthese timethese/; use utf8; use Encode; use Jcode; use Unicode::Japanese; use Smart::Comments; my $str = join '', ( 'a' .. 'z', ( map { chr } ord('ぁ') .. ord('ん') ) ); $str = $str x shift if @ARGV; my $bytes = encode_utf8($str); my $u

    エンコーディング変換の高速化 - odz buffer
  • 特番 Windows Vistaの新文字セットが引き起こすトラブル:ITpro

    【記者の眼】 Unicodeは「使える」から「知らずに使う」フェーズへ  Windowsにおいて「Unicode」は,長らく「使える」けれども「あまり使われない」存在だった。その状況が「Windows Vista」と「the 2007 Microsoft Office」で変わろうとしている。この2製品に付属する「Microsoft IME」で,「WindowsではUnicodeでしか扱えない文字」が,変換候補として頻出するようになったからだ。Unicodeはいよいよ,一般ユーザーが「知らずに使う」存在になるだろう。 【記者のつぶやき】 シフトJISを捨てられるか? これまで,Windows Vistaの文字の扱いに関する事柄を何度か取り上げてきた。同じキャラクタ・コードで,Windows XPのときと文字の形が変わったり,Unicodeでしか扱えない文字があったりするという話題だ。今

  • Why Mobile Homes? - Trailer Park Riches "Your road to cash flow in mobile homes"

    Why Mobile Homes? Investing in mobile homes is not something that many people think of. In fact as you may have read in the about me section, I only found out about the cash flow opportunity that mobile homes can provide through a chance barter deal for an old motorcycle. Many will discount mobile homes as a bad investment because they, just like an automobile, is a depreciating asset. It will not

  • 環境変数によるロケールの管理

    Linuxは世界中の数十にも及ぶ言語で使われている。Linuxのソースコードはフリーかつオープンなので、例え大企業が少数言語の利用者向け市場を価値あるものと認めなかったとしても、少数言語の話者は自分たちの言語サポートを追加することができる。複数の言語、または英語以外の言語を使う場合は、各種言語をサポートするためにLinuxがロケールをどのように用いるのかを知っておく必要がある。実際、ロケールを理解しておくことは、英語しか使わない場合でも役に立つことがある。 ロケールの選択は、環境変数の設定によって行う。各種の環境変数によってさまざまな設定が行える。LC_MESSAGESは、言語と、メッセージのエンコーディングを指定する。また、GUIコンポーネントがGNUのgettextまたはその類のものを使って翻訳結果を取得する場合は、そのラベルに対するエンコーディングもLC_MESSAGESによって決ま

    elf
    elf 2006/06/13
    詳細な文献いい!!
  • http://domifara.lolipop.jp/xo/modules/tinyd1/

  • ファイル名の文字コードを変換するには

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

    elf
    elf 2006/05/08
    ファイル名のエンコーディング変換
  • 文字コードの墓場 - しいしせねっと

    Last update  日語には、いろんな文字コードがあります。 ややこしすぎるので、嫌です。 文字集合 エンコード + 文字コード 変換表 基礎知識 文字セット、エンコード(符号化方式)、2種類にわけて、この組み合わせで1つの文字コードになります。Unicodeをベースにしていることもあるのでさらに変換表的なものも加わると恐ろしいぐらいいろいろあります。 文字セットは、JISの場合、区点番号という区(row)と点(cell)と呼ばれる2つのコードを合わせて漢字1文字を指定します。区と点は1バイト目と2バイト目のような関係です。JISの区点はそれぞれ1〜94です。JIS X 0213やUnicodeになると区点では不足するため面(plane)という区点を区別するコードを加え、面区点の3つで区別します。 ISO-10646などでは、面区点でも不足する可能性があるため群(group)とい

  • jisx0213 infocenter

    わたしは――この命にかえても、“字”という魔術をおさめたい。この世の中の不思議を知りたいんです。…………神様、お願いです、わたしに教えて下さい。“字”という魔術を JISX0213 InfoCenter JIS X 0213:2000 関連データです。ご自由に(利用したり加工したり配布したりして)お使いください。データは、死にたい程度にはチェックしていますが、保証しろといわれても困ります。なにか問題があったら、earthian@tama.or.jpにメールすると直るかも。 ● allファイル(all0c23.zip,zip圧縮,944k) 全データまとめてダウンロード。といってもコード表2種にmiscファイル、この3つをまとめただけのもの。 ● miscファイル(misc0c23.zip,zip圧縮,523k) コード表以外のデータファイルをまとめてあります。 ● コード表(jisx021

  • Microsoft Support

    All Microsoft Global Microsoft 365 Teams Copilot Windows Surface Xbox Deals Small Business Support Software Windows Apps AI Outlook OneDrive Microsoft Teams OneNote Microsoft Edge Skype PCs & Devices Computers Shop Xbox Accessories VR & mixed reality Certified Refurbished Trade-in for cash Entertainment Xbox Game Pass Ultimate PC Game Pass Xbox games PC and Windows games Movies & TV Business Micro

    Microsoft Support
    elf
    elf 2006/03/25
    覚えておきたいバッドノウハウ
  • Legacy Encoding Project プロジェクト日本語トップページ - OSDN

    主要な OSS (libiconv、glibc、PerlRubyPythonPHP、PostgreSQLMySQL、nkf など) の各ソフトウェアで、Microsoft標準キャラクタセットをシフト JIS符号化方式、日語EUC符号化方式、7ビットJISコード符号化方式の各々 の間で相互変換できるようにする事 ダウンロード 最新リリース legacy-encoding 0.1.1 (日付: 2007-01-29) php 5.2.1RC4-mbstring-070129 (日付: 2007-01-29) legacy-encoding 0.1 (日付: 2006-10-27) libiconv 1.10-cp932-encodings (日付: 2006-10-27) mysql 5.0.18-060814 (日付: 2006-10-27)

    Legacy Encoding Project プロジェクト日本語トップページ - OSDN
  • 符号 ‐ 通信用語の基礎知識

    elf
    elf 2006/03/10
    かなり詳しくてためになる
  • 従来の文字コードとUnicodeの対応に関する諸問題

    最終更新: 1998.12.20 目次 はじめに 似た文字 旧JISと新JIS ベンダー固有文字 「全角」「半角」 ASCIIとJIS X 0201ローマ文字 おわりに 余談 1. はじめに ISO/IEC 10646とUnicode(以下Unicode)は、いろいろと論議をかもしてきましたが、 すでにいろいろなところで陰に陽に使われるようになってきました。 Windows NTの内部コードがUnicodeであるのはよく知られています。 BeOSでは、内部だけでなく全面的にUnicodeが使われています。 また、Javaのchar型もUnicodeです。 しかし、とくに入出力においては、当分は従来の文字コードと共存することになります。 すなわち、意識するしないに関わらず、Unicodeと従来コードの変換が頻繁に行われます。 変換といっても、Unicodeコンソーシアムが提供しているテーブル

  • http://rimk.tdiary.net/20050507.html

    elf
    elf 2005/11/18
    PHPでCP51932.ためになる
  • eucJP-ms と CP51932 の違い コードページ932/ウェブリブログ

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

    elf
    elf 2005/11/18
    EUC-JPとその他の文字エンコーディングにまつわる話
  • t_komuraの日記

    最近の PHP(PHP 4.3.11 以降) の mbstring には多くのバグが報告、修正されていますが、そろそろ把握しきれなくなってきましたので、まとめてみました。何か間違い等ありましたら指摘していただけると幸いです。 これらのバグは CVS では既に修正されていますので、今後、公開されるバージョンでは問題ありません。また、PHP のバージョンは Patch を適用していないソースのものです。 PHP 5.0.6 はリリースされない可能性が高そうです。 mb_detect_encoding() が失敗する 概要 mb_detect_encoding() が正しく文字コード検出をできないことがある。 これが原因で mb_convert_encoding() が失敗することがあり、文字化けを起こすことがある。 バグを含んでいるバージョン PHP 4.3.11 PHP 5.0.0 - PH

    t_komuraの日記
  • 【コラム】Yet Another 仕事のツール (48) MySQL 4.0から4.1へのアップグレード 、トラブってませんか? | エンタープライズ | マイコミジャーナル

    先々週から茶筌を使った形態素解析について書いてきたが、最近MySQL周辺でバージョン4.1のプロダクション・リリースに伴ったちょっとした混乱が生じている様子なので、今回は少し寄り道をして情報を整理しておきたい。 MySQL 4.1では、特に我々日人にとって影響の大きい文字エンコーディング周りにも、かなり大幅な改変が入っている。文字コードの自動変換機能が追加されたり、UTF-8、UCS2といったUnicodeのキャラクタセットが利用可能になったり、データベース単位にしか指定できなかったキャラクタセットが列単位に指定できるようになったりと、とにかく盛りだくさんである。機能が増えるのは一般的には喜ばしいことだが、既存のMySQL 4.0からアップグレードしようとするユーザにとっては、当然のことながら互換性が心配のタネになる。そして、現状ではトラブルがないとは言えない状況のようだ。 まず、サーバ