タグ

文字コードに関するtakuya-itohのブックマーク (27)

  • 2010-02-14 - 未来のいつか/hyoshiokの日記

    例えば、次の言葉の意味を知りたい、聞いたことがあるけどよく分かっていないプログラマにとって、お勧めの書籍だ。Unicode/UTF-8/UTF-16/USC-2/JIS X0208/JIS X0212/JIS X0213/SJIS/EUC-JP/CP932/ISO-2022-JP/ASCII/Latin-1/ISO 10646/ISO 8859-1/サロゲートペア/文字化け/機種依存文字/半角カナ/絵文字… JIS X0208やJIS X0213の解説などは圧巻である。書籍にはWebにない利点がある。Webには即時性があるが、文字コードの解説においては、即時性はそれほど求められない。字体ないし字形の差異についてWebではその字体ないし字形がなければ表現しようがないが、書籍であれば細部までこだわって表現できる。 例えば、包摂された「辻」という字の一点しんにょうと二点しんにょうの字体の差はWe

    2010-02-14 - 未来のいつか/hyoshiokの日記
  • Ingrid.org

    Ingrid.org This Page Is Under Construction - Coming Soon! Why am I seeing this 'Under Construction' page? Related Searches: Credit Card Application Accident Lawyers Healthy Weight Loss Health Insurance find a tutor Trademark Free Notice Review our Privacy Policy Service Agreement Legal Notice Privacy Policy|Do Not Sell or Share My Personal Information

  • @IT:Javaの文字化け対策FAQ(1)

    質問1: Webブラウザが文字コードを判定する基準は何ですか? 解答:HTTPのContent-Typeヘッダです まずは、Webにおける文字コードの扱いをおさらいしておこう。HTML 4.01仕様では、Webブラウザが以下の優先順位で文字コードを決定することを規定している。 HTTPにおけるContent-Typeヘッダのcharsetパラメータ HTML文書内のMETA宣言およびhttp-equiv属性で設定された、Content-Typeヘッダのcharsetパラメータ HTML文書内の各要素のcharset属性 Webサーバが送信するHTTPヘッダの中には、送信内容がどのような素性のコンテンツなのかをWebブラウザに教えるために、以下のようなContent-Typeヘッダを通じてコンテンツのメディアタイプ(下記例ではtext/html)を明示する。 これによりWebブラウザは、受信

    @IT:Javaの文字化け対策FAQ(1)
  • Ajaxはじめの一歩 XMLHttpRequest [Javascript] All About

    Ajaxはじめの一歩 XMLHttpRequest [Javascript] All About
  • AjaxでShift_JISやEUC-JPは使えるのか?-1- responseText編

    Testnetがアップデートされたのは知ってたけれど、libra-authのデモも動かなくなったのでちょっと調…

  • Escape Codec Library: ecl.js

    日頃より楽天のサービスをご利用いただきましてありがとうございます。 サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。 お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。 メンテナンスが終了次第、サービスを復旧いたしますので、 今しばらくお待ちいただけますよう、お願い申し上げます。

  • そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記

    文字コードの標準化について日記を書いたのだが、内容がいまいちだったのでボツにして気を取り直してUnicodeについて一言いっておくことにする。先日、といっても昨年(2008年)の10月なんだけど、その中でちょと文字コードの標準化について話をしている。*1 もう1つ自分の経験としてあるのが、漢字の文字コードがあるんですけど、番号で言うとJIS X 0208とか0212とか規格の番号で皆言うわけなんですけど、実は1988年にその日語の文字コードの改正の委員会にいたんですね。 その当時、私は 30歳ぐらいなんですけど、「富士通」とか「日立」とか「NEC」の部長さんぐらいの偉い人たちが来てて、私なんか外資系で且つ30前後のぺーぺーだから、全然格下なんですよ。 そういうところで議論の主軸を担ってるのは、「富士通」「日立」「NEC」「日IBM」「東芝」「沖」、外資でいえば「ユニシス」とかの錚々たる

    そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記
  • バイナリとテキストの本当の違い : 404 Blog Not Found

    2009年04月09日00:15 カテゴリLightweight LanguagesCode バイナリとテキストの当の違い うーむ、Wikipediaですら「見た目」の違いしか説明していない。 バイナリ - Wikipedia コンピュータが扱うすべてのデータはバイナリデータ(バイトの並び)であり、プレーンテキスト(または単にテキスト)もバイナリデータの一種ではあるが、通常バイナリとテキストは対比して用いられる。テキストとはデータの内容すべてを人間が読んで理解できる (human-readable) 表現形式を指し、バイナリとはそうでない表現形式を指すことが多い。 Binary file - Wikipedia, the free encyclopediaA binary file (.bin) is a computer file which may contain any type

    バイナリとテキストの本当の違い : 404 Blog Not Found
  • デバッグより重要なもの : 404 Blog Not Found

    2009年04月02日16:00 カテゴリCodeArt デバッグより重要なもの この話題、すっかり乗り遅れてしまった。 2009-03-22 - 未来のいつか/hyoshiokの日記 プログラミング入門書では、デバッグについて、ほとんど議論されていないし、仮にふれられていても、おざなりな方法というか、かなり邪険にあつかわれていたりする。プログラマの多くの時間がデバッグについやされていたとしてもだ。 あえていわせていただく。コードはデバッグできるだけはるかにましなのだ、と。printfを使うかどうかなんぞ、その問題と比べれば屁ですらないのだと。 デバッグよりもはるかに重要なもの、それはデータ構造の選定。 ここで一歩間違えると、バグが仕様化し、デバッグどころかバグにあわせてプログラムを書かねばならぬ羽目になる。 その最も顕著な例が、Unicodeだろう。最初の設計を間違えたおかげで、最新のソ

    デバッグより重要なもの : 404 Blog Not Found
  • Unicode標準入門 読了 - fuzzy Weblog@hatena (更新終了)

  • News - 絵文字標準化 by Google : 404 Blog Not Found

    2008年11月30日02:00 カテゴリNewsiTech News - 絵文字標準化 by Google 悲しい知らせだ。 Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ 現在、日の携帯絵文字の全てをユニコードの文字として共通符号化しようという提案が進行しています。そのためには、現在使用されている絵文字のうちどれが既にユニコード符号化されているか、新しく符号化しなければならない絵文字はどれかなどを調査する作業が必要です。この提案を支援する目的で、私たちが提案している絵文字のマッピングや変換表、更に絵文字データからHTMLの表などを作成するのに役立つツールなどを 「emoji4unicode 」という名前でオープンソースプロジェクトとして公開します。 日絵文字が“世界進出”へ グーグルが標準化提案 (1/2ページ) - MSN産

    News - 絵文字標準化 by Google : 404 Blog Not Found
  • 言葉は何を乗せているのか : 404 Blog Not Found

    2008年11月11日21:30 カテゴリValue 2.0Logos 言葉は何を乗せているのか 正直、「日語が亡びるとき」の読了感はこれとそれほどかけ離れていない。 2008-11-11 - 【海難記】 Wrecked on the Sea ようするにこのは柄谷=岩井的な言語=貨幣観と『批評空間』的な文学史観にもとづいた、柄谷行人『近代文学の終り』のたんなる文学少女バージョンなのである。 正直、彼女が愛してやまない漱石は、私は好んで読んだためしがない。同書を通じて「ああ、こういう読み方もあるのか」と感心はしたが、だからといって漱石を「読まなきゃ」という義務感は感じても「もっと読みたい」という欲求は全くおきなかった。鴎外に至っては、いくらいい文章を書いたところでその罪の大きさを拭えるものではないとすら感じている。 と同時に、たとえば吾輩ハデアルを複製するのに充分なソフトウェア・インフ

    言葉は何を乗せているのか : 404 Blog Not Found
    takuya-itoh
    takuya-itoh 2008/11/12
    "彼らの尽力は、それに留まらない。アルファベットと数字とわずかな記号しか扱えなかったシステムを、単に「日本語も扱える」ようにして日本人に届けたのみならず、それが世界に届くようにしたのだ。"
  • 大漢和辞典の思い出 2008-10-08 - 未来のいつか/hyoshiokの日記

    補助漢字の思い出(d:id:hyoshiok:20060518#p1)で記したように今から20年前、わたしは補助漢字として知られる、JISX0212:1990の選定委員の一人だった。1988年にそれに参加して、その時、30歳になったばかしのペーペーのエンジニアである。当時の委員は、国産メインフレーマ、プリンターベンダ、印刷会社、新聞社、学識経験者などで委員の肩書も大手企業の部長とかがほとんどで、わたしのようなペーペーはほとんどいなかった。 世の中、メインフレーム全盛で垂直統合ベンダーが我が世の春を謳歌していた。マイクロソフトやアップルなどは、その委員会に呼ばれもしなかった。そういう時代である。 DECという米国企業の日の研究開発センターにいたわたしがなぜその委員の末席をけがすことになったかというと、国際標準機構(ISO)の文字コードのワーキンググループ(SC2/WG2という)のedito

    大漢和辞典の思い出 2008-10-08 - 未来のいつか/hyoshiokの日記
  • カレントディレクトリ以下すべてのファイルの文字コードを変換する - はてブロ@ama_ch

    Macを使い始めてから、文字コードに悩まされる機会が増えました。ファイルを貰ったりすると、大抵EUCやShift-jisでうまく表示できません。各エンコーディングに対応しているエディタを使えば読むことはできますが、やっぱりターミナル上で表示できないと不便です。 対策として、iconvコマンドを使うとエンコーディングを変換することができます。 例えばtest.txtというファイルをeuc-jpからutf-8に変換したい場合、 $ iconv -f euc-jp -t utf-8 test.txt > test_utf.txtこのようにできます。 この方法の問題点 ファイル名を変更しないといけない 同じ(変換元の)ファイル名をそのままリダイレクトする*1と、ファイルの中身が空っぽになる 1度に1つのファイルしか変換できない 大量のファイルを変換したい場合は、以下のようなシェルスクリプトを利用す

    カレントディレクトリ以下すべてのファイルの文字コードを変換する - はてブロ@ama_ch
  • MacintoshとWindowsファイル送信の掟 (MacとWinの共存)

    リソースフォークには通常、カスタムアイコンやプレビュー画像や、ファイルを開いたときのウィンドウサイズ等のデータが含まれています。アプリケーションのファイルには、リソースフォーク部分にUI (ユーザインターフェース) にかかわる大部分のデータが入っていて、Macでは必要不可欠なデータ領域です。 リソースフォークの後ろにはGet Infoコメントが付加されることもあります。Finderの「情報を見る (Get Info)」で書き込めるファイルに添付するコメントで、記述があれば付加されます。(コメントの保存に対応してないアプリケーションも多いので注意。逆にコメントを消すならNoComment (フリーウェア)) しかし、Windowsとのデータ共有ができるテキストやGIFやJPEGなどでは、データフォーク部分だけがあれば良く、それ以外の部分を送っても邪魔になります。Windows側でファイルが開

  • Apache-Tomcat と冗長なUTF-8 表現(CVE-2008-2938 検証レポート)

  • (弘法も筆の誤り||まろび出た馬脚)? - 書評 - しろうとクマくんとC言語の授業 : 404 Blog Not Found

    2008年08月08日05:30 カテゴリ書評/画評/品評Lightweight Languages (弘法も筆の誤り||まろび出た馬脚)? - 書評 - しろうとクマくんとC言語の授業 NTT出版牧野様より献御礼。 しろうとクマくんと C言語の授業 岡嶋裕史 なに?C言語の初心者?それも岡嶋裕二?しかも2,000円を切っている?言語業界涙目? 涙目!....別の意味で。 駄目だよ、これじゃ! 書「しろうとクマくんとC言語の授業」は、岡嶋裕史によるC言語初心者。 目次 - しろうとクマくんとC言語の授業 |書籍出版|NTT出版 インストールしてみよう �第1章 コンピュータに仕事をしてもらうには? �第2章 画面表示を極めてみる �第3章 条件によって、やることを変えてみる �第4章 同じ命令を繰り返してみる �第5章 文字を扱えるようになってみる �第6章 細かいしかけで、ゲー

    (弘法も筆の誤り||まろび出た馬脚)? - 書評 - しろうとクマくんとC言語の授業 : 404 Blog Not Found
  • 改行コード - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "改行コード" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2023年2月) 改行コード(かいぎょうコード)とは、ワードプロセッサ(ワープロ専用機)やコンピュータなどで、改行を表す制御文字である。日では「改行コード」と総称する事が一般的なため、項目では、キャリッジリターン (CR) とラインフィード (LF) の両方について記載する。 概要[編集] 改行コード(広義)は以下の2種類であり、システム(ソフトウェア)により片方または両方が使用される。 キャリッジリターン(英: carriage return、CR、復帰) ラインフィード(

  • Microsoftコードページ932 - Wikipedia

    Template‐ノート:特殊文字に、このページに関する質問があります。(2023年1月) 質問の要約:Template:特殊文字で「Microsoftコードページ932(はしご高)」と書かれている場合があること この記事には複数の問題があります。改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2011年11月) 出典は脚注などを用いて記述と関連付けてください。(2011年11月) 出典検索?: "Microsoftコードページ932" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL MS932とその他の日語に関連した文字集合との関係オイラー図 Microsoft コードページ 932(マイクロソフト コードページ 932

    Microsoftコードページ932 - Wikipedia
  • Shift JIS 2バイト目が0x5C等に成りうることによる問題 - Wikipedia

    Shift_JIS(シフトジス)は、コンピュータ上で日語を含む文字列を表現するために用いられる文字コードの一つ。シフトJIS(シフトジス)と表記されることもある[1]。 かつてはベンダーによる独自拡張を含む文字コード群を指した曖昧な名称であったが、1997年にJIS X 0208で標準化された。