タグ

文字コードに関するkitokitokiのブックマーク (20)

  • 【図解】【3分解説】UnicodeとUTF-8の違い!【今さら聞けない】 - Qiita

    UTF-16のことをUnicodeと記しているソフトウェア(Windowsのメモ帳など)もありますのでUnicodeとあったらそれはUTF-16を使って変換したものなのだな、というふうに理解してください。 そうなってしまっている理由はこちらで解説されていました。 これでUnicodeとUTF-8の違いはバッチリですね!おわり。 読んで分かりやすかったり少しでも何か学べたと思えたら いいね や コメント をもらえるとこれからの励みになります! もう少し時間がある方へ 手計算で文字をUTF-8での符号まで計算してみましょう。 理解が一気に深まります。手順は以下。 1. 文字のコードポイントをUnicodeから見つけてくる。 2. コードポイントをUTF-8の方式で変換してみる。 Omiitaの「お」をUTF-8による符号まで変換してみます。 文字「お」のコードポイントをUnicodeから見つけ

    【図解】【3分解説】UnicodeとUTF-8の違い!【今さら聞けない】 - Qiita
  • encoding-japanese - npm

    encoding.js is a JavaScript library for converting and detecting character encodings, supporting both Japanese character encodings (Shift_JIS, EUC-JP, ISO-2022-JP) and Unicode formats (UTF-8, UTF-16). Since JavaScript string values are internally encoded as UTF-16 code units (ref: ECMAScript® 2019 Language Specification - 6.1.4 The String Type), they cannot directly handle other character encoding

    encoding-japanese - npm
  • るびま

    『るびま』は、Ruby に関する技術記事はもちろんのこと、Rubyist へのインタビューやエッセイ、その他をお届けするウェブ雑誌です。 Rubyist Magazine について 『Rubyist Magazine』、略して『るびま』は、日 Ruby の会の有志による Rubyist の Rubyist による、Rubyist とそうでない人のためのウェブ雑誌です。 最新号 Rubyist Magazine 0058 号 バックナンバー Rubyist Magazine 0058 号 RubyKaigi 2018 直前特集号 Rubyist Magazine 0057 号 RubyKaigi 2017 直前特集号 Rubyist Magazine 0056 号 Rubyist Magazine 0055 号 Rubyist Magazine 0054 号 東京 Ruby 会議 11 直

  • Windows-31JとShift_JIS-2004 - yanok.net

    驚いたことに、Twitterで、JIS X 0213を無視してWindowsの機種依存文字(いわゆるCP932, Windows-31J)を擁護する意見の持ち主に出会いました。 こういうのは、悪意があるとかではなく、単純に情報が足りていないのだと思います。JIS X 0208やJIS X 0213についてよく知れば、こうした意見は無くなっていくことでしょう。 JIS X 0208が使われていくと、この規格では現代日の文字を符号化するのにかなり足りないということが認識されました。それを改善する規格として1990年にJIS X 0212が制定されました。しかしこの文字コードは、Shift_JISで符号化できず、また文字選定上の問題もあってか、広く普及はしませんでした。その反省を踏まえ、最初からShift_JIS方式での符号化を考慮に入れたJIS X0213が、JIS X0208の上位互換とし

    kitokitoki
    kitokitoki 2010/10/31
    Windows-31JとShift_JIS
  • TokyoRubyKaigi03 - Naruse, Naruse Yui tokyorubykaigi on USTREAM. Conference

    Not rated yet. You must be logged in to rate this video.

  • 日本語文字列コード問題まとめ

    【1】   文字列コード問題との戦い Pythonに限った話ではないのですが、 日語を取り扱うコードを書いていると やっかいなエンコーディングトラブルに遭う事は少なくないでしょう。 エンコーディングトラブルとは コンパイラ・インタプリタがソースコードを解釈できない。 画面表示が化ける。 意図した入力ができない。 エンコード・デコード時にエラーがでる。 正しいファイル名のつもりなのにファイルが見つからない。 出力させたファイルの中身が読めない。 などといった現象を基としていろんな問題を引き起こします。 問題のすべては「コード変換」に発生します。 実際の文字列が何のエンコーディングで、 渡す先が何のエンコーディングを期待しているか? それらを確認して合致させるように変換をするということが基です。 【2】   「Python語版が必要」というのは誤解 P

  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
  • 小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの

    小形克宏の「文字の海、ビットの舟」 ―― 文字コードが私たちに問いかけるもの [Reported by 小形克宏] 第1部 2000JISがやってきた 第1回 2000JISとはなんだ? (2000年1月19日) 第2回 2000JISの原案はなぜ修整されたか? (2000年1月26日)加筆修正 2000年2月22日 第3回 前回までの訂正と補遺 (2000年2月2日)加筆修正 2000年2月22日 第4回 JCS委員長、芝野耕司の反論(前編) (2000年2月9日)加筆修正 2000年2月12日 第5回 JCS委員長、芝野耕司の反論(後編) (2000年2月16日)加筆修正 2000年2月22日 特別編 MacOS Xの新フォントと2000JISの関係 (2000年2月23日) 特別編2 ISO/IEC 10646で却下された(?)JIS X 0213の新漢字一覧表 (2000年3月8日

  • 波ダッシュはチルダではない

    コード変換において、JIS X 0208/0213の波ダッシュ「〜」(1面1区33点、 シフトJISでは8160)をUnicodeの「FULLWIDTH TILDE」(U+FF5E)にうつす実装は 不適切である。適切な変換先はWAVE DASH (U+301C)である。以下に理由を述べ る。 JISの規格では「〜」は「波ダッシュ」と記述されており、文字名称は WAVE DASHと規定されている。よってUnicodeのWAVE DASHに対応すると考える のが妥当。UnicodeのもとになったJIS X 0208-1990においてもやはり「波ダッ シュ」であった。チルダではない。 区点の並びからも、ダッシュやハイフンのような一般の記述記号の中にあ り、チルダが属すべきダイアクリティカルマークとは離れている。 Unicode仕様書のWAVE DASHの説明には「JIS punctuation」

    kitokitoki
    kitokitoki 2010/04/25
    波ダッシュはチルダではない
  • 波ダッシュ・全角チルダ問題 - Wikipedia

    Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても質的に同じ文字であれ‮ば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、

    波ダッシュ・全角チルダ問題 - Wikipedia
    kitokitoki
    kitokitoki 2009/11/04
    チルダ、波ダッシュ
  • 日本語と文字コード

    コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト(7/8ビット)を基単位として扱う前提で作られているものが中心です。そのなかで日語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日語の文字コードに関する基を整理しておきます。 JIS漢字コード(情報交換用符号化漢字集合) 区点コード JISコード(符号化方式) シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ 参考文献、リソース 文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード(情報交換用符号

  • 改行コードの変換

    Unixの上でsed, awk, Python, Perl などを使ってファイルを行ごとに扱うためには、各行は LF という文字コード(\n)で区切られていないといけない。しかし、他のシステムで作られたファイルは異なる改行コードを用いているため、一旦unix用の改行コードに変換する必要がある。 1.改行コードの調べ方 1.A nkfを使う nkfを入れてあれば、Terminalから次のように打つだけ。 $ nkf -g foo.txt 1.B Octal dump 例えば、foo.txtというファイルを調べたければ、Terminalを開いて次のようにする。 $ od -c foo.txt | less 表示される文字の中に混じっている\n や\r\nを見つけ、下の表と比べる。 システム改行コードod -c での見え方

  • Unicode - JISマークは一文字! : 404 Blog Not Found

    2009年08月07日15:00 カテゴリCode Unicode - JISマークは一文字! 私もびっくりしたのですが、事実です。 まずは以下をご覧下さい。 〄は一文字です(U+3004)。 フォントまわりをカスタマイズしていないIEでも表示を確認できました。UbuntuのFirefoxでは空白でしたが。 なぜ気がついたかと言えば、unicode@unicode.org にこんな書き込みが登場したからです。 At http://en.wikipedia.org/wiki/Japanese_Industrial_Standards, a new symbol for JIS is shown and discussed. Will there be a new character in the Standard? (Not a new glyph in the same codepoint

    Unicode - JISマークは一文字! : 404 Blog Not Found
  • MyNA Web Site

    Counter: 813, today: 2, yesterday: 1 Last-modified: Sun, 25 Mar 2007 15:45:04 JST (6202d) Site admin: webmaster B-Wiki 20050210 Copyright © 2003-2005 ishii. License is GPL. Based on "PukiWiki" 1.4.5-2005/02/10 by PukiWiki Developers Team. Powered by PHP 5.5.9-1ubuntu4.29. HTML convert time: 0.005 sec.

    kitokitoki
    kitokitoki 2009/06/30
    4バイトのUTF8
  • yebo blog: この文字は何なんだ!!

    2007/09/02 この文字は何なんだ!! 先週のdigg にバカウケしていた投稿 (WTF is this Character?) がありました。「,」で丸を描いたような記号で、文字としては8の「,」で作られているのですが、文字として一文字で扱えます。これは、Unicodeの制御コードが使われていて、アラビア語のように右から左に書く言語のための入力した文字の流れを左右逆にする制御コードが使われているそうだ。Unicodeって複雑... ちなみにこの文字はMacで表示できない... orz この文字自体は次のようなコードが使われている。 ‫‬‭‮‪‫‬‭‮҉ Unicodeの制御文字(文字実体参照)には次のようなものがある。 エンティティ Unicode 名称 ‎ U+200E LEFT-TO-RIGHT MARK ‏ U+202F LEFT-TO-RIGHT MARK ‪ U+202A

    kitokitoki
    kitokitoki 2009/04/14
    制御文字のトリック
  • GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ

    GT Nitro: Car Game Drag Raceは、典型的なカーゲームではありません。これはスピード、パワー、スキル全開のカーレースゲームです。ブレーキは忘れて、これはドラッグレース、ベイビー!古典的なクラシックから未来的なビーストまで、最もクールで速い車とカーレースできます。スティックシフトをマスターし、ニトロを賢く使って競争を打ち破る必要があります。このカーレースゲームはそのリアルな物理学と素晴らしいグラフィックスであなたの心を爆発させます。これまでプレイしたことのないようなものです。 GT Nitroは、リフレックスとタイミングを試すカーレースゲームです。正しい瞬間にギアをシフトし、ガスを思い切り踏む必要があります。また、大物たちと競いつつ、車のチューニングとアップグレードも行わなければなりません。世界中で最高のドライバーと車とカーレースに挑むことになり、ドラッグレースの王冠

    GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ
  • ウェブリブログ:サービスは終了しました。

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

    ウェブリブログ:サービスは終了しました。
    kitokitoki
    kitokitoki 2009/02/17
    もりおうがいのおう
  • http://bearmini.net/blog/View.aspx?bid=1&aid=99

    

  • サービス終了のお知らせ

    平素より「PHPプロ!」をご愛顧いただき、誠にありがとうございます。 2006年より運営してまいりました「PHPプロ!」ですが、サービスの利用状況を鑑みまして、2018年9月25日(火曜日)をもちましてサービスを終了させていただくことになりました。 サービス終了に伴いまして、2018年8月28日(火曜日)を持ちまして、新規会員登録ならびにQ&A掲示板への新たな質問、回答の投稿を停止させていただきます。 なお、ご登録いただいた皆様の個人情報につきましては、サービス終了後、弊社が責任をもって消去いたします。 これまで多くの皆様にご利用をいただきまして、誠にありがとうございました。 サービス終了に伴い、皆様にはご不便をおかけいたしますこと、心よりお詫び申し上げます。 件に関するお問い合わせはこちらよりお願いいたします。

  • Unicode対応 JIS X 0208 文字コード表

    Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。 文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区~08区 JIS非漢字(各種記号、英数字、かな) 13区~13区 NEC特殊文字(機種依存) 16区~47区 JIS第1水準漢字 48区~84区 JIS第2水準漢字 文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字 文字コード表 区 点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

  • 1