タグ

charsetに関するsemicolonのブックマーク (20)

  • Mac OSXでのカタカナひらがなの濁点が変なので変換する方法 - salmomoのさるもも

    文字コードはややこしくてあまり首を突っ込みたくないんですが、Mac使いの人なら経験あると思います。 特にYoutubeにアップすると変になります。 「スティーヴィー・レイ・ヴォーン」でなく、濁点が独立して 「スティーウ゛ィー・レイ・ウ゛ォーン」などと表記されてしまう問題です。 これはUTF-8-MACという文字コードを使っていることが原因らしいのですが、これを(普通の)UTF-8に変換する方法です。 Automatorでサービスを作って、選択部分を変換という方法にしようと思います。 こんな感じになります。↓ サービスってはこれです。 まずはAutomator起動して、サービスを作ります。 Automator起動 流れはこんな感じです。 「/opt/local/bin/iconv -f UTF-8-MAC -t UTF-8」 で文字コード変換。 それをクリップボードにコピー。 終了したことを

  • Unicodeで「漢字」の正規表現 – ものかの

    改訂:2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。 改訂:2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。 正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS(CP932)の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第3・第4水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす

    Unicodeで「漢字」の正規表現 – ものかの
  • 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    絵文字のユニコード符号化: 符号化提案用のオープンソースデータ
  • 機種依存文字チェックするプログラム

    ・機種依存文字チェックするプログラム ■当サイト オススメのレンタルサーバー ウイルスチェックが全サービス無料のほか、フリーダイヤルによる 安心の電話サポートが深夜まで対応している。 月額1,995円からと格安でこのサービスを受ける事が出来る。 CGI/SSI/PHP/MySQL/PostgreSQL のほか、ショッピングカートも無料。 機種依存文字であるかどうかをチェックするプログラムを作成するには、Windowsで入力可能な機種依存文字の集合(全てShift_JISコード)として、 13区の特殊文字(0x8740~0x879F 83文字) NEC選定IBM拡張文字(0xED40~0xEEFC 374文字) IBM拡張文字(0xFA40~0xFC4B 388文字) 外字(0xF040~0xF9FC) を機種依存文字と判定すれば良いことになります。 また、Macで入力可能な機種依存文字とし

  • 日本語文字コード

    フォームメール(mb_send_mail)php ジェネレーター オープンフォトライブラリー自由に画像を登録・紹介できます 文字コード(日語漢字コード表) 日語漢字コード表が、Shift-JIS、EUC-JP、JIS、UTF-8と複数存在する事から、 ホームページ作成・維持管理、データ収集をする上で、文字コードについての多くの諸問題が発生します。 その解決に少しでもお役に立てれば幸いです 文字コード表(実体) シフトJISコード表 Shift-JIS による一覧表 EUCコード表 EUC-JP による一覧表 JISコード表 JIS による一覧表 JIS X 0201 (1976) to Unicode 文字コード表 Shift-JIS による一覧表 JIS X 0208 (1990) to Unicode 漢字コード表 Shift-JIS による一覧表(UTF-8のコードはこちらにあり

  • 文字コード表 日本語EUC(euc-jp)

    EUCの1バイトコード(半角文字)のエリア 0x00〜0x1f、0x7f は制御コードです 0x20〜0x7e はASCII文字です EUCの2バイトコード(全角文字)のエリア(JIS X 0208の漢字エリア) 上位1バイト  0xa1〜0xfe 下位1バイト  0xa1〜0xfe その内、水色エリアはJIS X 0208 (1990) to Unicode 漢字コード表に存在しないコードです EUCの半角カタカナのエリアは2バイトコードで別にエリアに設けています 上位1バイト  0x8e 下位1バイト  0xa1〜0xdf

  • Unicode の文字列をエスケープする JavaScript - bkブログ

    Unicode の文字列をエスケープする JavaScript Unicode の文字列を \uXXXX (UTF-16) と \xXX (UTF-8)、&#DDDD (数値文字参照)、Base64, Quoted-printable、 URL などの形式でエスケープする JavaScript です。

  • KanjiDB

    About KanjiDB is an interface to the KANJIDIC and EDICT-format datasets compiled by Jim Breen and others and maintained under the Electronic Dictionary Research and Development Group at Monash University. KanjiDB is intended as a reference and (partial) translation tool for English speakers interested in the Japanese logographic writing system (kanji) based on Chinese hanzi. It is purely mySQL an

  • UTF-8で変換できない機種依存文字を置換する

    Summary UTF-8 のページから (株) や ローマ数字の I などの文字をメールで送信すると,文字化けする. 文字化けしそうな文字を,ad hoc に機種依存しない文字に変換する. ローマ数字もカッコで括るか,スペースを挿入したほうが良いかも. Source function replaceText($str){ $arr = array( /* --- 0x2100 - 0x2138 (文字種記号) --- */ // 0x2100 - 0x210F '\xE2\x84\x80' => 'a/c', '\xE2\x84\x81' => 'a/s', '\xE2\x84\x82' => 'C', '\xE2\x84\x83' => '?', '\xE2\x84\x84' => '?', '\xE2\x84\x85' => 'c/o', '\xE2\x84\x86' => 'c/u

  • ウノウラボ Unoh Labs: Mac OS X上のUnicode

    Firefoxは内部的に変換処理を行うようになっているようです。 問題はSafariとOperaですね。 選択されたファイルのパスからJavaScriptで ファイル名を抜き出してタイトルに設定する部分で、 正しく扱えるような文字コードに変換することにしたいと思います。 基的な流れとしては、UTF-8-MAC特有の「U+3099」(COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK)、 「U+309A」(COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK)がファイル名に含まれている場合は、 その前の文字と結合して濁音・半濁音の文字にしてあげればいいでしょう (ひらがな・カタカナのみの暫定的な対処に過ぎませんが)。 変換用の文字テーブルを用意して、逐一変換していくかたちにしたいと思います。 というわけ

  • iconv

    人間にとっては、文字は文字ですが、コンピュータが認識するのは、結局は0と1です。ですから、コンピュータに文字を表示させる場合、どのような0と1のかたまりが、どのような「文字」を表現するデータなのか、教えてやらなければなりません。その対応のルールが「文字コード」というものです。英語圏で英語だけを使っていれば、この文字コードを意識することはないのですが、ややこしい歴史的経緯から、日語には幾つもの文字コードが存在しています。例えば「りんご」というひらがなを表現するための、0と1の並べ方のルールが幾つもある、ということです。 厄介なことに、ある特定の文字コードにしか対応していないプログラム、なんてものもありますし、何らかの理由により特定の文字コードしか使えない状況というのも存在します。そんな場合、他の文字コードで書かれたテキストを流用するには、文字コードを変換してやる必要があります。 普通、

    semicolon
    semicolon 2007/07/04
    iconv の使い方
  • 文字コードとエンコーディング (2)

    機種依存文字とは JIS X 0208 には未定義領域が存在します。ここに ベンダが勝手に文字を定義したものを機種依存文字と言います。 機種依存文字の種類と文字コードについては http://www2d.biglobe.ne.jp/~msyk/charcode/kisyuizon/index.html が便利です。特に、こちらには Windows 環境がなかったので、 とても参考になりました。 半角カナとは 半角カナとは、JIS X 0201 の右半面にあるカタカナ文字です。 Shift_JIS、EUC-JP では、半角カナを使っても構いません。 しかし、ISO-2022-JP では使ってはいけないのです。 再度確認しておきますが、JIS X 0208 や JIS X 0201 などは 文字の番号を決めている文字集合です。一方、Shift_JIS・ EUC-JP、ISO-2022-JP な

  • エンコードマニアックス - 各種エンコードやハッシュを一発作成

    SHA-256 e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855 SHA-384 38b060a751ac96384cd9327eb1b1e36a21fdb71114be07434c0cc7bf63f6e1da274edebfe76f65fbd51ad2f14898b95b SHA-512 cf83e1357eefb8bdf1542850d66d8007d620e4050b5715dc83f4a921d36ce9ce47d0d13c5d85f2b0ff8318d2877eec2f63b931bd47417a81a538327af927da3e

  • CSSのfont-family:ヒラギノとMS Pゴシックとメイリオの悩ましい関係 : webデザイナーのナナメガキ

    CSSでのfont-familyの指定がとても悩ましい。文字コードによって表示が変わったりするし、イレギュラーケースまで想定すると煩雑なコードになってしまう。ちょっと整理しながら考えてみる。 まず、font-familyを何も指定しないと、だいたいのブラウザではデフォルトで設定されているフォントで表示されるのだが、文字コードがUTF-8だとWindowsのIE6で英数文字が「Times New Roman」になってしまう。※文字コードがShift_JISやEUC-JPの場合はデフォルトのフォントで表示される。 それでは例えば総称ファミリー名(generic-family)である「sans-serif」のみ指定してみると、WindowsのIE6では文字コードがShift_JIS・EUC-JPの場合は「Lucida Sans Unicode」で、UFT-8の場合は「Arial」で表示されてしま

  • ウノウラボ Unoh Labs: 日本語とPHP

    yamaokaです。 PHPで日語を扱う場合、mbstringモジュールを利用する場合が多いと思います。 日語に特有の機能(カタカナの全角/半角変換など)も備わっていて、とても便利です。 しかし、日以外ではmbstringモジュールはあまり利用されていないようです。 代わりに利用されているのがiconvモジュールで、 最近話題のフレームワーク、symfonyでも 国際化の機能を実現するために内部で利用されています。 iconvモジュールはPHP 5でPHP体に組み込まれました。 別途用意して組み込む必要があるmbstringモジュールと違って、最初から使用できるので便利ですね。 PHPのマニュアルのiconv関数のページを見ると、 いくつかの関数が定義されているのがわかります。 それぞれ、mbstring関数との 対応表を作ってみました。 iconv関数mbstring関数

  • ウノウラボ Unoh Labs: 絵文字の相互変換リスト

    こんばんは。harukです。 2週間前からビデオポップ担当になり、まず最初に、3キャリアの絵文字の変換から取り組みました。 検索して探してみたものの、いいものが見つからなかったのですが、幸いにも、3キャリアそれぞれメールでは絵文字の自動変換があるので、それを利用して作ることができます。(昔は手入力で一つ一つやってました) Tab区切りのテキストファイル(TSV)を置いておきましたので使いたい方は使ってください。 絵文字の番号の付け方はそれぞれ以下のようになっています。 DoCoMo(i-mode) 基絵文字:%i(1~176)% 拡張絵文字:%i(1001~1076)% au(EZweb) 絵文字番号=%e(1~822)% SoftBank PAGE1(G):%s( 1~ 90)% PAGE1(E):%s(101~190)% PAGE1(F):%s(201~290)% P

  • Mac OS Xの文字コード問題に関するメモ - Mac OS Xでは欧文フォントで小さく表示されることのある文字

    ブラウザなどで「○」や「■」が小さく見えたり、三点リーダの位置がずれたりして困惑した経験を、多くのMac OS Xユーザが持っていると思う。これは前回のエントリ(ヒラギノでは全角でデザインされていない文字)で書いた話と似ているが、原因は別で、アプリケーションやスタイルシートの設定で欧文フォントが指定されている場合に見られる現象である。 そんなわけで、JIS X 0208の範囲内のいわゆる「全角文字」のうち、「欧文フォントで表示されうる記号類(ギリシア文字とキリール文字以外)」をピックアップしてみた。ただしこのリストは、インストールされているフォントの種類によって変動する可能性がある。リスト中、上段の文字はヒラギノ、下段の文字はSafariなどでHelveticaを指定した場合に表示されるものである。 Mac OS Xでは、欧文フォントが指定されていた場合、表示に用いられる優先順位は「そのフ

    Mac OS Xの文字コード問題に関するメモ - Mac OS Xでは欧文フォントで小さく表示されることのある文字
  • [を] UTF-8 で半角カナを判定

    UTF-8 で半角カナを判定 2006-11-09-3 [Programming] PerlUTF-8 で半角カナを判定するには、 顔文字みたいな正規表現を使うと良いみたい。 なお、下記では全角になっていますが、「。」「゜」は半角です。 print if /[。-゜]/; 以下、確認スクリプト utf8hankana-test.pl。 begin 755 utf8hankana-test.pl.gz M'XL("+7C4D4``W5T9CAH86YK86YA+71E<W0N<&P`1<_)2L-@$,#Q^SS%9[Q8 ML>0J1H1"]>K!>'()M48-U"A)BP<1M.[5NN];L>[[OFM]F"IXZROX5P\._&!F MF!F8XB(]X7MZB^/JW;87DV+UF4Y]'<SEDR?YP51)O5D3+`](PK>5'_><:-SX MS7L

    semicolon
    semicolon 2006/11/10
    「Perl で UTF-8 で半角カナを判定するには、 顔文字みたいな正規表現を使うと良いみたい。」
  • MySQL 文字化け問題を本気で直す

    mysql> status; -------------- mysql Ver 14.7 Distrib 4.1.20, for redhat-linux-gnu (i386) using readline 4.3 Connection id: 36 Current database: staff2006 Current user: maiha@localhost SSL: Not in use Current pager: lv Using outfile: '' Using delimiter: ; Server version: 4.1.20 Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: latin1 Db characterset: latin1 Client char

  • シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

    2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。 最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。 おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。 変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。 変換表に求めら

  • 1