タグ

utf-8に関するkoyacorgのブックマーク (34)

  • やっかいな漢字 – CJK部首補助/康煕部首 – ものかの

    DTP制作向けのテキスト整形の話です(楽しい文字沼)。 CJK部首補助や康煕部首の漢字は、とてもやっかいです。なにがやっかいかというと、見た目では通常の漢字と区別ができないことです。 文字コードが違うのにどうして見た目がこれほど同じなのかというと、フォントの同じグリフが表示されているからです。 クライアントから支給された文字原稿に、もしかするとこのやっかいな漢字が混入しているかもしれません。なぜかというと、PDFから文字をコピーすると、通常の漢字だったはずなのに、なぜかやっかいな漢字に変わってしまうことがあるからです。このごろは文字原稿の作成にPDFから文字をコピー&ペーストすることが普通に行われているので、やっかいな漢字の混入は日常茶飯事といってよいかもしれません。 クライアントからPDFを支給されたときも、DTP制作者がPDFから文字をコピー&ペーストして、気づかずにやっかいな漢字を混

    やっかいな漢字 – CJK部首補助/康煕部首 – ものかの
  • Word Macro Source Code : 文書中の康煕部首文字を正常文字に置き換える

    Word Macro Source Code : 文書中の康煕部首文字を正常文字に置き換える「置換」コマンドを連続して実行させる、実務に役立つWordのマクロの完全なソースコードを公開しています。学習目的でもOKですので、ご自由にお使いください。問題発生機序と記事プログラムの守備範囲問題は次の順序で進んでいく1.メイリオフォントで文書を作成する2.この文書をPDFファイル化する。この変換時点で根問題が発生する。3.Acrobat ReaderでこのPDFファイルを開き、康煕部首文字を「検索」してみる。例えば、文書内に「高」の文字を視認できれば、その「高」を「検索」してみる。ヒットしないことを確認する4.Acrobat Readerで、文字データを「コピー」する5.ワープロアプリWordの文書に「貼り付け」る6.Wordの「検索」コマンドで、康煕部首文字(例えば、「高」という文字)を「

    Word Macro Source Code : 文書中の康煕部首文字を正常文字に置き換える
  • 見た目の変わらない文字化け―康煕部首とメイリオ - 日本インスティテューショナル・リサーチ協会 コラム

  • BOM つき UTF-8 ファイルの作り方・確認方法・削除方法 - @kyanny's blog

    CSV ファイルを一行ずつ処理するプログラムを実行したら一行目のデータでエラーになったが、ログをみてもファイルをエディタや cat(1) でみてもおかしなところはない、ということがあって、 BOM かな?と思ったけど BOM つきかどうか確認するのに手間取ったので、次回(何年後だろう)のためにメモ。 BOM がついてるか確認する more(1) か less(1) で開いてみてファイル先頭に <U+FEFF> があったらビンゴ。 file(1) でも教えてもらえる。 Emacs でファイルを開いて BOM を確認する・表示させるのはやり方を見つけられなかった。 hexdump(1) でファイル先頭に? ef bb bf あるか見るのでももちろんよいが、普段からバイナリファイルのダンプを見慣れていないと見てもとっさに BOM つきであることがわからないので、一目見て明らかにおかしいとわかる

    BOM つき UTF-8 ファイルの作り方・確認方法・削除方法 - @kyanny's blog
  • ハイフンとかダッシュとかUnicodeにあるたくさんの横線(全135文字)

    鈴木です。ラズパイ部がやや休止中気味です。私の久しぶりの記事は、Unicodeにある横棒のコレクションです。 ハイフンとかダッシュとか、半角と全角とか、複数あることはご存じの方も多いと思います。Shift-JISとの変換で悩まされるケースもありますよね。 Unicodeにあるハイフンとかマイナスとかダッシュとか、横線に見える文字をある程度を一覧にしたブログなどはたくさん見つかるのですが、結構漏れがあったりします。自分で納得できるレベルにまで網羅した横線一覧がなかなか見つからなかったので、自分で作りました。せっかくなのでここに公開しておきます。 ハイフンやカタカナの長音記号など、直線が横に延びているものが対象で、縦方向や斜めの線は除きます。 ほとんど横方向だけどちょっとだけ傾いているものや、端にちょっとしたハネとかうろことか付いているもの、太さが途中で変わっているものは含めました。横線の場所

    ハイフンとかダッシュとかUnicodeにあるたくさんの横線(全135文字)
  • MJ文字情報一覧表 変体仮名編

    変体仮名の文字画像は、独立行政法人情報処理推進機構(IPA)と大学共同利用機関法人人間文化研究機構国立国語研究所(NINJAL)が共同で開発したものです。 IPAは、文字情報基盤 文字情報一覧表 変体仮名編(MJ文字情報一覧表 変体仮名編)をクリエイティブ・コモンズ 表示 - 継承 2.1 日 ライセンスによって提供しています。利用に際してはIPA の著作物であることを明記してください。なお、成果物の内容を適用した結果生じたこと、また、適用できなかった結果について、IPAは一切の責任を負いませんのでご了承ください。

  • [MS-DOS] ファイルのBOM追加/削除 | ミライニトドケ

    ツールによってはファイルにBOMが付いているかどうかによって内容を読めないことがあります。 読めない場合はエディタ等でBOMの追加/削除をすることになりますが、対象ファイルが大量にある場合は1つずつ手で書き換えていくのは非常に面倒なので、一括変換するためのbatファイルがあると幸せになれるかも知れません。 そこで、今回はBOMの追加/削除を実現するコマンドを紹介します。 MS-DOSのコマンドだけでこの機能を実現するのは(おそらく)不可能なため、uconvというツールを使用します。 uconvをダウンロード BOMを除去 BOMを追加 uconvをダウンロード 以下のサイトからuconvのバイナリをダウンロードします。 http://site.icu-project.org/download いくつかバージョンがありますが、出来るだけ最新の安定しているものを選択しましょう。 該当バージョン

  • UTF-8の文字コード表 - 備忘帳 - オレンジ工房

    UTF-8の文字コード表なのです。いつも検索して、よそ様のページを参照させていただいていたのですが、面倒なので自分で作りました。 perlのスクリプトでガーッと出したので、見栄えはアレですが、とりあえず。 1バイト文字 2バイト文字 3バイト文字 E2 9C 80 ~ Dingbats、昔からある記号、絵文字とか E3 80 80 ~ 全角ひらがな・カタカナ EF BC 80 ~ 全角英数字、半角カナ 4バイト文字 F0 9F 8C 80 ~ たぶん今どきの皆さんの言う絵文字 F0 9F 98 80 ~ 顔文字 更新履歴 (2018-05-10 追記) コード表を全体的に再出力しました。変更点は以下の通りです。 unicode追加面、4バイト文字の表もつくりました。 各文字ブロックにタイトルを付けました。英語タイトルはUnicode仕様書PDFへ直リンクしています。 表示されてないけど、ど

  • 書字方向 - CyberLibrarian

    各文字については、「Unicode (東アジア)」のページを参照してください。 「ISO 639言語コード」については、「ISO 639言語コード」のページを参照してください。 これらの文字は、近代以降は、横書きと併用されています。特に、韓国は横書きが多くなっており、縦書きも左縦書きが多くなりつつあると言われています。 記述方法 英語では、左横書きをLeft to Right (LTR又はLR)、右横書きをRight to Left (RTLまたはRL)、左横書きと右横書きの混在をBi-Directional (BiDi)といいます。初期のコンピュータは米国を中心とする欧米で発展したため、左横書きが標準(デフォルト)となっています。右横書きや、左横書きと右横書きの混在を扱う時に、特別な記述が必要な場合があります。 Unicode Unicodeの文字には、各文字の通常の書字方向に基づいて、

  • Unicode(ダイアクリティカル・マーク(合成可能)) - CyberLibrarian

    Unicodeの字種の表です。 下表のリンク先のページに、十六進数の数値文字参照で記述した文字コード表を掲載しています。文字コード表中の文字は、環境によっては文字が正しく表示されない場合がありますが、各ページからリンクしているPDFでは正しく表示されます。 文字ブロック Unicode範囲 説明 ダイアクリティカル・マーク(合成可能)

  • ダイアクリティカルマーク - Wikipedia

    英語版記事を日語へ機械翻訳したバージョン(Google翻訳)。 万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。 信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。 履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。 翻訳後、{{翻訳告知|en|Diacritic|…}}をノートに追加することもできます。 Wikipedia:翻訳のガイドラインに、より詳細な翻訳の手順・指針についての説明があります。

  • いろんな文字コードでファイルを読み書きするにはADODB.Stream - 今日覚えたこと

    昨日書いた通り、FileSystemObjectではUTF-8のテキストファイルを扱えない。そういうときはADODB.Streamを使う。これはUTF-8以外の文字コードも扱える。 ファイルの読み込み var s = new ActiveXObject('ADODB.Stream'); s.type = 2; s.charset = 'utf-8'; s.open(); s.loadFromFile('C:\\data\\hoge.txt'); var text = s.readText(-1); s.close(); charasetプロパティに文字コード名を渡している。色々な文字コードに対応しているらしい。どれくらい対応しているのか、その一覧を探したんだけど見つからない。 また、文字コードの自動判別ができる。charsetプロパティに"_autodetect"を渡せば良い。 typeプ

    いろんな文字コードでファイルを読み書きするにはADODB.Stream - 今日覚えたこと
  • UTF-8にもいろいろある - ザリガニが見ていた...。

    前回からの続き。 改行コードの違いを体感してみる - ザリガニが見ていた...。 文字エンコードとロケールを体感する - ザリガニが見ていた...。 改行コードの違いも知った。文字コードとロケール、ターミナルの言語環境との関係も知った。これで文字にまつわる悩みとはおさらばできると思ったら、まだダメだった...。 実験環境 OSX 10.8 Mountain Lion以前((OSX 10.9 Mavericksでは、Mac仕様なNFDのUTF-8を表示しようとするとエラーになってしまったため、10.8以前の環境で実験した。Assertion failed: (width > 0), function conv_c, file /SourceCache/shell_cmds/shell_cmds-175/hexdump/conv.c, line 137. ** ** Abort trap: 6

    UTF-8にもいろいろある - ザリガニが見ていた...。
  • パーセントエンコーディング - Wikipedia

    パーセントエンコーディング (英: percent-encoding) とは、URIにおいて使用できない文字を使う際に行われるエンコード(一種のエスケープ)の名称である。「%」を使用していることから、この名称で呼ばれている。一般にURLエンコードとも称される。 URLエンコードには、上記のパーセントエンコーディングによる符号化と以下に記述するapplication/x-www-form-urlencodedによる符号化の2種類がある。半角スペースはパーセントエンコーディングでは「%20」に符号化されるが、application/x-www-form-urlencodedによる符号化では「+」に符号化される。 URL Standardでは、URLのパス部分の構文解析の際、以下 (path percent-encode set) に該当する文字であれば、UTF-8で符号化のうえパーセントエンコ

  • Blogger

    Google のウェブログ公開ツールを使って、テキスト、写真、動画を共有できます。

  • http://unicus.jp/skmk/archives/498

  • cmd.exeとchcp.comだけで、文字コード(Unicode、UTF-8、UTF-7、JIS、EUC-JP、SJIS)を変換する! - Windows Script Programming

    cmd.exeとchcp.comだけで、文字コード(Unicode、UTF-8、UTF-7、JIS、EUC-JP、SJIS)を変換する! Unicode、UTF-8、UTF-7、JIS、EUC-JP、SJISなどの文字コードがcmd.exeとchcp.comだけで変換できます。 Unicode → 各種文字コード UTF-7.cmd Unicodeファイル UTF-7ファイル start /min /wait cmd /c chcp.com 65000 ^& cmd /c type %1 ^>%2 UTF-8.cmd Unicodeファイル UTF-8ファイル start /min /wait cmd /c chcp.com 65001 ^& cmd /c type %1 ^>%2 JIS.cmd Unicodeファイル JISファイル start /min /wait cmd /c ch

    cmd.exeとchcp.comだけで、文字コード(Unicode、UTF-8、UTF-7、JIS、EUC-JP、SJIS)を変換する! - Windows Script Programming
  • 文字情報基盤整備事業 | IPA 文字情報基盤整備事業に関するWebサイトです

    文字情報基盤導入パンフレット[pdf 0.2MB] 文字情報基盤導入ガイド[pdf 0.6MB] 文字情報基盤導入テクニカルスタディ[pdf 0.2MB] 縮退マップ利用ガイド[pdf 0.6MB] 文字情報基盤整備事業について 文字情報基盤整備事業は、平成22年度電子経済産業省推進費(文字情報基盤構築に関する研究開発事業) によりスタートした、行政で用いられる人名漢字等約6万文字の漢字を整備するプロジェクトです。詳しくはこちらから

  • UnicodeのIVSがもたらすメリットとデメリット

    UnicodeのIVS(Ideographic Variation Sequence)は、漢字を表すUnicodeの直後に Variation Selectorと呼ばれるコードを付加し、漢字の「異体字」を表現する方法だ。IVSによって、従来よりも多くの字体が利用可能になる反面、データの「名寄せ」が困難になる恐れもある。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、IVSの利点と懸念すべきポイントを解説する。(日経コンピュータ) 筆者がITproに「漢字1文字が最大8バイト、Unicodeの「IVS」とは?」を寄稿してから約1年が経って、IVSに新たな動きがあった。常用漢字表の改正(2010年11月30日)に前後して、4195字のIVSが追加されると同時に、IVS技術促進協議会が発足したのだ。IVSの拡大によって、これまでフォント切り換えでしか

    UnicodeのIVSがもたらすメリットとデメリット
  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?