タグ

Unicodeに関するfumiyasのブックマーク (13)

  • Unicode の嫌なところを触ってしまった Python - yanok.net

    Pythonとlibiconv, nkf, Javaのコード変換を比較した記事がありました。 主な実装における EUC-JIS-2004, Shift_JIS-2004 から Unicode への変換結果の違い ASCIIとJIS X 0201の違いに起因する円記号問題とチルダ・オーバーライン問題、それにUnicodeのFTPサイトが原因と思われる全角ダッシュの件という既知の問題が多いので目新しくないのですが (『プログラマのための文字コード技術入門』をお読みいただければわかります)、Pythonについて目新しげな話がありました。 Pythonでは他と違って、二重(白抜き)の括弧をU+FFxxの位置にあるものでなくU+29xxに割り当てているそうです。うむ。そうか、そうきたか。 JISの公式な対応表ではU+FFxxの方になっています。文字名でいうとFULLWIDTH {LEFT|RIGHT

  • 主な実装における EUC-JIS-2004, Shift_JIS-2004 から Unicode への変換結果の違い

    まとめました。 nkfとiconvの差異 https://nathancorvussolis.blogspot.jp/2015/05/difference-between-nkf-and-iconv.html Pythonとiconvの差異 https://nathancorvussolis.blogspot.jp/2016/11/difference-between-python-and-iconv.html JavaのShift_JIS-2004については下記のブログを引用させていただきました。 iconv、JavaPythonのJISX0213 - yuan-jiu blog http://yuan-jiu.asablo.jp/blog/2013/05/11/6807043 バージョン libiconv 1.14 nkf 2.1.4 Python 3.4.5 Java 1.7.0_

  • Dango - Emoji & GIF Assistant App for Android

    Technological developments have made communication much easier. Long distance communication has become very easy and varied nowadays. In the past, long-distance communication could only be done by letter and this could not be sent in a very fast time because it was also determined by the distance between the two existing places. After that, then […] The presence of various applications to send mes

  • Unicodeプロパティを使ったPerl正規表現 - Hatena Developer Blog

    こんにちは、Webアプリケーションエンジニアのid:nanto_viです。 Webアプリケーションを作っていると、「全角文字と半角文字を統一したい」「ユーザーの入力から漢字を抜き出したい」といったテキスト処理を行う場面にたびたび遭遇します。はてなではWebアプリケーションのサーバー側プログラミング言語としてPerlを多く使っていますが、PerlならこのようなときにUnicodeプロパティを用いた正規表現パターンで柔軟な処理が可能です。 Unicodeプロパティ 現在、ほとんどのプラットフォームで採用されている文字集合がUnicodeです。Unicodeでは文字だけでなくその文字の様々な特性(プロパティ)も定められており、テキスト処理の基礎情報として活用できます。 Perl正規表現でのUnicodeプロパティの利用 Perlの正規表現では、\p{Property_Name=Value}のよう

    Unicodeプロパティを使ったPerl正規表現 - Hatena Developer Blog
  • 四半世紀ぶりにWAVE DASH 例示字形が統一

    小形克宏 @ogwata Hiroyuki Komatsu, “Proposal for the modification of the sample character layout of WAVE_DASH (U+301C)”, std.dkuug.dk/JTC1/SC2/WG2/d… [PDF]

    四半世紀ぶりにWAVE DASH 例示字形が統一
  • 日本語ファイル名問題 - Mac環境固有 - ECCS端末 - FAQ - ECCS Tutor's page

    注意 この記事は古い記事です。 過去に東京大学教育用計算機システム(ECCS)で発生していた問題について説明しています。問題としてはECCS以外の一般の環境でも発生しうる問題であり、ECCS以外でも有用であると考え残してありますが、内容は更新されていません。また、一部の事項は、東京大学教育用計算機システム(ECCS)に固有のものであり、一般の環境には該当しなかったり、適用できなかったりする部分がございますことを、予めご了承ください。 現在のECCSではこの問題は対策されており、以下に記述のある問題のほとんどは解消されています。しかしながら、最近においてもFinderで若干の不具合が残っているという報告があります。 →相談員ミーティング(2018年6月15日) →濁点・半濁点を名前に含むフォルダのFinder等における不具合(ECCS広報) 目次 概要 「日語ファイル名問題」とは? 過去の

  • 文字コード – ttkzw's site

  • 全角チルダ問題

    株式会社メルカリ様で行われた第2回CircleCI ユーザーコミュニティミートアップでの資料です。 #circlecijp

    全角チルダ問題
  • HFS+のテキストエンコーディング – ものかの

    HFS+はファイルやフォルダなどのアイテム名をどのテキストエンコーディングで扱っているのでしょうか? Appleは最近までこの情報をドキュメントに記載して公開していたのですが、今はしていません(2016年10月現在)。それでも第三者によるアーカイブがかろうじて残っており、典拠として貴重なのでここに記録しておきます。 2009年時点のFile Systems and Unicode Support 追記:いつのまにかリンク切れしていました。キャプチャを貼っておいてよかった…。 見ての通りUTF-16ですね。インターネット上ではUTF-8-MACであるとの説明が散見されますが間違いです。 HFS+のUnicode正規化形式 Unicode正規化形式はUAX#15で4種類が正式に決められています。HFS+はそのうちのNFDをさらにAppleが改変した特殊な正規化形式を実装しています。アイテム名は

    HFS+のテキストエンコーディング – ものかの
  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

  • Unicode(その他の記号) - CyberLibrarian

    Unicodeの字種の表です。 下表のリンク先のページに、十六進数の数値文字参照で記述した文字コード表を掲載しています。文字コード表中の文字は、環境によっては文字が正しく表示されない場合がありますが、各ページからリンクしているPDFでは正しく表示されます。 文字ブロック Unicode範囲 説明 錬金術記号

  • [連載:正規表現] Unicode文字プロパティについて(2) -- Pの一族|TechRacho by BPS株式会社

    [連載1回目へ] こんにちは、hachi8833です。まだbyobu-configが自分の環境で動いてくれないので、ctrl-aだけ殺してデフォルトキーバインドでbyobuを使い始めているところです。 先週に引き続いて正規表現のUnicode文字プロパティについて調べていきます。改めて調べ始めてみるといろいろと奥深い世界であることに気付き、一人で勝手に盛り上がってます。 早速はてブでツッコミをいただきました。初回連載で[\p{Ideographic}]の記述がいきなり間違っていました。失礼いたしました。Ideographicは日中韓ベトナム(CJKVと略されます)のみが対象となります。前回分も修正いたしました。 Pの一族 正規表現向けのUnicode文字プロパティの解説として、日語で読めるそこそこまとまった資料は、今のところマイクロソフトの .NET Frameworkの「正規表現での文

  • Perl 5.8.x Unicode関連

    -> 趣旨と注意書き -> UTF8フラグ? -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル 趣旨と注意書き Perl 5.8.x のUnicode 関連です。 正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。 使ってみると、よくわかんなくなったので、ちょっとまとめてみました。 今でもあんまりわかってないかもしれないので、内容は無保証です。 突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

  • 1