タグ

unicodeに関するkiririmodeのブックマーク (15)

  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによる

    Unicode正規化
  • 家計簿アプリ Zaim における名寄せの検証 - YANS2023ブース展示|koya3to

    くふう AI スタジオ AX 推進部でマネージャーをやっている koya3to です。AX 推進部では、”ユーザーファーストな新しい体験=AX(AI eXperience&AI Transformation)”を推進しています。今回は生成系 AI 周りの研究動向を探るため、NLP 若手の会(YANS)2023 にスポンサーとして参加したのでその内容について報告します。 Zaim における名寄せの検証くふう AI スタジオはスポンサーブースで2つの展示を行いました。1つは現在AX 推進部で検証中の取り組みについての紹介です。今回はこちらの話題について書きます。 家計簿サービス Zaim では Zaim トレンドというサービスを提供しています。 家計簿データをもとに、外や流通チェーンの競合・顧客をツール上で分析可能なサービスです。これを実現するためには、家計簿データをチェーンごとに集計する必

    家計簿アプリ Zaim における名寄せの検証 - YANS2023ブース展示|koya3to
    kiririmode
    kiririmode 2023/12/16
    ZaimでもUnicode正規化はNFKC
  • IDS01-J. 文字列は検査する前に正規化する

    信頼できない入力を受け取るアプリケーションは、入力値を検査する前に正規化するべきである。Unicodeでは同じ文字列が複数の異なる表現を取り得るため、正規化が重要だ。Unicode Standard [Davis 2008] Annex 15は、Unicodeの正規化形式(Normalization Form)について以下のように規定している。 処理系が文字列を正規化形式で保持する場合、等価な文字列は一意のバイナリ表現を持つことが保証される。 違反コード Normalizer.normalize()メソッドは、UnicodeテキストをUnicode標準 Annex #15に規定された標準正規化形式に変換する。任意の形式にエンコードされた文字列に対して入力値検査を行う、最も適した正規化形式は、KC (NFKC)であることが多い。 以下の違反コードでは、文字列を正規化する前に検査を試みている。

    IDS01-J. 文字列は検査する前に正規化する
    kiririmode
    kiririmode 2023/12/16
    JPCERTではUnicodeの正規化に関してNFKCが最適としている
  • Shift_JIS文化からUTF-8への移行ガイド - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    Shift_JIS文化からUTF-8への移行ガイド - Qiita
  • Go 言語と Unicode 正規化

    今回は少し目先を変えて「Unicode 正規化(normalization)」のお話。 2羽の「ペンギン」 まず「ペンギン」という文字列を思い浮かべてみる。 この文字列を Unicode のコードポイントで表すと以下のようになる。 ペ:U+30DA ン:U+30F3 ギ:U+30AE ン:U+30F3 ところでペンギンの「ペ」と「ギ」は半濁点および濁点を含む。 Unicode は「ペ」と「ギ」をそれぞれ2つの要素に分解できる。 ペ:U+30D8 + U+309A ン:U+30F3 ギ:U+30AD + U+3099 ン:U+30F3 U+309A および U+3099 はそれぞれ半濁点と濁点を表す「結合文字(combining character)」である。 「ヘ」や「キ」のような「基底文字(base character)」に結合文字を1つ以上1 付加した文字を「合成列(composite

    Go 言語と Unicode 正規化
  • Encode::UTF8Mac - トミールの技術系日記

    探したのだけど作っている人がいなかったので、いわゆるutf-8-macと呼ばれるエンコーディングを追加するEncode::Encodingをつくりました。 https://github.com/tomi-ru/Encode-UTF8Mac use Encode; use Encode::UTF8Mac; print Encode::encode('utf-8-mac', '蘄藭づけ'); use Path::Class; for my $entry (dir(".")->children) { my $filename = Encode::decode('utf-8-mac', $entry); } 反応みてPODちゃんと書いたらUPしようと思っている →POD書いた. PODの方が少し整理されているのでわかりやすいかもしれない。 https://github.com/tomi-ru/En

    Encode::UTF8Mac - トミールの技術系日記
  • Re: Percent-encoding URIs in Perl - Mark Stosberg

    Also, what is your opinion on the appropriateness of including handling of UTF-16 surrogate pairs in a URI percent-encoding solution? CGI.pm and URI::Escape::XS do this (using code from the same author). I wan to further clarify what the bug is here. According to the Perl docs is it against best practices to check the UTF-8 flag. Instead the programmer should keep track of the encodings of her str

  • perlunifaq - Perl Unicode FAQ - perldoc.jp

    This is a list of questions and answers about Unicode in Perl, intended to be read after perlunitut. これは、perlunitut の後で読むことを想定した、Perl での Unicode に関する 質問と答えの一覧です。 perlunitut は実際には Unicode チュートリアルじゃないんじゃないの?¶

  • Unicode 6.0絵文字対応Encode::JP::Emoji 0.60をリリース(Perl) Kawanet Blog II/ウェブリブログ

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • Encodeでラクラク日本語処理 - JPerl Advent Calendar 2009

    こんにちは!ラブプラスとときメモ4の狭間で揺れ動いているxaicronです!! 今日は日でプログラムを書いていたら避けては通れない気がする、Encodeの話をしようと思います! はじめに まず、この記事を読む前に、Perlのバージョンの確認をしてください。以下のようにやればバージョンが表示されます。 % perl -v ここで、5.8.1より下の数字ができてきた方は、Perlのバージョンアップをしてください。5.8.1より下のバージョンでは、Perlの内部文字コードが安定していないので、いい感じになりません。できれば5.8.8以上のバージョンを使いましょう。 それから、文字コードってなによって人も適当にWikiとかで調べてから読んだ方がいいと思います!! Encode.pm Encodeは昔のjcode.plやJcode.pmに代わる、現在の文字コード処理のスタンダードModuleです。

  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • WWW::HatenaStarのメモ - Scrapcode@はてなダイアリー

    WWW::HatenaStarを使って引用テキストやスタコメを取得しようとしたら、しょうもないところでハマったので忘れないようにメモ。 まず、SYNOPSISを参考に以下のようなスクリプトを書いてみます。今回は情報取得のみが目的なので、スターを付ける部分は省いています。 #!/usr/bin/env perl use strict; use warnings; use utf8; use WWW::HatenaStar; use YAML::Any; MAIN:{ my $uri = 'http://h.hatena.ne.jp/khashi/9259264072144752551'; my $conf = { username => 'khashi', #<- hatena ID password => '**********', #<- hatena password }; my $s

  • Moving to Unicode 5.1

    Hey—we've moved. Visit The Keyword for all the latest news and stories from Google

    Moving to Unicode 5.1
    kiririmode
    kiririmode 2008/05/10
    Unicodeじゃない体系つかうのは小学生までだよねーという時代がくる
  • 1