[B! unicode] kiririmodeのブックマーク

kiririmode id:kiririmode

unicodeに関するkiririmodeのブックマーク (15)

Unicode正規化
正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによる
kiririmode 2024/01/08
unicode
リンク
家計簿アプリ Zaim における名寄せの検証 - YANS2023ブース展示｜koya3to
くふう AI スタジオ AX 推進部でマネージャーをやっている koya3to です。AX 推進部では、”ユーザーファーストな新しい体験＝AX（AI eXperience＆AI Transf ormation）”を推進しています。今回は生成系 AI 周りの研究動向を探るため、NLP 若手の会（YANS）2023 にスポンサーとして参加したのでその内容について報告します。 Zaim における名寄せの検証くふう AI スタジオはスポンサーブースで2つの展示を行いました。1つは現在AX 推進部で検証中の取り組みについての紹介です。今回はこちらの話題について書きます。家計簿サービス Zaim では Zaim トレンドというサービスを提供しています。家計簿データをもとに、外食や流通チェーンの競合・顧客をツール上で分析可能なサービスです。これを実現するためには、家計簿データをチェーンごとに集計する必
kiririmode 2023/12/16
ZaimでもUnicode正規化はNFKC

unicode
リンク
IDS01-J. 文字列は検査する前に正規化する
信頼できない入力を受け取るアプリケーションは、入力値を検査する前に正規化するべきである。Unicodeでは同じ文字列が複数の異なる表現を取り得るため、正規化が重要だ。Unicode Standard [Davis 2008] Annex 15は、Unicodeの正規化形式(Normalization Form)について以下のように規定している。処理系が文字列を正規化形式で保持する場合、等価な文字列は一意のバイナリ表現を持つことが保証される。違反コード Normalizer.normalize()メソッドは、UnicodeテキストをUnicode標準 Annex #15に規定された標準正規化形式に変換する。任意の形式にエンコードされた文字列に対して入力値検査を行う、最も適した正規化形式は、KC (NFKC)であることが多い。以下の違反コードでは、文字列を正規化する前に検査を試みている。
kiririmode 2023/12/16
JPCERTではUnicodeの正規化に関してNFKCが最適としている

unicode
リンク
Shift_JIS文化からUTF-8への移行ガイド - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
kiririmode 2018/08/18
unicode

sier

utf8

sjis
リンク
Go 言語と Unicode 正規化
今回は少し目先を変えて「Unicode 正規化（normalization）」のお話。 2羽の「ペンギン」まず「ペンギン」という文字列を思い浮かべてみる。この文字列を Unicode のコードポイントで表すと以下のようになる。ペ：U+30DA ン：U+30F3 ギ：U+30AE ン：U+30F3 ところでペンギンの「ペ」と「ギ」は半濁点および濁点を含む。 Unicode は「ペ」と「ギ」をそれぞれ2つの要素に分解できる。ペ：U+30D8 + U+309A ン：U+30F3 ギ：U+30AD + U+3099 ン：U+30F3 U+309A および U+3099 はそれぞれ半濁点と濁点を表す「結合文字（combining character）」である。「ヘ」や「キ」のような「基底文字（base character）」に結合文字を1つ以上1 付加した文字を「合成列（composite
kiririmode 2017/01/07
golang

unicode
リンク
Encode::UTF8Mac - トミールの技術系日記
探したのだけど作っている人がいなかったので、いわゆるutf-8-macと呼ばれるエンコーディングを追加するEncode::Encodingをつくりました。 https://github.com/tomi-ru/Encode-UTF8Mac use Encode; use Encode::UTF8Mac; print Encode::encode('utf-8-mac', '蘄藭づけ'); use Path::Class; for my $entry (dir(".")->children) { my $filename = Encode::decode('utf-8-mac', $entry); } 反応みてPODちゃんと書いたらUPしようと思っている →POD書いた. PODの方が少し整理されているのでわかりやすいかもしれない。 https://github.com/tomi-ru/En
kiririmode 2010/12/23
unicode

*mac

perl

encode
リンク
Re: Percent-encoding URIs in Perl - Mark Stosberg
Also, what is your opinion on the appropriateness of including handling of UTF-16 surrogate pairs in a URI percent-encoding solution? CGI.pm and URI::Escape::XS do this (using code from the same author). I wan to further clarify what the bug is here. According to the Perl docs is it against best practices to check the UTF-8 flag. Instead the programmer should keep track of the encodings of her str
kiririmode 2010/12/23
unicode

perl

escape
リンク
perlunifaq - Perl Unicode FAQ - perldoc.jp
This is a list of questions and answers about Unicode in Perl, intended to be read after perlunitut. これは、perlunitut の後で読むことを想定した、Perl での Unicode に関する質問と答えの一覧です。 perlunitut は実際には Unicode チュートリアルじゃないんじゃないの?¶
kiririmode 2010/11/21
perl

unicode

encode
リンク
Unicode 6.0絵文字対応Encode::JP::Emoji 0.60をリリース(Perl) Kawanet Blog II/ウェブリブログ
「ウェブリブログ」は 2023年1月31日をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧
kiririmode 2010/10/30
perl

unicode

emoji

encode
リンク
IBM Developer
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
kiririmode 2010/10/02
unicode

*programming

java
リンク
IBM Developer
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
kiririmode 2010/03/21
*programming

java

unicode
リンク
Encodeでラクラク日本語処理 - JPerl Advent Calendar 2009
こんにちは！ラブプラスとときメモ４の狭間で揺れ動いているxai cronです！！今日は日本でプログラムを書いていたら避けては通れない気がする、Encodeの話をしようと思います！はじめにまず、この記事を読む前に、Perlのバージョンの確認をしてください。以下のようにやればバージョンが表示されます。 % perl -v ここで、5.8.1より下の数字ができてきた方は、Perlのバージョンアップをしてください。5.8.1より下のバージョンでは、Perlの内部文字コードが安定していないので、いい感じになりません。できれば5.8.8以上のバージョンを使いましょう。それから、文字コードってなによって人も適当にWikiとかで調べてから読んだ方がいいと思います！！ Encode.pm Encodeは昔のjcode.plやJcode.pmに代わる、現在の文字コード処理のスタンダードModuleです。
kiririmode 2009/12/19
*programming

perl

unicode
リンク
UnicodeとUTF-8の違いは？ - Humanity
という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/
kiririmode 2009/12/01
unicode

utf8
リンク
WWW::HatenaStarのメモ - Scrapcode@はてなダイアリー
WWW::HatenaStarを使って引用テキストやスタコメを取得しようとしたら、しょうもないところでハマったので忘れないようにメモ。まず、SYNOPSISを参考に以下のようなスクリプトを書いてみます。今回は情報取得のみが目的なので、スターを付ける部分は省いています。 #!/usr/bin/env perl use strict; use warnings; use utf8; use WWW::HatenaStar; use YAML::Any; MAIN:{ my $uri = 'http://h.hatena.ne.jp/khashi/9259264072144752551'; my $conf = { username => 'khashi', #<- hatena ID password => '**********', #<- hatena password }; my $s
kiririmode 2009/10/03
*programming

unicode
リンク
Moving to Unicode 5.1
Hey—we've moved. Visit The Keyword for all the latest news and stories from Google
kiririmode 2008/05/10
Unicodeじゃない体系つかうのは小学生までだよねーという時代がくる

unicode

web
リンク
1