タグ

文字に関するtekimenのブックマーク (15)

  • Intl.Segmenterはどうやって単語分割しているのか

    Intl.Segmenter についておさらい JavaScript には Intl と呼ばれる国際化 API があり、日時や数値のフォーマットを始めとする国際化に便利な機能が揃っています。Intl.Segmenter はこの Intl の一機能で、文字・単語・文章単位での文字列分割を可能にします。 文字単位での分割では複数のコードユニットやコードポイントを持った文字を考慮し、正確に見た目上の1文字(書記素)で分割できるので、絵文字を含んだ文字数のカウントなどに便利です。 const segmenter = new Intl.Segmenter("ja", { granularity: "grapheme" }); console.log("🇯🇵👨🏻‍💻".length); // ❌ 11 console.log([..."🇯🇵👨🏻‍💻"].length); // ❌

    Intl.Segmenterはどうやって単語分割しているのか
  • 文字ときどきRuby / Character and Ruby (NSEG)

    MySQL徹底入門 第4版 - ユーザー管理とか文字コードとか / MySQL Book 4 - User and Charset

    文字ときどきRuby / Character and Ruby (NSEG)
  • Панграма — Вікіпедія

    tekimen
    tekimen 2024/01/05
    パングラム
  • コモンエイジ:文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞

    行政機関が管理する膨大な数の「文字」がデジタル改革を阻んでいる。字形がわずかに異なる文字も含め、戸籍だけで約70万字。岸田文雄政権は自治体の情報システムを効率化するため、約7万字に絞り込む計画だ。だが、人によっては名前の漢字が変わる可能性があり、慎重論もくすぶる。文字を決めるのは誰なのか――。 スマホに表示できない 「スマートフォンやパソコンで表示できない文字がある。魑魅魍魎(ちみもうりょう)とした世界だ」 デジタル庁幹部は、戸籍などで使われてきた文字の特異性をそう表現し、「自治体システムを複雑にし、ガラパゴス化させた元凶だ」と言い切った。 政府は、自治体ごとに仕様がばらばらな戸籍や住民基台帳、国民年金など20業務の情報システムを2025年度末までに標準化する方針を掲げている。 人口減少で公務員の確保が難しくなる中、システムの効率的な運用で行政サービスの質を維持する目的だ。多すぎる文字を

    コモンエイジ:文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞
  • Unicodeのgrapheme cluster (書記素クラスタ) | hydroculのメモ

    Unicodeのgrapheme cluster (書記素クラスタ) 2015/10/25 Unicodeテキストを1文字ずつ分割するアルゴリズムをUnicodeの仕様として定められており、grapheme cluster (書記素クラスタ)と呼ばれる。 普通はUnicodeのコードポイント1つずつ文字が割り当てられているので、ほとんどはコードポイント1つが1文字になるのだが、たまにコードポイント2つ以上で1文字になるものもあり、 1文字ずつテキストを分解するのは意外と複雑なルールになる。 Grapheme cluster について書かれている公式のドキュメントは以下にある。 Unicode® Standard Annex #29 UNICODE TEXT SEGMENTATION http://unicode.org/reports/tr29/ この記事は公式ドキュメントを読んで理解した

  • https://academic-accelerator.com/encyclopedia/jp/devanagari-transliteration

  • ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか?

    小形克宏 @ogwata 日の携帯絵文字を収録する国際会議に出席した話のつづき。この件は書こうか迷ったけど、書いておこう。ISO/IEC 10646(≒Unicode)で構造的に「ゴミ」文字が増えていく件。おかしな点があればぜひご指摘ください。 2010-04-25 23:46:39 小形克宏 @ogwata 一昨日のツィートで、WG 2会議は「対立を前提とした共同作業」だと書いた。自分が通したい主張を相手に呑ませるため、可能な限り妥協する。「ISO/IEC 10646のより良い改訂」という目的から、妥協は美徳とされる。互いに妥協しながら落し所を探る。これがWG 2会議の流儀だった。 2010-04-25 23:52:40

    ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか?
  • 中川翔子「本当はイヤだった」本名の改名をついに発表「38年かかってようやくスッキリ」(スポニチ) | 毎日新聞

    タレント・中川翔子が11日に自身のYouTubeチャンネルを更新し、名を改名することを発表した。 「超重大なお知らせです。」というタイトルで投稿された動画。そこで中川は「改名しました!」といい、名「しようこ」から、現在の芸名と同じである「翔子(しょうこ)」に変更すると発表した。 そもそも、なぜ“しようこ”になったのか。21年5月に投稿されたYouTube動画によると、薔薇の「薔」の字を用いた「薔子」を“しょうこ”と読ませる予定だったという。ところが、届けを出しにいったところ、人名に使えない漢字だったことが判明。その際、母方の叔母が担当者と揉めたといい「ひらがなでいいわ!」と殴り書きにして提出したところ「よが大きくて“しようこ”で登録されてしまったそうです…」と明かしていた。 中川は「当は(しようこが)イヤだったんですよ。しとよが合体して“はうこ”って書かれたりとか。説明にも困って」と

    中川翔子「本当はイヤだった」本名の改名をついに発表「38年かかってようやくスッキリ」(スポニチ) | 毎日新聞
    tekimen
    tekimen 2023/11/12
    常用漢字と人名用漢字は合計で2999字しか使えないうえ、薔が使えなかったケース。日本人の人名用漢字はざっくりいうと1981年からゆるくなったとはいえそれでも使えない漢字は多いのだなと
  • zi.tools 字統网

  • UTF-32 でも固定長で処理出来るわけではない

    AC_2017-12-08.md UTF-32 でも固定長で処理出来るわけではない 2024/04/17 更新 この記事は、自作OS Advent Calendar 2017の 12/8 の記事として書かれました。 もう、日語の漢字や仮名を 2 バイト文字と呼ぶのは、やめよう IT 系のニュースサイトでも、未だに日語の漢字や仮名のことを 2 バイト文字と呼んでいる記事が散見されます。 2017 年現在、UTF-8 という Unicode の符号化方式が主流で、日語の漢字や仮名は 3 バイト~ 4 バイトで表現されることが多く、後述する結合文字や異体字セレクタのようなものまで含めると、さらにバイト数は増加します。日語の漢字や仮名を 2 バイト文字と呼ぶことは適切ではありません。 Unicode の UCS-2 Unicode の規格が始まったばかりの頃は、世界の文字を 2 バイトで表

    UTF-32 でも固定長で処理出来るわけではない
  • [Unicode]スペース以外の見えない空白文字の一覧 | 404 motivation not found

    目次 はじめにスペースや全角スペースのような空白文字一覧参考にしたサイトはじめに スペースや全角スペース以外にもいくつか存在する目に見えない Unicode の文字の一覧です。 スペースや全角スペースのような空白文字一覧 ブラウザや環境によっては表示されない場合があると思います。 Unicode 実体 説明 description

    [Unicode]スペース以外の見えない空白文字の一覧 | 404 motivation not found
  • 文字って何かね? - Qiita

    元ネタ: 「文字列を文字の列とみなす単純化」ってどういうこと?解説編 - 西尾泰和のはてなダイアリー Shift JISおじさん(半角文字は1バイト、全角文字は2バイト派) 今どきShift JISもないだろうと思いますが、レガシーな業務システムなんかだと割と普通に残っていますね。 C#でShift JISな文字を扱いたければ、System.Text.Encodingクラスを使っていろいろすればいいです。 var text = "あいう"; var enc = System.Text.Encoding.GetEncoding("Shift_JIS"); // コードページ932でも可。 // 日WindowsならDefaultプロパティでもいい。 var bytes = enc.GetBytes(text); 後で書きますが、C# のchar型やstring型はUnicodeをベースに

    文字って何かね? - Qiita
  • Unicode IVS/IVDについて | 一般社団法人 文字情報技術促進協議会

    IVS(Ideographic Variation Sequence/Selector)は、文字符号としては同一視される漢字の、細かな字形の差異を特別に使い分けるための仕組みです。IVSは文字符号の国際規格であるISO/IEC 10646(2008年版以降)に規定されています。また、IVSと、それに対応する字形の一覧は、UnicodeコンソーシアムからIVD(Ideographic Variation Database)として公開されており、ISO/IEC 10646から正規の規格として参照されています。 文字符号(文字コード)を定める日工業規格のJIS X 0213(以下、JIS)やISO/IEC 10646 Universal Coded Character Set(以下、UCS)などでは、複数の字形に対して一つの共通な符号(コード)を与える場合があります(「同一の符号位置に複数の字

  • 池田証寿の雑文

    池田証寿/shikeda@Lit.Let.hokudai.ac.jp 目次 もじれたページ JIS X 0213:2000以降 JIS X 0213:2000まで JIS X 0208:1997まで 以下には、Webに公表した雑文を中心に、学会誌等に公表した論文を加えて掲げた。 JIS X 0213:2000以降 「表外漢字字体表(案)」寸見 2000年10月18日のJCS委員会、2000年10月21-22日の活字字体史研究会で発表し、若干の修正を加えた上で国語審議会に提出した。「表外漢字字体表」の答申が出た段階では、いまさらの感があるが、2000年10月の時点で私が何をしたかを記録する意味でここにおいておきたい。なお、「表外漢字字体表(案)」基礎データ(hyogai.txt)もある。2001年6月2日公開。 JIS 漢字の参考文献案内 2001年2月15日作成。 『国書総目録』の漢字につ

  • ナール - Wikipedia

    ナール (NAR) は、写研が1972年に発売した丸ゴシック体である。 概要[編集] デザイナーの中村征宏が1970年、写研主催の「第1回石井賞創作タイプフェイスコンテスト」応募作「細丸ゴシック」として発表し、同コンテストで1位となった書体である[1]。中村は看板業、テレビの字幕・タイトルロゴ用テロップカード制作、広告レイアウトなどの仕事に携わった経歴を持つデザイナーで、もともと中村にとって丸ゴシック体はスポットニュースにおけるヘッドライン表示用テロップカードの指定書体として書き慣れたものであった[1]。「お」「た」「む」などのユニークな字形はテレビのテロップを書き慣れていたときのクセからきていると発言している[2]。 応募書体の漢字50字および、かな・一部記号を含む5800字の原字作成を中村が、監修を写研の橋和夫が行った[3]。書体は「中村」の 「ナ」と、「ラウンド」の頭文字「R」を組

  • 1