[B! 文字] tekimenのブックマーク

tekimen id:tekimen

文字に関するtekimenのブックマーク (23)

Microsoft Print to PDFで出力したファイルからテキストをコピペしたら文字化けしてた…→実はPDFの仕様に潜む本質的な欠陥が原因なのでは？
やまねこ⚙楢ノ木技研 @felis_silv お判りいただけるだろうか。これが Microsoft Print to PDF による文字化けである。。。なお、これMicrosoftだけじゃなくてほとんどあらゆるメーカーがやらかしてる。日本人なら気づくけど他の国の人に判りづらい問題。。。 pic.x.com/4Icgimi2I7 2025-07-15 21:56:42 社畜 @leemanoid ExcelからPDFに出力するときも「印刷→Microsoft Print to PDF」ではなく「エクスポート→PDFの作成」にしないと、ぱっと見は同じでも色々と変な出力結果になると聞いたことがある x.com/felis_silv/sta… 2025-07-16 12:00:52
tekimen 2025/07/19
Unicode

PDF

文字

文字コード
リンク
toLowerCaseの落とし穴とCase Foldingの話
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。LINEでAndroid Clientを開発しているMasakuniです。これはLINE Advent Calendar 2016の4日目の記事となります。 LINEのアプリ・サービスは多くの国で使われているため、国際化や多言語化はサービス開発時における重大なテーマの一つです。今回は、その中でも「大文字・小文字変換」について話をします。 Javaにおける String#toLowerCase() / toUpperCase() の挙動まずは一つ、問題を出してみましょう。 Q. 以下のJavaテストコードは常にpassすることが保証されているでしょうか? assertEquals("i", "I".toLowe
tekimen 2025/07/01
Unicode

文字

プログラミング

文字コード
リンク
Unicodeには大文字でも小文字でもないアルファベットがある
大規模文字セットのUnicodeは世界中のあらゆる文字を収録することを目指しており、個性的な絵文字も数多く登録されているほか、正体不明の記号もいくつか含まれています。さらに、Unicodeに存在する「大文字でも小文字でもないアルファベット」について、ソフトウェアデベロッパーであるレイモンド・チェン氏がMicrosoftの開発者ブログで解説しています。 What has case distinction but is neither uppercase nor lowercase? - The Old New Thing https://devblogs.microsoft.com/oldnewthing/20241031-00/?p=110443 Unicodeにはラテン文字をはじめいろいろな言語の文字が収録されていますが、その中に「大文字」「小文字」とともに別の種類が登録されている文字が
tekimen 2025/05/28
Unicode

文字

文字コード
リンク
行政事務標準文字検索α
単一漢字辺, 斉, 藤単一かなあ, か, を読みヘン部首しんにょう, 辶, 辵部首番号 B162など部首一覧総画数 5 （絞込にも対応）文字図形番号 MJ025758 UCS U+8FBA, G+7E8A, J+307E JIS X 0213 1-42-53 戸籍統一文字 437640 登記統一文字 00437640 入管正字/外字 0x8FBA, 0xE5C9
tekimen 2025/05/25
文字

行政

漢字

文字コード

Unicode
リンク
デジタル庁､氏名の文字7万に集約　行政システム効率化 - 日本経済新聞
市区町村の基幹的な業務で使う文字の基準が2026年度をメドに統一される。今まで様々な氏名や住所の漢字に対応するため各自治体が独自ルールを定めており、デジタル化の障害になっていた。デジタル庁は国として策定した標準ルールの普及に力を入れる。政府は自治体システムの仕様統一を進めており、その前提として、基幹業務システムにおける共通化した文字ルールの適用を促す。アルファベットを使う欧米と異なり、日本語
tekimen 2025/01/06
文字

システム

文字コード
リンク
Python の isnumeric() の謎を追う："兆" は True、"垓" は False？ - ﾏｸﾞﾏｸﾞ (起動音)
この記事は 2024 TSG Advent Calendar 初日の記事です。 …………🤔❓ Python の数値文字列判定ロジックを探る str.isnumeric() メソッドとは？ Python の str.isnumeric() メソッドは、文字列内のすべての文字が数値を表すものであれば True を、そうでなければ False を返します。*1 まず、このメソッドの基本的な動作を見てみましょう。 # Python の isnumeric() の動作例 print("123".isnumeric()) # True; 1, 2, 3 は数字 print("123a".isnumeric()) # False; a は数字ではない print("五千万".isnumeric()) # True; 五、千、万は数値漢数字にも対応しており、一見よさそうに見えます。ところが…… pr
tekimen 2024/12/02
python

漢字

Unicode

文字
リンク
「旧字体」は「昔の漢字の形」ではない
こんにちは、鹿野です。「国」に対する「國」、「沢」に対する「澤」などは旧字体と呼ばれています。「旧字体」という言葉自体を知らなくても、「昔は今とは違う漢字の書き方もあった」くらいはなんとなく知っているよ、という方は多いと思います。 ▲この記事ではKが旧字体、Sが新字体であるとき「K／S」と表すものとしますしかし残念なことに、漢字が好きでも「旧字体」のことを雰囲気でしか理解しておらず、「古い漢字」程度にしか捉えていない人がほとんどです。そのため、以下のような勘違いをする人が非常に多くいます。 ▲よく見かけるが実は全部間違いこれらの発言はなぜ間違いなのでしょうか？目次 ◎意外と知らない「旧字体」の定義 ◎「旧字体」の定義における注意点 ◎誤解①：新字体は戦後日本でまとめて作られた ◎誤解②：戦前日本では専ら旧字体が使われていた ◎誤解③：新字体は旧字体を変化させてできた ◎旧字体と誤解
tekimen 2024/11/13
漢字

文字

異体字
リンク
「Yu Gothic UI」フォントの鍵括弧、繋げるとブラウザ表示で重なる問題を調べてみた - 俵のメモ帳
Yu Gothic UIに text-spacing-trim を適用するとバグるを読んでいて、気になってしまったので、実際にYu Gothic UIのファイルの中身を開いて調べてみました。発生している問題回避策原因 Yu Gothic UI 特有の問題？まとめ発生している問題 Yu Gothic UIは、Windows 10からプリインストールされているUI表示用フォントです。手元の環境で確認したところ、Windows 11 23H2 (ビルド 22631.4317) 時点では、「Yu Gothic UI Version 1.93」がインストールされていました。このフォントをChrome系ブラウザで利用すると、鍵括弧表示が崩れる場合があります。具体的には、「abc」「abc」のように、閉じ括弧・開き括弧が隣接するケースです。」「の部分ですね。この際に、閉じ括弧と開
tekimen 2024/10/14
フォント

UI

文字
リンク
Intl.Segmenterはどうやって単語分割しているのか
Intl.Segmenter についておさらい JavaScript には Intl と呼ばれる国際化 API があり、日時や数値のフォーマットを始めとする国際化に便利な機能が揃っています。Intl.Segmenter はこの Intl の一機能で、文字・単語・文章単位での文字列分割を可能にします。文字単位での分割では複数のコードユニットやコードポイントを持った文字を考慮し、正確に見た目上の１文字（書記素）で分割できるので、絵文字を含んだ文字数のカウントなどに便利です。 const segmenter = new Intl.Segmenter("ja", { granularity: "grapheme" }); console.log("🇯🇵👨🏻‍💻".length); // ❌ 11 console.log([..."🇯🇵👨🏻‍💻"].length); // ❌
tekimen 2024/02/07
javascript

Unicode

文字
リンク
文字ときどきRuby / Character and Ruby (NSEG)
「髙」 > '髙'.encode('Windows-31J') "\x{FBFC}" > '髙'.encode('SJIS') # SJIS は Windows-31J の別名 "\x{FBFC}" > '髙'.encode('Shift_JIS') # Shift_JIS と SJIS は異なる # `encode': U+9AD9 from UTF-8 to Shift_JIS # (Encoding::UndefinedConversionError) 20
tekimen 2024/01/29
文字

ruby

文字コード

Unicode
リンク
Панграма — Вікіпедія
tekimen 2024/01/05
パングラム

文字

パングラム
リンク
コモンエイジ：文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞
行政機関が管理する膨大な数の「文字」がデジタル改革を阻んでいる。字形がわずかに異なる文字も含め、戸籍だけで約70万字。岸田文雄政権は自治体の情報システムを効率化するため、約7万字に絞り込む計画だ。だが、人によっては名前の漢字が変わる可能性があり、慎重論もくすぶる。文字を決めるのは誰なのか――。スマホに表示できない「スマートフォンやパソコンで表示できない文字がある。魑魅魍魎（ちみもうりょう）とした世界だ」デジタル庁幹部は、戸籍などで使われてきた文字の特異性をそう表現し、「自治体システムを複雑にし、ガラパゴス化させた元凶だ」と言い切った。政府は、自治体ごとに仕様がばらばらな戸籍や住民基本台帳、国民年金など20業務の情報システムを2025年度末までに標準化する方針を掲げている。人口減少で公務員の確保が難しくなる中、システムの効率的な運用で行政サービスの質を維持する目的だ。多すぎる文字を
tekimen 2024/01/05
文字

行政

Unicode

文字コード

漢字
リンク
Unicodeのgrapheme cluster (書記素クラスタ) | hydroculのメモ
Unicodeのgrapheme cluster (書記素クラスタ) 2015/10/25 Unicodeテキストを1文字ずつ分割するアルゴリズムをUnicodeの仕様として定められており、grapheme cluster (書記素クラスタ)と呼ばれる。普通はUnicodeのコードポイント1つずつ文字が割り当てられているので、ほとんどはコードポイント1つが1文字になるのだが、たまにコードポイント2つ以上で1文字になるものもあり、 1文字ずつテキストを分解するのは意外と複雑なルールになる。 Grapheme cluster について書かれている公式のドキュメントは以下にある。 Unicode® Standard Annex #29 UNICODE TEXT SEGMENTATION http://unicode.org/reports/tr29/ この記事は公式ドキュメントを読んで理解した
tekimen 2023/12/28
Unicode

文字

文字コード
リンク
https://academic-accelerator.com/encyclopedia/jp/devanagari-transliteration
tekimen 2023/12/27
デヴァナーガリー

文字

IAST
リンク
ISO/IEC 10646（≒Unicode）でなぜ「ゴミ文字」が増えていくのか?
小形克宏 @ogwata 日本の携帯絵文字を収録する国際会議に出席した話のつづき。この件は書こうか迷ったけど、書いておこう。ISO/IEC 10646（≒Unicode）で構造的に「ゴミ」文字が増えていく件。おかしな点があればぜひご指摘ください。 2010-04-25 23:46:39 小形克宏 @ogwata 一昨日のツィートで、WG 2会議は「対立を前提とした共同作業」だと書いた。自分が通したい主張を相手に呑ませるため、可能な限り妥協する。「ISO/IEC 10646のより良い改訂」という目的から、妥協は美徳とされる。互いに妥協しながら落し所を探る。これがWG 2会議の流儀だった。 2010-04-25 23:52:40
tekimen 2023/12/18
Unicode

文字コード

絵文字

文字

漢字
リンク
中川翔子「本当はイヤだった」本名の改名をついに発表「38年かかってようやくスッキリ」（スポニチ） | 毎日新聞
タレント・中川翔子が11日に自身のYouTubeチャンネルを更新し、本名を改名することを発表した。「超重大なお知らせです。」というタイトルで投稿された動画。そこで中川は「改名しました!」といい、本名「しようこ」から、現在の芸名と同じである「翔子（しょうこ）」に変更すると発表した。そもそも、なぜ“しようこ”になったのか。21年5月に投稿されたYouTube動画によると、薔薇の「薔」の字を用いた「薔子」を“しょうこ”と読ませる予定だったという。ところが、届けを出しにいったところ、人名に使えない漢字だったことが判明。その際、母方の叔母が担当者と揉めたといい「ひらがなでいいわ!」と殴り書きにして提出したところ「よが大きくて“しようこ”で登録されてしまったそうです…」と明かしていた。中川は「本当は（しようこが）イヤだったんですよ。しとよが合体して“はうこ”って書かれたりとか。説明にも困って」と
tekimen 2023/11/12
常用漢字と人名用漢字は合計で2999字しか使えないうえ、薔が使えなかったケース。日本人の人名用漢字はざっくりいうと1981年からゆるくなったとはいえそれでも使えない漢字は多いのだなと

文字

人名
リンク
zi.tools 字統网
- 7 users
- zi.tools
- 学び
tekimen 2023/10/11
文字

漢字
リンク
UTF-32 でも固定長で処理出来るわけではない
AC_2017-12-08.md UTF-32 でも固定長で処理出来るわけではない 2024/04/17 更新この記事は、自作OS Advent Calendar 2017の 12/8 の記事として書かれました。もう、日本語の漢字や仮名を 2 バイト文字と呼ぶのは、やめよう IT 系のニュースサイトでも、未だに日本語の漢字や仮名のことを 2 バイト文字と呼んでいる記事が散見されます。 2017 年現在、UTF-8 という Unicode の符号化方式が主流で、日本語の漢字や仮名は 3 バイト～ 4 バイトで表現されることが多く、後述する結合文字や異体字セレクタのようなものまで含めると、さらにバイト数は増加します。日本語の漢字や仮名を 2 バイト文字と呼ぶことは適切ではありません。 Unicode の UCS-2 Unicode の規格が始まったばかりの頃は、世界の文字を 2 バイトで表
tekimen 2023/10/10
コード

プログラミング

文字

Unicode

文字コード
リンク
[Unicode]スペース以外の見えない空白文字の一覧 | 404 motivation not found
目次はじめにスペースや全角スペースのような空白文字一覧参考にしたサイトはじめにスペースや全角スペース以外にもいくつか存在する目に見えない Unicode の文字の一覧です。スペースや全角スペースのような空白文字一覧ブラウザや環境によっては表示されない場合があると思います。 Unicode 実体説明 description
tekimen 2023/09/28
Unicode

文字コード

文字

プログラミング
リンク
文字って何かね？ - Qiita
後で書きますが、C# のchar型やstring型はUnicodeをベースにしていますから、使える文字集合はShift JISよりずっと広いです。たとえば "你好" (ニーハオ) の「你」なんてのはJIS第三水準漢字ですがShift JISでは使えません。そういうのをEncodingクラスで処理すると "?好"のように「?」に化けます。「?」に化けるのは、エンコーディング失敗時に文字を「?」に置換するフォールバック設定がデフォルトだからです。失敗時には例外をスローしたければこんな感じ。 var text = "你好"; var enc = System.Text.Encoding.GetEncoding("Shift_JIS", System.Text.EncoderFallback.ExceptionFallback, System.Text.DecoderFallback.Repla
tekimen 2023/09/27
文字

コード

Unicode

文字コード

漢字

絵文字
リンク
1 2 次のページ