Just one more thing To make the experience fit your profile, pick a username and tell us what interests you.
Reading the excellent article by JeanHeyd Meneide on how broken string encoding in C/C++ is made me realise that Unicode is a topic that is often overlooked by a large number of developers. In my experience, there’s a lot of confusion and wrong expectations on what Unicode is, and what best practices to follow when dealing with strings that may contain characters outside of the ASCII range. This a
A modern port of Turbo Vision 2.0, the classical framework for text-based user interfaces. Now cross-platform and with Unicode support. I started this as a personal project at the very end of 2018. By May 2020 I considered it was very close to feature parity with the original, and decided to make it open. The original goals of this project were: Making Turbo Vision work on Linux by altering the le
One of the most common “data type” in programming is the text string. When programmers think of a string, they imagine that they are dealing with a list or an array of characters. It is often a “good enough” approximation, but reality is more complex. The characters must be encoded into bits in some way. Most strings on the Internet, including this blog post, are encoded using a standard called UT
日本発祥の絵文字は海外でも「Emoji」として広く浸透しており、メッセージアプリやSNSへの投稿などに多様されています。世界中の文字を収集して文字コード付与する規格「Unicode」では、バージョンアップごとに複数の絵文字を新規追加しており、これまでに「溶解する顔」や「ランプの魔人」などの独創的な絵文字が数多く追加されてきました。新たに、絵文字データベースサイトの「Emojipedia」が、2022年9月に承認予定のUnicode 15.0で追加される絵文字のサンプルイメージを公開。サンプルイメージには「ハイタッチする手」や「震える顔」などの絵文字が含まれています。 New Emojis In 2022-2023 https://blog.emojipedia.org/new-emojis-in-2022-2023/ Emojipediaが公開したサンプルイメージには、色違いも含めて全31
Ambiguousだけ東アジアか否かによって扱いを変える必要があります。 FullwidthとWideは東アジア圏では全角で扱いますが、それ以外の文化圏の文章には登場しないため考慮する必要がありません。 東アジア圏かどうか?をどう判定するべきかはプラットフォームによって異なります。私は.NETで扱ったのでデフォルトはCurrentUICultureInfoで処理分岐するようにしました。 さて、ここまでが基本です。 ここから先が闇です。 闇の始まり さて、先ほどの扱いについては、UAX #11: East Asian Widthに明確に記載されています。 しかし、実際に文字をひとつずつ追いかけていくと怪しい文字が頻出します。 ここからは日本で最も著名な等幅フォントである「MS ゴシック」で見ていきたいと思います。 さてAmbiguousは全角で扱います。Ambiguousには「☎」や「®」が
ターミナルからUnicodeのデータを検索できるコマンドラインツール「cicero-tui」がリリースされています。詳細は以下から。 cicero-tui(CICERO Terminal User Interface)はUnicodeデータベース・ツール「Cicero: A Unicode® Tool for Mac/iOS」を開発しているニュージーランドのDJメーカーSerato DJのエンジニアYan Liさんが新たに公開したコマンドラインツールで、macOSやGNU/LinuxのターミナルからUnicodeのデータを検索/確認することが出来ます。 cicero A Unicode tool with terminal user interface. eyeplum/cicero-tui: A Unicode tool with terminal user interface. – G
A short write-up on combining digraphs, a feature built-in to vim, and Haskell's UnicodeSyntax extension, to easily write beautiful Haskell programs with unicode symbols. #haskell#vim 1 Haskell’s Unicode Syntax Extension Haskell (well, GHC Haskell) features an extension called UnicodeSyntax. When enabled, this extension allows the use of certain unicode symbols in place of their corresponding keyw
Unicode sorting is hard & why browsers added special emoji matching to regexp As I work on Zorex, an omnipotent regexp engine I have stumbled into a world of tales about why Unicode text sorting is so annoying in the modern day. Let’s talk about that. Why ASCII sorting is not enoughTwitter’s emoji problem - or when Unicode locale-aware sorting Really Matters™Browsers added special emoji matching t
サークル“ヒュアリニオス”として頒布した『モンゴル文字とUnicode』(初出: コミックマーケット100)を公開します。 モンゴル文字の特徴や現在のコンピュータ上で扱う際の問題点などを簡潔に説明するのを目指した漫画です。 更新履歴 2023-12-31 10ページの誤記を修正しました。ご指摘ありがとうございました。 2025-1-30 18ページの誤植を修正しました。ご指摘ありがとうございました。 サポートページ hyalinios.hatenadiary.com 紙版販売 Boothで初版在庫分を販売しています(未修正の誤植などがあります)。紙でほしい場合はどうぞ。停止しています。 モンゴル文字とUnicode - にせねこのbooth - BOOTH ダウンロード PDFファイルのダウンロードはこちらから: mongol_bichig_ba_unicode.pdf (14.2 MB)
This article will explore the unique role that text plays in vaporwave music and art. Why do vaporwave tracks, albums, and artist names use stretched out fullwidth text, Japanese writing 変, and 𐒖Ƭᖇ𝚫ƝǤⵟ looking Unicode characters? Why are track titles sometimes formatted to look like FILENAME.AVI or Muzak Corp™ Song Title? Analyzing the text characters that accompany vaporwave can help us underst
大規模文字セットのUnicodeは世界中のあらゆる文字を収録することを目指しており、個性的な絵文字も数多く登録されているほか、正体不明の記号もいくつか含まれています。さらに、Unicodeに存在する「大文字でも小文字でもないアルファベット」について、ソフトウェアデベロッパーであるレイモンド・チェン氏がMicrosoftの開発者ブログで解説しています。 What has case distinction but is neither uppercase nor lowercase? - The Old New Thing https://devblogs.microsoft.com/oldnewthing/20241031-00/?p=110443 Unicodeにはラテン文字をはじめいろいろな言語の文字が収録されていますが、その中に「大文字」「小文字」とともに別の種類が登録されている文字が
UTF-8,Unicode, Goのbyte, rune関係がよく分からなかったのでいろいろ調べて、自分なりに解釈ができたので、まとめてみようと思います。 まずは定義から行きましょう。 UTF-8: Unicodeで使える8ビット符号単位の文字符号化形式 Unicode: 文字集合(文字セット)が単一の大規模文字セット ようするに、UTF-8は、Unicodeを符号化(エンコード)するやつで、Unicodeはいろんな文字の集合です。 aとか"あ"とか"亜"とか、ほんといろいろな文字の集合。 そして、Unicodeの文字には、識別しやすいように数字が割り振られていて、その数字をコードポイント(Go言語でrune型に割り当てられる)といいます。実際にコードで違いを見てみましょう。 func main() { s := "あいうえお" b := []byte(s) for _, bi := ra
はじめに APIから受け取ったJSONをコピペしてVSCodeで確認したいと思った時に、JSONが1行で返ってきたり、StringがUnicodeにエンコードされていてどんな値が入ってるか分からない、ということがあったため備忘録として投稿 前提 Unicodeのデコードは Encode Decode というVSCodeの拡張機能を用います 手順 1行のJSONを整形する方法 新しいファイルを作成(Mac: cmd + n またはタブのところを2回クリック) コピーした1行JSONを貼り付け 右下の言語モードをJSONにする(Mac: cmd + k 押した後 m) 右クリックで『ドキュメントのフォーマットを選択』(Mac: option + shift + L) Unicodeをデコードする方法 VSCode検索機能で、正規表現をONにして\\u.{4}と検索 alt + enter (M
とほほのUnicode一覧 トップ > Unicode一覧 [←] 前ページ、[→] 次ページ、[Click] 辞書ページを開く ◀ ▶ 0123456789ABCDEF Copyright (C) 2022 杜甫々 初版:2022年12月4日 最終更新:2022年12月4日 http://www.tohoho-web.com/ex/unicode-list.html
Unmarked properties are from Unicode V15.1.0; the beta properties are from Unicode V16.0.0β. For more information, see Unicode Utilities Beta. help | character | properties | confusables | unicode-set | compare-sets | regex | bnf-regex | breaks | transform | bidi | bidi-c | idna | languageid Boundaries Breaks Demonstrates different boundaries within text. Enter the sample text. Pick the kind of bo
この記事では、 Unicode において表示不可能な文字を表現する「置換文字」について説明する。 この記事に出てくるコードの動作確認は以下の環境で行った。 Deno 1.26.0 TypeScript 4.8.3 概要 Unicode において、表示しようとした文字が何らかの理由で表示不可能なとき、黒い菱形に白いクエスチョンマークが書かれた文字が表示される。 「�」がそうなのだが、環境によっては表示されずカギカッコの中が空白になっているかもしれないので、画像も載せておく。 この文字を「置換文字」と呼ぶ。 サロゲートペアとして不正なケース 文字が表示不可能な例として、サロゲートペアとして正しくないケースがある。 サロゲートペアや Code Point の概要は以前書いたので、必要ならこちらを読んで欲しい。 numb86-tech.hatenablog.com Code Point のうち一部
AI & MLLearn about artificial intelligence and machine learning across the GitHub ecosystem and the wider industry. Generative AILearn how to build with generative AI. GitHub CopilotChange how you work with GitHub Copilot. LLMsEverything developers need to know about LLMs. Machine learningMachine learning tips, tricks, and best practices. How AI code generation worksExplore the capabilities and be
Summary This annex describes guidelines for determining default segmentation boundaries between certain significant text elements: grapheme clusters (“user-perceived characters”), words, and sentences. For line boundaries, see [UAX14] . Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a
Ambiguousだけ東アジアか否かによって扱いを変える必要があります。 FullwidthとWideは東アジア圏では全角で扱いますが、それ以外の文化圏の文章には登場しないため考慮する必要がありません。 東アジア圏かどうか?をどう判定するべきかはプラットフォームによって異なります。私は.NETで扱ったのでデフォルトはCurrentUICultureInfoで処理分岐するようにしました。 さて、ここまでが基本です。 ここから先が闇です。 闇の始まり さて、先ほどの扱いについては、UAX #11: East Asian Widthに明確に記載されています。 しかし、実際に文字をひとつずつ追いかけていくと怪しい文字が頻出します。 ここからは日本で最も著名な等幅フォントである「MS ゴシック」で見ていきたいと思います。 さてAmbiguousは全角で扱います。Ambiguousには「☎」や「®」が
Unicodeにおいて、ブロック(英語: block)とは、符号位置 (code points) の連続する範囲を意味する。ブロックには一意に名前が付けられ、重なりはない。各ブロックは hhh0 形式の開始符号位置と hhhF 形式の終了符号位置を持つ。ブロックは、未割当 (unassigned) または非文字 (non-character) である符号位置 (en) を、明示的に含むことができる[1]。名前付きのブロックのいずれにも属さない符号位置、例えば未割当の面である第4面-第13面に属する符号位置は、ブロックとして「No_block」という値を持つ。 逆に言えば、割当済 (assigned) の符号位置はすべて「ブロック名」(Block name) という特性(英語版) (property) を持つ。これはその文字 (character) があるブロックの名前である。これは符号位置
MicrosoftがApple SiliconとUnicode Keyboard Mode使用時にクライアントサイドのIMEをサポートしたMac用リモートデスクトップクライアント「Remote Desktop v10.6」をリリースしています。詳細は以下から。 Microsoftは現地時間2021年04月14日、同社のリモートデスクトップクライアント「Microsoft Remote Desktop」をv10.6へアップデートし、新たにApple Siliconをネイティブサポートしたと発表しています。 Microsoft Remote Desktop v10.6.0 Added native support for Apple Silicon. Added client-side IME support when using Unicode keyboard mode. リリース
概要 スプレッドシートで簡単にスクレイピングができるIMPORTXML関数を使う際に、取得したデータの文字コードがShift_JISの場合文字化けが起きてしまいます。その問題をGoogle Apps Script(GAS)を利用してSHIFTJIS2UNICODEという独自関数を登録することにより解決しました。 手順 こちらのコードをGASにコピペして、スプレッドシートのセルからSHIFTJIS2UNICODE関数を呼び、=SHIFTJIS2UNICODE(IMPORTXML("https://en.wikipedia.org/wiki/Moon_landing", "//a/@href"))のように活用します。 詳細な手順 スプレッドシートのメニューから「ツール」→「スクリプトエディタ」の順に進み、スクリプトエディタを開きます。 SHIFTJIS2UNICODE.gsをコピーして、スクリ
オープンソース版Twemoji 15.1.0のリリース ~Unicode Emoji 15.1に対応 X/Twitterの絵文字として著名なTwemojiのフォーク版(@jdecked/twemoji)が本日、コミュニティの協力のもとUnicode Emoji 15.1に対応したバージョンTwemoji 15.1.0をリリースした。ライセンスは、コードがMIT、絵文字自体がCC-BY 4.0。 Twemoji 15.1.0に収録された新しい絵文字 イーロンマスク氏のX/Twitter買収後から公式のTwemojiリポジトリでは新しい絵文字が追加されなくなったため、当時TwitterでTwemojiに携わっていたJustine De Caires氏(@jdecked)がその後フォークし、コミュニティと協力してオープンソース版のTwemojiをリリースしている。 なお、現在策定中のUnicod
Unicode について Unicode (ユニコード) は,世界中のすべての文字を扱うことを目的として作られた,文字コードの規格です。 2014 年現在,約 11 万もの文字が Unicode に収録されています。 Unicode の文字符号化方式には,主に次のようなものがあります。 UTF-8: 1 文字を最小 8 ビット,最大 32 ビットで表現。 UTF-16: 1 文字を最小 16 ビット,最大 32 ビットで表現。 UTF-32: 1 文字を 32 ビットで表現。 Windows では,Win32 世代から Unicode がサポートされています。 Windows が採用している Unicode の文字符号化方式は,UTF-16 です。 ワイド文字 C の文字型には,char 型の他に,wchar_t 型 (ワイド文字) が存在します。 漢字など 1 字を表現するのに複数バイト
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 文字コードについて、Shift-JISもカオスながら、鳴り物入りで出来たUnicodeも色々あるようなので、要点をサクッとまとめ。 とりあえずこれだけ押さえておけばOK Unicode:文字コードの規格の名称。あらゆる国の文字コードを格納できる UCS-4:Unicodeとほぼ互換 UCS-2:UCS-4の一部分。65,535文字を表現 UTF:UCS-4(UCS-2)、Unicodeをバイト列で表現する方法。Unicodeでは "Unicode Transformation Format"、ISO/IEC 10646では "UCS T
実行結果 後述の「日本語のJSONファイルを出力するコード」の実行結果です。 「enseure_ascii = false」の指定の有無で、以下のようにUnicodeエスケープあり・なしの日本語が出力されます。 人が読めるかたちで日本語を出力する場合は、「ensure_ascii=False」を指定します。 ensure_ascii=False の指定なし 「Roles」の部分が、Unicodeエスケープの形式で表示されています。 { "Email": "taro@example.com", "Active": true, "CreatedDate": "2013-01-20T00:00:00Z", "Roles": [ "\u30e6\u30fc\u30b6\u30fc", "\u7ba1\u7406\u8005" ] }
Last Update: 2025-04-02 Currently Accepting Submissions Until 2025-07-31 The goal of this page is to outline the process and requirements for submitting a proposal for new emoji; including how to submit a proposal, the selection factors that need to be addressed in each proposal, and guidelines on presenting evidence of frequency. All submissions are reviewed, and a very small percentage advance f
「エンジニアHub」にて記事を執筆しました。「文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」として公開されています。 若手エンジニア向けのWebメディアとのことで、プログラミング上の注意点にフォーカスした内容になっています。コード例にはJava, Python, Rubyを用いています。 拙著をすでにお読みの方には復習となる内容ですが、まだの方はこの機会に是非お読みいただければと思います。記事の最後に拙著『[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)』の版元へのリンクも設定されていますので、興味を持たれた方には書籍の方もお読みいただければ幸いです。 当記事編集担当の方には「とても品質の高い記事」とのことで感謝のお言葉をいただきました。読者のお役に立つことを願っています。
Unicodeとは 多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みである文字コードも、その国の数だけ増えていく状態であり、情報交換のために様々な不都合が生ずるようになってきました。また、企業の側でも各国個別の言語に合わせたソフトウェアを開発するためには膨大なコストが必要なため、これを解消する手段が求められるようになってきたのです。 そこでこの問題を解消すべく、IBM、Microsoft、Apple等が加盟(他のメンバーについてはこちらを参照)するNGOであるUnicodeコンソーシアムが中心となって、全ての文字を16ビット(65536文字)に収録してしまおうという、野心的な多重言語文字セット規格の制定を企図していました。またそれとは別に、国際標準化機構(ISO)が、世界中の主要な文字を一括して扱う多重言語文字セット規格を開発していました。国際規格が複数制定される
With this demo, you can supply an Input string and see the combinations that are confusable with it, using data collected by the Unicode consortium. You can also try different restrictions, using characters valid in different approaches to international domain names. For more info, see Data below.
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く