並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 127件

新着順 人気順

unicodeの検索結果81 - 120 件 / 127件

  • 第4回 神話と楔形文字と、ときどきUnicode | gihyo.jp

    【話し手】 ゆー(Yu)楔形文字検索ツールqantuppi、クルヌギアを開発。技術同人誌『楔形文字とユニコードの出会いにまつわるエトセトラ』で技術書典「第3回 刺され!技術書アワード」エポックメイキング部門受賞。家にねこがいます。 GitHub:uyumyuuy Twitter:@uyum 本コーナーでは技術へのタッチポイントを増やすことを目標に、各分野で活躍されている方をお迎えします。 今回のテーマは文字コードです。楔形文字(くさびがたもじ)に詳しくなってしまったゆーさんに古代文字の符号化の議論、Unicodeが世界のすべての文字を収録する意義を技術と文化の両面から紹介いただきます。 楔形文字との出会い 日高:Unicodeをはじめとした文字コードって普段は意識しない領域だと感じています。いろいろ教えてもらいながら話せればと考えています。 ゆー:よろしくお願いします。私もこの分野を専門に

      第4回 神話と楔形文字と、ときどきUnicode | gihyo.jp
    • Ultimate Unicode Input Device

      Just one more thing To make the experience fit your profile, pick a username and tell us what interests you.

        Ultimate Unicode Input Device
      • Unicode is harder than you think · mcilloni's blog

        Reading the excellent article by JeanHeyd Meneide on how broken string encoding in C/C++ is made me realise that Unicode is a topic that is often overlooked by a large number of developers. In my experience, there’s a lot of confusion and wrong expectations on what Unicode is, and what best practices to follow when dealing with strings that may contain characters outside of the ASCII range. This a

        • GitHub - magiblot/tvision: A modern port of Turbo Vision 2.0, the classical framework for text-based user interfaces. Now cross-platform and with Unicode support.

          A modern port of Turbo Vision 2.0, the classical framework for text-based user interfaces. Now cross-platform and with Unicode support. I started this as a personal project at the very end of 2018. By May 2020 I considered it was very close to feature parity with the original, and decided to make it open. The original goals of this project were: Making Turbo Vision work on Linux by altering the le

            GitHub - magiblot/tvision: A modern port of Turbo Vision 2.0, the classical framework for text-based user interfaces. Now cross-platform and with Unicode support.
          • Ridiculously fast unicode (UTF-8) validation – Daniel Lemire's blog

            One of the most common “data type” in programming is the text string. When programmers think of a string, they imagine that they are dealing with a list or an array of characters. It is often a “good enough” approximation, but reality is more complex. The characters must be encoded into bits in some way. Most strings on the Internet, including this blog post, are encoded using a standard called UT

              Ridiculously fast unicode (UTF-8) validation – Daniel Lemire's blog
            • 「ハイタッチ」「ピンクのハート」「(((( ;゚Д゚)))」などUnicode 15.0に含まれる絵文字まとめ

              日本発祥の絵文字は海外でも「Emoji」として広く浸透しており、メッセージアプリやSNSへの投稿などに多様されています。世界中の文字を収集して文字コード付与する規格「Unicode」では、バージョンアップごとに複数の絵文字を新規追加しており、これまでに「溶解する顔」や「ランプの魔人」などの独創的な絵文字が数多く追加されてきました。新たに、絵文字データベースサイトの「Emojipedia」が、2022年9月に承認予定のUnicode 15.0で追加される絵文字のサンプルイメージを公開。サンプルイメージには「ハイタッチする手」や「震える顔」などの絵文字が含まれています。 New Emojis In 2022-2023 https://blog.emojipedia.org/new-emojis-in-2022-2023/ Emojipediaが公開したサンプルイメージには、色違いも含めて全31

                「ハイタッチ」「ピンクのハート」「(((( ;゚Д゚)))」などUnicode 15.0に含まれる絵文字まとめ
              • 日本語AI音声なども利用可能になった「Windows 11 バージョン 22H2」4回目の大型更新/「Unicode 15.0」の絵文字、Windows 共有・スポットライトの強化なども【Windows 11 22H2 Moment 4】

                  日本語AI音声なども利用可能になった「Windows 11 バージョン 22H2」4回目の大型更新/「Unicode 15.0」の絵文字、Windows 共有・スポットライトの強化なども【Windows 11 22H2 Moment 4】
                • Unicodeで半角全角を扱う Ambiguous(曖昧さ)とUncertainty(不確実性)の恐怖 - Qiita

                  Ambiguousだけ東アジアか否かによって扱いを変える必要があります。 FullwidthとWideは東アジア圏では全角で扱いますが、それ以外の文化圏の文章には登場しないため考慮する必要がありません。 東アジア圏かどうか?をどう判定するべきかはプラットフォームによって異なります。私は.NETで扱ったのでデフォルトはCurrentUICultureInfoで処理分岐するようにしました。 さて、ここまでが基本です。 ここから先が闇です。 闇の始まり さて、先ほどの扱いについては、UAX #11: East Asian Widthに明確に記載されています。 しかし、実際に文字をひとつずつ追いかけていくと怪しい文字が頻出します。 ここからは日本で最も著名な等幅フォントである「MS ゴシック」で見ていきたいと思います。 さてAmbiguousは全角で扱います。Ambiguousには「☎」や「®」が

                    Unicodeで半角全角を扱う Ambiguous(曖昧さ)とUncertainty(不確実性)の恐怖 - Qiita
                  • ターミナルからUnicodeのデータを検索できるコマンドラインツール「cicero-tui」がリリース。

                    ターミナルからUnicodeのデータを検索できるコマンドラインツール「cicero-tui」がリリースされています。詳細は以下から。 cicero-tui(CICERO Terminal User Interface)はUnicodeデータベース・ツール「Cicero: A Unicode® Tool for Mac/iOS」を開発しているニュージーランドのDJメーカーSerato DJのエンジニアYan Liさんが新たに公開したコマンドラインツールで、macOSやGNU/LinuxのターミナルからUnicodeのデータを検索/確認することが出来ます。 cicero A Unicode tool with terminal user interface. eyeplum/cicero-tui: A Unicode tool with terminal user interface. – G

                      ターミナルからUnicodeのデータを検索できるコマンドラインツール「cicero-tui」がリリース。
                    • Writing prettier Haskell with Unicode Syntax and Vim

                      A short write-up on combining digraphs, a feature built-in to vim, and Haskell's UnicodeSyntax extension, to easily write beautiful Haskell programs with unicode symbols. #haskell#vim 1 Haskell’s Unicode Syntax Extension Haskell (well, GHC Haskell) features an extension called UnicodeSyntax. When enabled, this extension allows the use of certain unicode symbols in place of their corresponding keyw

                      • 「Unicode 16」で新たに追加される予定の絵文字は『目の下にクマのある顔』など7つ | 気になる、記になる…

                        ユニコードコンソーシアムが「Unicode 16」のベータレビューを公開し、「Unicode 16」では7つの新しい絵文字が追加される可能性があることが分かりました。 「Unicode 16」で新たに追加される予定の絵文字は下記の7つ。

                          「Unicode 16」で新たに追加される予定の絵文字は『目の下にクマのある顔』など7つ | 気になる、記になる…
                        • GitHub - mathiasbynens/emoji-regex: A regular expression to match all Emoji-only symbols as per the Unicode Standard.

                          emoji-regex offers a regular expression to match all emoji symbols and sequences (including textual representations of emoji) as per the Unicode Standard. It’s based on emoji-test-regex-pattern, which generates (at build time) the regular expression pattern based on the Unicode Standard. As a result, emoji-regex can easily be updated whenever new emoji are added to Unicode. Since each version of e

                            GitHub - mathiasbynens/emoji-regex: A regular expression to match all Emoji-only symbols as per the Unicode Standard.
                          • Unicode sorting is hard & why browsers added special emoji matching to regexp

                            Unicode sorting is hard & why browsers added special emoji matching to regexp As I work on Zorex, an omnipotent regexp engine I have stumbled into a world of tales about why Unicode text sorting is so annoying in the modern day. Let’s talk about that. Why ASCII sorting is not enoughTwitter’s emoji problem - or when Unicode locale-aware sorting Really Matters™Browsers added special emoji matching t

                            • 「Unicode 15.0」の絵文字を追加 ~「Windows 11」Build 23475がDevチャネルに/「エクスプローラー」のホーム画面が近代化、光るマウス・キーボードもOSで制御

                                「Unicode 15.0」の絵文字を追加 ~「Windows 11」Build 23475がDevチャネルに/「エクスプローラー」のホーム画面が近代化、光るマウス・キーボードもOSで制御
                              • [Unicode]スペース以外の見えない空白文字の一覧 | 404 motivation not found

                                目次 はじめにスペースや全角スペースのような空白文字一覧参考にしたサイトはじめに スペースや全角スペース以外にもいくつか存在する目に見えない Unicode の文字の一覧です。 スペースや全角スペースのような空白文字一覧 ブラウザや環境によっては表示されない場合があると思います。 Unicode 実体 説明 description

                                  [Unicode]スペース以外の見えない空白文字の一覧 | 404 motivation not found
                                • 『モンゴル文字とUnicode』 - にせねこメモ

                                  サークル“ヒュアリニオス”として頒布した『モンゴル文字とUnicode』(初出: コミックマーケット100)を公開します。 モンゴル文字の特徴や現在のコンピュータ上で扱う際の問題点などを簡潔に説明するのを目指した漫画です。 更新履歴 2023-12-31 10ページの誤記を修正しました。ご指摘ありがとうございました。 サポートページ hyalinios.hatenadiary.com 紙版販売 Boothで初版在庫分を販売しています(未修正の誤植などがあります)。紙でほしい場合はどうぞ。停止しています。 モンゴル文字とUnicode - にせねこのbooth - BOOTH ダウンロード PDFファイルのダウンロードはこちらから: mongol_bichig_ba_unicode.pdf (13.2 MB) 本文

                                    『モンゴル文字とUnicode』 - にせねこメモ
                                  • 日本語における文字情報基盤のソース参照など、Unicodeバージョン16.0発表

                                      日本語における文字情報基盤のソース参照など、Unicodeバージョン16.0発表
                                    • 廣田健一郎 | ប៉ាអាតុ | HIROTA Kenichiro on Twitter: "米政府最新パスワードガイドライン ・字種混在を強制するな ・時々変えるよう強制するな ・ペースト禁止するな ・Unicodeキャラクタや空白を含んでても拒否するな ・字数上限を64字(バイトに非ず)未満にするな ・秘密の質問禁止… https://t.co/Rnv6ZwYPUw"

                                      米政府最新パスワードガイドライン ・字種混在を強制するな ・時々変えるよう強制するな ・ペースト禁止するな ・Unicodeキャラクタや空白を含んでても拒否するな ・字数上限を64字(バイトに非ず)未満にするな ・秘密の質問禁止… https://t.co/Rnv6ZwYPUw

                                        廣田健一郎 | ប៉ាអាតុ | HIROTA Kenichiro on Twitter: "米政府最新パスワードガイドライン ・字種混在を強制するな ・時々変えるよう強制するな ・ペースト禁止するな ・Unicodeキャラクタや空白を含んでても拒否するな ・字数上限を64字(バイトに非ず)未満にするな ・秘密の質問禁止… https://t.co/Rnv6ZwYPUw"
                                      • Vaporwave and Unicode Analysis

                                        This article will explore the unique role that text plays in vaporwave music and art. Why do vaporwave tracks, albums, and artist names use stretched out fullwidth text, Japanese writing 変, and 𐒖Ƭᖇ𝚫ƝǤⵟ looking Unicode characters? Why are track titles sometimes formatted to look like FILENAME.AVI or Muzak Corp™ Song Title? Analyzing the text characters that accompany vaporwave can help us underst

                                        • Unicodeには大文字でも小文字でもないアルファベットがある

                                          大規模文字セットのUnicodeは世界中のあらゆる文字を収録することを目指しており、個性的な絵文字も数多く登録されているほか、正体不明の記号もいくつか含まれています。さらに、Unicodeに存在する「大文字でも小文字でもないアルファベット」について、ソフトウェアデベロッパーであるレイモンド・チェン氏がMicrosoftの開発者ブログで解説しています。 What has case distinction but is neither uppercase nor lowercase? - The Old New Thing https://devblogs.microsoft.com/oldnewthing/20241031-00/?p=110443 Unicodeにはラテン文字をはじめいろいろな言語の文字が収録されていますが、その中に「大文字」「小文字」とともに別の種類が登録されている文字が

                                            Unicodeには大文字でも小文字でもないアルファベットがある
                                          • UnicodeとUTF-8と、GoのByte型とrune型についてのまとめ - たのしい駆動開発

                                            UTF-8,Unicode, Goのbyte, rune関係がよく分からなかったのでいろいろ調べて、自分なりに解釈ができたので、まとめてみようと思います。 まずは定義から行きましょう。 UTF-8: Unicodeで使える8ビット符号単位の文字符号化形式 Unicode: 文字集合(文字セット)が単一の大規模文字セット ようするに、UTF-8は、Unicodeを符号化(エンコード)するやつで、Unicodeはいろんな文字の集合です。 aとか"あ"とか"亜"とか、ほんといろいろな文字の集合。 そして、Unicodeの文字には、識別しやすいように数字が割り振られていて、その数字をコードポイント(Go言語でrune型に割り当てられる)といいます。実際にコードで違いを見てみましょう。 func main() { s := "あいうえお" b := []byte(s) for _, bi := ra

                                            • VSCodeで1行JSONを整形+Unicodeをデコードして見やすくする - Qiita

                                              はじめに APIから受け取ったJSONをコピペしてVSCodeで確認したいと思った時に、JSONが1行で返ってきたり、StringがUnicodeにエンコードされていてどんな値が入ってるか分からない、ということがあったため備忘録として投稿 前提 Unicodeのデコードは Encode Decode というVSCodeの拡張機能を用います 手順 1行のJSONを整形する方法 新しいファイルを作成(Mac: cmd + n またはタブのところを2回クリック) コピーした1行JSONを貼り付け 右下の言語モードをJSONにする(Mac: cmd + k 押した後 m) 右クリックで『ドキュメントのフォーマットを選択』(Mac: option + shift + L) Unicodeをデコードする方法 VSCode検索機能で、正規表現をONにして\\u.{4}と検索 alt + enter (M

                                                VSCodeで1行JSONを整形+Unicodeをデコードして見やすくする - Qiita
                                              • とほほのUnicode一覧 - とほほのWWW入門

                                                とほほのUnicode一覧 トップ > Unicode一覧 [←] 前ページ、[→] 次ページ、[Click] 辞書ページを開く ◀ ▶ 0123456789ABCDEF Copyright (C) 2022 杜甫々 初版:2022年12月4日 最終更新:2022年12月4日 http://www.tohoho-web.com/ex/unicode-list.html

                                                • Unicode Utilities: Description and Index

                                                  Unmarked properties are from Unicode V15.1.0; the beta properties are from Unicode V16.0.0β. For more information, see Unicode Utilities Beta. help | character | properties | confusables | unicode-set | compare-sets | regex | bnf-regex | breaks | transform | bidi | bidi-c | idna | languageid Boundaries Breaks Demonstrates different boundaries within text. Enter the sample text. Pick the kind of bo

                                                  • Unicode における置換文字(replacement character)について - 30歳からのプログラミング

                                                    この記事では、 Unicode において表示不可能な文字を表現する「置換文字」について説明する。 この記事に出てくるコードの動作確認は以下の環境で行った。 Deno 1.26.0 TypeScript 4.8.3 概要 Unicode において、表示しようとした文字が何らかの理由で表示不可能なとき、黒い菱形に白いクエスチョンマークが書かれた文字が表示される。 「�」がそうなのだが、環境によっては表示されずカギカッコの中が空白になっているかもしれないので、画像も載せておく。 この文字を「置換文字」と呼ぶ。 サロゲートペアとして不正なケース 文字が表示不可能な例として、サロゲートペアとして正しくないケースがある。 サロゲートペアや Code Point の概要は以前書いたので、必要ならこちらを読んで欲しい。 numb86-tech.hatenablog.com Code Point のうち一部

                                                      Unicode における置換文字(replacement character)について - 30歳からのプログラミング
                                                    • Warning about bidirectional Unicode text · GitHub Changelog

                                                      AI & MLLearn about artificial intelligence and machine learning across the GitHub ecosystem and the wider industry. Generative AILearn how to build with generative AI. GitHub CopilotChange how you work with GitHub Copilot. LLMsEverything developers need to know about LLMs. Machine learningMachine learning tips, tricks, and best practices. How AI code generation worksExplore the capabilities and be

                                                        Warning about bidirectional Unicode text · GitHub Changelog
                                                      • UAX #29: Unicode Text Segmentation

                                                        Summary This annex describes guidelines for determining default segmentation boundaries between certain significant text elements: grapheme clusters (“user-perceived characters”), words, and sentences. For line boundaries, see [UAX14] . Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a

                                                        • Unicodeで半角全角を扱う Ambiguous(曖昧さ)とUncertainty(不確実性)の恐怖 - Qiita

                                                          Ambiguousだけ東アジアか否かによって扱いを変える必要があります。 FullwidthとWideは東アジア圏では全角で扱いますが、それ以外の文化圏の文章には登場しないため考慮する必要がありません。 東アジア圏かどうか?をどう判定するべきかはプラットフォームによって異なります。私は.NETで扱ったのでデフォルトはCurrentUICultureInfoで処理分岐するようにしました。 さて、ここまでが基本です。 ここから先が闇です。 闇の始まり さて、先ほどの扱いについては、UAX #11: East Asian Widthに明確に記載されています。 しかし、実際に文字をひとつずつ追いかけていくと怪しい文字が頻出します。 ここからは日本で最も著名な等幅フォントである「MS ゴシック」で見ていきたいと思います。 さてAmbiguousは全角で扱います。Ambiguousには「☎」や「®」が

                                                            Unicodeで半角全角を扱う Ambiguous(曖昧さ)とUncertainty(不確実性)の恐怖 - Qiita
                                                          • ブロック (Unicode) - Wikipedia

                                                            Unicodeにおいて、ブロック(英語: block)とは、符号位置 (code points) の連続する範囲を意味する。ブロックには一意に名前が付けられ、重なりはない。各ブロックは hhh0 形式の開始符号位置と hhhF 形式の終了符号位置を持つ。ブロックは、未割当 (unassigned) または非文字 (non-character) である符号位置 (en) を、明示的に含むことができる[1]。名前付きのブロックのいずれにも属さない符号位置、例えば未割当の面である第4面-第13面に属する符号位置は、ブロックとして「No_block」という値を持つ。 逆に言えば、割当済 (assigned) の符号位置はすべて「ブロック名」(Block name) という特性(英語版) (property) を持つ。これはその文字 (character) があるブロックの名前である。これは符号位置

                                                            • Microsoft、Apple SiliconとUnicode Keyboard Mode使用時にクライアントサイドのIMEをサポートしたMac用リモートデスクトップクライアント「Remote Desktop v10.6」をリリース。

                                                              MicrosoftがApple SiliconとUnicode Keyboard Mode使用時にクライアントサイドのIMEをサポートしたMac用リモートデスクトップクライアント「Remote Desktop v10.6」をリリースしています。詳細は以下から。 Microsoftは現地時間2021年04月14日、同社のリモートデスクトップクライアント「Microsoft Remote Deskto‪p‬」をv10.6へアップデートし、新たにApple Siliconをネイティブサポートしたと発表しています。 Microsoft Remote Deskto‪p‬ v10.6.0 Added native support for Apple Silicon. Added client-side IME support when using Unicode keyboard mode. リリース

                                                                Microsoft、Apple SiliconとUnicode Keyboard Mode使用時にクライアントサイドのIMEをサポートしたMac用リモートデスクトップクライアント「Remote Desktop v10.6」をリリース。
                                                              • 「スプレッドシートによるスクレイピング」 で、取得したデータをShift_JISからUNICODEに変換する方法 - Qiita

                                                                概要 スプレッドシートで簡単にスクレイピングができるIMPORTXML関数を使う際に、取得したデータの文字コードがShift_JISの場合文字化けが起きてしまいます。その問題をGoogle Apps Script(GAS)を利用してSHIFTJIS2UNICODEという独自関数を登録することにより解決しました。 手順 こちらのコードをGASにコピペして、スプレッドシートのセルからSHIFTJIS2UNICODE関数を呼び、=SHIFTJIS2UNICODE(IMPORTXML("https://en.wikipedia.org/wiki/Moon_landing", "//a/@href"))のように活用します。 詳細な手順 スプレッドシートのメニューから「ツール」→「スクリプトエディタ」の順に進み、スクリプトエディタを開きます。 SHIFTJIS2UNICODE.gsをコピーして、スクリ

                                                                  「スプレッドシートによるスクレイピング」 で、取得したデータをShift_JISからUNICODEに変換する方法 - Qiita
                                                                • オープンソース版Twemoji 15.1.0のリリース ~Unicode Emoji 15.1に対応 | gihyo.jp

                                                                  オープンソース版Twemoji 15.1.0のリリース ~Unicode Emoji 15.1に対応 X/Twitterの絵文字として著名なTwemojiのフォーク版(@jdecked/twemoji)が本日、コミュニティの協力のもとUnicode Emoji 15.1に対応したバージョンTwemoji 15.1.0をリリースした。ライセンスは、コードがMIT、絵文字自体がCC-BY 4.0。 Twemoji 15.1.0に収録された新しい絵文字 イーロンマスク氏のX/Twitter買収後から公式のTwemojiリポジトリでは新しい絵文字が追加されなくなったため、当時TwitterでTwemojiに携わっていたJustine De Caires氏(@jdecked)がその後フォークし、コミュニティと協力してオープンソース版のTwemojiをリリースしている。 なお、現在策定中のUnicod

                                                                    オープンソース版Twemoji 15.1.0のリリース ~Unicode Emoji 15.1に対応 | gihyo.jp
                                                                  • カオス過ぎる Unicode, UTF-8, UTF-16, UTF-32 の違い概要まとめ - Qiita

                                                                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 文字コードについて、Shift-JISもカオスながら、鳴り物入りで出来たUnicodeも色々あるようなので、要点をサクッとまとめ。 とりあえずこれだけ押さえておけばOK Unicode:文字コードの規格の名称。あらゆる国の文字コードを格納できる UCS-4:Unicodeとほぼ互換 UCS-2:UCS-4の一部分。65,535文字を表現 UTF:UCS-4(UCS-2)、Unicodeをバイト列で表現する方法。Unicodeでは "Unicode Transformation Format"、ISO/IEC 10646では "UCS T

                                                                      カオス過ぎる Unicode, UTF-8, UTF-16, UTF-32 の違い概要まとめ - Qiita
                                                                    • 【jsonモジュール】PythonでJSONファイルに日本語を出力する方法 【Unicodeエスケープなし】|Tech and Investment

                                                                      実行結果 後述の「日本語のJSONファイルを出力するコード」の実行結果です。 「enseure_ascii = false」の指定の有無で、以下のようにUnicodeエスケープあり・なしの日本語が出力されます。 人が読めるかたちで日本語を出力する場合は、「ensure_ascii=False」を指定します。 ensure_ascii=False の指定なし 「Roles」の部分が、Unicodeエスケープの形式で表示されています。 { "Email": "taro@example.com", "Active": true, "CreatedDate": "2013-01-20T00:00:00Z", "Roles": [ "\u30e6\u30fc\u30b6\u30fc", "\u7ba1\u7406\u8005" ] }

                                                                        【jsonモジュール】PythonでJSONファイルに日本語を出力する方法 【Unicodeエスケープなし】|Tech and Investment
                                                                      • 「Visual Studio Code」2021年11月更新でテーマカラーをインストールせずに体験可能に/Unicode偽装攻撃への対策も強化

                                                                          「Visual Studio Code」2021年11月更新でテーマカラーをインストールせずに体験可能に/Unicode偽装攻撃への対策も強化
                                                                        • 正規表現における文字の指定方法を深める――「文字クラス」と「Unicodeプロパティエスケープ」

                                                                          正規表現における文字の指定方法を深める――「文字クラス」と「Unicodeプロパティエスケープ」:ECMAScriptで学ぶ正規表現(4) 正規表現の基本と、ECMAScript(JavaScript)における利用方法を紹介する連載。今回は、文字クラスによる文字の指定方法と、便利なUnicodeプロパティエスケープについて。

                                                                            正規表現における文字の指定方法を深める――「文字クラス」と「Unicodeプロパティエスケープ」
                                                                          • Guidelines for Submitting Unicode® Emoji Proposals

                                                                            Last Update: 2024-04-01 The goal of this page is to outline the process and requirements for submitting a proposal for new emoji; including how to submit a proposal, the selection factors that need to be addressed in each proposal, and guidelines on presenting evidence of frequency. Follow these guidelines and supporting documents for your emoji proposal to have the best chance of being accepted.

                                                                            • エンジニアHubにて「文字コード再入門─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」公開 - yanok.net

                                                                              「エンジニアHub」にて記事を執筆しました。「文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」として公開されています。 若手エンジニア向けのWebメディアとのことで、プログラミング上の注意点にフォーカスした内容になっています。コード例にはJava, Python, Rubyを用いています。 拙著をすでにお読みの方には復習となる内容ですが、まだの方はこの機会に是非お読みいただければと思います。記事の最後に拙著『[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)』の版元へのリンクも設定されていますので、興味を持たれた方には書籍の方もお読みいただければ幸いです。 当記事編集担当の方には「とても品質の高い記事」とのことで感謝のお言葉をいただきました。読者のお役に立つことを願っています。

                                                                              • Unicode―文字コード入門―

                                                                                Unicodeとは 多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みである文字コードも、その国の数だけ増えていく状態であり、情報交換のために様々な不都合が生ずるようになってきました。また、企業の側でも各国個別の言語に合わせたソフトウェアを開発するためには膨大なコストが必要なため、これを解消する手段が求められるようになってきたのです。 そこでこの問題を解消すべく、IBM、Microsoft、Apple等が加盟(他のメンバーについてはこちらを参照)するNGOであるUnicodeコンソーシアムが中心となって、全ての文字を16ビット(65536文字)に収録してしまおうという、野心的な多重言語文字セット規格の制定を企図していました。またそれとは別に、国際標準化機構(ISO)が、世界中の主要な文字を一括して扱う多重言語文字セット規格を開発していました。国際規格が複数制定される

                                                                                • ﷽ これでUnicodeでは1文字

                                                                                  これでUnicodeでは1文字

                                                                                    ﷽ これでUnicodeでは1文字