並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 307件

新着順 人気順

utf8の検索結果161 - 200 件 / 307件

  • AV1 Patent Issue

    WebRTC Meetup Tokyo #21 で使用したスライド (改) https://atnd.org/events/105581 更新履歴: ・AV1 の商用リアルタイム 4K ハードウェアエンコーダ IP 事例を追記 ・ロイヤリティーフリーという用語を正しく使うよう修正 ・AoM Patent License の防衛的契約解除の影響範囲に関して修正・大幅追記 ・動画配信サービスの体感品質評価に関するプロジェクト情報を拡充

      AV1 Patent Issue
    • Zero Width Shortener

      ZWS uses zero width characters instead of the typical alphanumeric ones that URL shorteners use. When rendered, these characters appear invisible, but they're still there, which means that ZWS is able to use them to encode information about your URL. Hi, I'm Jonah, the creator of ZWS. I hacked together the first version of ZWS back in 2019, mostly just to see if the concept would actually work. It

        Zero Width Shortener
      • UTF-8のバリデーションとモノイドと半群

        この記事はUTF-8のバリデーションとオートマトンの続きです。 前回はUTF-8のバリデーションが8状態のオートマトン (DFA) で表現できることを見ました。状態と遷移を擬似コードで書けば次のようになるでしょう: -- 8つの状態 data State = START | TAILx1 | TAILx2 | TAILx3 | A | B | C | D -- 入力バイトに応じて次の状態を返す。次の状態が該当しなかったら Nothing を返す next :: Word8 -> State -> Maybe State +----+----+-----+----+ | a0 | a1 | ... | aN | 8ビット整数列 +----+----+-----+----+ | | | v v v +----+----+-----+----+ | m0 | m1 | ... | mN | モノ

          UTF-8のバリデーションとモノイドと半群
        • How to Speed Up JSON Encoding and Decoding in Golang

          Custom software development Tailored software solutions and software augmentation services to meet unique business needs, drive operational efficiency, and stimulate business expansion Read more Development teams Dedicated development teams and professionals that work exclusively on your project and ensure top-notch tailored solutions Read more IT consulting Expert guidance on leveraging advanced

            How to Speed Up JSON Encoding and Decoding in Golang
          • 「Twitter」改め「X」のロゴはUnicodeの「U+1D54F」らしい/「黒板文字」や「重ね打ち体」と呼ばれる文字の1つ【やじうまの杜】

              「Twitter」改め「X」のロゴはUnicodeの「U+1D54F」らしい/「黒板文字」や「重ね打ち体」と呼ばれる文字の1つ【やじうまの杜】
            • Unicode変体仮名一覧

              Unicode(ユニコード)に登録されている変体仮名(へんたいがな)286文字(U+1B001〜U+1B11E)を、現代のひらがなごとにまとめ直し、ひらがなごとに字母を確認できるようにしました。 表の左列のリンクから、日本古典籍くずし字データセットに収録された実際の字形を確認できます。ただしすべての字母に対応する字形が収録されているわけではない点にご注意下さい。なお、変体仮名や字母の説明については、くずし字とは?をご覧下さい。くずし字の字形については、くずし字データベース検索(ひらがな(変体仮名)・カタカナ・漢字)やくずし字データセット 文字種(くずし字)一覧をご利用ください。

                Unicode変体仮名一覧
              • ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた

                「『生成AIを使ってこんなもの作ってみました』開発者LT大会」は、急速に発展しているChatGPTや生成AIといったAI技術を使って何かを作ってみた人たちがアイデアや成果を共有する、ログミーTech主催のイベントです。ここでPR TIMES社の土屋氏が登壇。「ChatGPTを使って文字コードを扱う負担を軽減できるか」という調査の内容と結果について紹介します。 Shun氏の自己紹介と、本セッションのアジェンダ Shun氏(以下、Shun):それでは、PR TIMES社の土屋が発表します。私の名前はShunといいます。PR TIMESに勤めていて、ソフトウェアエンジニアをやっています。 本日のアジェンダです。私の発表はどちらかというと、個人開発でChatGPTを使ったものを作って、それで実験をしてみたという内容になっております。 表題にもあるとおり、ChatGPTに文字コードのことを聞いてどん

                  ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた
                • GitHub - unicode-org/last-resort-font: Last Resort Font

                  This repository includes two versions of the Last Resort font: Last Resort and Last Resort High-Efficiency. Although both fonts can be installed at the same time—because they have different names—you are encouraged to download and install only the one that is expected to work in the environments that you use: The file LastResort-Regular.ttf is a font named Last Resort, and its 'cmap' table include

                    GitHub - unicode-org/last-resort-font: Last Resort Font
                  • 検索画面:奈良文化財研究所 史的文字データベース連携検索システム

                    検索文字 検索する ・調べたい文字を入力してください。(単文字のみで指定可能です) By using this site, you are allowing the configuration and use of cookies. For details, please see our Privacy Policy. Agree

                    • It’s not wrong that "🤦🏼‍♂️".length == 7

                      The string that contains one graphical unit consists of 5 Unicode scalar values. First, there’s a base character that means a person face palming. By default, the person would have a cartoonish yellow color. The next character is an emoji skintone modifier the changes the color of the person’s skin (and, in practice, also the color of the person’s hair). By default, the gender of the person is und

                      • SwiftのStringの文字の数え方を完全理解する

                        SwiftはUnicodeの扱いに非常に長けた言語であり、絵文字を含む文字列でも正しい文字数を計算してくれます。 その反面、Unicodeの複雑さに引きずられてしまい、直感的な操作ができない時もあります。たとえば、 string[2] と書いても3番目の文字を取得することはできません。 そんな複雑なところのあるSwiftの文字列処理ですが、複雑なものを受け入れてきちんと理解するのはそこまで難しいものではありません。 このトークでは、Unicodeとの関係を意識しながら、Swiftの文字数の扱い方とその裏にある考え方を解説します。

                          SwiftのStringの文字の数え方を完全理解する
                        • ファイルシステムとS3でのユニコード正規化の関係を調べてみた2021 - MNTSQ Techブログ

                          こんにちは、MNTSQでSREとして勤務している中原といいます。 プライベートも含めて、技術記事は久しぶりな気がします。がんばります。 さて、さっそくですが、日本人にとって、あるいは、韓国の方や中国の方も含めて、コンピュータ上でそれぞれの国の言葉を扱おうとしたときに苦労するのが文字コードです。 かつては(あるいは今も)、Shift JIS、EUC-JPなど、OSや環境などによって使われる文字コードが異なり、相互の連携や、同じOSでも設定次第で大いに苦労したものでした(と聞いておりますし、個人でPCを楽しんでいたときには苦しんだりした記憶があります)。 そうこうしているうち、多くのOSで標準的な文字コードとしてUnicodeが採用されるようになりました。Windowsでは内部でUTF-16LEを採用しています。Linuxでは、UTF-8を標準とすることが多くなりました。 Unicodeに統一

                            ファイルシステムとS3でのユニコード正規化の関係を調べてみた2021 - MNTSQ Techブログ
                          • 正規表現を豊かにする ES2024 RegExp v (unicodeSets) フラグ

                            【2023/05/17 変更】 2023年5月の TC39 会議で Stage 4 になったため、タイトルを変更 HTML Standard の pattern 属性に取り込まれたので修正 ES2024 RegExp v (unicodeSets) フラグ ES2024 に RegExp v (unicodeSets) フラグというものがあります。これは既存の u (unicode) フラグを改善して置き換え、機能追加することを目的としています。 詳しい内容については V8 や 2ality による解説記事が詳しいです。ここではその概要をピックアップして述べたいと思います。 複数のコードポイントからなる絵文字の対応(Unicode Properties of Strings) ES2015 に u (unicode) フラグが導入され、コードポイント単位で正規表現を扱えるようになりました。

                              正規表現を豊かにする ES2024 RegExp v (unicodeSets) フラグ
                            • メッセージやTwitterなどのアプリで表示されると、iOS 13.4.1やmacOS 10.15.4までのiPhone、Mac、Apple Watchがクラッシュしてしまう文字列が発見される。

                              メッセージやTwitterなどのアプリで表示されると、iOS 13.4.1やmacOS 10.15.4までのiPhone、Mac、Apple Watchがクラッシュしてしまう文字列が発見されています。詳細は以下から。 9to5Macなどによると、現在Appleが正式にリリースしている最新のiOS 13.4.1やmacOS 10.15.4 Catalinaなどを搭載したiPhoneやiPad、Apple Watch、Macで、メッセージやTwitterアプリなどに表示させるだけで、システムがクラッシュする文字列(いわゆる「強いUnicode」)が発見され、拡散されているそうです。 The string of text, which we aren’t going to share here, includes the Italian flag emoji and characters in

                                メッセージやTwitterなどのアプリで表示されると、iOS 13.4.1やmacOS 10.15.4までのiPhone、Mac、Apple Watchがクラッシュしてしまう文字列が発見される。
                              • 世界共通言語になった 「絵文字」の未来、 初の女性委員長が語る

                                The woman who will decide what emoji we get to use 世界共通言語になった 「絵文字」の未来、 初の女性委員長が語る 絵文字(emoji)は、テキストメッセージに微妙なニュアンスを追加する手法としてネットで多用されている。絵文字を標準化するユニコード・コンソーシアムの絵文字小委員会の委員長に就任したジェニファー・ダニエルが、自らの役割や絵文字の未来について語った。 by Tanya Basu2021.05.24 45 18 3 「絵文字(emoji)」は、今では人々の言語の一部となっている。よほど変わった人でない限り、メールやインスタグラムの投稿、ティックトック(TikTok)の動画に、表現力を高めるさまざまな小さな画像をちりばめていることだろう。例えば、予防接種を受けた時の血が少し滴る注射器💉 や、「ありがとう」の意味を込めた祈りの手🙏

                                  世界共通言語になった 「絵文字」の未来、 初の女性委員長が語る
                                • シュトヘル達の名前を西夏文字 (Unicode) で書く

                                  初稿: 2020-10-16 小松弘幸 (@komatsuh) 記事の内容 シュトヘルという漫画がとてもよいです 西夏文字をコンピューター上で扱う方法を紹介します 西夏文字の簡易辞書を作成します シュトヘルの登場人物を西夏文字で表現します ユルール 𘅝𘚻 (U+1815D U+186BB) - 祝福 (慶喜) ハラバル 𗱈𗰞 (U+17C48 U+17C1E) - 黒虎 シュトヘル 𘄅𗾢 (U+18105 U+17FA2) - 雀子 左から順に ユルール ハラバル シュトヘル はじめに この文書に登場する西夏文字を正しく表示するためには、おそらくフォントのインストールが必要です。下記の GitHub などからダウンロードとインストールができます。 Noto fonts: NotoSerifTangut (GitHub) シュトヘルと西夏文字 シュトヘルという漫画を読んでとても好

                                    シュトヘル達の名前を西夏文字 (Unicode) で書く
                                  • UTF-8のバリデーションとオートマトン

                                    UTF-8は今日の文字エンコーディングの中で最も重要なものと言って差し支えないでしょう。UTF-8の仕様はこの辺で確認できます: Unicode 15.1.0 > 3.9 UTF-8 RFC 3629 - UTF-8, a transformation format of ISO 10646 この記事では、読者はすでにUTF-8にある程度の馴染みがあるものとして、UTF-8のバリデーションの細かいところを考えます。 UTF-8のバリデーションを行うには、以下のことを確かめなければなりません: 最初の1バイトが所定の範囲にあること:ASCII (0x00-0x7F) または0xC2以上。 後続のバイト(たち)が0x80-0xBFの範囲にあること。 長すぎないこと:U+007F以下の文字はちょうど1バイトで表現されていること、U+0080以上U+07FF以下の文字はちょうど2バイトで表現されて

                                      UTF-8のバリデーションとオートマトン
                                    • Unicodeバージョン 15.0リリース ―CJKの表意文字など4,489文字が追加 | gihyo.jp

                                      Unicode Consortiumは9月13日、Unicode標準のバージョン 15.0が利用可能になったことを発表した。バージョン15.0では4,489文字が追加され、合計で14万9,186文字になった。 追加文字には20個の新しい絵文字と 4,193個のCJK(中国語、日本語、韓国語)の表意文字とともに、2つの新しいスクリプトが追加され、合計161個のスクリプトが含まれる。 新しいスクリプトには以下のようなものがある。 ナグ・ムンダリ:インドで使われる言語であるムンダリを書くために使用される現代の文字 カンナダ語文字:インドでコンカニ語、アワディ語、ハビャカ語カンナダ語を書くために使用される文字 カクトビック数字:イヌイット語とユピック語の数を表示するために、アラスカ州カクトビックのイヌピアク語話者によって考案された文字 また、20の新しい絵文字にはヘアピック、マラカス、クラゲ、カン

                                        Unicodeバージョン 15.0リリース ―CJKの表意文字など4,489文字が追加 | gihyo.jp
                                      • Unicode Utilities: Confusables

                                        With this demo, you can supply an Input string and see the combinations that are confusable with it, using data collected by the Unicode consortium. You can also try different restrictions, using characters valid in different approaches to international domain names. For more info, see Data below.

                                        • RubyでISO国名コード2文字を絵文字の国旗に変換する(翻訳)|TechRacho by BPS株式会社

                                          概要 原著者の許諾を得て翻訳・公開いたします。 英語記事: Convert a two character ISO country code to an emoji flag - Andy Croll 原文更新日: 2021/02/01 著者: Andy Croll regional indicator symbolやregional indicator characterは、仮訳の「地域指示記号」で統一しました。 また、一部のサンプルコードについては見やすさのためGistを使っています。 アプリケーションで、国名の参照をISO 3166-1 alpha-2標準の2文字のコードとしてインラインで保存することがよくあります。たとえば「GB」は英国、「US」は米国を表すという具合です。 しかし絵文字でやりたい人たちがいるならば受けて立ちましょう。 def emoji_flag(country_

                                            RubyでISO国名コード2文字を絵文字の国旗に変換する(翻訳)|TechRacho by BPS株式会社
                                          • What's New in Unicode 14.0

                                            Today the latest emoji list will be released by the Unicode Consortium, with additions including Biting Lip, Troll, Saluting Face, as well as two heart-related gestures: Heart Hands and Hand with Index Finger and Thumb Crossed (aka finger heart, popular in K-Pop circles). The release date for version 14.0 of the Unicode Standard was aptly set for the 14th day of September, and formalizes what has

                                              What's New in Unicode 14.0
                                            • 「Unicode Emoji 14.0」リリース──敬礼する顔や妊娠する男性など

                                              Emojipediaは、Googleは10月にはEmoji 14.0を実装すると予測している。近くリリース予定の「Android 12」では新しいEmojiが使えるかもしれない。 新たに加わった絵文字などの詳細についてはEmojipediaのブログを参照されたい。 関連記事 絵文字専門サイトのEmojipedia、携帯アプリ企業Zedgeが買収 世界絵文字デー提唱でも知られる絵文字サイトのEmojipediaを、携帯アプリ企業のZedgeが買収した。運営はこれまでと変わらず、「将来的に安定した成長が可能になった」と創業者のジェレミー・バージ氏は語る。 食べ物はよりおいしそうに Googleの絵文字はダークモードで星空にも変わる 7月17日は「世界絵文字デ-」ということで、Googleが絵文字の新デザインを発表しました。Gmailやチャットでは7月中に利用可能になる見込みです。Android

                                                「Unicode Emoji 14.0」リリース──敬礼する顔や妊娠する男性など
                                              • 第157回 MySQLのデフォルトcollationの注意点 | gihyo.jp

                                                MySQLではcharacter set(以後、charset)やcollationをグローバル、データベース、テーブルやカラムレベルで設定することができます。今回はMySQLのデフォルトcollationの注意点を紹介したいと思います。使用するMySQLのバージョンは8.0.26です。 charsetやcollationとはなにかについては説明はしません。よって、charsetやcollationについてご存知ない方は、先にマニュアル「第10章 文字セット、照合順序、Unicode」をご確認ください。 charsetやcollationの各レベルの設定方法 グローバル 以下のシステム変数を設定します。 character_set_server… サーバーのデフォルトのcharset collation_server… サーバーのデフォルトのcollation データベース CREATE

                                                  第157回 MySQLのデフォルトcollationの注意点 | gihyo.jp
                                                • Unicode characters you can not see

                                                  Invisible Unicode characters? In Unicode there are a lot of invisible characters: regular white-space characters (e.g. U+0020 SPACE), language specific fillers (e.g. U+3164 HANGUL FILLER of the Korean Hangual alphabet), or special characters (e.g. U+2800 BRAILLE PATTERN BLANK). While all of these have a specific meaning in their natural context, they can be used in various applications that don't

                                                  • getwisdom.io

                                                    This domain may be for sale!

                                                      getwisdom.io
                                                    • Rubyでバイナリデータに対するrindex検索の挙動でハマったので調べたことメモ - すぎゃーんメモ

                                                      自分の手元の環境でこんなことが起きた。 $ ruby -v ruby 3.1.2p20 (2022-04-12 revision 4491bb740a) [arm64-darwin21] $ irb irb(main):001:0> "\x01\x80\x00\x00".index("\x01") => 0 irb(main):002:0> "\x01\x80\x00\x00".rindex("\x01") => 1 \x01 は 0 番目にしかないのだから、 .index でも .rindex でも 0 が返ってくるはずではないの?? 先に結論 きっかけ String#rindex の謎挙動 もう少し深く追う Encodingと実行環境 つまり再現条件は Rooの問題 Rubyのバグではないの? 3.2 先に結論 バイナリデータを扱うときには必ずEncodingを ASCII-8BIT

                                                        Rubyでバイナリデータに対するrindex検索の挙動でハマったので調べたことメモ - すぎゃーんメモ
                                                      • The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me

                                                        If you combine this with the Unicode table, you’ll see that English is encoded with 1 byte, Cyrillic, Latin European languages, Hebrew and Arabic need 2, and Chinese, Japanese, Korean, other Asian languages, and Emoji need 3 or 4. A few important points here: First, UTF-8 is byte-compatible with ASCII. The code points 0..127, the former ASCII, are encoded with one byte, and it’s the same exact byt

                                                          The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me
                                                        • Home

                                                          Everyone in the world should be able to use their own language on phones and computers. Learn More about Unicode

                                                            Home
                                                          • 人間にUnicode正規化は難しい - エムスリーテックブログ

                                                            【AI・機械学習チーム ブログリレー2日目】 AI・機械学習チームの池嶋 (@mski_iksm) です。 私達のチームでは、機械学習バッチの実行方法やインターンを含む新配属者のPC初期セットアップ手順など多くのドキュメントがGitLab上で管理されています。Gitでドキュメントを管理するのは、Wiki等と比較して更新時のピアレビューがしやすかったり、CIによる自動チェックがやりやすかったりなどのメリットから採用されています。 CIの自動チェックの1つとしてリンクチェッカーがあります。これは切れているリンクがないかを更新時にチェックするものです。 ある日、ファイルはあるように「見える」のに、なぜかリンクチェッカーのCIが落ちているという事象が発生しました。 タイトルでネタバレしているのですが、原因はUnicodeの正規化でした。 この記事では、何が起きていたのか?どのようなケースで起こりう

                                                              人間にUnicode正規化は難しい - エムスリーテックブログ
                                                            • MySQLの正規表現がGrapheme Clusterに対応していた - tmtms のメモ

                                                              「竈門禰󠄀豆子」を MySQL に保存できるとかできないとかいう話題を見て、そう言えば MySQL の Grapheme Cluster 対応ってどうなってるんだっけ…と思ってググってみたら、MySQL 8.0.28 のリリースノートにこんな文を見つけた。 International Components for Unicode version 67 introduced a new implementation for \X (match a grapheme cluster), which requires locale data not currently included with MySQL. This means that, when using the version of ICU bundled with MySQL, a query using \X raises th

                                                                MySQLの正規表現がGrapheme Clusterに対応していた - tmtms のメモ
                                                              • CA1965 – 新元号と文字コードの国際標準を巡って / 小林龍生

                                                                新元号と文字コードの国際標準を巡って 一般社団法人文字情報技術促進協議会:小林龍生(こばやしたつお) 2019年は、平成最後の年として始まり、令和元年として暮れようとしている。本論では、新天皇即位に伴う平成から令和への改元に係わる国際符号化文字集合UCS(ISO/IEC 10646:Universal Coded Character Set)(1)とUCSに対応する民間標準規格ユニコード(Unicode Standard)(2)を巡る2つの話題について論じる。 1. 令和の合字について 活版で印刷された新聞や書籍を見ると、しばしば、1字分のスペースに、複数の文字を鋳込んだ活字を目にすることがある。いわゆる合字と呼ばれるもので、リガチャーとも呼ばれる。 ただし、欧文のリガチャーは、羊皮紙本の写本などで用いられていた複数のアルファベットの簡略筆写法の残滓としての意味合いが強いが、日本語活字の合

                                                                  CA1965 – 新元号と文字コードの国際標準を巡って / 小林龍生
                                                                • RubyではなぜUCS正規化を採用していないのでしょうか?

                                                                  回答: Java, JavaScript, Pythonなど、多くの言語でUnicodeを用いたUCS(Universal Character Set)方式を採用している理由は、推測ではありますが、 * Unicodeで十分と思った * UCS方式の問題にあまり遭遇したことがなかった * CSI方式は実装が複雑すぎて現実的ではないと思った とかではないでしょうか。これらの言語の設計者はみな欧米人で、だいたいASCIIかISO-8859でテキストが表現できてしまうので、マルチバイト文字の闇を覗き込む機会はほとんどなかったんですよね。 一方、私を含めて日本人(またはアジア人)たちは...

                                                                    RubyではなぜUCS正規化を採用していないのでしょうか?
                                                                  • 目に見えない文字を悪用してサイトを好き放題荒らされた話 - Qiita

                                                                    ある日のこと 僕の運営している『ブラウザで遊べる絵チャット(令和最新版)』に、このような投稿がされてしまいました。 正直こんな荒らしは毎日のようにあるのですが、普段であればすぐに他のユーザーによって通報され、対処されます。 しかし、このユーザーは、何故か他ユーザーに通報されることなく、荒らし続けることができていました。 スクショをよく見ていただきたいのですが、通常であれば、「善良ユーザーA」のように発言の横にユーザーが名が表示され、そのユーザー名をクリックすることでプロフィールを表示することができるようになっています。 しかし、荒らしているユーザーには、なんと名前がないのです。 名前がないと、ユーザー名を押下することができず、プロフィールも表示できません。 違反行為の通報は、プロフィールから行うようになっているため、このユーザーは他ユーザーから通報されることなく、好きなだけおちんちん祭りを

                                                                      目に見えない文字を悪用してサイトを好き放題荒らされた話 - Qiita
                                                                    • (メモ)同じ繁体字でも台湾と香港ではグリフが違う話 - 水底の血

                                                                      (表ではフォントに源ノ角ゴシックを指定しているので、インストールしてない人はsource-han-sansからどうぞ。どのファイルか迷う人はSuperOTCを入れればOK。) 百聞は一見にしかず、次の表に適当に漢字を比較させてみたのでどうぞ。 国および地域別のUnicodeコードポイントとグリフの比較 地域 言語タグ U+9AA8 U+6B21 U+771F U+4E03 U+904D 台湾(繁体字) zh-Hant-TW 骨 次 真 七 遍 香港(繁体字) zh-Hant-HK 骨 次 真 七 遍 中国(簡体字) zh-Hans 骨 次 真 七 遍 日本(参考) ja 骨 次 真 七 遍 韓国(参考) ko 骨 次 真 七 遍 …とそれだけではあまりにも味気ないので、補足説明をほんのちょっと。 ふと簡体字と繁体字を言語コードで表すときに、zh-Hansとzh-Hantとしましょうというと

                                                                        (メモ)同じ繁体字でも台湾と香港ではグリフが違う話 - 水底の血
                                                                      • Unicode 13.0 で新しく収録された日本語の漢字|Colorless Green Ideas

                                                                        2020年3月にリリースされた Unicode 13.0 では、「日本で最も画数が多い字」とも呼ばれる「たいと」という漢字と宮沢賢治の詩の中に出てくる「鏡」を4つ組み合わせた漢字が収録された。また、Unicode 13.0 における部首の例示フォント変更についても触れる。 はじめに Unicode は世界の様々な文字をコンピュータ上で統一的に扱うための国際規格である [1] 。Unicode には毎年のように新しい文字が追加されており、2020年3月にリリースされた Unicode 13.0 では 5,930字が追加されている [2] 。 Unicode 13.0 での漢字の追加 Unicode 13.0 で追加された文字の大半は漢字である。Unicode 13.0 では、漢字 [3] を追加するためにCJK統合漢字拡張G (CJK Unified Ideographs Extension

                                                                          Unicode 13.0 で新しく収録された日本語の漢字|Colorless Green Ideas
                                                                        • How to encode categorical features for GBDT

                                                                          GrafanaMeetup_AmazonManagedGrafanaのアクセス制御機能とマルチテナント環境下でのアクセス制御について

                                                                            How to encode categorical features for GBDT
                                                                          • Python で文頭に記載する文字コードの「アレ」(なんちゃら UTF-8 みたいなやつ)の名称と仕様 - Qiita

                                                                            「python 文頭に記載する アレ」とか「python 文頭 記述 文字コード アレ」の Qiita 記事をググっても出てこなかったので、自分のググラビリティ(備忘録)として。 TL; DR (今北産業) アレは英語で Magic comment と言います。 Python 3 の場合、ソースが UTF-8 の時は記載は不要です。(むしろ非推奨) Python 3 で使えるコーデック文字コードのエンコード一覧はこちらになります。 Standard Encodings | Codecs | Library | v3 @ docs.python.org 取りまとめ 英語で Magic comment と言います Magic comment の日本語表記について 英語の文献(PEP-263)には「magic comment」という記載がありました。 To define a source cod

                                                                              Python で文頭に記載する文字コードの「アレ」(なんちゃら UTF-8 みたいなやつ)の名称と仕様 - Qiita
                                                                            • Unicode(ユニコード)とURLエンコード検索と変換サイト 0g0.org

                                                                              記号や便利な文字等囲み文字、略文字、短縮文字、マーク、シンボル【™©🆗①㊿🅐㋐㋿㍻㍾㊩㍿🈀】単位の略文字・短縮文字【㎠㋌㏞㏗㏖㏒㎧㎢】数学・技術分野と関係する記号やシンボルと数字【∀∏∑−∓√∛∜∞∫∴∵≃】矢印【⇐⇑⇒⇓⇔⇕⇖⇗⇘⇙↰↱↲↳↴↵↶↷】色のある丸と四角【⚪⚫🔴🟧🟨🟩🟪🟫】トランプ【🂡🂢🂣🃜🃝🃞🂿🃏🃟】麻雀牌【🀄🀅🀆🀇🀈🀐🀑🀙🀚🀛】ドミノ牌【🀱🀲🀳🂑🂒🂓】罫線【┌─┬──┼─┐┗━╋━━━┻━┛═╬═】全角文字と半角文字【123!"#$%&¢£¬ ̄¦¥₩ァィゥェォアイウエオ】ブロック要素と幾何学模様【■░▞▚▣◯◍◈◶】便利な絵文字、記号、顔文字【☀☁☂🍘🍙🍚🥇🥈🥉⚡⚽⚾🙈🙉🙊】平仮名とカタカナ(全角・半角)【あいうえおアイウエオヤユヨヷヸヹヺ】かっこ(括弧)各種【【{❴⁽₍⦅⦆₎⁾❵}】】

                                                                              • [Go] JSONを構造体にマッピングしつつ生データを保存するUnmarshalJSONの実装方法 - My External Storage

                                                                                GoではJSONを扱うときでもしっかり型定義に当てはめて利用するのが一般的だ。 しかし、外部から受け取ったJSONデータは型に当てはめつつ併せて生データも保存しておきたいときがある。 Defind Typeをうまく使うとシンプルなUnmarshalJSON(data []byte)メソッドを定義できる。 type Event struct { ID string `json:"id"` Type string `json:"type"` Payload Payload `json:"pyload"` // 構造体にマッピングする前のJSONを保存しておきたい Raw json.RawMessage `json:"-"` } TL;DR 外部から受け取るJSONは構造が不意に変わることを想定したいときがある UnmarshalJSON(data []byte)メソッドを使うと独自のJSONパ

                                                                                  [Go] JSONを構造体にマッピングしつつ生データを保存するUnmarshalJSONの実装方法 - My External Storage
                                                                                • やっかいな漢字 – CJK部首補助/康煕部首 – ものかの

                                                                                  DTP制作向けのテキスト整形の話です(楽しい文字沼)。 CJK部首補助や康煕部首の漢字は、とてもやっかいです。なにがやっかいかというと、見た目では通常の漢字と区別ができないことです。 文字コードが違うのにどうして見た目がこれほど同じなのかというと、フォントの同じグリフが表示されているからです。 クライアントから支給された文字原稿に、もしかするとこのやっかいな漢字が混入しているかもしれません。なぜかというと、PDFから文字をコピーすると、通常の漢字だったはずなのに、なぜかやっかいな漢字に変わってしまうことがあるからです。このごろは文字原稿の作成にPDFから文字をコピー&ペーストすることが普通に行われているので、やっかいな漢字の混入は日常茶飯事といってよいかもしれません。 クライアントからPDFを支給されたときも、DTP制作者がPDFから文字をコピー&ペーストして、気づかずにやっかいな漢字を混

                                                                                    やっかいな漢字 – CJK部首補助/康煕部首 – ものかの

                                                                                  新着記事