並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 443件

新着順 人気順

文字コードの検索結果361 - 400 件 / 443件

  • Office アシスタント「クリッパー」が絵文字として復活へ | スラド idle

    Office アシスタントの「クリッパー」が Microsoft 365 の絵文字として復活することになったようだ(Microsoft のツイート、 The Verge の記事、 The Next Web の記事、 On MSFT の記事)。 クリッパー (英: Clippy) はゼムクリップに目玉を付けたような外見で、かつて Microsoft Office 英語版デフォルトの Office アシスタントだった。最も嫌われた Microsoft のキャラクターといわれる一方で、たびたび復活を遂げてきた。今回は Microsoft 公式 Twitter アカウントがクリッパーの画像を投稿し、「いいね」が 2 万件を超えたら Microsoft 365 のクリップの絵文字をクリッパーに置き換えると宣言。設定値が低すぎる気もするが、投稿から 2 時間 15分後には既に 3 万件を超えていたとい

    • libraries | suckless.org software that sucks less

      libgrapheme is an extremely simple freestanding C99 library providing utilities for properly handling strings according to the latest Unicode standard 15.0.0. It offers fully Unicode compliant grapheme cluster (i.e. user-perceived character) segmentation word segmentation sentence segmentation detection of permissible line break opportunities case detection (lower-, upper- and title-case) case con

      • Unicode正規化 - Qiita

        とは 「ア」と「ア」, 「①」と「1」など等価な文字の表記を統一する操作. NLPで前処理としてよく使われる "Unicode正規化(ユニコードせいきか、英語: Unicode normalization)とは、等価な文字や文字の並びを統一的な内部表現に変換することでテキストの比較を容易にする、テキスト正規化処理の一種である。" - Wikipedia NFD, NFC, NFKD, NFKC 4種類の正規化形式が存在する. 「NFD (Normalization Form Canonical Decomposition)」 「NFC (Normalization Form Canonical Composition)」 「NFKD (Normalization Form Compatibility Decomposition)」 「NFKC (Normalization Form Com

          Unicode正規化 - Qiita
        • The GB 18030-2022 Standard

          By Dr Ken Lunde A non-trivial amount of my professional life is spent tracking regional character set standards, with an extraordinarily strong focus on ones for East Asia. When a significant standard is published or updated, I take it upon myself to research what changed, in a practical sense, and to spread the word to the developer community. That is the purpose of this particular article. Histo

            The GB 18030-2022 Standard
          • 高速UTF-8バリデーションの世界 - Qiita

            参照: http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf の "Table 3-7. Well-Formed UTF-8 Byte Sequences" アルゴリズムを理解する上で重要なUTF-8の特徴について述べます。 1コードポイントは1-4バイトのシーケンスで表現される 上位ニブル(1バイト8ビットのうち、上位4ビット)を確認することでシーケンスの情報が得られる そのバイトがシーケンス先頭バイトかどうかわかる もしそれがシーケンス先頭バイトだったなら、何バイトのシーケンスかわかる 先頭でないバイトは基本的に0x80..0xBFの範囲が許容されているが、何箇所か例外があるのでそれもバリデーションしなければならない 例外の箇所は表では太字で示した 例えば、表を見て分かるように、先頭バイトが0xE0のとき2バイト目は0xA0..0x

              高速UTF-8バリデーションの世界 - Qiita
            • PowerShell起動時、文字コードをUTF-8に変える方法 - Qiita

              Goal ショートカット設定でPowerShell起動時に文字コードをUTF-8に変える。 経緯 プログラムをコンソールから実行した時、 日本語が含まれていると文字化けが 発生します。 特にWindowsでは、UIの文字コードを UTF-8にするためには、システム全体の 表示言語を英語にする必要があり、 UIは日本語、文字コードはShift-JIS (CP932、Windows-31J)を妥協して 使っている方が多いと思います。 プログラムをコンパイルして実行する前に、 chcp 65001を打ち込んで文字コードを 変える儀式を繰り返すことは無駄だと 気付いた時、即座にリンク先の中に 下記の内容を記述しましょう。 手順 PowerShellショートカットのプロパティを開く。 リンク先を編集する。 プロパティのOKボタンをクリックする。 詳細説明 PowerShellのショートカットの場所を

                PowerShell起動時、文字コードをUTF-8に変える方法 - Qiita
              • Ridiculously fast unicode (UTF-8) validation – Daniel Lemire's blog

                One of the most common “data type” in programming is the text string. When programmers think of a string, they imagine that they are dealing with a list or an array of characters. It is often a “good enough” approximation, but reality is more complex. The characters must be encoded into bits in some way. Most strings on the Internet, including this blog post, are encoded using a standard called UT

                  Ridiculously fast unicode (UTF-8) validation – Daniel Lemire's blog
                • Ubuntu 16.04 のCUIでの文字化け♦♦を直すメモ - Qiita

                  Ubuntuをインストールした際,言語を日本語にしたので, CUI(Ctrl+Alt+F1)画面でエラー吐かれても♦♦♦♦ばかりで読めない。 ログインループに悩まされていたのでとても困った。 文字化けを直す方法 .bashrcというファイルに,設定を書くことで解決。

                    Ubuntu 16.04 のCUIでの文字化け♦♦を直すメモ - Qiita
                  • なにやら文字コードについてMSが言ってるようなのでツッコミ入れておこうと思う|JunTajima

                    ツッコミポイント・Windowsにおける外字ってそういうのを多用してるのはどうせお役所とかだろうからそっちに直接言ったらどうか ・たかが外字持って行っただけでOSのハングアップやブルースクリーンって何だw どうせUnicodeのPUA使ってるだけだろう ・Unicodeで文字が定義されてるかどうかとそいつが手元の環境で出せるかどうかは別問題だ。フォント入れろフォント ・MacでShift_JISのファイル読めないんてことはないよ。cp932(JISX0208のMSによるオレオレ拡張)依存の丸数字が化けたりするけど ・OneDriveのポンコツ実装をユーザーのせいにするなw ・お前のとこの「メモ帳」のデフォルト保存文字コードが長らくcp932だったからずっとShift_JISが残っているのだぜ ・お前のとこの表計算ソフトでCSVをcp932決め打ちで開く挙動どうにかしろ ・お前のとこの圧縮解

                      なにやら文字コードについてMSが言ってるようなのでツッコミ入れておこうと思う|JunTajima
                    • Hideyuki Tanaka on Twitter: "文字コードがUTF8になっただけでは一切対応が進まなかったアメリカ人の書くコードの多倍長文字対応が、絵文字が入った途端に全てのソフトが完璧に多倍長文字に対応されるようになったんで、なんだかんだでアメリカ人に多倍長文字を使う強力なモ… https://t.co/JTxQUjo8vY"

                      文字コードがUTF8になっただけでは一切対応が進まなかったアメリカ人の書くコードの多倍長文字対応が、絵文字が入った途端に全てのソフトが完璧に多倍長文字に対応されるようになったんで、なんだかんだでアメリカ人に多倍長文字を使う強力なモ… https://t.co/JTxQUjo8vY

                        Hideyuki Tanaka on Twitter: "文字コードがUTF8になっただけでは一切対応が進まなかったアメリカ人の書くコードの多倍長文字対応が、絵文字が入った途端に全てのソフトが完璧に多倍長文字に対応されるようになったんで、なんだかんだでアメリカ人に多倍長文字を使う強力なモ… https://t.co/JTxQUjo8vY"
                      • 全角1文字の情報量は何バイト? | スラド IT

                        Twitterで中学生の技術の問題の画像がアップされ、その問いの内容が物議を醸している(d-tasakiさんのツイート)。議論となっているのは次の問題で、

                        • GB 18030-2022が来た!概要編—表紙から読み取る情報〈エリックの多言語文字散歩〉|ヒラギノフォント公式note

                          時は2023年、夏。中国の文字界隈でもっともホットな話題は、新しいGB 18030-2022の施行でしょう。 みなさんも、いよいよGB 18030-2022が2023年8月1日より施行されるという話を聞いたことがあるかもしれませんが、実際にどのような内容で私たちにどのような影響があるか、ご存知ない方もいらっしゃることでしょう。 そこで、GB 18030-2022について概要編と詳細編の2回に分けて解説していきます。 今回はGB 18030-2022の概要編として、中国から入手した本物のGB 18030-2022の規格書の表紙をじっくり見るところから、解説を始めたいと思います。 GB 18030-2022の表紙 そもそもGBってなに?GB 18030の話題を始める前に、そもそも「GB」とはなにかについて簡単に解説しておきましょう。GBとはズバリ、中国の国家標準[※1]のことです。日本の規格で

                            GB 18030-2022が来た!概要編—表紙から読み取る情報〈エリックの多言語文字散歩〉|ヒラギノフォント公式note
                          • 康煕部首 - Wikipedia

                            このWikipediaでは言語間リンクがページの先頭にある記事タイトルの向かい側に設置されています。ページの先頭をご覧ください。

                            • Go と Rustの文字列 - yanok.net

                              Go言語における文字列はUTF-8のバイト列を保持します。また、Unicodeの1符号位置に対応するデータ型としてruneというものが用意されており、これは32ビット整数と同じものです。他の言語でいうchar型にあたります。 Rustでも類似の形です。つまり、文字列型はUTF-8のバイト列を保持し、Unicodeのスカラー値に対応する型としてcharが定義されています。(ここでわざわざ「スカラー値」といい「符号位置」としていないのはRustのドキュメントがそうしているせいで、まあほぼ同じようなものですが、サロゲート上位下位の範囲の値を含まない点だけが違います) こうなるとUTF-16の出る幕がない感じになってきます。今後、JavaやC#のように「文字列はUTF-16、char型は16ビット」というものから、こちらの方式へシフトしてくるのでしょうか。JavaなどはUnicodeのBMPにしか

                              • How does UTF-8 turn “😂” into “F09F9882”?

                                More often than not the mechanism being used to turn bytes into characters and emojis on your computer is "UTF-8". I recently learned how UTF-8 works and felt that the definition lended itself perfectly to creating diagrams explaining the implementation. I created these diagrams for my own enjoyment and wanted to share them. Hopefully this will inspire you to learn how other low-level protocols wo

                                  How does UTF-8 turn “😂” into “F09F9882”?
                                • Unicode Emoji 13.0 — Now final for 2020

                                  The new emoji are listed in Emoji Recently Added v13.0, with sample images. These images are just samples: vendors for mobile phones, PCs, and web platforms will typically use different images. In particular, the Emoji Ordering v13.0 chart shows how the new emoji sort compared to the others, with new emoji marked with rounded-rectangles. The other Emoji Charts for Version 13.0. have been updated t

                                  • mb_convert_encoding "\" (backslash) and "~" (tilde) convert failed to Shift_JIS · Issue #8281 · php/php-src

                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                      mb_convert_encoding "\" (backslash) and "~" (tilde) convert failed to Shift_JIS · Issue #8281 · php/php-src
                                    • 闇の絵文字😈に対する防衛術 - Qiita

                                      はじめに この記事は闇の魔術に対する防衛術 Advent Calendar 2019の15日目の記事です。 ♰闇の絵文字♰ 絵文字というものはとても便利なもので、自らの感情を言葉ではなく1文字分の絵🖼で表現することができます。 しかし......🤔🤔🤔 文章を解析する時に邪魔😡 なんです。 どゆこと❓ Python🐍などを利用して文章解析をする場合、前処理という文章📝を使いやすい形に整える作業をする必要があります。 解析の際に文章中に絵文字があるとあの忌々しい🤢Errorが降臨してしまいます😈 以前擬似しゅうまい🍽のようなものを作った際にはこのエラーに大変悩まされました😱 世界🌎を滅ぼさんとする絵文字から身を守る術👊 この世界を破壊💣し滅ぼそうとする絵文字たちから身を守る術はひとつ☝️ "力"です👊👊👊 絵文字をちぎっては投げちぎっては投げを繰り返せるほど

                                        闇の絵文字😈に対する防衛術 - Qiita
                                      • Unicodeで半角全角を扱う Ambiguous(曖昧さ)とUncertainty(不確実性)の恐怖 - Qiita

                                        Ambiguousだけ東アジアか否かによって扱いを変える必要があります。 FullwidthとWideは東アジア圏では全角で扱いますが、それ以外の文化圏の文章には登場しないため考慮する必要がありません。 東アジア圏かどうか?をどう判定するべきかはプラットフォームによって異なります。私は.NETで扱ったのでデフォルトはCurrentUICultureInfoで処理分岐するようにしました。 さて、ここまでが基本です。 ここから先が闇です。 闇の始まり さて、先ほどの扱いについては、UAX #11: East Asian Widthに明確に記載されています。 しかし、実際に文字をひとつずつ追いかけていくと怪しい文字が頻出します。 ここからは日本で最も著名な等幅フォントである「MS ゴシック」で見ていきたいと思います。 さてAmbiguousは全角で扱います。Ambiguousには「☎」や「®」が

                                          Unicodeで半角全角を扱う Ambiguous(曖昧さ)とUncertainty(不確実性)の恐怖 - Qiita
                                        • テキスト広告が文字化け→実は意図的だった? Twitterのプロモーションが話題に【やじうまWatch】

                                            テキスト広告が文字化け→実は意図的だった? Twitterのプロモーションが話題に【やじうまWatch】
                                          • 変体仮名を使える「Android 15 Beta 2」が公開 ~「プライベートスペース」なども追加/今秋にも正式リリース

                                              変体仮名を使える「Android 15 Beta 2」が公開 ~「プライベートスペース」なども追加/今秋にも正式リリース
                                            • So Long Surrogates: How we moved to UTF-8 in Haskell

                                              We released a blazingly fast Aho-Corasick implementation, written in Haskell, in 2019. This implementation was based on UTF-16 strings, since Haskell's text library uses that for its internal string representation. However, the most recent major update of text changed its internal string representation from UTF-16 to UTF-8. This is good news for us, since most of our customer’s data is ASCII, this

                                              • Rubyだけで文字コード変換を実装する - Eggshell

                                                Ruby Advent Calendar 2021 - Qiita の5日目の記事です。 こんにちは。ima1zumiです。 私はRubyKaigi Takeout 2021 で Dive into Encoding というタイトルでオレオレ文字コードを作って文字コードを学ぶ話をしました。 その中で、C拡張のgemとして自作文字コードの Encoding::IROHA をRubyで使えるようにしました。 それがこちらです。 https://github.com/ima1zumi/encoding_iroha/ このgemを使うことで、みなさんのお手元でもEncoding::IROHAという文字コードが使えるようになります。 どう作るかとかそういった話はRubyKaigi Takeout 2021のアーカイブをご覧ください。 ですが思ったのです。C拡張のgemってビルド要るからめんどくさいで

                                                  Rubyだけで文字コード変換を実装する - Eggshell
                                                • Go 1.17からの負のruneの扱い | フューチャー技術ブログ

                                                  こんにちは、TIGの玉木です。Go 1.17連載の4記事目です。 この記事ではGo 1.17で更新があった負のruneの扱いについてです。更新自体は簡単なもので、この記事ではruneの説明から行います。 この記事を書いたきっかけGo 1.17のRelsease Notes1を眺めていたらいくつかの箇所で negative rune valuesという記述があり、runeってなんだ?と気になったことがきっかけです。 runeについてこちらのseihmdさんのQiita記事がとてもわかりやすかったです。詳細はそちらの記事に任せて、この記事では簡単な紹介に留めます。 コンピュータは文字を0と1のビットで表現します。例えば「”あ”, ”い”, “う”, “え”, “お”」の5種類の文字しかなければ、それぞれ「”000”, “001”, “010”, “011”, “100”」のように0と1で文字を

                                                    Go 1.17からの負のruneの扱い | フューチャー技術ブログ
                                                  • UnicodeとUTF-8と、GoのByte型とrune型についてのまとめ - たのしい駆動開発

                                                    UTF-8,Unicode, Goのbyte, rune関係がよく分からなかったのでいろいろ調べて、自分なりに解釈ができたので、まとめてみようと思います。 まずは定義から行きましょう。 UTF-8: Unicodeで使える8ビット符号単位の文字符号化形式 Unicode: 文字集合(文字セット)が単一の大規模文字セット ようするに、UTF-8は、Unicodeを符号化(エンコード)するやつで、Unicodeはいろんな文字の集合です。 aとか"あ"とか"亜"とか、ほんといろいろな文字の集合。 そして、Unicodeの文字には、識別しやすいように数字が割り振られていて、その数字をコードポイント(Go言語でrune型に割り当てられる)といいます。実際にコードで違いを見てみましょう。 func main() { s := "あいうえお" b := []byte(s) for _, bi := ra

                                                    • 厚生労働省の都道府県別陽性者のフォーマットががらっと変わってしまった - きしだのHatena

                                                      こんな感じで都道府県別の感染者数を表示できるようにしてるわけですが、厚生労働省のフォーマットが変わってしまったのでまとめておく。 nowokay.hatenablog.com 新しいものはこれ https://www.mhlw.go.jp/content/10906000/000628667.pdf いままでのはこれ https://www.mhlw.go.jp/content/10906000/000627630.pdf いままでも連番が入るとか数値にカンマが入るとかちょこちょこ変更は入ってたのだけど、今回はデータの意味も結構かわってしまった。 重症者やPCR検査数も入ったので、データとしては よりよくなったわけではあるけど。 東京のデータも都の発表値と一致するようになって、改めて都のデータをとりにいく必要がなくなったのもいいですね。 ということで困ったところ 「不明」・・・いままでゼロ

                                                        厚生労働省の都道府県別陽性者のフォーマットががらっと変わってしまった - きしだのHatena
                                                      • Go言語(golang)でShiftJISのファイルをutf-8に変換する | DevelopersIO

                                                        データアナリティクス事業本部の森脇です。 Go言語で文字コードを変換するための方法について調べました。 使用するGo言語のバージョンは1.13.6です。 パッケージのインストール 文字コード変換を行うために、準標準パッケージであるgolang.org/x/textを使用します。 $ go mod init example.com/moriwaki/iconv go: creating new go.mod: module example.com/moriwaki/iconv $ go get -u golang.org/x/text go: finding golang.org/x/text v0.3.2 go: downloading golang.org/x/text v0.3.2 go: extracting golang.org/x/text v0.3.2 $ cat go.mod

                                                          Go言語(golang)でShiftJISのファイルをutf-8に変換する | DevelopersIO
                                                        • 文字の表現力が増すおすすめの記号5選 |プレゼンデザイン

                                                          文字の表現力を高めるうえで、ぜひ押さえておきたいのが記号です。記号なら図形など別の要素に頼らなくても、テキストだけでターゲットの視線を引きつけたり、情報の構造を柔軟に表すことができます。プレゼン資料作りで便利な記号を5つ紹介します。

                                                            文字の表現力が増すおすすめの記号5選 |プレゼンデザイン
                                                          • ロシアで使われるキリル文字が文字化けした時に使えるフローチャート

                                                            ロシアで使われるキリル文字はアルファベットの一種ですが、英語で使われるラテン文字とは形が異なるため、ウェブ上では2バイト文字で使われることが多く、そのため文字コードの違いで文字化けが生じてしまうことがよくあります。以下のフローチャートを見れば、キリル文字がどんな感じに文字化けしてしまっているのかを判断することができます。 https://vault.pmpc.ru/vf/16011417/6a7b205721142511253e4d581.png 「кракозябры(ワニ)はどのように見えますか?」という質問からスタートし、どのような文字に変換されるかを確認します。ほとんどの文章が「╬╤╪」のような記号(赤枠)で表示された場合はKOI8-RをCP 866に修正すればOK。 文字と記号が混ざって出現する場合、記号に「п」と「я」の文字が含まれればUTF-8からKOI8-Rに、記号に混ざっ

                                                              ロシアで使われるキリル文字が文字化けした時に使えるフローチャート
                                                            • GitでShift-JISのファイルを扱う際の注意 | プログラマーになった 「中卒」 男のブログ

                                                              先日も以下の記事で文字化け問題について取り上げたが、またShift-JISのファイルを扱う上での文字化け問題に遭遇した。 今回はGit編である。 GitクライアントはSourceTreeを使っているのだが、Shift-JISで作られたファイルの差分を確認しようとすると以下のとおり文字化けが発生する。 今回はこの問題についての解決方法を紹介する。 設定ファイル(.gitattributes)の追加 まずプロジェクトのルートディレクトリ(.gitフォルダと同階層のディレクトリ)に「.gitattributes」という名前でテキストファイルを作成する。 そしてファイル内にShift-JISとして管理するファイル形式を定義する。

                                                                GitでShift-JISのファイルを扱う際の注意 | プログラマーになった 「中卒」 男のブログ
                                                              • ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)

                                                                ストリーム処理におけるApache Avroの活用について (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05) 株式会社NTTデータ 技術開発本部 関 堅吾(Apache Bigtopコミッタ, Apache Yetus PMC/コミッタ) https://oss.nttdata.com/techconf2019/Read less

                                                                  ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
                                                                • Unicode Utilities: Description and Index

                                                                  Boundaries Breaks Demonstrates different boundaries within text. Enter the sample text. Pick the kind of boundaries, or hit Test. Regex Shows transformation of (Java) Regex pattern to support Unicode. Enter the regex pattern Change the sample text if desired. Click Show Modified Regex Pattern You'll then see the modified pattern. It will often be much larger, but any reasonable Regex engine will c

                                                                  • Unicode のスペースは色々あるし、半角スペースと &nbsp は同じでもない - A Memorandum

                                                                    はじめに Unicode の White_Space(Zs) カテゴリ Java における trim と strip はじめに 通常目にするスペースには、半角スペース と全角スペース   があるが、Unicode の定義上でスペースに分類されるものは(Unicodeのバージョンによっても異なるが)18種類存在する HTML で良く目にする文字実体参照の   は、このスペースでの改行を禁止(No-Break)するもので、半角スペースとは異なる Java の String.trim() でトリムされるスペースは、半角スペース U+0020 Java の String.strip() の場合は、ほとんどのスペースがトリムされるが、No-Break なスペースはトリムされない(つまり   なスペースはトリムされない) Unicode の White_Space(Zs) カテゴリ

                                                                      Unicode のスペースは色々あるし、半角スペースと &nbsp は同じでもない - A Memorandum
                                                                    • Decoding UTF8 with Parallel Extract

                                                                      Decoding UTF8 with Parallel Extract 23 Mar 2024 As a side-quest I recently decided to write a branchless utf8 decoder utilizing the pext or "parallel extract" instruction. It's compliant with rfc-3629, meaning that it doesn't just naively decode the code-point but also checks for overlong encoding, surrogate pairs and such. Compiled with gcc -O3 -march=x86-64-v3 the entire decoder results in just

                                                                      • 文字コードの異なるフォームへのPOST(UTF8 to Shift_JIS)

                                                                        文字コードの異なるページへのPOSTって悩ましいですよね。 具体的には、こちらのサイトがUTF-8で作られていて、相手先がShift_JISだったりする場合。 そもそも相手サイトにPOSTしなきゃいけない理由とは SPAMサイトじゃあるまいし、普通は自サイト以外へのPOSTってあんまり考えられないかも知れません。 でも、実際はあるんです。例えばECサイトが良い例。 「ご購入ありがとうございました。決済手続きは次の画面でお願いします。」 みたいなの。 いまどきそんなの古いよーという方もいらっしゃるかも知れませんが、きっとそれは大手の通販サイトを使用されていることが多いからでしょう。ショッピングモールにさえ出店しない、個人商店レベルのサイトではこんなのいっぱいあります。 中の人いわく、「個人経営のショップサイトでクレジットカード番号を入力するのは怖いというお客様がいらっしゃる」とか。なるほど、

                                                                          文字コードの異なるフォームへのPOST(UTF8 to Shift_JIS)
                                                                        • MySQL 8.0.24 の文字コードまわり - tmtms のメモ

                                                                          2021/4/20 にリリースされた MySQL 8.0.24 について私が気になったものについて。 まあ文字コードまわりだけなんだけど。 utf8 を utf8mb3 として出力する Client applications and test suite plugins now report utf8mb3 rather than utf8 when writing character set names. (Bug #32164079, Bug #32164125) Important Note: When a utf8mb3 collation was specified in a CREATE TABLE statement, SHOW CREATE TABLE, DEFAULT CHARSET, the values of system variables containing c

                                                                            MySQL 8.0.24 の文字コードまわり - tmtms のメモ
                                                                          • List of Emoji

                                                                            Emojis are small picture-like symbols that can add context and emotion to written text. They are about the same size as a letter that can be typed, but unlike alphanumeric characters, they are usually depicted in color, and their meaning is often open to interpretation. The word emoji comes from combining the Japanese words for picture and character. The first emoji characters, introduced in the 9

                                                                            • TechCrunch

                                                                              The company produces plant-based ingredients from raw microalgae biomass, generated from spirulina or chlorella, that it claims is more nutritious than meat. Swiggy plans to raise $1.25 billion in an initial public offering and has secured approval from its shareholders, the Indian food delivery and instant commerce startup disclosed in a filing to the loc

                                                                                TechCrunch
                                                                              • Pythonのchardetモジュールが、"testあ"という文字列(UTF-8)の文字コードを"Windows-1254"だと判定する

                                                                                "testあ"のUTF-8表現は、74 65 73 74 e3 81 82 (1バイトデータの表記は全部16進、以下同様, python3風に書くとb'\x74\x65\x73\x74\xe3\x81\x82')で、chardetが判定するのは「文字列」ではなく、このバイト列です。 ちなみにこのバイト列をUTF-8, Shift_JIS, EUC-JP, ISO-8859-1, Code Page 437, Windows-1254で解釈すると、以下のようになります。 UTF-8 testあ (まぁ、当たり前) Shift_JIS (不正) EUC-JP (不正) ISO-8859-1 testã (81 82 は制御コードにあたるので見えないが不正ではない) CP437 testπüé Win1254 testã‚ (81は未定義なので本来は不正、chardetは未定義にあたるバイトが現

                                                                                  Pythonのchardetモジュールが、"testあ"という文字列(UTF-8)の文字コードを"Windows-1254"だと判定する
                                                                                • GoでBOMを考慮したio.Readerを扱う - Qiita

                                                                                  GoでBOM付きのUTF-8ファイルを扱う必要があったので、その時に知ったテクニックを共有したいと思います。 具体的に言えば、Excelでファイル形式を「CSV UTF-8 (コンマ区切り) (.csv)」として保存した際のCSVファイルを扱った時の話です。 (Excelや少し前のメモ帳などでUTF-8としてファイルを保存すると、BOM付きのUTF-8ファイルになります。1) BOM(Byte Order Mark)とは BOM(Byte Order Mark)というのは、Unicode系の符号化方式(UTF-8やUTF-16など)の場合に、どの符号化方式であるかが分かるように先頭に付ける数バイトのデータのことです。 より詳しい説明についてはWikipediaのバイト順マークのページなどに譲ります。 このBOMというのはテキストデータの一部ではないので、プログラムで処理する時には、BOMと

                                                                                    GoでBOMを考慮したio.Readerを扱う - Qiita