並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 83件

新着順 人気順

UTF8の検索結果1 - 40 件 / 83件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

UTF8に関するエントリは83件あります。 文字コードunicodeUTF-8 などが関連タグです。 人気エントリには 『UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita』などがあります。
  • UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

      UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita
    • BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2)

      かつてWindowsでテキストファイルといえばシフトJIS形式のものが大半だった。しかし最近では、UTF-8形式のテキストファイルも普通に見かけるようになってきた。世の中はUTF-8が主流になりつつあると言っていいだろう。 しかし、WindowsでUTF-8を使うと、ちょっと困ったことがある。それは、エクスプローラーの検索欄などで用いるWindows Searchが、UTF-8にはしっかり対応していないのである。正確に言うと、Windows Searchはファイル先頭に「BOM」のあるUTF-8は認識して正確にインデックス化し、ファイルの全文検索が可能になるが、BOMのないUTF-8では正しくインデックス化できず、ファイルの全文検索はASCIIコードのみ可能で、日本語などの非ASCII文字では全文検索ができない。 同じ内容のテキストをUTF-8、UTF-8 BOM付き、UTF-16ビッグエ

        BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2)
      • Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ

        Pythonがファイルを開くときなどに使われるエンコーディングはロケール(WindowsではANSIコードページ)依存でした。 Unixの世界ではどんどんUTF-8ロケールが一般的になっている一方、WindowsのANSIコードページはなかなかUTF-8になりません。 そのために、Unixユーザーが open(filepath) のようにエンコーディングを指定しないままUTF-8を仮定するコードを気軽に書いてしまって、Windowsユーザーがエラーで困るといった問題が発生します。 また、Windowsでもメモ帳(Notepad.exe)やVSCodeはすでにUTF-8をデフォルトのエンコーディングで使用しています。ANSIコードページがUTF-8になるのを待っていたらどんどん周りの環境から置いていかれ、レガシー化してしまいます。 Pythonがデフォルトで利用するエンコーディングをWind

          Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ
        • 誤解の多い「NFD問題とUTF-8-MAC問題」を解説する - macOSの濁点を含むファイル名の扱い - Qiita

          はじめに macOS では濁点や半濁点が含まれるファイル名でたびたび問題が発生しています。この問題は NFD 問題と言われたり UTF-8-MAC 問題と言われることがありますが、必要な情報が正確に書かれているところは少なく、正しく解説してある所でも情報が古く(主に HFS+ 時代の話に)なっており、読むと逆に混乱してしまう場合があります。 macOS 標準アプリや誰かが作ったアプリであればバグが修正されるまで待つだけですが、自分が作ったアプリやシェルスクリプトなどではこれがどういう問題なのかを理解しなければバグが修正できません。この記事ではそれらを整理し直して、(可能な限り正確に)解説したいと思います。検証は macOS 15.3(補助的に 15.5)で行っています。 この問題は、Mac で作成した zip ファイルを Windows で展開したときに、濁点や半濁点を含むファイルに Wi

            誤解の多い「NFD問題とUTF-8-MAC問題」を解説する - macOSの濁点を含むファイル名の扱い - Qiita
          • 話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加/文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】

              話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加/文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】
            • MySQLのutf8mb4と戦った話 - Uzabase for Engineers

              皆様こんにちは、NewsPicksエンジニアの米澤です。 先日 2023/03/30は、こちらでアナウンスしていた通り、サービスの停止を伴うシステムメンテナンスを実施させて頂きました。 NewsPicksをご利用頂いている皆様には、ご迷惑おかけいたしました。 今回はこのメンテナンスの中で行われたDBテーブルのmigrationについてお話ししたいと思います。 ことの始まり やったこと 方針決め utf8mb4に対応していないテーブルを調べる migrationを作成する 影響範囲を調べる 開発環境でリハーサルを行う メンテナンスの日 最後に ことの始まり NewsPicksではバグの検知にBugSnagを利用しています。 ある時、BugSnagにこんなエラーが通知されてきました。 org.springframework.orm.hibernate4.HibernateJdbcExcepti

                MySQLのutf8mb4と戦った話 - Uzabase for Engineers
              • awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita

                はじめに 2023年、長い時を経て awk がとうとう Unicode (UTF-8) と CSV に対応しました 🎉🎉🎉 awk で日本語がうまく扱えない(場合がある)、Excel が出力する CSV ファイルが扱えない(場合がある)、といった問題が解決に向けて一歩に進みます。 去年、本家 awk (One True Awk, nawk) に Unicode サポートが Brian Kernighan の手によって追加されたと話題になった(参照)ことを覚えているでしょうか? Brian Kernighan が誰だか知らない方がいるかもしれないので説明すると、オリジナルの awk の開発者の一人で awk の頭文字、Alfred Aho、Peter Weinberger、Brian Kernighan の一人です。通称「K&R」の「プログラミング言語C」や「プログラミング言語AWK」

                  awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita
                • UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside

                  こんにちは。 メディアサービス開発部Webアプリケーション開発課のフサギコ(髙﨑)です。部署名が変わりました。 Ruby on Railsによるバックエンドの実装運用と、AWSによるサービスインフラの設計構築を中心とした、いわゆるテックリードのような立ち位置で働いています。 本記事では、UTF-8環境下で動くRailsがShift_JISな外部APIと通信する方法についてお話しします。 前提知識 文字コード UTF-8環境下で動くRailsがShift_JISな外部システムと通信するには Shift_JISな外部APIに対してPOSTリクエストする べた書きとしては Railsにおいては Shift_JISで使用できない文字が混ざっていないかをバリデーションする Shift_JISな外部システムからPOSTリクエストを受ける おまけ: ユーザのブラウザにShift_JISでPOSTさせる

                    UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside
                  • 国産のWikiソフト「PukiWiki」が2年ぶりにバージョンアップ、「PHP 8.0/8.1」に対応/EUC-JP版をUTF-8へ変換するツールも用意

                      国産のWikiソフト「PukiWiki」が2年ぶりにバージョンアップ、「PHP 8.0/8.1」に対応/EUC-JP版をUTF-8へ変換するツールも用意
                    • RDS Blue/Green Deployments を使ってシュッと utf8mb4 にマイグレーションした話 - カミナシ エンジニアブログ

                      こんにちは。ソフトウェアエンジニアの坂井 (@manabusakai) です。 カミナシでは RDB に Amazon Aurora MySQL 2(MySQL 5.7 互換)を使っています(以下 Aurora MySQL と略します)。 ある日、社内の Slack で「𠮷」などの文字列が登録できないのではないかという話が出ました。これを聞いて「あー」と思った方も多いでしょう。 MySQL で有名な UTF-8 の 4 バイト文字問題で、歴史的な理由から MySQL 5.7 以前では utf8 の文字セットは utf8mb4 ではなく utf8mb3 を指しています。 dev.mysql.com カミナシのアプリケーションは 4 バイトの文字列が入力された場合はシステムエラーを返す実装になっていますが、エラーの内容をユーザーにわかりやすく伝えることは難しいためユーザー体験としても良くない

                        RDS Blue/Green Deployments を使ってシュッと utf8mb4 にマイグレーションした話 - カミナシ エンジニアブログ
                      • Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能

                        Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能 Javaの新バージョン「Java 18」が正式にリリースされました。 Java 18 is now available! #Java18 #JDK18 #openjdk Download now: https://t.co/hTJU1ZzAWQ Release notes: https://t.co/Xdkj5TObNP API Javadoc: https://t.co/izFBPlYkd9 Features: https://t.co/3z0l5sXyDX pic.twitter.com/Ct1BvYmDYs — Java (@java) March 22, 2022 Javaは6カ月ごとに「フィーチャーリリース」と呼ばれるバージョンアップが行われ、そのなかの1つのバージョンが

                          Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能
                        • 1999年をテーマとしたものに 繝ヲ繝九さ繝 みたいな文字化けが描かれており、UTF-8はまだそんなに普及してないだろ!当時っぽさなら ホ・ニ・ュ・ケ・ネ、ホハクセマ みたいなやつだろ!とか反射的に老害ムーブをした

                          Kenji Iguchi @needle English Account:@needle_e 腱鞘炎と戦うVRエンジニア。GREE、Oculus(現Meta)を経てフリーランス。興味範囲はインタラクション・VR・AI・EV・ローカリゼーション・知的財産権・表現規制等。 @needle@misskey.io / Unrelated to Needle Inc. heistak.com Kenji Iguchi @needle 1999年をテーマとしたものに 繝ヲ繝九さ繝 みたいな文字化けが描かれており、UTF-8はまだそんなに普及してないだろ!当時っぽさなら ホ・ニ・ュ・ケ・ネ、ホハクセマ みたいなやつだろ!とか反射的に老害ムーブをした 2025-06-07 00:15:40

                            1999年をテーマとしたものに 繝ヲ繝九さ繝 みたいな文字化けが描かれており、UTF-8はまだそんなに普及してないだろ!当時っぽさなら ホ・ニ・ュ・ケ・ネ、ホハクセマ みたいなやつだろ!とか反射的に老害ムーブをした
                          • IT エンジニア的にとても困る名前のアイドルグループがデビュー→「狙ってますねこれは」「検索汚染が起きる」「姉妹グループはUTF8」

                            リンク 音楽ナタリー 全員日本人のK-POPグループUNICODEが日本デビュー、MV&インタビュー映像公開(動画あり) K-POPガールズグループ・UNICODE(ユニコード)が、本日7月23日に日本デビューシングル「HELLO WORLD」を配信リリースした。 25 users 154

                              IT エンジニア的にとても困る名前のアイドルグループがデビュー→「狙ってますねこれは」「検索汚染が起きる」「姉妹グループはUTF8」
                            • UTF-8 の BOM について - 将棋プログラミング

                              1.はじめに UTF-8 の文字コードのファイルには、BOM (Byte Order Mark) がある場合とない場合がある。 Unicode の規格では、BOM は、推奨されないが、許容されている。 ja.wikipedia.org 今回、必要があり、色々な OS や言語で、UTF-8 の文字コードのファイルを作成した時、BOM が記録されるか、されないか、を調べた。 2.色々な OS や言語での BOM 2.1 Windows 10, Visual Studio, C++, _wfopen (_tfopen) // Visual Studio 2005 以降 保存 FILE *fp = _wfopen(name, _ L"w, ccs=UTF-8"); if (fp == NULL) { // エラー処理 } fwprintf_s(fp, L"ABC漢字123\n"); fclose(

                                UTF-8 の BOM について - 将棋プログラミング
                              • <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>

                                一つ自分で自覚している差別感情がある。 「字が汚い女は低脳で下劣」 というもの。 字の巧拙と能力、品性には相関などないと頭では分かっているのに、汚い字で何かを書いている女性を見ると、近寄ってはいけない、と心の中の警報が鳴り出すのだ。#国際女性デー— 蟻巣 (@first_flush) March 8, 2022 <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>

                                  <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>
                                • みんな忘れてるけど「文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家である

                                  嶋田大貴 @shimariso みんな忘れてるけど、「テキストファイルという種類のファイルがあって、その中で使われる文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家ですよ。 2024-04-02 12:42:01

                                    みんな忘れてるけど「文字コードというものにはシフトJISとUTF-8などがある」ということを知ってるだけでも世間一般からすればIT専門家である
                                  • UTF-8 範囲外の文字がLinux kernel のコミットタイトルに出てくることがあるので気をつけよう - /var/log/hikalium

                                    みんなが知ってるそのスマホにも密かに流れる、そうLinux kernel. 最近はそのコミットを眺める機会が多いのですが、色々調べていたら面白い点を見つけたので紹介します。 UTF-8として有効ではないコミットタイトル いまから137万コミットほど前のこと、2006年のコミットタイトルに、UTF-8の範囲外の文字が含まれていました。(don<B4>tと書いてある部分がそれです。) commit d354d9afe923eb08f7ee89128b38ddb6415de01d Author: Knut Petersen <Knut_Petersen@t-online.de> Date: Sat Jan 7 10:22:04 2006 +0100 [PATCH] fbcon: don<B4>t call set_par() in fbcon_init() if vc_mode == KD_GR

                                      UTF-8 範囲外の文字がLinux kernel のコミットタイトルに出てくることがあるので気をつけよう - /var/log/hikalium
                                    • Goの標準のutf8.RuneStart関数がエレガントすぎる

                                      先日以下の記事を書きました。 ここでUTF-8の最初の文字かどうかの判定を以下の自作した関数で実装していました。 const ( t1 = 0b00000000 tx = 0b10000000 t2 = 0b00000110 t3 = 0b00001110 t4 = 0b00011110 ) func isUTF8LeadByte(tmp byte) bool { if tmp&tx == t1 { return true } tmp >>= 3 if tmp == t4 { return true } tmp >>= 1 if tmp == t3 { return true } tmp >>= 1 if tmp == t2 { return true } return false }

                                        Goの標準のutf8.RuneStart関数がエレガントすぎる
                                      • TARで使われるpax formatはパスのエンコーディングをUTF-8で規定していて偉い - Lambdaカクテル

                                        TARで利用できる最新のフォーマットであるpaxについて調べていたところ掲題のことが分かって面白かったので紹介します。調査不足な箇所があったら教えてください。 tl;dr tarするときは-H paxしよう ファイル名の文字化けなどが回避されるぞ 長いパスがぶっ壊れなくなるぞ 現代においてデメリットはほぼない 本編 こんにちは、TARの話ばっかりしている人間です。 blog.3qe.us blog.3qe.us paxとは Paxとは、tar(1)やpax(1)で扱うことができるファイルフォーマットで、POSIX(POSIX.1-2001, 2008)で規定されている。 要するにtarの最新のフォーマットだと思ってもらったらいいです。 ustarの時代 皆さんtarが吐き出すフォーマットはtarフォーマットでしょ、と素朴に思ってるかもしれないが、あれって実は特にどこに規定されているわけでも

                                          TARで使われるpax formatはパスのエンコーディングをUTF-8で規定していて偉い - Lambdaカクテル
                                        • WindowsをUTF-8環境に切り替えてみた - シーゴの Excel 研究室

                                          今回は WIndows のシステムロケール設定で UTF-8 環境に変更した際の影響について気付きをまとめました。 最新の Windows UTF-8 事情 直近の記事で UTF-8 変換バッチの改良版を公開したのですが、その際 Windows の文字コードやエンコードの対応状況についても色々調べました。 【最新版】シフトJIS を UTF-8 に変換するバッチ - シーゴの Excel 研究室 MacさんZIPを文字化けなしで展開するバッチ - シーゴの Excel 研究室 最初の版の記事を公開した時からだいぶ時間が経って、 Windows の UTF-8 事情にもいろいろ変化があったようです。 「メモ帳」はデフォルトのエンコードが BOM なしの UTF-8 になりました。 そして Windows も、ベータ版とはいえシステムのエンコードをUTF-8 に切り替えられるようになりました。

                                            WindowsをUTF-8環境に切り替えてみた - シーゴの Excel 研究室
                                          • neue cc - UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました

                                            Utf8StringInterpolationという新しいライブラリを公開しました!UTF8文字列の生成と書き込みに特化していて、動作をカスタマイズした文字列補間式によるC#コンパイラの機能を活用した生成と、StringBuilder的な連続的な書き込みの両方をサポートします。 Cysharp/Utf8StringInterpolation 基本的な流れはこんな感じで、Stringを生成するのと同じように、UTF8を生成/書き込みできます。 using Utf8StringInterpolation; // Create UTF8 encoded string directly(without encoding). byte[] utf8 = Utf8String.Format($"Hello, {name}, Your id is {id}!"); // write to IBuffer

                                            • Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策

                                              環境依存文字を含むデータをCSV形式でやりとりするには 人名や地名の中には、環境依存文字(異字体など)が含まれていることがある。環境依存文字を含むExcelのシートをCSV形式でやりとりしなければならない場合、文字コードにUTF-8を指定するとよい。なお画面の住所録は、「テストデータ・ジェネレータ」によって作成した架空のサンプル用のデータを記事用に修正したものである。 「Microsoft Excel(エクセル)」で作成した表を、CSV形式で保存し、別のアプリケーションに読み込ませることはないだろうか。また、取引先にデータを送る際に、XLSX形式ではなく、CSV形式が要求されることもあるだろう。逆にCSV形式で受け取ったデータをExcelで読み込んで処理したいというケースもあり得る。 このような場合、環境依存文字(機種依存文字)が含まれていると、CSV形式に変換する際に、正しく文字が出力さ

                                                Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策
                                              • UTF-8のバリデーションとモノイドと半群

                                                この記事はUTF-8のバリデーションとオートマトンの続きです。 前回はUTF-8のバリデーションが8状態のオートマトン (DFA) で表現できることを見ました。状態と遷移を擬似コードで書けば次のようになるでしょう: -- 8つの状態 data State = START | TAILx1 | TAILx2 | TAILx3 | A | B | C | D -- 入力バイトに応じて次の状態を返す。次の状態が該当しなかったら Nothing を返す next :: Word8 -> State -> Maybe State +----+----+-----+----+ | a0 | a1 | ... | aN | 8ビット整数列 +----+----+-----+----+ | | | v v v +----+----+-----+----+ | m0 | m1 | ... | mN | モノ

                                                  UTF-8のバリデーションとモノイドと半群
                                                • UTF-8のバリデーションとオートマトン

                                                  UTF-8は今日の文字エンコーディングの中で最も重要なものと言って差し支えないでしょう。UTF-8の仕様はこの辺で確認できます: Unicode 15.1.0 > 3.9 UTF-8 RFC 3629 - UTF-8, a transformation format of ISO 10646 この記事では、読者はすでにUTF-8にある程度の馴染みがあるものとして、UTF-8のバリデーションの細かいところを考えます。 UTF-8のバリデーションを行うには、以下のことを確かめなければなりません: 最初の1バイトが所定の範囲にあること:ASCII (0x00-0x7F) または0xC2以上。 後続のバイト(たち)が0x80-0xBFの範囲にあること。 長すぎないこと:U+007F以下の文字はちょうど1バイトで表現されていること、U+0080以上U+07FF以下の文字はちょうど2バイトで表現されて

                                                    UTF-8のバリデーションとオートマトン
                                                  • PEP 686 – Make UTF-8 mode default | peps.python.org

                                                    PEP 686 – Make UTF-8 mode default PEP 686 – Make UTF-8 mode default Author: Inada Naoki <songofacandy at gmail.com> Discussions-To: Discourse thread Status: Final Type: Standards Track Created: 18-Mar-2022 Python-Version: 3.15 Post-History: 18-Mar-2022, 31-Mar-2022 Resolution: Discourse message Table of Contents Abstract Motivation Specification Enable UTF-8 mode by default locale.getencoding() Fi

                                                      PEP 686 – Make UTF-8 mode default | peps.python.org
                                                    • RubyKaigi 2023で "UTF-8 is coming to mruby/c" というタイトルで話しました - Eggshell

                                                      スライドタイトルは「サンタが街にやってくる」つまり「Santa Claus Is Coming to Town」のもじりでした。 UTF-8がルンルンでmruby/cにやってくる様子を思い浮かべながら決めました。 スライド きっかけ 発表内でも触れましたが、はすみさんにRubyWorldConference2022でmruby/cのUTF-8対応をしませんかと誘われたのがきっかけです。 文字コード好きなひとが来場する情報を事前にTwitterでキャッチしていたので、PicoRubyのUTF-8対応という釣り糸を垂らしたら、うまいこと引っかかりました。 質問タイムのときにちょうどその人が質問してくれて、「ちなみにUTF-8に興味ありません?」と聞いたら「めっちゃあります」とのことで、「じゃあ後ほど打ち合わせしましょう」と公衆の面前で言質をとった次第です。 mruby/cのUTF-8対応は進め

                                                        RubyKaigi 2023で "UTF-8 is coming to mruby/c" というタイトルで話しました - Eggshell
                                                      • 不評だった「KEN_ALL.CSV」大幅改善で話題に。代替となる住所CSVデータを日本郵便が公開、カナ全角化・レコード統合・UTF-8導入など【やじうまWatch】

                                                          不評だった「KEN_ALL.CSV」大幅改善で話題に。代替となる住所CSVデータを日本郵便が公開、カナ全角化・レコード統合・UTF-8導入など【やじうまWatch】
                                                        • &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;

                                                          りぼん「まんがスクール」の評内の文章「(入賞者の長所を褒めた後に)…もしこうした才能が天性のものだとしたら、与えられた時と同じように、手放す瞬間も選ぶことが出来ません。それまでに手に入れるべきは、オリジナリティです。」になんか色々ぐっとくるものがあった。— おぶち (@pandaobuchi) November 6, 2019 &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;

                                                            &lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;
                                                          • yokuさんにutf8→utf8mb4binのときに教えてもらった便利Tips

                                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                              yokuさんにutf8→utf8mb4binのときに教えてもらった便利Tips
                                                            • Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ) - Qiita

                                                              Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

                                                                Kotlin / Swift での Unicode の扱いまとめ (見た目上の文字数カウント, UTF-8, UTF-16, BOM, 正規化, 異体字セレクタ) - Qiita
                                                              • Windowsの文字コード(システムロケール)をUTF-8に変更する方法

                                                                Windowsのテキストファイルと文字コード 「メモ帳」アプリの文字コードには既定でUTF-8が使われるよう、2019年のWindowsアップデート(Version 1903)で仕様が変更されました。Windows10のメモ帳はこれ以降UTF-8となり、Windows11では最初からメモ帳でUTF-8が採用されています。 しかしそれ以前のメモ帳では「Shift-JIS」がデフォルトの文字コードでした。 そのため従来はコマンドプロンプト上でテキストを開く場合、Shift-JISのファイルをShift-JISのシステムで開くことになり、文字化けすることなく表示されていたのです。 しかしWindowsアップデートによって「メモ帳」の文字コードのみがUTF-8に変更され、以前のメモ帳で作成したテキストが文字化けするようになりました。対策として、支障がなければテキストファイルの文字コードを「UTF-

                                                                  Windowsの文字コード(システムロケール)をUTF-8に変更する方法
                                                                • ritsuka on Twitter: "鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰+異体字セレクタU+E0100を使わないと表現出来ない字なのか。 それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい"

                                                                  鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰+異体字セレクタU+E0100を使わないと表現出来ない字なのか。 それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい

                                                                    ritsuka on Twitter: "鬼滅の刃に禰󠄀豆子というキャラがいるらしいけど、禰+異体字セレクタU+E0100を使わないと表現出来ない字なのか。 それでデフォルトではUTF-8は3バイトまでと決め打ちしてたMySQLとかそれを使うWordPressでトラブル起こすらしい"
                                                                  • MySQL 8.0のCharset utf8mb4での日本語環境で使うCollationで文字比較をしてみる - CLOVER🍀

                                                                    これは、なにをしたくて書いたもの? MySQL 8.0のCharset utf8mb4で使えるCollationについて、ちょっと見ておこうかなと思いまして。 具体的には、「MySQL徹底入門 第4版」の「11.2 Collation」に書かれている文字比較およびソートについて自分で 確認してみたいと思います。 MySQL徹底入門 第4版 MySQL 8.0対応 作者:yoku0825,坂井 恵,鶴長 鎮一,とみたまさひろ,深町 日出海,福山 裕大,班石 悦夫,山﨑 由章翔泳社Amazon utf8mb4でのCharsetとCollation MySQLのCharsetとCollationに関するドキュメントは、こちらです。 MySQL :: MySQL 8.0 リファレンスマニュアル :: 10 文字セット、照合順序、Unicode MySQLでは複数のCharset(文字セット)を使う

                                                                      MySQL 8.0のCharset utf8mb4での日本語環境で使うCollationで文字比較をしてみる - CLOVER🍀
                                                                    • GitHub - cessen/ropey: A utf8 text rope for manipulating and editing large texts.

                                                                      // Load a text file. let mut text = ropey::Rope::from_reader( File::open("my_great_book.txt")? )?; // Print the 516th line (zero-indexed). println!("{}", text.line(515)); // Get the start/end char indices of the line. let start_idx = text.line_to_char(515); let end_idx = text.line_to_char(516); // Remove the line... text.remove(start_idx..end_idx); // ...and replace it with something better. text.

                                                                        GitHub - cessen/ropey: A utf8 text rope for manipulating and editing large texts.
                                                                      • UTF-8 is a Brilliant Design — Vishnu's Pages

                                                                        2025-09-12 The first time I learned about UTF-8 encoding, I was fascinated by how well-thought and brilliantly it was designed to represent millions of characters from different languages and scripts, and still be backward compatible with ASCII. Basically UTF-8 uses 32 bits and the old ASCII uses 7 bits, but UTF-8 is designed in such a way that: Every ASCII encoded file is a valid UTF-8 file. Ever

                                                                          UTF-8 is a Brilliant Design — Vishnu's Pages
                                                                        • JavaScriptでBase64エンコード・デコード(UTF-8も) - Qiita

                                                                          Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

                                                                            JavaScriptでBase64エンコード・デコード(UTF-8も) - Qiita
                                                                          • カオス過ぎる Unicode, UTF-8, UTF-16, UTF-32 の違い概要まとめ - Qiita

                                                                            文字コードについて、Shift-JISもカオスながら、鳴り物入りで出来たUnicodeも色々あるようなので、要点をサクッとまとめ。 とりあえずこれだけ押さえておけばOK Unicode:文字コードの規格の名称。あらゆる国の文字コードを格納できる UCS-4:Unicodeとほぼ互換 UCS-2:UCS-4の一部分。65,535文字を表現 UTF:UCS-4(UCS-2)、Unicodeをバイト列で表現する方法。Unicodeでは "Unicode Transformation Format"、ISO/IEC 10646では "UCS Transformation Format"の略 BOM (Byte Order Mark):この文書がビッグエンディアンかリトルエンディアンかを示すファイル先頭に付ける数バイトのマーク。「ボム」と読むみたい UTF-8:1~4バイトの可変長で、先頭1~5ビッ

                                                                              カオス過ぎる Unicode, UTF-8, UTF-16, UTF-32 の違い概要まとめ - Qiita
                                                                            • WSL2の.wslconfigを作成するときはUTF-8 BOMなしで - Qiita

                                                                              ずっと詰まっていたこと .wslconfigが適用されない。 配置場所もファイル名も記述内容もバージョンも正しいはずなのに。 .wslconfigとは WSL2を使用するときにメモリの使用量やらなんやら色々設定するファイル。 何が設定できるのかはMSのドキュメントを見に行ってください。 必要な環境 windows10 Home バージョン2004 (OSビルド19041) 以降 何らかのLinuxディストリビューション 私の環境 windows10 Home バージョン21H2 (OSビルド19044.1387) MSストアのUbuntu(Ubuntu 20.04 LTS) .wslconfigの作成方法 %UserProfile% に .wslconfig というファイルを作成する。 私はメモリの枯渇を止めたかったので次のように記述。 以下を参考に。 しかし、うまく適用されなかった。 結

                                                                                WSL2の.wslconfigを作成するときはUTF-8 BOMなしで - Qiita
                                                                              • MySQL の utf8mb4 の文字照合順序まとめ

                                                                                MySQL で文字コードを utf8mb4 を使うことになったので、照合順序を決めるための自分用メモです 巷にたくさん記事はあるけど、現時点(2021/03)でまとめておきたかった 条件 MySQL バージョン: 8.0.22 OS: MacOS クライアント: MySQL Workbench 確認手法 次のクエリを実行する。照合順序だけ変更して確認 SELECT 'はは' <> 'ハハ' COLLATE utf8mb4_bin, 'びょういん' <> 'びよういん' COLLATE utf8mb4_bin, 'はは' <> 'ぱぱ' COLLATE utf8mb4_bin, 'ハハ' <> 'ハハ' COLLATE utf8mb4_bin, 'A' <> 'a' COLLATE utf8mb4_bin, '🍣' <> '🍺' COLLATE utf8mb4_bin ;

                                                                                  MySQL の utf8mb4 の文字照合順序まとめ
                                                                                • UTF-8の文字コード表 - 備忘帳 - オレンジ工房

                                                                                  UTF-8の文字コード表なのです。いつも検索して、よそ様のページを参照させていただいていたのですが、面倒なので自分で作りました。 perlのスクリプトでガーッと出したので、見栄えはアレですが、とりあえず。 1バイト文字 2バイト文字 3バイト文字 E2 9C 80 ~ Dingbats、昔からある記号、絵文字とか E3 80 80 ~ 全角ひらがな・カタカナ EF BC 80 ~ 全角英数字、半角カナ 4バイト文字 F0 9F 8C 80 ~ たぶん今どきの皆さんの言う絵文字 F0 9F 98 80 ~ 顔文字 更新履歴 (2018-05-10 追記) コード表を全体的に再出力しました。変更点は以下の通りです。 unicode追加面、4バイト文字の表もつくりました。 各文字ブロックにタイトルを付けました。英語タイトルはUnicode仕様書PDFへ直リンクしています。 表示されてないけど、ど

                                                                                  新着記事