並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 405件

新着順 人気順

文字コードの検索結果281 - 320 件 / 405件

  • 海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される

    by Whooym 文字が適切に表示されずに読めなくなってしまう「文字化け」は、海外の技術者の間でも「Mojibake」で通用するとのこと。そんな文字化けの種類について、東京で自然言語処理(NLP)の開発をしているポール・オリーリ・マッキャン氏が解説しました。 A Field Guide to Japanese Mojibake https://www.dampfkraft.com/mojibake-field-guide.html マッキャン氏によると、文字化けは作成した時と異なる文字コードで文書を開くことで発生するとのこと。文章が文字化けすると無意味な文字列になってしまうので読めませんが、どのような文字コードが使われたかによって異なるパターンが表れるので、慣れると使われている文字コードの種類を推測することができるそうです。 ◆UTF-8 UTF-8はインターネット上では最も一般的な文字

      海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される
    • ソースコードに脆弱性を潜ませられるUnicode悪用攻撃法「Trojan Source」を研究者が発表

      英ケンブリッジ大学コンピュータ研究所は11月1日(現地時間)、「Trojan Source:Invisible Vulnerabilities」(リンク先はPDF)という論文を公開した。Trojan Sourceは、「人間のコードレビュアーには見えないターゲットを絞った脆弱性を作成するためのクールな新トリック」という。 研究者のロス・アンダーソン氏は、「Unicodeの方向性オーバーライド文字を使って、コードを別のロジックのアナグラムとして表示するこの攻撃は、C、C++、C#、JavaScript、Java、Rust、Go、Pythonに対して機能することを確認しており、他のほとんどの言語に対しても機能すると思われる」と説明する。 「人間が見るのと異なるロジックをコンパイラに示せるように、ソースコードファイルのエンコーディングを操作する方法を発見した」。コメントや文字列に埋め込まれた制御文

        ソースコードに脆弱性を潜ませられるUnicode悪用攻撃法「Trojan Source」を研究者が発表
      • 「炒」「爆」「炸」…中華料理のメニューで使われる漢字を学ぶ

        海外旅行とピクニック、あとビールが好き。なで肩が過ぎるので、サラリーマンのくせに側頭部と肩で受話器をホールドするやつができない。 前の記事:「非常用持ち出し袋」は旅行気分で用意しよう > 個人サイト つるんとしている 深遠なる中華炒めの世界 おれが以前から秘かに興味を持っている語学といえば、アラスカ先住民文字、エスペラント語、宜蘭クレオール、ゲール語、モンゴル文字など、日常生活で役に立つ場面がきわめて少ない(趣味性の高い)言葉ばかり。それらと比較すれば、10億人が話す中国語を勉強すれば圧倒的な実益が見込めるだろう。 特に「料理分野」なら、最近は日本の街中でも生身の中国語に触れる機会がそれなりにある。池袋や西川口は日本人向けにアレンジされていない中華料理屋=「ガチ中華」の街として有名だけど、いま全国的にこうした全力投球の中華料理が体験できる街が注目されつつあるからだ。 おれが住む大阪の場合は

          「炒」「爆」「炸」…中華料理のメニューで使われる漢字を学ぶ
        • A Field Guide to Japanese Mojibake

          When you open a document with an encoding different than the one it was created with, it's not possible to display the original text, and instead a garbled mess of corrupted characters are printed out. These are called "mojibake" in Japanese, and the word has also been borrowed into English. While mojibake aren't readable by humans, it turns out that different kinds of mojibake have different visu

            A Field Guide to Japanese Mojibake
          • 島根1区〝かめいあきこ〟問題に終止符 渦中の同名「亀井彰子」氏が出現し陰謀論一蹴!(東スポWeb) - Yahoo!ニュース

            与野党一騎打ちのはずが、野党候補と名前の読みが同じ「かめいあきこ」氏の出馬表明で注目の衆院選島根1区。渦中の無所属新人・亀井彰子氏(64)が30日、松江市内で個人演説会を開いた。 【写真】こちらが亀井彰子氏 ラフな格好だった 島根1区は、自民党細田派会長の前職・細田博之氏(77)に対し、前回は比例復活した立憲民主党前職・亀井亜紀子氏(56)が挑む。地元政界関係者によると、思わぬ〝ダークホース〟の参戦で、亜紀子氏は「名前を漢字で書いてほしい」と票の取りこぼしを防ごうと必死。当初は窮地に追い込まれる見方もあったが、むしろ浮動票層から注目が集まっているという。 一方の彰子氏は、選挙カーがなく運動員もいない。選挙ポスターの掲示も少ないため、多くの有権者に「謎の人物」として受け止められていた。そんな中この日午後、市内の会議室で開かれた3回目の個人演説会には、有権者15人ほどが「どんな人なんだ?」と集

              島根1区〝かめいあきこ〟問題に終止符 渦中の同名「亀井彰子」氏が出現し陰謀論一蹴!(東スポWeb) - Yahoo!ニュース
            • 「その日本語、ちょっと違うよ」中国語フォントとの違いを見せる海外開発者向けページ 「例が秀逸」と話題 - ITmedia NEWS

              「日本語で繁体字や簡体字(のフォント)を使うと、日本語ネイティブには奇妙に見える。aとαどころではなく、英語をキリル文字など形の似た字を交えて書くくらい変だ」──海外開発者に向け、日本語の文章で中国語のフォントを使ってしまうことをこのように注意喚起した英語のWebページが「例が秀逸」「全ての開発関係者が目を通してほしい」と話題を集めている。 日本語を繁体字や簡体字のフォントで書く違和感を英文で例えた文章。「It would be looking something like this」をキリル文字などアルファベットに似た言語を交えて書いている(Needleさんが公開しているページから引用) Webページではフォントの違いがもたらす違和感に加え、繁体字、簡体字、日本語フォントの違いを図説。「刃」の字を使ってそれぞれの違いを説明している他、フォントの間違いを確認する方法やその原因、解決方法など

                「その日本語、ちょっと違うよ」中国語フォントとの違いを見せる海外開発者向けページ 「例が秀逸」と話題 - ITmedia NEWS
              • 日本語翻訳の「漢字表記の間違い」を海外の開発者にも端的に説明してくれる「Your Code Displays Japanese Wrong」

                近年は翻訳アプリの精度が少しずつ向上してきたことで、海外で作られたゲームやアプリが最初から日本語に対応しているケースも増えてきました。しかし、日本語をよく知らない人が翻訳すると、「日本語表記なのに漢字が中国語のもの」という状況もよく発生します。「Your Code Displays Japanese Wrong」はそんな日本語の漢字表記について端的に説明したページで、開発者にこのページへのリンクを共有することで修正依頼をかけやすくなります。 Your code displays Japanese wrong | Your Code Displays Japanese Wrong https://heistak.github.io/your-code-displays-japanese-wrong/ 漢字はそもそも中国で生まれた文字ですが、日本で使われている漢字と中国で使われている漢字は微妙

                  日本語翻訳の「漢字表記の間違い」を海外の開発者にも端的に説明してくれる「Your Code Displays Japanese Wrong」
                • Your code displays Japanese wrong

                  A static site to link people to when their code is displaying Japanese wrong. View the Project on GitHub heistak/your-code-displays-japanese-wrong Why am I here? If someone gave you a link to this page, that person probably thinks your code displays Japanese wrong. In short, from a native Japanese eye, yѳur ҭєxҭ lѳѳκs κιnd ѳf lικє ҭЋιs. This page will give you a brief description of the glyph appe

                  • ハイフンに似ている横棒を全て統一するᅳㅡ˗𐆑–᭸‒-─−▬𐄐—━‐‑ー﹣―ー﹘-⁃➖⁻! - Qiita

                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

                      ハイフンに似ている横棒を全て統一するᅳㅡ˗𐆑–᭸‒-─−▬𐄐—━‐‑ー﹣―ー﹘-⁃➖⁻! - Qiita
                    • [Go] JSONを構造体にマッピングしつつ生データを保存するUnmarshalJSONの実装方法 - My External Storage

                      GoではJSONを扱うときでもしっかり型定義に当てはめて利用するのが一般的だ。 しかし、外部から受け取ったJSONデータは型に当てはめつつ併せて生データも保存しておきたいときがある。 Defind Typeをうまく使うとシンプルなUnmarshalJSON(data []byte)メソッドを定義できる。 type Event struct { ID string `json:"id"` Type string `json:"type"` Payload Payload `json:"pyload"` // 構造体にマッピングする前のJSONを保存しておきたい Raw json.RawMessage `json:"-"` } TL;DR 外部から受け取るJSONは構造が不意に変わることを想定したいときがある UnmarshalJSON(data []byte)メソッドを使うと独自のJSONパ

                        [Go] JSONを構造体にマッピングしつつ生データを保存するUnmarshalJSONの実装方法 - My External Storage
                      • 第157回 MySQLのデフォルトcollationの注意点 | gihyo.jp

                        MySQLではcharacter set(以後、charset)やcollationをグローバル、データベース、テーブルやカラムレベルで設定することができます。今回はMySQLのデフォルトcollationの注意点を紹介したいと思います。使用するMySQLのバージョンは8.0.26です。 charsetやcollationとはなにかについては説明はしません。よって、charsetやcollationについてご存知ない方は、先にマニュアル「第10章 文字セット、照合順序、Unicode」をご確認ください。 charsetやcollationの各レベルの設定方法 グローバル 以下のシステム変数を設定します。 character_set_server… サーバーのデフォルトのcharset collation_server… サーバーのデフォルトのcollation データベース CREATE

                          第157回 MySQLのデフォルトcollationの注意点 | gihyo.jp
                        • Windows 11、レジストリの非ASCII文字利用で動作不良に

                            Windows 11、レジストリの非ASCII文字利用で動作不良に
                          • PHPでログファイルへの読み書きを通して任意コード実行をする方法 - knqyf263's blog

                            以前少し話題になったLaravelのデバッグモード有効時の脆弱性であるCVE-2021-3129のPoCを読んでいたのですが、思ったより難しくて何でこんなことをしているんだろうと思ったら発見者による解説ブログがありました。読んでみたらバイパスのために思ったより色々していて普通に勉強になったのでメモを残しておきます。CTFerからすると常識な内容かもしれないので、何か間違いや補足があれば指摘をお願いします。 www.ambionics.io 前提知識1 前提知識2 本題 問題点 = によるエラー 日付のデコード ログファイル内の他エントリ バイパス方法 consumedの利用 iconvの利用 パディングの利用 UTF-16のための調整 NULLバイトの回避 最終形 まとめ 前提知識1 上の脆弱性を理解するためにはいくつかの前提知識を必要とするため最初にまとめておきます。 まず、PHPでは外

                              PHPでログファイルへの読み書きを通して任意コード実行をする方法 - knqyf263's blog
                            • Perl のユーザ定義文字特性 - ┗┐<(՞ਊ՞)>┌┛

                              めっちゃ久々に Perl5系 書いたのですが、そのときに今更 Perl にはユーザ定義文字特性というものがあることを知りました。 perlunicode - Perl における Unicode サポート - perldoc.jp ユーザ定義文字特性によって、例えば半角のカタカナだけヒットさせるのを作ろうとなった場合、半角カタカナの範囲をユニコードの表で確認して https://unicode.org/charts/PDF/UFF00.pdf `ヲ`である `FF66` から `゚` の `FF9F` までヒットさせようと試みる場合、以下のような文字特性をかけます package Experopero::Sample; use utf8; use strict; use warnings; ... # 半角カナ文字 `ヲ` ~ `゚` を指定したユーザ定義文字特性 # see: https:

                                Perl のユーザ定義文字特性 - ┗┐<(՞ਊ՞)>┌┛
                              • \と¥の問題 - 立命館大学情報理工学部セキュリティ・ネットワークコース プログラミング言語サポートページ

                                バックスラッシュ\を入力する時に円記号¥に文字化けが起きる理由 プログラムのソースプログラムは(LaTeXのソースファイルやWebページのHTMLファイル等と同様に)テキストファイル(教科書ではテキスト形式と呼ばれています。プレーンテキスト(plain text)とも呼ばれることがあります)というファイル形式で書かれます。このテキストファイルはどのようなOSでも必ずサポートされている最も基本的なファイル形式であり、実体は1バイトを単位として文字コードで表現されたデータが先頭から順に並んでいるだけのファイルです。 その文字コードは歴史的にはさまざまなものがありましたが、次第にアメリカで定められたASCIIコードが主流になり、世界中で使われるようになりました。これが国際的な規格になったものがISO/IEC 646です。これらは7ビットの文字コードなので2の7乗つまり128種類の文字が表現でき、

                                  \と¥の問題 - 立命館大学情報理工学部セキュリティ・ネットワークコース プログラミング言語サポートページ
                                • https://jp.techcrunch.com/2021/09/17/unicode-14-release/

                                    https://jp.techcrunch.com/2021/09/17/unicode-14-release/
                                  • 「Unicode Emoji 14.0」リリース──敬礼する顔や妊娠する男性など

                                    Emojipediaは、Googleは10月にはEmoji 14.0を実装すると予測している。近くリリース予定の「Android 12」では新しいEmojiが使えるかもしれない。 新たに加わった絵文字などの詳細についてはEmojipediaのブログを参照されたい。 関連記事 絵文字専門サイトのEmojipedia、携帯アプリ企業Zedgeが買収 世界絵文字デー提唱でも知られる絵文字サイトのEmojipediaを、携帯アプリ企業のZedgeが買収した。運営はこれまでと変わらず、「将来的に安定した成長が可能になった」と創業者のジェレミー・バージ氏は語る。 食べ物はよりおいしそうに Googleの絵文字はダークモードで星空にも変わる 7月17日は「世界絵文字デ-」ということで、Googleが絵文字の新デザインを発表しました。Gmailやチャットでは7月中に利用可能になる見込みです。Android

                                      「Unicode Emoji 14.0」リリース──敬礼する顔や妊娠する男性など
                                    • What's New in Unicode 14.0

                                      Today the latest emoji list will be released by the Unicode Consortium, with additions including Biting Lip, Troll, Saluting Face, as well as two heart-related gestures: Heart Hands and Hand with Index Finger and Thumb Crossed (aka finger heart, popular in K-Pop circles). The release date for version 14.0 of the Unicode Standard was aptly set for the 14th day of September, and formalizes what has

                                        What's New in Unicode 14.0
                                      • とほほの文字コード入門 - とほほのWWW入門

                                        文字コードとは 主な文字集合と符号化方式 文字集合 ASCII ISO/IEC 646 (ASCIIの国際規格版) JIS X 0201 (半角英数・半角カナ) ISO-8859 (欧州系8ビット文字) ISO/IEC 6429:1992 (制御文字) JIS X 0211 (制御文字) JIS X 0208 (第一水準・第二水準漢字) JIS X 0212 (補助漢字) JIS X 0213 (第三水準・第四水準漢字) 符号化方式 ISO-2022-JP (JISコード) EUC-JP (EUC) Shift_JIS (シフトJIS) JIS系コードマップ Unicode UTF-8 UTF-16 UTF-32 サロゲートペア バイトオーダー BOM(バイトオーダーマーク) その他 合字 組文字 結合文字 異体字 絵文字修飾子 正規化 リンク 文字コードとは 「文字コード」とは、文字をコ

                                        • Dive into Encoding

                                          "I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)

                                            Dive into Encoding
                                          • (プログラマのための)いまさら聞けない標準規格の話 第2回 文字コード実践編 | オブジェクトの広場

                                            プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第2回は文字コードの実践編です。 0. 前回の復習と今回の概要 システム開発で必要となる標準規格の話、前回 は文字コードの概要について説明しました。ざっくりまとめるとこんな内容でした。 「符号化文字集合」で文字集合と符号位置を定義し、「符号化方式」でバイト表現に変換していること。 日本では、しばらく文字集合 JIS X 0208 を、ISO-2022-JP、EUC-JP、Shift_JIS の符号化方式で利用してきたこと。 近年は、世界中の文字が扱える Unicode が主流となっており、UTF-8、UTF-16 などの符号化方式があること。 常用漢字、人名用漢字に限っても、字体を正確に扱おうとすると、JIS X 0208 の範囲では不十分であり、JIS X 0213、Unicode、サロゲートペ

                                              (プログラマのための)いまさら聞けない標準規格の話 第2回 文字コード実践編 | オブジェクトの広場
                                            • Go 1.17からの負のruneの扱い | フューチャー技術ブログ

                                              こんにちは、TIGの玉木です。Go 1.17連載の4記事目です。 この記事ではGo 1.17で更新があった負のruneの扱いについてです。更新自体は簡単なもので、この記事ではruneの説明から行います。 この記事を書いたきっかけGo 1.17のRelsease Notes1を眺めていたらいくつかの箇所で negative rune valuesという記述があり、runeってなんだ? と気になったことがきっかけです。 runeについてこちらのseihmdさんのQiita記事がとてもわかりやすかったです。詳細はそちらの記事に任せて、この記事では簡単な紹介に留めます。 コンピュータは文字を0と1のビットで表現します。例えば「”あ”, ”い”, “う”, “え”, “お”」の5種類の文字しかなければ、それぞれ「”000”, “001”, “010”, “011”, “100”」のように0と1で文字

                                                Go 1.17からの負のruneの扱い | フューチャー技術ブログ
                                              • 高速UTF-8バリデーションの世界 - Qiita

                                                参照: http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf の "Table 3-7. Well-Formed UTF-8 Byte Sequences" アルゴリズムを理解する上で重要なUTF-8の特徴について述べます。 1コードポイントは1-4バイトのシーケンスで表現される 上位ニブル(1バイト8ビットのうち、上位4ビット)を確認することでシーケンスの情報が得られる そのバイトがシーケンス先頭バイトかどうかわかる もしそれがシーケンス先頭バイトだったなら、何バイトのシーケンスかわかる 先頭でないバイトは基本的に0x80..0xBFの範囲が許容されているが、何箇所か例外があるのでそれもバリデーションしなければならない 例外の箇所は表では太字で示した 例えば、表を見て分かるように、先頭バイトが0xE0のとき2バイト目は0xA0..0x

                                                  高速UTF-8バリデーションの世界 - Qiita
                                                • View Source

                                                  · About · Changelog URL: Fetched 1.23 KB in 0.491662 seconds Don’t wrap lines · Tidy markup <!doctype html> <html> <head> <title>Example Domain</title> <meta charset="utf-8" /> <meta http-equiv="Content-type" content="text/html; charset=utf-8" /> <meta name="viewport" content="width=device-width, initial-scale=1" /> <style type="text/css"> body { background-color: #f0f0f2; margin: 0; padding: 0; f

                                                  • JavaScript で文字数を length で数えるのはやめようの実例

                                                    はじめに JavaScript において文字数を String の length で取得すると、期待した値が得られないことがある。この記事では、実際に String の length を使うことによって発生した Prettier のバグを紹介する。 前提 JavaScript の String には length というプロパティが存在する。このlengthプロパティは文字列の文字数を表すものではない。 実際には、文字列中に含まれるUTF-16のコードユニットの数を返す。つまり、ASCIIをはじめとしたBMPに含まれるものであれば我々の期待する文字数が返ってくるが、一部の漢字やemojiなどについてはそうはならない。 たとえば、漢字の𠮟(U+20B9F)はサロゲートペアであり、2つのコードユニットで表される。そのため、length は 2 になる。

                                                      JavaScript で文字数を length で数えるのはやめようの実例
                                                    • 文字エンコードを指定してファイルを開く

                                                      Visual Studio Code ではファイルの文字エンコードとして UTF-8 がデフォルトで設定されています。その為、 Shift_JIS など UTF-8 以外の文字エンコードで保存されたファイルを開くと文字化けして表示されます。ここでは Visual Studio Code で文字エンコードを指定してファイルを開く方法について解説します。 文字エンコードを指定してファイルを開きなおす Visual Studio Code ではデフォルトで文字エンコードとして UTF-8 を使用します。その為、文字エンコードとして UTF-8 を使用して保存されたファイルを開いた場合は問題なく表示されます。 それに対して例えば文字エンコードとして Shift_JIS を使用して保存されたファイルを開いた場合、文字化けが発生します。 UTF-8 以外の文字エンコードで保存されたファイルを開くには、

                                                        文字エンコードを指定してファイルを開く
                                                      • Office アシスタント「クリッパー」が絵文字として復活へ | スラド idle

                                                        Office アシスタントの「クリッパー」が Microsoft 365 の絵文字として復活することになったようだ(Microsoft のツイート、 The Verge の記事、 The Next Web の記事、 On MSFT の記事)。 クリッパー (英: Clippy) はゼムクリップに目玉を付けたような外見で、かつて Microsoft Office 英語版デフォルトの Office アシスタントだった。最も嫌われた Microsoft のキャラクターといわれる一方で、たびたび復活を遂げてきた。今回は Microsoft 公式 Twitter アカウントがクリッパーの画像を投稿し、「いいね」が 2 万件を超えたら Microsoft 365 のクリップの絵文字をクリッパーに置き換えると宣言。設定値が低すぎる気もするが、投稿から 2 時間 15分後には既に 3 万件を超えていたとい

                                                        • <4D6963726F736F667420506F776572506F696E74202D2032303139313131398DA182B382E795B782AF82C882A295B68E9A8352815B836882CC82CD82C882B557656294C52E70707478>

                                                          Copyright (C) 2019 Iwata Corporation. All Rights Reserved. 2019年11月19日 l 水野 昭 今さら聞けない文字コードのはなし 1 Copyright (C) 2019 Iwata Corporation. All Rights Reserved. 本資料は2018年11月29日に東京ビッグサイトで開催された JANPS2018(新聞製作技術展・日本新聞協会主催)の会場内 セミナーで発表した資料をもとにしています。 本資料の無断転載・無断使用を禁止します。 2 Copyright (C) 2019 Iwata Corporation. All Rights Reserved. イワタの歴史 ・1920年(大正9) 岩田百蔵が創業。鉛活字の母型を製造。 ・1939年(昭和14) 大阪龍文堂の森川健市(のちの大阪支店長)が 新聞用扁

                                                          • (プログラマのための) いまさら聞けない標準規格の話 第1回 文字コード概要編 | オブジェクトの広場

                                                            プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第1回は文字コードの概要編です。 0. はじめに 業務システムを開発する場合、プログラミング言語、フレームワーク、ミドルウェア、業務知識など以外に、共通で必要となる知識があります。文字コード、国際化、日付・時刻の扱い、住所コード、郵便番号、電話番号などの各種コード、…。 本連載では、プログラマがシステム開発で必要となる、技術と業務の狭間の共通知識を解説して行きたいと思います。 連載第1回は文字コードの概要編です。コンピュータシステムにおいて、文字情報は文字コードを用いて処理されます。文字コードとは、各文字に対応付けられた数値 (符号) のことです。近年、新規に開発される業務システムでは Unicode が使われることが多いと思いますが、既存システムとの連携など他の文字コードが使用されることもまだま

                                                              (プログラマのための) いまさら聞けない標準規格の話 第1回 文字コード概要編 | オブジェクトの広場
                                                            • 本当は恐ろしい「〜」記号 : IT翻訳者Blog

                                                              Yahoo Japanの「新型コロナワクチン情報まとめ」を見ていたら、次の画像があった。 アストラゼネカの行に「有効性 〜76%」とあり(赤枠)、私はここが気になってしまった。 (出典:https://news.yahoo.co.jp/pages/20210122、閲覧:2021-07-02) これを見た人は、普通は「最大で76%」と解釈するだろう。日本語で「〜」は「数字の範囲」を示すのが一般的である。例えば共同通信社の『記者ハンドブック』でもその意味で使っている。範囲の右側だけに数字があるので「最大」という解釈になる。最大なのだから、有効性は10%かもしれないし60%かもしれない。 しかし日本語の「〜」によく似た英語の「~」(チルダ)には別の意味がある。「約」や「およそ」である。この意味を掲載している辞書は実は少ないのだが、たとえばMerriam-Websterの「tilde」には2bに

                                                                本当は恐ろしい「〜」記号 : IT翻訳者Blog
                                                              • pLaTeX が本格的にやばいかもという話 - Acetaminophen’s diary

                                                                最近(この1週間ほど)で LaTeX 周りで起きていることについて,声明を出しておきます。端的に言うと「pLaTeX,本格的にやばい」。 pLaTeX hyperref error with pdfmanagement-testphase 今 LaTeX の世界で何が起きているのか,ざっと説明します。 ここ1年ほどの LaTeX は大きく変わっている 2020-02-02 以降,本家の LaTeX2e に多くの変更が入っています。2020 年の2回のリリースについては,Online.tex 2020 での私の講演資料「最近の LaTeX は〇〇」【PDF 直リンク】も参考になるでしょう。 LaTeX2e 2020-02-02: 新 NFSS 導入(シリーズとシェープの多軸化,ファミリ毎の実際のシリーズ値の設定,…),カーネルへの expl3 読込 LaTeX2e 2020-10-01: フ

                                                                  pLaTeX が本格的にやばいかもという話 - Acetaminophen’s diary
                                                                • ろるくん ☪︎.° ໒꒱ on Twitter: "まったくもってどういう商品かわからなくて怖い https://t.co/qgPLknAZly"

                                                                  まったくもってどういう商品かわからなくて怖い https://t.co/qgPLknAZly

                                                                    ろるくん ☪︎.° ໒꒱ on Twitter: "まったくもってどういう商品かわからなくて怖い https://t.co/qgPLknAZly"
                                                                  • BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2)

                                                                    かつてWindowsでテキストファイルといえばシフトJIS形式のものが大半だった。しかし最近では、UTF-8形式のテキストファイルも普通に見かけるようになってきた。世の中はUTF-8が主流になりつつあると言っていいだろう。 しかし、WindowsでUTF-8を使うと、ちょっと困ったことがある。それは、エクスプローラーの検索欄などで用いるWindows Searchが、UTF-8にはしっかり対応していないのである。正確に言うと、Windows Searchはファイル先頭に「BOM」のあるUTF-8は認識して正確にインデックス化し、ファイルの全文検索が可能になるが、BOMのないUTF-8では正しくインデックス化できず、ファイルの全文検索はASCIIコードのみ可能で、日本語などの非ASCII文字では全文検索ができない。 同じ内容のテキストをUTF-8、UTF-8 BOM付き、UTF-16ビッグエ

                                                                      BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2)
                                                                    • Unicode正規化 - Qiita

                                                                      とは 「ア」と「ア」, 「①」と「1」など等価な文字の表記を統一する操作. NLPで前処理としてよく使われる "Unicode正規化(ユニコードせいきか、英語: Unicode normalization)とは、等価な文字や文字の並びを統一的な内部表現に変換することでテキストの比較を容易にする、テキスト正規化処理の一種である。" - Wikipedia NFD, NFC, NFKD, NFKC 4種類の正規化形式が存在する. 「NFD (Normalization Form Canonical Decomposition)」 「NFC (Normalization Form Canonical Composition)」 「NFKD (Normalization Form Compatibility Decomposition)」 「NFKC (Normalization Form Com

                                                                        Unicode正規化 - Qiita
                                                                      • HTMLの絵文字 文字コード表 | GRAYCODE HTML&CSS

                                                                        HTMLで使用することのできる絵文字の文字コード一覧です。入力方法についても解説します。 この記事のポイント 絵文字は「数値文字参照」で入力する 数値文字参照は「10進数」と「16進数」の2種類の書き方から選ぶことができる 絵文字が記号として表示されてしまうときはCSSでfont-familyプロパティを指定する 絵文字の書き方 HTMLで「😀」「👍」のような絵文字を表示したい場合は、記号・特殊文字と同じように「数値文字参照」を使います。 iOSの絵文字 絵文字の入力で使用する「数値文字参照」はUnicodeで定められた16進数、または10進数の値を以下のフォーマットで指定して表示させます。 数値文字参照 (10進数)の書き方 10進数のフォーマットで絵文字のコードを書くときは「&#」と「;」で囲みます。 文字実体参照(10進数)の入力例 &#128512; // => 😀 &#12

                                                                          HTMLの絵文字 文字コード表 | GRAYCODE HTML&CSS
                                                                        • 行きつけのオシャレ美容院からのLINEの文末にいつも必ず絵文字の“うんち”が付いてて謎だったが、原因が判明したかもしれない「大事故じゃん…」

                                                                          草 @kusa39_39 (´゚д゚`)!!! ってことは、『今夜の晩御飯はあなたの大好きなカレーだよ♪』が『今夜の晩御飯はあなたの大好きなカレーだよ💩』になるのか……(´・ω・`) あーぁ(´゚д゚`) twitter.com/310ich/status/…

                                                                            行きつけのオシャレ美容院からのLINEの文末にいつも必ず絵文字の“うんち”が付いてて謎だったが、原因が判明したかもしれない「大事故じゃん…」
                                                                          • 『戸籍統一文字』の見たことない漢字はいったいなに?

                                                                            法務省が、戸籍で取り扱う文字を整理した「戸籍統一文字」を検索できるウェブサイト「戸籍統一文字情報」で、漢字を検索すると、みたことのない漢字がゾロゾロでてきて、たいへんおもしろい。 当サイトでは、昨年動画で取り上げたうえに、記事化までしていじり倒してきた。 この、みたことのない漢字をいじっておもしろがるのは、それはそれでいいけれど、やはり「なんでこんな漢字があるのか」という、素朴な疑問も当然わく。 そこで、漢字に詳しいひとと一緒に、戸籍統一文字にある不思議な文字を一緒にみてもらうことにした。 「戸籍統一文字」とは? 日本語を話す日本人が普段使うとされている漢字は、常用漢字としてまとめられており、その数は現在2136文字ある。 そのほか、めったに見かけないけれど、読んだり書いたりできる漢字。読み方もわからないけれど、どこかで使われている漢字をあわせて、かなり多めに見積もっても、おそらく3000

                                                                              『戸籍統一文字』の見たことない漢字はいったいなに?
                                                                            • PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった

                                                                              NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか?〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。 原ノ味フォントの作成者 細田真道氏(以下、細田):細田です。ふだんはNTTグループのどこかでDXな仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。 簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という

                                                                                PDFをコピペするとなぜ“文字化け”が起きてしまうのか 変換テーブル“ToUnicode CMap”が原因だった
                                                                              • 世界共通言語になった 「絵文字」の未来、 初の女性委員長が語る

                                                                                The woman who will decide what emoji we get to use 世界共通言語になった 「絵文字」の未来、 初の女性委員長が語る 絵文字(emoji)は、テキストメッセージに微妙なニュアンスを追加する手法としてネットで多用されている。絵文字を標準化するユニコード・コンソーシアムの絵文字小委員会の委員長に就任したジェニファー・ダニエルが、自らの役割や絵文字の未来について語った。 by Tanya Basu2021.05.24 45 18 3 「絵文字(emoji)」は、今では人々の言語の一部となっている。よほど変わった人でない限り、メールやインスタグラムの投稿、ティックトック(TikTok)の動画に、表現力を高めるさまざまな小さな画像をちりばめていることだろう。例えば、予防接種を受けた時の血が少し滴る注射器💉 や、「ありがとう」の意味を込めた祈りの手🙏

                                                                                  世界共通言語になった 「絵文字」の未来、 初の女性委員長が語る
                                                                                • MySQL 8.0.24 の文字コードまわり - tmtms のメモ

                                                                                  2021/4/20 にリリースされた MySQL 8.0.24 について私が気になったものについて。 まあ文字コードまわりだけなんだけど。 utf8 を utf8mb3 として出力する Client applications and test suite plugins now report utf8mb3 rather than utf8 when writing character set names. (Bug #32164079, Bug #32164125) Important Note: When a utf8mb3 collation was specified in a CREATE TABLE statement, SHOW CREATE TABLE, DEFAULT CHARSET, the values of system variables containing c

                                                                                    MySQL 8.0.24 の文字コードまわり - tmtms のメモ