タグ

解説と文字コードに関するiwwのブックマーク (13)

  • StackOverflowからのコピペをやめろ。今すぐにだ。 - Qiita

    Original article:https://dev.to/dotnetsafer/rip-copy-and-paste-from-stackoverflow-trojan-source-solution-4p8f その昔コピペできない文章というものがありました。 実際は単にフォントを変えているだけというものですが、人間の目に見える文字と実際の文字が異なることを利用した攻撃の一種と見ることもできます。 さて、最近になって似たような攻撃に関する論文が公開されました。 人間には見えない文字を織り交ぜることによって、一見問題ないコードが実は脆弱になってしまうというものです。 ただ論文は堅苦しいうえに長くて読むのがつらいので、具体的に何がどうなのかよくわかりません。 平易に解説している記事があったので紹介してみます。 以下はDotnetsafer( Twitter / GitHub / Web

    StackOverflowからのコピペをやめろ。今すぐにだ。 - Qiita
  • mysqlで文字コードをutf8にセットする - Qiita

    mysqlの文字コードはチェックする場所が多いので原因を突き止めるのに毎回苦労します。 大きく二種類に分けられて、 クライアント側、サーバー側(mysqlサーバー)、及びそれらの接続の文字コード データベース/テーブル/カラムの文字コード です。 デフォルトをきちんと設定しておく そもそも作成したDBの文字コードが意図しない設定になっていたら、デフォルトの設定が間違っている可能性が高いので、再度同じ問題を起こさないためにも、設定見直し→DBをdrop→DBcreateという順番で直しに行きます。 1も2もデフォルトの設定は下記を実行すればok。 +--------------------------+----------------------------+ | Variable_name | Value | +--------------------------+-----------

    mysqlで文字コードをutf8にセットする - Qiita
  • 〇(漢数字のゼロ)について

    まえがき 俗字の字典で、「〇:漢数字のゼロ」について触れました。しかし他の用事で資料をあさっているうちに、いろいろ面白いネタが集まってしまいました。もったいないので、稿にまとめておきます(貧乏性ですな)。 歴史的な考察 基的なトコだけ押さえておきます。 数字の「0」自体も、インドで7世紀ごろに成立したもの。それ以前には存在しない文字。 漢字の「零」は、『玉篇』・『説文解字』にもある古い字で、7世紀以前から存在する。意味としては「しずかに降る雨」とか。これを、いつから数字の「レイ、ゼロ」に当てたのかについては未調査。『諸橋大漢和』は「邦訓」とするが、中国でも例えば『漢語大字典』に新しい用例ではあるが数字のゼロの意で載っている。『大漢林』は「現代の用法」として数字のゼロの意をあげる。 和算など東洋の数学史関係を調べれば多分わかるのだろうけど、パラパラ立ち読みした限りでは見出せなかった。 日

  • 半角文字 - ASCIIコード

    ASCII 0〜31、及び127は制御コードです(下記参照)。 ASCII 32の「SP」はブランク(空白)を表します。制定時は制御コードでしたが、現在では「文字」とされています。 ASCII 92の「¥」(円記号)は、来のASCIIでは「\」(バックスラッシュ)となります。JIS C 6228(現JIS X 0202)で「¥」とされました。 ASCII 126の「〜」(チルダ)は、JIS C 6228(現JIS X 0202)では「 ̄」(オーバーライン)と規定されています(JISキーボードにもそう刻印されています)。しかし、Windows標準のフォントでは「〜」となっているため、初心者の混乱の元となっているようです。 制御コード(制御文字) 以下は小林龍生、安岡孝一、戸村哲、三上喜貴編「bit別冊─インターネット時代の文字コード」(共立出版)から引用した。ただし、一部修正してある。 S

    iww
    iww 2015/02/10
    NULとDELの話が面白い。
  • エンコーディングの変換コマンドについて跡地 - 試験運用中なLinux備忘録・旧記事

    (2016/4/12)記事は「Linuxで使える、エンコーディングと改行コードの変換コマンド」へ移動した。

    エンコーディングの変換コマンドについて跡地 - 試験運用中なLinux備忘録・旧記事
  • (☝ ՞ਊ ՞)☝とフォント - あっきぃ日誌

    バリバリ機種依存文字の(☝ ՞ਊ ՞)☝ウイーンを乱用している昨今ですが、これのフォントを調べられたのでメモがてら書いておきます。 これのスタンプを作りたくてPhotoshopでテキスト貼ったらフォント名が出てきたので、Photoshopべんりだなーって。 文字 フォント 備考 ՞ Mshtakan アルメニア語で用いられるアルメニア文字。疑問符に該当する ਊ Gurmukhi MN インドのパンジャーブ語で用いられるグルムキー文字。uṛaと言う名称らしい ☝ 調べ中 - 言語がわかればフォントも入手可能なので、これでWindowsとかAndroidとかでもなんとかできそうだなー(☝ ՞ਊ ՞)☝ウイーン ਊは他にਉとੳもあるらしいけれど、ちょっと違和感あるかな (☝ ՞ੳ ՞)☝ (☝ ՞ਉ ՞)☝ (☝ ՞ਊ ՞)☝

    (☝ ՞ਊ ՞)☝とフォント - あっきぃ日誌
    iww
    iww 2014/06/26
    Gurmukhi MN。 ਊ Unicode 0x0A0A。 手元のAndroidでは表示されない。
  • 本の虫: ㄘんㄘん

    常の如くGoogleReaderを見ていた所、不思議な文字列が目に入った。曰く、「ㄘんㄘん」と。 ちんちんがどうした。下品なことの好まるるは、世の常ではないか。いまさら目くじらを立てるには及ばぬ、という人もいるだろう。しかし、問題はそこではない。よく見て欲しい。 ㄘんㄘん ちんちん 何と見た目が違うではないか。これは一体どういうことだろう。フォントを変えているのか? しかし、こんなフォントをインストールした覚えはない。WOFF(Web Open Font Format)という、web上でフォントを提供する規格が制定されつつあると聞く、しかし、私はFirefoxを使っていないし、第一、その様な最先端の規格を使っているようにも見えない。あるいは、CSSでウエイトや傾きを変えているのか? そうではない。これは、実は、違う文字なのだ。 ㄘ 'BOPOMOFO LETTER C' (U+3118)

  • Twitter時代の文字の数え方 | 配電盤

    入力「×」のブラウザでは、「𠮷」が2文字とみなされるため、2文字目まで、つまり「𠮷野」までしか入力できません。 Mozillaの文書には、Unicode code pointsで数えると書いてあるので、そのうち改善されるのかもしれませんが、現時点ではTwitterのために「maxlength="140"」を使うことはできません。 pattern属性 Firefox 21とChrome 27、IE 10、Opera 12.15は、「pattern=".{0,3}"」(任意の文字からなる0から3文字)のような正規表現を使った検証にも対応していますが、やはり「𠮷野家」は4文字とみなされてしまいます。 JavaScript 追記:javascript – でBMP以外のUnicode文字をきちんと扱う(404 Blog Not Found) JavaScriptでは、文字列strの長さをst

  • Variable Byte Code と UTF-8、またはUTF-24が存在しないわけ : 404 Blog Not Found

    2009年08月05日00:30 カテゴリLightweight Languages Variable Byte Code と UTF-8、またはUTF-24が存在しないわけ 実は、これに非常に良く似た符号化を、我々は日々目にしています。 γ符号、δ符号、ゴロム符号による圧縮効果 - naoyaのはてなダイアリー 通常の整数は 32 ビットは 4 バイトの固定長によるバイナリ符号ですが、小さな数字がたくさん出現し、大きな数字はほとんど出現しないという確率分布のもとでは無駄なビットが目立ちます。 UTF-8です。 UTF-8は、0x0から0x10FFFFまでの整数を、以下のようにしてバイト列に変換します。 Range/Offset0123 0x00-0x7F0xxxxxxx 0x80-0x3FF110xxxxx10xxxxxx 0x400-0xFFFF1110xxxx10xxxxxx10xx

    Variable Byte Code と UTF-8、またはUTF-24が存在しないわけ : 404 Blog Not Found
  • 最近の Unicode 顔文字「ˉ̞̭ ( ›◡ु‹ ) ˄̻ ̊」について調べてみた - ワタタツの日記!(2012-03-02)

    ワタタツ、あ違った、ワタクシの日記です。 日々の生活や興味のあるニュース, WILLCOM の PHS, Mac OS X, Linux, トランペットなどなど。☆ 最近の Unicode 顔文字「ˉ̞̭ ( ›◡ु‹ ) ˄̻ ̊」について調べてみた 「てへぺろ」が世の中を席巻している。 そんな中、顔文字「ˉ̞̭ ( ›◡ु‹ ) ˄̻ ̊ 」も登場した。これは最近の Unicode による表現力の圧倒的な向上によるもの。 どのようにしてこのてへぺろを実現しているのかを調べてみた。(実際はただ観察してみただけである) テヘ部 文字の名前 コード 備考

    iww
    iww 2012/03/18
    テヘペロの解説。PCのブラウザでは意図どおりに表示されるものは無い
  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
  • Character Sets

    このウェブサイトは販売用です! studyinghttp.net は、あなたがお探しの情報の全ての最新かつ最適なソースです。一般トピックからここから検索できる内容は、studyinghttp.netが全てとなります。あなたがお探しの内容が見つかることを願っています!

  • はてなブログ | 無料ブログを作成しよう

    私、餡子のためなら逆立ちだってしますよ。 こじらせている。 べたいと思ったらべたいのである。 ここが北カリフォルニアの片田舎であろうと、私があんみつがべたいと思えば、あんみつは今すぐ作ってべなくてはいけないものになる。いしん坊の思考は凄まじい。 子供が観ていたアニメで、赤ちゃんが空の…

    はてなブログ | 無料ブログを作成しよう
  • 1