タグ

encodingに関するjjzakのブックマーク (6)

  • 誤り訂正符号Blog

    2024 . 02 « 12345678910111213141516171819202122232425262728293031» 2024 . 04 前回までで、リードソロモン符号の符号化・復号の方法を一通り示すことができました。 ”「ちょっと誤り訂正符号を使ってみたいな」という実務家の皆さん向けに、非常に簡易に誤り訂正符号の原理・アルゴリズムについて説明する”ということを目的に作成されたブログですが、いかがだったでしょうか。 多分に説明不足な点がありますが、「多項式の符号化・復号→多項式の係数を有限に制限したものとしてのリードソロモン符号」という流れは、自然で原理を理解しやすくて、もう少し肉付けして書けばなかなか良いのではないかと勝手に思っています。 しかし説明不足感は否めません。 何も知らずにこれを読んでリードソロモン符号をコーディングすることができた方がいましたら、すばらしい読

  • UTF8 フラグあれこれ - daily dayflower

    UTF8 フラグについてわかってるつもりだったんですが,utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめ スカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがある スカラー変数は(リファレンス等は別として)下記のものを格納できる (A) 文字列(内部表象: UTF-8) (B) 文字列(内部表象: ISO-8859-1) (C) バイナリ列 純粋なバイナリストリーム(画像ファイル等)かもしれないし, UTF-8 octet stream かもしれないし, CP932 octet stream かもしれないし,etc, etc ... Perl は(後方互換性確保などの理由から)ISO-8859-1

    UTF8 フラグあれこれ - daily dayflower
  • Emacs でファイルの文字コードを変換するときの覚書 - gan2 の Ruby 勉強日記

    もうさすがに忘れないだろーとは思っているものの 以前もそんな風に思っていてしばらくしたらあやふやになっていたので 記憶に定着されることを祈りつつちゃんと書いておく。 基 以下の2つを覚えておけばまず大丈夫。 文字化けしてるとき (UTF-8 のファイルなのに SJIS で開いちゃったとき) 「C-x RET r utf-8」 文字化けしてないとき (SJIS のファイルを UTF-8 で保存したいとき) 「C-x RET f utf-8」 間違って上記の2つをあべこべに使うと厄介なことになるので注意。 僕を含め、「Emacs でファイルが文字化けしておかしくなった!」って人は 大体文字化けしている状態で「C-x RET f」で保存しちゃってハマることが多い気がする。 文字化けしちゃってるときは「C-x RET r」だよ! ちなみにこの「r」は「revert (戻る、復帰する)」の頭文字み

    Emacs でファイルの文字コードを変換するときの覚書 - gan2 の Ruby 勉強日記
  • Common Lisp と 日本語 と 文字コード

    external-format の使い方がわかったところで、実用的には文字コードの判定処理が必要になる場合が多い。 external-format を知っただけでは、with-open-file の external-format に何を指定すればいいのか迷ってしまう。 で、いろいろ蘊蓄を語ろうと思ったのだが、ふと Gauche の文字コード判定処理を CL に移植して比較したところ 性能、精度とも私の手作りのものより断然よかったのでこっちを採用。 Gauche のソースの ext/charconv/guess.scm, ext/charconv/guess.c, ext/charconv/guesstab.c が日語エンコーディング判定処理だ。 guess.scm で状態表 guesstab.c を出力し、 C コンパイラで guess.c guesstab.c をコンパイルしてモジュ

  • JISC 日本産業標準調査会

    サイトでは、JISの閲覧は可能ですが、印刷・購入はできません。 JISの購入については JISの入手閲覧方法 をご覧下さい。 ※データベース検索においては、アクセスが集中した際に正しく表示されない場合が ございます。その場合は、暫く経過したのち再度アクセスをお願いいたします。

  • yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須

    (Last Updated On: 2016年3月3日)最近PostgreSQLMySQL両方にSJISエンコーディングを利用している際のエスケープ方法の問題を修正がリリースされています。この件は単純に「データベースシステムにセキュリティ上の脆弱性があった」と言う問題ではなく「アプリケーションの作り方を変える必要性」を提起した問題です。 参考:セキュアなアプリケーションのアーキテクチャ – sandbox化 PostgreSQLMySQLの脆弱性は特にSJIS等、マルチバイト文字に\が含まれる文字エンコーディングが大きな影響を受けますが、同類の不正な文字エンコーディングを利用した攻撃方法が他の文字エンコーディングでも可能です。例えば、UTF-8エンコーディングは1文字を構成するバイト列の最初のバイトの何ビット目までが1であるか、を取得してUTF-8文字として1バイト~6バイト必要なのか

    yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須
  • 1