タグ

コードに関するtekimenのブックマーク (8)

  • UTF-32 でも固定長で処理出来るわけではない

    AC_2017-12-08.md UTF-32 でも固定長で処理出来るわけではない 2024/04/17 更新 この記事は、自作OS Advent Calendar 2017の 12/8 の記事として書かれました。 もう、日語の漢字や仮名を 2 バイト文字と呼ぶのは、やめよう IT 系のニュースサイトでも、未だに日語の漢字や仮名のことを 2 バイト文字と呼んでいる記事が散見されます。 2017 年現在、UTF-8 という Unicode の符号化方式が主流で、日語の漢字や仮名は 3 バイト~ 4 バイトで表現されることが多く、後述する結合文字や異体字セレクタのようなものまで含めると、さらにバイト数は増加します。日語の漢字や仮名を 2 バイト文字と呼ぶことは適切ではありません。 Unicode の UCS-2 Unicode の規格が始まったばかりの頃は、世界の文字を 2 バイトで表

    UTF-32 でも固定長で処理出来るわけではない
  • 文字って何かね? - Qiita

    元ネタ: 「文字列を文字の列とみなす単純化」ってどういうこと?解説編 - 西尾泰和のはてなダイアリー Shift JISおじさん(半角文字は1バイト、全角文字は2バイト派) 今どきShift JISもないだろうと思いますが、レガシーな業務システムなんかだと割と普通に残っていますね。 C#でShift JISな文字を扱いたければ、System.Text.Encodingクラスを使っていろいろすればいいです。 var text = "あいう"; var enc = System.Text.Encoding.GetEncoding("Shift_JIS"); // コードページ932でも可。 // 日WindowsならDefaultプロパティでもいい。 var bytes = enc.GetBytes(text); 後で書きますが、C# のchar型やstring型はUnicodeをベースに

    文字って何かね? - Qiita
  • Unicode IVS/IVDについて | 一般社団法人 文字情報技術促進協議会

    IVS(Ideographic Variation Sequence/Selector)は、文字符号としては同一視される漢字の、細かな字形の差異を特別に使い分けるための仕組みです。IVSは文字符号の国際規格であるISO/IEC 10646(2008年版以降)に規定されています。また、IVSと、それに対応する字形の一覧は、UnicodeコンソーシアムからIVD(Ideographic Variation Database)として公開されており、ISO/IEC 10646から正規の規格として参照されています。 文字符号(文字コード)を定める日工業規格のJIS X 0213(以下、JIS)やISO/IEC 10646 Universal Coded Character Set(以下、UCS)などでは、複数の字形に対して一つの共通な符号(コード)を与える場合があります(「同一の符号位置に複数の字

  • CPythonのソースコードを読んでみた - estie inside blog

    estieでソフトウェアエンジニアをしている安東です。普段の業務で関わっているのはPython製のシステムが中心ですが、過去データを分析するのにちょっとRustを使ってみたりもしています。 こうやって普段からお世話になっているPythonですが、中身がわからないまま使い続けることに対してやや不安を感じることがあります。たしかに書き方だけ知っていれば大抵の場面でなんとかなってしまうのでしょうが、それだけではカバーしきれないところがどんなプロジェクトでも突然やってきます。カバーできる範囲を増やすためにも、突然の出来事の予兆を事前に嗅ぎつけるためにも、プログラムが動いている感覚が地に足ついた形でほしいのです。 ということで、今回はPythonの処理系でおそらく一番メジャーなCPythonのソースコードを読んでみようと思います。ただ、ソースコード全体を読むには時間も記事のスペースも足りないので、今

    CPythonのソースコードを読んでみた - estie inside blog
  • (プログラマのための)いまさら聞けない標準規格の話 第2回 文字コード実践編 | オブジェクトの広場

    プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第2回は文字コードの実践編です。 0. 前回の復習と今回の概要 システム開発で必要となる標準規格の話、前回 は文字コードの概要について説明しました。ざっくりまとめるとこんな内容でした。 「符号化文字集合」で文字集合と符号位置を定義し、「符号化方式」でバイト表現に変換していること。 日では、しばらく文字集合 JIS X 0208 を、ISO-2022-JP、EUC-JP、Shift_JIS の符号化方式で利用してきたこと。 近年は、世界中の文字が扱える Unicode が主流となっており、UTF-8、UTF-16 などの符号化方式があること。 常用漢字、人名用漢字に限っても、字体を正確に扱おうとすると、JIS X 0208 の範囲では不十分であり、JIS X 0213、Unicode、サロゲートペ

    (プログラマのための)いまさら聞けない標準規格の話 第2回 文字コード実践編 | オブジェクトの広場
  • エンジニアが何か問題にぶつかったときにあるといい力を5個 - Mitsuyuki.Shiiba

    最近ちょこちょこ相談されることがあって、直接のスキルではないけど、こういうのもスキルだよなぁって思ったので、思いついた順に書いてみる。5個になった。 ## 1. 問題を切り分ける力 「これがなぜか動かない」って相談されたときって、いくつかの要素が絡んでることが多い。 なので「ここは明らかに問題ないでしょう」という一番土台のところからチェックを始める。そうすると「え?そこは問題ないと思いますよ?」って言われるので「うん、それを『問題ないと思う』じゃなくて『問題ない』って断言できるようにしようと思って」みたいな会話をよくする。 可能性をひとつずつつぶしていくと「ここだなぁ」って場所が見つかって、そしたら、もうあとはそんなに難しくない。ひとつずつ確認していくのって遠回りに見えるけど、結局その方が確実ではやいと思う。 ## 2. 想像と事実を切り分ける力 ↑と絡んで、想像や思い込みなのに、「ここは

    エンジニアが何か問題にぶつかったときにあるといい力を5個 - Mitsuyuki.Shiiba
  • X86アセンブラ/GASでの文法 - Wikibooks

    GAS(GNU Assembler)は、GNUプロジェクトによって開発されたアセンブラであり、GNU Binutilsの一部として配布されています。Binutilsには、アセンブラ(GAS)、リンカー(ld)、およびオブジェクトファイル操作ツール(nm、objdump、sizeなど)が含まれています。 GASは、x86、ARM、PowerPC、MIPSなど、多くのアーキテクチャをサポートしています。GASは、AT&T構文とIntel構文の両方をサポートしていますが、AT&T構文がデフォルトです。 一方、GCCは、GNU Compiler Collectionの略で、C、C ++、Objective-C、Fortran、Ada、およびその他の言語のコンパイラとして使用されます。GCCは、オブジェクトファイルを生成するためにGASを使用することができますが、GASに依存しない方法でもオブジェク

  • 一夜漬け音楽理論

    ■コードの覚え方(全15回)■ ┣1.ドレミとアルファベット ┣2.基となるコード ┣3.真ん中の音が変化する ┣4.真ん中の音がさらに変化 ┣5.ここまでのまとめ ┣6.右の音が変化する ┣7.3つの音のまとめ ┣8.音を付け足す ┣9.特殊な例 ┣10.4つの音のまとめ ┣11.さらなる音を付け足す ┣12.さらに、、、 ┣13.音を移動しちゃう ┣14.ベースの音が変わる ┗15.まとめ ■キー・スケールのお話(全6回) ■ ┣1.メジャースケール ┣2.ナチュラルマイナー ┣3.ハーモニックマイナー ┣4.スケールのまとめ ┣5.メジャーキー ┗6.マイナーキー ■コード進行のお話(全13回)■ ┣1.重要な3つのコード[1] ┣2.重要な3つのコード[2] ┣3.重要なコードのまとめ ┣4.簡単な進行 ┣5.グループ分け ┣6.カデンツ ┣7.進行においての規則 ┣8.忘れてお

  • 1