タグ

itに関するyanokのブックマーク (71)

  • なぜ『プログラマのための文字コード技術入門』の改訂新版にはSKKと Emacsの話が入っていないのか - yanok.net

    拙著『[改訂新版] プログラマのための文字コード技術入門』(技術評論社,2018)についての感想で,初版にAppendixとして入っていたSKKとEmacsによるJIS X 0213対応の話が無くなっていることを惜しんでくれているものがありました。 これは初版執筆時に著者(私だ)がEmacsとSKKを使ってEUC-JIS-2004のプレーンテキストとして原稿を書いていたことを紹介し,当時の一般的な日本語入力環境が抱えていた問題点をこれによって解消できることを説明したものです。 当時の日本語入力環境というのは,おおまかにいえばJIS X 0208の第1・第2水準漢字に制約されており,それ以外の文字は入力できないか,できたとしても単漢字変換や文字パレットのような使いにくい方式によるしかないというものでした。そういう状況を改善し,現代日で使われている文字は第1・第2水準漢字に限らず,分け隔てな

    yanok
    yanok 2020/11/15
    改訂新版の変更の裏話というか背景。
  • 文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)

    文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! 文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。 ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。 稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。 文字コードとは? Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み

    文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)
  • エンジニアHubにて「文字コード再入門─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」公開 - yanok.net

    エンジニアHub」にて記事を執筆しました。「文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」として公開されています。 若手エンジニア向けのWebメディアとのことで、プログラミング上の注意点にフォーカスした内容になっています。コード例にはJava, Python, Rubyを用いています。 拙著をすでにお読みの方には復習となる内容ですが、まだの方はこの機会に是非お読みいただければと思います。記事の最後に拙著『[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)』の版元へのリンクも設定されていますので、興味を持たれた方には書籍の方もお読みいただければ幸いです。 当記事編集担当の方には「とても品質の高い記事」とのことで感謝のお言葉をいただきました。読者のお役に立つことを願っています。

  • Unicodeエスケープまとめ: Java, Python, Ruby - yanok.net

    プログラムのソースファイルに文字を記すときに、キーボードから入力できなかったりフォントがなかったりといった理由で、Unicodeの符号位置を使って記したいことがあります。最近の言語では似た形式でそうしたUnicodeエスケープを記述できますが、微妙に違いがあります。ここではJavaPython, Rubyを比べてみます。 JavaのUnicodeエスケープ Javaではバックスラッシュ(\)とアルファベットのuに続けて4桁の16進数でUnicode符号位置を記します。 例えば、\u4e00 とすれば漢字の「一」を記したのと全く同じことになります。 JavaのUnicodeエスケープはコンパイルの初期段階で処理されるものなので、文字列リテラルの中で改行を意味する \n 等とは扱いが異なることに注意が必要です。このことは『プログラマのための文字コード技術入門』第7章に記しました。 '\u'

  • 『[改訂新版]プログラマのための文字コード技術入門』発売! - yanok.net

    ばたばたしていて当サイトの更新も怠っているうちに、拙著『[改訂新版]プログラマのための文字コード技術入門』が技術評論社から発売されました! 既に書店の店頭に並んでいます。電子書籍版は数日前から先行発売されています。 近いうちに当サイトでも紹介ページを作りたいと思います。まずはお知らせまで。

  • 『[改訂新版] プログラマのための文字コード技術入門』のページ作成 - yanok.net

  • Go と Rustの文字列 - yanok.net

    Go言語における文字列はUTF-8のバイト列を保持します。また、Unicodeの1符号位置に対応するデータ型としてruneというものが用意されており、これは32ビット整数と同じものです。他の言語でいうchar型にあたります。 Rustでも類似の形です。つまり、文字列型はUTF-8のバイト列を保持し、Unicodeのスカラー値に対応する型としてcharが定義されています。(ここでわざわざ「スカラー値」といい「符号位置」としていないのはRustのドキュメントがそうしているせいで、まあほぼ同じようなものですが、サロゲート上位下位の範囲の値を含まない点だけが違います) こうなるとUTF-16の出る幕がない感じになってきます。今後、JavaやC#のように「文字列はUTF-16、char型は16ビット」というものから、こちらの方式へシフトしてくるのでしょうか。JavaなどはUnicodeのBMPにしか

  • 「さくらの大納涼会2018 at 北海道」開催直前! さくらインターネットが北海道で事業をやってきて思ったことを田中社長に聞いてみた - はてなニュース

    石狩にデータセンターをオープンして以降、さくらインターネット(以下、さくら)は北海道での事業展開に注力しています。データセンターはいまや3号棟まで増設し、現地でのエンジニア雇用にも意欲的です。そして来る8月2日(木)、さくら、そしてはてなエンジニアに加え、豪華ゲストエンジニアが集まり「技術北海道のこと、語り倒そうぜ!」なイベント「さくらの大納涼会2018 at 北海道」が開催されます! しかし、そもそも大阪の会社であるさくらは、なぜこうまで北海道にこだわりを見せるのでしょうか? 「なんで北海道? あと、北海道で事業を行うって、ぶっちゃけどう?」と、さくらの社長、田中邦裕さんに聞いてきました。記事の最後には、イベントの募集要項もあります! ※この記事は、さくらインターネット株式会社の提供によるPR記事です。 ■ 最初の印象は「遠すぎる」 ──北海道・石狩の地にデータセンターをオープンした

    「さくらの大納涼会2018 at 北海道」開催直前! さくらインターネットが北海道で事業をやってきて思ったことを田中社長に聞いてみた - はてなニュース
    yanok
    yanok 2018/07/09
    「むしろ東京から離れている方が効率やアウトプットは上がる人もいるだろう、という予想があり、3年ほど前に東京集中の考え方を止めたんです」
  • 『プログラマのための文字コード技術入門』第7刷決定! - yanok.net

  • 名字の第3水準漢字:「㞍」 - yanok.net

    先日テレビを見ていたら、人名の名字にJIS第3水準漢字が映っていました。 「野㞍」と画面に映っていました。「のじり」という名字だそうです。この「㞍」はJIS X 0213の第3水準、面区点番号1-47-63です。「尻」の異体字ですね。UnicodeではCJK統合漢字拡張AのU+378Dにあります。最初に作ったCJK統合漢字にはなくて後から追加されたということになります。 漢字において点の有無は別字になることもあればならないこともあります。単に運筆の調子を整えるために点を打つこともあるそうで、そういう習慣を知らないと特に意味のない形の違いで悩んでしまいそうです。今回の「㞍」がどういう経緯で成立したかは知りませんが、そうしたものの一種かもしれません。

    yanok
    yanok 2017/11/25
    「尻」の異体字。
  • JISの幽霊漢字が大正時代の新聞にあったように見えたという記事 - yanok.net

    JIS X 0208の幽霊漢字についてTwitterで興味深いツイートを見ました。 大正十二年の幽霊文字 - ことばマガジン:朝日新聞デジタルhttps://t.co/djVExrVN3o 朝日新聞の縮刷版検索に「彁」が見えた話 pic.twitter.com/1RhHtyWFyB — ひめ@女体化したい (@sarasvati635) 2017年11月18日 朝日新聞デジタルの記事で、JIS X 0208の出所不明の幽霊漢字「彁」らしく見える文字が大正12年の印刷物に見えたという話です。 内容について詳しくは記事(2011/09/05付)そのものを読んでいただければ良いのですが、備忘として概要をかいつまんで紹介しておきたいと思います。 JIS X 0208の幽霊漢字とは JIS漢字コード規格JIS X 0208にはいくつか出所不明の漢字が含まれていて幽霊文字と俗に呼ばれています。拙著『プ

    yanok
    yanok 2017/11/18
    「「自彊会」という言葉の「彊」の字がかすれて、データベースへの入力の際に「彁」として入力したのではないかということ」
  • Jアラート訓練メールで文字化けとのニュース - yanok.net

    一昨日のことですが、中国・四国地方から文字化けのニュースがありました。IT系のメディアではなくNHKです。 Jアラート訓練 メール文字化けなど各地でトラブル (2017年8月18日, NHK News Webの記事) Jアラートとは「全国瞬時警報システム」なのだそうで、最近北朝鮮のミサイル発射の問題のニュースに出てくることがあります。この緊急情報の送受信訓練で、メールでテスト電文を配信したところ文字化けして読めないものだったというニュースです。 上記リンク先には画像があり、携帯端末上で文字化けした文面が写っています。ぱっと見た感じでは、UTF-8のテキストをシフトJISとして解釈しようとしたように見えますが、冒頭の「発表」と末尾の「しまね防災情報」は見えています。前後の定型文がシフトJISで用意されていて、間に挟む文もシフトJISでなければいけないところにUTF-8のバイナリを入れてしま

  • 任俠の第3水準漢字 - yanok.net

    ユーモラス、と言っていいのか分かりませんが、興味深いニュース記事がありました。 神戸山口組離脱の勢力、組織名を「任侠山口組」に変更 旧字体表記されず不満か (産経新聞、2017年8月10日付) この記事の伝えるところによると、「「任●(にんきょう)団体山口組」(●は「侠」の旧字体)が、組織名を「任侠(にんきょう)山口組」に変更する通達を流していた」のだそうです。その理由として、「表記される際、「侠」の旧字体が正しく表記されないケースがあったことに不満を募らせたとみられる」と書かれています。 「「侠」の旧字体」は、当ブログ記事の題にあるように「俠」です。この字はJIS第3水準、面区点番号1-14-26にあります。人名用漢字にも入っています。 SKKの第3第4水準漢字辞書では「にんきょう」から「任俠」に変換できます。Macでも入力できます。もうこうした第3第4水準を避ける必要はないでしょう。

  • 電子マネーの優先順位を考える - yanok.net

    このブログを電子マネーとクレジットカードの情報サイトにするつもりはないのですが、最近考えていることを少し整理。 電子マネーが増えていてスマホに色々入れることができるのですが、あまり多いのも無駄が発生するし管理の手間がかかるので考えものです。私もつい新しいものを試してしまうのでスマホの中が肥大化しがちです。そこで優先順位をつけて考えたい。以下は私なりに考えた優先順位とその理由です。何かの参考になれば幸いです。なおここではおサイフケータイのようにスマホ・携帯電話に入れることを前提としています。 最優先: iD または QUICPay この2つはポストペイ型と呼ばれるもので、要はクレジットカード決済をスマホのタッチだけで行うものです。チャージしないで使えるので最も使い勝手が良い。また、チャージによるリスクもありません。(ここでいうリスクについては別記事参照: 「電子マネーiDの良さが今更ながら分

  • Java 9 でようやくResourceBundle のデフォルト文字コードが UTF-8に - yanok.net

    Java 9では国際化機構で用いられるリソース文字列のファイル表現の文字コードとしてUTF-8がデフォルトで使用されることになるそうです。従来、ISO/IEC 8859-1がデフォルトであるためにUnicodeエスケープが必要となり、外部ツールで日語テキストを「\u3042」のようなエスケープ文字列に変換する煩わしさがありましたが、ようやく解消されることになります。 Java SE 9、API以外の新機能で知っておきたいこと (2017/7/20, ITproの記事) Javaには古くから国際化のための枠組みが用意されています。その最も基的な機構となる、多言語のメッセージ文字列を用意する仕組みとしては設定ファイルなどに用いるプロパティファイルという形式が用いられています。ところがこのファイルはデフォルトの文字コードがISO/IEC 8859-1という西欧向けの1バイトコードなのでした。

  • Unicode 10.0リリース、変体仮名を収録 - yanok.net

    Unicode 10.0が2017年6月20日にリリースされました。今回は8,518文字が追加されています。 日語話者にとって最も関係しそうなのは変体仮名の導入でしょう。 変体仮名とは 現在、平仮名は1音につき1文字ですが、以前は同じ音に対して複数の書き方がありました。例えば、平仮名の「か」は漢字「加」が元になっているもので、これ以外に「か」と読む平仮名はありませんが、かつては「可」を元にした仮名も使われていて同じく「か」と読まれました。そうした複数のバリエーションがあった仮名を明治時代に標準化したものが今の平仮名です。このとき採用されなかった異体が変体仮名と呼ばれるものです。 変体仮名は今日では文章を綴るのには使われませんが、そば屋の看板などで装飾的に用いられることがあります。 Unicodeにおける変体仮名 変体仮名はUnicodeではBMPでなく面01に配置されました。U+1B00

  • Unicode の嫌なところを触ってしまった Python - yanok.net

    Pythonとlibiconv, nkf, Javaのコード変換を比較した記事がありました。 主な実装における EUC-JIS-2004, Shift_JIS-2004 から Unicode への変換結果の違い ASCIIとJIS X 0201の違いに起因する円記号問題とチルダ・オーバーライン問題、それにUnicodeのFTPサイトが原因と思われる全角ダッシュの件という既知の問題が多いので目新しくないのですが (『プログラマのための文字コード技術入門』をお読みいただければわかります)、Pythonについて目新しげな話がありました。 Pythonでは他と違って、二重(白抜き)の括弧をU+FFxxの位置にあるものでなくU+29xxに割り当てているそうです。うむ。そうか、そうきたか。 JISの公式な対応表ではU+FFxxの方になっています。文字名でいうとFULLWIDTH {LEFT|RIGHT

  • 電子マネーiDの良さが今更ながら分かった - yanok.net

    iDとはどんなものか 電子マネーというとSuicaやEdyを思い浮かべることが多いでしょう。これらは事前に入金(チャージ)しておいて使います。一方、ポストペイ型電子マネーと呼ばれるiDやQUICPayというものもあります。これらは名前はずっと前から知っていたものの、どういうものなのかは何だかよく分からないでいました。Suicaで困らないし、まあいいや、と。 ただ最近機会があってiDを使うようになって、ああそうかこういうものだったのか、と今更ながらに理解しました。率直に言って、もっと早く使えば良かった。 思うに、iDを「電子マネー」と呼ぶから分からなくなるのではないか。利用者視点で単純化して言えば、iDとは「自分のクレジットカードの決済をスマホのタッチだけで行う仕組み」です。 ただしどのカードでもいいわけではなく、対応しているものに限られます。三井住友カードやセゾンカード、UCカードなどが対

  • 書家の第3水準漢字が文字化けするわけ - yanok.net

    北海道南部の松前町は、20世紀日の書家・金子鷗亭の出身地であり、その影響で書道教育の盛んな町として知られています。 その松前で高校生の書道パフォーマンスの大会が開催されたニュースがありました。 高校生の筆踊る 松前で書道パフォーマンス (函館地域ニュース by 函館新聞社, 2017/5/14付) 金子鴎亭記念書道パフォーマンス 音楽に乗り高校生、揮毫 過去最多13校 きょう出身地・松前で /北海道 (毎日新聞, 2017/5/13付) 上記のうち、函館新聞の方は記事の中にちょっと残念な部分があります。書家の名前が「金子鷗亭」と、「鷗」の字がHTMLの文字参照になってしまっています。40407は16進表記で9DD7にあたります。UnicodeでU+9DD7は第3水準漢字「鷗」の符号位置です。 人手で40407のような数字を入力したとは考えにくい。私の想像ですが、テキストエデ

  • JIS2004 - JIS X 0213 Wiki

    yanok
    yanok 2017/04/15
    「JIS2004とは、符号化文字集合規格JIS X 0213の2004年改訂版の通称です」