tekimenのブックマーク / 2023年12月28日

tekimen id:tekimen

2023年12月28日のブックマーク (5件)

面白かった本2023 - phaの日記
今年もなんとか年末までたどり着きましたね。毎年書いている今年面白かった本を紹介する記事です。今年は本屋（蟹ブックス）で働き始めたということもあって、今までよりも幅広い本を手に取った一年だったように思います。あと、去年はなぜか短歌くらいしか読めなくなっていたけど、今年はエッセイとかをまた楽しく読めるようになってきました。うれしい。エッセイを書く気力もわりと戻ってきたので、2024年はまたエッセイ本を出したいなと思っています。まあ、できる範囲でやっていきたいですね。無理せず、死なないように。マンガ鶴崎いづみ『私のアルバイト放浪記』（観察と編集）大山海『令和元年のえずくろしい』（リイド社）大白小蟹『うみべのストーブ』（リイド社）坂上暁仁『神田ごくら町職人ばなし』（リイド社）岩波れんじ『コーポ・ア・コーポ』（ジーオーティー）新井英樹『SPUNK - スパンク！』（KADOKAWA）
tekimen 2023/12/28
リンク
Mastodonの文字数測定は何を使っているか
def countable_length(str) str.mb_chars.grapheme_length end grapheme_lengthを使っている grapheme_length Returns the number of grapheme clusters in the string. https://api.rubyonrails.org/v6.0.2.2/classes/ActiveSupport/Multibyte/Chars.html#method-i-grapheme_length というわけで書記素クラスタを考慮した感じでやっているらしい Web側 stringz というライブラリを使っている stringz Javascript has a serious probl em with unicode. Even ES6 can’t solve the probl
tekimen 2023/12/28
文字コード

Unicode

マストドン
リンク
『Macで日本語ファイルをgitにコミットするのやめて><』とりあずMacとLinuxで互換性のない日本語ファイルを探すスクリプト書いた - Qiita
『Macで日本語ファイルをgitにコミットするのやめて><』とりあずMacとLinuxで互換性のない日本語ファイルを探すスクリプト書いたPython PHP MacGitUnicode 最近携わっているPHPのプロジェクトでは、プログラムを日本語で書いています。クラス名・変数名はもちろんファイル名も日本語です。(なぜ日本語で書くことにしたのか、そこらへんのモチベーションについては別記事にまとめたい) このプロジェクトは開発環境がMac、プロダクション環境がLinuxなのですが、日本語ファイル名のPHPがオートロードされないなどの問題が発生しました。しらべたところ、MacのファイルシステムとLinuxのファイルシステムでUnicodeの規格が違うのが原因でした。詳しくは、「紹介マニアどらふと版: Mac OS X におけるファイル名に関するメモ(NFC, NFD等)」の記事が参考になります。簡
tekimen 2023/12/28
mac

linux

文字コード

Unicode
リンク
Mac OS X におけるファイル名に関するメモ(NFC, NFD等)
このblogは、著者である「sakito」が技術的に生存している事を報告するために存在しますタイトルを「紹介マニアどらふと版」から変更しました Mac OS X でファイルシステムのフォーマットに HFS+ を利用している場合、ファイル名の取り扱いが、 Windows や Linux と異なります。具体的には濁点や半濁点の扱いが異なります。これは Unicode の正規化に関係しています。「Unicode の正規化」とは簡単に言うと、どの文字を同じ文字として処理するか、という問題への対処で、「が」を「が」として扱うか「か + ゛」として扱うか、ということです。「Unicode の正規化」を実施することで「が」で入力されても、「か + ゛」で入力されても、どちらか一方に統一して、同じ文字として扱えるようにします。こうした正規化形式には4種類存在します。 Normalization
tekimen 2023/12/28
Unicode

mac

正規化
リンク
Unicodeのgrapheme cluster (書記素クラスタ) | hydroculのメモ
Unicodeのgrapheme cluster (書記素クラスタ) 2015/10/25 Unicodeテキストを1文字ずつ分割するアルゴリズムをUnicodeの仕様として定められており、grapheme cluster (書記素クラスタ)と呼ばれる。普通はUnicodeのコードポイント1つずつ文字が割り当てられているので、ほとんどはコードポイント1つが1文字になるのだが、たまにコードポイント2つ以上で1文字になるものもあり、 1文字ずつテキストを分解するのは意外と複雑なルールになる。 Grapheme cluster について書かれている公式のドキュメントは以下にある。 Unicode® Standard Annex #29 UNICODE TEXT SEGMENTATION http://unicode.org/reports/tr29/ この記事は公式ドキュメントを読んで理解した
tekimen 2023/12/28
Unicode

文字

文字コード
リンク
- 2023年12月29日
- 2023年12月28日
- 2023年12月27日