タグ

2023年12月28日のブックマーク (5件)

  • 面白かった本2023 - phaの日記

    今年もなんとか年末までたどり着きましたね。毎年書いている今年面白かったを紹介する記事です。 今年は屋(蟹ブックス)で働き始めたということもあって、今までよりも幅広いを手に取った一年だったように思います。あと、去年はなぜか短歌くらいしか読めなくなっていたけど、今年はエッセイとかをまた楽しく読めるようになってきました。うれしい。エッセイを書く気力もわりと戻ってきたので、2024年はまたエッセイを出したいなと思っています。まあ、できる範囲でやっていきたいですね。無理せず、死なないように。 マンガ 鶴崎いづみ『私のアルバイト放浪記』(観察と編集) 大山海『令和元年のえずくろしい』(リイド社) 大白小蟹『うみべのストーブ』(リイド社) 坂上暁仁『神田ごくら町職人ばなし』(リイド社) 岩波れんじ『コーポ・ア・コーポ』(ジーオーティー) 新井英樹『SPUNK - スパンク!』(KADOKAWA

    面白かった本2023 - phaの日記
    tekimen
    tekimen 2023/12/28
  • Mastodonの文字数測定は何を使っているか

    def countable_length(str) str.mb_chars.grapheme_length end grapheme_lengthを使っている grapheme_length Returns the number of grapheme clusters in the string. https://api.rubyonrails.org/v6.0.2.2/classes/ActiveSupport/Multibyte/Chars.html#method-i-grapheme_length というわけで書記素クラスタを考慮した感じでやっているらしい Web側 stringz というライブラリを使っている stringz Javascript has a serious problem with unicode. Even ES6 can’t solve the probl

    Mastodonの文字数測定は何を使っているか
  • 『Macで日本語ファイルをgitにコミットするのやめて><』とりあずMacとLinuxで互換性のない日本語ファイルを探すスクリプト書いた - Qiita

    Macで日語ファイルをgitにコミットするのやめて><』とりあずMacLinuxで互換性のない日語ファイルを探すスクリプト書いたPythonPHPMacGitUnicode 最近携わっているPHPプロジェクトでは、プログラムを日語で書いています。クラス名・変数名はもちろんファイル名も日語です。(なぜ日語で書くことにしたのか、そこらへんのモチベーションについては別記事にまとめたい) このプロジェクトは開発環境がMac、プロダクション環境がLinuxなのですが、日語ファイル名のPHPがオートロードされないなどの問題が発生しました。しらべたところ、MacのファイルシステムとLinuxのファイルシステムでUnicodeの規格が違うのが原因でした。詳しくは、「紹介マニアどらふと版: Mac OS X におけるファイル名に関するメモ(NFC, NFD等)」の記事が参考になります。 簡

    『Macで日本語ファイルをgitにコミットするのやめて><』とりあずMacとLinuxで互換性のない日本語ファイルを探すスクリプト書いた - Qiita
  • Mac OS X におけるファイル名に関するメモ(NFC, NFD等)

    このblogは、著者である「sakito」が技術的に生存している事を報告するために存在します タイトルを「紹介マニアどらふと版」から変更しました Mac OS X で ファイルシステムのフォーマットに HFS+ を利用している場合、ファイル名の取り扱いが、 WindowsLinux と異なります。 具体的には濁点や半濁点の扱いが異なります。これは Unicode の正規化に関係しています。 「Unicode の正規化」とは簡単に言うと、どの文字を同じ文字として処理するか、という問題への対処で、「が」を「が」として扱うか「か + ゛」として扱うか、ということです。 「Unicode の正規化」を実施することで「が」で入力されても、「か + ゛」で入力されても、どちらか一方に統一して、同じ文字として扱えるようにします。 こうした正規化形式には4種類存在します。 Normalization

  • Unicodeのgrapheme cluster (書記素クラスタ) | hydroculのメモ

    Unicodeのgrapheme cluster (書記素クラスタ) 2015/10/25 Unicodeテキストを1文字ずつ分割するアルゴリズムをUnicodeの仕様として定められており、grapheme cluster (書記素クラスタ)と呼ばれる。 普通はUnicodeのコードポイント1つずつ文字が割り当てられているので、ほとんどはコードポイント1つが1文字になるのだが、たまにコードポイント2つ以上で1文字になるものもあり、 1文字ずつテキストを分解するのは意外と複雑なルールになる。 Grapheme cluster について書かれている公式のドキュメントは以下にある。 Unicode® Standard Annex #29 UNICODE TEXT SEGMENTATION http://unicode.org/reports/tr29/ この記事は公式ドキュメントを読んで理解した