並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 63 件 / 63件

新着順 人気順

文字コードの検索結果41 - 63 件 / 63件

  • ショートカットと端末 - SmartHR Tech Blog

    SmartHR でプロダクトエンジニアをしている tmtms です。読み方がわからない(自分でもわからない)ので社内では tommy と名乗ってます。 2月に開催された社内LT大会第3回で「ショートカットと端末」というネタで発表したのですが、とても5分に収まる量ではなかったのでここにしたためておきます。 キーバインド macOSのテキスト編集のショートカットとEmacsとbashのキーバインドを比較するとこんな感じです。 control macOS Emacs bash A 行頭に移動 行頭に移動 行頭に移動 B 左に移動 左に移動 左に移動 C - prefix 中断 D 右文字削除 右文字削除 右文字削除/入力終了 E 行末に移動 行末に移動 行末に移動 F 右に移動 右に移動 右に移動 G - 中断 中断 H 左文字削除 ヘルプ 左文字削除 I - タブ タブ J - 改行 改行 K

      ショートカットと端末 - SmartHR Tech Blog
    • UTF-8のバリデーションとモノイドと半群

      この記事はUTF-8のバリデーションとオートマトンの続きです。 前回はUTF-8のバリデーションが8状態のオートマトン (DFA) で表現できることを見ました。状態と遷移を擬似コードで書けば次のようになるでしょう: -- 8つの状態 data State = START | TAILx1 | TAILx2 | TAILx3 | A | B | C | D -- 入力バイトに応じて次の状態を返す。次の状態が該当しなかったら Nothing を返す next :: Word8 -> State -> Maybe State +----+----+-----+----+ | a0 | a1 | ... | aN | 8ビット整数列 +----+----+-----+----+ | | | v v v +----+----+-----+----+ | m0 | m1 | ... | mN | モノ

        UTF-8のバリデーションとモノイドと半群
      • 「Twitter」改め「X」のロゴはUnicodeの「U+1D54F」らしい/「黒板文字」や「重ね打ち体」と呼ばれる文字の1つ【やじうまの杜】

          「Twitter」改め「X」のロゴはUnicodeの「U+1D54F」らしい/「黒板文字」や「重ね打ち体」と呼ばれる文字の1つ【やじうまの杜】
        • ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた

          「『生成AIを使ってこんなもの作ってみました』開発者LT大会」は、急速に発展しているChatGPTや生成AIといったAI技術を使って何かを作ってみた人たちがアイデアや成果を共有する、ログミーTech主催のイベントです。ここでPR TIMES社の土屋氏が登壇。「ChatGPTを使って文字コードを扱う負担を軽減できるか」という調査の内容と結果について紹介します。 Shun氏の自己紹介と、本セッションのアジェンダ Shun氏(以下、Shun):それでは、PR TIMES社の土屋が発表します。私の名前はShunといいます。PR TIMESに勤めていて、ソフトウェアエンジニアをやっています。 本日のアジェンダです。私の発表はどちらかというと、個人開発でChatGPTを使ったものを作って、それで実験をしてみたという内容になっております。 表題にもあるとおり、ChatGPTに文字コードのことを聞いてどん

            ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた
          • UTF-8のバリデーションとオートマトン

            UTF-8は今日の文字エンコーディングの中で最も重要なものと言って差し支えないでしょう。UTF-8の仕様はこの辺で確認できます: Unicode 15.1.0 > 3.9 UTF-8 RFC 3629 - UTF-8, a transformation format of ISO 10646 この記事では、読者はすでにUTF-8にある程度の馴染みがあるものとして、UTF-8のバリデーションの細かいところを考えます。 UTF-8のバリデーションを行うには、以下のことを確かめなければなりません: 最初の1バイトが所定の範囲にあること:ASCII (0x00-0x7F) または0xC2以上。 後続のバイト(たち)が0x80-0xBFの範囲にあること。 長すぎないこと:U+007F以下の文字はちょうど1バイトで表現されていること、U+0080以上U+07FF以下の文字はちょうど2バイトで表現されて

              UTF-8のバリデーションとオートマトン
            • 「Thunderbird 115.2.3」がリリース ~新規プロファイルは縦3分割&カード表示が既定に/クラッシュや通知の文字化けなどの問題にも対処

                「Thunderbird 115.2.3」がリリース ~新規プロファイルは縦3分割&カード表示が既定に/クラッシュや通知の文字化けなどの問題にも対処
              • The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me

                If you combine this with the Unicode table, you’ll see that English is encoded with 1 byte, Cyrillic, Latin European languages, Hebrew and Arabic need 2, and Chinese, Japanese, Korean, other Asian languages, and Emoji need 3 or 4. A few important points here: First, UTF-8 is byte-compatible with ASCII. The code points 0..127, the former ASCII, are encoded with one byte, and it’s the same exact byt

                  The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me
                • ¥を巡る不都合な真実 - モディファイド・シフトJISという化石|kzn

                  パソコンの世界で漢字を含む日本語を扱えるようにするために、処理が煩雑になるJISコードをそのまま扱うのではなく、文字コードセットの切り替え処理が不要になるシフトJISというコードが発明されました。 このコードがどのような経緯でMS-DOSなどで採用されたのかは、あまり詳しくわからないのですが、この文字コードは規格ではなくあくまで実装に過ぎなかったので、メーカー独自の判断で構わないと思われていたようです。 MULTI16 - 遂に三菱電機もパソコンを出した この文字コードが身近に使われるようになったのは、MS-DOSが日本語に対応した1983年にリリースされた「日本語MS-DOS Ver2.x」からだと思います。この段階で階層化ディレクトリもサポートされ、CP/Mから継承したコマンドオプションは”/”で始まるというルールが仇となりパスの区切り文字がUNIXなどで使われていた”/”の代わりに”

                    ¥を巡る不都合な真実 - モディファイド・シフトJISという化石|kzn
                  • GB18030-2022が来た!詳細編—内容から読み取る本質〈エリックの多言語文字散歩〉|ヒラギノフォント公式note

                    前回の概要編では、じっくりとGB18030-2022の表紙を見ながら、中国におけるGBの定義、GB18030規格改定の概要、製品への搭載義務などについて解説しました。今回は、いよいよ表紙をめくって更新された内容について詳しく解説していきます。 漢字はとにかく多いGB18030-2022の規格書の実物を見ると、まずその厚みに圧倒されるでしょう。700ページを超えるページをパラパラとめくってみてわかるのは、本文はわずか8ページ程度で、残りのほとんどは付属書である長い文字コード表ばかりです。 文字コードの国際標準としてISO/IEC 10646があります。そして業界規格のUnicodeとおおむね互換しています。一方でGB18030は中国独自の規格です。GB18030は策定当初から国際標準の存在を意識して設計され、膨大な量のコードポイント(符号位置)と、各文字コードを相互変換するための対応表を用意

                      GB18030-2022が来た!詳細編—内容から読み取る本質〈エリックの多言語文字散歩〉|ヒラギノフォント公式note
                    • PHPカンファレンスの過去14+3回の登壇を振り返る - Qiita

                      PHP Advent Calendar 2023の18日目の記事です。 PHPカンファレンスに登壇した記録を書きたいと思います。数えてみますと、2009年から昨年(2022年)までのPHPカンファレンス14回と、北海道2回、関西1回の合計17回登壇したことになります。 最初の登壇は14年前ですので、私の考えも当時からは変化していますので、そのあたりも触れながら紹介していきたいと思います。 PHP カンファレンス 2009 最初の登壇は2009年のPHPカンファレンスでした。この年はビジネスデイとテックデイに分かれていまして、ビジネスデイで登壇依頼を頂きましたので、当時温めていた「ウェブサイトを発注する際のセキュリティ」についてお話しました。 スライドの中で「脅威分析やってもあまり意味ない」みたいな物騒な意見が書いてあります。当時はそのように考えていたわけですが、これは当時のサイトがECサイ

                        PHPカンファレンスの過去14+3回の登壇を振り返る - Qiita
                      • Grapheme Clusters and Terminal Emulators

                        Copy and paste "🧑‍🌾" in your terminal emulator. How many cells forward did your cursor move? Depending on your terminal emulator, it may have moved 2, 4, 5, or 6 cells1. Yikes. This blog post describes why this happens and how terminal emulator and program authors can achieve consistent spacing for all characters. Character Grids, Historically Terminals operate on a grid of fixed size cells. Thi

                        • [Unicode]スペース以外の見えない空白文字の一覧 | 404 motivation not found

                          目次 はじめにスペースや全角スペースのような空白文字一覧参考にしたサイトはじめに スペースや全角スペース以外にもいくつか存在する目に見えない Unicode の文字の一覧です。 スペースや全角スペースのような空白文字一覧 ブラウザや環境によっては表示されない場合があると思います。 Unicode 実体 説明 description

                            [Unicode]スペース以外の見えない空白文字の一覧 | 404 motivation not found
                          • エチオピアでモチモチした文字が発見されて「X」(Twitter)でちょっと話題に/「オフチョベットしたテフをマブガッドしてリットにする様子」の元ネタもこの言語【やじうまの杜】

                              エチオピアでモチモチした文字が発見されて「X」(Twitter)でちょっと話題に/「オフチョベットしたテフをマブガッドしてリットにする様子」の元ネタもこの言語【やじうまの杜】
                            • SwiftUIで日本語テキストが不自然に改行される | DevelopersIO

                              SwiftUIのTextビューで日本語を表示する際、意図しない箇所で改行が入ることがある。改行コードを使わずに改行位置を調整する方法を紹介する。 日本語テキストが不自然に改行される SwiftUIのTextビューで日本語を表示する時、意図しない箇所で改行が入ることがある。たとえば「あなたに寄り添う究極のイノベーション」というフレーズが、「あなたに寄り添う\n究極のイノベーシ\nョン」と不自然に改行されることがある。 例図では以下のように表示されている。 あなたに寄り添う 究極のイノベーシ ョン あなたの未来を形 作る最上のガジェ ット 英語圏で作られたWebサイトでの日本語の改行問題 英語圏で作られた後に日本語に翻訳されたサイトの例では、「今すぐダウンロード」というフレーズが「今すぐダウンロー\nド」と表示されることがあった。日本人の感覚からするとこれには強い違和感がある。他にも禁則処理が

                                SwiftUIで日本語テキストが不自然に改行される | DevelopersIO
                              • GB 18030-2022が来た!概要編—表紙から読み取る情報〈エリックの多言語文字散歩〉|ヒラギノフォント公式note

                                時は2023年、夏。中国の文字界隈でもっともホットな話題は、新しいGB 18030-2022の施行でしょう。 みなさんも、いよいよGB 18030-2022が2023年8月1日より施行されるという話を聞いたことがあるかもしれませんが、実際にどのような内容で私たちにどのような影響があるか、ご存知ない方もいらっしゃることでしょう。 そこで、GB 18030-2022について概要編と詳細編の2回に分けて解説していきます。 今回はGB 18030-2022の概要編として、中国から入手した本物のGB 18030-2022の規格書の表紙をじっくり見るところから、解説を始めたいと思います。 GB 18030-2022の表紙 そもそもGBってなに?GB 18030の話題を始める前に、そもそも「GB」とはなにかについて簡単に解説しておきましょう。GBとはズバリ、中国の国家標準[※1]のことです。日本の規格で

                                  GB 18030-2022が来た!概要編—表紙から読み取る情報〈エリックの多言語文字散歩〉|ヒラギノフォント公式note
                                • 変体仮名を使える「Android 15 Beta 2」が公開 ~「プライベートスペース」なども追加/今秋にも正式リリース

                                    変体仮名を使える「Android 15 Beta 2」が公開 ~「プライベートスペース」なども追加/今秋にも正式リリース
                                  • Decoding UTF8 with Parallel Extract

                                    Decoding UTF8 with Parallel Extract 23 Mar 2024 As a side-quest I recently decided to write a branchless utf8 decoder utilizing the pext or "parallel extract" instruction. It's compliant with rfc-3629, meaning that it doesn't just naively decode the code-point but also checks for overlong encoding, surrogate pairs and such. Compiled with gcc -O3 -march=x86-64-v3 the entire decoder results in just

                                    • List of Emoji

                                      Emojis are small picture-like symbols that can add context and emotion to written text. They are about the same size as a letter that can be typed, but unlike alphanumeric characters, they are usually depicted in color, and their meaning is often open to interpretation. The word emoji comes from combining the Japanese words for picture and character. The first emoji characters, introduced in the 9

                                      • GoでBOMを考慮したio.Readerを扱う - Qiita

                                        GoでBOM付きのUTF-8ファイルを扱う必要があったので、その時に知ったテクニックを共有したいと思います。 具体的に言えば、Excelでファイル形式を「CSV UTF-8 (コンマ区切り) (.csv)」として保存した際のCSVファイルを扱った時の話です。 (Excelや少し前のメモ帳などでUTF-8としてファイルを保存すると、BOM付きのUTF-8ファイルになります。1) BOM(Byte Order Mark)とは BOM(Byte Order Mark)というのは、Unicode系の符号化方式(UTF-8やUTF-16など)の場合に、どの符号化方式であるかが分かるように先頭に付ける数バイトのデータのことです。 より詳しい説明についてはWikipediaのバイト順マークのページなどに譲ります。 このBOMというのはテキストデータの一部ではないので、プログラムで処理する時には、BOMと

                                          GoでBOMを考慮したio.Readerを扱う - Qiita
                                        • 右から左に書かれる文章、前後関係でカタチが変わる文字。『FORSPOKEN』のアラビア語ローカライズで行われた9個の工夫【CEDEC2023】

                                          国内最大規模のゲーム業界カンファレンス「CEDEC2023」が、2023年8月23日(水)から8月25日(金)までの日程で開催されました。最終日となる8月25日には、スクウェア・エニックス プログラマー 中原 勇氏が登壇し、「FORSPOKENでのアラビア語対応について」と題した講演を行いました。 右から左に書かれる文章や、隣接する文字によっては表示が変わる字形など、数多くの課題に対応する具体的な手法が解説された本講演をレポートします。 TEXT / セレナーデ☆ゆうき EDIT / 神山 大輝

                                            右から左に書かれる文章、前後関係でカタチが変わる文字。『FORSPOKEN』のアラビア語ローカライズで行われた9個の工夫【CEDEC2023】
                                          • Intl.MessageFormat Introduction | ドクセル

                                            Web Developer working on @kintone at @cybozu. Loves JavaScript and Curry! 🍛 Old slides: https://www.slideshare.net/teppeis/presentations

                                              Intl.MessageFormat Introduction | ドクセル
                                            • Macで作成したZIPファイルの文字化け対処方法

                                              なぜWindowsで開くと文字化けするのか ? Macで圧縮されたファイル・フォルダをWindows上で解凍して開くと、ファイル名が化けてしまいます。また、「__MACOSX」というフォルダが作成されます。 ファイル名が文字化けする原因 MacでZIPファイルを作成するときに使用される文字コードが「UTF-8」でエンコードされるのに対して、Windowsでは「Shift_JIS」でエンコードされています。それぞれの文字コードによる圧縮時のエンコードの違いが、文字化けの原因となっています。 「__MACOSX」とは? 「__MACOSX」は、MacのOSが使用する「リソースフォーク」が保存されたフォルダです。「リソースフォーク」は、ファイルの各種情報、コメントなどが含まれたファイルのデータのことです。Mac以外の他のOSでは必要がないフォルダとなります。 Mac用の圧縮ソフトを使用する Ma

                                                Macで作成したZIPファイルの文字化け対処方法
                                              • コマンドラインで URL デコードする一例 - ようへいの日々精進XP

                                                この記事は YAMAP エンジニア Advent Calendar 2020 の九日目になる予定です。 qiita.com tl;dr URL エンコードされた文字列を、コマンドラインでシュッとデコードしたかったので調べたのでメモ。 URL エンコードされる文字列は以下の通り。 負けない事 投げ出さない事 逃げ出さない事 これを URL エンコードすると、以下のような文字列となる。 %E8%B2%A0%E3%81%91%E3%81%AA%E3%81%84%E4%BA%8B%0D%0A%E6%8A%95%E3%81%92%E5%87%BA%E3%81%95%E3%81%AA%E3%81%84%E4%BA%8B%0D%0A%E9%80%83%E3%81%92%E5%87%BA%E3%81%95%E3%81%AA%E3%81%84%E4%BA%8B 本記事で利用する環境は以下の通り。 root@

                                                  コマンドラインで URL デコードする一例 - ようへいの日々精進XP