文字エンコーディングの人気記事 52件

1 - 40 件 / 52件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

文字エンコーディングの検索結果1 - 40 件 / 52件

文字エンコーディングに関するエントリは52件あります。文字コード、 encoding、 unicode などが関連タグです。人気エントリには『文字コード | 衆議院議員河野太郎公式サイト』などがあります。

文字コード | 衆議院議員河野太郎公式サイト
- 1077 users
- www.taro.org
- 政治と経済
- 2023/05/10
2023.05.10 官報に使われる「官報文字」というものがあります。そこには渡辺さんの「辺」の異体字が１４０文字も登録されています。日本語の常用漢字には２１３６文字ありますが、そこには邉や邊などは入っていません。そこでＪＩＳの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも５５，２７０文字もあります。全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を２０１１年に策定し、それにあわせたフォントを作成し、無償で提供しています。この「文字情報基盤」（ＭＪ）には、５８，８６２文字が含まれています。しかし、このＭＪを全庁的に採用している自治体は、川口
- 文字コード
- フォント
- 行政
- あとで読む
- 文字
- システム
- IT
- font
- 日本語
- unicode
文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！｜ハイクラス転職・求人情報サイト AMBI（アンビ）
- 702 users
- en-ambi.com
- テクノロジー
- 2020/04/28
文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基本的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。文字コードとは？ Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み
- 文字コード
- unicode
- あとで読む
- encoding
- 文字
- エンジニア
- 入門
- web
- コード
- ASCII
文字化けでよく出てくる漢字の意味を調べて愛でる
- 613 users
- dailyportalz.jp
- テクノロジー
- 2020/03/26
1992年三重生まれ、会社員。ゆるくまじめに過ごしています。ものすごく暇なときにへんな曲とへんなゲームを作ります。前の記事：無糖の飲みものに砂糖を入れる＞個人サイトほりげーインターネットは文字化けと共にあるインターネットが普及して20年をゆうに超える。メール、添付ファイル、Webブラウザなど、様々な場面で我々は文字化けに苦しめられてきたし、今でもたまに苦しめられる。「文字が化ける」と書いて文字化け。そこにはお化けみたいで悪いイメージがあるが、それも仕方がない。読めないのだから。必要な情報が読めないのはシンプルに悪いことだ。 DPZの記事を無理やり文字化けさせてみると、こうなる。でも、一方的に文字化けを避けていては、文字化けと仲良くなれない。文字が化けた先にあるのは文字だ。化ける前の文字ばかり愛していては、化けた後の文字がかわいそうではないか。我々は、化けた後の文字をもっと愛す
沈むH.265、グーグル動画仕様AV1が主役へ　アップル採用で加速か
- 581 users
- xtech.nikkei.com
- テクノロジー
- 2019/09/05
動画の放送や配信の中核技術である映像符号化方式（動画コーデック）。国際機関で標準化された“正統”な現行規格が、主役から引きずり降ろされる異例の展開になっている。米グーグル（Google）や米アップル（Apple）、米アマゾン・ドット・コム（Amazon.com）などが推す“異端”の新規格が、「事実上の標準（デファクトスタンダード）」として主役に立つ。世界で急伸する動画配信サービスで、米国勢の台頭を勢いづかせる。新規格とは、米国の非営利団体アライアンス・フォー・オープン・メディア（AOM）が2018年に公開した「AOMedia Video 1（AV1）」である（図1）。グーグルやアップルなど多くの大手IT企業が参画する。最大の特徴は、特許料を無料にする「ロイヤルティーフリー」を掲げることだ。映像関連事業を手掛ける費用を大きく削減できる。現行の標準規格である「H.265/HEVC（Hig
- codec
- av1
- あとで読む
- 動画
- 規格
- 特許
- H.265
- 技術
- 企業
- IT

「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
- 569 users
- qiita.com/heeroo_ymsw
- テクノロジー
- 2021/04/03
物語の始まり事の発端は納品後。先方からメッセージが届きました。クライアント様「このファイルの文字コードがShift_JISになっておりますので、UTF-8で再納品をお願いいたします。」拙者（あれ…UTF-8にしてたと思うんだけどな）拙者「確認いたします。」文字コードを確認する本案件はいわゆる更新案件で、今回の納品時に言われていたのは、「文字コードがUTF-8ではないものは変換して納品してくれ」ということ。そして、ご指摘いただいたのは、今回の更新案件で中身はいじらなかったJavaScriptファイル。本来ならば納品するファイルではないのですが、文字コード変換という要件があったため、納品ファイルとして加えられたものでした。一括で文字コードを変えたので作業漏れかなぁと思っていました。ファイルの中身は記事用にかなり適当につくったものですが、まあだいたいこんな感じです。
- 文字コード
- あとで読む
- programming
- プログラミング
- 技術
- IT
- Qiita
- IT業界
- ascii
- 仕事
UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita
- 550 users
- qiita.com/ykami
- テクノロジー
- 2022/02/01
竈門禰󠄀豆子をMySQL5.6のテーブルにinsertしようとすると正しく格納できず、竈門禰となってしまうケースがあるという話を聞き、調べてみました。実践まずは試しにやってみます。 mysql> show create table verification\G *************************** 1. row *************************** Table: verification Create Table: CREATE TABLE `verification` ( `name` varchar(100) COLLATE utf8_bin DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin 1 row in set (0.01 sec) mysql> inse
- 文字コード
- mysql
- データベース
- あとで読む
- 開発
- UTF-8
- プログラミング
- UTF8
- db
- Qiita
「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita
- 497 users
- qiita.com/shirokuma89dev
- テクノロジー
- 2023/12/05
TL;DR Shift_JISにしただけでコンパイラが通らなくなる恐ろしい事件とその回避法について。 \ (¥)のASCIIコードは0x5c 表、能は良くない UTF-8は神 2023/12/06追記誤りがあったので訂正します。こんな読まれると思ってなかったので正直ちょっとびっくりしていますが、いろいろコメントありがとうございました。（ツイート等全て拝見しました。） Shift_JISが悪いわけではない（デフォルトのエンコーディング設定の問題）→追記しました UTF-8にはUTF-FSSという仕様でこの問題が回避されている→マジでタメになる知識ありがとうございます OSによってデフォルトのエンコーディング設定が異なるせいで、デフォルト環境での動作がOSにより異なる→なるほど？（調査中） CRLFとLF問題では→なるほど？（調査中）そんな問題何を今更→UTF-8が出てから生まれたからです
文字列を反転させたい｜nona
- 427 users
- note.com/ttuusskk
- テクノロジー
- 2021/05/02
こんにちは。徒然なるままにTweetを眺めていたら、Tanakaさんがこのようなことを呟いていました。そういやRustのStringにreverseメソッドないなと思ったけど、まあよく考えたらUTF-8で文字逆転させるとか地獄のような話になるしそもそも長さが変わるケースとかあったりしそうで怖いわな･･･(´･_･`) — Hideyuki Tanaka (@tanakh) May 1, 2021 背景等はよくわからないですが、文字列の反転というのは確かに難しい問題ですし、どう難しいのかというのを、ちょっと真面目に考えて解説してみました。というノートです。本文での表記についてこれから文字とそのバイト表現の話をしていきます。文字のエンコードの方式で同じ数値でも色々意味が分かれてしまいますので、本文では以下のように表記することにします。 Unicodeコードポイント（以下、単にコードポイント
Unicode 版美乳テーブルを探せ
- 396 users
- qlosawa.sakura.ne.jp
- テクノロジー
- 2021/04/03
美乳テーブルとは「美乳テーブル」という物がある。「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。各文字エンコーディングの事情但し、これは EUC-JP での話。一応、文章の先頭付近に日本語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎
- 文字コード
- unicode
- あとで読む
- programming
- encoding
- 文字
- 文章
- データ
- 資料
- まとめ
「H.265/HEVC」と同じ画質でファイルサイズを50％削減できる次世代動画圧縮規格「H.266/VVC」が登場
- 286 users
- gigazine.net
- テクノロジー
- 2020/07/07
Fraunhofer Heinrich Hertz Instituteが、Windows/macOS/Android/iOSといった各種OSでデフォルトでサポートされている動画圧縮規格「H.265/HEVC」の次世代規格となる「H.266/VVC」を発表しました。「H.266/VVC」はデータの圧縮効率を改善し、約50％ビットレートを削減することが可能となります。 Fraunhofer Heinrich Hertz Institute HHI https://newsletter.fraunhofer.de/-viewonline2/17386/465/11/14SHcBTt/V44RELLZBp/1 記事作成時点で、インターネットトラフィックの80％を占めているのが圧縮されたムービーデータです。Fraunhofer Heinrich Hertz Instituteが発表した新しい動画圧縮
- コーデック
- あとで読む
- 動画
- アルゴリズム
- codec
- 圧縮
- WebRTC
- データ
- 情報通信
- 技術
Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ
- 263 users
- methane.hatenablog.jp
- テクノロジー
- 2022/04/26
Pythonがファイルを開くときなどに使われるエンコーディングはロケール（WindowsではANSIコードページ）依存でした。 Unixの世界ではどんどんUTF-8ロケールが一般的になっている一方、WindowsのANSIコードページはなかなかUTF-8になりません。そのために、Unixユーザーが open(filepath) のようにエンコーディングを指定しないままUTF-8を仮定するコードを気軽に書いてしまって、Windowsユーザーがエラーで困るといった問題が発生します。また、Windowsでもメモ帳（Notepad.exe）やVSCodeはすでにUTF-8をデフォルトのエンコーディングで使用しています。ANSIコードページがUTF-8になるのを待っていたらどんどん周りの環境から置いていかれ、レガシー化してしまいます。 Pythonがデフォルトで利用するエンコーディングをWind
grep の「バイナリファイル (標準入力) に一致しました」が出る条件を調べていたらそれは長い旅路の始まりだった。
- 234 users
- zenn.dev/mattn
- テクノロジー
- 2020/10/06
はじめに昨今では1行につき、1つの JSON を出力する様なログファイル形式も珍しくはありません。 grep しやすいデータベース化しやすいこれらの理由で各所で多く使われています。僕も仕事で普通に使っているのですが、ある日突然そのログファイルを集計するスクリプトで以下の様なエラーが出始めました。
- linux
- grep
- あとで読む
- systemd
- ログ
- binary
- logrotate
- logging
- 開発
- log
UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside
- 166 users
- developers.bookwalker.jp
- テクノロジー
- 2022/09/02
こんにちは。メディアサービス開発部Webアプリケーション開発課のフサギコ(髙﨑)です。部署名が変わりました。 Ruby on Railsによるバックエンドの実装運用と、AWSによるサービスインフラの設計構築を中心とした、いわゆるテックリードのような立ち位置で働いています。本記事では、UTF-8環境下で動くRailsがShift_JISな外部APIと通信する方法についてお話しします。前提知識文字コード UTF-8環境下で動くRailsがShift_JISな外部システムと通信するには Shift_JISな外部APIに対してPOSTリクエストするべた書きとしては Railsにおいては Shift_JISで使用できない文字が混ざっていないかをバリデーションする Shift_JISな外部システムからPOSTリクエストを受けるおまけ: ユーザのブラウザにShift_JISでPOSTさせる
- rails
- 文字コード
- あとで読む
- unicode
- ruby
- プログラミング
- 通信
- API
- programming
A Field Guide to Japanese Mojibake
- 157 users
- www.dampfkraft.com
- テクノロジー
- 2021/11/01
When you open a document with an encoding different than the one it was created with, it's not possible to display the original text, and instead a garbled mess of corrupted characters are printed out. These are called "mojibake" in Japanese, and the word has also been borrowed into English. While mojibake aren't readable by humans, it turns out that different kinds of mojibake have different visu
View Source
- 144 users
- neatnik.net
- テクノロジー
- 2021/08/11
· About · Changelog URL: Fetched 1.23 KB in 0.346985 seconds Don’t wrap lines · Tidy markup <!doctype html> <html> <head> <title>Example Domain</title> <meta charset="utf-8" /> <meta http-equiv="Content-type" content="text/html; charset=utf-8" /> <meta name="viewport" content="width=device-width, initial-scale=1" /> <style type="text/css"> body { background-color: #f0f0f2; margin: 0; padding: 0; f
Unicodeコンソーシアムが提供する“最後の手段”フォント「Last Resort Font」／フォールバック指定しておけばフォントに含まれていないグリフを突き止められる【レビュー】
- 136 users
- forest.watch.impress.co.jp
- テクノロジー
- 2021/01/22
- font
- unicode
- フォント
- 文字
- あとで読む
- *Web
- git
- あとでよむ
漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」｜TechRacho by BPS株式会社
- 134 users
- techracho.bpsinc.jp
- テクノロジー
- 2020/10/07
きっかけ以下のツイートで「埼玉埼⽟問題」と康煕部首を知りました。「埼玉」と「埼⽟」の話。unicodedata.normalize('NFKC', '「埼玉」と「埼⽟」') でいけそう https://t.co/kte0sxDvZT — Haruhiko Okumura (@h_okumura) July 11, 2020 康煕部首とは⼀⼁⼂⼃⼄⼅⼆⼇⼈⼉⼊⼋⼌⼍⼎⼏⼐⼑⼒⼓⼔⼕⼖⼗⼘⼙⼚⼛⼜⼝⼞⼟⼠⼡⼢⼣⼤⼥⼦⼧⼨⼩⼪⼫⼬⼭⼮⼯⼰⼱⼲⼳⼴⼵⼶⼷⼸⼹⼺⼻⼼⼽⼾⼿⽀⽁⽂⽃⽄⽅⽆⽇⽈⽉⽊⽋⽌⽍⽎⽏⽐⽑⽒⽓⽔⽕⽖⽗⽘⽙⽚⽛⽜⽝⽞⽟⽠⽡⽢⽣⽤⽥⽦⽧⽨⽩⽪⽫⽬⽭⽮⽯⽰⽱⽲⽳⽴⽵⽶⽷⽸⽹⽺⽻⽼⽽⽾⽿⾀⾁⾂⾃⾄⾅⾆⾇⾈⾉⾊⾋⾌⾍⾎⾏⾐⾑⾒⾓⾔⾕⾖⾗⾘⾙⾚⾛⾜⾝⾞⾟⾠⾡⾢⾣⾤⾥⾦⾧⾨⾩⾪⾫⾬⾭⾮⾯⾰⾱⾲⾳⾴⾵⾶⾷⾸⾹⾺⾻⾼⾽⾾⾿⿀⿁⿂⿃⿄⿅⿆⿇⿈⿉⿊⿋⿌⿍⿎⿏⿐⿑⿒⿓⿔⿕ KangXi Radica
- 文字コード
- unicode
- 漢字
- あとで読む
- 日本語
- encoding
- bug
- 文字
- slide
Unicodeに含まれる謎の記号「⍼」の起源を追ったレポートが公開中
- 125 users
- gigazine.net
- テクノロジー
- 2022/04/14
大規模文字セットのUnicodeは世界中のあらゆる文字を収録することを目指して策定されており、「溶解する顔」や「妊娠中の人」といった個性的な絵文字も数多く登録されています。そんなUnicodeに登録されている正体不明の記号「⍼」について、ブリティッシュコロンビア大学でソフトウェアについて学んでいるジョナサン・チャン氏がまとめています。 U+237C ⍼ RIGHT ANGLE WITH DOWNWARDS ZIGZAG ARROW · Jonathan Chan https://ionathan.ch/2022/04/09/angzarr.html 「⍼」は数学記号用のフォントなどに含まれている記号です。例えば、数式・化学式用フォント「Cambria Math」に含まれる「⍼」を拡大してみるとこんな感じ。カギカッコのような直角と稲妻形の矢印が組み合わさった日常生活では全く目にすることのない
- フォント
- unicode
- 文字コード
- 文字
- あとで読む
- GIGAZINE
- font
エンコーダーを支えるffmpeg活用 - DMM inside
- 102 users
- inside.dmm.com
- テクノロジー
- 2020/03/24
｜DMM inside
- ffmpeg
- エンコード
- あとで読む
- DMM
- 動画編集
- 動画配信
- movie
- tutorial
Re: Goでcsvを操作するための基本的な知識
- 100 users
- zenn.dev/mattn
- テクノロジー
- 2022/04/22
はじめに Println で標準出力してみると以下のように表示されるかと思います。（SHIFT-JIS形式なのでmacでみると文字化けしていますがひとまず置いておきます）日本では一般的に CSV ファイルは　Shift_JIS でエンコードされている事が多いです。Go 言語は内部のエンコーディングが UTF-8 なので、Shift_JIS な CSV ファイルを読み込むと文字化けします。そこで便利なのがエンコーディングの変換は golang.org/x/text/transform が便利です。このパッケージと、golang.org/x/text/encoding/japanese を使う事で、os.Open で開いたファイルがさも初めから UTF-8 であるかの様に扱う事ができます。どんな風に扱うか japanese パッケージには japanese.ShiftJIS や jap
- golang
- csv
- go
- encoding
- あとで読む
- memory
- コーディング
- programming
UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま
- 82 users
- kirikiriyamama.hatenablog.com
- テクノロジー
- 2020/08/05
Shift_JIS の CSV で連携する外部サービスがあり、DB では UTF-8 でテキストを持っていたため文字コードを変換する必要が生じた。ところが UTF-8 に存在する多くの文字は Shift_JIS に対応がないため変換することができない1。そこで、事前に NFKC 形式で Unicode 正規化することで変換可能な文字を増やすことを試みた。まずは Unicode 正規化の前提として、Unicode の正準等価と互換等価について説明する。以降の U+16進数という表記は Unicode のコードポイント (文字に ID のようなものが割り当てられている) を示す。また、コードポイントに対応する文字の詳細は https://codepoints.net/ といったサイトで確認することができる。正準等価例として、ひらがなの「が」について考える。Unicode では「
(プログラマのための)いまさら聞けない標準規格の話第2回文字コード実践編 | オブジェクトの広場
- 79 users
- www.ogis-ri.co.jp
- テクノロジー
- 2021/08/19
プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第2回は文字コードの実践編です。 0. 前回の復習と今回の概要システム開発で必要となる標準規格の話、前回は文字コードの概要について説明しました。ざっくりまとめるとこんな内容でした。「符号化文字集合」で文字集合と符号位置を定義し、「符号化方式」でバイト表現に変換していること。日本では、しばらく文字集合 JIS X 0208 を、ISO-2022-JP、EUC-JP、Shift_JIS の符号化方式で利用してきたこと。近年は、世界中の文字が扱える Unicode が主流となっており、UTF-8、UTF-16 などの符号化方式があること。常用漢字、人名用漢字に限っても、字体を正確に扱おうとすると、JIS X 0208 の範囲では不十分であり、JIS X 0213、Unicode、サロゲートペ
- 文字コード
- java
- あとで読む
- Encoding
- Unicode
- コード
- 漢字
- エンジニア
Goで高速JSONライブラリを作るためにしたこと | メルカリエンジニアリング
- 73 users
- engineering.mercari.com
- テクノロジー
- 2020/09/09
他にもまだまだあると思いますが、自分が見たことがあるのは上記になります。それぞれ見比べてみると、やはりエンコード・デコード両方に対応しているライブラリが人気があるようです。この中で特に人気のある easyjson , gojay , json-iterator/go でベンチマークをとってみた結果、パフォーマンスの良い順に並べると次のようになりました。 gojay > json-iterator/go > easyjson > encoding/json 設計方針の違いがそのまま速度に現れているようにも見えますが、理論上最速にできるはずの easyjson が遅かったりと実装の良し悪しも影響しているようです。一番遅いのは encoding/json です。そもそも encoding/json が遅いから新しい JSONライブラリを作ろうとしているはずなので、一番遅いのは仕方ないのです
- go
- JSON
- golang
- あとで読む
- encoding
- コード
- ライブラリ
- js
MySQL 8.0のクライアントでMySQL 5.7のサーバーに接続するとcharsetが設定されないかもしれない - かみぽわーる
- 73 users
- blog.kamipo.net
- テクノロジー
- 2021/02/21
mysql_options(mysql, MYSQL_SET_CHARSET_NAME, cs_name) だけして mysql_real_connect(mysql, ...) した後SHOW VARIABLESしてみたら接続のcharsetが設定済みの挙動をするんやけどmysql_real_connectからの一連のコード読んでもどこでそれが起きるのかわからん誰かたすけて🥲https://t.co/ZScoD3tIQ8— Ryuta Kamizono (@kamipo) February 20, 2021 MySQLのハンドシェイクパケットにcollation_idを1バイトだけ入れられるところがあって、charset name のデフォルトの collation_id を送っています。クライアントとサーバーのバージョンが違うとデフォルトのcollation_idが違うことがあって
- mysql
- encoding
- あとで読む
- DB
`<meta charset="UTF-8">` を書く必要性があるケースとデメリット
- 73 users
- blog.w0s.jp
- テクノロジー
- 2021/02/09
HTML 文書内に <meta charset="UTF-8"> を書いていますか? 書いているとしたら、その必要性を問われた時に理由を説明できますか? 実は私も勘違いしていた部分があり[1]、改めてまとめてみました。 <meta> による文字エンコーディング指定の歴史 Content-Type ヘッダーと <meta> の関係性と優先度 <meta> が必要なケース <meta> で文字エンコーディングを指定するデメリット <meta> による文字エンコーディング指定の歴史 § まず基本的なおさらいをします。<meta charset="UTF-8"> は HTML5 で登場した新しい記法で、 HTML4 以前は <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> などという長くて覚えにくい書き方をしてい
文字エンコーディングの検出方法
- 72 users
- heartbeats.jp
- テクノロジー
- 2021/05/13
こんにちは、技術開発室の滝澤です。最近（2021年春）、Go言語でメールパーサーを書く機会があり、備忘録的な意味でも知見をまとめておこうかなと思い、この記事を書きました。メールパーサーを書いていて考慮しないといけないことの一つは、文字エンコーディング（charset）が正しく指定されていないメールがときどきあることです。 MIME（Multipurpose Internet Mail Extensions）関連のインターネット標準であるRFCが公開された1990年代や世間一般にインターネットメールが利用され始めた2000年代初期ならともかくとして、2021年にもなってまだその点を考慮しないといけないのはなかなかつらいことです。そのようなメールを取り扱うときには、文字エンコーディングの検出を行う必要があります。本記事ではその文字エンコーディングの検出方法について書いてみました。なお、
Node.js Stream の初歩 - 30歳からのプログラミング
- 67 users
- numb86-tech.hatenablog.com
- テクノロジー
- 2022/07/09
Node.js には Stream というインターフェイスが用意されており、これを使うことでデータをストリーミングできる。 Stream を使うことで、データの全てをメモリに保持するのではなく、少しずつ順番にデータを処理していくことが可能になる。この記事では、Stream の基本的な使い方について説明していく。 WHATWG で定義している Stream はまた別の概念なので、注意する。この記事で扱っている Stream は、それとは別に以前から Node.js に実装されている Stream である。以下の環境で動作確認している。 Node.js のバージョン 16.15.1 使っている npm ライブラリ @types/node@16.11.43 ts-node-dev@2.0.0 typescript@4.7.4 環境構築まず最初に、手元で実際にコードを動かすための環境を構築す
- node.js
- あとで読む
- js
- techfeed
Androidの「絵文字」がOS依存→対応アプリ更新で利用可能に、最新の絵文字もすぐにサポート
- 61 users
- k-tai.watch.impress.co.jp
- テクノロジー
- 2022/04/13
- Android
- OS
- あとで読む
- Font
UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ
- 59 users
- blog.unasuke.com
- テクノロジー
- 2020/08/17
先日、きりきりやままさんがこのような記事を公開していました UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやまそれでは実際にそのような文字列変換を行うにはどうすればよいのか、またコメントでiconvについて触れられていたので、この記事ではUnicodeにおけるNFKC正規化をどうやって行うのか試してみることにしました。追記 GoとPythonとJavaScriptでの例を足しました。またいくつかのscriptにおいてブラウザ上で実行できるURLを添付しました。 (2020-08-17 16:22) “Go” に表記を統一しました。 (2020-08-17 17:00) Ruby 僕にとって文字列処理といえばRubyなので、まずは以下のようなscriptを書いてみました。 puts "\u304c" puts "String#encode('Shift_
Windowsでちょっと文字コードを調べたいときの方法 (1/2)
- 57 users
- ascii.jp
- テクノロジー
- 2021/11/21
Windows PowerShellを使えば、文字コードを簡単に調べることができる。パターンさえ覚えれば、プログラミングの知識は不要で、アプリを別途インストールする必要もないコンピュータを使っていると、文字コードを調べなければならないことがある。昔なら文字コードは8bitしかなかったので、ASCIIコード表からすぐだったが、現在は多数の言語の文字を収録したUnicode（ユニコード）が一般的なので、一覧表から調べることは難しい。文字1つぐらいならインターネット検索でもなんとかなるが、2つ、3つとなると面倒だ。かといって、文字コードを調べるソフトウェアを探してインストールするのもまた面倒。こういうときには、Windowsの標準機能を使うといい。 Windowsには、「文字コード表」というプログラムもあるが、一覧から文字を探して、そのコードを表示することはできるが、文字そのものから直接コー
ミャンマー語フォント『Zawgyi-one』の問題に直面した話 - GMO Research & AI Tech Blog
- 46 users
- gmor-sys.com
- テクノロジー
- 2020/10/23
システム部のはたです。 GMOリサーチには2年ぐらい前に入社して、主にシステム開発をやっています。趣味は音楽鑑賞と旅行とキャンプで、焚火を見ながらお酒を飲んでのんびり過ごすのにハマってます。今回は、ミャンマー語フォントの問題についてお話をしたいと思います。 GMOリサーチでは、国内だけではなく、海外ビジネスの展開にも力を入れており、2019年にはミャンマーへ進出し、リサーチサービスの展開を行ってきました。そんな中、ミャンマー語のWebアンケートサイトを作ることになったのですが、ある問題に直面しました。それは「ミャンマー語のWebサイトの文字化け問題」です。ということで、早速どんな事象が発生したのかご紹介していきます。 ◆　ミャンマー進出の背景まず、ミャンマー進出の背景から簡単にご説明させていただきます。弊社では生活者の方々の声を企業に届けること、そしてそのデータを企業のマーケテ
圧縮効率のよいカラムナフォーマット〜 Yosegi や ORC のエンコード方式調査
- 45 users
- techblog.yahoo.co.jp
- テクノロジー
- 2019/09/24
初めまして、2019年8月にヤフーのデータプラットフォームチームのインターンシップに参加した山添です。今回はインターンで検証を行ったカラムナフォーマットにおけるエンコーディング方式について紹介します。本ブログでは、特に数値型のエンコーディング方式について、データ圧縮率への効用を確認します。カラムナフォーマットとは昨今のデータ社会では、ログデータや購買データ、位置情報データなどさまざまなデータがものすごいスピードで生み出されています。企業ではそのような大規模なデータを蓄えておく必要があります。私たち学生の間で最も親しみのあるファイルフォーマットは、JSON や CSV などのテキストフォーマットだと思います。これらのフォーマットは、データ保存時にスキーマを必要としない、人間からの可視性が高いなどの利点がありますが、データの圧縮効率が低いことや、処理性能の低さなどのデメリットもあります。
Windows と Unicode とボク
- 44 users
- zenn.dev/zetamatta
- テクノロジー
- 2021/02/07
「今まで Shift-JIS しか使えなかった Windows で UTF8 が使えるようになりました！」素人だけでなく、Windows についてろくに知らないLinuxかぶれのプログラマまでに知ったふうなことを言っています。別に Unicode の委員会とも縁があるわけではなく、単に UNIX と Windows 、ちょっとずつだけかじっただけの、たまたま独自シェル用に ReadLine を作ってみただけに過ぎない１プログラマのワタクシが世間の Unicode の認識にグチります。そんな怪文書、はーじまーるよー
Dive into Encoding
- 37 users
- speakerdeck.com/ima1zumi
- テクノロジー
- 2021/09/11
ima1zumi ESM, inc. Ruby on Rails engineer irb, reline, rurema contributor Learning about character codes out of curiosity 2 [1] 1. Japanese Ruby Reference Manual: https://docs.ruby- lang.org/ja/latest/doc/index.html Reason for talking The bug fix in reline Bug Fix※ ※Some terminals will not display correctly. 😢 Because ZWJ(U+200D) is sometimes not supported. 1. https://github.com/ruby/reline/pull/
[アップデート] ALB および CLB に HTTP Desync 緩和モードが機能追加されました | DevelopersIO
- 37 users
- dev.classmethod.jp
- テクノロジー
- 2020/08/18
本日のアップデートで ALB および CLB が HTTP Desync 緩和モードをサポートするようになりました。 Application and Classic Load Balancers are adding defense in depth with the introduction of Desync Mitigation Mode 何がうれしいのか HTTP Desync 攻撃とはこのアップデートの何が嬉しいのかを理解するには、まず HTTP Desync 攻撃について知る必要があります。近年では Web アプリケーションでは CDN やプロキシをフロントエンドに配置し、バックエンドのサーバーにリクエストを転送するような構成を一般的にとられているかと思います。まず大前提として HTTP Desync 攻撃は、このようなフロントエンド、バックエンド構成において成り立ちます
- セキュリティ
- aws
- security
- http
- あとで読む
- Amazon
Python 3.8 の概要 (その3) - Pickle protocol 5 with out-of-band data - atsuoishimoto's diary
- 31 users
- atsuoishimoto.hatenablog.com
- テクノロジー
- 2019/09/08
Pythonでは、複雑なデータの交換や保管する場合、よく Pickleモジュールが使われます。Pickleはデータを外部に出力可能な形式に変換してファイルに変換したり、サーバと通信して送信したりします。 Pythonのconcurrent.futures や multiprocessing を使って並列処理を行う場合も、プロセス間のデータ交換に Pickle が使われています。 PEP-574 Pickle protocol 5 with out-of-band data Pickleは汎用的なデータフォーマットを定義していて、データを作成したハードウェアと異なるアーキテクチャのハード上で読み込んでも、ただしく元のデータを再現できるようになっています。しかし、現在ではPickleの使い方は多様化しており、そういった汎用的なデータフォーマットだけでは効率的にデータの転送や保管を行えないこ
- python
- python3
- あとで読む
- データ
- data
- tutorial
Best practices for speeding up JSON encoding and decoding in Go
- 21 users
- yalantis.com
- テクノロジー
- 2019/10/02
Custom software development Tailored software solutions and software augmentation services to meet unique business needs, drive operational efficiency, and stimulate business expansion Read more Development teams Dedicated development teams and professionals that work exclusively on your project and ensure top-notch tailored solutions Read more IT consulting Expert guidance on leveraging advanced
- json
- golang
- encoding
- performance
- data
- library
- あとで読む
Rubyでバイナリデータに対するrindex検索の挙動でハマったので調べたことメモ - すぎゃーんメモ
- 14 users
- memo.sugyan.com
- テクノロジー
- 2022/12/22
自分の手元の環境でこんなことが起きた。 $ ruby -v ruby 3.1.2p20 (2022-04-12 revision 4491bb740a) [arm64-darwin21] $ irb irb(main):001:0> "\x01\x80\x00\x00".index("\x01") => 0 irb(main):002:0> "\x01\x80\x00\x00".rindex("\x01") => 1 \x01 は 0 番目にしかないのだから、 .index でも .rindex でも 0 が返ってくるはずではないの？？先に結論きっかけ String#rindex の謎挙動もう少し深く追う Encodingと実行環境つまり再現条件は Rooの問題 Rubyのバグではないの？ 3.2 先に結論バイナリデータを扱うときには必ずEncodingを ASCII-8BIT
- ruby
- encoding
How to encode categorical features for GBDT
- 11 users
- speakerdeck.com/rsakata
- テクノロジー
- 2019/12/12
エンジニアゼロの組織から内製開発の DX をどう実現したのか / How did we achieve DX in in-house development in an organization with zero engineers?
- あとで読む
とほほの文字コード入門 - とほほのWWW入門
- 11 users
- www.tohoho-web.com
- テクノロジー
- 2021/09/12
「文字コード」とは、文字をコンピューターで表現する際にどのようなバイト表現にするかを定めるもので、下記の概念を持ちます。符号化文字集合(CCS:Coded Caracter Set)、キャラクタセットとも呼びます。文字に番号を割り振ります。主な文字集合として JIS X 0208 や Unicode があります。これらの規約では、文字に「群・面・区・点」の番号を割り振ります。群は 0～127、面・区・点は 0～255 の数値をとります。すべて使用すると 128×256×256×256＝2,147,483,648文字を表すことができますが、JIS X 0208 では1～94区×1～94点のみの 94×94＝8,836文字、Unicode では 0～16面×0～255区×0～255点の 17×256×256＝1,114,112文字の範囲で文字を定義しています。例えば文字の「あ」は、JIS
- 文字コード
- Unicode