並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 31 件 / 31件

新着順 人気順

Shift-JISの検索結果1 - 31 件 / 31件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

Shift-JISに関するエントリは31件あります。 文字コードプログラミングprogramming などが関連タグです。 人気エントリには 『「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita』などがあります。
  • 「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita

    TL;DR Shift_JISにしただけでコンパイラが通らなくなる恐ろしい事件とその回避法について。 \ (¥)のASCIIコードは0x5c 表、能は良くない UTF-8は神 2023/12/06追記 誤りがあったので訂正します。こんな読まれると思ってなかったので正直ちょっとびっくりしていますが、いろいろコメントありがとうございました。(ツイート等全て拝見しました。) Shift_JISが悪いわけではない(デフォルトのエンコーディング設定の問題)→追記しました UTF-8にはUTF-FSSという仕様でこの問題が回避されている→マジでタメになる知識ありがとうございます OSによってデフォルトのエンコーディング設定が異なるせいで、デフォルト環境での動作がOSにより異なる→なるほど?(調査中) CRLFとLF問題では→なるほど?(調査中) そんな問題何を今更→UTF-8が出てから生まれたからです

      「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita
    • 外字を使うのはやめてくれ! Unicodeへの移行を呼びかけるMicrosoftの公式ブログ記事が話題に/今や「メモ帳」でさえテキストファイルをUnicodeで保存する時代! Shift_JISはやめよう【やじうまの杜】

        外字を使うのはやめてくれ! Unicodeへの移行を呼びかけるMicrosoftの公式ブログ記事が話題に/今や「メモ帳」でさえテキストファイルをUnicodeで保存する時代! Shift_JISはやめよう【やじうまの杜】
      • UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside

        こんにちは。 メディアサービス開発部Webアプリケーション開発課のフサギコ(髙﨑)です。部署名が変わりました。 Ruby on Railsによるバックエンドの実装運用と、AWSによるサービスインフラの設計構築を中心とした、いわゆるテックリードのような立ち位置で働いています。 本記事では、UTF-8環境下で動くRailsがShift_JISな外部APIと通信する方法についてお話しします。 前提知識 文字コード UTF-8環境下で動くRailsがShift_JISな外部システムと通信するには Shift_JISな外部APIに対してPOSTリクエストする べた書きとしては Railsにおいては Shift_JISで使用できない文字が混ざっていないかをバリデーションする Shift_JISな外部システムからPOSTリクエストを受ける おまけ: ユーザのブラウザにShift_JISでPOSTさせる

          UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside
        • UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま

          Shift_JIS の CSV で連携する外部サービスがあり、DB では UTF-8 でテキストを持っていたため文字コードを変換する必要が生じた。 ところが UTF-8 に存在する多くの文字は Shift_JIS に対応がないため変換することができない1。 そこで、事前に NFKC 形式で Unicode 正規化することで変換可能な文字を増やすことを試みた。 まずは Unicode 正規化の前提として、Unicode の正準等価と互換等価について説明する。 以降の U+16進数 という表記は Unicode のコードポイント (文字に ID のようなものが割り当てられている) を示す。 また、コードポイントに対応する文字の詳細は https://codepoints.net/ といったサイトで確認することができる。 正準等価 例として、ひらがなの「が」について考える。Unicode では「

            UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま
          • キャラ名に「ソ」をいれるとバグる! 古参開発者「うっ……頭の中で何かが……」/「ドカポンキングダム コネクト」で起きたShift_JIS文字コードの「ダメ文字」問題って?【やじうまの杜】

              キャラ名に「ソ」をいれるとバグる! 古参開発者「うっ……頭の中で何かが……」/「ドカポンキングダム コネクト」で起きたShift_JIS文字コードの「ダメ文字」問題って?【やじうまの杜】
            • UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ

              先日、きりきりやままさんがこのような記事を公開していました UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま それでは実際にそのような文字列変換を行うにはどうすればよいのか、またコメントでiconvについて触れられていたので、この記事ではUnicodeにおけるNFKC正規化をどうやって行うのか試してみることにしました。 追記 GoとPythonとJavaScriptでの例を足しました。またいくつかのscriptにおいてブラウザ上で実行できるURLを添付しました。 (2020-08-17 16:22) “Go” に表記を統一しました。 (2020-08-17 17:00) Ruby 僕にとって文字列処理といえばRubyなので、まずは以下のようなscriptを書いてみました。 puts "\u304c" puts "String#encode('Shift_

                UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ
              • \非公式/ Go Conference 2022 Spring スポンサー企業4社 アフタートーク LT内容の解説 〜ExcelとShift-JISとの闘争編〜 - ANDPAD Tech Blog

                お久しぶりです。 ANDPADの原田(tomtwinkle)です。 2022/4/28(木)にオンラインで開催された「\非公式/ Go Conference 2022 Spring スポンサー企業4社 アフタートーク」にLTで登壇していました。 andpad.connpass.com www.youtube.com LT自体が久々というのと、最近あまりこういう人前で話す機会がなかったので噛み噛みでしたが何とか乗り切れました。 実質7分の枠でしたのでかなり早口で飛ばしてしまいタイトル通り細かすぎて伝わらない感じになってしまっていたので 中身についてもう少し詳細にブログで解説して行こうと思います。 目次 目次 GolangでExcelを出力する Excelカラム名とIndex値を相互変換する Border用の関数を用意する Alignment用の関数を用意する Fill用の関数を用意する St

                  \非公式/ Go Conference 2022 Spring スポンサー企業4社 アフタートーク LT内容の解説 〜ExcelとShift-JISとの闘争編〜 - ANDPAD Tech Blog
                • 【Windows 10/11】えっ、UTF-8じゃなくてShift-JISで? お手軽文字コード変換方法まとめ

                  【Windows 10/11】えっ、UTF-8じゃなくてShift-JISで? お手軽文字コード変換方法まとめ:Tech TIPS Windows OSのコマンドプロンプト上でテキスト処理をする場合、基本的にはShift-JIS(シフトJIS)コードのテキストファイルしか扱えない。その他の文字コードのテキストを扱う場合は、Shift-JISに変換する必要がある。「メモ帳」アプリやnkfコマンドなどで文字コードを変換する方法を解説する。

                    【Windows 10/11】えっ、UTF-8じゃなくてShift-JISで? お手軽文字コード変換方法まとめ
                  • 真夏の怪異、ログオン中のユーザーが1人少ない! それは「Shift-JIS」の呪い?

                    真夏の怪異、ログオン中のユーザーが1人少ない! それは「Shift-JIS」の呪い?:その知識、ホントに正しい? Windowsにまつわる都市伝説(189) 先日、Windows Server用のWebベースの管理ツール「Windows Admin Center」を操作していて、おかしな表示に気が付きました。「概要」ページにある「ログインしているユーザー」が「-1」だというのです。サーバに1人以上のユーザーがログオンしている場合、今度は「0」だというのです。一体どういうことでしょうか。なぜこんな凡ミスにこれまで誰も気が付かなかったのかと疑問に思っていたら、実は日本語環境特有の「Shift-JIS」の呪いだったのです。

                      真夏の怪異、ログオン中のユーザーが1人少ない! それは「Shift-JIS」の呪い?
                    • Shift_JISとWindows-31J(CP932)とJIS漢字水準の関係について

                      はじめに こんにちは!なたでです! 今回は文字コードの話、特に日本語についての話です。皆さん、第1水準、第2水準、拡張文字、Windows-31J(CP932)に入る文字は一体何かとか、自信を持って把握していますでしょうか。今回は、その辺のワードを一度整理して、まとめてみました。 基本用語 文字コード 文字コードには2つの意味がある。文字集合と符号化方式である。 文字集合 JIS X 0208など、文字の集合である。これをどのように記録するかは符号化方式による。 符号化方式 上記で規定した文字集合を符号化する方式の種類である。ISO-2022-JP、EUC-JP、Shift_JISなどがある。 コードセット 文字集合と符号化方式をまとめたもの。 常用漢字 学校で習う基本的な漢字。1923年に文字集合が生まれ、1981年の時点での常用漢字は1945文字である。 後程説明するが、この漢字が19

                        Shift_JISとWindows-31J(CP932)とJIS漢字水準の関係について
                      • JavaScriptで文字列をShift_JISに変換&URLエンコードする - tacamy--blog

                        ユーザーが入力した文字列を元にして、そのキーワードの検索結果ページへリンクしたいけど、そのキーワードをJavaScriptでShift_JISにエンコードしないといけないという仕様を実装した。JavaScriptで文字コードを変換するというのをしたことがなくて調べたので、忘れないうちにメモ。 文字コードをUnicodeからShift_JISに変換 JavaScriptの世界の文字コードはUnicodeなので、まずは、入力されたキーワードをShift_JISに変換する必要がある。 npmにencoding-japaneseというライブラリがあったので、利用することに。 www.npmjs.com ちなみに、文字コードの変換だけだと iconv-lite - npm の方が有名っぽい雰囲気だったけど、encoding-japaneseはURLエンコードもできるからそっちにした。 JavaScr

                          JavaScriptで文字列をShift_JISに変換&URLエンコードする - tacamy--blog
                        • ハイフンに似た文字が Shift_JIS でエンコードできない問題とその解決策 - Sansan Tech Blog

                          初めまして! 2022年の3月に入社しました渡邉です。 現在はデータ戦略部という部署に所属しておりまして、多種多様なデータを収集・活用するためのサービス開発に携わっています。 タイトルにある通り、今更になって Shift_JIS と格闘する羽目になったのですが、その背景として長期に渡って稼働していたシステムの一部をリプレイスすることになったことがあります。 旧システムは他社のシステムとデータを Shift_JIS でエンコードしたファイルでやりとりしているのですが、これは他社が保守しているシステムとのファイル連携であり、リプレイスプロジェクト期間中に連携ファイル仕様を変えることは現実的ではないという判断です。 背景 突然ですが、皆さまはこれらの文字の違いがわかりますか? 1. − 2. - 3. ー 正解はそれぞれ、 1. 全角のマイナス 2. ハイフン 3. 漢字の一 となっています。

                            ハイフンに似た文字が Shift_JIS でエンコードできない問題とその解決策 - Sansan Tech Blog
                          • UnicodeDecodeError: 'shift_jis' codec can't decode byteとなった時の対応方法 - Qiita

                            環境 Windows10 Pro バージョン1909 Python 3.8.5 Pandas 1.0.5 事象 : CSVファイルをPandasで読み込んだら怒られた Traceback (most recent call last): File "C:/path/to/my_code.py", line 258, in <module> csv = read_files(target_dir) File "C:/path/to/my_code.py", line 74, in read_files data = pd.read_csv(file, encoding="shift_jis") File "C:\path\to\venv\lib\site-packages\pandas\io\parsers.py", line 676, in parser_f return _read(fi

                              UnicodeDecodeError: 'shift_jis' codec can't decode byteとなった時の対応方法 - Qiita
                            • Node.js で Shift-JIS ファイル を 読み書き する 方法

                              Node.js は 基本的に UTF-8 で利用するものなので、他のエンコードを使おうと思うと少し工夫が必要になります。 今回は Shift-JIS を例に他のエンコードを利用する方法についてまとめました。 iconv-lite とは iconv-lite は Node.js で 文字エンコード変換 を行ってくれるモジュールです。 iconv-lite を使えば Node.js はデフォルトのエンコード以外にも以下のようなエンコードに対応できます。 iconv-lite 対応 エンコーディング (抜粋) Node.js デフォルト "ascii" "utf8" "utf16le" "ucs2" "base64" "latin1" "binary" "hex" Unicode "UTF-16BE" "UTF-16" (with BOM) シングルバイト "cp1252" マルチバイト "Sh

                              • AlmaLinuxにプリインストールされているiconvをShift JISに対応させる - Qiita

                                解説 AlmaLinux 9のDocker Imageから起動したコンテナでiconvを試すと以下のエラーが発生する場合があります。 $ echo 'あ' | iconv -f UTF8 -t SHIFT_JIS iconv: failed to start conversion processing: No such file or directory このエラーはプリインストールされているiconvに対応していないキャラクターセットを指定した場合に発生します。 今回の場合は SHIFT_JIS に対応していなかったのでエラーが発生しました。 # 対応しているキャラクターセット一覧の表示 $ iconv -l The following list contains all the coded character sets known. This does not necessarily

                                  AlmaLinuxにプリインストールされているiconvをShift JISに対応させる - Qiita
                                • VS Codeターミナル文字化け対策(shift-jis→utf-8)

                                  20210429追記) Rの場合はコチラ→http://www.mathkuro.com/?p=2967 前に書いたVisual Studio Code (VS Code)でPython開発環境を作るという記事で書いていたのですが、記事がちょっと長くて文字化け対策の部分が埋もれてしまっていたのでここに切り出しておきます。 文字化け対策 VSCodeのターミナル(PowerShell)がデフォルトでshift-jis(932)で動くのでそれをutf-8(65001)で動くようにし設定します。 settings.jsonに以下を追加してするだけでOKです。 { "terminal.integrated.shellArgs.windows": [ "-NoExit", "chcp", "65001" ], }

                                    VS Codeターミナル文字化け対策(shift-jis→utf-8)
                                  • mb_convert_encoding "\" (backslash) and "~" (tilde) convert failed to Shift_JIS · Issue #8281 · php/php-src

                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                      mb_convert_encoding "\" (backslash) and "~" (tilde) convert failed to Shift_JIS · Issue #8281 · php/php-src
                                    • Python♪Windowsの「Shift JIS」の落とし穴

                                      「CP932」を「Shift JIS」だと思って使っていませんか? 入出力ファイルのデフォルト文字コードは? Windowsの「Shift JIS」には落とし穴がたくさんあります。最初が肝心ですので、後回しにしないようにしましょう。 なお、最初に覚えるべき「Shift JIS」は2つだけです。「Shift JIS」の変遷といっしょに理解すると覚えやすくなります。 なお、ファイルの入出力については以下の記事を参照してください。 Python♪用途別にまとめたファイルの入出力コード 1.「Shift JIS」はたくさんある 文字コードの中でも、最もやっかいなのが「Shift JIS」です。一言で「Shift JIS」といっても、Pythonで指定できる「Shift JIS」は「'cp932'」「'shift_jis'」「'shift_jisx0213'」「'shift_jis_2004'」の4

                                        Python♪Windowsの「Shift JIS」の落とし穴
                                      • GitでShift-JISのファイルを扱う際の注意 | プログラマーになった 「中卒」 男のブログ

                                        先日も以下の記事で文字化け問題について取り上げたが、またShift-JISのファイルを扱う上での文字化け問題に遭遇した。 今回はGit編である。 GitクライアントはSourceTreeを使っているのだが、Shift-JISで作られたファイルの差分を確認しようとすると以下のとおり文字化けが発生する。 今回はこの問題についての解決方法を紹介する。 設定ファイル(.gitattributes)の追加 まずプロジェクトのルートディレクトリ(.gitフォルダと同階層のディレクトリ)に「.gitattributes」という名前でテキストファイルを作成する。 そしてファイル内にShift-JISとして管理するファイル形式を定義する。

                                          GitでShift-JISのファイルを扱う際の注意 | プログラマーになった 「中卒」 男のブログ
                                        • Microsoft、Shift_JISや外字からUnicodeへの移行を呼びかけ | スラド

                                          Microsoftが、外字の利用を止めることを推奨するブログ記事を公開している(窓の杜)。 Microsoftが収集したWindows診断データによると、日本では突出して外字の使用頻度が高いという。この背景には、Windowsにおいては長らく日本語の文字コードとしてShift-JISが使われており、Shift-JISで表現できない文字を外字として登録して使っている、ということがあるようだ。一方で現在のWindowsはUnicodeをサポートしており、Unicodeを利用することで「外字でなければ表示できない文字」はほぼなくなるという。 ただ、たとえばVisual Basic 6で開発されたアプリケーションなど、現在でもUnicodeに対応していない古いアプリケーションが稼働している場合もある。そのためMicrosoftはこうしたシステムを段階的に移行していくことを推奨している。

                                          • マクロでShift_JIS文字コードか判定する|VBA技術解説

                                            最終更新日:2019-07-13 マクロでShift_JIS文字コードか判定する 環境依存文字・機種依存文字をチェックしたいという話は時々聞くことなのですが、 何をもってして判別するかという事が実はとても難しい問題になります、 ①②もIMEでは[環境依存]と表示されますが、通常これが問題になる事はないでしょう。

                                              マクロでShift_JIS文字コードか判定する|VBA技術解説
                                            • Shift_JISとCP932とWindows-31Jの違いを整理した - アナグマのモノローグ

                                              Shift_JIS、CP932、MS932、Windows31-Jはいずれも「文字符号化方式(文字コード)」である。これらはほとんど同じものだが、混乱するので改めて違いを整理してみました。 Shift_JISとCP932の違い Shift_JISはJIS X 0208で規格化されている「文字集合」を符号化する文字符号化方式の一種です。 一方、CP932はJIS X 0208に①などのいわゆる機種依存文字を追加した、MicrosoftのWindows独自の「文字集合」を符号化するための「文字符号化方式」です。符号化する方法はShift_JISと同じです。 つまり、Shift_JISとCP932は、符号化する「文字集合」自体に違いがあるということです。CP932で使われる文字集合は、Shift_JISで使われる文字集合(JIS X 0208規格)にいくつかの文字を追加したものなので、Shift

                                              • 文字コードの異なるフォームへのPOST(UTF8 to Shift_JIS)

                                                文字コードの異なるページへのPOSTって悩ましいですよね。 具体的には、こちらのサイトがUTF-8で作られていて、相手先がShift_JISだったりする場合。 そもそも相手サイトにPOSTしなきゃいけない理由とは SPAMサイトじゃあるまいし、普通は自サイト以外へのPOSTってあんまり考えられないかも知れません。 でも、実際はあるんです。例えばECサイトが良い例。 「ご購入ありがとうございました。決済手続きは次の画面でお願いします。」 みたいなの。 いまどきそんなの古いよーという方もいらっしゃるかも知れませんが、きっとそれは大手の通販サイトを使用されていることが多いからでしょう。ショッピングモールにさえ出店しない、個人商店レベルのサイトではこんなのいっぱいあります。 中の人いわく、「個人経営のショップサイトでクレジットカード番号を入力するのは怖いというお客様がいらっしゃる」とか。なるほど、

                                                  文字コードの異なるフォームへのPOST(UTF8 to Shift_JIS)
                                                • 【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS)

                                                  Python 【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS) Pythonを使っていると、文字コードや文字列の変換が必要になることがありますよね。 でも、文字コードって何?どうやって変換すればいいの?と疑問に思ったことはありませんか? やり方はかんたんです。 「encode」メソッドと「decode」メソッドを使えば、あっという間に文字列と文字コードの変換ができるようになります! UTF-8、ASCII、Shift_JISといった代表的な文字コードの変換プログラムもまじえて解説しています。 実際にプログラムを動かすことで、どのように文字列と文字コードを変換するのか理解が深まると思います。ぜひ実際にコードを入力して動かしてみて下さいね。

                                                    【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS)
                                                  • 1.1(1) 日本語をread_csv(encoding='shift_jis')で読み見込めない時 - Qiita

                                                    日本語を含むcsvファイルを読み込む場合は、encoding='shift_jis'を指定して、pd.read_csv('data.csv', encoding='shift_jis')と書くのは定石です。 しかし、それでもエラーとなってしまう場合があります。 例えば、以下のようなcsvファイルです。 # 例1: 'shift_jis'でエラーとなる clm0 clm1 clm2 clm3 1 Ⅰ APPLE りんご 2 Ⅱ apple リンゴ 3 Ⅲ aPPLe リンゴ 4 Ⅳ Apple 林檎 何が違うのでしょうか?そしてどうすればいいのでしょうか? ここでは、もとのcsvファイルを確認しても、おかしい部分が見当たらず、「何がおかしいの!(怒)」、という場面で対処する方法を説明します。上の2つの例が、大きなヒントとなります。 これを知っておくと、大きな時間短縮になります。 トピック

                                                      1.1(1) 日本語をread_csv(encoding='shift_jis')で読み見込めない時 - Qiita
                                                    • 「スプレッドシートによるスクレイピング」 で、取得したデータをShift_JISからUNICODEに変換する方法 - Qiita

                                                      「スプレッドシートによるスクレイピング」 で、取得したデータをShift_JISからUNICODEに変換する方法スクレイピングGoogleAppsScriptGAS文字コードGoogleSpreadSheet 概要 スプレッドシートで簡単にスクレイピングができるIMPORTXML関数を使う際に、取得したデータの文字コードがShift_JISの場合文字化けが起きてしまいます。その問題をGoogle Apps Script(GAS)を利用してSHIFTJIS2UNICODEという独自関数を登録することにより解決しました。 手順 こちらのコードをGASにコピペして、スプレッドシートのセルからSHIFTJIS2UNICODE関数を呼び、=SHIFTJIS2UNICODE(IMPORTXML("https://en.wikipedia.org/wiki/Moon_landing", "//a/@hr

                                                        「スプレッドシートによるスクレイピング」 で、取得したデータをShift_JISからUNICODEに変換する方法 - Qiita
                                                      • Fetch API で Shift_JIS の HTML をDOM として読み込む - Qiita

                                                        fetch で Shift_JIS を扱おうとしたら文字化けしたので、解決方法を書きます。 1. 流れ fetch で DOM として直接読み込むことはできない なので、一回 text として読み込んで DOM に parse する ところが、response.text() で文字コードが UTF-8 以外で文字化けし、解決方法は (おそらく) ない (Content-Type に charset を指定しても効果なし) なので、一度バイナリデータとして読み込み、文字コードを指定して文字列に変換し、そこから DOM に parse する 参考「JavaScriptのFetch APIで返ってきたものをDOMとして扱う - ひと夏の技術」 参考「fetch APIでUTF8以外のエンコーディングだと辛い – 阿Qさんと一緒」 2. ソースコード 2.1. 方法 1: Response ->

                                                          Fetch API で Shift_JIS の HTML をDOM として読み込む - Qiita
                                                        • 【Windows】PythonでCP932(Shift-JIS)エンコード以外のファイルを開くとエラーになる問題がとりあえずの解決に至った件 - Qiita

                                                          参考にさせていただいた、こちらの記事でプログラムにエンコードを追加することでエラーを回避する方法をご教授して頂きました。 ただ、Pythonのopen()関数を使用する箇所全てにエンコードを追加するのは辛い。 パッケージをインストールするたびにopen()関数を使用する箇所全てにエンコードを追加するのは辛い。 ということで、Pythonのopen()関数にまとめてUTF-8エンコードを指定できないか調査をしました。 結果、Windows10の以下のバージョンから対応できることが分かったので手順を記載します。 バージョン 以下OSバージョンで動作することを確認しました。 バージョン:1709以前だと対象の機能が実装されていないので以下の手順は行えません。 バージョン:1709~1809の間のバージョンは検証できていません。 手順 コントロールパネルを開き、地域リンクを押下する。 管理タブのシ

                                                            【Windows】PythonでCP932(Shift-JIS)エンコード以外のファイルを開くとエラーになる問題がとりあえずの解決に至った件 - Qiita
                                                          • [python3] EUC-JPなのにShift-JISの機種依存文字が入っててUTF-8にできなかったときの対策 - Qiita

                                                            表題の通りです。 先人が機種依存文字対策に苦心した痕跡がちらりほらり… ※ はしご高とかそういうタイプの機種依存文字はこの記事では扱いません。 環境 Windows 10 Python 3.8.5 スクレイピング:requests 状況(読まなくても良い) 最近 seesaawiki の記事の自サイトへの移植をごそごそとしているのですが。 seesaawikiからスクレイピングでHTMLソースを取得すると、 <meta http-equiv="Content-Type" content="text/html; charset=EUC-JP"> とあって確かに EUC-JP のはずなのに、wikiソース内で「①」のような Shift-JIS の機種依存文字が使えるせいでたまにこれが紛れてくるんです。 で普通に

                                                              [python3] EUC-JPなのにShift-JISの機種依存文字が入っててUTF-8にできなかったときの対策 - Qiita
                                                            • pandasでShift JIS(cp932)で書き出す時のUnicodeErrorと戦う(Pyhton3 windows10) - HYT MachineWorks

                                                              pandasでShift JISで書き出す際に出るUnicode Errorとは? 以下のようなコードでpandasでshift JIS(cp932)でcsvを書き出そうとすると import pandas as pd # エラーが出るデータを作成 unicode_data = [["全角\u0020スペース\n", "\xA0ノンブレークスペース"] for _ in range(100)] # dataframeに変換 df = pd.DataFrame(unicode_data) # pandasでshift-jisとして書き込む df.to_csv("./test_sjis.csv", encoding="cp932") 以下のようにエラーが出ることがある。 Traceback (most recent call last): File "C:/Users/hyt/python/p

                                                                pandasでShift JIS(cp932)で書き出す時のUnicodeErrorと戦う(Pyhton3 windows10) - HYT MachineWorks
                                                              • UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話

                                                                UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話 利用シーン UTF-8で記述されたテキストをShift-JISエンコードに変換する機会はあります。 UNICODEで表現できる文字の種類の方がShift-JISに比べて圧倒的に広いのですべての文字が変換できるわけではありませんが、「これは変換できてよかろう」というものまでこぼれ落ちるケースは多数あります。 以下こぼれ落ちる例とその対応を示します。 サンプルコード まずはサンプルコード。 rubyで記述していますが、原理はどの言語でも同じです。 str = "あ~あ①髙島屋パバぱ" sjis = str.encode(Encoding::Shift_JIS, :invalid => :replace, :undef => :replace) File.

                                                                  UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話
                                                                1

                                                                新着記事