並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 60 件 / 60件

新着順 人気順

文字コードの検索結果41 - 60 件 / 60件

  • Railsで既存のMySQLのデータベースの文字コード(characterset)と照合順序(collation)を変更する方法 - Qiita

    株式会社TECH LUCKという会社で代表兼エンジニアをしている齊藤です。 DXプロジェクト、開発プロジェクト、Rails開発などでお困りごとがありましたら弊社HPからご相談をいただけますと幸いです。 以下のような問題に対応することが可能です。 プロジェクトでRailsエンジニアが足りなくて困っている Railsのバージョンアップをしたいがノウハウ・リソースが足りなくて困っている オフショア開発をしているが、要件の齟齬やコード品質が悪いので改善したい また、Railsエンジニアも募集しておりますので、興味がありましたら弊社HPからご連絡いただけますと幸いです。 前提 Railsアプリケーションで稼働しているMySQLのデータベースの文字コード(characterset)と照合順序(collation)を変更する機会があったのでまとめました。 Rails内部のソースコードまで追えていないので

      Railsで既存のMySQLのデータベースの文字コード(characterset)と照合順序(collation)を変更する方法 - Qiita
    • MySQL 8.0.24 の文字コードまわり - tmtms のメモ

      2021/4/20 にリリースされた MySQL 8.0.24 について私が気になったものについて。 まあ文字コードまわりだけなんだけど。 utf8 を utf8mb3 として出力する Client applications and test suite plugins now report utf8mb3 rather than utf8 when writing character set names. (Bug #32164079, Bug #32164125) Important Note: When a utf8mb3 collation was specified in a CREATE TABLE statement, SHOW CREATE TABLE, DEFAULT CHARSET, the values of system variables containing c

        MySQL 8.0.24 の文字コードまわり - tmtms のメモ
      • Pythonで学ぶ文字コード - Qiita

        この記事は Python Advent Calendar 2021 23日目の記事です。 はじめに 最近、文字コードを考慮したシステム設計をする機会がありました。 文字コードは今までなんとなくの知識でやり過ごしてきましたが、基礎知識から学び直す良い機会となりました。 この記事では、文字コードの知識についてPythonを使い理解を深めることを目的としています。 なお、Python固有の知識よりは文字コードの基礎知識にフォーカスしていますので、Pythonの知識が無い方にも参考になればと思います。 想定読者 文字コードについて、そもそも何かわかってない人 聞いたことはあるけどよくわかってない人、理解に自信が無い人 前提 Python 3.8 Mac OS Catalina 文字コードとは何か 「文字コード」という言葉を調べると、Unicode, UTF-8, SJISなどさまざまな単語が登場し

          Pythonで学ぶ文字コード - Qiita
        • Pythonのchardetモジュールが、"testあ"という文字列(UTF-8)の文字コードを"Windows-1254"だと判定する

          "testあ"のUTF-8表現は、74 65 73 74 e3 81 82 (1バイトデータの表記は全部16進、以下同様, python3風に書くとb'\x74\x65\x73\x74\xe3\x81\x82')で、chardetが判定するのは「文字列」ではなく、このバイト列です。 ちなみにこのバイト列をUTF-8, Shift_JIS, EUC-JP, ISO-8859-1, Code Page 437, Windows-1254で解釈すると、以下のようになります。 UTF-8 testあ (まぁ、当たり前) Shift_JIS (不正) EUC-JP (不正) ISO-8859-1 testã (81 82 は制御コードにあたるので見えないが不正ではない) CP437 testπüé Win1254 testã‚ (81は未定義なので本来は不正、chardetは未定義にあたるバイトが現

            Pythonのchardetモジュールが、"testあ"という文字列(UTF-8)の文字コードを"Windows-1254"だと判定する
          • 日本語版の SQL Server の文字コードの基本 at SE の雑記

            日本語版の SQL Server をインストールした環境の文字コード / 文字コードに関連するドキュメントについてまとめておきたいと思います。 今回はインストールタイプ (Box) の SQL Server を日本語版でインストールした環境をベースに考えていますが、これは、SQL Server のデータベースエンジンをベースとしている環境で共通の考え方になります。 過去のバージョンの情報にはなりますが、次の情報も参考になります。 SQL Server 2005 のインターナショナル機能 2007 年 6 月改訂版 Microsoft SQL Server 2005 のインターナショナル機能 日本語版の SQL Server で使用される文字コードですが、基本的には次の 4 種類になるかと思います。 CP932 (Microsoft コードページ 932 : Shift_JIS 拡張) Un

            • Windows10でテキストファイルの文字コードを変換する方法 | 4thsight.xyz

              Windows10環境でテキストデータを処理する場合、用途によって適切な文字コードでデータを用意しなければなりません。 たとえば、コマンドプロンプトでのテキスト処理では「ANSI(Shift-JIS)」、レジストリファイルの作成では「UTF-16LE」、WSLでの処理では「UTF-8」といった具合です。 Windows10でこれらの文字コードでテキストデータを用意する場合、サードパーティーのテキストエディターを利用する必要があると思いがちですが、標準搭載の「メモ帳」でもそれぞれの文字コードに変換することができます。 そこで、ここではメモ帳で文字コードを変換する方法と、複数ファイルの文字コードを一括で変換するのにおススメのコマンドラインツールを紹介します。

                Windows10でテキストファイルの文字コードを変換する方法 | 4thsight.xyz
              • Vim でカーソル下の文字コード取得と文字コードでの入力を行う

                使いどころはパッと思いつかないけど、過去に何度かお世話になったので備忘録として記す。 カーソル下の文字コード取得 ga コマンドで取得できる。 例えば、 → にカーソルを合わせて ga を押すと、以下のように情報が表示される。 <→ > 8594, Hex 2192, Oct 20622, Digr -> 文字コードでの入力 インサートモード中に <C-v> を押すことで、文字コードによる入力ができる。 例えば、前述の → を入力したい場合には i<C-v>u2192 と入力する。 以上。 参考資料 ga - various - Vim日本語ドキュメント i_CTRL-V - insert - Vim日本語ドキュメント → U+2192 Unicode文字 0g0.org

                • Powershell で文字コードを変更する(clip.exe へのリダイレクトもね)

                  PowerShell だけで処理しているときには、文字コードが default の UTF-8 になっていても問題無いのですが、PowerShell 以外と連携する際に文字コードの違いが問題になることがあります。 ファイル出力の Out-File とかには -Encoding オプションがあるので、S-JIS にするのであれば Default を指定すれば S-JIS で出力されます。 ところが、オンメモリーで文字コードを変更するにはファイル出力コマンドレットは使えません。 そんな時は、こんな感じで .NET Framework の System.Text.Encoding を使って文字コード変換します。 function Conv2SJIS($UTF8String) { $ByteData = [System.Text.Encoding]::UTF8.GetBytes($UTF8Stri

                  • 文字コードの符号化文字集合と文字符号化方式について

                    シフト JIS の表問題をご存じですか? シフト JIS で「表」という文字は 95 5C という二バイトになります。ところが、5C 一つだけだと、バックスラッシュを表します。そこで、文字列を頭から読んでいってバックスラッシュでエスケープするような方法の場合、ここにバックスラッシュがあると誤認してしまいます。 たとえばソースコードに "表" と書いた場合、二番目のダブルクォーテーションマークが「表」の二バイト目の 5C によってエスケープされてしまって、引用符が閉じていないというエラーになります。 これを回避するためには、二バイト目の 5C がバックスラッシュではないと認識するために、コンパイラがシフト JIS に対応しなければいけません。シフト JIS は日本語専用の符号化方式なので、海外では無視されることも多く、海外のソフトを使うときには "表" のように文字によってエスケープを入れた

                      文字コードの符号化文字集合と文字符号化方式について
                    • MySQLのテーブル作成後に、文字コードをutf8mb4に変更する

                      MySQL のテーブルの文字コード latin1 と utf8mb4 が混在しているシステムを utf8mb4 に統一する機会がありました。調査した内容や実行したコマンドを残しておきます。MySQL のバージョンは 5.7 です。 目次 やったこと データベースの文字コードと照合順序を確認する テーブルの文字コードと照合順序を確認する 利用できる照合順序を確認する カラムの文字コードと照合順序を確認する テーブル内のすべての文字カラムを変換する データベースの文字コードを変更する テーブルの文字コードを変更する カラムの文字コードを変更する やったこと データベース、全テーブルの文字コードを調べる文字コードが utf8mb4 ではないテーブルを見つけたら、そのテーブルのカラムの文字コードを調べるカラムとテーブルの文字コードを utf8mb4 に変換するデータベースの文字コードを変更する 順

                        MySQLのテーブル作成後に、文字コードをutf8mb4に変更する
                      • 第17回:OracleDatabaseで異なる文字コード間におけるデータ移行時の注意点 - システムエグゼ コーポレートサイト

                        Oracle Databaseの移行案件を扱っていると、異なるキャラクターセットへの移行を任され、文字コードやデータサイズの違いに戸惑う技術者の方も多いのではないでしょうか。 今回は、データベースリプレイス案件時に調査を行ったJA16SJIS(TILDE)からAL32UTF8への移行時の注意点についてご紹介したいと思います。 目次 1.キャラクターセット Oracle Databaseで取り扱う文字コードは、データベース作成時に設定するデータベースキャラクターセット(CHARACTER SET)、各国語キャラクターセット(NATIONAL CHARACTER SET)で決定されます。 ※作成後、変更が出来ないので十分検討が必要です。 データベースキャラクターセット:以下データ型で取り扱う文字コードが決定されます。 CHAR VARCHAR2 LONG CLOB 各国語キャラクターセット:以

                          第17回:OracleDatabaseで異なる文字コード間におけるデータ移行時の注意点 - システムエグゼ コーポレートサイト
                        • APPLE][のキーボードと文字コード - J-PLUSでのカナの扱い|kzn

                          さて、PET2001でカナをどう扱ったかを PET2001 - 悪評の高かったキーボードと PETSCII で書いたのでAPPLE][の場合はどうだったのかもまとめておきます。 APPLE][のキーボードと文字コードについては、 APPLE][のキーボードと文字コード に書いたので、J-PLUSでどのようにカナ文字を入れたかということになります。カナ文字はヘッダ写真にもあるように、それぞれのキーの手前の面に刻印されています。スラッシュで区切って2つ刻印されている文字は、そのまま入力できる文字が左、シフトが必要な文字が右です。 上がシフトを押しながら、下がそのままで入力できるカナカナキーはなく、英数字とカナの切り替えは、CTRL-T を押すことでトグル切り替えになります。 この配列は JISではありませんが、どこかで見覚えがありませんか。そうです大部分は PET2001 のカナ配列と同じです

                            APPLE][のキーボードと文字コード - J-PLUSでのカナの扱い|kzn
                          • 文字コード

                            文字化け 文字が糸へんの難しい文字などに化けるのは、UTF-8のバイト列をShift JIS(またはそれをMicrosoftが拡張したCP932(コードページ932))として解釈されてしまったためである。 例えば「あいうえお」というUTF-8文字列は、メモリ中で次のように保存されている: "あいうえお".encode("utf-8") b'\xe3\x81\x82\xe3\x81\x84\xe3\x81\x86\xe3\x81\x88\xe3\x81\x8a' つまり16進で e3 81 82 e3 81 84 e3 81 86 e3 81 88 e3 81 8a である。これをShift JISのバイト列と解釈すると、縺 (e3 81) ゅ (82 e3) > (81 84) 縺 (e3 81) 解釈不能 (86) 縺 (e3 81) 医 (88 e3) ♀ (81 8a) となる。これ

                            • 【Unity】Unityと文字コードと改行コード - LIGHT11

                              Unityと文字コードと改行コードのお話です。 文字コード? 代表的な文字コード Unityの文字コードはBOM付きUTF-8に 改行コード? Unityの改行コードはCR + LFに Unityで文字コードを自動的に統一する 参考 文字コード? 文字コードとは要するに、ある文字をコンピュータが扱うときにどんな数字で表現するか、というルールのことです。 仮にある文字コードでは「01」は「あ」を表すというルールだとします。 しかしまた別のある文字コードでは「01」は「A」を表したりします。 対応していない文字コードで書かれた文字は解読できないため、文字コードを適切に設定することは重要です。 代表的な文字コード 文字コードのうち代表的なものには以下があります。 UTF-8 Shift-JIS ASCII UTF-16 ASCIIには基本的な英数字や記号が含まれます。 それに追加して日本語とかを

                                【Unity】Unityと文字コードと改行コード - LIGHT11
                              • ベンゼン環の文字コード: ⌬ (U+232C), ⏣ (U+23E3)

                                ベンゼン環が髪についてる子の Twitter 凍結※が解けた記念。 というわけではないんですけども、C# 配信でたびたびネタにしてる Unicode のベンゼン環記号の話。 (※ 開始10分で Twitter 凍結。ものの数分で数万単位でフォロワーが増えるとか言う不自然な動きが何の不正もなく達成されてしまうのが大手企業勢 VTuber の恐ろしいところ…) ベンゼン環文字コード なぜか Unicode にはベンゼン環に文字コードが割当たっています。 ⌬ (U+232C) ⏣ (U+23E3) なぜか。 マジで、「なぜか」。 しかも2文字あります。 うちの配信でなんでよく出てくるかと言うと、2点変な点があるからでして。 そもそもなんで Unicode に入ってるのかわからない 2文字ある 文字なの?? Unicode にはまあ、変な文字もそこそこたくさんあるんですが。 概ね、変なやつは「出ど

                                  ベンゼン環の文字コード: ⌬ (U+232C), ⏣ (U+23E3)
                                • Unicode―文字コード入門―

                                  Unicodeとは 多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みである文字コードも、その国の数だけ増えていく状態であり、情報交換のために様々な不都合が生ずるようになってきました。また、企業の側でも各国個別の言語に合わせたソフトウェアを開発するためには膨大なコストが必要なため、これを解消する手段が求められるようになってきたのです。 そこでこの問題を解消すべく、IBM、Microsoft、Apple等が加盟(他のメンバーについてはこちらを参照)するNGOであるUnicodeコンソーシアムが中心となって、全ての文字を16ビット(65536文字)に収録してしまおうという、野心的な多重言語文字セット規格の制定を企図していました。またそれとは別に、国際標準化機構(ISO)が、世界中の主要な文字を一括して扱う多重言語文字セット規格を開発していました。国際規格が複数制定される

                                  • 主要RDBMS製品の比較 – 文字コード, 文字セット, 照合順序 | コーソルDatabaseエンジニアのBlog

                                    Microsoft SQL ServerMySQLOracle DatabasePostgreSQL主要RDBMS製品の比較 2022.09.28 渡部 亮太 主要RDBMS製品の比較 – 文字コード, 文字セット, 照合順序 Oracle ACE Proの渡部です。 主要なRDBMS製品を比較します。 大枠を整理することが最大の目的です。細かい例外事項や拡張機能は適宜記載を割愛しています。 2022年9月時点の最新バージョンをベースに記載していますが、記載内容にバージョン依存は少ないはずです。 時間ができた時に随時追記予定です。 もし誤りを見つけた場合は、優しく教えていただけると嬉しいです。→ https://twitter.com/wrcsus4 or ryota.watabe at cosol dot jp 「主要RDBMS製品の比較」ページ一覧 アーキテクチャ, スキーマ, データ

                                    • MySQLの文字コード変換処理を追いかけてみよう – 文字コード入門〜実装まで - GMOインターネットグループ グループ研究開発本部

                                      こんにちは,S.T.です。MySQLの文字コード周りの紹介記事です。MySQLの実装や,ちょっと変わった化け方を解説しています。実際に何か問題が起きていて,理由を調べている方が検索から辿り着いた場合は,まずは「5.文字コードを間違えたときの挙動」を見るのが良いと思います。 1.符号化文字集合と符号化方式 MySQLの話をする前に,文字コードの話をしましょう。 多くの人がコンピュータで「文字」を扱う際に意識するのは「文字コード」です。この記事を読んでいる方の多くは「UTF-8」や「Shift-JIS」というキーワードと,ソフトウェアでそれらを取り違えるとうまく表示できない,ということをご存知でしょう。 このことからもわかる通り,文字コードの正体は「文字をコンピュータの内部で扱うために0/1で表現したもの」というわけですが,文字コードの裏側には「符号化文字集合」と「符号化方式」という2つの概念

                                        MySQLの文字コード変換処理を追いかけてみよう – 文字コード入門〜実装まで - GMOインターネットグループ グループ研究開発本部
                                      • MySQLの文字コードをutf8mb4に変更 - Qiita

                                        +--------------------------+----------------------------+ | Variable_name | Value | +--------------------------+----------------------------+ | character_set_client | utf8mb4 | | character_set_connection | utf8mb4 | | character_set_database | utf8 | | character_set_filesystem | binary | | character_set_results | utf8mb4 | | character_set_server | utf8mb4 | | character_set_system | utf8mb4 | | char

                                          MySQLの文字コードをutf8mb4に変更 - Qiita
                                        • 仮名合字・合略仮名の文字コード - yanok.net

                                          合字とは 合字というものがあります。複数の文字を組み合わせて一文字となったものです。欧文の「Æ」のような文字はどこかで見たことがある人が多いでしょう。いうまでもなくAとEの組み合わせです。ドイツ語の「ß」も「ss」を表す合字です。合字を英語ではligatureといいます。 漢字にも,「麻呂」を組み合わせて一字になった「麿」や,「久米」の「粂」等の合字があります。 仮名文字にも合字があります。今日,通常の文章には用いられませんが,昔のものには見ることができます。こうしたものは仮名合字や合略仮名と呼ばれます。 ここではそれらのうち,現在符号化されているものについて文字コードをまとめてみます。 仮名合字の文字コード 文字読みJIS X 0213UnicodeUnicode文字名Unicodeブロック ゟより1-2-25U+309FHIRAGANA DIGRAPH YORIHiragana ヿコト