並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 358件

新着順 人気順

shift-JISの検索結果161 - 200 件 / 358件

  • 文字化け対策:VSCodeで文字コードを自動判別する設定

    Visual Studio Codeのデフォルト文字コードはUTF-8となっており、日本語のShift-JISなどのテキストファイルを開くと文字化けして表示されます。 拡張子ごとに文字コード設定を変更などといったことは面倒なので、VSCodeに文字コードを自動判別してもらう方が楽です。以下設定方法です。 VisualStudio Codeで文字コード自動判別設定方法 ファイル > ユーザ設定 > 設定 をクリックする。 表示された設定ウインドウの上部にあるテキストボックスに「files」と入力。 リストアップされた中から「Files: Auto Guess Encoding」の項目を探し出し、チェックを入れる。 文字化け表示されているファイルは一旦閉じてから再度開くと文字化けが解消されている。 ファイルの内容によっては自動判別がうまくいかない場合ももちろんあるが、大抵はここの設定で問題ない

      文字化け対策:VSCodeで文字コードを自動判別する設定
    • 匿名掲示板を作ってたらDDoS攻撃が来たのでCloudflare片手に戦ってた--2023晩夏 - 作ったもので2年に一回くらいの更新を目指す

      イントロダクション 前回の記事の通りで、趣味で専ブラに対応した掲示板を作っていた。 sasau.hatenablog.com 作ったものの、あまり宣伝や運営をする意欲もなかったので過疎掲示板としての時間が流れていた...。 というところまでが前回までの話だった。 その後、攻撃を受けるなどして、最終的になんでも実況Edge板は閉鎖してしまう...。のだけど、攻防の経緯をログとして残してあったので、この時どんなことを考えていたかも含めて、お伝えしておきたいと思う。 攻撃を振り返る 8/26 最初は8月26日に関連する掲示板に大規模な攻撃が来たことから始まる。 DDoS攻撃の経緯8/26 8月26日は、プロ野球のシーズン中で通常の試合が行われていた。野球に限らずだけど、実況民は実況中は本当に試合中のような行動をする。すなわち、実況中に何らかの要因でその会場が喪われると、安定した場所を求めて凄まじ

        匿名掲示板を作ってたらDDoS攻撃が来たのでCloudflare片手に戦ってた--2023晩夏 - 作ったもので2年に一回くらいの更新を目指す
      • EC2インスタンスにWindowsとMacからセッションマネージャーを利用して接続してみた | DevelopersIO

        こんにちは!DA(データアナリティクス)事業本部 インテグレーション部の大高です。 AWS Systems Mangerのセッションマネージャーを利用すると、SSHではなくAWS CLI経由でEC2インスタンスに接続することができます。 今回、Windows、MacからEC2インスタンスに接続をする機会があったので、AWS CLIのインストール・設定からEC2へ接続をするまでを、本エントリでまとめたいと思います。 前提 前提として、EC2インスタンス側のセットアップは完了しており、本エントリではクライアント側から接続するための方法について記載します。 また、試した環境はそれぞれ以下の通りとなります。 Windows Windows 10 Pro (64bit) Mac macOS Catalina (64bit) Windows編 では、まずはWindowsからです。 AWS CLI v2

          EC2インスタンスにWindowsとMacからセッションマネージャーを利用して接続してみた | DevelopersIO
        • 【C#】逆コンパイルと難読化について【.NET】 - Qiita

          public class ClassReadCSV { public List<string> GetCSVData(string strLogPass) { string strFilePath = null; List<string> listRet = new List<string>(); try { strFilePath = strLogPass; using TextFieldParser objIoTFP = new TextFieldParser(strFilePath, Encoding.GetEncoding("Shift_JIS")); TextFieldParser textFieldParser = objIoTFP; textFieldParser.TextFieldType = FieldType.Delimited; textFieldParser.Set

            【C#】逆コンパイルと難読化について【.NET】 - Qiita
          • 文字エンコードを指定してファイルを開く

            Visual Studio Code ではファイルの文字エンコードとして UTF-8 がデフォルトで設定されています。その為、 Shift_JIS など UTF-8 以外の文字エンコードで保存されたファイルを開くと文字化けして表示されます。ここでは Visual Studio Code で文字エンコードを指定してファイルを開く方法について解説します。 文字エンコードを指定してファイルを開きなおす Visual Studio Code ではデフォルトで文字エンコードとして UTF-8 を使用します。その為、文字エンコードとして UTF-8 を使用して保存されたファイルを開いた場合は問題なく表示されます。 それに対して例えば文字エンコードとして Shift_JIS を使用して保存されたファイルを開いた場合、文字化けが発生します。 UTF-8 以外の文字エンコードで保存されたファイルを開くには、

              文字エンコードを指定してファイルを開く
            • 【ExcelVBA】HTTP/HTTPS通信でWebページを取得する - Qiita

              はじめに 業務でVBAのプログラムを作っていた時に、内閣府の祝日情報を扱いたいと思ったのですが、VBAではお手軽にHTTP/HTTPS通信出来る組み込みの関数が用意されていませんでした。 (※内閣府の祝日情報はCSV形式で提供されています。) そこで様々なサイトを参考にしながら、HTTP/HTTPS通信でWebページを取得できるモジュール(クラス)を作成してみました。 作成したクラス VBAでHTTP通信するプログラムを作るにあたり、こちらの記事を参考にしてベースのプログラムを作りました。 また、HTTPS通信に対応させるにあたって、こちらの記事を参考にしました。 幾つかのサイトで紹介されていたサンプルコードにはCreateObject("MSXML2.XMLHTTP")が使われていましたが、この書き方だとTLS1.2を利用しているページでエラーとなってしまいます。 HTMLではなく単なる

                【ExcelVBA】HTTP/HTTPS通信でWebページを取得する - Qiita
              • UnicodeDecodeError: 'shift_jis' codec can't decode byteとなった時の対応方法 - Qiita

                環境 Windows10 Pro バージョン1909 Python 3.8.5 Pandas 1.0.5 事象 : CSVファイルをPandasで読み込んだら怒られた Traceback (most recent call last): File "C:/path/to/my_code.py", line 258, in <module> csv = read_files(target_dir) File "C:/path/to/my_code.py", line 74, in read_files data = pd.read_csv(file, encoding="shift_jis") File "C:\path\to\venv\lib\site-packages\pandas\io\parsers.py", line 676, in parser_f return _read(fi

                  UnicodeDecodeError: 'shift_jis' codec can't decode byteとなった時の対応方法 - Qiita
                • SQL Server / SQL Database の照合順序とコードページの関係 at SE の雑記

                  SQL Server には「照合順序」という設定があります。 照合順序のドキュメントでは、次のように説明が行われています。 照合順序では、データセット内の各文字を表すビット パターンが指定されます。 また、照合順序はデータの並べ替えおよび比較を行うための規則を決定します。 SQL Server では、単一のデータベース内で異なる照合順序を持つオブジェクトを格納できます。 非 Unicode 列の場合は、照合順序の設定によってデータのコード ページと表示可能な文字が指定されます。 非 Unicode 列の間でデータを移動する場合は、移動元のコード ページから移動先のコード ページに変換する必要があります。 文字列の比較 / ソートを行うための規則のほかに、「非 Unicode 文字列型のコードページ」も照合順序の設定に依存するようになっており、char / varchar 型については、設定

                  • git log、git diff、git showでの日本語の文字化けをまとめて対策 | WWWクリエイターズ

                    新しくサーバーに開発環境構築して使い始める時、「git log」「git show」 「git diff」などを使うと、多くの場合、日本語が文字化けしてうまく表示できません。 具体的には、以下の2点がよく問題になります。 今回対応する問題: Gitの日本語文字化けのよくある症状 まずは、(1)の症状です。 説明の簡単のため、「さくらレンタルサーバーを借りたデフォルト状態」を例にとって進めていきます。他のサーバーでも似たような状況ではないでしょうか?(推測) 少なくともさくらレンタルでは、初期状態がどんなかというと、git diffとかやると、下の画像のように「ESC」とかたくさん出力されてしまいます。 感じ悪いですよね。。git log やgit show でも、同じような文字化けが見られるはずです。 スクショ上で、「ESC」で表示されているものは、「文字化け」というよりは、エスケープコー

                    • Powershell スクリプトサンプル集 | コピペで即戦力

                      01基本 ■ powershell における if ~ else 構文 ■ Powershell におけるループ処理の基本 ■ 環境変数の追加する 02Powershell実行 ■ コマンドレット、関数、スクリプト ファイル、または操作可能なプログラムの名前として認識されません 03セキュリティ ■ 実行を許可するサンプルコード ■ AuthorizationManager チェックが失敗しました ■ 'HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\PowerShell\1\ShellIds\Microsoft.PowerShell' へのアクセスが拒否されました ■ Windows Firewall の状態を確認する ■ ウィルス対策ソフトの状態を確認する powershell サンプルコード ■ ログイン失敗履歴をWindowsイベントログから取得する 0

                      • U+301C from UTF-8 to Windows-31J (Encoding::UndefinedConversionError) に対応する - ESM アジャイル事業部 開発者ブログ

                        こんにちは。ima1zumi です。 私の開発している Rails アプリでは、Excel で読み込めるように 文字コードを Windows-31J に変換して CSV を出力する機能があります。 先日、CSV 出力にて Unicode の波ダッシュ 〜 を Windows-31J に変換しようとして Encoding::UndefinedConversionError が発生して CSV 出力に失敗したことがありました。なぜエラーになるのか、どうやって対応するのかをまとめました。 まとめ encode メソッドの fallback オプションを使って未定義文字の変換先を定義することで変換できます。 str = "\u{2014 301C 2016 2212 00A2 00A3 00AC}" undefined_signs = { "\u2014" => "\x81\x5C".force_

                          U+301C from UTF-8 to Windows-31J (Encoding::UndefinedConversionError) に対応する - ESM アジャイル事業部 開発者ブログ
                        • Go言語(golang) HTTPリクエスト - golangの日記

                          Go言語のnet/httpパッケージは Transport,Client,Request,Response に分けて考えたほうがいいので、 それらの役割を確認しながら使い方を説明してます。 GitHubを探せば gorequest、resty、sling などHTTPクライアント系パッケージがあるので、 コードを読んで参考にしながら、一度自分でパッケージを作ってみるとより理解が深まるのでおすすめです。 目次 基本的な使い方 Transport - トランスポート TLSを有効にする Proxy - プロキシ Sock5 Proxy - ソックス 5 プロキシ RoundTripper - ラウンドトリッパー Client - クライント Timeout - タイムアウト Redirect - リダイレクト CookieJar - クッキージャー Request - リクエスト Header

                            Go言語(golang) HTTPリクエスト - golangの日記
                          • 「サイズは10MBまで」「ファイル名に日本語はNG」「パスワード付ZIPは時代遅れ」… 相手に常識知らずと思われないためのメール“添付ファイル”最新マナー(集英社オンライン) - Yahoo!ニュース

                            誰かに書類や写真などのデータを送りたいとき、もっともメジャーな手段と言えるのがメールの「添付ファイル」。しかし、添付ファイルにまつわる常識は、時代とともに変化している。あなたの常識が時代遅れになっていないか、最新のビジネスマナーをチェックしていこう。 【画像】「サイズは10MBまで」「ファイル名に日本語はNG」「パスワード付ZIPは時代遅れ」… 相手に常識知らずと思われないためのメール“添付ファイル”最新マナー 添付ファイルの容量は何MBまでOK?添付ファイルのサイズが大きいと、相手が受け取れずに戻ってきてしまうことがある。 添付ファイルのサイズ制限に引っかかると、「MAILER-DAEMON」や「Mail Delivery Subsystem」というエラーメッセージが返ってくることが多いが、ここで「なんだか英語のメールが来たけれど迷惑メールかな?」と無視してしまうと、相手にはずっと届かな

                              「サイズは10MBまで」「ファイル名に日本語はNG」「パスワード付ZIPは時代遅れ」… 相手に常識知らずと思われないためのメール“添付ファイル”最新マナー(集英社オンライン) - Yahoo!ニュース
                            • やっかいな日本語

                              package main import ( "fmt" "unicode" "github.com/ikawaha/encoding/jisx0208" ) func main() { for _, c := range "1二③Ⅳ" { fmt.Printf("%#U %v a JIS X 0208 character\n", c, func() string { if unicode.Is(jisx0208.RangeTable, c) { return "is" } return "is not" }()) } // Outpu: // U+FF11 '1' is a JIS X 0208 character // U+4E8C '二' is a JIS X 0208 character // U+2462 '③' is not a JIS X 0208 character // U

                                やっかいな日本語
                              • まつもとゆきひろにRubyとコミュニティ、リーダーシップを聞く。「私の仕事は『良いとは何か』を定義すること」 - TechFeed Conference 2022スペシャルインタビュー

                                本記事は、TechFeed Conference 2022の開催に際しての「基調講演」コンテンツです。 先日TechFeed公認エキスパートにもご就任頂いた「Rubyの父」まつもとゆきひろさんに、TechFeedならではの切り口でロングインタビューを敢行! TechFeed Conferenceは、「コロナ禍に負けず、エンジニアコミュニティをまた盛り上げよう!」という趣旨で企画されました。ということで、今回はまつもとさんにRuby、コミュニティ、そしてリーダーシップについて伺ってみました。(前編ではまつもとさんの技術情報収集術、そして現在の主な関心事について存分に語っていただきました)。 まつもとゆきひろさんとエンジニアコミュニティ – エンジニアコミュニティとはまつもとさんにとってどういう存在でしょうか。 まつもと: 難しいですね。コミュニティというのは実体がない。コミュニティという人は

                                  まつもとゆきひろにRubyとコミュニティ、リーダーシップを聞く。「私の仕事は『良いとは何か』を定義すること」 - TechFeed Conference 2022スペシャルインタビュー
                                • 形態素解析と単語のベクトル化してみた - Qiita

                                  # データ型を文字列型に変換(pythonの書き方) text = binarydata.decode('shift_jis') # いらないデータを削ぎ落とす text = re.split(r'\-{5,}',text)[2] text = re.split(r'底本:',text)[0] text = text.strip() # 形態素解析を行う t = Tokenizer() results = [] lines = text.split("\r\n") # 行ごとに分けられている for line in lines: s = line s = s.replace('|','') s = re.sub(r'《.+?》','',s) s = re.sub(r'[#.+?]','',s) tokens = t.tokenize(s) # 解析したやつが入っている r = [] # 一

                                    形態素解析と単語のベクトル化してみた - Qiita
                                  • 毎月勤労統計調査問題における政府と専門家

                                    毎月勤労統計調査問題における政府と専門家 - データに基づく批判の不在 田中 重人 <http://tsigeto.info/22y> (東北大学) 第144回社会政策学会大会 (2022-05-14) [Full Paper PDF (886 KB)] [OSF Preprint] [Academia.edu] [Slides PDF (2.6 MB)] [Handout PDF (1 MB)] [著者への問い合わせ] [リンク] URI: http://tsigeto.info/22y Title: 毎月勤労統計調査問題における政府と専門家: データに基づく批判の不在 || The government and experts on the scandal about the Monthly Labour Survey of Japan: Absence of data-based c

                                      毎月勤労統計調査問題における政府と専門家
                                    • You can't just assume UTF-8

                                      Humans speak countless different languages. Not only are these languages incompatible, but runtime transpilation is a real pain. Sadly, every standardisation initiative has failed. At least there is someone to blame for this state-of-affairs: God. It was him, after-all, who cursed humanity to speak different languages, in an early dispute over a controversial property development. However, mankind

                                        You can't just assume UTF-8
                                      • 話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加(窓の杜) - Yahoo!ニュース

                                        「やじうまの杜」では、ニュース・レビューにこだわらない幅広い話題をお伝えします。 【画像】「TELNET over SSL」版電子公告を閲覧するために「OpenSSL」をインストール 昨日、一般社団法人サイバー技術・インターネット自由研究会の電子公告が「Telnet」で行われていることをお伝えしましたが、「セキュリティを謳っているくせに平文通信じゃん」というクレームがついた模様。それに応えて、さっそく「TELNET over SSL」版が公開されたそうです。 Windows 11環境で「TELNET over SSL」版の電子公告を閲覧するには、「OpenSSL」が必要。「コマンド プロンプト」などに以下のコマンドを打ち込んで、サクッとインストールしましょう。 winget install openssl ちなみに「winget」というのは、Microsoftが開発しているWindowsプ

                                          話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加(窓の杜) - Yahoo!ニュース
                                        • クライアント側でCSV生成してダウンロードさせる - blog

                                          追記: Safariも10.1からdownload属性が利用できるにようになりました。 https://developer.mozilla.org/en-US/docs/Web/HTML/Element/a#Browser_compatibility CSVの生成 参考 ダウンロード msSaveBlob download属性 Data URI scheme + data:attachment/… サンプル その他 参考 CSVの生成 const arr = [ ['ご利用年月日', 'ご利用"箇所', 'ご,利,用,額'], ['2017/01/29', '', '""345'], ['2017/02/01', '"AM"AZON.CO.JP', '7,362'], ]; /** * 各フィールドの囲い -> ダブルクォーテーション * 各フィールドの区切り -> カンマ * 改行コード

                                            クライアント側でCSV生成してダウンロードさせる - blog
                                          • PowerShell起動時、文字コードをUTF-8に変える方法 - Qiita

                                            Goal ショートカット設定でPowerShell起動時に文字コードをUTF-8に変える。 経緯 プログラムをコンソールから実行した時、 日本語が含まれていると文字化けが 発生します。 特にWindowsでは、UIの文字コードを UTF-8にするためには、システム全体の 表示言語を英語にする必要があり、 UIは日本語、文字コードはShift-JIS (CP932、Windows-31J)を妥協して 使っている方が多いと思います。 プログラムをコンパイルして実行する前に、 chcp 65001を打ち込んで文字コードを 変える儀式を繰り返すことは無駄だと 気付いた時、即座にリンク先の中に 下記の内容を記述しましょう。 手順 PowerShellショートカットのプロパティを開く。 リンク先を編集する。 プロパティのOKボタンをクリックする。 詳細説明 PowerShellのショートカットの場所を

                                              PowerShell起動時、文字コードをUTF-8に変える方法 - Qiita
                                            • 地方公共団体の位置データ Location Data of Local Governments in Japan - ASTI アマノ技研

                                              データ概要 2023年(令和5年)12月現在の全国の地方公共団体(都道府県市区町村の役所)全1,963件の所在地・位置座標(緯度経度)データです。庁舎移転や仮庁舎も可能な限り反映させています。データの詳細はダウンロードファイルに含まれるreadme.txtを参照してください。本データは標高計算機の日本の都市リストで使用しているものとほぼ同じ内容です。地方公共団体一覧としてもお使いいただけます。 パッケージにはShift_JIS(CRLF,Windows用)とUTF-8(LF,macOS用)の2種類のタブ区切りCSV(Character-Separated Values)ファイルが入っています。CSVのCはComma(カンマ)ではなくCharacter(記号)である点ご注意ください。「タブ区切りなのでCSVではなくTSVである」などといったご指摘も対応に苦慮しますのでご遠慮ください。研究利用

                                                地方公共団体の位置データ Location Data of Local Governments in Japan - ASTI アマノ技研
                                              • The Wonderfully Terrible World of C and C++ Encoding APIs (with Some Rust)

                                                Last time we talked about encodings, we went in with a C++-like design where we proved that so long as you implement the required operations on a single encoding type, you can go between any two encodings on the planet. This meant you didn’t need to specifically write an e.g. SHIFT-JIS-to-UTF-8 or UTF-EBCDIC-to-Big5-HKSCS pairwise function, it Just Worked™ as long as you had some common pivot betw

                                                  The Wonderfully Terrible World of C and C++ Encoding APIs (with Some Rust)
                                                • 歩鉄の達人(廃線・動態保存機関車・マンホール写真・廃道・隧道・ウオーキング)

                                                  <BODY> <P>このページを表示するには、フレームをサポートしているブラウザが必要です。</P> <script type="text/javascript"><!-- var _JustAnalyticsConfig = { 'siteid': '37255', 'domain': 'www.hotetu.net', 'path': '/', 'filepath': '/index.html' }; // --> </script><script type="text/javascript" src="http://tracker.kantan-access.com/js/ja.js"></script><noscript><img width="1" height="1" alt="" src="http://tracker.kantan-access.com/jana_track

                                                  • Ubuntuでもkindle本を読む方法 – MY ROBOTICS

                                                    近年では、電子書籍も結構浸透してきたのではないでしょうか。 私もAmazonで電子書籍を購入する機会が増えたように思います。 Amazonで購入した電子書籍をPCで読むためには、KindleのPC用アプリをAmazonからダウンロードしてインストールする必要があります。 でもそのアプリケーション、はたしてUbuntu(linux)では動くのでしょうか??? 今回は、Ubuntuでもkindle本を読むことができる方法について記述していきます。 Ubuntu(linux)でkindle本を読むための2つの方法Amazonで購入した電子書籍をPCで読むためには、KindleのPC用アプリをAmazonからダウンロードしてインストールする必要があります。 しかし、Amazonで提供されているkindleのPCアプリはMac版とWindows版の2つのみ。 linux版のkindlePCアプリは存

                                                    • AutoHotkeyのススメ - Qiita

                                                      はじめに AutoHotkey歴2年にして、それなりに便利な使い方がわかってきました。 どうやら独自の運用方法をしているようですし、布教のためにもと思い、紹介しておくことにしました。 ※初心の方はまずこちらからご覧ください。 【連載】なぜAutoHotkeyを使うのか ※最新のオリジナルAutoHotkeyスクリプトはこちら。 https://github.com/ryoheiszk/PortableApps/tree/master/ProgramFiles/AutoHotkey 環境構築 ※ 下の記事の要約です。 【連載】AutoHotkeyのインストール・環境構築 以下のツールを用います。 AutoHotkey(Unicode) - Portable VSCode AutoHotkey Plus(VSCode拡張) Git AutoHotkey(Unicode) - Portable

                                                        AutoHotkeyのススメ - Qiita
                                                      • 【Visual Studio Code】快適なCSV編集用プラグインedit csvの使い方 – IT Learning

                                                        概要Windowsでcsvを手軽に編集したいときには標準でインストールされているメモ帳を使用することが良くあります。ただし、メモ帳はcsv編集に特化しているわけではないため、行列を意識したような編集をすることは苦手です。Microsoft Officeが使える環境であればExcelを使用するという手もあります。ただし、Excelの場合は文字化けする、保存するとshift-JISになってしまう、など少し余計なことで手間がかかってしまう場合があります。 今回はそんな課題に対するちょうどいいcsvエディタとしてVisual Studio Codeの拡張機能である”edit csv”の使い方について紹介します。 環境Windows 10 64bitVisual Studio Code 1.55.0Step 1 : edit csvのインストールVisual Studio Code(以下VSCode

                                                        • 【Python】購買データから購買サイクルを計算する - Qiita

                                                          ID別に購買サイクルを計算する 下記のようなID別に購買日を縦持ちで持っているデータに対して、ID別に購買間隔をPythonで計算する方法です。 データ(id_date.csvとする) コード #ライブラリの読み込み import pandas as pd import numpy as np #データの読み込み 文字コードはファイルに合わせて指定 df = pd.read_csv('id_date.csv',encoding='shift-jis',dtype={'ID':'str','DATE':'str'}) #並び替える(日付昇順) df_arg = df.sort_values(['ID','DATE'],ascending=[True, True]) #購入日を日付型に変換(元々日付型であれば不要) df_arg['DATE_dt'] = df_arg['DATE'].appl

                                                            【Python】購買データから購買サイクルを計算する - Qiita
                                                          • 気象予報値取得APIを利用して機械学習による電気使用量を予測する手順をまとめてみた - Qiita

                                                            はじめに Web上で継続的に公開している電力使用量予測について、新型コロナウイルス感染症の影響からか予測の精度がイマイチになってきた感じがしているところです。 電力使用量予測 predicted by blueOmega そろそろ再学習させてみようかなと思ったところで、先日開発した気象予報値取得APIを利用する方法を試してみたのでその手順をまとめてみます。 ちなみに、気象予報値取得APIの紹介記事は以下をご参照下さい。 気象予報値などをAPIで取得できるサービスのテスト版を公開してみた 学習用データの取得 でんき予報 | 中国電力ネットワーク 上記ページの「過去の電気使用実績」から2019年、2020年の実績をダウンロードします。 気象庁 | 過去の気象データ・ダウンロード 上記ページより、広島と松江における1時間ごとの気温データを2019年4月から2020年12月の期間分取得します。 1

                                                              気象予報値取得APIを利用して機械学習による電気使用量を予測する手順をまとめてみた - Qiita
                                                            • 僕は、なぜ絵文字の長さが、直感に反するのか理解したい...!! - Qiita

                                                              対象者 UnicodeやUTF-16について、よくわかってない人 -> ここから "😀".split("")で文字化けする理由がわからない人 -> ここから [..."👨‍👩‍👧"].lengthが5になる理由がわからない人 -> ここから 文字コードについてもう一度 文字コードは以下の二つで構成されています 符号化文字集合: 文字と、その文字の位置を示す一意の番号の集合 文字符号化方式: 文字に振られた番号をバイト表現にエンコードする方法 符号化文字集合 符号化文字集合は、 文字 その文字の位置を示す一意の番号 この二つの組み合わせの集合のことを指します。 例えばASCIIでは 8bit(128通り) でラテン文字や英数字を表現しています。 しかしASCIIには日本語などの非英語圏の文字が収録されていません。 そのため、日本語を収録したShift-JISやアジア圏の文字を収録した

                                                                僕は、なぜ絵文字の長さが、直感に反するのか理解したい...!! - Qiita
                                                              • なにやら文字コードについてMSが言ってるようなのでツッコミ入れておこうと思う|JunTajima

                                                                ツッコミポイント・Windowsにおける外字ってそういうのを多用してるのはどうせお役所とかだろうからそっちに直接言ったらどうか ・たかが外字持って行っただけでOSのハングアップやブルースクリーンって何だw どうせUnicodeのPUA使ってるだけだろう ・Unicodeで文字が定義されてるかどうかとそいつが手元の環境で出せるかどうかは別問題だ。フォント入れろフォント ・MacでShift_JISのファイル読めないんてことはないよ。cp932(JISX0208のMSによるオレオレ拡張)依存の丸数字が化けたりするけど ・OneDriveのポンコツ実装をユーザーのせいにするなw ・お前のとこの「メモ帳」のデフォルト保存文字コードが長らくcp932だったからずっとShift_JISが残っているのだぜ ・お前のとこの表計算ソフトでCSVをcp932決め打ちで開く挙動どうにかしろ ・お前のとこの圧縮解

                                                                  なにやら文字コードについてMSが言ってるようなのでツッコミ入れておこうと思う|JunTajima
                                                                • LinuxでシフトJISが使えた - tmtms のメモ

                                                                  ふと、最近の Linux って EUC-JP ロケール使えるんだっけ? と思ったんで調べてみた。環境は Ubuntu 22.04。 EUC-JP ロケール locales パッケージが入ってない場合はロケールはこれだけ: % locale -a C C.utf8 POSIX locales と language-pack-ja をインストール: # apt install locales language-pack-ja locale-gen コマンドを実行すると ja_JP.utf8 が増える: # locale-gen Generating locales (this might take a while)... ja_JP.UTF-8... done Generation complete. # locale -a C C.utf8 POSIX ja_JP.utf8 /etc/loc

                                                                    LinuxでシフトJISが使えた - tmtms のメモ
                                                                  • Python♪Windowsの「Shift JIS」の落とし穴

                                                                    「CP932」を「Shift JIS」だと思って使っていませんか? 入出力ファイルのデフォルト文字コードは? Windowsの「Shift JIS」には落とし穴がたくさんあります。最初が肝心ですので、後回しにしないようにしましょう。 なお、最初に覚えるべき「Shift JIS」は2つだけです。「Shift JIS」の変遷といっしょに理解すると覚えやすくなります。 なお、ファイルの入出力については以下の記事を参照してください。 Python♪用途別にまとめたファイルの入出力コード 1.「Shift JIS」はたくさんある 文字コードの中でも、最もやっかいなのが「Shift JIS」です。一言で「Shift JIS」といっても、Pythonで指定できる「Shift JIS」は「'cp932'」「'shift_jis'」「'shift_jisx0213'」「'shift_jis_2004'」の4

                                                                      Python♪Windowsの「Shift JIS」の落とし穴
                                                                    • どこよりも詳しくダブルクロスバリデーションについて語ってみた - Qiita

                                                                      この記事を読んで得られること ダブルクロスバリデーションとは? 他の交差検証手法との比較 ダブルクロスバリデーションの実装方法 「ホールドアウト法」、「交差検証」、「クロスバリデーション」 についても学べると思いますので参考にしてください。 ※プログラミング関係の内容を他にも投稿していますので、よろしければこちらの一覧から他の投稿も見て頂けますと幸いです。 ダブルクロスバリデーションとは? 機械学習では未知のデータに対する予測精度を評価するために交差検証を行います。ダブルクロスバリデーションはその手法の1つであり、各交差検証の手法を以下にまとめました。 1. 良くない例 まずは良くない例として、データセットを分割せずに学習用データ=検証用データの例を示しています。これはモデルの学習に用いたデータを使って、そのモデルを評価するというものです。検証用のデータは全て学習済みのデータ(見たことがあ

                                                                        どこよりも詳しくダブルクロスバリデーションについて語ってみた - Qiita
                                                                      • VisualStudioのデフォルトエンコードをUTF-8にする方法 - Qiita

                                                                        EditorConfig EditorConfig使えばほぼほぼ解決します。VSやVSCode, Riderや秀丸などたいがいのIDEは対応してます https://learn.microsoft.com/ja-jp/visualstudio/ide/create-portable-custom-editor-options?view=vs-2022 ずいぶん古くなってしまったので前のやつは畳んでおきます http://bloghandling.blogspot.jp/2016/05/visualstudioutf-8.html?m=1 確認したらずいぶん昔に書いたblogの内容のレイアウトがバラバラになってしまったのでQiitaに上げ直します。 introduction Visual studio's default encoding is SHIFT-JIS. But sometime

                                                                          VisualStudioのデフォルトエンコードをUTF-8にする方法 - Qiita
                                                                        • Pythonを利用した各種ファイルのワードクラウド化です。 - Qiita

                                                                          様々な形式のファイルをテキスト化してワードクラウドで分析します。 pythonを利用した、テキストファイルをワードクラウド表示するサンプルはいくつか、見つかります。 ところが、手元にある分析したいファイルは、エクセルだったり、ワード、パワーポイント,pdf,htmlなどテキスト以外の様々なファイルがあります。 これらをテキスト化する方法も個々に見つけられますが、個別に変換するのが面倒だったので、これらのファイルを解析してワードクラウドで分析するようなコードを書いてみました。 分析対象の具体的な拡張子は .xlsx,.docx,.pptx,.pdf,.csv,.txt,.text,.md,.htm,.html です。 また、テキストの拡張子を増やすのは、簡単に拡張できます。 (コードのコピペでなく、配列変数修正だけで拡張できるよう直すかもしれません。) 各種ファイルのライブラリを利用してます

                                                                            Pythonを利用した各種ファイルのワードクラウド化です。 - Qiita
                                                                          • AlmaLinuxにプリインストールされているiconvをShift JISに対応させる - Qiita

                                                                            解説 AlmaLinux 9のDocker Imageから起動したコンテナでiconvを試すと以下のエラーが発生する場合があります。 $ echo 'あ' | iconv -f UTF8 -t SHIFT_JIS iconv: failed to start conversion processing: No such file or directory このエラーはプリインストールされているiconvに対応していないキャラクターセットを指定した場合に発生します。 今回の場合は SHIFT_JIS に対応していなかったのでエラーが発生しました。 # 対応しているキャラクターセット一覧の表示 $ iconv -l The following list contains all the coded character sets known. This does not necessarily

                                                                              AlmaLinuxにプリインストールされているiconvをShift JISに対応させる - Qiita
                                                                            • 【Ruby】RubyでCSV形式のデータを読みこみや書きこみをしたい時 - Qiita

                                                                              概要 Rubyでcsvファイルを読み込んで新たに書き出せるようにしたかった。 Gemを利用しても実装できるが、あえてRubyのみで実装した。 手順 1.テストデータの取得 テスト用に郵便番号データの「東京」のcsvファイルでテストします。 ◇郵便番号データ 2.使用するライブラリ CSV形式ファイルを使うには、標準ライブラリcsvを利用するのが便利です。 ◇csvライブラリ https://docs.ruby-lang.org/ja/latest/library/csv.html 今回、使用する13TOKYO.csvはShift-JISでエンコードされているため、その後の処理で不都合があるかもしれないので、Shift-JISからUTF-8に変更します。 ◇kconvライブラリ https://docs.ruby-lang.org/ja/latest/library/kconv.html c

                                                                                【Ruby】RubyでCSV形式のデータを読みこみや書きこみをしたい時 - Qiita
                                                                              • MeCab辞書をSudachi辞書に変換して固有表現抽出 - deepblue

                                                                                大体はこの通りにcsvのカラムを作り直せば大丈夫ですが、似ているようで違うので、何点か注意が必要です。 見出し (TRIE 用) Sudachiには文字の正規化が必要です(参考)。 左連接ID・右連接ID Sudachiのドキュメントにunidic-mecab 2.1.2 の左文脈ID・右文脈ID参考にするように、とあるので、使っているunidic-mecabのバージョンを確認しなければいけません(UniDicの左文脈ID)。 MeCabにとっては-1は連接IDを自動推定する特殊な値です。 コスト MeCabのコストには制限がありませんが、Sudachiのコストの範囲は32767~-32767の制限があるので調整が必要です。 Sudachiにとっては-32768はコストを自動推定する特殊な値です。 品詞1~4 品詞も連接IDと同様、MeCabのunidic-mecab 2.1.2の品詞体系

                                                                                  MeCab辞書をSudachi辞書に変換して固有表現抽出 - deepblue
                                                                                • MultipartのboundaryがSQLインジェクションとして検知されることがある

                                                                                  Photo by Dim Hou on UnsplashTeachme Biz にはCSVファイルをアップロードすることでアカウントの一括作成・一括更新ができる機能があります。先日、サービスをご利用中のお客様からのお問い合わせで「特定のCSVファイルのアップロードが 403 エラーになる」という事象が発覚しました。 アクセスログ等を調査した結果、この403エラーを返していたのはアプリケーションサーバーではなくその前段にある ALB (Application Load Balancer) であることが分かりました。ALBが、設定された WAF (Web Application Firewall) のルールに従いリクエストを終端していたのです。 ログを読んでみようAWS WAF の場合、ログの terminatingRuleId にリクエストを終端したルールが記録されます。問題のリクエストは

                                                                                    MultipartのboundaryがSQLインジェクションとして検知されることがある