並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 245件

新着順 人気順

unicodeの検索結果1 - 40 件 / 245件

  • バックスラッシュと円記号の歴史と違い

    最近知ったんですが、Windowsではキーボードから円記号(¥)の入力はできないらしい。 というのも キーボード右上の¥キー キーボード右下の\キー のどちらかを押せば円記号(¥)を入力できますが、どちらを押しても入力されるのは円記号(¥)に偽装されたバックスラッシュ記号(\ )らしい。 皆さんこれ知ってました? いや正直、これを聞いても「何言ってんだコイツ」って思う人が大半だと思いますし、私も今でもそう思います。 これは「バックスラッシュと円記号問題」などと言って、Windowsで昔から続く”呪い”のようなものらしいのですが この”呪い”を理解するには文字コードの歴史を知る必要があります。 文字コードとは? その前に、そもそも文字コードってなによ?という根本的な話からすると、文字コードは「パソコンに文字を覚えさせるための暗記表」みたいなものです。 パソコンは2進数しか理解できないので あ

    • 絵文字を支える技術について|nona

      はじめにこちらはmhidakaが建立したAdvent Calendar Day.3となります。 こんにちは、はじめまして、のなと申します。mhidakaさんのTweetを見つけて、初めてAdvent Calendarなるものを書いています。なにかお作法間違っていたら大目に見てください、よろしくお願いします。 軽く自己紹介をさせていただくと、普段はGoogleでAndroidのTextまわりの開発を行っており、DroidKaigiやShibuya APKで発表させていただいたりしています。最近はほぼ絵文字の話しかしてないので、絵文字おじさんと思われてそうですが、普段の仕事は絵文字に限らず、Androidの文字表示の部分は大抵面倒をみています。 今回この機会をいただいたので、どんな内容を書こうか迷ったのですが、やはり皆が読んで面白い内容というと、絵文字になるのかなぁ、ということで性懲りもなく絵

        絵文字を支える技術について|nona
      • 全ての開発者が知っておくべきUnicodeについての最低限の知識

        2003年には「プレーンテキストなんてものは全く存在しない」と言われ、テキストの解読には文字コードの情報が必須となっていました。しかし、2023年になるまでの20年の間に絵文字などのおかげでUnicodeの利用率は98%へと到達し、再び文字コードを気にせずにすむ時代がやってきています。そんな時代において、正しくUnicodeを使うために必要な知識をエンジニアのニキータ・プロコポフさんが解説しています。 The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me https://tonsky.me/blog/unicode/ Unicodeの歴史と利用率の推移をまとめたグラフは下図の通り。2000年代後半から急速に普及が進んでいったこ

          全ての開発者が知っておくべきUnicodeについての最低限の知識
        • 「住所は英数字もすべて全角で入力してください」はなぜそうなったのか - Qiita

          Webサービスのフォームに住所を入力するとき、丁目や番地などを入れる欄について、数字やハイフンを全角で書かなければいけない「全角縛り」をやっているフォームをよく見ます。半角文字を入力してしまってエラーになったり、咄嗟に変換方法を思い出せなかったり、全角と半角の見分けが付きづらかったり、「全角縛り」であることが明示されていなかったり、「ハイフン」としてどの文字を使うべきかわからなかったり……と、鬱陶しさを感じることが多くあります。 「住所は全角のみ」(数字やハイフンも絶対に半角を受け付けない)という仕様がどういう経緯で生まれて、どう広まっていったのかが気になってる。いま存在しているのは過去の仕様や慣習の踏襲として理解できても、そもそもなぜそれらが生まれたのかが理解できない。 https://t.co/ZLz0Pw9GOK — ymrl (@ymrl) July 29, 2024 これについて

            「住所は英数字もすべて全角で入力してください」はなぜそうなったのか - Qiita
          • 「ドコモの絵文字が見づらい問題」を考える なぜ、今のスマホにそぐわないのか

            携帯電話を用いたコミュニケーションの手法の1つに「絵文字」がある。日本で生まれたこの絵文字は、GoogleとAppleによって標準化され、今ではさまざまなスマートフォンやPCでもでも閲覧できる。 その一方、ドコモで販売されるAndroidスマートフォンには、いまだフィーチャーフォン時代の絵文字が表示される。しかしこれが今のスマートフォンにそぐわない側面が出ている。この絵文字問題について考察したい。 今の絵文字は日本のものをベースにGoogleとAppleが標準化を提案 絵文字を携帯電話に採用したのは、NTTドコモが最初だ。この後にDDI(現au)、J-フォン(現ソフトバンク)が採用する形で続く。絵文字にはシフトJISというコードが用いられていたが、互換性維持の空き領域に絵文字を割り当てたことから、キャリア間で互換性がなく、文字化けの要因となっていた。 後に自動変換サービスも展開されたが、使

              「ドコモの絵文字が見づらい問題」を考える なぜ、今のスマホにそぐわないのか
            • 「定期的に変更するな」 NISTがパスワードポリシーのガイドラインについて第2版公開草案を発表

              訂正のお知らせ 本文中で、修正前は「パスワードポリシーに関するガイドライン『NIST Special Publication 800-63B』の改訂版」と記載していましたが、正しくは「『NIST Special Publication 800-63B-4』の第2版公開草案」の誤りでした。誤解を招く表現となっていたことをお詫び申し上げます。該当箇所を訂正しました(2024年9月30日15時20分更新)。 米国立標準技術研究所(NIST)は2024年8月21日(現地時間、以下同)、パスワードポリシーに関するガイドライン「NIST Special Publication 800-63B-4」について、第2版公開草案を発表した。 同草案では定期的なパスワードの変更や異なる文字タイプの混在(例えば数字、特殊文字、大文字小文字を組み合わせる)を義務付けるべきではないことが提案されている。 「パスワード

                「定期的に変更するな」 NISTがパスワードポリシーのガイドラインについて第2版公開草案を発表
              • Googleが変体仮名フォント「Noto Hentaigana」をリリース ~蕎麦屋の看板などを再現可能/Unicodeに登録されている変体仮名286文字をカバー

                  Googleが変体仮名フォント「Noto Hentaigana」をリリース ~蕎麦屋の看板などを再現可能/Unicodeに登録されている変体仮名286文字をカバー
                • ディズニー『白雪姫』が実写映画化。白雪姫役がラテン系アメリカ人で「女王役の方が美しい」などの声

                  ディズニー・スタジオ @disneystudiojp ウォルト・ディズニー・ジャパンの映画・ブルーレイ・デジタル配信の最新情報をお届けする公式アカウントです。恐れ入りますが、こちらではご質問をお受けすることができませんので、予めご了承ください。 ディズニー・スタジオ @disneystudiojp ꧁『#白雪姫』꧂ 2025年3月20日(木・祝)劇場公開決定🎬 ディズニー初の長編映画であり、 世界で最も長く愛される ディズニープリンセスが ついに実写映画化🍎❗️ さらに ✧· 特報映像も解禁 ·✧ 時を超え、珠玉の楽曲とともに 究極のミュージカル・ファンタジーが 世界中に魔法をかけるーー✨ ディズニー・スタジオ @disneystudiojp 『#白雪姫』 ポスタービジュアル解禁✨ キラキラとした陽射しの中で佇む 白雪姫を演じるのは 抜群の歌唱力を誇る #レイチェルゼグラー🍎 今なお

                    ディズニー『白雪姫』が実写映画化。白雪姫役がラテン系アメリカ人で「女王役の方が美しい」などの声
                  • 浮動小数点型の算術とお近づきになりたい人向けの記事 - えびちゃんの日記

                    お近づきになりたい人向けシリーズです。 いろいろなトピックを詰め込みましたが、「これら全部を知らないといけない」のようなつもりではなく、いろいろなことを知るきっかけになったらいいなという気持ちなので、あまり身構えずにちょっとずつ読んでもらえたらうれしい気がします。 まえがき 予備知識 規格 用語 精度という語について 記法 表現について 有限値の表現について エンコードについて 丸めについて よくある誤差や勘違いの例 0.1 = 1 / 10? 0.1 + 0.2 = 0.3? 整数の誤差 Rump’s Example 基本的な誤差評価 用語に関して 実数の丸め 有理数の丸め 基本演算の丸め 差について 複数回の演算 補題たち 桁落ちについて Re: Rump’s example 融合積和 数学関数に関する式の計算 誤差の削減に関して 総和計算 数学関数の精度について 比較演算について 雑

                      浮動小数点型の算術とお近づきになりたい人向けの記事 - えびちゃんの日記
                    • 濁点付きの「あ゙」や「お゙」を正しく入力する方法は?(「あ"」「お"」ではなく)/入力システム(IME)で変換するか、「RichEdit」の機能を活用しよう【やじうまの杜】

                        濁点付きの「あ゙」や「お゙」を正しく入力する方法は?(「あ"」「お"」ではなく)/入力システム(IME)で変換するか、「RichEdit」の機能を活用しよう【やじうまの杜】
                      • 「Tera Term 5.0」がリリース ~18年ぶりのメジャーバージョンでUnicodeに全面対応/来年で30周年を迎える老舗のリモートログオンクライアント

                          「Tera Term 5.0」がリリース ~18年ぶりのメジャーバージョンでUnicodeに全面対応/来年で30周年を迎える老舗のリモートログオンクライアント
                        • 「慶応」も「コンクリート」も漢字1文字で ~Unicode標準に新しいブロックが提案中/手書きでしばしば用いられる「部首+カナ」スタイルの略式漢字【やじうまの杜】

                            「慶応」も「コンクリート」も漢字1文字で ~Unicode標準に新しいブロックが提案中/手書きでしばしば用いられる「部首+カナ」スタイルの略式漢字【やじうまの杜】
                          • まつもとゆきひろ氏が“幻のPerl6”から学んだ教訓 「OSSの最大の敵」と「セカンドシステムの危険性」

                            プログラミング言語「Ruby」の国内最大のビジネスカンファレンス「RubyWorld Conference」。Rubyの先進的な利用事例や最新の技術動向、開発者教育の状況などの情報を発信することで、「Rubyのエコシステム(生態系)」を知ることができる場として開催します。ここで登壇したのは、Rubyアソシエーション 理事長のまつもとゆきひろ氏。プログラミング言語の過去、歴史から学ぶ教訓について発表しました。全4回。3回目は、「Second System Syndrome」について。前回はこちら。 退屈は最大の敵 まつもとゆきひろ氏:次はPerlですね。ここまでですでに4回ぐらいPerlの話題が出てきています。なぜかというと、私はPerlが大好きなんですね。実は、Perlが大好きなんですが、Perlのプログラミングは大好きじゃないんですね。あと、Perlのソースコードも大好きじゃないんですね

                              まつもとゆきひろ氏が“幻のPerl6”から学んだ教訓 「OSSの最大の敵」と「セカンドシステムの危険性」
                            • 5人組アイドル「UNICODE」登場 デビューシングルは「HELLO WORLD」 IT関心層「検索しにくそう」

                              7月23日、アイドルグループ「UNICODE」(ユニコード)の日本におけるデビューシングル「HELLO WORLD」が発売された。日本人女性5人で構成されたグループだが、全員が韓国語を話せるバイリンガルで、プロデュースの拠点も韓国であることからK-POPアイドルをうたう。一方、グループ名やデビューシングルのタイトルから、SNSではITエンジニアなどIT関心層から「検索しにくそう」とする声も出ている。 UNICODEは、韓国では4月にデビュー。グループのマネジメントに携わるENPASS(東京都品川区)によれば「グループ名の由来は『UNICODE』は『Unity』(統一性)と『Code』の合成語で、『彼女たちの音楽は全ての国で共用されるコードのように全世界で通じる』という意味が込められている」という。 ただし、グループ名は文字コードの標準規格「Unicode」と、デビューシングルのタイトルはプ

                                5人組アイドル「UNICODE」登場 デビューシングルは「HELLO WORLD」 IT関心層「検索しにくそう」
                              • 全員日本人のUNICODE、K-POP名乗る理由 「J-POPでは」「IT用語と混合する」の声にもポジティブ

                                23日に日本デビューを果たしたメンバー全員が日本人の5人組K-POPガールズグループ「UNICODE」(ユニコード)が27日、都内で『UNICODE日本デビュー記念ライブイベント』を開催。グループ名をめぐる声に答えた。 【写真】その他の写真を見る UNICODEは、昨年4月にABEMAで公開された日本最大規模のオンラインオーディション「PROJECT K(プロジェクト ケイ)」で選抜されたメンバーを含む5人組。MIO(ミオ)、HANA(ハナ)、ERIN(エリン)、SOOAH(スア)、YURA(ユラ)の5人全員が日本人で、韓国語も流ちょうに話せる。23日に日本デビューを果たした際、世間からは「全員日本人だったらK-POPではなくJ-POP」という反応があった。 「J-POPじゃないか」の声に対し、ERINは「中にはネガティブな声もありますが、私たちはすべて肯定的に捉えています」と言及。K-P

                                  全員日本人のUNICODE、K-POP名乗る理由 「J-POPでは」「IT用語と混合する」の声にもポジティブ
                                • 😺←この絵文字、iPhoneだとかわいくないから注意して!

                                  おじさんがよく使ってるけど、かわいくないから!! 特にAndroidユーザは注意! Androidの猫は可愛いけど、iPhoneは可愛くないよ! 比較 ↓ https://yaytext.com/emoji/grinning-cat/ Appleの猫は可愛くないんだよ! やめようね!

                                    😺←この絵文字、iPhoneだとかわいくないから注意して!
                                  • pixivの全文検索基盤とElasticsearchによるリプレイス - pixiv inside

                                    まもなく17周年を迎えるpixivでは、長年にわたり作品などの全文検索基盤としてApache Solrを使用してきました。 しかし、サービスの規模が拡大する中で、従来の基盤に問題が生じていました。これを受けて、pixivでは全文検索基盤のリプレイスを実行しました。 今回のリプレイスにより、pixivでは検索結果の更新反映時間や検索APIのレイテンシが大幅に短縮されました。また、今後のスケールに対応可能になり、新機能開発においても全文検索が容易に利用できるようになりました。 本記事では、pixivの全文検索基盤の歴史や、今回オンプレミス環境でElasticsearchクラスタを構築し、リプレイスを完了するまでの取り組みについてご紹介します。 こんにちは。pixivのnamazuです。最近、私たちのチームで進めていたpixivの全文検索基盤のリプレイスが完了しました。この機会に、pixivの全

                                      pixivの全文検索基盤とElasticsearchによるリプレイス - pixiv inside
                                    • JavaScriptの組み込みAPIのIntlが凄いので紹介してみた。

                                      はじめに 明けましておめでとうございます。 (一週間遅れ) この記事はJavaScriptの組み込みAPI Intl の紹介と解説です。 Intl とは? MDN から引用すると Intl オブジェクトは、 ECMAScript の国際化 API の名前空間で、言語に依存した文字列の比較、数値の書式化と、日付の書式化を提供します。 Intl オブジェクトは、いくつかのコンストラクターに加え、国際化コンストラクターや他の言語に関する関数に共通する機能へのアクセスを提供します 用はi18nの書式版です。 例を出すより見たほうが早いので実際に機能解説します。 (先に言っておきますが、実はこれバックエンド無しで自然言語処理が出来る優れものです。) 用語解説 localesって何?そもそもnewって何?って人がいるかもしれないので locales https://developer.mozilla.

                                        JavaScriptの組み込みAPIのIntlが凄いので紹介してみた。
                                      • 35年ぶりの第2版「プログラミング言語AWK 第2版」、オライリーから5月発売

                                        awkは、UNIX登場初期からgrepやsedなどと並んで代表的なコマンドラインツールとして使われてきました。その名称が、作者であるAho氏、Weinberger氏、Kernighan氏の三者の名前からとったものであるというエピソードも非常に有名です。 そしてこの三人の作者が執筆した書籍「The AWK Programming Language」(邦題:プログラミング言語AWK)は、awkのバイブルと言ってよい書籍でしょう。 日本で1989年に第1版が発行されたこの「プログラミング言語AWK」が、35年ぶりに第2版に改訂され、今年(2024年)5月16日にオライリー・ジャパンから発売されることが分かりました(Amazon、楽天ブックス)。 著者は第1版と変わらず、Alfred V. Aho氏、Brian W. Kernighan氏、Peter J. Weinberger氏です。 下記はAm

                                          35年ぶりの第2版「プログラミング言語AWK 第2版」、オライリーから5月発売
                                        • 米Gizmodoの元記者、退職時にSlack上の名前を「Slackbot」に変えて数か月間なりすましていたことを告白 | テクノエッジ TechnoEdge

                                          ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 ビジネス向けIT技術情報サイトIT Brewのシニアレポーター、トム・マッケイ氏は、所属していた米Gizmodoを2022年に退職した際、Slackアカウントの名前を「Slackbot」に書き換え、その後数か月間、偽SlackbotとしてこっそりアクセスしていたことをX(Twitter)で明かしました。 マッケイ氏は、このことについてGizmodoの親会社であるG/O Mediaが「何か月も発見も削除もできなかった」と述べています。 Slackbotとは、Slackユーザーの特定の投稿に対して自動的にレスポンスを返したり、リマインダーを知らせたりする機能を持つBotのこと。 条件や応答内容を設定してカスタマイ

                                            米Gizmodoの元記者、退職時にSlack上の名前を「Slackbot」に変えて数か月間なりすましていたことを告白 | テクノエッジ TechnoEdge
                                          • C# Win32API完全入門 - Qiita

                                            はじめに 対象とする読者について 本記事の対象者としては以下のような人を想定しています。 C#でこれからWin32APIを使ってみたい。 C言語のことがあまりよく分かっていない。 今までは適当に使っていたので一度きちんと理解したい。 自分が同じような状況であったため、一から調べて整理してみました。自分が理解した順番や内容で記載することで、また、具体的な使用例によってできることの広さや動作を感じ取ってもらうことで、理解の助けになればと思っています。 但し、分かっている人からすると冗長な説明になっている部分や好ましくない内容、正確性に欠ける内容などもあると思います。実際に使用する場合はその点にご留意願います。 Win32APIについて Windows API - Wikipedia Microsoft Windowsのシステムコール用APIのこと。特に32ビットプロセッサで動作するWindow

                                              C# Win32API完全入門 - Qiita
                                            • 海外「日本には昔から存在するが…」 日本人だけが理解できる謎の世界的マークが話題に

                                              日本で誕生し、現在では世界中の人たちが、 文字通り日常的に活用している「絵文字」。 海外でもそのまま「EMOJI」で通じる世界語となっており、 日本独自の絵文字がそのまま海外でも使用されていますが、 日本の文化に根差している絵文字は、 外国人には通じないこともしばしばあるようです。 今回ご紹介する写真は、日本人の方がドイツで撮影したもので、 フランクフルト国際空港のロゴが写っています。 そのロゴが漫画やアニメで多用される「怒りマーク💢」に見える事から、 投稿者のTatsunoshin(@tatsunoshin_ofc)さんは、 「フランクフルト空港常にキレてるんやけど何?💢」と、 率直な疑問をぶつけておられます。 海外の多くの人々にとって「💢」に「怒り」のイメージはなく、 むしろ漠然と見ていた謎のマークである事から、 この疑問が外国人には非常に面白く、興味深かったようで、 多くのサイ

                                                海外「日本には昔から存在するが…」 日本人だけが理解できる謎の世界的マークが話題に
                                              • ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ

                                                まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

                                                  ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
                                                • Windows上でユニコードを「見る」方法

                                                  Windowsでは、文字コードに「ユニコード」を使う。Windowsに搭載されているフォントはさまざまあるが、ユニコード文字を表示できるように、多数の文字の形が組み込まれている。 今回は、Windowsでユニコードを“見る”方法について解説する。なお、WindowsではUTF-16LEエンコードをUnicodeと表記する。ここでは、エンコードと混同されないために、文字仕様のUnicodeは「ユニコード」とカナ書きすることにする。 GUIアプリでユニコードを使う ユニコード文字は多数ある。それぞれの文字に割り当てられた文字コードをユニコードでは「コードポイント」と呼ぶ。コードポイントは、「U+」の後ろに16進数4桁または6桁で指定するのが正式な表記方法だ。たとえば、「漢」は「U+6F22」となる。ユニコード関連の文書やもちろん、インターネット内のウェブページでも同様の表記をすることが多い。

                                                    Windows上でユニコードを「見る」方法
                                                  • Atom の作者達が作った Rust 製エディタ Zed (OSS) - Qiita

                                                    1. 概要 2024年の1月24日にZedがOpen source化しました! ということで、Zedとは何か、実際に使ってみてどうだったかというのを簡単にご紹介できればと思います。 2. Zed とは何か? AtomとTree-sitterのクリエイターによる、Rust製のコードエディターで、OSS (オープンソースソフトウェア) であり、 Githubのリポジトリ こちらで公開されています。 公式サイトから一部抜粋すると下記のような特徴があるようです。 2.1 パフォーマンスを重視した設計 2.2 インテリジェンス系のサポート Github Copilotのサポート GPT-4 を使用して、自然言語のプロンプトを入力することで、コードを生成したりリファクタリング可能 2.3 言語対応 入力時にすべてのバッファの完全な構文ツリーを維持し、正確なコードハイライト、自動インデント、検索可能なア

                                                      Atom の作者達が作った Rust 製エディタ Zed (OSS) - Qiita
                                                    • OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics

                                                      はじめに こんにちは。データサイエンスチームYAMALEXのSsk1029Takashiです。 最近はOpenAIに日本支社が出来て、日本語対応が加速するというニュースにわくわくしています。 今回はそんなOpenAIから発表されたBatch APIという機能が便利、かつお得な機能だったのでどのように使えるのか試してみます。 Introducing the Batch API: save costs and get higher rate limits on async tasks (such as summarization, translation, and image classification). Just upload a file of bulk requests, receive results within 24 hours, and get 50% off API pri

                                                        OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics
                                                      • PowerShellで面倒なオブジェクトはPSCustomObjectに変換するのが早道

                                                        PSCustomObjectとはそもそもなんぞや PowerShellのパイプラインは、オブジェクトを流すようになっている。なので、複雑な情報はPowerShellのオブジェクトにすると、あとの処理が簡単になる。 そのためにあるのが、「PSCustomObject」と呼ばれる汎用のオブジェクトだ。このオブジェクトであれば、Format-*や*-ObjectといったPowerShellの汎用コマンドを適用できる。 逆に言えば、PowerShellの汎用コマンドは、フラットな構造のオブジェクトを想定しており、プロパティの値がオブジェクトになっているようなものは扱いにくい。このような場合に、PSCustomObjectを作ってフラットな構造にすることで、以後は処理しやすくなる。 なお、PSCustomObjectの基本的なことは、Microsoftのサイトにページ(https://learn.m

                                                          PowerShellで面倒なオブジェクトはPSCustomObjectに変換するのが早道
                                                        • SQLiteでLinderaを使った日本語全文検索 - *iroi*

                                                          これは はてなエンジニアアドベントカレンダー2023 3日目の記事です。 はてなエンジニア Advent Calendar 2023 - Hatena Developer Blog はてなエンジニアのカレンダー | Advent Calendar 2023 - Qiita 昨日は id:pokutuna さんの blog.pokutuna.com でした。私も若い頃に同僚とGitHub上で白熱してしまい観光名所になってしまっていたような気がします。気を付けていきましょう。 さて、この記事では SQLiteでLinderaを使った日本語全文検索をする話を紹介します。 モチベーション laiso.hatenablog.com 上の記事でも話題になっているように個人開発ではDBのコストは問題です。同様に全文検索したいときにもコストに頭を悩ませているのではないでしょうか? たとえば Amazon

                                                            SQLiteでLinderaを使った日本語全文検索 - *iroi*
                                                          • Windows NT系はUNIX系と比較して設計上のどういう点が先進的だったのか?

                                                            元Google・現Microsoftのソフトウェアエンジニアであるジュリオ・メリノ氏が、現代のWindows 11の基盤アーキテクチャとなっているWindows NT系と、FreeBSDやLinuxなどに代表されるUNIX系を比較した考察をまとめています。 Windows NT vs. Unix: A design comparison - by Julio Merino https://blogsystem5.substack.com/p/windows-nt-vs-unix-design ・開発の経緯 MicrosoftはDOS系となるMS-DOSを1981年8月に、Windows 1.0を1985年11月にリリースしました。そして、DOS系の後継としてOS/2をIBMと共同開発していましたが、プロジェクトが難航したため、OS/2とは別となるMicrosoft独自の「Windows N

                                                              Windows NT系はUNIX系と比較して設計上のどういう点が先進的だったのか?
                                                            • Windowsカーネルから見るオブジェクトハンドル - ラック・セキュリティごった煮ブログ

                                                              デジタルペンテスト部の北原です。 今回は、Windowsでのツール開発者にとっては重要なハンドルの内部について解説します。 Windowsでは、ファイルやプロセスから始まりすべてのリソースはオブジェクトとして扱われ、ファイルの削除やメモリの確保にはハンドルを取得する必要があります。 ツールやアプリケーションの開発者にとっては、日常的にハンドルを操作する機会がありますが、通常の利用者にとってはあまり意識するものではありません。 本記事では、Windows OSでのハンドルの役割と、OS内部でどの様に管理されているのかについて解説します。 記事の構成は以下の通りです。 ハンドルの役割とアクセス権限 ハンドルへの情報の問い合わせと操作 カーネル空間でのハンドル管理 応用例1 - オブジェクトをロックしているプロセスの特定 応用例2 - カーネルモードルートキット 本記事は以下の読者層を想定してい

                                                                Windowsカーネルから見るオブジェクトハンドル - ラック・セキュリティごった煮ブログ
                                                              • ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します

                                                                こんにちは。iOSの日本語入力アプリである「azooKey」を開発しているMiwaです。 azooKeyは最近macOS版の開発が進んでいます。このazooKey on macOSに、完全にローカルで動作するニューラルかな漢字変換エンジンである「Zenzai」を開発し、搭載します。この記事ではZenzaiの技術を解説します。 Zenzaiを搭載したazooKey on macOSは現在アルファ版としてリリースしています。macOSをご利用の方はぜひ入れて試してみてください! Zenzaiの概要 日本語入力に欠かせないかな漢字変換ですが、その歴史は長く、50年にも及びます。この間様々なアルゴリズムが提案され利用されてきましたが、近年の技術開発はやや落ち着きつつあります。オープンソースのかな漢字変換ソフトウェアで今でも広く利用されているものは数えるほどしかありません。 クローズドソースのシステ

                                                                  ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します
                                                                • コモンエイジ:文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞

                                                                  行政機関が管理する膨大な数の「文字」がデジタル改革を阻んでいる。字形がわずかに異なる文字も含め、戸籍だけで約70万字。岸田文雄政権は自治体の情報システムを効率化するため、約7万字に絞り込む計画だ。だが、人によっては名前の漢字が変わる可能性があり、慎重論もくすぶる。文字を決めるのは誰なのか――。 スマホに表示できない 「スマートフォンやパソコンで表示できない文字がある。魑魅魍魎(ちみもうりょう)とした世界だ」 デジタル庁幹部は、戸籍などで使われてきた文字の特異性をそう表現し、「自治体システムを複雑にし、ガラパゴス化させた元凶だ」と言い切った。 政府は、自治体ごとに仕様がばらばらな戸籍や住民基本台帳、国民年金など20業務の情報システムを2025年度末までに標準化する方針を掲げている。 人口減少で公務員の確保が難しくなる中、システムの効率的な運用で行政サービスの質を維持する目的だ。多すぎる文字を

                                                                    コモンエイジ:文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞
                                                                  • とほほのPowerShell入門 - とほほのWWW入門

                                                                    ブレークポイントを設定してスクリプトをデバッグすることもできます。デバッガを使用するにはスクリプトをファイルとして保存し、下記の様にポリシー変更する必要があります。 Set-ExecutionPolicy -Scope CurrentUser ExecutionPolicy: RemoteSigned キーワード 言語としては下記のキーワードが定義されています。 変数 変数($xxx) 変数は $変数名 で表します。 $Name = "Yamada" Write-Output "My name is $Name." 変数の値を削除するには Clear-Variable を使用するか、値 $null を設定します。変数を削除するには Remove-Variable または Remove-Item を使用します。 Clear-Variable -Name a # 値をクリア $a = $nul

                                                                    • IT エンジニア的にとても困る名前のアイドルグループがデビュー→「狙ってますねこれは」「検索汚染が起きる」「姉妹グループはUTF8」

                                                                      リンク 音楽ナタリー 全員日本人のK-POPグループUNICODEが日本デビュー、MV&インタビュー映像公開(動画あり) K-POPガールズグループ・UNICODE(ユニコード)が、本日7月23日に日本デビューシングル「HELLO WORLD」を配信リリースした。 25 users 154

                                                                        IT エンジニア的にとても困る名前のアイドルグループがデビュー→「狙ってますねこれは」「検索汚染が起きる」「姉妹グループはUTF8」
                                                                      • Blue/Green デプロイを使用した、RDS MySQL/PostgreSQLのアップグレード

                                                                        TL;DR RDS の メジャーバージョンアップグレード を行なった PostgreSQL 11.6 -> 15.5 MySQL 5.7.44 -> 8.0.36 PostgreSQL は AWS CDK を利用した、自前での手動切り替えをベースにした Blue/Green デプロイによるアップグレードを行なった MySQL は AWS コンソールから AWSが提供している機能である RDS Blue/Green Deployments による MySQL のアップグレードを行なった nginx の ngx_http_proxy_module を活用してサービスのダウンタイムを防止した はじめに 初めまして。株式会社ジーニーの GENIEE CHAT開発チームのマネージャーを担当しています。 今回は、データベースのメジャーアップグレードを行った際の手順やポイントなどを書いていこうと思います

                                                                          Blue/Green デプロイを使用した、RDS MySQL/PostgreSQLのアップグレード
                                                                        • パスワード管理アプリ「KeePass」の偽サイトがGoogle広告によって検索結果のトップに表示される事態が発生

                                                                          ユーザーをだますために人気の高いウェブサイトになりすますケースがありますが、これとマルバタイジングを組み合わせた攻撃が確認されています。攻撃者はオープンソースのパスワードマネージャーアプリであるKeePassの偽サイトを作成し、これをGoogle広告で配信していた模様です。 Clever malvertising attack uses Punycode to look like KeePass's official website https://www.malwarebytes.com/blog/threat-intelligence/2023/10/clever-malvertising-attack-uses-punycode-to-look-like-legitimate-website 悪意のある攻撃者は、特殊な文字エンコーディングであるPunycodeを使用して、KeePas

                                                                            パスワード管理アプリ「KeePass」の偽サイトがGoogle広告によって検索結果のトップに表示される事態が発生
                                                                          • Windowsコードページの謎|kzn

                                                                            日本語が本格的に使えるようになりだした頃、そのコードはJISコードを巧妙に細工してモード切替を不要にしたシフトJISと呼ばれるものが使われました。当時は英語のみが使える環境でプログラムが作られることが殆どだったので、これを移植して日本語を扱えるようにすれば充分だということだったのです。 文字コード 最初に使われたのはCP/M-86という説もありますが、一般的に使われるようになったのはMS-DOS(PC-DOS)が最初です。これはWindowsにも引き継がれ、Macintoshも日本主導で日本語化が行われたという経緯もありシフトJISが使われました。 さてシフトJISの問題は米国標準であるASCIIに対する拡張であって、それ以外の国のローカルコードのことを考えていないことです。例えば英国では一部の記号がポンド記号に置き換わっているコードが使われていましたし、他のヨーロッパ諸国の言語でもいろい

                                                                              Windowsコードページの謎|kzn
                                                                            • iTermをやめてVSCodeのターミナルに寄せる - yasuhisa's blog

                                                                              背景 担保したいこと 1: ホットキーで一撃で呼び出せる 2: ウィンドウを透過させてターミナルと他のウィンドウを同時に眺められること 調査したこと & 解決方法 ホットキーで呼び出せるか => hammerspoonで割り当てで対応 ターミナルの透過 => 無理そうなので、代替手段で対応 メモ: ターミナル関係のキーバインド tmuxっぽくしたい その他キーバインド 背景 iTermをずいぶん長く使ってきたけど*1、VSCodeのターミナルが急速に進化しているので、乗り換えを検討した。 VSCodeが色々便利になってきた 自分が使っている範囲だと、vimキーバインドも特に問題ない*2 普段のコーディングはVSCode、コマンド操作くらいしかiTermは使っていない 特にCopilot系の進化は目覚ましい、長い物には巻かれろというか長期的にはエコシステムに乗っておきたい エディタだけでなく

                                                                                iTermをやめてVSCodeのターミナルに寄せる - yasuhisa's blog
                                                                              • JavaScript の Segments の使い所を考える - Qiita

                                                                                JavaScript の Segments という機能を知りました。 JavaScript って標準 API でこんなこともできるのかhttps://t.co/ckHTlqcium pic.twitter.com/hrwfgvtF4J — naporitan (@naporin24690) December 25, 2023 これは面白い! ブラウザの標準機能で自然言語処理ができる時代だ! とりあえず、お手元で試したい方はこちらをどうぞ。お使いのブラウザの console に貼り付ければ動くはずです。 const segmenter = new Intl.Segmenter("ja", { granularity: "word" }); const string1 = "東京都府中市は「とある科学の超電磁砲」の舞台ではない。京都府中京区も違う。"; const segments = seg

                                                                                  JavaScript の Segments の使い所を考える - Qiita
                                                                                • UTF-8 の BOM について - 将棋プログラミング

                                                                                  1.はじめに UTF-8 の文字コードのファイルには、BOM (Byte Order Mark) がある場合とない場合がある。 Unicode の規格では、BOM は、推奨されないが、許容されている。 ja.wikipedia.org 今回、必要があり、色々な OS や言語で、UTF-8 の文字コードのファイルを作成した時、BOM が記録されるか、されないか、を調べた。 2.色々な OS や言語での BOM 2.1 Windows 10, Visual Studio, C++, _wfopen (_tfopen) // Visual Studio 2005 以降 保存 FILE *fp = _wfopen(name, _ L"w, ccs=UTF-8"); if (fp == NULL) { // エラー処理 } fwprintf_s(fp, L"ABC漢字123\n"); fclose(