並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 78件

新着順 人気順

ハッシュ化の検索結果1 - 40 件 / 78件

  • KADOKAWAのハッキングの話チョットワカルので書く

    私はプロではないのでわからないので、間違っているのは当たり前だと思って読んでください。 個々人のエンジニアの能力がとかクレジットカードがとかは基本関係ないという話です。 (関係なくてもパスワードを使い回している場合は、同じパスワードを使っているサービスのパスワードはすぐ変えるの推奨) 三行VPN→プライベートクラウドの管理システムとオンプレ認証→各システムと言う流れで侵入されていると思われるオンプレのディレクトリサービスとクラウドのidMが接続され、オンプレの認証資格でSaaSは一部やられた可能性がある現在クラウドにリフトアップ中で、新システムはモダンな対策された方法で保護されており無事だった。が、それ故にオンプレへの対策が後手だったのでは会社のシステムはどうなってるか私は長年社内システムの奴隷をやって参りました。現在のクラウドになる前のサーバも触って参りましたので、その辺りからお話しをさ

      KADOKAWAのハッキングの話チョットワカルので書く
    • パスワードはおしまい! 認証はパスキーでやろう

      はじめに パスワードは古来より認証に良く使われる方法ですが、その運用の難しさからセキュリティの懸念とその対策としての運用の複雑さ(複雑で長い文字列、90日でパスワード変更など)が要求される大きく問題をもった仕組みです。 その根本的な解決策としてFIDO Allianceを中心に推進されている 「パスワードレス」 が注目されています。これはPINや生体認証とデバイス認証を使ったMFAからなっており、フィッシングやパスワード流出に強い上に、ユーザも複雑なパスワードを覚えなくて良い、という大きなメリットがあります。最近はこの流れでPassKeyというものが登場し、Apple/MS/Googleのプラットフォーマが対応したことで、本格運用に乗せれるフェーズになってきました。というわけで以下に解説動画を作ったのですが、動画中で時間の都合で触れきれなかったところや、JavaScriptによる実装のサン

        パスワードはおしまい! 認証はパスキーでやろう
      • Instagramはどうやって3人のエンジニアで1400万人にサービスを提供できるシステムを組み上げたのか

        Instagramは2010年10月にサービスを開始後、2011年12月までのわずか1年間で1400万人に利用されるほど巨大なサービスに成長しました。こうしたスケールに対応できるシステムを組み上げたのはたった3人のエンジニアだったとのことで、どのように少人数でスケールするシステムを組み上げたのかについて、エキスパートエンジニアのレオナルド・クリードさんが解説しています。 How Instagram scaled to 14 million users with only 3 engineers https://engineercodex.substack.com/p/how-instagram-scaled-to-14-million レオナルド・クリードさんは、Instagramが3人のエンジニアで安定して巨大なサービスを提供できた理由として、下記の3つの原則を守ったからだと述べています

          Instagramはどうやって3人のエンジニアで1400万人にサービスを提供できるシステムを組み上げたのか
        • 2024年のCSSの書き方、ワークフローとツールについて

          CSSには大きく変わるタイミングが何度かありました。レスポンシブ対応、メディアクエリ、Flexbox、CSS Gridなどはその大きく変わったタイミングでしょう。 そして、2024年もこれらと同様に大きく変わりそうです。CSSのネスト、:has()疑似クラス、subgrid、コンテナクエリ、ビューポート単位などの新機能がすべてのブラウザにサポートされました。 2024年のCSSの書き方として、より保守しやすいCSS、ワークフロー、ツールについて紹介します。 How I'm Writing CSS in 2024 by Lee Robinson 下記は各ポイントを意訳したものです。 ※当ブログでの翻訳記事は、元サイト様にライセンスを得て翻訳しています。 はじめに デザインの制約 2024年のCSS お勧めのCSSツール 終わりに はじめに 2024年のCSSは、素晴らしいの一言に尽きます。

            2024年のCSSの書き方、ワークフローとツールについて
          • 特定のページが更新されたら通知する仕組みを作ってみた - Qiita

            はじめに RSS対応のサイトだと、更新情報追いやすいけど、RSS非対応のページも追いたいよね。って人向けの記事です。 RSS対応しているサイトなら、RSSリーダーを使った方が早いです また、Discordのチャンネルにも通知がしたかったので、メールとDiscord両方に通知を行っています。 Discord側にWebhook用のURLが必要ですが、本記事では紹介しません 参考サイトのZennの記事が細かく書かれていますので、そちらをご覧ください なお、この仕組みは更新を検知したいサイトに確認リクエストを送ります。 高頻度で設定してしまうと、サーバーに負荷がかかる為、 高頻度での設定はしないようにお願いします 参考サイト 構成図 コードについて(Lambda) コードについては、基本的に、クラスメソッドさんの記事を参考にしています Discordの通知部分については、AmazonBedrock

              特定のページが更新されたら通知する仕組みを作ってみた - Qiita
            • Firebase Authから内製認証基盤に無停止移行して年間1000万円以上削減した

              症状検索エンジン「ユビー」 では、ローンチ当初から Firebase Auth (GCP Identity Platform) を使っていましたが、OIDCに準拠した内製の認証認可基盤に移行しました。 認証認可基盤そのものは m_mizutani と nerocrux と toshi0607(退職済) が作ってくれたため、僕は移行のみを担当しました。 結果として、強制ログアウトなし・無停止でビジネス影響を出さずに、年間1000万円以上のコスト削減に成功しました[1]。その移行プロセスについて紹介します。認証認可基盤そのものの紹介はあまりしません。 移行した理由 大量の匿名アカウント ユビーでは、アクセスした全ユーザーに対して自動的に匿名アカウントを発行しています。これにより、ユーザーがアカウント登録しているかどうかに関わらず、同じID体系で透過的に履歴情報等を扱うことができます。アカウント

                Firebase Authから内製認証基盤に無停止移行して年間1000万円以上削減した
              • ニコニコ「ダークウェブの情報をDL・拡散しないで」 ウイルス感染や違法の可能性

                KADOKAWAグループがランサムウェアを含む大規模なサイバー攻撃を受け、ドワンゴの全従業員の個人情報や、一部の取引先情報などが漏えいした問題で、犯人グループがダークウェブに公開したとみられる漏えい情報を取得し、ネット上に公開するユーザーが現れている。 ドワンゴは6月28日、「興味本位でこれら(漏えい情報)をダウンロードする行為は、ウイルス感染などの危険があるだけなく、違法である可能性が高い」とニコニコの公式Xで指摘。ダウンロード・拡散を控え、ダウンロードした場合は削除するよう呼び掛けた。 また、「ニコニコアカウント」のパスワードについては、「システム内でハッシュ化されてから保存しているため、仮に流出していたとしてもすぐに悪用される可能性は低い」と説明。念のため、ニコニコアカウントと同じパスワードを他サービスでも利用している場合はあ、パスワードを変えるよう呼び掛けている。 関連記事 ニコニ

                  ニコニコ「ダークウェブの情報をDL・拡散しないで」 ウイルス感染や違法の可能性
                • Bitwardenの実装から学ぶE2EE

                  この文章はなに? 本文章は、パスワードマネージャーであるBitwardenが公開しているソースコードを読み、そこでE2EE(End-to-end encryption)がどのように実装されているかについて、私が理解した内容をまとめたものです。 「E2EEをぼんやり理解してるが、どのように実装されているのかはわからない」という方を主な対象としています。 E2EEに対する私個人の課題感として、インターネット等から得られる説明が比較的抽象的であり、実装レベルでの理解が難しいというものがあります。 そこで私自身、そして同じ課題感を持つ方に向けて、E2EEを実践しているアプリケーションの1つであるBitwardenを参考に、それがどのように実装されているのかを詳細に理解すべく、本文章にまとめることとしました。 なお対象アプリケーションとしてBitwardenを選んだのは、私自身がユーザーであること、

                    Bitwardenの実装から学ぶE2EE
                  • Nostr の面白さをエンジニア目線で解説してみる

                    はじめに 今年は、SNS でありプロトコルでもある Nostr に出会いました。2023年2月の参加でしたがもう、どういった経緯で Nostr を見付けて参加したのかすら思い出せなくなってしまいました。ここ数年、X/Twitter が API という物を開発者に触らせなくなってしまいました。僕は X/Twitter が大きくなった理由の1つが、API をオープンにした事で数多くの bot やサービスがが登場した事だと思っていて、API が自由で無くなった X/Twitter をとても残念に感じています。次第に SNS に関連する何かを作るモチベーションはさっぱり無くなってしまっていました。 そんな中で見付けた Nostr はエンジニアのオアシスとでも言える SNS だと感じました。 Nostr の思想 X/Twitter は中央集権型の SNS であり、以下の様な問題を持っています。 障害

                      Nostr の面白さをエンジニア目線で解説してみる
                    • 大規模データセットのためのアルゴリズムとデータ構造 - カメヲラボ

                      とても良い本が出ます 概要 構成 第1部:確率的で簡潔なデータ構造 第2部:ストリーミングデータ構造とアルゴリズム 第3部:外部記憶データ構造とアルゴリズム 具体的なコードは少な目 参考文献がしっかり書いてある 数式は最低限 図がモリモリ 翻訳版特有の情報 内容的な修正 カタカナ表記 検索のしやすさ 読む際のリズム 表現について 訳注について 音引きについて いきなりでごめんなさい(誤植情報) とても良い本が出ます 大規模データセットのためのアルゴリズムとデータ構造 作者:Dzejla Medjedovic,Emin Tahirovic,Ines Dedovicマイナビ出版Amazon 『大規模データセットのためのアルゴリズムとデータ構造』という本が7月26日発売に発売されます。原書はAlgorithms and Data Structures for Massive Datasetsとい

                        大規模データセットのためのアルゴリズムとデータ構造 - カメヲラボ
                      • “ハッカー体験”ボードゲーム、IPAが無料公開 攻撃者視点で防御を学ぶ 手番は「最近怪しいメールが来た人」から

                        デジタル人材の育成を目指す「中核人材育成プログラム」の参加者が開発。「(サイバー攻撃の)防御を行うにしても、攻撃を全く知らない状態だと何から身を守っているのかイメージし難い。このゲームでは攻撃者の立場になり、サイバー攻撃を疑似体験することで、防御側が見落とす可能性のある脆弱な点に気付き、セキュリティ意識の向上につながることを期待する」としている。 このゲームは「個人、法人組織における非営利、非商業的態様でのシステムセキュリティ教育・啓発目的でのみ、かつ健全な社会通念に反しない」場合のみ、制作者への事前連絡なしで無償利用できる。顧客向けサービスなどと組み合わせての利用、内容改変などのその他の利用をする場合は制作者から許諾を得る必要がある。 また、このゲームは教育とコミュニケーションを目的として作られたものであり、実際の犯罪行為や攻撃の推奨を意図しているわけではないとしている。 関連記事 IT

                          “ハッカー体験”ボードゲーム、IPAが無料公開 攻撃者視点で防御を学ぶ 手番は「最近怪しいメールが来た人」から
                        • パスワードを“ちょっと変える”はどれくらい危ない? 「abc123」→「123abc」など 中国チームが発表

                          このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 中国の南開大学や北京大学などに所属する研究者らが発表した論文「Pass2Edit: A Multi-Step Generative Model for Guessing Edited Passwords」は、1つのサービスで使っているパスワードを少し変えて別のサービスで使い回しているパスワードを予測して特定する攻撃を提案した研究報告である。 インターネットでサービスを利用すると、アカウント数が増加する。一般のユーザーは、80~107個ものオンラインアカウントを持っているとされている。このような状況において、新しいパスワードを都度設定するのは

                            パスワードを“ちょっと変える”はどれくらい危ない? 「abc123」→「123abc」など 中国チームが発表
                          • クレカ情報1.5万件、平文で流出か 美容室向けECサイト「fofo」に不正アクセス

                            美容商社インテンスは5月20日、美容室向けのショップサイト「fofo」が不正アクセスを受け、顧客のクレジットカード情報1万5198件が平文で漏えいした可能性があると発表した。 原因は、サイトのシステムの脆弱性をついたこと不正アクセスにより、Webサーバにバックドアのスクリプト(WebShell)が設置され、サーバ内を不正操作されたこと。 2020年12月24日~2023年12月8日に「fofo」で購入した顧客のカード情報で、カード番号と有効期限、セキュリティコード、会員氏名、DBデータ、ログイン情報が、平文で出力され、保存された可能性があるという。 同サイトのカード決済は2023年4月1日に停止していたが、約半年後の9月13日、一部のカード会社から情報漏えいの懸念があると連絡を受けた。調査はそれから半年弱の2024年1月17日に完了したという。 対象の顧客には5月20日からメールで個別に連

                              クレカ情報1.5万件、平文で流出か 美容室向けECサイト「fofo」に不正アクセス
                            • なぜハッシュ値は元の値を復元できないのか、SHA-256を実装してみる - Qiita

                              はじめに ハッシュ関数はデータの整合性確認や暗号学的な用途でよく使用されます。この記事では、ハッシュ関数の中でもよく使われるSHA-256を自分で実装しつつ、なぜ元の値を復元できない(非可逆性)の性質を持つのか確認します。 結論はハッシュ関数の非可逆性は、情報の喪失により実現されています。 また、今回sha256を実装したRustのコードは以下です。 https://github.com/akira-19/algorithms_rust/tree/main/sha-256 SHA-256のフロー 非可逆性がわかるところまでのSHA-256のフローは以下のようになっています。 "msg"という文字列をハッシュ化します。 まずmsgという文字列を文字コードに置き換えます。(16進数表記) 次に、メッセージを64バイトの1つのまとまりにします。この際に、元のメッセージのすぐ後ろに0x80を追加し

                                なぜハッシュ値は元の値を復元できないのか、SHA-256を実装してみる - Qiita
                              • シーケンス図で理解する「攻撃手法と対策」【セキュリティまとめ】 - Qiita

                                はじめに ◆この記事は何? セキュリティ分野の攻撃手法と対策をまとめた記事です ◆対象は? セキュリティを学びたい方、試験対策をしたい方 ◆記事のコンセプト 攻撃と対策の目的や流れを抑えておくことで、情報処理試験の午前問題・午後問題が解きやすくなります。 この記事では以下のように整理します。 攻撃者側 攻撃者の目的 攻撃手段 結果 対策側 対策の目的 対策手段 結果 ◆この記事の目的 試験対策として理解や暗記の一助になれば幸いです。 標的型攻撃 攻撃側 ◆目的 機密情報を盗むため ◆手法 特定の個人や組織(標的)を狙って、攻撃メールを送付します。 攻撃者は情報を収集する 標的型攻撃メール送付 感染 情報の流出 ◆結果 情報の漏洩やウイルスの感染 標的型攻撃の例をシーケンス図で示した例です。 対策 ◆目的 被害を抑えるため 完全に防ぐことは難しいので、被害を抑える対策を考えるのが現実的です。

                                  シーケンス図で理解する「攻撃手法と対策」【セキュリティまとめ】 - Qiita
                                • バックエンド視点で振り返るGraphQLを採用したプロダクト開発 - enechain Tech Blog

                                  はじめに 技術スタック eScanチームにおけるGraphQLの使い方 開発フローの工夫 N+1問題の対応と注意点 エラーハンドリングの工夫 モニタリングの工夫 ドキュメンテーションを必須化するための工夫 その他の取り組み 振り返り 良かった点 難しかった点 今後の展望 最後に はじめに こんにちは、enechainでソフトウェアエンジニアをしている小沢です。 私が所属しているチーム(以降、eScanチーム)では、eScanという電力会社向けのリスクマネジメントシステムを開発・運用しており、その中でGraphQLを採用しています。すでにGraphQLを採用するメリット・デメリットについて様々なところで語られていますが、eScanチームでもオーバーフェッチが解消できる点、1リクエストで必要なデータをフェッチできる点などのメリットを享受するために採用しています。 今回は実際にGraphQLを採

                                    バックエンド視点で振り返るGraphQLを採用したプロダクト開発 - enechain Tech Blog
                                  • 学生が生成AIでマルウェアをつくってみた――ほぼコーディングせず脱獄もなし 北海道科学大が検証

                                    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 北海道科学大学に所属する研究者らが発表した論文「ChatGPTを用いたマルウェア実装」は、コーディング作業を極力せずに、GPT-4を用いてマルウェアが作れるかを実際に検証した研究報告である。 先行研究では、高度なセキュリティ技術を持つ研究者がChatGPTの脱獄(ジェイルブレーク)を行うことでマルウェアを作成できることを示した。今回は、GPT-4に対して、脱獄を行わずにプロンプトによる指示を出すだけで、セキュリティ技術に熟練していない人でも高度なマルウェアを作成できるかを検証する。 具体的には、以下の4種類のマルウェアをPythonで作成する

                                      学生が生成AIでマルウェアをつくってみた――ほぼコーディングせず脱獄もなし 北海道科学大が検証
                                    • 重要度別:2024年1-6月 GA4のアップデート紹介(寄稿:小川卓) - はてなビジネスブログ

                                      株式会社HAPPY ANALYTICSの小川卓(id:ryuka01)です。 Google Analytlcs 4 (以下、「GA4」)は2022年に正式リリースされてからも継続的にアップデートを重ねています。今回の記事では、2024年1月以降に行われたアップデートをまとめて紹介いたします。 アップデートによって何が変わったのか、どう活用できるのか?そして筆者が考える役立ち度(5段階評価)も紹介いたします。対象が非常に限られているものや、影響が無いものはピックアップしません。それでは時系列で早速みていきましょう。 ※リリース日は公式サイトでのアナウンス日を参照していますが、各アカウントへの反映はその前後に行われており一定ではありません 2024年2月8日:手動トラフィックソースのディメンションとレポート追加 2024年2月24日:「広告」メニュー内のレポートと仕様が更新 2024年2月28

                                        重要度別:2024年1-6月 GA4のアップデート紹介(寄稿:小川卓) - はてなビジネスブログ
                                      • Signed Query は GraphQL の Trusted Document の新しい実装パターンです - スタディサプリ Product Team Blog

                                        こんにちは。スタディサプリの小中新規開発チームで Web エンジニアをしている @YutaUra です。 去年の4月に新卒で入社をしまして約 1 年が経ちました。インターン生時代にもブログを書いているのでご興味あれば合わせてご覧ください。 GraphQL と Persisted Query スタディサプリ小中講座ではデータ通信に GraphQL を採用しています。 GraphQL を利用することで、クライアントはスキーマに定義された範囲で自由にデータを取得することができます。 query GetUser { user { name age } } また、 GraphQL はデータのグラフ構造に基づいて関連する複数のデータを一度に取得することができます。 query GetUser { user { name age posts { title content } } } GraphQL の

                                          Signed Query は GraphQL の Trusted Document の新しい実装パターンです - スタディサプリ Product Team Blog
                                        • 医療従事者73万人分の情報漏えいか 製薬大手に不正アクセス 委託コンサルが私物PC使用のポリシー違反

                                          漏えいした可能性がある情報は、医療従事者の氏名、性別、生年月日、メールアドレス、医療機関の名前と住所、役職、職種、診療科。さらに、サノフィ従業員1390人の氏名も漏えいした可能性がある。クレジットカード情報や銀行口座情報は含まない。 不正アクセスがあったのは7月10日から14日の間。原因はコンサルタントがサノフィのセキュリティポリシーに違反し、個人用PCにデータベースへのアクセスIDなどを保存していたことだ。このPCがマルウェアに感染し、アクセスIDなどが漏えいした結果、データベースへの侵入を許したとしている。 サノフィはコンサルタントが所属する委託先との契約を即刻解除。再発防止策として、アクセスIDなどを変更した他、アカウント管理の見直し、IPフィルタリング、社外ネットワークからのアクセス禁止措置なども講じたという。情報が漏えいした可能性がある医療従事者に対しては、問い合わせ用のコールセ

                                            医療従事者73万人分の情報漏えいか 製薬大手に不正アクセス 委託コンサルが私物PC使用のポリシー違反
                                          • LINEヤフーで不正アクセス、約44万件の利用情報などが漏えい 委託先PCがマルウェア感染

                                            LINEヤフーは11月27日、委託先企業への第三者による不正アクセスにより、ユーザー情報、取引先情報、従業員などに関する情報漏えいが判明したと発表した。該当情報は合計で最大約44万件に上る。 漏えいのうち最大30万2569件が「ユーザーに関する利用情報」。そのうちLINE IDとは別に、内部でユーザーを識別する文字列にひも付く、サービス利用履歴などが4万9751件。メッセージなど特定の人とのやり取りに関するような通信の秘密に該当する情報が2万2239件。日本に限ると漏えいしたユーザー利用情報は最大12万9894件で、ユーザー識別子にひも付くサービス利用履歴が1万5454件、通信の秘密に該当する情報が8981件。 なお、口座情報やクレジットカード情報、LINEアプリにおけるトーク内容は含まれないとしている。 取引先に関する個人情報は最大8万6105件が該当。そのうち、取引先などの従業員の氏名

                                              LINEヤフーで不正アクセス、約44万件の利用情報などが漏えい 委託先PCがマルウェア感染
                                            • 安全なパスワードの長さは?その質問自体が間違っているかも

                                              印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます パスワードが長い方が安全であるのは、常識だと言っていいだろう。パスワードが長くなるほど、あり得る組み合わせが増える。つまり、自動化システムであらゆる組み合わせを試していくことでパスワードを破る「総当たり攻撃」にかかる時間も、それだけ長くなるわけだ。 セキュリティの専門家は、もはや8文字のパスワードでは短すぎ、ゲーミングPCに使われるGPUのような、簡単に入るハードウェアでも簡単に破れると考えている。例えばHive Systemsの計算では、NVIDIAの「GeForce RTX 4090」を使用した場合、8文字のアルファベット(大文字と小文字)、数字、記号のすべての組み合わせを調べたとしても1時間もかからないという。これは2年前に主流だ

                                                安全なパスワードの長さは?その質問自体が間違っているかも
                                              • GPU進化でパスワード解読が加速、旧システムは保存方法の見直しを

                                                サイバー攻撃の脅威が広まる中、Webシステム管理者はパスワードの保存方法をいま一度確認する必要がありそうだ。特に注意すべきなのは、最新のWebアプリケーションフレームワークを使わずに開発した、古いWebシステム。パスワードが漏洩した際に簡単に解読されてしまう可能性があるので注意が必要だ。 2023年8月15日、作品投稿サイト「pictBLand」やオンライン即売会サービス「pictSQUARE」を運営するGMWが不正アクセスを受けたと発表した。pictBLandは作品情報のデータが改ざんされ、pictSQUAREでは会員情報が窃取されていると判明。ユーザーアカウント情報が約80万件流出し、メールアドレスは約61万件、電話番号は約67万件、配送先住所は約22万件、銀行口座情報は883件、X(旧Twitter)のIDは約24万件が流出したという。GMWはユーザーに対して、IDやパスワードを使い

                                                  GPU進化でパスワード解読が加速、旧システムは保存方法の見直しを
                                                • AI生成の児童ポルノが爆増しており児童搾取に関する報告システムが機能不全に陥る恐れがあるとインターネット監視団が警告

                                                  1998年から運営されている児童性的虐待ホットライン「CyberTipline」が十分に機能しておらず、今後、「AI生成の児童ポルノ」が増えると、本物の虐待被害者を見つけることはさらに難しくなっていくと、専門家が指摘しています。 How to Fix the Online Child Exploitation Reporting System | FSI https://cyber.fsi.stanford.edu/io/news/cybertipline-report Report urges fixes to online child exploitation CyberTipline before AI makes it worse | AP News https://apnews.com/article/cybertipline-child-sexual-abuse-stanfor

                                                    AI生成の児童ポルノが爆増しており児童搾取に関する報告システムが機能不全に陥る恐れがあるとインターネット監視団が警告
                                                  • LLM開発のためのデータエンジニアリング - Qiita

                                                    LLM開発のためのデータエンジニアリング MLOps Advent Calendar 2023の24日目です。 Stability AIでデータ系のソフトウェアエンジニアをやっているcvuskです。主な仕事は日本語LLMのためのデータ開発です。Stability AIでは日本語LLMも各種開発しています。LLMの学習というと大量のGPUを用意して巨大なデータでモデルを学習する、というキラキラしたイメージ(?)が強いかもしれませんが、データが重要かつ苦労が耐えない課題であることは他の機械学習やディープラーニングモデルと違いありません。日本語のテキストデータは英語ほど入手しやすいわけではないのと同時に、データエンジニアリングや品質面でもいろいろと大変なことが多々あります。今回はLLMのためのテキストデータの用途やエンジニアリングについて整理します。 LLMの学習 LLMの学習は大きく分けて事前

                                                      LLM開発のためのデータエンジニアリング - Qiita
                                                    • 新しいSNSのティザーサイトを公開した|sugitani

                                                      Black Cat CarnivalというSNSサービスを開発している 昨年10月から開発を進めている。反響があるようであればチーム開発に移行したい、とは考えているが今は一人で開発している。(※開発以外は様々な方に助けていただいています🙇‍♂️) 理想的には動く物でベータテストを行えると良いのだが、相当な時間がかかってしまうのでクライアントを先に開発して意見を頂戴しブラッシュアップしようと考えた。…というか、これを使ってくれる人はいるのか?を確認しなければ、不安に抵抗できなくなってきた。 しかしApple AppStoreやGoogle Playで公開ベータテストを行うには審査を通過する必要がある。審査は動作するサービスでなければおそらく通らない。 クローズドテストであれば審査は要らないが、メールアドレスを頂戴して招待をお送りする必要がある。敷居が高いと感じた。 クライアントはCompo

                                                        新しいSNSのティザーサイトを公開した|sugitani
                                                      • ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO

                                                        ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた さがらです。 ここ2年ほどの間にdbtが日本でも急速に拡大し、様々な情報が日本語の記事でも見かけられるようになってきました。 dbtを採用してある程度活用を進めていくと、「より効率よくガバナンスを持ってデータを管理するにはどうすればいいんだろうか」といったデータの管理方法に悩む場面が出てくると思います。 そんなときに色々調べていくと、データを効率よく管理する手法として「データモデリング」が必要だとわかり、ディメンショナルモデリングやData Vaultなどの手法に行き着くのではないでしょうか。 そしてこれらのデータモデリングの手法の内、ディメンショナルモデリングについてdbtを用いて実践された記事がありま

                                                          ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO
                                                        • ファーストパーティデータと向き合う時代に私たちがおさえておきたいこと | アユダンテ株式会社

                                                          Google ChromeでサードパーティCookieのサポートが年内中に完全廃止され「ファーストパーティデータ」の時代が来るとされる。デジタルマーケティングの活用が不可欠となる企業に従事する私たちは変化をどのように捉え、向き合うことが求められているのか。デジタル広告に長く取り組んできたコンサルタントが、おさえておきたいことを共有する。 はじめに変化するプライバシー環境下でビジネスを成長させるにはその同意は自発的か、非自発的か顧客との関係は進化するコンテンツマーケティングのオーディエンスビルディングアリストテレスの知識の三分類から考える終わりに~健全に成長するために「ゆがみ」を見直し、自社の中心軸を整える 1.はじめに 筆者は2017年に「広告は(キーワードではなく)アセットを利用して出すものになっている」という趣旨の記事をWeb担当者Forumに寄稿した。この記事を執筆している2024年

                                                            ファーストパーティデータと向き合う時代に私たちがおさえておきたいこと | アユダンテ株式会社
                                                          • AIは関数、人間の知能にはハッシュっ関数ぽい振る舞いがある?

                                                            現代のAIはモデルって呼ばれてる奴は重みが調整された巨大なデータ構造です。 データ構造は多分ニューラルネット的なやつが一般的なのでは。知らんけど。あ、私素人ですので、あまり真面目に聞かないでください。 そんでこのモデルは入力に応じて出力が変わります。LLMなら猫っていれたら、猫について語りだして猫この特徴や可愛らしさや、猫にまつわる人間の感情についての文章が出力されるだろうし、画像生成なら猫の画像が出てきます。 モデルは多くの場合関数として振る舞うので、出力方向からこの出力結果を入力すると(お尻にバイブを刺すのと一緒です。)元の入力データが復元できます。猫にまつわる説明文を後ろから入力したら「猫」って言葉が出るし、猫の画像を後ろから入力したら「猫」って言葉が取り出せます。 画像認識AIがやっていたことが全く同じことで、画像認識AIと画像生成AIは裏表の関係になっています。 ところで人間の場

                                                              AIは関数、人間の知能にはハッシュっ関数ぽい振る舞いがある?
                                                            • エンジニア約100人が大集合し、チューニングバトルを展開 久々のリアル開催で絆も深まった「株式会社リクルート 社内ISUCON 2023」

                                                              「久しぶり! 今、何してるの?」 「うわー、やっと会えたね。はじめまして」 ——2023年8月31日、「株式会社リクルート 社内ISUCON 2023」が開催されたリクルート本社の最上階の会場であるアカデミーホールでは、そんな会話が飛び交いました。 社内ISUCONは、Webサービスのチューニングバトル「ISUCON※」に触発され、リクルートグループ横断で行われているイベントです。1〜3名でチームを組み、コンテスト形式で、Webサービスの高速化に取り組みます。競うことでフロントエンドやデータベース、クラウドといったWebサービスを支える技術の学びを加速させるとともに、部署や世代の壁を越えて社内エンジニアの交流を図ることを目的にしています。 ※「ISUCON」は、LINEヤフー株式会社の商標または登録商標です 国内のエンジニアや学生が参加するISUCONは今年で13回目を数えますが、リクルー

                                                                エンジニア約100人が大集合し、チューニングバトルを展開 久々のリアル開催で絆も深まった「株式会社リクルート 社内ISUCON 2023」
                                                              • データサイエンティストに必要な3つのスキルセットとは?くわしく解説

                                                                会社のDX推進に欠かせないデータサイエンティストですが、具体的にどのようなスキルを備えている必要があるのでしょうか。今回は一般社団法人データサイエンティスト協会が公開している「データサイエンティストスキルチェックリストver5」の内容に則り、データサイエンティストに求められる3つのスキルセットを解説します。 データサイエンティストに必要な3つのスキルセットとは? データサイエンティストには、大きく分けて「データサイエンス力」「データエンジニアリング力」「ビジネス力」の3種類のスキルが求められます。 データサイエンス力 データサイエンス力は、企業のビジネス課題に関連するデータを情報科学理論に基づいて分析し、課題解決につなげる能力です。企業が効率的にデータを活用できるかどうかはデータサイエンティストの解析能力に大きく左右されるため、データサイエンティストにとって要のスキルと言えます。 データエ

                                                                  データサイエンティストに必要な3つのスキルセットとは?くわしく解説
                                                                • デジタルIDウォレットとは何なのか、私見と妄想とともに - Qiita

                                                                  最近 ID 界隈で話題になっているトピックとして、デジタルIDウォレット(DIW) というコンセプトがあります。これは、身分証、運転免許証や、銀行のキャッシュカード、さらにはお店のポイントカードまで、あらゆる本人のアイデンティティに関するデータを、スマホアプリに保存し、必要に応じて、必要な情報だけ、必要あれば複数をまとめて一度に、提示できるというコンセプトです。 話題になっている背景、必要となる技術、欧米の動きなど、2023年12月時点での私の理解をまとめました。 明確なソースがある情報は、極力ソースとなるURLを添付しています。 また、一般論としてここに記載する情報については、国内外の多くの識者の方のお話を、直接的、間接的に伺う中で、私の中で咀嚼、消化した内容となっております。ここの皆様のお名前は略させて頂きますが、御礼申し上げます。それでも、本ブログの内容に誤りがあれば、すべて私の責任

                                                                    デジタルIDウォレットとは何なのか、私見と妄想とともに - Qiita
                                                                  • サードパーティ Cookie 終了、広告業界のベテランたちに聞く今後の見通し | DIGIDAY[日本版]

                                                                    記事のポイント Googleは2024年1月4日から、ChromeブラウザでサードパーティCookieのアクセスを制限する「トラッキングプロテクション」を試験運用開始。当初はChromeユーザーの1%に限定。 広告業界はこの変化に対応するため、代替技術や戦略の模索を強いられる。特に、プライバシーサンドボックスや他の代替IDに関しては意見が分かれる状況。 変化への対応が遅れたり、新技術の適用が難しい場合、広告業界は効果的な広告ソリューションの提供に苦労する可能性がある。プライバシー法令への準拠と新たなテクノロジーの統合が課題。 Googleは2024年1月4日より、WebサイトによるサードパーティCookieへのアクセスをデフォルトで制限し、ユーザー追跡を防止する新機能「トラッキングプロテクション」の試験運用を開始する。開始当初の適用対象は全世界のChromeユーザーのわずか1%にすぎないが

                                                                      サードパーティ Cookie 終了、広告業界のベテランたちに聞く今後の見通し | DIGIDAY[日本版]
                                                                    • バウンスマネジメント用のメールアドレス帳をAWS移行しました - LIVESENSE ENGINEER BLOG

                                                                      概要 背景 移行 移行前の構成 (MySQL, PHPバッチ) 移行後の構成 (DynamoDB, Kinesis) 移行の段取り 詳細 ストリーミング処理 APIサーバー APIクライアント 移行を終えて 最後に 概要 技術部インフラグループの春日です。 2024年上期現在、弊社ではオンプレデータセンターで稼動しているサーバーのクラウド移行を進めており、 2024年1Qの時点で大半はAWSへの移行が完了しています。 本記事では社内で古くから運用し続けているメール配信サーバーのバウンスマネジメントに使用するアドレス帳データをクラウド移行した件について振り返ります。 メール配信サーバー自体のクラウド移行に関しては本記事では触れません。 以降の章ではメール配信サーバーを自前で運用している背景やクラウド移行前後での構成比較、および移行後のシステム詳細について触れていきます。 なお記事内ではEメー

                                                                        バウンスマネジメント用のメールアドレス帳をAWS移行しました - LIVESENSE ENGINEER BLOG
                                                                      • NVIDIAの高性能グラボは複雑なパスワードも短時間で突破可能

                                                                        セキュリティ企業のHive Systemsは、パスワードの長さや複雑さによって強度がどれだけ変わるのかをまとめたパスワードテーブルを毎年発表しています。さらに2024年には、複数のグラフィックボードでパスワードの解読にどれだけの時間がかかるかを調査した結果が発表されました。 Are Your Passwords in the Green? https://www.hivesystems.com/blog/are-your-passwords-in-the-green Nvidia's flagship gaming GPU can crack complex passwords in under an hour | Tom's Hardware https://www.tomshardware.com/pc-components/gpus/nvidias-flagship-gaming-g

                                                                          NVIDIAの高性能グラボは複雑なパスワードも短時間で突破可能
                                                                        • 共同通信に不正アクセス 社員情報約4000人分が漏えいした可能性

                                                                          漏えいした可能性があるのは、社員やグループ社員、退職者などの氏名、社員番号、所属していた社名、部署、役職名、メールアドレス、ハッシュ化されたパスワード。取材に関連する情報は含まれておらず、漏えいした可能性がある情報の悪用も同日時点では確認していないという。個人情報保護委員会への報告はすでに済ませた。 共同通信は7月22日にサーバの不審な動作を検知しており、外部の専門業者と協力の上、詳細を調査していたという。調査の結果、個人情報が漏えいした明確な証拠は見つからなかったものの、逆に漏えいの可能性を完全に否定することもできないことから、今回の発表に至ったとしている。 関連記事 東京海上日動、メール1300件超が漏えいの可能性 富士通の法人向けネットワークで起きた不正通信で 東京海上日動火災保険と東京海上日動あんしん生命保険が、メール1300件以上が外部に漏えいした可能性があると発表した。原因は富

                                                                            共同通信に不正アクセス 社員情報約4000人分が漏えいした可能性
                                                                          • 大学授業内ハッカソンでCloudflareフル活用システム開発した話

                                                                            こんにちは。かろっくです。 今回は一言でいうと 大学授業内ハッカソンで"出席管理システム"を作ることになりました せっかくなので Cloudflare のインフラで最新技術をフル活用! 楽しかったです という感じのお話をします。 はじめに 自分の大学で行われている授業に、「PBL 概論」というものがあります。 この授業は、生徒が自分たちで解決したいテーマを決め、それに沿って作品を開発していく実践的な授業です(授業というより、ハッカソンに近い感じの演習となっています)。 テーマとしては、「授業の不満を解消する」「生徒の生活を便利にする」など、生徒が直接関わるものが多いです。 授業の不満をヒアリングしたところ、出席管理に関する不満として、以下のようなポイントが挙がりました。 出席判定がカードのタッチで行われるため、手間がかかる カードを忘れると出席が取れない 出席したときに何らかの手段で通知が

                                                                              大学授業内ハッカソンでCloudflareフル活用システム開発した話
                                                                            • 森永製菓、職員など4882件の情報漏えいの可能性 社内システムのIDやハッシュ化パスワードなど

                                                                              森永製菓は6月18日、同社のサーバ機器が外部からの不正アクセスを受け、同社とグループ会社の役職員などの4882件の個人情報が外部へ流出したおそれがあると発表した。 氏名や社内システムのログインID、ハッシュ化したパスワードが含まれていたという。 侵入経路は特定・遮断しており、不正使用などの二次被害は確認していないとしている。 漏えいしたおそれがあるのは、同社とグループ会社の役職員、委託業務従事者の個人情報(退職者、元従業者の一部も含む)4882件。 氏名と会社名、部署名などの所属、社用メールアドレス(@morinaga.co.jp/@morinaga.com)、社内システムのログインID、ハッシュ化したパスワードが含まれていた。 4月9日にサーバーで不審な動作を認知して判明した。現在、外部の専門機関による調査を進めており、個人情報が流出した明確な証拠は見つかっていないが、「漏えいの可能性を

                                                                                森永製菓、職員など4882件の情報漏えいの可能性 社内システムのIDやハッシュ化パスワードなど
                                                                              • [翻訳] プラットフォームではなくプロトコルを: 言論の自由への技術的アプローチ

                                                                                この記事はProtocols, Not Platforms: A Technological Approach to Free Speech | Knight First Amendment InstituteをDeepLによって翻訳、加筆修正したものである。元のページは2024/04/21に参照した。 言論の自由を促進するために、インターネットの経済的・デジタル的インフラを変更する 著:マイク・マスニック 2019年8月21日 FREE SPEECH FUTURES デジタル時代の憲法修正第1条を再考するエッセイ・シリーズ より多くの言論を可能にし、思想の市場を改善する方法として、インターネットやソーシャルメディアに賛成する一般的な感情が10年ほど続いた後、ここ数年で見方は劇的に変化した。これらのプラットフォームが荒らしや偏見、憎悪の巣窟になっていると感じている人もいる。[1]一方で、こ

                                                                                  [翻訳] プラットフォームではなくプロトコルを: 言論の自由への技術的アプローチ
                                                                                • 森永製菓が不正アクセス被害で個人情報流出か、侵入経路は特定・遮断

                                                                                  著名なセキュリティーリサーチャーのpiyokango氏が注目のシステムトラブルをピックアップ。今週の注目ネタは……。 今回取り上げるシステムトラブルは、森永製菓の不正アクセス被害と、松竹の個人情報漏洩、白崎コーポレーションのランサムウエア被害である。 森永製菓グループの役職員の個人情報約5000件が対象 森永製菓は2024年6月18日、同社のサーバーが不正アクセスを受け、個人情報が外部に流出した恐れがあると発表した。 流出した可能性があるのは、同社およびグループ会社の役職員や業務委託先の関係者(退職者を含む)の氏名と所属、メールアドレス、社内システムのID、ハッシュ化されたパスワードの4882件。対象者には、メールや郵送で連絡する。また、顧客の個人情報は対象ではないとした。 同社は2024年4月9日にサーバーな不審な動作を検知して、個人情報保護委員会に報告。外部の専門機関による調査を進めた

                                                                                    森永製菓が不正アクセス被害で個人情報流出か、侵入経路は特定・遮断