2024.04.16「先達エンジニアに学ぶ 思考の現在地 Online Conference」での登壇スライドです event link: https://findy.connpass.com/event/313119/ 生成AIを使ってプロダクト作りをしていたり、社内の生産性向上をチャレンジし…
新年あけましておめでとうございます。毎年この時期に更新している「私の情報収集法(2024年版)」を今年も公開します。 ■はじめに サイバー攻撃は国境を越えて発生するため、ランサムウェア、フィッシング、DDoS攻撃など、近年のサイバー脅威の常連となっている攻撃者(脅威アクター)が主に海外にいることを考えると、世界の脅威動向を理解することが年々重要になっています。 海外から日本の組織が受けるサイバー攻撃の多くでは、国際共同オペレーション等の一部のケースを除き、日本の警察が犯罪活動の協力者(出し子、買い子、送り子)を摘発することはあっても、サイバー攻撃の首謀者(コアメンバー)を逮捕するまで至るケースはほとんどありません。 誤解を恐れずに言えば、日本の組織は海外からの攻撃を受け続けているのに、海外で発生したインシデントや攻撃トレンドの把握が遅れ、対策が後手に回っているケースも多いように感じます。最
1.はじめに 統計検定2級に合格しました。勉強期間は1ヶ月半程度。 ちなみに成績優秀賞もいただきました。 これから統計検定2級を勉強してみようと考えている方に向けて、勉強方法やオススメの教材をお伝えできればなと考え、記事にしました。 2.スペック(試験前) ゴリゴリ文系人間(法学部卒) 。数学は高校まで。 仕事でデータを扱う機会が多く、平均・標準偏差・正規分布など基本的な統計用語は知っている。 ただし、信頼推定・仮設検定はさっぱり分かっていませんでした。正規分布以外の二項分布やt分布、カイ二乗分布、F分布も理解できていませんでした。 3.勉強方法 過去問中心に勉強する 「長時間勉強しているのに、なかなか勉強内容が理解できない」 ということはないでしょうか。 それは勉強方法が適切でないからです。 例えば、資格試験の勉強として、テキストを一通り理解してから、過去問を解くやり方が一般的だと思いま
はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrieval) 2. 関連テキストをLLMのプロンプトに入れ込み、ユーザの入力文に回答する。 Retrieval時の課題 LangChainでの用意 Case1: それぞれの文章がRetrievalしにくい形で保存されている 対策案: ページ構造を意識した形で各文章を格納する 他の対策案 聞き方を明確にする 類似度を測るクエリ文章を置き換える 不要そうな文章をデータから削除する データ自体をLLMで整形し直す Case2: 未知の単語を含む 仮説: ニャオハ
Research in artificial intelligence is increasing at an exponential rate. It’s difficult for AI experts to keep up with everything new being published, and even harder for beginners to know where to start. So, in this post, we’re sharing a curated list of resources we’ve relied on to get smarter about modern AI. We call it the “AI Canon” because these papers, blog posts, courses, and guides have h
こんにちは、株式会社ACESでインターンをしている篠田 (@shino__c) と申します。普段は博士課程の学生としてNLPの研究をしています。 ここ数ヶ月で ChatGPT に加えて GPT-4 等の大規模言語モデル (LLM) が次々とリリースされていますね。 ChatGPT (gpt-3.5-turbo) はAPIの使用料が安いことから、多くの人が気軽にLLMを使用できるようになり、AI、特にNLPを売りにしている多くの企業は技術的にどうやって競争優位性を築けばいいのか模索しているのではないでしょうか。 その問いに対する1つの答えになりそうなものに、Retriever というものがあります。 例えば、社内にある外部には出せない文書を元に顧客からの質問に答える質問応答のサービスを作りたい場合、ChatGPT のような LLM の訓練にはそのようなデータは使われていないため、prompt
1. はじめに 2. そもそもGPTとは?? 3. ABEJAで作ったGPTモデルについて 3.1 モデルサイズ 3.2 データセット Wikipedia CC100 OSCAR mC4 3.3 参考にしたコード 3.4 モデルの学習 せっかくここまで育てたモデルが・・・ 4. 技術的な工夫点 4.1 データセットの前処理 4.2 GPT-neoxの活用 4.3 並列VMでの学習 4.4 モデルアーキテクチャの工夫 5 学習したGPTのアウトプット例 5.1 失敗モデルたちの作品集 5.2 完成モデルの出力例 5.3 少しFine-tuningした結果 6. 最後に 6.1 採用メッセージ 6.2 ABEJAで学習したGPTモデルの今後について 1. はじめに こんにちは、ABEJAの服部です。昨日、ABEJAが主催しているABEJA SIX2022でも発表がありましたが、NVIDIA社の
本ブログは「生成AI x セキュリティ」シリーズの第二弾です。 前回は「DALL-E 2などの画像生成AIに対する敵対的攻撃」と題し、OpenAIのDALL-E 2やStability AIのStable Diffusionに実装されているSafety Filterをbypassして、悪意のある画像を生成する手法と対策を解説しました。 今回は「ChatGPTなど生成AIによる個人情報の開示」と題し、ChatGPTなどの生成AIを介して個人情報が開示されるリスクについて解説します。 昨今大きな話題となっているChatGPTは、12年間にわたる大量のWebクロールデータや英語版Wikipediaなどペタバイト級の情報に加え、ChatGPTユーザーが入力した文章(プロンプト)も学習していると言われています。このため、過去に誤って公開された機微情報を含むWebページや、ユーザーが誤入力した社外秘や
こんにちは!逆瀬川( https://twitter.com/gyakuse )です! 今日はさいきんよく質問されるGPT-3の事実ベースのQAについて書いていこうと思います。 したいこと 長めの文章ファイルを対象に質問を投げかけ、適切に回答してくれる仕組みを作る うれしみ 今回の手法を用いると、ファクトに基づいた回答ができるので、以下のような分野に応用が可能です。 QAデータをもっている企業における質問応答チャットボットの構築 企業/事業ごとの専門知識をもったチャットボットの構築 教科書等を読み込ませた家庭教師的なチャットボットの構築 論文等の各種文献の読解補佐チャットボットの構築 AITuberやAIキャラクターに長期記憶を持たせる BingGPTなどのようなシステムの構築 どのように実現するか考える 大量の文章ファイルや長文を対象にQAする難しさについて 単純な質問-応答は以下のよう
章立て はじめに Docker・Container型仮想化とは Docker一強時代終焉の兆し Container技術関連史 様々なContainer Runtime おわりに 1. はじめに Containerを使うならDocker、という常識が崩れつつある。軽量な仮想環境であるContainerは、開発からリリース後もすでに欠かせないツールであるため、エンジニアは避けて通れない。Container実行ツール(Container Runtime)として挙げられるのがほぼDocker一択であり、それで十分と思われていたのだが、Dockerの脆弱性や消費リソースなどの問題、Kubernetes(K8s)の登場による影響、containerdやcri-o等の他のContainer Runtimeの登場により状況が劇的に変化している。本記事では、これからContainerを利用したい人や再度情報
この記事は、Merpay Advent Calendar 2022 の15日目の記事です。 こんにちは。メルペイのvvakameです。 最近、社内向けにGraphQL Client Architecture Recommendationというドキュメントを書きました。社内のiOS/Android、そしてバックエンドのエンジニア向けにGraphQLをやるならこの辺りの条件を満たしておかないと恩恵を感じられなくなっちゃうかもよ、と伝えるためのものです。嬉しいことに、今までに100名弱の人たちがこのドキュメントを閲覧してくれたようです。 これをAdvent Calendarで公開するために、ちょっと調整したものがこの社外版です。 すでにGraphQLをやっているけどあまり便利じゃないな…なんでだろ?とか、これから導入したいんだけど何を気をつけるべきかな…と考える時の材料にしてください。 併せて、
Node.js/TypeScript ORMのPrisma。 高機能なので理解することがたくさんあるので、はじめ方をまとめてみた。 既存のDBがすでにあって、あとからPrismaを導入するときのイメージ。 全体の流れ Prismaを使った開発の流れはこんな感じ。 事前準備 初期設定 ... npx prisma init 既存DBのスキーマ取得 ... npx prisma db pull 初期マイグレーションSQL生成 ... npx prisma migrate dev 開発時 DBスキーマの同期 ... npx prisma db push マイグレーションSQL生成 ... npx prisma migrate dev Prisma Clientの生成 ... npx prisma generate 本番 マイグレーション履歴の設定 ... npx prisma migrate r
長くなりそうなので、先に要点だけ。 Twitterで 先日の「RDSの方がAuroraより速いケース」の件、とりあえず調べたい範囲のベンチマーク取れた。元記事って2000万件*5=1億件を1クライアントで処理してるのな。で、普通に?HammerDB TPC-Cで多重度上げてもRDSが速いケースがないか調べた。— atsuizo (@atsuizo) 2022年4月7日 に連なる一連のツイートに結構反応があったので、ブログにもまとめておきます。 RDS PostgreSQLの方がAurora PostgreSQLより速いぜ!って記事を見かけたけど、大量データを1クライアントで流し込む試験の結果だった。 複数クライアントからのOLTPワークロードでもRDSの方が速いパターンってあるのかな?TPC-Cで試してみよう! インスタンスのサイズ(vCPU)と同時実行数によって、RDSの方が速いケース、
従来のGoogleアナリティクスである、ユニバーサル アナリティクス(以下UA)のサポートがいよいよ2023年7月に終了することが、先日アナウンスされました(※)。昨年対比やトレンドをチェックすることを考えると、2022年内できるだけ早めに次世代のGoogleアナリティクス(以下GA4)へ移行したいWebメディア運営者も多いかと思います。新しいツールの勉強や、既存システムの改修が必要な問題ではありますが、この機会を、データ収集・可視化の設計を見直し、日々の意思決定の共通言語としてデータを使いやすくするチャンスと捉えてみてはいかがでしょうか。 ※ Google、ユニバーサルアナリティクスのサポートを2023年7月1日に終了。早めのGA4移行を推奨 このnoteでは、前半でダッシュボードによるデータの可視化にコストをかけるべき理由を整理します。後半では、2021年秋に文春オンラインのダッシュ
はじめに これは Angular Advent Calendar 2018 4日目の記事です。 こんにちは (。・ω・。) Angular で CGM サービスを運用・構築したり、ng-japan の slack で emoji を追加することを生業としている者です。(コミュニケーションの場は本格的にspectrum へ移行することが決定したため emoji 業者としての活動は終わりになりそうです;;) 自分は今年の中旬くらいから担当している Angular プロジェクトを SSR 化していたのですが、実践的な流れを網羅する情報が存在せず非常に苦労しました。 今回はその経験を生かして Angular の Universal 化に関する実践的なまとめを作成することにします。 この記事は SSR の知識 0 の方でも読み進められるように大きく分けて #SSR を導入した結果 #SSR について
Preview feature: New CSS Overview panel Use the new CSS Overview panel to identify potential CSS improvements on your page. Open the CSS Overview panel, then click on Capture overview to generate a report of your page’s CSS. You can further drill down on the information. For example, click on a color in the Colors section to view the list of elements that apply the same color. Click on an element
こんにちは。株式会社スタメンでFANTSのフロントエンドを担当している@0906kokiです。 今回の記事では、皆さんおなじみの Chrome Devtools にある Performance タブで、フロントエンドのパフォーマンスを計測する方法について書きたいと思います。 はじめに フロントエンドのパフォーマンス・チューニングと言うとバックエンドと比べて後回しになりがちですが、フロントエンドにアプリケーションの複雑性が寄ってきている現在、フロントエンドがボトルネックでレスポンスのレイテンシーが発生することは往々にしてあると思います。 バックエンドではユーザー数の増加や大量の同時接続に耐えられる負荷対策やパフォーマンス・チューニングが中心となりますが、フロントエンドではプロジェクトサイズの増加による JavaScript ファイルのダウンロードやスクリプティング、レンダリング速度の低下等が
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く