CIU Tech Meetup #1 (https://cyberagent.connpass.com/event/283317/) で発表した資料です。
![Evolving ML Platform with OSS Upstream Community](https://cdn-ak-scissors.b.st-hatena.com/image/square/3022e92d6e293d4af629e0d5cafc275772871c32/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2F2a66c51929894c9baacfcbad54edfe7b%2Fslide_0.jpg%3F25909892)
CIU Tech Meetup #1 (https://cyberagent.connpass.com/event/283317/) で発表した資料です。
はじめに 公平な機械学習モデルを構築する手法を検証します。 Jupyter Notebookは下記にあります。 概要 公平性指標としてEqualized Oddsを使用します。 Threshold Optimizerを用いて、公平な機械学習モデルを構築します。 公平性指標 Equalized Odds 今回考える公平性指標は、性別や人種などの各グループが公平に扱われているか(group fairness)を評価するために用いられます。 Equalized Oddsは、positiveとnegativeの2クラス分類において、positiveと判定される確率に着目した指標です。 具体的には、正しくpositiveと判定される確率(true positive rate)と、誤ってpositiveと判定される確率(false positive rate)がグループによらず等しいかを評価します。
Pythonコミュニティーは2023年5月25日(現地時間)、Python用パッケージリポジトリ「PyPI」上でプロジェクトや組織を管理する全てのアカウントに対し、2023年末までに2要素認証(2FA)有効化を義務付けると発表した。 「2要素認証を取り入れると、パスワード漏えいに伴うリスクをなくせる。もし攻撃者が誰かのパスワードを持っていたとしても、それだけではアカウントへのアクセス権限を得られない」(Pythonコミュニティー) 今後の動き 関連記事 GitHubが「2023年末までに全アカウントを2要素認証形式で保護する」と発表 ギットハブ・ジャパンは、GitHub.comの全アカウントに対して「2023年末までに2要素認証形式を有効化する」と発表した。 PythonなどOSSエコシステムを汚染する悪意あるパッケージが急増 リスクを避けるために何をすべきか Snykは、2023年初めか
PythonとRubyでWebAssembly――PyodideとPyScript、Ruby 3.2を体験する:いろんな言語で試す、WebAssembly入門(終) 第7回は、PythonとRubyによる開発事例を紹介します。これらの言語は、ここまでの回で紹介してきた言語とは異なった、実行環境をWebAssembly化するというアプローチでWebAssemblyに対応しています。PythonのPyodideとPyScript、Ruby 3.2でのWebAssemblyサポートを紹介します。
Transformer is a deep neural network that employs a self-attention mechanism to comprehend the contextual relationships within sequential data. Unlike conventional neural networks or updated versions of Recurrent Neural Networks (RNNs) such as Long Short-Term Memory (LSTM), transformer models excel in handling long dependencies between input sequence elements and enable parallel processing. As a r
はじめに 最近 langchain を使うようになってきて、OpenAIのAPIをちょこちょこ叩くのですが、いかんせん遅い いや十分に早いのだけど、ドキュメントの量があると若干気になってくる速度です そこで、 ローカルLLMとしてrinna を使ってみたりしたのですが、まだまだ遅いです すでに先行して実装例を作ってくれていた RWKVでembedding vectorを計算 の記事と SQLiteでベクトル検索ができる拡張sqlite-vssを試す の記事を大いに参考にしながら RWKV と sqlite-vss を使って高速なベクトル検索を作ってみます RWKVのモデル 今回は学習済みのRavenモデル RWKV-4-Raven-3B-v12-Eng98%-Other2% を使っていきます OpenAI の text-embedding-ada-002 モデル では 1536次元と扱いや
ChatGPTに対抗して、グーグルが新たなAIモデル「PaLM2」をリリースした。このモデルは、前モデルとなる「PaLM」よりも約5倍のテキストデータ(トークン)を学習に使用しつつも、そのサイズ(パラメータ数)は小さくなっており、より効率化されたモデルとしてテック界隈では話題となっている。 パラメータ数は、PaLMが5400億であることが明らかになっているが、PaLM2のパラメータ数は公開されていない。一方、CNBCは5月16日、独自に入手したグーグル社内文書の情報として、PaLM2のパラメータ数は3400億と伝えている。また同文書には、PaLM2のトークン数は3兆6000億であると記載されていたという。PaLMの学習トークン数は、7800億だった。 モデルの小型化により、競合モデルに比べ速く、コスト効率が高くなったPaLM2。実際、どの領域でパフォーマンス改善が見られるのか気になるところ
OpenLLaMA: An Open Reproduction of LLaMA In this repo, we present a permissively licensed open source reproduction of Meta AI's LLaMA large language model. We are releasing 3B, 7B and 13B models trained on 1T tokens. We provide PyTorch and JAX weights of pre-trained OpenLLaMA models, as well as evaluation results and comparison against the original LLaMA models. Please see the project homepage of
今日は、Webマーケター兼データ分析官の杉山がお送りします。 この1年、様々な場面でデータを触る仕事をしていて、感じたお話をしようと思います。 どんなに高級な数学的手法や、優れたデータ分析を行っても、それじゃ何にもならないなと感じたというお話です。 僕はもともと大学院で数学を研究していました。わざわざPhDまで取ってから新卒(?)としてこの会社に来て1年、心からそう感じているのだから、面白いものです。 結論から話しますと、データ分析は、人間が行う意思決定に供する目的で行う場合、その意思決定に役に立つものでなければならないということです。 もっというと、その文脈において、データ分析は意思決定のためのいちツールであって、万能な解決策を与えるものではないということです。 であるので、データの分析結果が出たあと、それを見て頭で考える必要があるし、逆に、データの分析結果は、解釈可能で、まともに考える
はじめに はじめまして。株式会社ずんだもんのアルバイトエンジニアのinadaです。 今日は誰でも作れるずんだもんと題してローカルPCにずんだもんAIを作ります。この記事はそのチュートリアル記事です。 (誰でもと書いてますが、RTX 3060(12G)搭載以上のPC推奨です。CPUマシンでも出来る部分はありますが非推奨です。RTX 3060(12G)のグラボは5万ぐらいで買えるので持ってなければ買っちゃいましょう。) 対象読者/記事の範囲 ローカルPCで動かせる大規模言語モデルを、学習用のデータの用意から、学習、動かすところまで一通りどんなものか、お試ししてみたい人。 自分だけの世界にただ一人だけのうちの子、またはパートナー(うちの嫁)を作り育てたい。そんな沼にはまりたい、興味がある人。 AIの仕組みや用語は当記事では解説しません。AIの用語(モデル, loss, epoch, checkp
Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能 米Metaは6月16日(現地時間)、新たな音声生成AIモデル「Voicebox」を開発したと発表した。音声の編集、サンプリング、スタイルの設定などを行える。 音声とテキストを入力することで、以下のような音声を出力できる。 入力した声で入力したテキストを読み上げる音声クリップを作成する 録音した音声から犬の鳴き声やブザー音などのノイズを除去する 録音した音声の言い間違いを修正する 1つの言語のスピーチを同じ声のまま別の言語に変換する(英語の音声を仏語に、など) 1つのテキストを多様な声で読み上げる Metaは、Voiceboxで将来的にはメタバース内のバーチャルアシスタントやNPC(ノンプレイヤーキャラクター)が自然な声で話せるようになるとしている。また、自分の声のまま(本来は話せない)外
Like generative systems for images and text, Voicebox creates outputs in a vast variety of styles, and it can create outputs from scratch as well as modify a sample it’s given. But instead of creating a picture or a passage of text, Voicebox produces high-quality audio clips. The model can synthesize speech across six languages, as well as perform noise removal, content editing, style conversion,
Stable Diffusionは文字や画像を元に新たな画像を生成してくれるAIですが、実行環境としてPythonが必要とされてきました。そんな中、ONNXモデルおよびONNX Runtimeの活用とC++での実装でPythonへの依存をなくし、Xbox上で動作させることに成功した猛者が登場しました。 Stable Diffusion running on Xbox Series X and S for the first time - YouTube 左端の大きなアイコンが今回作成された「Unpaint」というアプリ。記事作成時点ではストアには存在せず、インストールするにはユーザーが自分でパッケージに署名する作業が必要になります。Xbox Series XおよびXbox Series Sのどちらでも動作可能とのこと。左の大きな画面にXbox Series Xの出力が表示されています。 起
ChatGPTのように人間と同等のレベルで自然な文章を生成できるAIや、テキストを入力するだけで高精度な写真やイラストを生成できるAIが登場したことで、業績を水増しするために偽の科学論文をAIに執筆させるケースが報告されています。偽の科学論文を量産して販売する企業は「ペーパーミル(論文工場)」と呼ばれており、学術雑誌の審査プロセスや研究者の業績評価に対する信頼性を大きく揺るがす問題となっています。 AI intensifies fight against ‘paper mills’ that churn out fake research https://doi.org/10.1038/d41586-023-01780-w シドニー大学の分子生物学者で出版インテグリティ研究者であるジェニファー・バーン氏は「ペーパーミルがもっともらしいデータを生成する能力は、AIによってまさに急上昇していま
Andrew Ng先生 来日特別講演をAI/DL学習者向けにオンサイト開催いたします 本講演では、これまでAI人材育成の世界の最前線を走ってきたAndrew Ng先生に、生成AIにより変わるビジネス・社会の「今」をどう捉えているのか?お話いただきます。 また、パネルディスカッションでは、Andrew先生と松尾豊先生(日本ディープラーニング協会理事長)、リンクトイン・ジャパン代表の田中若菜さんより、これからの時代に求められるAI人材の最新トレンドやスキル要件について、お話いただきます。 なお、特別講演・パネルディスカッション後は、質疑応答を予定しています。 質問者は本イベント申込時のアンケート回答より主催にて選定し、イベント当日、会場にてAndrew先生に直接ご質問いただきます。 ◆Andrew Ng プロフィール◆ スタンフォード大学の非常勤教授、Coursera の共同創設者兼会長、De
Function callingの登場 6/13ごろにOpenAI社から発表された新しいgpt-3.5-turboのインスタンスにFunction callingという機能が追加され話題を呼んでいます。このFunction calling、非常に強力な機能なのですが、仕組みがいまいちピンとこないといった方も多いのではないでしょうか。筆者もその一人で、ドキュメントを3回くらい読んでもしっくり来なかったのですが、実際にFunction callingを実装してみてなるほど、これは凄いな、となったので紹介します。 ここでは、具体的なソースコードを紹介しながら、実際に動作するサンプルを作っていきます。 TL;DR ソースコードだけ見られればいい!という方は以下へ https://github.com/canada/openai-function/blob/master/app.py ソースコードを
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 NTTセキュリティ・ジャパンに所属する研究者らが発表した論文「Detecting Phishing Sites Using ChatGPT」は、ChatGPTでフィッシングサイトを検出する手法を提案した研究報告である。 この手法では、Webサイトから情報を収集するためにWebクローラーを使用し、その収集したデータを元にプロンプトを作成する。プロンプトはChatGPTに提示され、ChatGPTは与えられたWebサイトがフィッシングサイトかどうかを判断する。 WebクローリングとChatGPTの組み合わせにより、Webサイトの正当性や怪しさに関する情報に基
「ChatGPT」は何が得意なのか。それはテキストだ。なぜなら、ChatGPTの機能は全てテキストでトレーニングされているからだ。 ChatGPTのベースとなっているAI(人工知能)モデルである「GPT-3」ファミリーのような大規模言語モデル(LLM:Large Language Model)は、膨大なデータセットでトレーニングすることで構築されている。これらのデータは、クローラーを使ってWebからスクレイピングで収集したり、Wikipediaなどから抽出したりしたものだ。 GPT-3だけでも、数千億の単語を含んでいる。既に周知のように、GPT-3は自然言語による質問に対して、これらの単語をつなぎ合わせて見事な回答を返せる。 だが、私はずっと「LLMを文章ではなくユーザーインタフェース(UI)でトレーニングできたらどうなるか?」と考えている。 「Figma」のような現代的なデジタルデザイン
※このエントリーは「OpenAIをいい感じに使うバックエンドをFastAPIで実装したぜ!」というエントリーです(サンプルコードはこちら), 「OpenAIで何かを作った・人工知能を産んだ」訳では無いのでそっち方面を期待している方はそっ閉じしたほうが良いかもしれません(Web API開発に興味ある人はそのまま読んで). 趣味は野球観戦と見せかけて, 「休日にダラダラ野球見ながら趣味のコードを書く」のが最も好きな人です. 100敗待ったなしの贔屓チームがいきなり7連勝したり*1, 昨年まで扇風機状態だった贔屓チームのフィジカルモンスターが突然覚醒して4番ライトに定着*2したりと理解が追いつかない野球を見るのはこれぐらい(コード書きながらみる)ぐらいがちょうどいいと思ってます, だってプレーオフ行けるか怪しいですもの*3. 時は遡り2020年, 私はセイバーメトリクスといくつかの機械学習の知見
今や世界中で、その対処の仕方が議論されているChatGPT。開発企業の米OpenAI社のサム・アルトマンCEOが6月12日に来日し、東京都港区の慶應義塾大学三田キャンパスで学生の質問に答えた。 質問には、AIの今後や社会がそれによってどう変わっていくのかに加えて、組織論や経営哲学などビジネスに関するものも多く寄せられた。 回答から、いま世界に革命をもたらしているアルトマンCEOであっても、かつては昼まで寝て、あとはビデオゲームにいそしむ生活をしていた時期もあったという。一方、そこから得た気付きが、ビジネスをする上での原動力にもなっていると話した。 ChatGPTの創業者が仕事をする上で最も大切にしている考え方は何か。ブレイクスルーの起こし方とは。学生に語った。1回目「生成AIで人類はよりクリエイティブになる」 ChatGPTアルトマンCEOが断言する理由に続いてお届けする。 関連記事 和製
中には「塾選びのサービスを巡る話し合いの中で、『お客様はどう塾を選ぶのか』という疑問が改めて出た。社員の中には過去の経験やデータから、バイアスが掛かっている人もいる。そこでAIに質問し『中立的な意見はこうなる』と認識を擦り合わせた」(浅井さん)といった使い方も。植田さんによれば、基本的には事業部門より技術系部門の利用が多いという。 グループへの展開に当たっては、セキュリティのガイドラインも整備した。セキュリティの担当チームと協議の上、機密や個人情報を入力しないといった暫定的なルールを策定。適宜アップデートしながら運用する方針にした。ただし現在は、日本ディープラーニング協会が提供するテンプレートが利用の実態に即しているとして、カスタマイズした上での乗り換えを検討しているという。 グループ内におけるBenesseChatの評判も上々と植田さん。社内アンケートで感謝のコメントが届く他、「○○をや
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く