2つの確率分布間の“距離”を測る指標で、値は0(一致)~1(不一致)の範囲に収まる。ユークリッド距離に似た計算式で定義されており、確率分布の違いを直感的に扱えるのが特徴である。主に統計学や機械学習の分野で、確率分布間の比較や類似度評価に利用されている。
2つの確率分布間の“距離”を測る指標で、値は0(一致)~1(不一致)の範囲に収まる。ユークリッド距離に似た計算式で定義されており、確率分布の違いを直感的に扱えるのが特徴である。主に統計学や機械学習の分野で、確率分布間の比較や類似度評価に利用されている。
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Deep Learningについての基礎を教えていると、「活性化関数が何者かよくわからん」と多くの人が学習の最初の躓きポイントになった人が結構います。 入力と重みを行列の掛け算をして~、重みに従って入力が活かされる値が調整されて~、バイアスで調整して~ と、その辺りは高校数学の行列の知識で「なんかうろ覚えだけど言いたいことはわかる」とあまり躓くことはないのですが、 こいつにいきなり「活性化関数」がかけられます。 こいつは何者なんだと 恐らく最初はステップ関数やSigmoid関数が紹介されて「あ、値を0.0~1.0に丸める奴なのかな」と思
はじめに はじめまして。データアナリティクスラボの力岡です。 私は日頃、テーブルデータの分析業務において、LightGBMをはじめとする勾配ブースティング系アルゴリズムを活用しています。ただし、その仕組みを十分に理解したうえで使いこなせているかというと、まだ自信が持てない部分もあります。そこで本記事では、自分自身の理解を深めるとともに、これから学ぶ方々にも役立つよう、勾配ブースティング決定木(GBDT)について体系的に解説していきます。 1. 勾配ブースティング決定木 勾配ブースティング決定木(Gradient Boosting Decision Trees、GBDT) は、複数の決定木(弱学習器)を組み合わせて高い予測精度を実現する、アンサンブル学習の一手法です。その名の通り、「勾配降下法」「ブースティング」「決定木」という3つの要素を組み合わせて構成されており、実務やKaggleなどの
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 「蒸留」ってなに? 皆さん「蒸留」という言葉からは、お酒を作る場面やアロマオイルを抽出する場面を思い浮かべるかもしれません。実はAIの世界にも「知識蒸留」というテクニックがあります。これは、簡単に言うと「大きくて賢いモデル(教師モデル)が持っている知識を、小さくて軽量なモデル(生徒モデル)に教え込む」方法です。 先生が自分の知恵を要点だけノートにまとめて、生徒に渡すようなイメージですね。大規模なAIモデルは高性能ですが、サイズが大きく計算コストも莫大です。知識蒸留を使えば、その高性能な教師モデルの知識の“エッセンス”を抽出して生徒モデ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに この記事では、私がこれまでXで発信してきたデータサイエンスに関わるさまざまな分野のチートシートを一挙にまとめました。前処理、可視化、機械学習、深層学習、ベイズ・統計、さらにはその他の関連トピックまで、私が作成したものからネット上のものまで多岐にわたる内容を網羅しています。 それぞれのセクションでは、実践的かつ即戦力となる情報が詰まったチートシートを紹介しており、初心者から上級者まで幅広い層に役立つ内容を目指しました。 日頃からX(旧Twitter)を通じて、データサイエンスに関する知識や役立つリソースを共有していますが、今回の
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 書籍「ディープラーニングの数学」の著者です。 Amazonリンク この書籍は、ディープラーニングを含めた機械学習のアルゴリズムを数学的に定式化し、Pythonのプログラムをスクラッチで組み立てて(使っているライブラリはほぼNumPyとMayplotlibだけです)、実習コードで動作を確認する立て付けの本です。 10章の実習プログラムはディープラーニングのプログラムになっているのですが、他の章の実習コードと比べて恐ろしく処理に時間がかかります(1つの繰り返し処理で30分から1時間)。ここをなんとかできないかと前から思っていて、先
テキスト生成における decoding テクニック: Greedy search, Beam search, Top-K, Top-p Transformer ベースの言語モデルが普及しているのは承知の通りだと思います。 中でも有名なのは BERT で、これは Transformer の Encoder のみを使う Autoencoding models と呼ばれるカテゴリのモデルです。入力の一部を隠してそれを復元するというタスクを大量に解かせることで事前学習を行うことになります。それゆえ、このタイプのモデルが最も向いているタスクは Token の分類(固有表現抽出等)や文章の分類など、入力の文章自体に興味がある場合です。 一方、Transformer の Decoder のみを使う Autoregressive models (GPT-2 など) や、 Encoder と Decoder
この記事はなにか せっかく強いPCがあるならGPU使ってこうぜ!ってことでWindowsでPythonのCUDA機械学習環境を整えたので、私自身の備忘録がてら、まとめておきます。 いろいろ試したけど、つまづいた方、これならうまくいってほしい!! (私自身もめちゃめちゃつまづいたので...) 構築するもの scoop: Windows向けのパッケージマネージャーで、コマンドラインを通じてソフトウェアを簡単にインストール・管理できるツール Python: 俺たちのPython CUDA: NVIDIA製GPU向けの並列計算プラットフォームおよびAPI cuDNN: NVIDIAが提供するディープラーニング向けのGPUアクセラレーションライブラリで、CUDAと連携して動作 Pytorch: 機械学習と深層学習のフレームワーク TensorFlow: Googleが開発したオープンソースの機械学習
2023年5月15日(月)に国立情報学研究所にて初回となる LLM 勉強会を開催しました。 プログラム 勉強会の趣旨、国の動向など [資料] 黒橋禎夫(国立情報学研究所) 現状の LLM のサーベイ [資料] 河原大輔(早稲田大学) 菅原朔(国立情報学研究所) 栗田修平(理化学研究所) 各機関での試みの紹介 河原大輔(早稲田大学)[資料] 坂口慶祐(東北大学) 佐藤敏紀(LINE) 高村大也(産業技術総合研究所) 参加者 乾健太郎(東北大学・オンライン参加) 鈴木潤(東北大学・オンライン参加) 坂口慶祐(東北大学) 高村大也(産業技術総合研究所) 石垣達也(産業技術総合研究所・オンライン参加) 栗田修平(理化学研究所) 吉野幸一郎(理化学研究所・オンライン参加) 鶴岡慶雅(東京大学)(資料提供のみ) 宮尾祐介(東京大学) 谷中瞳(東京大学・オンライン参加) 吉永直樹(東京大学・オンライン参
米Microsoft(マイクロソフト)は2023年3月28日(米国時間)に開催した自社イベント「Microsoft Secure」で、米OpenAI(オープンAI)の大規模言語モデル(LLM)「GPT-4」を活用したセキュリティー分析ツール「Microsoft Security Copilot」を発表した。現在はプレビュー版を公開する。このツールで何ができるのか、マイクロソフトが示した実例に基づき解説しよう。 Security Copilotは、セキュリティー担当者が社内外で発生したセキュリティーインシデントなどについて自然言語で質問をすると、GPT-4ベースのAI(人工知能)がセキュリティーログなどのデータを分析して、攻撃の実態や対処方法などをテキストや図、PowerPointのスライドなどで返答するツールである。 Security Copilotは、マイクロソフトのSIEM(セキュリテ
GPT4が登場してChatGPTが盛り上がってますね。 本記事は、GPT(を支えるTransformerという仕組み)をChatGPTユーザにとって分かりやすく説明し、その能力と限界についての見通しをよくしよう、という趣旨になります。 少し長くなりそうなので、全部で記事を3回に分けようと思います。 (1)大まかな背景と概要:本記事 (2)GPTの能力と可能性:実際の使用例とTransformerの仕組みを踏まえて説明 (3)GPTの限界と未来展望:Transformerの仕組みが持つ限界と研究の進展を予想 GPT3と4の違い: トークン長とは何か? まずここから話を始めます。GPT-3は、パラメータ数が750億個(850GBの容量を食う)でトークン長が4097(GPT-3.5)でした。GPT-4は、パラメータ数は非公開でトークン長は32768ですので、ちょうど8倍になります。 さて、トーク
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? こんにちは。 在宅の機会が増えて以来Youtubeを見る機会が増え、機械学習などが勉強できるチャンネルをいくつか探しては見ていました。探した中でよかったと思ったものをメモしていたのですが、せっかくなので公開したいと思います。日本語のソースがあるもののみ対象にしており、『これ無料でいいのか?』と思ったチャンネルを紹介したいと思います。主観で以下のレベルに分けましたがあくまで参考程度にお願いいたします。 基本:Pythonを触ってみた人 Pythonの説明・動かし方などを解説していて、動画によっては踏み込んだ内容になる 応用:アルゴリズムを
はじめに: 本講座は「機械学習ってなんか面倒くさそう」と感じている プログラマのためのものである。本講座では 「そもそも機械が『学習する』とはどういうことか?」 「なぜニューラルネットワークで学習できるのか?」といった 根本的な疑問に答えることから始める。 そのうえで「ニューラルネットワークでどのようなことが学習できるのか?」 という疑問に対する具体例として、物体認識や奥行き認識などの問題を扱う。 最終的には、機械学習のブラックボックス性を解消し、所詮は ニューラルネットワークもただのソフトウェアであり、 固有の長所と短所をもっていることを学ぶことが目的である。 なお、この講座では機械学習のソフトウェア的な原理を中心に説明しており、 理論的・数学的な基礎はそれほど厳密には説明しない。 使用環境は Python + PyTorch を使っているが、一度原理を理解してしまえば 環境や使用言語が
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く