各クエリに対しそれぞれ上位 k 個の予測を出すようなシステムを評価する指標をまとめます。 Recall@k 各クエリに対して、上位 k 個の予測に含まれる正解数が、総正解数のうちどの程度の割合含まれているかを計算します。そして最後にクエリ全体で平均を取ります。 MRR (Mean Reciprocal Rank) 各クエリ i の予測を上から見たときに最初に正解が出てきた時の順位を rank_i とします。それに対して、以下のような式を計算します。 MRR = \dfrac{1}{|Q|} \sum_{i=1}^{|Q|} \dfrac{1}{rank_i} なお、予測に正解が一つも含まれない場合は \dfrac{1}{rank_i} = 0 とします。 MAP (Mean Average Precision) まず、Average Precision について説明します。これは y_j
【論文紹介】The Datasets Dilemma: How Much Do We Really Know About Recommendation Datasets? 文献情報タイトル:The Datasets Dilemma: How Much Do We Really Know About Recommendation Datasets? 著者:Jin Yao Chin, Yile Chen, Gao Cong 会議:WSDM 2022 概要15種類のデータセットを対象にして5種類の推薦手法の精度を比較し、データセットによって有用な手法がどの程度異なるかを示した。また、その結果をもとに、推薦手法を提案する今後の研究でどのようなデータセットを使えば良いかを提案した。実験に使用したコードとデータセットはGitHubから利用可能。 従来研究との差異最近の情報推薦分野の研究における不備を指
A search engine on an organization’s website or intranet is often built to support an overly narrow model of user behavior, which goes something like this: User types in a search Search engine gives back matching results User reads the results and picks the best one Simple. Better still, it asks very little of the user interface—only that it provide some way to submit a search, and some list in re
概要 PyTorchチュートリアルに、英仏の機械翻訳モデルを作成するTranslation with a Sequence to Sequence Network and Attentionがあります。 このチュートリアルは、教師データを一つずつ与える形になっており、結構遅いのです。 なので、バッチでの学習ができるように修正を試みたところ、注意ポイントがいくつかあったのでまとめておきます。 RNNのバッチ学習の実装 RNNでバッチ学習を行う際に問題となるのが、入力されるデータ系列の長さがバッチ内で異なることです。 この問題には一般的に、バッチ内での長さを揃えるためのパディングと、パディングした部分が学習の邪魔にならないようにするマスキングを実装して対処する必要があります。 実装自体は割と簡単にできますが、きちんと実装しないと学習が全然進まなかったりするので注意が必要です。 パディング パデ
ChatGPT,使っていますか? ChatGPTは文章を要約したり、プログラム作ってくれたり、一緒にブレストしてくれたりして本当に便利なのですが、社内情報などの独自データに関する情報については回答してくれません。 プロンプトに情報を記述して、そこに書かれている情報から回答してもらう方法もありますが、最大トークン4000の壁がありますので、限界があるかと思います。 この課題についてなんとかならないかと考えて色々と調べて見たところ、解決する方法が見つかり、いろいろと検証をして見ましたのでその結果をシェアしたいと思います。 サンプルコード(GoogleColab) 百聞は一見にしかずということで、実際に試したサンプルは以下にありますので、まずは動かしてみることをお勧めします。 このコードを上から順番に動かすと、実際にインターネット上から取得したPDFファイルに関する内容をChatGPTが回答して
定義と性質 ディリクレ分布 (dirichlet distribution) は独立した事象 \(k \in \{1, 2, \cdots, K\}\) がそれぞれ \(x_k=\alpha_k - 1\) 回観測されたときに各事象の生起確率が \(p_k\) である確率を示す連続した確率密度関数。\[ \begin{equation} {\rm Dir}(\vector{p}; \vector{\alpha}) = \frac{\Gamma \left(\sum_{k=1}^K \alpha_k\right)}{\prod_{k=1}^K \Gamma(\alpha_k)} \prod_{k=1}^K p_k^{\alpha_k-1} \label{dirichlet_distribution} \end{equation} \] \(\vector{\alpha}\) がすべて整数であ
ロジット関数のグラフ 確率 $p$ で起こる事象 $A$ について、$A$ が起こる確率と起こらない確率の比 $\dfrac{p}{1-p}$ をオッズと言います。そして、オッズの対数をとったもの $\log\dfrac{p}{1-p}=\log p-\log(1-p)$ を対数オッズと言います。 ここで登場した対数オッズを関数とみなしたもの $f(p)=\log\dfrac{p}{1-p}$ をロジット関数(logit function)と言います。ロジット関数のグラフは下図のようになります。 ・定義域は $0<p<1$ です。 ・$p\to 0$ で $f(p)\to -\infty$、$p\to 1$ で $f(p)\to\infty$ です。 ・$p=0$ と $p=1$ が漸近線です。 ・$p=\dfrac{1}{2}$ で $f(p)=0$ です。$(\frac{1}{2},0
はじめに ロジスティック回帰を理解するに当たっての前提知識となる、オッズとロジット変換について勉強したことをまとめました。 参考 オッズとロジット変換について理解するに当たって下記を参考にさせていただきました。 ロジスティック回帰分析(5)─ロジスティック変換の逆変換 統計分析を理解しよう-ロジスティック回帰分析の概要- StatQuest: Logistic Regression StatQuest: Odds and Log(Odds), Clearly Explained!!! ロジスティック回帰概要 ロジスティック回帰はあるデータが特定のクラスに属する確率などを推計する際によく用いられるアリゴリズムです。 目的変数が量的変数のもの(ある月の店の売り上げなど)を予測する時には普通の線形回帰モデルが使用されますが、目的変数が質的変数のもの(このメールはスパムであるか否か、や血液型がA型
10.5 順序ロジスティック回帰分析 (1) 累積ロジスティックモデル 今まで説明したデータは目的変数が「0:反応無、1:反応有」という2分類のものでした。 しかし表10.5.1のように、目的変数が3分類以上のグレードデータつまり順序分類尺度のデータという時もあります。 このようなデータはグレードデータをそのまま計量尺度として扱い、重回帰分析を適用するのが普通です。 しかしグレードデータにロジスティックモデルを当てはめ、ロジスティック回帰分析を適用することもできます。 表10.5.1 目的変数が順序分類尺度のデータ No.重症度 1:軽症 2:中等症 3:重症説明変数 x1x2x3 1
7. fastText • https://github.com/facebookresearch/fastText • Facebook AI Research製ライブラリ • fastTextが行えること 1. Word Embedding の取得 2. テキスト分類(マルチラベル対応) • 以下の2つの論文のC++実装 • Enriching Word Vectors with Subword Information (P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, 2016) • Bag of Tricks for Efficient Text Classification (A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, 2016)
概要本記事では、コレスキー分解を用いて適切な変数変換を行うことで、多次元正規分布の確率密度関数に含まれる分散共分散行列の逆行列の数値計算を回避する方法について述べる。 \(M\) 次元正規分布の確率密度関数 $$\mathcal{N}(\mathbf{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma})=\frac{1}{(2\pi)^\frac{M}{2}|\boldsymbol{\Sigma}|^\frac{1}{2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}$$ の定義式には、分散共分散行列の逆行列 \(\boldsymbol{\Sigma}^{-1
「時制の一致」という日本の英文法参考書にしか書かれていない文法事項は、古い日本で英語を翻訳するとき「英語の動詞」と「日本語の動詞語尾」がずれてしまう場合を説明するためのものであり、日本人のみに向けた古典英文法の化石です。日本語と英語は別言語なので時間表現の考え方が違うのは当然のこと。それを和訳をするためだけの目的でルールを設定したため、多くの例外が発生しました。 質問者様も、百害あって一利なしの「時制の一致」に苦しめられている犠牲者のひとりです。そこで一生時制に迷わなくなる例外なしの本当のルールをお知らせしましょう: 「時制の一致」というルールなど存在しません。 英語の直説法・述語動詞の時制はすべて現在を基準に決まります。例外はありません。 もっと簡単で比較しやすい例文を通じて「時制の一致」がないことを理解していただきましょう。 1, She told me she was a teach
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く