並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 24 件 / 24件

新着順 人気順

次元削減の検索結果1 - 24 件 / 24件

  • 全ゲノム解析で明らかになる日本人の遺伝的起源と特徴

    理化学研究所(理研)生命医科学研究センター ゲノム解析応用研究チームの寺尾 知可史 チームリーダー(静岡県立総合病院 臨床研究部 免疫研究部長、静岡県立大学 薬学部ゲノム病態解析講座 特任教授)、劉 暁渓 上級研究員(研究当時:ゲノム解析応用研究チーム 研究員; 静岡県立総合病院 臨床研究部 研究員)、東京大学医科学研究所附属ヒトゲノム解析センター シークエンス技術開発分野の松田 浩一 特任教授らの共同研究グループは、大規模な日本人の全ゲノムシークエンス(WGS)[1]情報を分析し、日本人集団の遺伝的構造、ネアンデルタール人[2]およびデニソワ人[3]由来のDNAと病気の関連性、そしてゲノムの自然選択が影響を及ぼしている領域を複数発見しました。 本研究成果は、日本人集団の遺伝的特徴や起源の理解、さらには個別化医療[4]や創薬研究への貢献が期待されます。 今回、共同研究グループは、バイオバン

      全ゲノム解析で明らかになる日本人の遺伝的起源と特徴
    • LLMを用いたLLMの自動評価について 〜可能性と注意点〜 - NTT Communications Engineers' Blog

      こんにちは、イノベーションセンターの杉本(GitHub:kaisugi)です。普段はノーコードAI開発ツール Node-AI の開発に取り組む傍ら、兼務1で大規模言語モデル(LLM:Large Language Model)について調査を行なっています。特に、日本語を中心に学習された LLM への関心があり、awesome-japanese-llm という日本語 LLM をまとめた Web サイトのメンテナンスにも取り組んでいます。 今回は、LLM に LLM の評価そのものを行わせるという新たなアプローチ(LLM-as-a-judge)についてご紹介します。 ChatGPT の登場以降、国内外で LLM の開発競争が進行しており、モデルの重みが公開されたオープンなモデルも続々と現れています。そのような中で、新しいモデルの構築だけでなく、どのモデルが優れているかを比較検討することが今後ます

        LLMを用いたLLMの自動評価について 〜可能性と注意点〜 - NTT Communications Engineers' Blog
      • ヤバいデータ分析(書籍・記事であまり扱われてないが重要なこと) - Qiita

        まえがき データ分析はなんて広いんだろう。影響力の強まりに応じ、自然・社会・人間ほぼすべてが対象となりどんどん拡大していく。対象に応じ手法も広がり複雑化し、学ぶべきことが多すぎる。データサイエンティスト協会のスキルチェックリストVer.3.001(ごめんもう4.00が出てるね)も500超の項目があります。読むべき図書も良書と思われるものだけでも増え続けており、もう手に負えない状況です。 ただ、これはやってはだめだ、ここを知らないと道に迷う、という絶対に知っておくべき点は学べる範囲だと思います。本書では、データ分析において間違えやすい、誤解しやすい点を共有し、データ分析全体をよくする目的で、かつ データ分析の入門書・専門書に分野ごとには書かれてはいますが1つにまとまっておらず目に触れにくいもの データ分析の入門書・専門書でもスルーされていたり場合によっては誤っていると思われるもの で自分なり

          ヤバいデータ分析(書籍・記事であまり扱われてないが重要なこと) - Qiita
        • 「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見

          はじめに 機械学習に関する実用的な知見を知るために、「Kaggleで勝つデータ分析の技術」を読んだので、Kaggle以外の場面でも活用できる話題をまとめてみた。本書は機械学習の基本的な内容も含んでいるが、この記事では機会学習に関する一通りの知識を持ち、実問題に利用している読者を想定してまとめた。従って、勾配ブースティング木の仕組みや、回帰タスクの評価方法等、基本的な内容については解説しない。本記事では、評価の落とし穴や、モデルを改善するための特徴量の工夫、チューニングのTipsについて紹介する。 特徴量 Tips 1: 欠損値の扱い データにはしばしば欠損値が含まれている。欠損値は、そもそも値が存在していない場合の他に、ユーザが意図して入力していない場合や、観測器のエラーによって取得できていない場合等、様々な理由によって生じる。欠損がランダムに発生していない限り、欠損しているという事実が何

            「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見
          • いま「新しい数学」が必要だ。助けて数学者!|shi3z

            最初に言っておくが、僕は数学は全く苦手だ。数学が得意な人から見たらかなり的外れなことを言ってるのかもしれないが、僕にとっては切実な悩みなのである。「そんなのは簡単だよ」という人がいたらどうか教えて欲しい。 点がある。 これを0次元と言う。 点が横に並行移動して伸びて線になる。この線は無限大の長さまで伸びることができる。これを一次元という。 任意の長さ1の線が縦に1だけ動く、正方形になる。これを二次元と言う。 正方形を長さ1だけ今度は奥行方向に伸ばす。立方体になる。これを三次元という。 ここまでに「3つの方向」が出てきた。横、縦、奥行。 そのどれでもない四つ目の方向を考える。ただしこれは「時間軸」ではない。自由に行き来できる縦、横、奥行、ではない四つ目の「方向」だ。 立方体をそっち側の方向に動かす。これを超立方体といい、この空間を4次元という。 この長立方体をさらに「べつの方向」に動かす。こ

              いま「新しい数学」が必要だ。助けて数学者!|shi3z
            • 独立成分分析(ICA)を使ってText Embeddingを分析してみた - Qiita

              EMNLP2023に採択された論文を眺めていたところ、ある論文が目に止まりました。 「Discovering Universal Geometry in Embeddings with ICA」という論文です。 これは京大下平研の山際さんの論文で、ざっくりとサマると「Word EmbeddingなどのEmbeddingを独立成分分析(ICA)で次元削減することで、人間にとって解釈性の高い成分を取り出すことができる」という論文です。 Vision TransformerやBERTを用いた実験から、モーダルや言語に関わらず解釈性の高い表現が得られたという結果を得ています。 論文内では、文を対象としたEmbeddingであるText Embeddingには触れられていないですが、おそらくうまく動くだろうという見込みがあったため、本手法をText Embeddingに対して実行してみました、という

                独立成分分析(ICA)を使ってText Embeddingを分析してみた - Qiita
              • 大規模小説データをOpenAI Embedding APIで特徴抽出してUMAPで可視化してみた

                テラーノベルで機械学習を中心に担当している川尻です。みなさんも大量のデータを特徴抽出してみたけど、どう使ったらいいかわからないなぁということありますよね。とりあえずどういうデータなのか雰囲気だけでもみるために、簡単な可視化から入るかと思います。以前にもグラフデータの可視化について記事を書きました。 テラーノベルでは小説投稿アプリを作っており、OpenAI Embedding APIを使って全作品の特徴量を出しているデータベースがあります。今回はこのデータを例にして、UMAPという可視化に便利な次元削減手法の使い方を紹介します。 UMAPとは UMAPというのは非線形の次元削減手法で、特徴は次元数やデータ量に対してほとんど一定の計算時間で済むということです。LLMなどの事前学習モデルでよく扱うような1,000次元を超えるような特徴量でも全く問題なく動きます。さらに、Pythonでとても使いや

                  大規模小説データをOpenAI Embedding APIで特徴抽出してUMAPで可視化してみた
                • 大規模言語モデルは、絵文字の分散表現をどう見るか - YANS2023ブース展示|セコン / @hotchpotch

                  くふうカンパニーの舘野(@hotchpotch)です。先日行われたYANS2023にスポンサー企業として参加し、ブースで「大規模言語モデルは絵文字の分散表現をどう見るか」という展示を行いました。 Webブラウザー上で、絵文字の分散表現(特徴量)を使ってインタラクティブにぐりぐり動かしながら、色々な視点から絵文字を見ることができます。 🎨Emoji Embedding Projector🌐 https://emoji-emb.netlify.app/ 🔼 こちらのURLから、ブラウザで絵文字の分散表現を視覚的に弄れます スマートフォンでも横表示にすれば操作できますが、PC ブラウザでの閲覧がおすすめです 🤗 楽しみ方絵文字アイコンをクリックすると、その絵文字の類似 Top-100 が表示されます。 左下の PCA タブでは、主成分の上位1-10が表示され、そのうち3つを使い3D空間に

                    大規模言語モデルは、絵文字の分散表現をどう見るか - YANS2023ブース展示|セコン / @hotchpotch
                  • Pythonデータサイエンスハンドブック 第2版

                    Pythonのデータサイエンス用のツールを使いこなすための実用的な情報が詰め込まれたリファレンスの待望の改訂版です。IPythonとJupyter、NumPy、pandas、Matplotlib、scikit-learnを利用し、データの操作、可視化、行列計算、時系列解析、統計分析、機械学習、データモデルの構築、複雑な科学計算まで、幅広いトピックをカバー。それぞれのトピックについて、押さえておくべき基本、tips、便利なコマンドなどを紹介します。Pythonでデータ処理を行う人にとってはいつも手元に置いておきたい「使える」一冊です。 『Python Data Science Handbook, Second Edition』への称賛 訳者まえがき はじめに Ⅰ部 Jupyter:Pythonより優れたPython 1章 IPython、Jupyter入門 1.1 IPythonシェルの起動

                      Pythonデータサイエンスハンドブック 第2版
                    • 【LLM × レコメンド】パーソナライズLLMレコメンドシステムの実装と学びについて - ABEJA Tech Blog

                      こんにちは!競馬愛が止まらず、昨年テックブログで競争馬に関する記事を公開してしまった、データサイエンティストの安倍(あんばい)と申します。社内では馬ニキと呼ばれています。 tech-blog.abeja.asia 世はまさに大LLM時代。このウェーブに少し乗り遅れたなと思いつつ、専門であるレコメンドシステムと、LLMで何かできないだろうかと思い、執筆したのが本記事になります。本記事では主に以下の2点についてご紹介します。 既存のパーソナライズレコメンドモデルとLLMの統合についての設計、実装及び評価 LLMを用いたレコメンドシステムのメリット、デメリット、実運用面での課題点 オープンデータを用いた、アニメレコメンドシステムを実装し、LLMに統合する過程で感じた、LLMならではの素晴らしさや、難しさや、課題感をお伝えすることができたらと思います。 目次 目次 概要 事前知識 協調フィルタリン

                        【LLM × レコメンド】パーソナライズLLMレコメンドシステムの実装と学びについて - ABEJA Tech Blog
                      • Weekly AI News 始めました - クラスタリングとGPTを使った、まとめ自動生成 - A Day in the Life

                        AI関連の話題が引き続き多い昨今、今週どんなことが話題になったのだろう?ぐらいの頻度で知れると結構便利なんじゃないかなーと、毎週配信するメルマガ(substack)を始めました。内容は全自動で作成しています。例えば、2023年7月28日から遡って約一週間分のAIニュースまとめは以下の感じです。 https://ainewsdev.substack.com/p/weekly-ai-news-1 完璧とまでは言わないまでも、そこそこ話題になったものをいい感じで集められているのではないでしょうか。興味がある方はご登録 or フィードリーダーなどで購読ください。 なお、メルマガタイトルは Weekly Kaggle News のリスペクトです。 と、広報だけではあれなので、内部の実装の話でも。以前リンクを張った資料と、とりわけ大きく変えているわけでは無いのですが、ざっくりと書くと multilin

                        • 第32回 人工知能学会 金融情報学研究会(SIG-FIN)参加レポート / 開発者向けブログ・イベント | GMO Developers

                          GMOインターネットグループ デベロッパーエキスパートの市川(@Yoshihiko_ICKW)です。 2024年03月02日(土) 第32回 人工知能学会 金融情報学研究会(SIG-FIN)@東京大学に参加してきました。 目的は、ファイナンス分野への人工知能技術の応用研究の調査のためです。ChatGPTのファイナンスへの応用の話も多かったです。よろしければご覧ください。 (文章の作成に当たっては、一部Chat-GPTを利用しました) イベントの概要 人工知能学会 金融情報学研究会(SIG-FIN)は人工知能学会の第二種研究会です。 詳細は上記リンクに譲るのですが、近年より広い方々の金融市場への関心が高まっています。このような背景で、ファイナンス分野への人工知能技術の応用を促進するための研究会になります。人工知能分野の研究者や金融市場の現場の技術者が参加する、大変ユニークな研究会になっていま

                          • OpenAIの新embeddings,text-embedding-3-smallをRAGタスクで評価する - A Day in the Life

                            先日、OpenAI から新しい embeddings モデルである、text-embedding-3-smallとtext-embedding-3-largeが公開された。text-embedding-3-smallは、古いembeddingsモデルのada-v2よりも価格は1/5に、かつ性能は向上しているとのこと。 OpenAIの記事によると、MTEBの評価は少々スコアが上がり、特筆すべきはMIRACLの方は大幅にスコアの向上が見られる。MIRACL(Multilingual Information Retrieval Across a Continuum of Languages)は名前の通り、多言語での情報検索タスクで、このスコアが大幅に上がったということは、日本語での情報検索タスクの精度向上にも期待が持てる。 Wikipedia Q&A の RAG タスクで評価 というわけで早速評

                              OpenAIの新embeddings,text-embedding-3-smallをRAGタスクで評価する - A Day in the Life
                            • 【Cell Ranger】NCBI SRA データをCell Ranger用に準備する方法【scRNA-seq】 - LabCode

                              NCBI(National Center for Biotechnology Information)が提供するSequence Read Archive(SRA)から取得したシーケンスデータでSingle cell RNA-seq解析したいと思いませんか? この記事は、SRAを10x GenomicsのCell Rangerでデータ処理する方法を解説します。 データの取得から、FASTQファイルのダウンロード、そしてFASTQファイルの命名規則に従った名前変更までの方法を解説します。 この記事を理解することで、公開されているシーケンスデータを効率的に再利用することができますぜひ挑戦してみましょう。 Cell Rangerとは? Cell Rangerは10x Genomics社が開発したソフトウェアパッケージで、シングルセルRNAシーケンシング(scRNA-seq)データの前処理と解析を

                              • 事例で学ぶ特徴量エンジニアリング

                                いかに高度な機械学習モデルがあったとしても、その性能を左右するのは入力データが優れているかどうかです。時代とともに扱うモデルが進化したとしても、優れた入力データを構築するための特徴量エンジニアリングは常に必要な技術であり、どのような時代においても学ぶ価値があります。 本書は、一般的な特徴量エンジニアリングの手法を概説するとともに、それらの手法をいつどのように使うかについて考えるためのフレームワークを提供します。序盤の章では特徴量エンジニアリングの基本概念や基礎知識を学び、後続章では5つの実践的なケーススタディを通じて特徴量エンジニアリングの具体的手法を詳しく解説します。COVID-19の診断や再犯率のモデリングなど、実社会での活用を想定した実例を通して、自然言語処理やコンピュータービジョン、時系列分析など、さまざまな機械学習ジャンルにおけるパフォーマンス向上のためのヒントが得られます。本書

                                  事例で学ぶ特徴量エンジニアリング
                                • Pythonで学ぶ「機械学習」入門

                                  「機械学習は難しそう」と思っていませんか? 心配は要りません。この連載では、「知識ゼロから学べる」をモットーに、機械学習の基礎と各手法を図解と簡潔な説明で分かりやすく解説します。Pythonを使った実践演習もありますので、自分の手を動かすことで実用的なスキルを身に付けられます。 第1回 機械学習をPythonで学ぼう! 基礎、できること、ライブラリ(2024/02/08) 機械学習とは ・ルールベースと機械学習ベースの違い - ルールベースのアプローチ - 機械学習ベースのアプローチ 機械学習の学習方法 ・教師あり学習 ・教師なし学習 ・自己教師あり学習 ・強化学習 機械学習が解決できること ・解決できるタスクとは ・【教師あり学習】回帰(数値予測) ・【教師あり学習】分類 ・【教師なし学習】クラスタリング(グループ分け) ・【教師なし学習】次元削減 機械学習の基本用語 ・機械学習モデルの

                                    Pythonで学ぶ「機械学習」入門
                                  • ベクトル検索の高速化アルゴリズムと量子化パラメータの速度・データサイズ・精度の計測 - RAGでの利用時にはtop-N を意識する - A Day in the Life

                                    最近、文をembeddingsといった特徴ベクトルに変換するユースケースが増えている。そのベクトルから類似ベクトルを探す時に、数千ベクトルならほぼ何も考えなくともよく、数万ベクトル〜になると検索速度を高速化するためHNSW等のANNの近似最近傍探索アルゴリズムを使い、そして数百万ベクトル〜になってくると現実的なデータサイズ収めるために量子化等々を組み合わせた最適化を行うことが多いだろう。 これら類似ベクトル検索のための最適化(HNSW・IVFといったアルゴリズムや量子化)では、検索速度、データサイズ(メモリに乗るか)、精度、三つのトレードオフが発生する。これらトレードオフを踏まえた最適化戦略を考えるのだが、最適化時の正確さの計測結果として recall@10 や recall@100 が掲載されていることを多く見かける。例えばChoose the k-NN algorithm for yo

                                      ベクトル検索の高速化アルゴリズムと量子化パラメータの速度・データサイズ・精度の計測 - RAGでの利用時にはtop-N を意識する - A Day in the Life
                                    • CVPR2023で登場したNeRF論文を紹介 - NTT Communications Engineers' Blog

                                      目次 目次 はじめに NeRFの概要と最近の課題 モデル軽量化に関する論文 PlenVDB: Memory Efficient VDB-Based Radiance Fields for Fast Training and Rendering Masked Wavelet Representation for Compact Neural Radiance Fields MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures 表現力の拡張に関する論文 K-Planes: Explicit Radiance Fields in Space, Time, and Appearance ABLE-NeRF: Atten

                                        CVPR2023で登場したNeRF論文を紹介 - NTT Communications Engineers' Blog
                                      • お手軽!高精度!異常検知モデルPatchCoreの魅力

                                        3つの要点 ✔️ 異常検知問題ベンチマークであるMVTecデータセットにおいてSOTAを達成! ✔️ 事前学習済みモデルを活用することで特徴抽出部分のCNNの学習が不要 ✔️ CNNから得られた特徴を効率的にサンプリングすることで推論の高速化が可能 Towards Total Recall in Industrial Anomaly Detection written by Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Schölkopf, Thomas Brox, Peter Gehler (Submitted on 15 Jun 2021 (v1), last revised 5 May 2022 (this version, v2)) Comments: Accepted to CVPR 2022 Subjects: Com

                                          お手軽!高精度!異常検知モデルPatchCoreの魅力
                                        • 次元削減、局所性鋭敏型ハッシュ――コンピュータサイエンスは美しい

                                          次元削減、局所性鋭敏型ハッシュ――コンピュータサイエンスは美しい:Go AbekawaのGo Global!~Tyler McMullen(前)(1/3 ページ) グローバルに活躍するエンジニアを紹介する本連載。今回はFastlyのCTO、Tyler McMullen(タイラー・マクマレン)さんにお話を伺う。高校生のころはアーティストになりたかったタイラーさん。そんな同氏を引き留め、エンジニアの道に導いたのはある先生の一言だった。 国境を越えて活躍するエンジニアにお話を伺う「Go Global!」シリーズ。今回はFastlyのCTO(最高技術責任者)、Tyler McMullen(タイラー・マクマレン)さんにお話を伺った。ゲームやレゴなどパズル的なものが大好きな少年は「ゲームジニー」でプログラミングの世界に足を踏み入れる。 聞き手は、アップルやディズニーなどの外資系企業でマーケティングを担

                                            次元削減、局所性鋭敏型ハッシュ――コンピュータサイエンスは美しい
                                          • アップルがLLMのようにスケーラブルな大規模自己回帰画像モデルを開発

                                            3つの要点 ✔️ LLMの画像版として、自己回帰学習型の画像モデルAIMを提案 ✔️ 事前学習した画像特徴量の質はモデル規模とデータの質に従い向上し、下流タスクの性能は事前学習性能に従い向上 ✔️ 20億枚の画像でAIMの70億パラメータを事前学習しImageNet-1kタスクで精度84%を達成に加え、性能飽和の兆しなし Scalable Pre-training of Large Autoregressive Image Models written by Alaaeldin El-Nouby, Michal Klein, Shuangfei Zhai, Miguel Angel Bautista, Alexander Toshev, Vaishaal Shankar, Joshua M Susskind, Armand Joulin (Submitted on 16 Jan 2024)

                                              アップルがLLMのようにスケーラブルな大規模自己回帰画像モデルを開発
                                            • 【院生が徹底解説】ChatGPTのベクトルデータベースとは? | WEEL

                                              この記事はベクトルデータベースの概要について、従来のデータベースと比較しながら説明しています。 AIについて研究している大学院生の方と協力して書きました。 最後まで読んでいただくと、ベクトルデータベースとは何かわかります。 ぜひ最後までご覧ください! なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。 →無料相談で話を聞いてみる ベクトルデータベースとは? ベクトルデータベースの概要 ベクトルデータベースとは、その名の通り、ベクトルという数学的概念を用いてデータを管理するデータベースシステムのことを指します。 それではまず、この「ベクトル」について簡単に説明しましょう。 ベクトルとは、高校数学でも習うように、大きさと向きを持つ量を表すためのものです。多次元空間内での位置関係や特徴を表現することができ、その性質を利用してデータ間の類似性などを

                                              • [Amazon Bedrock] Amazon Titan Multimodal Embeddings G1モデル を使用して、「きのこの山」と「たけのこの里」の分類モデルを作成してみました | DevelopersIO

                                                [Amazon Bedrock] Amazon Titan Multimodal Embeddings G1モデル を使用して、「きのこの山」と「たけのこの里」の分類モデルを作成してみました 1. はじめに CX事業本部製造ビジネステクノロジー部の平内(SIN)です。 Amazon Bedrockで利用可能なAmazon Titan Multimodal Embeddings G1モデル は、 テキスト、イメージ、または、その組み合わせによるマルチモーダル埋め込みモデルです。 今回は、これを利用して、画像の分類モデルを作成してみました。 2.検証 (1) データ 使用したデータは、下記のブログで作成した「きのこの山」と「たけのこの里」の画像です。回転台に乗せて撮影し、Segment Anything Modelで切り取って背景を白にしたものです。 ファイルは、下記のようにimagesの階層

                                                  [Amazon Bedrock] Amazon Titan Multimodal Embeddings G1モデル を使用して、「きのこの山」と「たけのこの里」の分類モデルを作成してみました | DevelopersIO
                                                • 欠損値を含む多変量時系列データを補完する手法「GP-VAE」

                                                  はじめに Proxima Technology にて論文読みバイトをさせて頂いております、名古屋大学医学部5年の野村怜史です。大学では生命科学分野での機械学習手法の研究開発を行っています。 本記事では、AISTATS 2020 で発表された論文「GP-VAE: Deep Probabilistic Time Series Imputation」を紹介します。この論文では、欠損値を含む多変量時系列データを対象とし、欠損値補間を行うための手法 GP-VAE を提案しています。Variational autoencoder (VAE) を用い、次元削減と潜在空間におけるガウス過程の導入を両立している点がポイントです。 モチベーション 本手法は、多変量時系列データにおける欠損値補間を問題とします。ここでは、チャネル(特徴量)方向・時間方向の双方における相関関係を考慮しつつ欠損値補間を行いたい、とい

                                                    欠損値を含む多変量時系列データを補完する手法「GP-VAE」
                                                  1