並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 23 件 / 23件

新着順 人気順

k-meansの検索結果1 - 23 件 / 23件

  • 「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ

    最近の話ですが、以下のようなニュースが話題になっているのを見かけました。 データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータサイエンス系学部・学科における昨春の一般選抜のうち、数学を選ばずに受験できる大学は約半数もあった。 要は「数学不要」のデータサイエンス学部が出てくるようになったというお話で、各種SNSでは論議を呼んでいるようです。界隈によってはほとんど「嘲笑」に近い評が流布していることもあり、少なくともデータサイエンス業界におけるこのニュースの受け止められ方としてはかなり冷ややかだという印象があります。 とは言え、冗談でも何でもなく「全国津々浦々どこに行っても大学の新設データサイエンス学部の広告を見かける」*1というのが既に常態化している昨今では、これに類する話題は今後

      「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ
    • 時系列データのための大規模言語モデル

      近年の大規模言語モデル(LLM)の出現は、自然言語処理(NLP)においてパラダイムシフトをもたらし、ChatGPTをはじめとする様々な革新的サービスを生み出している。LLMの急速な進化は、NLPの領域を超えて、より広範なデータモダリティへのLLMの適用可能性を探る研究への発展を促している。その中で今回注目したのが、時系列データへのLLMの適用である。例えば、[Gruver+, 2023] では、GPT-3やLLaMA-2などの既存のLLMが、ダウンストリームタスクで教師あり学習した時系列モデルの性能に匹敵するか上回るレベルで、zero-shotで時系列予測ができることを報告しており、大変興味深い。本ブログでは、2024年に公開されたサーベイ論文「Large Language Models for Time Series: A Survey」を参考にLLM for Time Seriesの全

        時系列データのための大規模言語モデル
      • Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog

        2.3k{icon} {views} 複数のLLM(GPT/Claude3)とArxivの検索APIをRAGで統合し、論文サーベイの自動生成を作りました。検索結果の前処理や、サーベイ特有のプロンプトエンジニアリングやソートが重要で、最適化手法として古くからある巡回セールスマン問題(TSP)が有効に機能しました。また、生成部分ではGPTよりClaude3の明確な有効性を確認できました。 できたもの Arxivの検索APIを使って検索拡張生成(RAG)したらサーベイを自動生成できた やっていること Arxivの検索ワードをGPT-4-Turboで生成 ArxivのAPIを叩いてヒューリスティックでフィルタリング OpenAIのEmbedding APIを叩く Embeddingに対して巡回セールスマン問題(TSP)を解いてソートをかける 論文の要旨をGPT-3.5-Turboで要約 ソートした

          Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog
        • 「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見

          はじめに 機械学習に関する実用的な知見を知るために、「Kaggleで勝つデータ分析の技術」を読んだので、Kaggle以外の場面でも活用できる話題をまとめてみた。本書は機械学習の基本的な内容も含んでいるが、この記事では機会学習に関する一通りの知識を持ち、実問題に利用している読者を想定してまとめた。従って、勾配ブースティング木の仕組みや、回帰タスクの評価方法等、基本的な内容については解説しない。本記事では、評価の落とし穴や、モデルを改善するための特徴量の工夫、チューニングのTipsについて紹介する。 特徴量 Tips 1: 欠損値の扱い データにはしばしば欠損値が含まれている。欠損値は、そもそも値が存在していない場合の他に、ユーザが意図して入力していない場合や、観測器のエラーによって取得できていない場合等、様々な理由によって生じる。欠損がランダムに発生していない限り、欠損しているという事実が何

            「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見
          • マーケティング担当者なら使えるべき5つの超重要な分析手法 - Qiita

            マーケティング担当者にとって、より多くの新規顧客を開拓し、既存顧客のエンゲージメントを高めることが何よりも重要となります。 データを使うとより効率的に、顧客セグメントを発見しそれぞれの顧客に合ったプロモーションを行ったり、自社サービスを購入される可能性の高い見込み顧客に的を絞った効果的なマーケティング活動を実行していくことができるようになります。 しかし、いざデータを活用し始めようとすると困るのが、そもそもどういった分析手法を使えば良いのかわからないということです。 そこで、マーケティング担当者が使いこなせるようになるべき5つの分析手法を、どのようなシーンで利用できるかという例を使って紹介します。 5つの分析手法 今回は、以下の5つの分析手法と、それぞれのアナリティクスがどのような目的で利用できるのかを紹介します。 1. 相関分析: 自社にとっての最適な顧客層を見つける 「相関」とは、2つ

              マーケティング担当者なら使えるべき5つの超重要な分析手法 - Qiita
            • Professional Machine Learning Engineer試験対策マニュアル - G-gen Tech Blog

              G-gen の佐々木です。当記事では Google Cloud(旧称 GCP)の認定資格の一つである、Professional Machine Learning Engineer 試験の対策や出題傾向について解説します。 基本的な情報 Professional Machine Learning Engineer とは 難易度 試験対策 機械学習の一般的な知識 代表的な機械学習アルゴリズム 評価指標 回帰問題における評価指標 分類問題における評価指標 ヒューリスティック 機械学習モデルの開発、運用における課題の解決 データの前処理 欠損値の処理 カテゴリカル変数の扱い 不均衡データの対策 過学習の対策 正則化 早期停止 トレーニングの改善 ハイパーパラメータの調整 トレーニング時間の改善 交差検証 モデルのモニタリングと改善 スキューとドリフト モデルの軽量化手法 Google Cloud

                Professional Machine Learning Engineer試験対策マニュアル - G-gen Tech Blog
              • 顧客セグメンテーションのために使える3つの分析手法 - Qiita

                顧客セグメンテーションのために使える3つの分析手法 マーケティングをはじめとするビジネスの世界では、顧客一人一人に合わせて最適なコミュニケーションを取れることが理想的ですが、コストや労力の観点で、そのようなことは現実的とは言えません。 一方で、顧客を共通の「属性」や「行動」をもとに、いくつかのセグメントに分けられれば、それぞれのセグメントに合わせて効果的なコミュニケーションを取ったり、そのセグメントに最適な施策を実行できるようになります。 そこで今回は、顧客に関する購買・行動・属性・アンケートなどのデータがあったときに、顧客セグメンテーションのために使える3つの分析手法を紹介いたします。 K-means クラスタリング: 顧客の属性や購買履歴をもとにセグメントに分ける 例えば、以下のように1行が1人の回答者を表し、列に数値型の情報をもつアンケートの回答のデータがあったときに、人が1人1人の

                  顧客セグメンテーションのために使える3つの分析手法 - Qiita
                • ビジョン技術の実利用ワークショップ「ViEW2023」参加報告 - NTT Communications Engineers' Blog

                  この記事は、NTTコミュニケーションズ Advent Calendar 2023 25日目の記事です。 はじめに こんにちは、イノベーションセンター テクノロジー部門 メディアAI PJ所属の和田、小林です。 普段は画像/映像/言語/音声 等メディアを入力としたAI技術(メディアAI技術)を用いて、事業部/関連部支援や最新技術の調査/研究開発を行なっています。 今回は技術調査の一環として参加した「ViEW2023」について、ワークショップの概要や発表された論文について紹介したいと思います。 ViEW2023は2023年12月7日~8日にパシフィコ横浜で開催されました。詳細は下記サイトをご覧ください。 ViEW2023 公式Webサイト https://view.tc-iaip.org/view/2023/index.html . 目次 はじめに 目次 ViEWについて 流行りのテーマ 小田

                    ビジョン技術の実利用ワークショップ「ViEW2023」参加報告 - NTT Communications Engineers' Blog
                  • 2024年度 第38回人工知能学会全国大会(JSAI2024)参加レポート - Insight Edge Tech Blog

                    はじめまして!2024年5月よりInsight EdgeにジョインしたData Scientistの市川です。 まだ入社して間もないですが、オルタナティブデータを活用した案件や、金融市場のオプション等を活用した分析などに携わっております。 今回は、先日人工知能学会(JSAI2024)に行ってきましたので、そのレポートをさせて頂きます。 イベントの概要 発表の概要 [2J1-KS-19] 金融分野における大規模言語モデルの活用 [2A2-PS-2] 進化する大規模言語モデル [2O4-OS-25a] 不動産とAI [2O4-OS-25a-01] 住宅価格予測モデルの経時的な精度の変化分析 [2O4-OS-25a-02] 地理空間ネットワークデータと機械学習を用いた説明可能性の高い賃料予測 [2O4-OS-25a-03] 機械学習を用いた物件設備スコアの推定:不動産データを使用したケーススタデ

                      2024年度 第38回人工知能学会全国大会(JSAI2024)参加レポート - Insight Edge Tech Blog
                    • Vision-Launguageモデルで走行データベースと動画検索システムを作る

                      Turing株式会社の自動運転チームでインターンしている東大B3の大野です。 自動運転チームでは、完全自動運転の実現を目指して自動運転AIを開発しています。モデル開発の際に、「雨の日に高速を走っていて先行車がいない」や「交差点で歩行者がいる中、右折している」など、特定の状況の走行データが必要になることがあります。 今回私は、動画に対して天気や歩行者の数などのラベルをデータベース化し、検索できるシステムを、Vision-Languageモデルを使って開発しました。この記事では、このシステムの作成にあたって取り組んだことについて説明します。 作成したGUI 課題 Turingでは、走行パートナーの方々とともに、大量の走行データを収集してきました。走行データには、車両に載せたカメラによる動画や、その際の車両のログ(速度やステアリング角、位置情報など)が含まれます。また、すべてのデータをAWSのS

                        Vision-Launguageモデルで走行データベースと動画検索システムを作る
                      • Mastering Customer Segmentation with LLM

                        Let’s see a brief description of the columns of our dataset: age (numeric)job : type of job (categorical: “admin.” ,”unknown”,”unemployed”, ”management”, ”housemaid”, ”entrepreneur”, ”student”, “blue-collar”, ”self-employed”, ”retired”, ”technician”, ”services”)marital : marital status (categorical: “married”,”divorced”,”single”; note: “divorced” means divorced or widowed)education (categorical: “

                          Mastering Customer Segmentation with LLM
                        • Contrastive Learningの最新動向のレビュー - Morpho Tech Blog

                          こんにちは。CTO室リサーチャーの鈴木です。今回は、深層学習の分野でここ数年盛り上がっているContrastive Learning系の手法について、主だった論文を系統的にまとめて紹介したいと思います。 はじめに 近年発展した自己教師あり学習(Self-Supervised Learning:SSL)は、アノテーション情報を人の手ではなく機械的に付与することで、データセットの構築にかかる時間やコストを軽減し、深層学習モデルの精度向上を目指した手法です。自然言語処理分野におけるSSLは大きな成功を収め、ChatGPT等の超高性能なチャットボットの出現にも影響を与えました。 SSLは主に深層学習モデルの「事前」学習として用いられます。SSLによって、文章や画像に含まれる一般的な特徴を大量のデータから学習することができます。これにより、文章生成や画像認識などの本学習の効率が向上し、最終的な性能向

                            Contrastive Learningの最新動向のレビュー - Morpho Tech Blog
                          • K-Means Clustering for Unsupervised Machine Learning

                            K-means clustering is a type of unsupervised learning when we have unlabeled data (i.e., data without defined categories or groups). Clustering refers to a collection of data points based on specific similarities. K-Means Algorithm K-means aims to find groups in the data, with the number of groups represented by the variable K. Based on the provided features, the algorithm works iteratively to ass

                              K-Means Clustering for Unsupervised Machine Learning
                            • A Guide to Clustering in Machine Learning

                              When we cluster things, we put them into groups. In Machine Learning, Clustering is the process of dividing data points into particular groups. One group will have similar data points and differentiate from those with other data points. It is purely based on the patterns, relationships, and correlations in the data. Clustering is a form of Unsupervised Learning. Let’s quickly recap the definition

                                A Guide to Clustering in Machine Learning
                              • Hierarchical Clustering in Machine Learning

                                If you read the “An Introduction to Clustering” article, you will know that Hierarchical Clustering is a type of Connectivity model in Machine Learning. To recap, Connectivity Models are based on the fact that data points in the same data place have similarities. What is Hierarchical Clustering? Hierarchical Clustering is an algorithm that groups similar data points into clusters. Hierarchical Clu

                                  Hierarchical Clustering in Machine Learning
                                • k-NN (k-Nearest Neighbors) in Supervised Machine Learning

                                  K-nearest neighbors (k-NN) is a Machine Learning algorithm for supervised machine learning type. It is used for both regression and classification tasks. As we already know, a supervised machine learning algorithm depends on labeled input data, which the algorithm learns to produce accurate outputs when input unlabeled data. k-NN aims to predict the test data set by calculating the distance betwee

                                    k-NN (k-Nearest Neighbors) in Supervised Machine Learning
                                  • 1-4_データ・AI利活用のための技術

                                    1-4 データ・AI利活用のための技術 1 東京大学 数理・情報教育研究センター 久野遼平 2020 CC BY-NC-SA 東京大学 数理・情報教育研究センター 2020年5月11日 概要  データサイエンスやAI利活用の現場ではどういう技術が用いられる のでしょうか?  ここでは基本的なものを見ていくことで、データ・AIを活用するた めに使われている技術の概要を知ることを目標とします 2 東京大学 数理・情報教育研究センター 久野遼平 2020 CC BY-NC-SA 本教材の目次 1. データの1次分析と可視化 2. データ利活用のための技術 3. ビッグデータとAI 4. 参考文献 3 4 11 14 18 東京大学 数理・情報教育研究センター 久野遼平 2020 CC BY-NC-SA 1-4-1 データの1次分析と可視化 4 東京大学 数理・情報教育研究センター 久野遼平

                                    • Three Types of Machine Learning

                                      Machine learning is the heart of AI. Similar to any species, AI needs continuous learning. So, let’s see how we make AI learn and what types of machine learning are there. In this article, we will understand the three different types of Machine Learning; however, we must first understand Artificial Intelligence. Artificial Intelligence (AI) is the ability of a computer or a computer-controlled rob

                                        Three Types of Machine Learning
                                      • ブランドロゴチェックを画像処理で自動化する社内での取り組み

                                        こんにちは。DS統括本部で画像処理エンジニアをしている上野です。LINEヤフー株式会社の企業ロゴやサービスロゴなどのブランドロゴには、ブランドガイドラインと呼ばれるロゴ使用時に守らなくてはならないルールが定められています。ロゴを使用する際にロゴが変形してしまったり、変色してしまったりすると問題となるため、細心の注意を払って使用しております。今まではロゴが使用されている画像を担当デザイナーがすべて目視確認でチェックすることで、ガイドラインを遵守してきました。ブランド価値を守るためにとても大切な作業です。これらの作業を画像処理で自動化できないかと考え、ブランドロゴチェックツールを作成しました。 ※載せている画像は、今回のブログ用に用意したテスト画像です。 この記事では、社内のデザイナーから寄せられた目視確認の作業に工数がかかってしまっているという課題を画像処理技術で解決した事例について、紹介し

                                          ブランドロゴチェックを画像処理で自動化する社内での取り組み
                                        • Deep-ML

                                          ML Code Challenges Title Category Difficulty Status Matrix times Vector linear algebra Easy Unsolved Calculate Covariance Matrix linear algebra Medium Unsolved Solve Linear Equations using Jacobi Method linear algebra Medium Unsolved Singular Value Decomposition (SVD) linear algebra Hard Unsolved Determinant of a 4x4 Matrix using Laplace's Expansion linear algebra Hard Unsolved Linear Regression U

                                          • 難問データセットSWE-benchとは?AIによるプログラミング能力の新たな評価基準

                                            KMeans gives slightly different result for n_jobs=1 vs. n_jobs > 1 <!-- If your issue is a usage question, submit it here instead: - StackOverflow with the scikit-learn tag: http://stackoverflow.com/questions/tagged/scikit-learn - Mailing List: https://mail.python.org/mailman/listinfo/scikit-learn For more information, see User Questions: http://scikit-learn.org/stable/support.html#user-questions

                                              難問データセットSWE-benchとは?AIによるプログラミング能力の新たな評価基準
                                            • 機械学習を応用して画像のポスタリゼーション - Qiita

                                              K-means法は教師なし学習の中でクラスタリングを行いますが、そのアルゴリズムの中でクラスタの重心を求めます。 ところで画像は配列にするとRGBが縦×横になっているわけですが、そのRGBのデータを取り出すことでデータセットにしてクラスタの数を8個にして各色の重心の色を使います。 ※今回はGoogle Colabを使っているのでインデントが少し変ですがおおめに見てください。 ライブラリのインポート from sklearn.cluster import KMeans import cv2 import matplotlib.pyplot as plt import numpy as np

                                                機械学習を応用して画像のポスタリゼーション - Qiita
                                              • Team「たぬき」開発振り返りメモ2: Scaling lawの壁は高かったという話

                                                はじめに チームリーダーの畠山です。開発が終盤に差し掛かってきたので、備忘録として開発の振り返りメモを書いていきます。 前回の記事では、限られたリソースで高性能なモデルを作るために、3つの点に注目しました。 モデルアーキテクチャの最適化 事前学習用データセットの準備 ファインチューニング用データセットの準備 今回は、それぞれのアプローチを試した結果について説明します。タイトルにもあるように、Scaling lawの壁は高く、簡単にはうまくいきませんでした。むしろ、うまくいかない条件がわかったという知見が多く得られました[1]。 モデルアーキテクチャの工夫: Branch-Train-Merge (BTM)もどきを試す BRTもどき戦略はうまくいったのか? チームでは、事前学習の際にランダムにシャッフルしたデータを使う代わりに、以下のようなカリキュラムを設定しました。 各ステージの内容: S

                                                  Team「たぬき」開発振り返りメモ2: Scaling lawの壁は高かったという話
                                                1