本文「k-means」を検索 - はてなブックマーク

1 - 23 件 / 23件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

k-meansの検索結果1 - 23 件 / 23件

「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ
- 184 users
- tjo.hatenablog.com
- テクノロジー
- 2024/01/22
最近の話ですが、以下のようなニュースが話題になっているのを見かけました。データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータサイエンス系学部・学科における昨春の一般選抜のうち、数学を選ばずに受験できる大学は約半数もあった。要は「数学不要」のデータサイエンス学部が出てくるようになったというお話で、各種SNSでは論議を呼んでいるようです。界隈によってはほとんど「嘲笑」に近い評が流布していることもあり、少なくともデータサイエンス業界におけるこのニュースの受け止められ方としてはかなり冷ややかだという印象があります。とは言え、冗談でも何でもなく「全国津々浦々どこに行っても大学の新設データサイエンス学部の広告を見かける」*1というのが既に常態化している昨今では、これに類する話題は今後
時系列データのための大規模言語モデル
- 125 users
- zenn.dev/tsurubee
- テクノロジー
- 2024/07/10
近年の大規模言語モデル（LLM）の出現は、自然言語処理（NLP）においてパラダイムシフトをもたらし、ChatGPTをはじめとする様々な革新的サービスを生み出している。LLMの急速な進化は、NLPの領域を超えて、より広範なデータモダリティへのLLMの適用可能性を探る研究への発展を促している。その中で今回注目したのが、時系列データへのLLMの適用である。例えば、[Gruver+, 2023] では、GPT-3やLLaMA-2などの既存のLLMが、ダウンストリームタスクで教師あり学習した時系列モデルの性能に匹敵するか上回るレベルで、zero-shotで時系列予測ができることを報告しており、大変興味深い。本ブログでは、2024年に公開されたサーベイ論文「Large Language Models for Time Series: A Survey」を参考にLLM for Time Seriesの全
- LLM
- あとで読む
- AI
- 機械学習
- 論文
- 研究
Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog
- 87 users
- blog.shikoan.com
- テクノロジー
- 2024/04/27
2.3k{icon} {views} 複数のLLM（GPT/Claude3）とArxivの検索APIをRAGで統合し、論文サーベイの自動生成を作りました。検索結果の前処理や、サーベイ特有のプロンプトエンジニアリングやソートが重要で、最適化手法として古くからある巡回セールスマン問題（TSP）が有効に機能しました。また、生成部分ではGPTよりClaude3の明確な有効性を確認できました。できたもの Arxivの検索APIを使って検索拡張生成（RAG）したらサーベイを自動生成できたやっていること Arxivの検索ワードをGPT-4-Turboで生成 ArxivのAPIを叩いてヒューリスティックでフィルタリング OpenAIのEmbedding APIを叩く Embeddingに対して巡回セールスマン問題（TSP）を解いてソートをかける論文の要旨をGPT-3.5-Turboで要約ソートした
- RAG
- AI
- LLM
- あとで読む
- 自然言語処理
- アルゴリズム
- 論文
- 研究
「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見
- 63 users
- zenn.dev/y0
- テクノロジー
- 2023/08/10
はじめに機械学習に関する実用的な知見を知るために、「Kaggleで勝つデータ分析の技術」を読んだので、Kaggle以外の場面でも活用できる話題をまとめてみた。本書は機械学習の基本的な内容も含んでいるが、この記事では機会学習に関する一通りの知識を持ち、実問題に利用している読者を想定してまとめた。従って、勾配ブースティング木の仕組みや、回帰タスクの評価方法等、基本的な内容については解説しない。本記事では、評価の落とし穴や、モデルを改善するための特徴量の工夫、チューニングのTipsについて紹介する。特徴量 Tips 1: 欠損値の扱いデータにはしばしば欠損値が含まれている。欠損値は、そもそも値が存在していない場合の他に、ユーザが意図して入力していない場合や、観測器のエラーによって取得できていない場合等、様々な理由によって生じる。欠損がランダムに発生していない限り、欠損しているという事実が何
- kaggle
- あとで読む
- 機械学習
- 統計
- 数学
マーケティング担当者なら使えるべき5つの超重要な分析手法 - Qiita
- 31 users
- qiita.com/IkuyaM
- 学び
- 2023/10/25
マーケティング担当者にとって、より多くの新規顧客を開拓し、既存顧客のエンゲージメントを高めることが何よりも重要となります。データを使うとより効率的に、顧客セグメントを発見しそれぞれの顧客に合ったプロモーションを行ったり、自社サービスを購入される可能性の高い見込み顧客に的を絞った効果的なマーケティング活動を実行していくことができるようになります。しかし、いざデータを活用し始めようとすると困るのが、そもそもどういった分析手法を使えば良いのかわからないということです。そこで、マーケティング担当者が使いこなせるようになるべき5つの分析手法を、どのようなシーンで利用できるかという例を使って紹介します。 5つの分析手法今回は、以下の5つの分析手法と、それぞれのアナリティクスがどのような目的で利用できるのかを紹介します。 1. 相関分析: 自社にとっての最適な顧客層を見つける「相関」とは、2つ
- マーケティング
- あとで読む
Professional Machine Learning Engineer試験対策マニュアル - G-gen Tech Blog
- 26 users
- blog.g-gen.co.jp
- テクノロジー
- 2023/08/28
G-gen の佐々木です。当記事では Google Cloud（旧称 GCP）の認定資格の一つである、Professional Machine Learning Engineer 試験の対策や出題傾向について解説します。基本的な情報 Professional Machine Learning Engineer とは難易度試験対策機械学習の一般的な知識代表的な機械学習アルゴリズム評価指標回帰問題における評価指標分類問題における評価指標ヒューリスティック機械学習モデルの開発、運用における課題の解決データの前処理欠損値の処理カテゴリカル変数の扱い不均衡データの対策過学習の対策正則化早期停止トレーニングの改善ハイパーパラメータの調整トレーニング時間の改善交差検証モデルのモニタリングと改善スキューとドリフトモデルの軽量化手法 Google Cloud
- gcp
- 機械学習
- 資格
- あとで読む
- Google
- learning
- 学習
顧客セグメンテーションのために使える3つの分析手法 - Qiita
- 11 users
- qiita.com/IkuyaM
- テクノロジー
- 2024/07/09
顧客セグメンテーションのために使える3つの分析手法マーケティングをはじめとするビジネスの世界では、顧客一人一人に合わせて最適なコミュニケーションを取れることが理想的ですが、コストや労力の観点で、そのようなことは現実的とは言えません。一方で、顧客を共通の「属性」や「行動」をもとに、いくつかのセグメントに分けられれば、それぞれのセグメントに合わせて効果的なコミュニケーションを取ったり、そのセグメントに最適な施策を実行できるようになります。そこで今回は、顧客に関する購買・行動・属性・アンケートなどのデータがあったときに、顧客セグメンテーションのために使える3つの分析手法を紹介いたします。 K-means クラスタリング: 顧客の属性や購買履歴をもとにセグメントに分ける例えば、以下のように1行が1人の回答者を表し、列に数値型の情報をもつアンケートの回答のデータがあったときに、人が1人1人の
- 統計
ビジョン技術の実利用ワークショップ「ViEW2023」参加報告 - NTT Communications Engineers' Blog
- 8 users
- engineers.ntt.com
- テクノロジー
- 2023/12/25
この記事は、NTTコミュニケーションズ Advent Calendar 2023 25日目の記事です。はじめにこんにちは、イノベーションセンター　テクノロジー部門メディアAI PJ所属の和田、小林です。普段は画像/映像/言語/音声等メディアを入力としたAI技術（メディアAI技術）を用いて、事業部/関連部支援や最新技術の調査/研究開発を行なっています。今回は技術調査の一環として参加した「ViEW2023」について、ワークショップの概要や発表された論文について紹介したいと思います。 ViEW2023は2023年12月7日~8日にパシフィコ横浜で開催されました。詳細は下記サイトをご覧ください。 ViEW2023 公式Webサイト https://view.tc-iaip.org/view/2023/index.html . 目次はじめに目次 ViEWについて流行りのテーマ小田
2024年度第38回人工知能学会全国大会（JSAI2024）参加レポート - Insight Edge Tech Blog
- 7 users
- techblog.insightedge.jp
- テクノロジー
- 2024/07/01
はじめまして！2024年5月よりInsight EdgeにジョインしたData Scientistの市川です。まだ入社して間もないですが、オルタナティブデータを活用した案件や、金融市場のオプション等を活用した分析などに携わっております。今回は、先日人工知能学会（JSAI2024）に行ってきましたので、そのレポートをさせて頂きます。イベントの概要発表の概要 [2J1-KS-19] 金融分野における大規模言語モデルの活用 [2A2-PS-2] 進化する大規模言語モデル [2O4-OS-25a] 不動産とAI [2O4-OS-25a-01] 住宅価格予測モデルの経時的な精度の変化分析 [2O4-OS-25a-02] 地理空間ネットワークデータと機械学習を用いた説明可能性の高い賃料予測 [2O4-OS-25a-03] 機械学習を用いた物件設備スコアの推定：不動産データを使用したケーススタデ
Vision-Launguageモデルで走行データベースと動画検索システムを作る
- 5 users
- zenn.dev/turing_motors
- テクノロジー
- 2024/01/22
Turing株式会社の自動運転チームでインターンしている東大B3の大野です。自動運転チームでは、完全自動運転の実現を目指して自動運転AIを開発しています。モデル開発の際に、「雨の日に高速を走っていて先行車がいない」や「交差点で歩行者がいる中、右折している」など、特定の状況の走行データが必要になることがあります。今回私は、動画に対して天気や歩行者の数などのラベルをデータベース化し、検索できるシステムを、Vision-Languageモデルを使って開発しました。この記事では、このシステムの作成にあたって取り組んだことについて説明します。作成したGUI 課題 Turingでは、走行パートナーの方々とともに、大量の走行データを収集してきました。走行データには、車両に載せたカメラによる動画や、その際の車両のログ(速度やステアリング角、位置情報など)が含まれます。また、すべてのデータをAWSのS
- search
Mastering Customer Segmentation with LLM
- 5 users
- towardsdatascience.com
- テクノロジー
- 2023/10/01
Let’s see a brief description of the columns of our dataset: age (numeric)job : type of job (categorical: “admin.” ,”unknown”,”unemployed”, ”management”, ”housemaid”, ”entrepreneur”, ”student”, “blue-collar”, ”self-employed”, ”retired”, ”technician”, ”services”)marital : marital status (categorical: “married”,”divorced”,”single”; note: “divorced” means divorced or widowed)education (categorical: “
- t-SNE
- SHAP
- 主成分分析
- LLM
- 自然言語処理
- 機械学習
- data
- 統計
Contrastive Learningの最新動向のレビュー - Morpho Tech Blog
- 4 users
- techblog.morphoinc.com
- テクノロジー
- 2023/10/31
こんにちは。CTO室リサーチャーの鈴木です。今回は、深層学習の分野でここ数年盛り上がっているContrastive Learning系の手法について、主だった論文を系統的にまとめて紹介したいと思います。はじめに近年発展した自己教師あり学習（Self-Supervised Learning：SSL）は、アノテーション情報を人の手ではなく機械的に付与することで、データセットの構築にかかる時間やコストを軽減し、深層学習モデルの精度向上を目指した手法です。自然言語処理分野におけるSSLは大きな成功を収め、ChatGPT等の超高性能なチャットボットの出現にも影響を与えました。 SSLは主に深層学習モデルの「事前」学習として用いられます。SSLによって、文章や画像に含まれる一般的な特徴を大量のデータから学習することができます。これにより、文章生成や画像認識などの本学習の効率が向上し、最終的な性能向
- 機械学習
- AI
K-Means Clustering for Unsupervised Machine Learning
- 3 users
- www.ejable.com
- テクノロジー
- 2023/11/10
K-means clustering is a type of unsupervised learning when we have unlabeled data (i.e., data without defined categories or groups). Clustering refers to a collection of data points based on specific similarities. K-Means Algorithm K-means aims to find groups in the data, with the number of groups represented by the variable K. Based on the provided features, the algorithm works iteratively to ass
A Guide to Clustering in Machine Learning
- 3 users
- www.ejable.com
- テクノロジー
- 2023/11/07
When we cluster things, we put them into groups. In Machine Learning, Clustering is the process of dividing data points into particular groups. One group will have similar data points and differentiate from those with other data points. It is purely based on the patterns, relationships, and correlations in the data. Clustering is a form of Unsupervised Learning. Let’s quickly recap the definition
Hierarchical Clustering in Machine Learning
- 3 users
- www.ejable.com
- テクノロジー
- 2023/11/07
If you read the “An Introduction to Clustering” article, you will know that Hierarchical Clustering is a type of Connectivity model in Machine Learning. To recap, Connectivity Models are based on the fact that data points in the same data place have similarities. What is Hierarchical Clustering? Hierarchical Clustering is an algorithm that groups similar data points into clusters. Hierarchical Clu
k-NN (k-Nearest Neighbors) in Supervised Machine Learning
- 3 users
- www.ejable.com
- テクノロジー
- 2023/11/10
K-nearest neighbors (k-NN) is a Machine Learning algorithm for supervised machine learning type. It is used for both regression and classification tasks. As we already know, a supervised machine learning algorithm depends on labeled input data, which the algorithm learns to produce accurate outputs when input unlabeled data. k-NN aims to predict the test data set by calculating the distance betwee
1-4_データ・AI利活用のための技術
- 3 users
- www.mi.u-tokyo.ac.jp
- テクノロジー
- 2023/11/26
1-4 データ・AI利活用のための技術 1 東京大学数理・情報教育研究センター久野遼平 2020 CC BY-NC-SA 東京大学数理・情報教育研究センター 2020年5月11日概要  データサイエンスやAI利活用の現場ではどういう技術が用いられるのでしょうか？  ここでは基本的なものを見ていくことで、データ・AIを活用するために使われている技術の概要を知ることを目標とします 2 東京大学数理・情報教育研究センター久野遼平 2020 CC BY-NC-SA 本教材の目次 1. データの1次分析と可視化 2. データ利活用のための技術 3. ビッグデータとAI 4. 参考文献 3 4 11 14 18 東京大学数理・情報教育研究センター久野遼平 2020 CC BY-NC-SA 1-4-1 データの1次分析と可視化 4 東京大学数理・情報教育研究センター久野遼平
- AI
Three Types of Machine Learning
- 3 users
- www.ejable.com
- テクノロジー
- 2023/10/10
Machine learning is the heart of AI. Similar to any species, AI needs continuous learning. So, let’s see how we make AI learn and what types of machine learning are there. In this article, we will understand the three different types of Machine Learning; however, we must first understand Artificial Intelligence. Artificial Intelligence (AI) is the ability of a computer or a computer-controlled rob
ブランドロゴチェックを画像処理で自動化する社内での取り組み
- 3 users
- techblog.lycorp.co.jp
- テクノロジー
- 2024/02/20
こんにちは。DS統括本部で画像処理エンジニアをしている上野です。LINEヤフー株式会社の企業ロゴやサービスロゴなどのブランドロゴには、ブランドガイドラインと呼ばれるロゴ使用時に守らなくてはならないルールが定められています。ロゴを使用する際にロゴが変形してしまったり、変色してしまったりすると問題となるため、細心の注意を払って使用しております。今まではロゴが使用されている画像を担当デザイナーがすべて目視確認でチェックすることで、ガイドラインを遵守してきました。ブランド価値を守るためにとても大切な作業です。これらの作業を画像処理で自動化できないかと考え、ブランドロゴチェックツールを作成しました。 ※載せている画像は、今回のブログ用に用意したテスト画像です。この記事では、社内のデザイナーから寄せられた目視確認の作業に工数がかかってしまっているという課題を画像処理技術で解決した事例について、紹介し
- yahoo
Deep-ML
- 3 users
- www.deep-ml.com
- 学び
- 2024/07/10
ML Code Challenges Title Category Difficulty Status Matrix times Vector linear algebra Easy Unsolved Calculate Covariance Matrix linear algebra Medium Unsolved Solve Linear Equations using Jacobi Method linear algebra Medium Unsolved Singular Value Decomposition (SVD) linear algebra Hard Unsolved Determinant of a 4x4 Matrix using Laplace's Expansion linear algebra Hard Unsolved Linear Regression U
難問データセットSWE-benchとは？AIによるプログラミング能力の新たな評価基準
- 3 users
- blog.asial.co.jp
- テクノロジー
- 2024/04/20
KMeans gives slightly different result for n_jobs=1 vs. n_jobs > 1 <!-- If your issue is a usage question, submit it here instead: - StackOverflow with the scikit-learn tag: http://stackoverflow.com/questions/tagged/scikit-learn - Mailing List: https://mail.python.org/mailman/listinfo/scikit-learn For more information, see User Questions: http://scikit-learn.org/stable/support.html#user-questions
機械学習を応用して画像のポスタリゼーション - Qiita
- 3 users
- qiita.com/murasaki1994
- テクノロジー
- 2024/06/02
K-means法は教師なし学習の中でクラスタリングを行いますが、そのアルゴリズムの中でクラスタの重心を求めます。ところで画像は配列にするとRGBが縦×横になっているわけですが、そのRGBのデータを取り出すことでデータセットにしてクラスタの数を8個にして各色の重心の色を使います。 ※今回はGoogle Colabを使っているのでインデントが少し変ですがおおめに見てください。ライブラリのインポート from sklearn.cluster import KMeans import cv2 import matplotlib.pyplot as plt import numpy as np
- 機械学習
Team「たぬき」開発振り返りメモ2: Scaling lawの壁は高かったという話
- 3 users
- zenn.dev/matsuolab
- テクノロジー
- 2024/05/24
はじめにチームリーダーの畠山です。開発が終盤に差し掛かってきたので、備忘録として開発の振り返りメモを書いていきます。前回の記事では、限られたリソースで高性能なモデルを作るために、3つの点に注目しました。モデルアーキテクチャの最適化事前学習用データセットの準備ファインチューニング用データセットの準備今回は、それぞれのアプローチを試した結果について説明します。タイトルにもあるように、Scaling lawの壁は高く、簡単にはうまくいきませんでした。むしろ、うまくいかない条件がわかったという知見が多く得られました[1]。モデルアーキテクチャの工夫: Branch-Train-Merge (BTM)もどきを試す BRTもどき戦略はうまくいったのか? チームでは、事前学習の際にランダムにシャッフルしたデータを使う代わりに、以下のようなカリキュラムを設定しました。各ステージの内容: S