タグ

*algorithmと*dataに関するsh19910711のブックマーク (207)

  • pythonの機械学習を用いた衛星画像による土地被覆部類 - Qiita

    import pandas as pd import numpy as np import rasterio import geopandas as gpd import matplotlib.pyplot as plt import optuna import statistics from sklearn.feature_selection import SelectKBest, f_classif from rasterstats import point_query from sklearn.model_selection import StratifiedKFold, cross_val_score from sklearn.ensemble import RandomForestClassifier from xgboost import XGBClassifier from

    pythonの機械学習を用いた衛星画像による土地被覆部類 - Qiita
    sh19910711
    sh19910711 2025/06/14
    "QGISを用いて点地物を作成し、その地点のピクセルの値を取得 / 各土地被覆と特徴量の関係を分散分析 (ANOVA)を実施してデータの中身を確認 / TCWを入力にした方が針葉樹林と広葉樹の分類が上手くできてそう"
  • 【ただのボヤキ】統計学と機械学習とディープラーニングと - HELLO CYBERNETICS

    はじめに 機械学習の発展とそのモチベーション 機械学習の発展 統計学と機械学習のモチベーション 機械学習は予測がしたい 統計学は真実を知りたい 統計学と機械学習の違い モデルの話 数理モデルの例 モデルを構築するときの姿勢 ディープラーニングの話 ディープラーニングでも何らかのモデル化が行われている 多層化は悪ではない 使う側の姿勢の問題 ディープラーニング利用の姿勢 ディープラーニングは人の仕事を奪うか 医療への活用 画像診断への応用 生データへの応用の先 将来の医者と人工知能 地震の予測 地震予測に対する応用 保険数理への応用 保険料算出 機械学習が使えそうな分野だと個人的に思うが 最後に はじめに この記事は最近のディープラーニングの、特に応用的面に関して、私が完全に個人的に思っていることをボヤいているだけの記事です。浅学非才な私の勝手な戯れ言であって、真実を突きつける内容とはなって

    【ただのボヤキ】統計学と機械学習とディープラーニングと - HELLO CYBERNETICS
    sh19910711
    sh19910711 2025/05/17
    2017 / "統計学では手元のデータから、それを説明できるモデルを作る / どちらかといえば「大量に集めたデータから、人間がその背後にある真実を知りたい」ということに重点が置かれる"
  • タイミーにおける H3を活用したレコメンドの改善事例

    "I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)

    タイミーにおける H3を活用したレコメンドの改善事例
    sh19910711
    sh19910711 2025/04/21
    2024 / "H3: 地理空間を六角形のセルで分割するグリッドシステム + 位置の量子化誤差を最小限に抑えたグリッドを表現できる"
  • MCMC と焼きなまし法 - Qiita

    マルコフ連鎖モンテカルロ法(MCMC)と焼きなまし法はともにヒューリスティックの分野でよくつかわれる手法だと思います. この記事では焼きなまし法を少し理論的な面から見たい人のために, MCMC の枠組みから焼きなまし法を説明することを目標とします. MCMC の基 MCMC の目標とするところは与えられた確率分布 $p(z)$ からその分布に従ったデータの列 $z ^ {(i)}$ をサンプリングすることです.MCMCのアルゴリズムを上手に設計すれば高次元の分布からも効率的にサンプリング可能なことが知られています. 例えばマラソンでは観測結果 $X$ とそれを生成したパラメータ $\theta$ があった場合,その事後分布 $p(\theta | X) \propto p(\theta) p(X | \theta)$ から $\theta$ を MCMC でサンプリングすることで $\t

    MCMC と焼きなまし法 - Qiita
    sh19910711
    sh19910711 2024/06/17
    "MCMC の枠組みから焼きなまし法を説明 / 裾野が広すぎた分布は温度を下げることで最適値周りの分布を集中させ,また複数の山がある分布は温度を上げることで山の間の溝がやわらげ" 2021
  • [備忘録] 遺伝的アルゴリズムでスペクトルデータの変数選択をやってみた - Qiita

    はじめに これまでに{pls}のgasolineデータを使って多変量解析を実施してきた。使用したデータはガソリンの近赤外スペクトルデータとオクタン価のセットである。近赤外スペクトルは、化合物の原子間の結合モードに依存する吸収や粒子表面の反射などの物理的特性に依存した情報が含まれている。そのため、予測対象となるオクタンの含有量とは関連性の低い波長領域も含まれており、そのような関係性の低い領域の変動が予測におけるノイズとなることもある。 そこで、今回は{GA}パッケージを用いて遺伝的アルゴリズムで部分二乗回帰によるモデリングに使用する波長領域の組み合わせを最適化し、全波長のデータを使う場合よりも精度の高いモデルが得られるかざっくりと検証してみた。 遺伝的アルゴリズム 遺伝的アルゴリズムは、生物の優勢生殖を模倣した最適化アルゴリズムである。ランダムに発生した第一世代を評価し、成績が良いものに対し

    [備忘録] 遺伝的アルゴリズムでスペクトルデータの変数選択をやってみた - Qiita
    sh19910711
    sh19910711 2024/06/15
    "NIRスペクトルデータは401個の波長における吸光度が含まれている + 前から順に10個のグループに分けて、それらの組み合わせを最適化 / 10個の波長領域の組み合わせを最適化するため、10ビットのデータを染色体とする" 2023
  • Elasticsearch LTRプラグインと特徴量キャッシュ機能の基本 - ZOZO TECH BLOG

    はじめに こんにちは、検索基盤部 検索研究ブロックの真鍋です。ヤフー株式会社から一部出向していて、主にZOZOTOWNの検索機能へのランキングモデルの導入に従事しています。 記事では、Elasticsearch上でランキングモデルを扱うための有名なプラグインの仕組みと、同プラグインにZOZOが実装した機能を紹介します。 まず、記事の背景を説明します。ZOZOTOWNでキーワード検索すると、結果の商品が並びます。結果の商品は非常に多数になることも多いので、ユーザ体験を損なわないためには、その並び順も重要です。ここで言うランキングモデルとは、この並び順の決定のために、商品のスコアを計算する式のことを指します。このような式は機械学習によって生成され、非常に複雑になることもあります。そのため、検索エンジンの標準機能では実行できず、プラグインを導入して初めて実行できることもあります。 ZOZOT

    Elasticsearch LTRプラグインと特徴量キャッシュ機能の基本 - ZOZO TECH BLOG
    sh19910711
    sh19910711 2024/05/25
    "OpenSource Connectionsが提供するLearning to Rank plugin / 本プラグインの主要な機能として、他に特徴量ロギングがあり / 既存のランキングモデルを実行して検索結果を返しつつ、新しいランキングモデルを学習" 2022
  • Adversarial Random ForestsによるテーブルデータのAugmentation・モックデータ生成

    はじめに こんにちは。株式会社アイデミーデータサイエンティストの中沢(@shnakazawa_ja)です。 記事ではAdversarial Random Forestsを使ったテーブルデータの生成について、RおよびPythonでの実装を紹介します。 Adversarial Random Forests (ARF) とは ARFは2023年にProceedings of The 26th International Conference on Artificial Intelligence and Statisticsに採択された論文で提案された、テーブルデータに対して密度推定と生成モデリングを行う高速な手法です[1]。 その名の通りGAN[2]とRandom Forestを組み合わせた手法で、生成と識別を交互に繰り返すことで元データの特性を学習し、元のテーブルデータと類似したデータを生成

    Adversarial Random ForestsによるテーブルデータのAugmentation・モックデータ生成
    sh19910711
    sh19910711 2024/05/10
    "ARF; Adversarial Random Forests: その名の通りGANとRandom Forestを組み合わせた手法 + 元のテーブルデータと類似したデータを生成 / 個人情報・秘匿情報をマスクしたモックデータの生成といった場面での活用可能性"
  • 【論文要約】TABERT: Pretraining for Joint Understanding of Textual and Tabular Data - Qiita

    概要 論文では、NL文と(半)構造化テーブルの表現を合同で学習する事前学習済みLMであるTABERTを紹介する。TABERTは2600万個の表とその英語文脈からなる大規模なコーパスで学習される。実験では、TABERTを特徴表現層として用いたニューラル意味解析器が、弱教師あり意味解析ベンチマークであるWIKITABLEQUESTIONSで最良の結果を達成し、テキストtoSQLデータセットのSPIDERでも競争力のある性能を発揮することが分かった。 ACL 2020 第一著者:Pengcheng Yin 団体:Carnelgie Mellon University, Facebook AI Research 提案法 Content Snapshot データベーステーブルは大きいので、すべてを使うにはTransformerには重い。そこで、セルの値から必要な行だけ抽出するようにする。手法として

    【論文要約】TABERT: Pretraining for Joint Understanding of Textual and Tabular Data - Qiita
    sh19910711
    sh19910711 2024/05/03
    "TABERT: 文と(半)構造化テーブルの表現を合同で学習 / WDC WebTable Corpus: WikipediaとCommonCrawlから収集した大規模テーブルデータ / 評価: Spiderデータセットを用いてテキストからSQL文を予測するタスク" arXiv:2005.08314 2022
  • Your connected workspace for wiki, docs & projects | Notion

    A new tool that blends your everyday work apps into one. It's the all-in-one workspace for you and your team

    Your connected workspace for wiki, docs & projects | Notion
    sh19910711
    sh19910711 2024/03/15
    "Vespa: 検索技術を理解していないと、そもそも使うことすら難しい(イメージ) + 反面、検索技術を理解している人が適切に使う場合、さまざまなことができる(イメージ) / ColBERT: 自社ドメインデータの学習が楽そう"
  • UMAP 0.4の新機能で遊ぶ(プロット、非ユークリッド空間への埋め込み、逆変換) - Qiita

    UMAPがバージョンアップしてv0.4が公開された。 2020/02/10現在では、pip install --pre umap-learnでバージョンを上げることができる。 疎行列をそのまま入力できたりいろんな機能が追加されているらしいけど、ここではプロット機能、非ユークリッド空間への埋め込み、逆変換を試してみる。 データだけ変えてほぼドキュメントに書いてあるコード例そのままやってるだけなので、それぞれについて詳しくはUMAPドキュメントへ。 データ PARCのレポジトリに置いてあったscRNA-seqのデータセットとアノテーション(Zheng et al., 2017, 10X PBMC)を使って実験する。68,579細胞、事前にPCAで50次元に圧縮済み。気軽にやるにはちょっと大きすぎるデータなので適当に1万細胞くらいに落として使う。

    UMAP 0.4の新機能で遊ぶ(プロット、非ユークリッド空間への埋め込み、逆変換) - Qiita
    sh19910711
    sh19910711 2024/02/29
    "UMAP埋め込みのときに使われたneighborhood graphを可視化してくれる機能 / どういったconnectivityが学習されたのかを検証するときに使えるかも / 球面など他のタイプの空間に埋め込むことも可能らしい (output_metric)" / 2020
  • クラスタ数を自動推定するX-means法を調べてみた - Qiita

    背景 前回、k-meansの最適なk数ってどうやって探すの?って記事を書きました ↓ コメント欄 というわけで、『X-means』を調べました クラスタ数を自動推定するX-means法について Pelleg and Moore (2000)が提案したK-meansの拡張アルゴリズム。 クラスター数Kを自動決定する k-meansをデータ数が多くても高速に動くようなアルゴリズムに工夫する という点が、従来のk-meansとの差分。 "x-means"でググると最初に出てくる2のpopularっぽい論文 X-means: Extending K-means with Efficient Estimation of the Number of Clusters | Carnegie Mellon Univ. (2000) x-meansの提案論文 クラスター数を自動決定するk-meansアルゴ

    クラスタ数を自動推定するX-means法を調べてみた - Qiita
    sh19910711
    sh19910711 2024/02/29
    "X-means: k-meansの逐次繰り返しとBICによる分割停止基準 / 少ないクラスター数でk-means + 2-meansして、クラスターを分割 + BICが大きくなったら採用 / k-meansの欠点(初期値依存性)をひきづっている" / 2016
  • 因果関係を捉える強化学習の論文を読む - mabonki0725の日記

    因果推論では2つの流派(ルービンとパール)があり、同じ因果を扱っているが方法が異なるので混乱してしまう。ルービンはスコア法に代表される因果推論であり、パールはベイジアンネットに代表される非巡回有向図(DAG:Directed Acyclic Graph)を用いる因果推論となっている。下記の記事はさらに心理学(キャンベル)を追加した区分について記述している。 統計学における因果推論(ルービンの因果モデル) – 医療政策学×医療経済学 機械学習での因果推論では、データから因果を推定する次の様な方法があるが、介入という操作を使えず当の因果は判定できないものである。 (i) データの3次以上のモーメントを使う独立成分分析で因果方向を推定する方法 http://www.padoc.info/doc/kanoIca.pdf http://padoc.info/doc/sas2015_bn_struc

    因果関係を捉える強化学習の論文を読む - mabonki0725の日記
    sh19910711
    sh19910711 2024/02/28
    arXiv:1901.08162 / "ルービンはスコア法に代表される因果推論であり、パールはベイジアンネットに代表されるDAGを用いる / DAG上でエージェントが様々な介入を行ってその結果から効率的に因果関係を把握" / 2019
  • BigQuery ML の自然言語処理機能でどんなことができるか・どう実行するか?|畳屋民也

    マネーフォワードケッサイの tamiya です。 この記事では、前回に引き続きスリランカカレーの魅力について BigQuery ML で提供されている自然言語処理機能について紹介します。 BigQuery ML(以下、BQML)は、BigQuery (以下、BQ)上で通常の SQL を拡張したクエリを用いて機械学習タスクを行うことができる機能です。 以前の記事で概要と基的な使い方を紹介しましたが、BQML はデータ加工〜モデル作成・予測実行までが BQ 上で完結するという強力なメリットがありました。 また、回帰・分類に加えて、時系列予測・クラスタリング・レコメンドなど標準的な機械学習アルゴリズムが一通り揃っている点も嬉しいポイントです。 そこで今回は、BQML の自然言語処理機能でどのようなことが行えるか、どのように使うかについて紹介していこうと思います。 BQML の自然言語処理機能で

    BigQuery ML の自然言語処理機能でどんなことができるか・どう実行するか?|畳屋民也
    sh19910711
    sh19910711 2024/02/25
    "BigQuery ML: 生成 AI 含む自然言語処理機能も急速に充実 / ML.UNDERSTAND_TEXT + CLASSIFY_TEXT: 入力テキストのカテゴリを推定 / ほかにも、固有表現分析や構文解析など / 入力文字数単位で課金 + だいたい1,000文字あたり $0.0005 ~ $0.0020"
  • 大規模画像テキストデータのフィルタリング手法の紹介

    基盤モデルのための事前学習用のデータは「量」にフォーカスされがちですが、昨今では「質」の部分にも注目が集まっています。特に昨年開催されたDataCompは、データの質にフォーカスしたData-centricなコンペ設計となっており、データフィルタリングのノウハウが多数共有されました。発表ではDataC…

    大規模画像テキストデータのフィルタリング手法の紹介
    sh19910711
    sh19910711 2024/02/11
    "CLIPの成功を皮切りにweb上から画像とテキストのペアを大量に収集する試みが盛んに / alt-text: 画像とテキストの紐づけを容易にする + 代わりにノイズが多く / DataComp: データの「質」を定量的に評価するためのベンチマーク"
  • 機械学習のデータセットはどう失われるか - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 機械学習では、データセットが重要であることを先に述べた。 機械学習のデータセットの重要性 しかし、そのデータセットとは実は容易に失われてしまいやすいことを述べておきたい。 データ取得と管理を軽んじる傾向 研究者・開発者とも自分の業績として着目される分野の作業に時間を使いたい。 すぐれたアルゴリズムを創りだして論文を書いて自分の業績を世界に認めさせたい。。 よくできた実装を創りだして、そのコードの作者としての業績を作りたい。 そういうものは、時間をかけたからといい結果にたどりつくとは限らない。研究者・開発者としての腕の見せ所だ。 それにく

    機械学習のデータセットはどう失われるか - Qiita
    sh19910711
    sh19910711 2024/01/12
    "収集したデータがそのまま機械学習の有効なデータになることはほとんどない / データはCloud Storage にあるはずなんだけど、どれがそのデータなのかわからない / ドキュメントはいろんな場所に置かれがち" / 2019
  • 関数データ解析への招待

    2023/04/26に開催されたザッピングセミナーでの講演資料です。当日の質問内容に対する回答を一部追記しています。

    関数データ解析への招待
    sh19910711
    sh19910711 2023/05/03
    むずそう / "関数データ解析: 時系列解析のような予測が目的ではない + データの微分の情報を用いる事ができる / 関数回帰分析の例: 関数回帰モデルの係数関数から、田植えから収穫までの気温の収量への寄与を定量化"
  • BigQueryでサッと試す推薦アルゴリズム - Re:ゼロから始めるML生活

    この記事は (1人で)基礎から学ぶ推薦システム Advent Calendar 2022の10日目の記事です。 前回までで、推薦システムを考える上でのさわりの部分は確認できたと思うので、ちょっとずつ実務っぽい話にシフトしていこうと思います。 実務で難しい推薦アルゴリズムを実装する前に、「チューニングとかはおいておいて、だいたいどれくらい効果が出るのかサッと試したい」という場面があったりします。 腰を据えてしっかりアルゴリズムを調整するならPythonGPUを使って一つずつ実験をして…といった試行を繰り返すことになるかと思いますが、「安い!早い!うまい!」みたいなのが求められる状況では、Pythonを使うよりお手軽にサッと実装できると嬉しかったりします。 ということで、今回はSQLで推薦アルゴリズムを書いて、BQの計算能力でぶん殴るやりかたをやってみたいと思います。 問題設計 Datase

    BigQueryでサッと試す推薦アルゴリズム - Re:ゼロから始めるML生活
    sh19910711
    sh19910711 2023/04/19
    2022 / "LookerのtheLook eCommerceデータセット / おすすめメールを送った後に実際にその商品が購入されるか / 「そもそもBQ使ってるんだったらBigQueryML使えよ」ってツッコミが入りそう"
  • SparkとParameter Server - Qiita

    この記事はApache Spark Advent Calendar二日目の記事として書きました。 Apache Sparkにはその分散処理の特徴を活かした機械学習ライブラリ、MLlib, MLが含まれています。元々オンメモリで分散処理を行うSparkにとってiterativeな計算が必要な場面の多い機械学習のアルゴリズムとは親和性が高く期待の大きかった分野のひとつでもあります。 モデルの大きさ ところがDeep learningのような最近話題の手法、アルゴリズムでは非常に大きなモデルを扱う場合があります。ここでの大きさとは次元数、合計としてのデータ容量の大きさを含みます。MLlibのアルゴリズムを見てみるとしばしば以下のようにモデルの重みをbroadcastしていることがわかります。 while (!converged && i <= numIterations) { // 重みをbro

    SparkとParameter Server - Qiita
    sh19910711
    sh19910711 2023/02/18
    2015 / "分散KVS for Machine Learning: GoogleのDistBeliefの論文にmotivationと目的みたいなものが読み取れます / SPARK-4590: Parameter Serverとは何か、どんな実装が現在あるのかという事前調査 / SPARK-6937: A Prototype of Parameter Server"
  • ヤフーの全社共通レコメンドプラットフォームでのMLOpsの取り組み #mlopsコミュニティ | ドクセル

    スライド概要 「第27回 MLOps 勉強会」で発表した内容になります。 https://mlops.connpass.com/event/270245/ 社内で利用されている全社共通レコメンドプラットフォームでのモデル開発の効率化や品質向上に関するMLOpsの取り組みの紹介

    ヤフーの全社共通レコメンドプラットフォームでのMLOpsの取り組み #mlopsコミュニティ | ドクセル
    sh19910711
    sh19910711 2023/02/07
    "papermill: notebookをそのまま Argo Workflows でジョブ化できる / great-expectations: メンテ・事故によるログの減少を素早く検知・確認できた + ログ仕様についての知識の属人化が緩和 + 運用しながら徐々に閾値を調整していく"
  • 1ペタバイトのデータセットで機械学習する / WebDataset入門

    深層学習をする上で、最も大切なマシンスペックを聞かれたら何と答えますか? GPUのTensor性能、VRAM、GPUの数、CPU性能、メモリ、… 問題によって正解は異なりますね。 しかし、特に大規模なデータセットで機械学習する場合では、しばしばネットワーク帯域とストレージシステムのディスクI/Oによって制限されます。この記事ではそのような課題に対して、学習側でどのようにデータを扱うかを見ていきたいと思います。 1. この記事は? こんにちは、TURING MLチームです。TURINGはEnd-to-Endな深層学習モデルでLv5完全自動運転車の開発を目指す会社です。 私たちは自動運転モデルを動かすため、可視域のカメラセンサによる画像で学習し、カメラ映像のみから車体の操作や経路選択、安全性の判断を行わせています。(実際の車を動かす事例はこちらの記事をご覧ください。) そのため、機械学習のため

    1ペタバイトのデータセットで機械学習する / WebDataset入門
    sh19910711
    sh19910711 2023/01/20
    2022 / "WebDataset: 任意のストレージシステムにデータを数十~数百MBごとにシャーディング(分割)して配置 + 将来的にPyTorchのサブパッケージとして取り込まれるための提案がなされています / aws/amazon-s3-plugin-for-pytorch"