タグ

2024年5月10日のブックマーク (14件)

  • Matrix FactorizationとDeep Matrix Factorization(Keras)でのレコメンド - statsuのblog

    レコメンドの手法であるMatrix Factorizationについて勉強したのでその記録です。 以下の検証に関するコードはgithubにあげてあります。 github.com 1. 記事の概要 レコメンドの手法であるMatrix Factorizationについての概要 Matrix FactorizationのNeural Network形式の表現とKerasでの実装 Deep Matrix Factorizationの表現とKerasでの実装 MovieLensでの精度検証 2. Matrix Factorizationの概要 ざっくりと。 Matrix Factorizationはレコメンドの手法のひとつ。 レコメンドの参考サイト レコメンドつれづれ ~1-1. 協調フィルタリングのコンセプトを知る~ - Platinum Data Blog by BrainPad レコメンドつ

    sh19910711
    sh19910711 2024/05/10
    "KerasでDeep Matrix Factorization / Deepにするのは簡単 + どの部分をdeepにするかは工夫のしどころ / Matrix Factorizationめっちゃ強い + Deep Matrix Factorizationはポテンシャルありそうだけど、パラメータチューニングしんどい" 2019
  • 近似最近傍探索ライブラリHnswlibのRuby bindingを作った - 洋食の日記

    はじめに Hnswlibは、C++で書かれたHierarchical Navigable Small World graphsによる近似最近傍探索ライブラリである。近似最近棒探索のベンチマークでも上位に登場する。Ruby bindingがなかったので作成した。 hnswlib | RubyGems.org | your community gem host 使い方 インストールは、普通にgemコマンドでインストールできる。外部ライブラリもPythonも必要ない。 $ gem install hnswlib APIは単順にバインドしたものと、それらをラップしたAnnoyライクなHnswIndexを用意した。 検索インデックスの作成は、以下のようになる。データを追加すれば、それでグラフ構造が内部で作られるので、build_indexみたいなメソッドはない。 データベクトルはRuby Array

    近似最近傍探索ライブラリHnswlibのRuby bindingを作った - 洋食の日記
    sh19910711
    sh19910711 2024/05/10
    "Hnswlib: C++で書かれたHierarchical Navigable Small World graphsによる近似最近傍探索ライブラリ / ベンチマークではAnnoyよりも良い検索性能を得ているので、Annoyでイマイチなときに使ってみると良いかも" 2021
  • クローズしたはずのサービスが知らぬ間に蘇っていたのでクローズしきった話

    Kaigi on Rails 2021 での発表資料です。 https://kaigionrails.org/2021/talks/tricknotes/

    クローズしたはずのサービスが知らぬ間に蘇っていたのでクローズしきった話
    sh19910711
    sh19910711 2024/05/10
    "2年ほど前に削除したと思っていたサービス + 元々の運営者情報につながる情報がすべて削除 / AWS上にコンテンツが乗っているのでDMCAの通知をAWSに送る方針 / Internet Archiveと比較してCopyrightを主張" 2021
  • 「回帰分析から分かること」と「変数選択」

    10/23にp.11をアップデート

    「回帰分析から分かること」と「変数選択」
    sh19910711
    sh19910711 2024/05/10
    "仮定としての誤差と、分析結果として確認できる残差が違うことは注意 / DAGはコミュニケーションツール / 自分の考える因果構造を伝えたり、なぜバイアスが生じるのか説明するのに有用" 2021
  • インターネットは世界を変えていない、と思う理由

    好きなものは空と緑とS2000とガンダムとラジコン・ミニ四駆、Perfume(かしゆか)。ときどき子育てとキャンプ。 インターネットを何か特別扱いして、「これで世界は変わる!」「革命だ!」とか言う風潮がありますが、常々疑問をもっています。 インターネットが革新をもたらしたのは、通信の世界であって、人を変えたわけではありません。インターネットは通信の世界の上に、旧来のものを模してのっけただけに過ぎません。 たとえばメール。これ完全に郵便を模したものですよね。特に葉書。内容は通信途中に盗み見可能だし、配達完了のお知らせもこないし、場合によっては郵便事故、ロストすることもあります。そんな不便までまねる必要はなかったのに、そうしなかった。技術的には可能なのに、しなかった。なぜか? 葉書を模したからという一点につきます。 たとえばweb。これは印刷・流通を模したものです。同じコンテンツをあまねく人々

    インターネットは世界を変えていない、と思う理由
    sh19910711
    sh19910711 2024/05/10
    "文字になると印刷することが可能で、webにすることも可能 / コンテンツはコピーできるが、コミュニティはコピーできない / それができないインターネットというものは、所詮従来の延長上にしかない" 2009
  • 能動学習のいろは:書籍「Human-in-the-Loop機械学習」3〜5章

    sh19910711
    sh19910711 2024/05/10
    "エントロピー基準サンプリング: 正解ラベルを観測した際の「驚き」の期待値で不確実性を計算 / 多様性サンプリング: モデルが「知らないことを知らない」データを特定してサンプリングしたい"
  • 20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄

    第8回 Data-Centric AI勉強会 ~Human-in-the-Loop機械学習 特別回~の発表内容です。 https://dcai-jp.connpass.com/event/315963/ 書籍「Human-in-the-Loop 機械学習」において、翻訳を担当した章(1,7,8,11,12章)の内容を抜粋して紹介します。Human in the loop 機械学習において重要な概念であるアノテーションとヒューマンコンピューターインタラクションについて、著者の機械学習エンジニアとしての実例を交えつつ説明します。 Amazon での書籍リンク https://amzn.to/47u5tFz

    20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
    sh19910711
    sh19910711 2024/05/10
    "データの性質が時間とともに変化する場合、既存のモデルを新しいデータに適応させるよりも、小規模でも新規にアノテーションしたデータを学習データに追加して再学習させるほうが効果的"
  • 「栄養学の基本講座」を読んだ

    sh19910711
    sh19910711 2024/05/10
    "体内で生成される栄養素の話から意識して摂取する必要のある栄養素がある程度絞れた / 摂取しすぎによって起きる症状なども知れたことで、何をどう食べたらいいのか献立考えるのも楽になった" 2023
  • 採用サービス運営と米国トレンドから見えてきた日本の採用の未来

    初のAIヘッドハンティングサービスと銘打ったscoutyの事業を開始しておよそ3年が経った。その3年でサービス運営を行ったり、海外でのトレンドを見ていく中で、採用のあり方の変化や、今の採用方法の限界や、次の採用のあり方がだんだんと見えてきたので、今回はそれをまとめようと思う。 なお、LAPRAS SCOUT(旧scouty, 2019年4月より社名・サービス名変更)は現在はエンジニア採用に特化しているので特に前半はエンジニア採用に限定した話ではあるが、その多くは他の職種にも適用できる話ではあるので、採用全般の未来と考えていただければ良いと思う。 日エンジニア採用の現状大前提として、日は今深刻なエンジニアIT人材)不足である。IT人材需給の予測では、エンジニアは2018年時点で22万人、2030年までに約45万人不足すると言われている[1]。人材の供給量はほとんど増えない一方で、

    採用サービス運営と米国トレンドから見えてきた日本の採用の未来
    sh19910711
    sh19910711 2024/05/10
    "潜在層にフォーカスしたときに、追うべきKPIはより前段階にずれていく。選考数からカジュアル面談数 / より広くリードを獲得しエンゲージメントを可視化し、「釣る」から「育てる」といったパラダイムにシフト" 2019
  • 匿名化技術についてまとめてみた【k匿名性, l多様性,t近接性,差分プライバシ】 - Qiita

    概要 昨今ビックデータやそれを活用するAI技術などが特に技術的な注目を浴びていますが、これに伴って個人情報が侵害される危険性も増しました。しかし、個人情報を保護するような技術AIなどの技術に比べて軽視される傾向にあると思います。 僕はそんな個人情報を保護する技術、匿名化技術を研究しています。匿名化技術をより皆さんに理解して頂きたくて、この記事を書くことに決めました。 注意 この記事を書くにあたり、できるだけ正しい記述を心がけますが、内容のわかりやすさを優先して僕の解釈を混ぜています。よって、不正確な部分が生じていることがあると思います。お気づきの際は適宜コメント等で指摘してくださると大変助かります。 そもそも匿名化とは? 匿名化という言葉が指す行為とは「データから名前や社会福祉番号などのすぐに個人が特定されるような情報を削除すること」と判断される方が多いと思います。しかし、例えば位置情報

    匿名化技術についてまとめてみた【k匿名性, l多様性,t近接性,差分プライバシ】 - Qiita
    sh19910711
    sh19910711 2024/05/10
    "一つでは個人を特定できない情報も集まれば個人を特定するに足る / 準識別子: 集まることで個人の特定につながる可能性のある情報 / k匿名性: 準識別子が全く同一の個人が少なくともk人以上存在" 2019
  • 「Rubyのしくみ」 "10.times do"から始まる冒険 - ぱろっと・すたじお

    お正月って、あらゆる気力を奪われる時期なわけですよ 長期休みって意味では夏休みも変わらないはずなのに、 世間の空気感も含めて、全力で怠惰になるというか、 ゲームをやる気力すら削がれるというかc(・ω・`c )っ そのうち布団から出るのすら面倒になり、 布団の中で積んでいた漫画を崩した結果、読むものがなくなり、 ついに積んでいた技術書を崩し始める・・・そんな時期なのでございます ・・・というのがどこまで当かはともかくとして、 お正月にだらだらと読んでいたがこちらに(´・ω・)っ Rubyのしくみ -Ruby Under a Microscope- 作者: Pat Shaughnessy,島田浩二,角谷信太郎出版社/メーカー: オーム社発売日: 2014/11/29メディア: 単行(ソフトカバー)この商品を含むブログ (1件) を見る Rubyist Magazine - 書籍紹介『Ru

    「Rubyのしくみ」 "10.times do"から始まる冒険 - ぱろっと・すたじお
    sh19910711
    sh19910711 2024/05/10
    "「こういう言語にしたい」という「理想」が起点 / 「概念」や「理想」が先行しているからこそ、JRubyやRubiniusのような他の処理系も存在できるわけで、そのあたりの解説も面白いものになってます" 2015
  • huggingfaceのaccelerateを使って訓練時のCUDA out of memoryを回避する - Qiita

    はじめに 学習スクリプトを実行しているときにGPUにメモリが乗り切らなくてCUDA out of memoryで処理が落ちてしまい、学習スクリプトを最初から実行し直すハメになることがよくあります。 特に自然言語処理とかだと、batch毎に最大系列長に合わせて短い系列をpaddingするような処理をしている場合、毎ステップで必要なGPUメモリが変化するため、バッチサイズを大きく設定していると1エポック終わるまで不安で仕方ありません。 さらにTransformerベースのアーキテクチャーを使っている場合は、消費メモリが系列長に対して2乗のオーダーなので、ちょっと長い系列長のデータがあったら想定以上にメモリを消費して溢れてしまうケースとかもよくあるんじゃないでしょうか。 huggingfaceのaccelerateというライブラリ内のfind_executable_batch_sizeという機能

    huggingfaceのaccelerateを使って訓練時のCUDA out of memoryを回避する - Qiita
    sh19910711
    sh19910711 2024/05/10
    "Transformerベースのアーキテクチャーを使っている場合は、消費メモリが系列長に対して2乗のオーダー / accelerate: TPU、GPU、CPUでの実行を同じコードで記述できる / accelerate launch {スクリプト名}.pyのように実行" 2023
  • はじめてのre:Inventを振り返る - Qiita

    はじめに 先日開催された、re:Invent2023に参加してきました。 各セッションで得られたことなどは順次まとめていきたいと思いますが、サマリ的な形で感想を書いていきたいと思います。 ※re:Invent初心者が”感じたこと”を語るので、技術的な要素はほぼ含まれませんのでご留意ください。 自己紹介 私は、某SIerで主に公共機関向けのクラウド移行を支援しているエンジニアです。昨年、今年AWS Top Engineerに選ばれており、AWSが大好きな人です。主に基盤系をやっているのであまりアプリよりのことは詳しくないです。 現地で参加したもの Keynote ・Monday Night Live ・CEO Keynote ・Data and AI Keynote ・Dr.Warner Keynote 上記のセッションに参加しました。 KeynoteはどうせYoutube公開されるからでな

    はじめてのre:Inventを振り返る - Qiita
    sh19910711
    sh19910711 2024/05/10
    "会場のスケール、熱気、新サービスのリアクションなどなど、現地でしか味わえないものがありました / セッションも詰め込みすぎて、参加できないものがあったり、そもそも、予約取れなかったものあった" 2023
  • Adversarial Random ForestsによるテーブルデータのAugmentation・モックデータ生成

    はじめに こんにちは。株式会社アイデミーデータサイエンティストの中沢(@shnakazawa_ja)です。 記事ではAdversarial Random Forestsを使ったテーブルデータの生成について、RおよびPythonでの実装を紹介します。 Adversarial Random Forests (ARF) とは ARFは2023年にProceedings of The 26th International Conference on Artificial Intelligence and Statisticsに採択された論文で提案された、テーブルデータに対して密度推定と生成モデリングを行う高速な手法です[1]。 その名の通りGAN[2]とRandom Forestを組み合わせた手法で、生成と識別を交互に繰り返すことで元データの特性を学習し、元のテーブルデータと類似したデータを生成

    Adversarial Random ForestsによるテーブルデータのAugmentation・モックデータ生成
    sh19910711
    sh19910711 2024/05/10
    "ARF; Adversarial Random Forests: その名の通りGANとRandom Forestを組み合わせた手法 + 元のテーブルデータと類似したデータを生成 / 個人情報・秘匿情報をマスクしたモックデータの生成といった場面での活用可能性"