sh19910711のブックマーク / 2024年5月10日

sh19910711 id:sh19910711

2024年5月10日のブックマーク (14件)

Matrix FactorizationとDeep Matrix Factorization（Keras）でのレコメンド - statsuのblog
レコメンドの手法であるMatrix Factorizationについて勉強したのでその記録です。以下の検証に関するコードはgithubにあげてあります。 github.com 1. 本記事の概要レコメンドの手法であるMatrix Factorizationについての概要 Matrix FactorizationのNeural Network形式の表現とKerasでの実装 Deep Matrix Factorizationの表現とKerasでの実装 MovieLensでの精度検証 2. Matrix Factorizationの概要ざっくりと。 Matrix Factorizationはレコメンドの手法のひとつ。レコメンドの参考サイトレコメンドつれづれ～1-1. 協調フィルタリングのコンセプトを知る～ - Platinum Data Blog by BrainPad レコメンドつ
sh19910711 2024/05/10
"KerasでDeep Matrix Factorization / Deepにするのは簡単 + どの部分をdeepにするかは工夫のしどころ / Matrix Factorizationめっちゃ強い + Deep Matrix Factorizationはポテンシャルありそうだけど、パラメータチューニングしんどい" 2019

*algorithm

機械学習

search

python
リンク
近似最近傍探索ライブラリHnswlibのRuby bindingを作った - 洋食の日記
はじめに Hnswlibは、C++で書かれたHierarchical Navigable Small World graphsによる近似最近傍探索ライブラリである。近似最近棒探索のベンチマークでも上位に登場する。Ruby bindingがなかったので作成した。 hnswlib | RubyGems.org | your community gem host 使い方インストールは、普通にgemコマンドでインストールできる。外部ライブラリもPythonも必要ない。 $ gem install hnswlib APIは単順にバインドしたものと、それらをラップしたAnnoyライクなHnswIndexを用意した。検索インデックスの作成は、以下のようになる。データを追加すれば、それでグラフ構造が内部で作られるので、build_indexみたいなメソッドはない。データベクトルはRuby Array
sh19910711 2024/05/10
"Hnswlib: C++で書かれたHierarchical Navigable Small World graphsによる近似最近傍探索ライブラリ / ベンチマークではAnnoyよりも良い検索性能を得ているので、Annoyでイマイチなときに使ってみると良いかも" 2021

*program

ruby

search

近傍
リンク
クローズしたはずのサービスが知らぬ間に蘇っていたのでクローズしきった話
Kaigi on Rails 2021 での発表資料です。 https://kaigionrails.org/2021/talks/tricknotes/
sh19910711 2024/05/10
"2年ほど前に削除したと思っていたサービス + 元々の運営者情報につながる情報がすべて削除 / AWS上にコンテンツが乗っているのでDMCAの通知をAWSに送る方針 / Internet Archiveと比較してCopyrightを主張" 2021

*web

*security

インターネット
リンク
「回帰分析から分かること」と「変数選択」
10/23にp.11をアップデート
sh19910711 2024/05/10
"仮定としての誤差と、分析結果として確認できる残差が違うことは注意 / DAGはコミュニケーションツール / 自分の考える因果構造を伝えたり、なぜバイアスが生じるのか説明するのに有用" 2021

*data

統計

model*
リンク
インターネットは世界を変えていない、と思う理由
好きなものは空と緑とS2000とガンダムとラジコン・ミニ四駆、Perfume（かしゆか）。ときどき子育てとキャンプ。インターネットを何か特別扱いして、「これで世界は変わる！」「革命だ！」とか言う風潮がありますが、常々疑問をもっています。インターネットが革新をもたらしたのは、通信の世界であって、人を変えたわけではありません。インターネットは通信の世界の上に、旧来のものを模してのっけただけに過ぎません。たとえばメール。これ完全に郵便を模したものですよね。特に葉書。内容は通信途中に盗み見可能だし、配達完了のお知らせもこないし、場合によっては郵便事故、ロストすることもあります。そんな不便までまねる必要はなかったのに、そうしなかった。技術的には可能なのに、しなかった。なぜか？葉書を模したからという一点につきます。たとえばweb。これは印刷・流通を模したものです。同じコンテンツをあまねく人々
sh19910711 2024/05/10
"文字になると印刷することが可能で、webにすることも可能 / コンテンツはコピーできるが、コミュニティはコピーできない / それができないインターネットというものは、所詮従来の延長上にしかない" 2009

*web

インターネット

考え方

--

メディア
リンク
能動学習のいろは：書籍「Human-in-the-Loop機械学習」3〜5章
sh19910711 2024/05/10
"エントロピー基準サンプリング: 正解ラベルを観測した際の「驚き」の期待値で不確実性を計算 / 多様性サンプリング: モデルが「知らないことを知らない」データを特定してサンプリングしたい"

*book

*algorithm

機械学習

label
リンク
20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
第8回 Data-Centric AI勉強会 ~Human-in-the-Loop機械学習特別回~の発表内容です。 https://dcai-jp.connpass.com/event/315963/ 書籍「Human-in-the-Loop 機械学習」において、翻訳を担当した章（1,7,8,11,12章）の内容を抜粋して紹介します。Human in the loop 機械学習において重要な概念であるアノテーションとヒューマンコンピューターインタラクションについて、著者の機械学習エンジニアとしての実例を交えつつ説明します。 Amazon での書籍リンク https://amzn.to/47u5tFz
sh19910711 2024/05/10
"データの性質が時間とともに変化する場合、既存のモデルを新しいデータに適応させるよりも、小規模でも新規にアノテーションしたデータを学習データに追加して再学習させるほうが効果的"

*book

*algorithm

機械学習

label
リンク
「栄養学の基本講座」を読んだ
sh19910711 2024/05/10
"体内で生成される栄養素の話から意識して摂取する必要のある栄養素がある程度絞れた / 摂取しすぎによって起きる症状なども知れたことで、何をどう食べたらいいのか献立考えるのも楽になった" 2023

*book

暮らし

料理
リンク
採用サービス運営と米国トレンドから見えてきた日本の採用の未来
日本初のAIヘッドハンティングサービスと銘打ったscoutyの事業を開始しておよそ3年が経った。その3年でサービス運営を行ったり、海外でのトレンドを見ていく中で、採用のあり方の変化や、今の採用方法の限界や、次の採用のあり方がだんだんと見えてきたので、今回はそれをまとめようと思う。なお、LAPRAS SCOUT（旧scouty, 2019年4月より社名・サービス名変更）は現在はエンジニア採用に特化しているので特に前半はエンジニア採用に限定した話ではあるが、その多くは他の職種にも適用できる話ではあるので、採用全般の未来と考えていただければ良いと思う。日本のエンジニア採用の現状大前提として、日本は今深刻なエンジニア（IT人材）不足である。IT人材需給の予測では、エンジニアは2018年時点で22万人、2030年までに約45万人不足すると言われている[1]。人材の供給量はほとんど増えない一方で、
sh19910711 2024/05/10
"潜在層にフォーカスしたときに、追うべきKPIはより前段階にずれていく。選考数からカジュアル面談数 / より広くリードを獲得しエンゲージメントを可視化し、「釣る」から「育てる」といったパラダイムにシフト" 2019

*work

*business

人事
リンク
匿名化技術についてまとめてみた【k匿名性, l多様性,t近接性,差分プライバシ】 - Qiita
概要昨今ビックデータやそれを活用するAI 技術などが特に技術的な注目を浴びていますが、これに伴って個人情報が侵害される危険性も増しました。しかし、個人情報を保護するような技術はAIなどの技術に比べて軽視される傾向にあると思います。僕はそんな個人情報を保護する技術、匿名化技術を研究しています。匿名化技術をより皆さんに理解して頂きたくて、この記事を書くことに決めました。注意この記事を書くにあたり、できるだけ正しい記述を心がけますが、内容のわかりやすさを優先して僕の解釈を混ぜています。よって、不正確な部分が生じていることがあると思います。お気づきの際は適宜コメント等で指摘してくださると大変助かります。そもそも匿名化とは？匿名化という言葉が指す行為とは「データから名前や社会福祉番号などのすぐに個人が特定されるような情報を削除すること」と判断される方が多いと思います。しかし、例えば位置情報
sh19910711 2024/05/10
"一つでは個人を特定できない情報も集まれば個人を特定するに足る / 準識別子: 集まることで個人の特定につながる可能性のある情報 / k匿名性: 準識別子が全く同一の個人が少なくともk人以上存在" 2019

*security

*data

匿名化
リンク
「Rubyのしくみ」 "10.times do"から始まる冒険 - ぱろっと・すたじお
お正月って、あらゆる気力を奪われる時期なわけですよ長期休みって意味では夏休みも変わらないはずなのに、世間の空気感も含めて、全力で怠惰になるというか、ゲームをやる気力すら削がれるというかc(・ω・`c　)っそのうち布団から出るのすら面倒になり、布団の中で積んでいた漫画を崩した結果、読むものがなくなり、ついに積んでいた技術書を崩し始める・・・そんな時期なのでございます・・・というのがどこまで本当かはともかくとして、お正月にだらだらと読んでいた本がこちらに(´･ω･)っ Rubyのしくみ -Ruby Under a Microscope- 作者: Pat Shaughnessy,島田浩二,角谷信太郎出版社/メーカー: オーム社発売日: 2014/11/29メディア: 単行本（ソフトカバー）この商品を含むブログ (1件) を見る Rubyist Magazine - 書籍紹介『Ru
sh19910711 2024/05/10
"「こういう言語にしたい」という「理想」が起点 / 「概念」や「理想」が先行しているからこそ、JRubyやRubiniusのような他の処理系も存在できるわけで、そのあたりの解説も面白いものになってます" 2015

*book

*program

ruby
リンク
huggingfaceのaccelerateを使って訓練時のCUDA out of memoryを回避する - Qiita
はじめに学習スクリプトを実行しているときにGPUにメモリが乗り切らなくてCUDA out of memoryで処理が落ちてしまい、学習スクリプトを最初から実行し直すハメになることがよくあります。特に自然言語処理とかだと、batch毎に最大系列長に合わせて短い系列をpaddingするような処理をしている場合、毎ステップで必要なGPUメモリが変化するため、バッチサイズを大きく設定していると1エポック終わるまで不安で仕方ありません。さらにTransf ormerベースのアーキテクチャーを使っている場合は、消費メモリが系列長に対して2乗のオーダーなので、ちょっと長い系列長のデータがあったら想定以上にメモリを消費して溢れてしまうケースとかもよくあるんじゃないでしょうか。 huggingfaceのaccelerateというライブラリ内のfind_executable_batch_sizeという機能
sh19910711 2024/05/10
"Transformerベースのアーキテクチャーを使っている場合は、消費メモリが系列長に対して2乗のオーダー / accelerate: TPU、GPU、CPUでの実行を同じコードで記述できる / accelerate launch {スクリプト名}.pyのように実行" 2023

*program

python

gpu
リンク
はじめてのre:Inventを振り返る - Qiita
はじめに先日開催された、re:Invent2023に参加してきました。各セッションで得られたことなどは順次まとめていきたいと思いますが、サマリ的な形で感想を書いていきたいと思います。 ※re:Invent初心者が”感じたこと”を語るので、技術的な要素はほぼ含まれませんのでご留意ください。自己紹介私は、某SIerで主に公共機関向けのクラウド移行を支援しているエンジニアです。昨年、今年AWS Top Engineerに選ばれており、AWSが大好きな人です。主に基盤系をやっているのであまりアプリよりのことは詳しくないです。現地で参加したもの Keynote ・Monday Night Live ・CEO Keynote ・Data and AI Keynote ・Dr.Warner Keynote 上記のセッションに参加しました。 KeynoteはどうせYoutube公開されるからでな
sh19910711 2024/05/10
"会場のスケール、熱気、新サービスのリアクションなどなど、現地でしか味わえないものがありました / セッションも詰め込みすぎて、参加できないものがあったり、そもそも、予約取れなかったものあった" 2023

*event

*infra

aws
リンク
Adversarial Random ForestsによるテーブルデータのAugmentation・モックデータ生成
はじめにこんにちは。株式会社アイデミーデータサイエンティストの中沢(@shnakazawa_ja)です。本記事ではAdversarial Random Forestsを使ったテーブルデータの生成について、RおよびPythonでの実装を紹介します。 Adversarial Random Forests (ARF) とは ARFは2023年にProceedings of The 26th International Conference on Artificial Intelligence and Statisticsに採択された論文で提案された、テーブルデータに対して密度推定と生成モデリングを行う高速な手法です[1]。その名の通りGAN[2]とRandom Forestを組み合わせた手法で、生成と識別を交互に繰り返すことで元データの特性を学習し、元のテーブルデータと類似したデータを生成
sh19910711 2024/05/10
"ARF; Adversarial Random Forests: その名の通りGANとRandom Forestを組み合わせた手法 + 元のテーブルデータと類似したデータを生成 / 個人情報・秘匿情報をマスクしたモックデータの生成といった場面での活用可能性"

*data

*algorithm

機械学習

tree*

生成
リンク
- 2024年5月11日
- 2024年5月10日
- 2024年5月9日