[B! *algorithm][*program][search] sh19910711のブックマーク

sh19910711 id:sh19910711

algorithmとprogramとsearchに関するsh19910711のブックマーク (14)

LightFMから始める推薦システム入門
アドベントカレンダー株式会社GENDAでデータサイエンティストをしているtoma2です。この記事は、GENDAアドベントカレンダー2023の9日目の記事になります。 GENDAアドベントカレンダーでは、プロダクト開発や組織開発に関わるメンバーを中心に多様なテーマの記事を投稿しています。ぜひ、購読登録をしていただき12月25日までお楽しみください。はじめに最近、推薦モデルを調べる中でLightFMについて勉強したので、その内容をまとめとデータセットMovieLensでの実行例を示します。また、私が推薦モデルから推薦システムを作ろうとした際に躓いた、新規データへの対応やモデル更新といった実用的な内容も記載しています。参考文献こうもとさんのブログ「宇宙日本世田谷機械学習」は、lightFMの理論から実用上の細かい点まで詳しく記載されており、大変参考にさせていただきました。 Li
sh19910711 2025/09/20
2023 / "LightFM: 名前の通り動作が軽くCPUで動き + 環境構築が比較的容易で入門に最適 / Pythonライブラリであるlightfmの完成度が非常に高い + データ形式の変換関数やloss functionなどが充実"

*algorithm

search

*program

python

推薦
リンク
検索タスクにおけるBM25のコサイン類似度とスコアの精度比較 - Qiita
追記比較する条件を整理した改良版を書きました。本記事は記録として残しておきます。（2024/11/28）概要以下の記事の疑問に自分なりに答えを出すために、実際にBM25スコアとBM25ベクトルのコサイン類似度で検索精度にどう違いがあるのか検証しました。【疑問】BM25でもTFIDF同様にコサイン類似度に基づいてランキングしてよいのか背景上記別記事で抱いた疑問の概略は以下です。検索タスク等において、ランキングの指標として、TFIDFではTFIDF重みベクトルのコサイン類似度を用いるが、BM25ではBM25スコアを用いることが多い BM25スコアはクエリに含まれる単語を検索対象文書におけるその単語のBM25の重みに変換して足し合わせた値である。 BM25でもBM25の重みベクトルのコサイン類似度（BM25コサイン類似度）をランキングに用いたらだめなのか？記事で書いていない内容も
sh19910711 2024/10/13
"どちらかというと、rank_bm25のほうがシンプルな実装をしており、scikit-learnのBM25Vectorizerは、低頻度語のフィルタリングなど、いろいろ気の利いた処理が入っていそう"

*algorithm

search

*program

python
リンク
Julia によるレコメンドアルゴリズム実装 - Speaker Deck
2018/10/04 MACHINE LEARNING Meetup KANSAI #3
sh19910711 2024/10/13
"BPMF: MAP推定ではなくベイズ推定 + 因子行列のパラメータにも事前分布を設定 + ハイパーパラメータチューニングの手間が掛からない / 数値計算部分だけJulia + DB入出力等はPython" '18

*program

julia

*algorithm

search

推薦
リンク
SIF/uSIFを使ってRustで簡単高速文埋め込み - たまに書く
本記事は、情報検索・検索技術 Advent Calendar 2023 9日目の記事です。 SIF/uSIFという文埋め込み手法と、そのRust実装であるsif-embeddingを紹介します。最後にちょこっとベクトル検索もします。はじめに SIF SIF-weighting Common Component Removal アルゴリズム使用上の注意 uSIF sif-embedding 準備単語埋め込みの準備ユニグラム言語モデルの準備 Let's 文埋め込み性能評価速度性能評価用データセットを使ったベンチマーク英語日本語ベクトル検索おわりにはじめに自然言語文の密ベクトル表現を文埋め込みと呼びます。文埋め込み同士のコサイン類似度などを使って、文同士の意味的な類似度が計算できるので、自然言語処理や情報検索などで重宝します。特に最近では、今年のAdvent Calen
sh19910711 2024/02/23
"SIF: 文埋め込み + ICLR 2017で発表 / CCR: 文埋め込みから文法に関係する成分を取り除く + "just", "when", "even", "one"などの構文情報に関係する単語 + このような成分を、文の意味には寄与しないノイズとして取り除く" / 2023

*algorithm

search

rep

*program

rust
リンク
PyTorchでより深いMatrix Factorization
10年前のNetflix Prizeで確立された（？）、Matrix Factrizationは多くの場合、SVDというアルゴリズムで解くことができるが、ロジックと数式をぼんやりと見ていたら、Deep Learningでもできるっぽいなと思った。ググると、Pytorchでの実装をここなっている人[1], Kerasでの実装を行っている人[2]を見つけることができた。[2]によると、内積を計算することを最終目標とするのであるが、どうやらその内部は非線形であってもいいらしく、表現力を高めるような深いネットワークの構成でも性能がでるようである。 Pytorchで実装を行い、簡単に性能をそれなりに出せたので忘備録として残しておく。 Matrix Factorization気持ちはこうで、実際にはすべてを同一に最適化できないので、ミニバッチを切り出して順次学習していく
sh19910711 2024/02/18
"Matrix Factrization: SVDというアルゴリズムで解くことができる / 内積を計算することを最終目標とするのであるが、どうやらその内部は非線形であってもいいらしく / 深いネットワークの構成でも性能がでる" / 2019

*algorithm

機械学習

search

*program

python
リンク
Amazonのデータセットで始める商品検索
この記事は情報検索・検索技術 Advent Calendar 2022 の7日目の記事です。はじめに今年の夏、Amazonが多言語 (英語、スペイン語、そして日本語) のラベル付きの商品検索のデータセットを公開しました。論文: https://arxiv.org/abs/2206.06588 リポジトリ: https://github.com/amazon-science/esci-data 情報検索において商品検索は、ウェブ検索を作りたいという企業より商品検索を作りたい企業の方が多いという意味で、ポピュラーなトピックだと思います。ところが公開データで実験を行おうとするとドメインが違うウェブ検索のデータセットか、ラベルのない商品カタログか、ラベルはあるけど小規模なデータセットかという限られた選択肢しかなく、仕方がないので非公開の独自データセットを作って実験を行うという状況でした。
sh19910711 2022/12/07
"検索システムを賢くしたいという人々の願いがミドルウェアにPythonサポートやcross-languageの機能を追加させて、Pythonを組み込むことが容易に / 来年以降はこのデータセットを使った提案手法がたくさん世に出てくる"

*data

*algorithm

search

*program

python
リンク
Luceneで使われてるFSTを実装してみた（正規表現マッチ：VMアプローチへの招待） - Qiita
入力と出力のペアに対して，上のようなグラフを作るのが目標です．テーブルの出力のとこは数字が書いてありますが，文字列だと思ってとらえて下さい．map だと出力は1つに限られちゃいますが，ひとつの入力に対して出力が複数あってもいいです．たとえば入力 "feb" に対して，出力は "28" と "29" があります．（2月は28日と29日のときがありますね）．ノードの部分が状態で，そこから出ている矢印が状態遷移になります．矢印には a/b というラベルがついていますが，a の部分が入力とのマッチを意味し，b の部分がそのときの出力を意味します．上の例で示すFSTで，"aug"を処理するには，"aug"を頭から読んで，入力"a"に対応するの(9)から(3)への矢印を選択します．そのとき，出力として"3"を記録しておきます．そのあと，"u"に対して(3)から(2)への矢印を選択し，"1"を先ほど
sh19910711 2016/01/26
*algorithm

*data

search

#

*program

golang

プログラミング言語
リンク
全文検索を実装したソースコードを読もう（1/4）－＠IT
第6回　全文検索を実装したソースコードを読もう倉貫義人松村章弘 TIS株式会社 SonicGarden 2009/9/3 優れたプログラマはコードを書くのと同じくらい、コードを読みこなせなくてはならない。優れたコードを読むことで、自身のスキルも上達するのだ（編集部）いよいよオープンソースの社内SNS「SKIP」を使ったコードリーディングも最終回となりました。Railsの基本的な構成から、テストコードやRSpecの書き方といった内容に加え、前回はOpenIDをRailsで活用する応用編まで、コードとともに学んできました。最終回となる今回は、SKIPの目玉機能の1つである全文検索を扱います。最終回にふさわしく、内容も高度なものになっていますが、ここまでおつきあいいただいた読者の皆さまであれば、十分に理解できる内容だと思います。 SKIPにおける全文検索機能では、任意の検索キーワード
sh19910711 2013/03/24
*program

*algorithm

search
リンク
スライド 1
情報生命科学基礎・演習渋谷文字列検索渋谷東京大学医科学研究所ヒトゲノム解析センター（兼）情報理工学系研究科コンピュータ科学専攻 http://www.hgc.jp/~tshibuya 情報生命科学基礎・演習渋谷はじめに 先週の話題 文字列探索 Knuth-Morris-Pratt, Boyer-Moore, etc. 今週の話題 パタン照合問題（参考書：Sedgewick 20章、21章） 正規表現の探索 文字列検索（参考書：Gusfield） 接尾辞木・接尾辞配列とその応用情報生命科学基礎・演習渋谷正規表現 正規表現（regular expression）とは 連結（concatenation） A, B → AB 論理和（or） A, B → A+B 繰り返し（0回以上、closure） A → A* タンパク質・ＤＮＡのパタンの表し方と
sh19910711 2013/02/27
*algorithm

*program

データ構造

search
リンク
接尾辞配列について
配列解析アルゴリズム特論渋谷配列解析アルゴリズム特論渋谷接尾辞配列について渋谷東京大学医科学研究所ヒトゲノム解析センター（兼）情報理工学系研究科コンピュータ科学専攻 http://www.hgc.jp/~tshibuya 配列解析アルゴリズム特論渋谷はじめに 先週 接尾辞木の作り方 今週 接尾辞配列とは 接尾辞配列の作成法 高さ配列の作成法 接尾辞配列を用いた検索 接尾辞配列から線形時間で接尾辞木を作る配列解析アルゴリズム特論渋谷 Suffix tree of 'mississippi$'  文字列 S のすべての接尾辞を表した trie 枝のラベル ⇔ S の部分文字列 ルートから葉までのラベルを連結したもの ⇔ S の接尾辞 線形サイズ・線形時間で構成可能 mississippi$ i p s pi$ i$ $ppi$ ssi ssippi
sh19910711 2013/02/27
*algorithm

*program

データ構造

search
リンク
横着プログラミング第9回: sary: Suffix Array のライブラリとツール
最終更新日: 2002-12-18 (公開日: 2002-12-18) Unix Magazine 誌に 2002年1月号から 2003年2月号にかけて連載していた記事の元の原稿です。私にフローチャートだけを見せて、テーブルは見せないとしたら、私はずっと煙に巻かれたままになるだろう。逆にテーブルが見せてもらえるなら、フローチャートはたいてい必要なくなる。 -- Frederick P. Brooks Jr. *1 プログラミングにおいてはデータ構造が重要であり、正しいデータ構造を選択すればアルゴリズムは自明なものとなる、という主張がある。Rob Pike*2 の "Notes on Programming in C" *3 によると、現実的なプログラムに必要なデータ構造は次の 4つであるという。配列 (array) 連結リスト (linked list) ハッシュテーブル
sh19910711 2013/02/27
*algorithm

*program

データ構造

search
リンク
Suffix Array を作る - SA-IS の実装
Suffix Array は今若者の間で人気のデータ構造です．マイ suffix array を実装することで，オシャレ度がアップしてモテ系になり，女子力も上がると言われています．その中でも今特に，手軽でクールな SA-IS (アルファベットサイズ固定の下で線形時間で省メモリで suffix array が作れる今最強のアルゴリズム) の実装がブームです．僕もブームに便乗して，実装してみました．ところで，SA-IS は流行っているので，日本語でもすでに様々なところで記事が書かれています (日付順)． SAIS(Suffix Array - Induced Sorting) - EchizenBlog-Zwei SA-IS: SuffixArray線形構築 - sileの日記 SA-IS - (iwi) ｛反省します - TopCoder部接尾辞配列(Suffix Array)の
sh19910711 2013/02/27
*program

*algorithm

search

データ構造
リンク
http://www.larsson.dogma.net/qsufsort.c
sh19910711 2013/02/27
*program

c*

*algorithm

データ構造

search
リンク
サービス終了のお知らせ
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
sh19910711 2013/02/27
*program

python

*algorithm

データ構造

search
リンク
1