sh19910711のブックマーク / 2024年6月7日 - はてなブックマーク

sh19910711 id:sh19910711

2024年6月7日のブックマーク (45件)

Prisma以外の選択肢、Drizzle ORMではじめるTypeScriptの快適SQLライフ
エッジ環境で使えるORMを探していたところ、Drizzle ORMという新しいORMを知り、感動したので紹介します。 Drizzle ORMはTypeScript向けの強力で柔軟なRDB用のORMです。 Drizzle ORMの主な特徴強力な型付け TypeScriptのORMなので当たり前ではありますが、強力な型付けによって型安全に開発することができます。また、スキーマの定義を以下のようにTypeScriptで行うため、Prismaのようにスキーマを定義したあとにクライアントを生成するといったことは必要はありません。 export const popularityEnum = pgEnum('popularity', [ 'unknown', 'known', 'popular', ]); export const countries = pgTable( 'countries',
sh19910711 2024/06/07
"Drizzle ORM: 主な哲学として、SQLと似た構文で扱えることが掲げられています / Selectでは取得するカラムを指定するだけではなく、返されるオブジェクトの構造を自由に定義することができ + Joinを使うときに威力を発揮"

*program

webapp

type*

rdb
リンク
「すごい」技術や製品は普及しない（Vision Proをなぜアメリカまで買いにいくのか）｜MIRO
けっこういろいろなところで言っていることなんですが、「すごい」技術、「すごい」製品っていうのはあまり一般に普及しないんですよ「すごい」ということば。辞書を引くと「びっくりするほど程度がはなはだしい。並外れている」なんて意味が載っています。まあ要するに驚きを示すことばであるわけです。でも、驚きって、長続きしないんですよ。人はすぐ新しいものには慣れてしまう。んで、慣れたら「すごい」という感情は失われてしまうのです。だから、単発で受け取るコンテンツとかには「すごい」は向いているんだけど、継続して使い続ける製品を買う動機にはなかなかならない。いや、まあ、技術マニアである私みたいなひとはそれだけでほいほい買っちゃうんですけど。じゃあ、すげえたくさん売れたりするのはどういうものかっていうと、すごい、ではなくてキーワードは「便利」とか「楽」とかなんですよね。この技術／製品をつかうと、とっても便利。と
sh19910711 2024/06/07
"「頭にディスプレイをつけて生活すると、なんかめっちゃ便利で楽じゃん」という未来 / たくさん売れたりするのはどういうものかっていうと、すごい、ではなくてキーワードは「便利」とか「楽」"

*tech

*business

マーケティング

ガジェット

XR
リンク
自分のなかにあったリーダーシップに関する固定概念 - Kengo's blog
自分のなかにあったマネジメントに関する固定概念の続き。リーダーシップに関する固定概念を棚卸しして自覚的になるためにまとめます。リーダーシップとマネジメントの違い自分の中ではこれはかなり明確です。私はVisionary Leadership and Strategic Managementという言葉を多用していますが、マネジメントが戦略的に地盤を作ってリーダーシップがその上でreactiveに問題解決に動くイメージ。例えば文化を醸成してガードレールを用意するSREはマネジメント的だと言えます。他の観点から言うと、私が言うマネジメントはドラッカーが提唱するものを指していて、ほぼほぼ経営のことです。顧客の創造に必要なことは全部やる。しかし「やる」というのは直接手を下すことではなく、権限委譲や組織文化づくり、つまり「自分より強い人に気持ちよく働いてもらう」ことを指しています。だからこそのビジ
sh19910711 2024/06/07
"リーダーシップ: チームワーキング本の定義がわかりやすい + 働く上での共通言語 / ひとりでできない問題解決をするためにビジョンを掲げて人を巻きこむ"

*work

team

マネジメント

考え方

--

*book
リンク
Amazon Redshift Spectrum ソースデータをマニフェストファイルで定義する | DevelopersIO
はじめに本日は、ソースデータをS3のフォルダ指定ではなく、ソースデータとなるファイルの一覧である「マニフェストファイル」で定義する方法について解説します。 Amazon Redshift Spectrum、Amazon Athena、AWS Glueでは、ソースデータはS3上のフォルダを指定します。しかし、データファイルが必ずしも種類ごとに１つのフォルダのまとめられていると限らず、１つのフォルダの中に複数のフォーマットが混在した場合は専用のフォルダを作成してデータファイルをコピーする必要があります。Amazon Redshift Spectrum では、さらにソースデータの定義にソースデータとなるファイルの一覧を定義したマニフェストファイルを指定することができます。参考：データベース開発者ガイド - CREATE EXTERNAL TABLE マニフェストファイルとはマニフェストファ
sh19910711 2024/06/07
"Spectrum: ソースデータの定義にソースデータとなるファイルの一覧を定義したマニフェストファイルを指定することができ ~ / Athena や AWS Glueからテーブルデータの中身は参照できませんでした" 2018

*data

dwh

aws
リンク
BigQuery の SQL Translator の YAML 構成ファイルを試してみた
こんにちは！クラウドエース株式会社データソリューション部所属の福家です。クラウドエースのデータソリューション部は、クラウドエースの IT エンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門としています。データソリューション部では活動の一環として、毎週 Google Cloud の新規リリースを調査・発表し、データ領域のプロダクトのキャッチアップをしています。その中でも重要と考えるリリースを本ページ含め記事として公開しています。今回紹介するリリースは、2023/11/30 にプレビュー段階から一般提供（GA）となった BigQuery の YAML 構成ファイルを使用した SQL Translator についてです。はじめに BigQuery とは BigQuery はビッグデータの蓄積、分析ができ
sh19910711 2024/06/07
"SQL Translator: さまざまなデータベースシステムの SQL 言語（方言）をBigQuery 用の SQL（GoogleSQL）に変換してくれるツール / Cloud Storage バケットにアップロードした複数の SQL ファイルを一括で変換"

*data

gcloud

dwh

schema
リンク
数列上の数の組み合わせであって不等式を満たすものの数を数える - Learning Algorithms
まず数列 $a$ の転倒数を求める問題を考えますより正確には $i < j$ を満たす組 $(i, j)$ であって $a_i > a_j$ となるようなものの数を求める問題で，これは fenwick tree などのデータ構造を使って以下のように解けます fenwick_tree<long long> ft(MAX); long long ans = 0; rep(i, n) { ans += ft.sum(a[i] + 1, MAX); ft.add(a[i], 1); } まず今見ている値を不等式の右辺の値として計算結果に加算して，次に今後その値が不等式の左辺としてどれくらい結果に寄与するかというのを考えているだけですところで上記を踏まえると，一般に次のような問題が同様に解けます $i < j$ を満たす組 $(i, j)$ であってなんらかの制約 $f, g$ について $f(
sh19910711 2024/06/07
"転倒数: i < j を満たす組 (i, j) であって a_i>a_j となるようなものの数 / fenwick: 今見ている値を不等式の右辺の値として計算結果に加算 + 今後その値が不等式の左辺としてどれくらい結果に寄与するか" 2020

*algorithm

最適化

数列
リンク
CNNを用いたテクスチャ合成(Texture Synthesis)の仕組みのメモ - めも
問題設定と評価指標既存の手法ノンパラメトリックな手法パラメトリックな手法提案手法概要詳細ステップ1 ステップ2 これを基にした画風変換参考文献自分の研究が画像処理系の機械学習と関係ないのでやや適当です。問題設定と評価指標 [Gatys2015]より。ある画風の画像を入力して、その画風を持った見た目が自然な画像を出力する。画風の元になった画像が認識できない状態を保って成功とする。つまり画像のつぎはぎが目立つ、といったケースは問題にしない。 CNNを用いた画風変換の元になったモデル。既存の手法パラメトリック、ノンパラメトリックと大きく二つの方針に分かれている。ノンパラメトリックな手法画風の元になる画像を指定して、そこから画風（を表してると思われるもの）をうまくサンプリングして新しい画像や物体に適用する。画風変換で検索すると、もはやCNNベースの手法しか検索で出
sh19910711 2024/06/07
"CNNベースの手法が出る前のテクスチャ合成に関するサーベイ論文は[Wei2009]が詳しい / テクスチャに存在する画像の位置情報によらない画風に関する情報は特徴マップの相関で表現できるはず" 2017

*algorithm

機械学習

cv

cg
リンク
古いゲームボーイをなんとかする - My music instruments hacks & circuit bent collection
古いゲームボーイを開けたところ、ホコリやら猫あるいは犬の毛やらクモの巣、はては虫の死骸くらいなら平気で見てきましたが、基本的に外装も汚れていることが多いです。ゲームボーイを掃除する日に焼けてしまった外装は、台所用の漂白剤に浸し、日光に数日当てておくことは広く知られた方法ですが、その際はペットボトルをハサミで切るなどしそのまま突っ込んでおくのがいちいちひっくり返したりしなくて良いのでおススメです。ただ、どうしても時間がかかるのと、そもそも日に焼けたとか以前の手垢とかの汚れのほうがなんとかしたほうが良いので最近ではこれまた台所用のクレンザーでガシガシ磨くことにしています。十字キーの裏側などエグい汚れ方をしていますが、一発です。写真のブラシは、ホームセンターで売っていた工場作業員さん向けの手洗い用爪ブラシ。注意していただきたいのは、基本的に削るので、かなり表面がザラザラになります。ですが
sh19910711 2024/06/07
"錆びをけずればなんとかなる / 日に焼けてしまった外装は、台所用の漂白剤に浸し、日光に数日当てておくことは広く知られた方法 + ペットボトルをハサミで切るなどしそのまま突っ込んでおく" 2018

*game

*tech

console

暮らし
リンク
Probability Calibration手法の紹介 - Qiita
はじめに近年では、機械学習モデルがいたるところで使われるようになってきています。機械学習モデルの用途は様々ですが、よく使われる用途の一つに分類タスクが存在します。多くの機械学習モデルでは、クラス分類の際に、各クラスに対して、数値化されたスコアを出力し、最大値を取るクラスを、そのデータの属するクラスとして判別することが多いです。この時、出力値を0〜1の範囲に正規化することもよく行われます。気をつけなければならないのは、分類精度が高いモデルであっても、必ずしもこのスコアはそのクラスに属する確率を示しているわけではない点です。値が1に近いほど、そのクラスに属する確率が高く、0に近いほど、そのクラスに当てはまらない確率が高い、ということは多くの場合、間違いないです。一方で、スコアが0.7のデータを集めてきたら、これらのデータが該当のクラスに属する確率が70％であるか、というと、モデルやデー
sh19910711 2024/06/07
"スコアが0.7のデータを集めてきたら、これらのデータが該当のクラスに属する確率が70％であるか、というと、モデルやデータによっては、そうはならない / AdaFocal: モデルが自信過剰なときには、𝛾の値をより大きく"

*algorithm

機械学習

分類
リンク
Bayesian GPLVMをStanで実装してみた - StatModeling Memorandum
この記事の続きです。PRML下の12章に出てくるOil Flowのデータ（データ点1000個×特徴量12個）に対してBayesian GPLVMで2次元（または3次元）の潜在変数空間にマッピングして綺麗に分離されるか見てみます。まずはPRMLにもあるように普通の主成分分析でやると以下になります。綺麗には分離されません。次にBayesian GPLVMでやってみます。Stanコードは以下になります。 2～4行目：　N・K・Dはそれぞれ、データ点の数・特徴量の数・最終的に落とし込む潜在空間の次元です。 14行目：　潜在変数です。 15行目：　カーネルに含まれるパラメータです。僕が理解したところだと特徴量ごとにガウス過程が存在するのでKごとに異なる値を持つようにしています。→ 2017.07.02追記 Kごとに異なる値にするのではなく、1つだけにし、スケーリングしてから適用することで情報を圧
sh19910711 2024/06/07
"汎用的な確率的プログラミング言語ではガウス過程に特化した専用ライブラリにはかないません / 特にモデルを拡張する予定がないならば、もしくはデータが巨大ならば ~ GPyなどの使い方を学ぶべき" 2016

*data

*program

統計

model*
リンク
OpenGLでゲーム向け3次元剛体シミュレーションをやる - ゆべねこの足跡
最近こちらの本(以降参考書)を読みました。ゲーム制作者のための物理シミュレーション剛体編作者:原田隆宏,松生裕史インプレスAmazon タイトル通り、物理エンジンの内部でどのように剛体シミュレーションが行われているかについて解説している書籍となっています。一通り読み終わったので、復習も兼ねて軽く剛体シミュレーションについて解説しようと思います。できたもの公開されているサンプルコードを参考にしつつ、自分の環境でも剛体シミュレーションをやってみました。 youtu.be シェーディングがおかしいことには目を瞑ってください...。使ったライブラリ: OpenGL SDL(Simple Directmedia Layer) GLM(OpenGL Mathematics) https://github.com/yubeneko/PhysicsSimulation 剛体シミュレーション
sh19910711 2024/06/07
"物理エンジンの内部でどのように剛体シミュレーションが行われているかについて解説している書籍 / 剛体: 「形状」、「状態」、「属性」の3つのデータ構造が必要 + 「属性」は質量や慣性テンソル、反発係数など" 2022

*game

*program

engine

cg

--

*book
リンク
「誰のためのデザイン？」を読み終えた - はうすてんぼぶ
UIの勉強として一冊読み終えたので感想などを書いてみる。誰のためのデザイン?―認知科学者のデザイン原論 (新曜社認知科学選書) 作者: ドナルド・A.ノーマン,D.A.ノーマン,野島久雄出版社/メーカー: 新曜社発売日: 1990/02メディア: 単行本購入: 37人クリック: 945回この商品を含むブログ (286件) を見る本書では実際に世にあるモノを例として多く挙げられる。良い・悪いデザインをしたモノの良い・悪いを与える要因はどこなのかを、著者の心理学と認知学の両方の観点から説明されるため、読んでいて非常に面白い。読んでみると、私達が日常的に扱うモノを見つめなおすきっかけをくれ、使いにくい場合にはその原因がどこにあるのかを考える癖が付くと思う。一方で、困ったり、迷ったりせずに私達がモノを使えている要因を考えたり、見つめなおすのは難しい。なぜならその「モノの使いやすさ」とは、ユ
sh19910711 2024/06/07
"「このスイッチとあれが対応している」は頭の中に置いておくべき知識では無く、デザインから自然にその知識が導き出されるように対応付け / 「思い出す」といった行為をユーザに強いるのは最小限" 2014

*book

*design

UI
リンク
Stanによるベイズ推定の基礎 | Logics of Blue
新規作成日:2015年12月5日最終更新日:2016年9月22日理論がわかっても、実践ができなければ意味がありません。ここでは、Stanというフリーソフトを使って、ベイズ統計学をもとにしたパラメタ推定をパソコンで実行する方法を説明します。ベイズとMCMCの組み合わせでもって統計モデルのパラメタを推定することができるのでした。この方法を、以下では「ベイズ推定」と呼ぶことにします。ここでは、Stanを用いて統計モデルのパラメタのベイズ推定をする方法を説明します。重要な点は、「Stanの使い方」を覚えるだけではうまくいかないということです。 Stanの内部で使われているのは乱数生成アルゴリズムです。乱数を生成してパラメタを推定するという行為は、最小二乗法なりで方程式を解き、パラメタを一発で推定するやり方とは大きく異なります。その違いをぜひ理解なさってください。コードをまとめたもの
sh19910711 2024/06/07
"乱数を生成してパラメタを推定するという行為 / 「Stanの使い方」を覚えるだけではうまくいかない / 最小二乗法なりで方程式を解き、パラメタを一発で推定するやり方とは大きく異なります" 2015

*data

*program

統計

model*
リンク
データコンペでCode Interpreter片手に戦ってみたけど惨敗でした
yukiCup2023Summerに参加しました「君はバイク乗りを救えるか」というタイトルの内輪のデータコンペにお誘いいただき参加しました。コンペの内容は、中古バイクの販売価格を予測するというテーブルコンペで、1日（8時間）という期間で競うコンペでした。コンペは、SIGNATEさんのコンペに参加したくらいで、まともなデータコンペは、ほとんど初めて（一応、サブミットはできて、PublicとPrivateの違いはわかる程度）の初心者でした。一方、参加者は、Kaggleグランドマスターが複数名、Kaggleマスターが複数名、エキスパート多数という異常なハイレベル（ていうか、グランドマスターってそんなポコポコいるものなの？？）これはチートせざるをえないということで、覚えたてのChatGPT Code Interpreterを武器に戦うことに。ある程度使えるので、これはいいところまでいけ
sh19910711 2024/06/07
"教えてもらったコードをLightGBMを使える環境（Kaggle Notebook)で実行して、エラーメッセージをCode Interpreterに教えるという、AIの奴隷 / あえて特徴量に入れない（シェイクを避ける）" 2023

*program

prompt

contest
リンク
社内の生成AIチャットとしてLibreChatを使っています - Ateam Tech Blog
こんにちは。エイチームライフデザイン技術開発室の鈴木です。弊社ではGPT-4のような高性能な生成AIを社内の業務で利用できるように、Slack用アプリなどいくつかの社内ツールを用意しています。その中でも LibreChat というオープンソースソフトウェアを利用しているので、それについて説明します。 LibreChatとは構成バージョンアップ等の運用 LibreChatを使っていて起きた問題新しいモデルがなかなか使われない Banされる RAGが使えなくなる画像認識が使えない LibreChatの利用状況まとめ画像の出典 LibreChatとは www.librechat.ai LibreChatとは、いわゆるChatGPTクローンです。 OpenAIなどが提供する言語モデルのAPIに接続してチャットできるUIを提供する、オープンソースのWebアプリケーションです。 Libr
sh19910711 2024/06/07
"LibreChat: PDFなどの文書ファイルをアップロードするとベクトル化して保存 / 利用料金についても、LibreChatの利用者全員がChatGPTの有料プランを利用したと仮定した場合と比較して大きく削減"

*work

*software

prompt
リンク
時系列基盤モデルによる株価データ(多変量)の類似度算出と検索｜はち
1. はじめに今回は時系列基盤モデルを使って、多変量の時系列データのEmbeddingを作成し、そこから時系列データ同士の類似度を算出するというのを試していきたいと思います。元々、時系列データの類似度を算出する方法としては以下の２つがあったと思います。（時系列を専門にやってきたわけではないので間違っていたらご指摘お願いします。）動的時間伸縮法（DTW: Dynamic Time Warping）を利用して、単変量毎の類似度を算出。各次元の類似度を統合する。 LSTMなどのNNモデルを利用しかし、前者は各次元間の関係性を考慮できていない、後者は学習が必要、という点で使いづらさがあったと思います。時系列基盤モデルによって、学習なしに多変量時系列データのEmbedding化が可能になり、(言語)Embeddingモデルを使った時のように多変量時系列データの類似度が算出できるようになりまし
sh19910711 2024/06/07
"多変量の時系列データのEmbeddingを作成し、そこから時系列データ同士の類似度を算出する + 価格をそのまま扱ってきちんと類似度を測れる / DTW: 各次元間の関係性を考慮できていない / Moment: AutonLabによって公開"

*data

*business

search

系列
リンク
【Phi-3-Medium】GPU2台構成でローカルLLMを動かす【Ubuntu24】
はじめに GMO NIKKOの吉岡です。みなさん、生成AIは活用してますか？ ChatGPTに始まり、Claude3やGeminiなど、実用的なAIがどんどん出てきてますね。自分も使ってはきましたが、課金が気になってしまいます。これではサービスに組み込むことは難しいですよね。そのためローカルで動くLLMを追ってきましたが、今年に入って実用的な日本語を返すことができるモデルがいくつか出てきているので、サーバー構成からインストール方法、LLMの起動まで紹介しようと思います。ローカルLLMを動かす上で一番重要なのはGPUのVRAMです。 LLMは7B、13B、70Bモデルが多いですが、量子化しない場合、必要なVRAM容量は動かすモデルの大体2倍なので、13Bモデルでは26GのVRAMが必要です。 NVIDIAのGPUを使ったCUDAが前提になっているのですが、一般向けでは24Gモデルが
sh19910711 2024/06/07
"NVIDIAのサーバー用GPUだったため、BIOSからResizable BARやAvobe 4G Decodingなどの設定ができる新しめのマザーボードを用意する必要がありました / 高性能なGPUは複数スロットを占有してしまう"

*tech

computer

gpu

prompt

linux
リンク
UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた
デジタルプロダクション「factory4」でアプリやさまざまなIoTプロジェクトのUI UXデザインを手がける新谷友樹さんが、UIやUXにまつわるトピックについて解説する本連載。今回のテーマは「GPT4oを活用したウェブサイトづくり」です。こんにちは！株式会社Cosmowayが組織するデジタルプロダクション「factory4」のUI UXデザイナー新谷です。今回は先日OpenAIが発表した新たなAIモデル「GPT-4o」を使ってウェブサイト（LP）を作成してみました。GPT-4oのパフォーマンスを知ること、そしてデザイナーが生成AIとどう関わっていくべきかを探るきっかけにすることが、今回の目的です。前提として「GPT-4o」がゼロベースでウェブページを作成することに向いているツールではないと思いますが、チュートリアルの要素と今後の可能性を知るためにあえて取り組んでみました。 GPT-4o
sh19910711 2024/06/07
"アプリのLPでよく使用される構成をレイアウト + 必要な画像ファイルや、表示するための実装手順も丁寧に教えてくれました / 現時点では実用に耐える高品質なLPの制作には、人間の手で微調整や品質管理を行うことが必要"

*design

prompt

制作
リンク
ゲームの振動は誰が、どのように作るべきか？――『FORSPOKEN』開発者やサウンドディレクターら4名が“現代の触覚デザイン”を徹底討論【SIG-AUDIO 2024 Vol.03レポート】｜ゲームメーカーズ
IGDA日本のオーディオ専門部会、SIG-AUDIO主催によるセミナー「SIG-AUDIO 2024 Vol.03 オンラインセミナー「パネルディスカッション: ビデオゲームの振動デザインについて」が2024年3月8日（金）にオンラインで開催されました。パネルディスカッションには第一線でゲームサウンド業務に関わる4名が参加。「良い振動とは何か？」から、アクセシビリティとしての振動、触覚としての振動、そして振動にまつわる知見やスケジュールの必要性が訴えられた本セッションをレポートします。 TEXT / じーくどらむす EDIT / 神山大輝今回パネルディスカッションに参加したのは、CEDEC2023で「振動のフォーリー録音!? サウンド技術で振動攻略～音と振動はだいたい同じ～」講演を行った株式会社スクウェア・エニックスサウンドプログラマー山本雄飛氏と、2023年に同社より発売され
sh19910711 2024/06/07
"「なんでこのコントローラー、今このタイミングで振動してるんだろう？」というのが分からないと、それは良い振動ではなくなり / いま震えさせているなら、このあとしっかり振動「させない」時間を作る"

*event

*game

*design

UI

制作
リンク
過去のGitHub Actionsのbuild時間を取得して集計してグラフにする - xuwei-k's blog
継続的にメンテナンスするのではなくて、雑な使い捨てでいいならshellscriptとjq職人芸でいけるので頑張ってしまったけれど、継続的にやるならもっと違うもので書いた方がメンテナンスしやすいと思います。細かい部分はいくらでも改善の余地があるとは思いますが、とりあえず動いたのでヨシ・・・!? 以前も多少似たような何か作ったけど、こういうの誰か既にもっと綺麗に作ってないんですかね。 xuwei-k.hatena blog.com GitHub Actionsのログはデフォルトでは90日保存されてるはずなので、その程度の期間をなんとなく集計したいだけならば、こうやって後から集計するだけで十分ですね。もちろん、yamlの内部の構造がすごく変わっていると集計が難しいか実質不可能になるリスクはありますが。もっとしっかり計測したいならば、buildした時点で専用の場所に綺麗に記録して、他のもっとリ
sh19910711 2024/06/07
"GitHubはmermaidの形式を大体？全部？サポートしてる / markdownが貼り付け可能な任意の場所に貼り付けると勝手に折れ線グラフにしてくれます / GITHUB_STEP_SUMMARY に直接書き込めば表示や保存まで全自動で最高便利"

*dev

*data

git*

devops

メトリクス
リンク
時系列基盤モデルの世界 / The World Of Time Series Foundation Models
【LT大会#7】LLMの活用・機械学習・データ分析関係のいろいろな話題にふれようの資料です https://studyco.connpass.com/event/318107/
sh19910711 2024/06/07
"時系列基盤モデル: GoogleのTimesFM、AmazonのChronosなどが登場 / PromptCast: 入力と出力をプロンプトに変換し、文から文を生成するタスクとしてLLMで時系列予測 + シーケンスを扱うタスクのため時系列データにも適している"

*program

prompt

系列
リンク
競プロにおける「実験コード」の書き方
競技プログラミングにおける「実験コード」の書き方について、自分なりにどのような点に気を遣って書いているかをまとめたスライドです。 (このスライドは「競プロ道場鯖」にて 2022/04/30 に行われたLTで使用されたものです。) 配布資料はこちら : https://drive.google.com/file/d/1Po6310ABSxUVf1csmIJWNztnmqhEo677/view?usp=sharing
sh19910711 2024/06/07
"実験コード: 小さな問題を実験的に解いて観察する + 計算量が悪くても良い / 問題から順向きに解法を導くのが理詰めだとすると、答え（結果）から逆向きに解法を導くのが実験 / 解を眺めるとパターンが見えてくる" 2022

*algorithm

*program

最適化

contest
リンク
[Rust] ortでonnxモデルを使って推論したりWASMにしたりしてみる | DevelopersIO
Introduction 以前、BurnというRustの機械学習フレームワークで ONNXファイルを変換して使うという記事を書きました。問題なく変換して推論までできましたが、onnxファイルをそのまま使いたいケースもあります。というわけで、今回はONNX RuntimeのRustラッパー「ort」を使ってみます。また、wasmpackを使ってWASMにしてChrome Extensionから使ってみます。 [補足] ONNX? ONNXは、さまざまな機械学習フレームワーク間で使用できる共通フォーマットです。これを使うことにより、PytorchでトレーニングしたモデルをTensorFlowで使うみたいなことが容易にできます。 ort? ortは、ONNXランタイム用のRustバインディングです。ここで紹介されていますが、ortとONNX Runtimeを併用することで、さまざま
sh19910711 2024/06/07
"ort: ONNXランタイム用のRustバインディング / GenAIで「フリーハンドでキャンバスに数値書いてjpgにして、そのデータをwasmに渡すChrome Extension作って」と言ったらほとんど生成してくれます"

*program

rust

wasm

機械学習

schema
リンク
昔のゲームはしゃべれないから日本製ゲームは世界で売れた - 最終防衛ライン3
URAHIDE より KOJIMA PRODUCTIONS - HIDEOBLOG｜URAHIDE 第002回【通算193回】　（08.05.31）例によって、MGS4の小島秀夫監督のラジオより。カジュアルゲームとプラットフォーム戦争とか、ゲームの作り方、作りたいゲームとか、アメリカと日本の違いとか面白い話てんこ盛りのなので聞け！そんなに長くないですし。ラジオの4/5くらいにどうして昔の日本製ゲームは売れたかという小島監督の分析が面白い。小島監督曰く（前略）日本の本の話も前にしたと思うんですけど、アメリカの人は米語で書くんで、米語というか英語なんで、一年間じっくり一本書いたらいいんですよ。取材をおもいっきりして、で、何回も書き直すんですよ。一本書下ろしをしたら、それが全世界に出るから、何百万、もう大ヒットなんですよ。それでけで食べていけるんですけど、日本の人たちがかわいそうなのは
sh19910711 2024/06/07
"ラジオの4/5くらいにどうして昔の日本製ゲームは売れたかという小島監督の分析 / しゃべれないからこそ純粋にゲーム、つまり遊びとしての面白さのみが問われた" 2008

*history

*game

*business

マーケティング

メディア
リンク
VimによるToDo管理を支える技術
背景 ToDo管理、大変ですよね。世間には色んなツールがありますし、様々な方法論も溢れています。しかしそのどれも、非常に大きな問題を抱えています。 Vimじゃない Vimじゃないんです。そう。われわれはVimに魂を奪われた悲しき獣。 Vim以外の媒体で文字を書くと、全身に蕁麻疹が出て、手足は震え視野が狭窄し、やがて死に至ります。解決は小さくもう1つの問題として、世にある様々なToDo管理は完成度の高い、巨大なツール本が何冊も出るような、複雑な方法論を必要としています。そのため、学習コストが高く、始めるのも慣れるにも時間がかかります。怠惰だからToDo管理をしたいのに、怠惰な人間には辛い初期コストを要するという理不尽。私はそんな理不尽に抗えるほどまともな人間ではないので、小さく始めて、問題に直面するたび、少しずつ改善していくようにしたいものです。スコープも小さくこれも
sh19910711 2024/06/07
"世にある様々なToDo管理は本が何冊も出るような複雑な方法論を必要 / 怠惰だからToDo管理をしたいのに、怠惰な人間には辛い初期コストを要する / 小さく始めて、問題に直面するたび、少しずつ改善していくようにしたい"

*work

*software

editor

knowledge
リンク
ソーシャルメディアの語源から分かる課題
仕事の関係上、聞かない日がないくらい「ソーシャルメディア」という言葉をよく耳にします。しかしその言葉の使われ方に違和感を感じることがありますし、従来のメディア配信と変わらないと感じることもあります。そもそもソーシャルメディアという言葉はいつ使われ始めたのでしょうか？ Danah M. Boyd と Nicole B. Ellison が、2007年に発表した「Social Network Sites: Definition, History, and Scholarship」というSNSに関する文献で始めて「ソーシャルメディア」という言葉が使われたといわれています。以下がその文献でソーシャルメディアという言葉が使われた文章になります。 Furthermore, as the social media and user-generated content phenomena grew, we
sh19910711 2024/06/07
"Danah M. Boyd と Nicole B. Ellison が、2007年に発表した「Social Network Sites: Definition, History, and Scholarship」というSNSに関する文献 / 当時の傾向から考えられる未来について" doi:10.1111/j.1083-6101.2007.00393.x 2010

*history

*web

ソーシャルメディア
リンク
Wi-Fi 名を「一握の砂」の短歌にするやつ one-grip-ssid - P A R A G R A P H S
Wi-Fi の名前を石川啄木「一握の砂」の短歌にするやつを作ってみた。こんな感じで 1 時間おきにランダムな短歌が設定される。 Docker + Ruby + Mechanize で動いていてソースはこちら。 https://github.com/tily/one-grip-ssid 技術的な詳細など物理ネットワーク構成下記図の通り。自宅の LAN 内で実現していて、 MacBook から定期的にいらなくなった古いルーターにアクセスし、 Wi-Fi 名を変更する処理を実行させている。ルーターへの日本語 Wi-Fi 名設定利用しているルーターは Buffalo WHR-1166DHP3 という機種。こいつは、管理画面からは日本語 Wi-Fi の設定を許可してないけど、ブラウザの開発者ツールやプログラムから直接リクエストを送ることで、日本語 Wi-Fi 名を設定できるという
sh19910711 2024/06/07
"MacBook から定期的にいらなくなった古いルーターにアクセスし、Wi-Fi 名を変更する / ブラウザの開発者ツールやプログラムから直接リクエストを送ることで、日本語 Wi-Fi 名を設定できる" 2022

*infra

*network

sys*

暮らし
リンク
量子コンピュータのシミュレータをRustで作る
目的最近、量子コンピュータを勉強しています。一般的な意味でいう「なんもわからん」状態ですので、エンジニアがいう「完全に理解した」状態になるために、量子コンピュータのシミュレータを作ってみる事にしました。せっかくなので、Rustで実装することにしました。量子コンピュータもRustもわからない事だらけなので、以下を参考にしていみました。 qulacs/qulacs: Variational Quantum Circ uit Simulator for Quantum Computation Research hajifkd/rusq: Quantum computing simulator in Rust 基本、qulacsの簡易版をRustで移植して、とりあえずqulacsのチュートリアルを実装できる程度をめざします。今回実装したコードは、こちらになります。量子コンピュータのシュミレー
sh19910711 2024/06/07
"複素数の状態ベクトルに対して、行列で表現される量子ゲートを適用して計算していく / ロジックは、京都大学数理解析研究所の講究録 1120巻の量子計算機シミュレーションシステムを参考" 2022

*program

rust

最適化

制作
リンク
Playwrightの導入からGitHub Actions上でテストを実行するまで
はじめにちょくちょく Terraform を触る機会が増えた @kt15 です。最近、E2E テストフレームワークを調査する機会がありました。E2E テストフレームワークは Playwright 以外にも Cypress などいくつかありますが、個人的には Playwright が1番しっくりきました。今回は Playwright の導入から GitHub Actions 上で実行するところまでを試したので、やったことを備忘録的に残しておこうと思います。 Playwrightとは E2E テストを自動化するフレームワークです。個人的にはこの辺りが魅力的だと感じました。クロスブラウザ（WebKit も含む）をサポートしているモバイルデバイスをエミュレート（ビューポートなど）してテストできる構築していく！テスト用にサンプルアプリを作る今回は Vite と React でサンプルア
sh19910711 2024/06/07
"Playwright: クロスブラウザ（WebKit も含む） + モバイルデバイスをエミュレート（ビューポートなど）してテストできる / yarn playwright test --project=chromium は指定したブラウザでテストを実行" 2022

*program

webapp

testing

git*
リンク
ヤマハルーターの設定をAnsible化してみる
ヤマハルーターの設定を変更する方法はいくつかあります。 Web GUI TelnetやSSHでのコマンド実行 Ansible これらの中では、コマンド実行によるものがメジャーで、私も実行するコマンドを適当なテキストファイルに保存して管理していました。これでも不便はないのですが、とある事情で直近ルーターの設定を頻繁に調整することがあったので、気になっていたAnsibleでの設定方法を試してみました。環境コントロールノード ansible (2.12.4) ターゲットノード RTX830 (Rev.15.02.22) [1] やったこと公式ドキュメントの手順に沿って作業を進め、IPoEの設定を自動化してみます。楽天ひかりを利用しているので、PPPoEの接続も提供されていますが、IPoEでの接続を前提とします。事前準備ヤマハが提供しているAnsibleモジュールはコントロールノード
sh19910711 2024/06/07
"Ansible化によるメリットは感じつつも、ヤマハルーターはconfigのインポートやコマンドを流しこむだけで設定を完結できる / コマンドをコピペで流し込んだ方が効率はいい" 2022

*infra

*network

*software

sys*

devops
リンク
オンプレミスで動かすLLM
あらゆる産業で生成AIの活用が検討される中で、導入自体が難しい代表的な業界が製造業です。製造現場は基本的に外部からネットワークが隔絶されており、GPTシリーズのようなLLM（大規模言語モデル）を利用することができません。従来であればエッジコンピューティングに代表されるようなオンプレミスでの運用も考えられますが、LLMは実行するコンピュータへのハードウェア要求が非常に高いため、研究室機関レベルのコンピュータを用意する必要があり、一般的な工場にそのような機器を導入することは現実的ではりません。自然言語モデルには “スケーリング則” と呼ばれる原理が存在します。スケーリング則とは、自然言語処理モデルのパラメーター数・データセットのサイズ・トレーニングに使用される計算量の3つの変数が大きくなればなるほど、パフォーマンスが良くなるというシンプルなルールです。スケーリング則に従えばお金を投入すればす
sh19910711 2024/06/07
"phiシリーズ: オンプレミス環境で動かすことが期待される小型LLMの急先鋒でしたが、発表当初のライセンスは商用利用不可 + phi-2のライセンスがMITライセンスに変更され、商用利用が可能となった"

*infra

*program

prompt
リンク
二項係数の逆数和を試算したけれど - 完全無欠で荒唐無稽な夢
みんなのお馴染みパスカルの三角形。これは日本人好みの形状でもあります。なぜなら、積み重ねると富士山的になるから。この三角形で二項係数を反転したパターンが個人的にお気に入りでした。このところの暑さに熱のこもった頭でこの逆転三角形を眺めて、試算の衝動に久々に駆り立てられたのは三角形の芯の部分の総和はどうなるかという計算ネタです。上の図では一番下の行でｎ＝５に相当するのが、この逆数和はどうなるのだろうか？　ｎを有限な極限値はあるのだろうか？実はｎ→∞で「ゼロ」になってしまいます。しかも。この数列には意外なところに極大値がある。せっかくなのでn=100までの計算値を示します。ここから、極大値と極限値の傾向を予測できる人は凄いです。極大値は「2/3」、極限値はなんと「ゼロ」ですね。下はn=10000までの計算結果です。横軸はｎです。極限はゼロっぽい（誰か証明してえ！）極大値
sh19910711 2024/06/07
"パスカルの三角形: 日本人好みの形状 + 積み重ねると富士山的になる / 三角形の芯の部分の総和はどうなるか / 「11からはじまる数学―k‐パスカル三角形、k‐フィボナッチ数列、超黄金数」" 2023

*math

数列

解析

--

*book
リンク
相関係数と順位相関係数について (2): 順位相関係数 - シリコンの谷のゾンビ
昨日の記事からのつづき．今日は本題の順位相関係数について書く．元々は2つのリストの類似度を測る指標としての文脈で考えていたわけだけれど，実は2つの変数が正規分布しなかったり，離散値を取る時などに相関係数を測るノンパラメトリックな方法でもあることがわかった (昨日の話)． 2つの順位相関係数について解説した後，ちょっと気になること，異なる集合の順序リストの相関係数を測る方法などについて書く．順位相関係数情報検索や推薦などにおいて，2つの順序リストが与えられた場合に，それらがどれほど似ているかという類似性評価のために順位相関係数を用いる．ただ，前回説明したピアソン相関係数は確率変数が正規分布している仮定を置いているので，確率変数が明らかに正規分布していない場合の計算に利用できる．順位相関係数はケンドールの順位相関係数と，スピアマンの順位相関係数というものがある．注意するべき点は，
sh19910711 2024/06/07
"2つの順序リストが与えられた場合に，それらがどれほど似ているか / スピアマンは順位に対してピアソンの相関係数を計算しているので，なじみ深いという意味ではスピアマンを使う人が多い" 2011

*data

統計

search
リンク
cl-random-forestでランダムフォレストの決定境界を描いてみる
cl-random-forestでは通常のランダムフォレストに加えて、ランダムフォレストの構造を使って特徴抽出し、それを線形分類器で再学習するという手法を実装している(Global refinement of random forest)。通常のランダムフォレストに対して、この手法がどういう分類をしているかを見るために、二次元のデータでの実際の分類結果を可視化してみる。参考: パッケージユーザーのための機械学習(5)：ランダムフォレストこのエントリではXORのデータで、綺麗に分かれている場合とかなりオーバーラップしている場合とでランダムフォレストの決定境界を描いている。データはそれぞれのリンク先にある。ランダムフォレストを構築まずはXORのデータからランダムフォレストを構築する。完全なコードはここにある。 (defparameter *target* (make-array 1
sh19910711 2024/06/07
"refinement: 通常のランダムフォレストに加えて、ランダムフォレストの構造を使って特徴抽出し、それを線形分類器で再学習する / 外れ値に強くなり、より汎化性能が増しているよう見えなくもない" 2017

*program

lisp*

機械学習

tree*
リンク
ベイズ推定における共役事前分布の重要性について
ベイズ推定における事後確率計算量 $$P(x^* \mid \boldsymbol{x}) = \displaystyle \int P(x^* \mid \boldsymbol{\lambda}) P(\boldsymbol{\lambda} \mid \boldsymbol{x}) d \boldsymbol{\lambda}$$ ベイズ推定の際は、予測をする場合に事後確率によって重み付けをとるため、全てのパラメーターに対する事後確率を覚えておくか、解析的に計算できるようにしておく必要がある。現実的には、全てのパラメータの事後確率を覚えておくことは不可能なので、解析的に計算しておくか、近似的に計算することになる。そこで、共役事前分布の登場である。共役事前分布を用いれば, 事後分布が閉じた形で計算できるため、計算が簡単になる。具体的には、事後分布を求める際に、尤度と事前分布の積が
sh19910711 2024/06/07
"パラメーターを介した周辺化の積分計算(予測*事後確率)を行う際に、確率分布が出現し、積分の中の計算が1になる / 定数部分の演算だけで観測点からの予測が可能となる点で、共役事前分布は強力" 2015

*data

統計

model*
リンク
オイラーツアーした木に対するクエリ - Qiita
この記事に新規性はありません。maspyさんの記事、beetさんの記事がとても分かりやすいです。また、紹介しているテクニックはmaspyさんの記事で紹介されているものです。 maspyさんの記事: Euler Tour のお勉強 beetさんの記事: 2種類のEuler Tourについてオイラーツアーとは？根付き木を根からDFSして根に戻ってくるような経路（の探索）。競技プログラミングの文脈ではこの行きと戻りの経路について以下のような情報を記録しておくきRMQやRSQを適応することで木に対するいくつかのクエリを高速に処理できる。各頂点のinとoutの時刻それまでに辿った辺や頂点の重さなどの情報を記録各頂点の深さの情報用語行きがけ: あるノードから子に移動する帰りがけ: 子からその親ノードに移動する実際の例 1を根とする以下の木があるとします。時刻0は根である1にいてDF
sh19910711 2024/06/07
"オイラーツアー: 根付き木を根からDFSして根に戻ってくるような経路 + RMQやRSQを適応することで木に対するいくつかのクエリを高速に処理できる / 各頂点のinとoutの時刻 + 辿った辺や頂点の重さ + 各頂点の深さ" 2020

*algorithm

最適化

tree*
リンク
PostgreSQL(pgvector) のベクトル検索による全自動PDF検索 : Blob Storage にアップロードしPDFをテキストに変換 - Qiita
PostgreSQL(pgvector) のベクトル検索による全自動PDF検索 : Blob Storage にアップロードしPDFをテキストに変換JavaPostgreSQLAdaOpenAI embedding 1. はじめに先日、Azure OpenAI Embedding モデルを利用し最も関連性の高いドキュメントを見つける方法について説明しました。これを利用する事で、最も関連性の高いドキュメントを見つける事ができます。この記事では、この機能を利用し PDF ファイルを Azure Blob Storage にアップロードすると、自動的に PDF ファイルをテキストに変換し、Azure OpenAI Embedding モデルを利用して、ベクトル検索を行う方法について説明します。このサービスを利用すると、社内ドキュメントも、各種論文も PDF ファイルであれば何でも、Azur
sh19910711 2024/06/07
"Azure Functions: デフォルトでは 5〜30 分間の実行時間の制限 + 無期限に設定できるのは Premium プランと専用プランだけ + 従量課金プランでは、無制限に設定することはできない" 2023

*infra

Azure

rdb

search

近傍
リンク
LangGraphを用いたマルチエージェント
A passwordless future! Passkeys for Spring Developers
sh19910711 2024/06/07
"時代の流れ: zero shot, few shot → function calling, RAG → agentic workflows, flow engineering / Flow Engineering: タスクをより小さなステップに分解 + LLMに回答を自己改善するように促す / AutoGen, langroid"

*program

prompt

workflow
リンク
広津先生による時系列のクラスタリング手法の実装 - StatModeling Memorandum
お正月に広津先生のクラスタリング手法をRで実装しました。個体ごとの時系列データをクラスタリングするのに使えます（実際は時系列ではなく一般の2-wayのデータに適用できます）。個人的に感じる適正なサンプルサイズと時点のサイズはおよそ、10～1000個体、4～30時点程度です。これ以上時点が多い場合は、状態空間モデルなどの方がよいと思われます。参考文献として以下の3つを挙げます。 [1] Hirotsu, C.（2009）: Clustering rows and/or columns of a two-way contingency table and a related distribution theory. Computational Statistics and Data Analysis 53, 4508-4515 [2] 広津千尋 (2004) : 交互作用は相互作用？2 コ
sh19910711 2024/06/07
"個体ごとの時系列データをクラスタリング / 個人的に感じる適正なサンプルサイズと時点のサイズはおよそ、10～1000個体、4～30時点程度 / これ以上時点が多い場合は、状態空間モデルなどの方がよいと思われ" 2014

*data

*program

統計

系列

分類
リンク
ChainerでTensor Coreを使ってみる - Qiita
計算速度が一気に8倍速くなるらしいTensor Coreが使えるということで、昨年9月にTuring世代のGPUを買ってみたものの、Tensor Coreが簡単に使えて一気に早くなるわけでもなく、しばらくTensor Coreが使えているかどうかもよくわからない状態でした。今回一部修正もあって、Chainer v7.0.0a1でTensor Coreが使えることがほぼ確認できました。また、Google ColaboratoryのGPUもTesla T4とTuring世代となり、Tensor Coreが使えそうなので試してみました。環境環境 GPU Cuda Core数 FP32 FP16
sh19910711 2024/06/07
"Tensor Core: 計算速度が一気に8倍速くなるらしい / Chainerの対応などでTensor Coreを使うだけなら簡単に / Convolutionを使う場合はチャンネルの並び(NHWC)とかも考慮しないと遅くなることがある" 2019

*program

python

機械学習

gpu
リンク
推計震度分布のGeoJSON化 - Qiita
気象庁では概ね最大震度5弱以上の地震が発生すると震度観測と地盤状況などを考慮した推計震度分布を約1km格子で発表しています。その推計震度分布をWebブラウザで表示したいので、比較的簡単にできるGeoJSONで出力したいと思います。入手推計震度分布の生データは普通無料では手に入りません。素直にJMBSCから入手するか気象情報会社、持っている人に頼んで手に入れましょう。仕様推計震度分布はWMO（世界気象機関）によって仕様化されたBUFR形式をもとに作成されています。バイナリデータなので、人では読めません。詳しい仕様は気象庁が公開しているPDFをご覧下さい。 https://www.data.jma.go.jp/suishin/shiyou/pdf/no40102 電文の分割推計震度分布で使われている仕様（一昔前）では1つの電文につき15KiB以下しか送信できません。広い範囲
sh19910711 2024/06/07
"震度5弱以上の地震が発生すると震度観測と地盤状況などを考慮した推計震度分布を約1km格子で発表 + ブラウザで表示したい / GeoJSONでは矩形は表現できない + 隣り合った同じ震度の格子は結合する" 2020

*data

*program

GIS

暮らし
リンク
ナレッジグラフでスターウォーズファンに映画を推薦する｜kiha
人間の持つ知識を形式的に表現する、知識表現の研究は古くからなされてきており、例えば一つの形としてWebシステムではよくつかわれるリレーショナルモデルなどがある。近年よく着目されているのがナレッジグラフであり、先端的な研究を超えて、実産業での活用事例（例えばGoogleのナレッジグラフサーチ）も多くみられるようになった。本記事では、noteのレコメンドシステムも手がけている筆者がWikidataのエンドポイントを利用して、ナレッジグラフを探索し、スターウォーズファンにおすすめできそうな映画をリストアップしてみる。最終的にこんな感じのリストが得られる。スターウォーズファンのみなさまには、興味が惹かれるタイトルがあっただろうか？ナイトミュージアム2 インディ・ジョーンズ／クリスタル・スカルの王国地獄の黙示録チャーリーズ・エンジェルフルスロットルブレードランナー 2049 ジャッジ・ド
sh19910711 2024/06/07
"RDF: リレーショナルモデルとは異なり、主語・述語・目的語からなる / RDFにおいては、主語と目的語はURLのように唯一固有のIDをもち / SPARQLというSQLのようなSyntaxの問い合わせ言語がW3Cで定義"

*algorithm

search

prompt
リンク
NVIDIA NeMo (GlowTTS) で日本語音声合成 - Qiita
主に、機械学習とかよくわからないけど、とにかく NVIDIA/NeMo で TTS したい方向けのメモです（筆者がそれです）。Google Colab だけで試しています。実行環境 2020/10/06 に出た NVIDIA/NeMo 1.0.0b1 以降を想定しています。 2020/10/05 Announcing NVIDIA NeMo: Fast Development of Speech and Language Models | NVIDIA Developer Blog 2020/10/06 Release NVIDIA Neural Modules 1.0.0b1 · NVIDIA/NeMo 2020/10/20 のマージで、2020/10/13 に出た Pytorch Lightning 1.0 系に対応しているので、最新の main を利用します。(PTL 0.9 系の
sh19910711 2024/06/07
"NVIDIA NeMo: PyTorch Lightning を使ったツールキット + モデルの出力を他のモデルの入力にするような使い方が醍醐味 / 1_TTS_inference.ipynb を利用して音声出力" 2020

*program

機械学習

音声
リンク
【論文読解】NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections - Qiita
【論文読解】NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo CollectionsDeepLearning 概要画像集合をもとに新しい視点からの画像を合成する技術であるNeRF in the Wild（NeRF-W）について紹介します。例えば、Photo Tourism Datasetには、ある特定のランドマークを様々な位置から撮影した写真が多数含まれています。そのような画像集合から、ランドマークの3次元的な形状を把握し、写真集合には含まれない新しい視点から見たときの合成画像を作成することができる、というのが目的となります。新しい視点からの合成結果をつなぎ合わせると、公式のプロジェクトページ内にあるような動画も生成することができます。先行手法として、もともと提案されていたNeRF1という手法がありました
sh19910711 2024/06/07
"形状を把握し写真集合には含まれない新しい視点から見たときの合成画像を作成する / NeRF: 位置𝑥と方向𝑑に対して一意に密度𝜎や色𝑐が定まり + 粗いモデルと精細なモデルという2つのモデルを同時に訓練"

*algorithm

機械学習

cv
リンク
BigQueryのベクトル検索で文書検索APIを作る
BigQueryでベクトル検索を利用できるようになっており学習用に使ってみました。 2024年6月6日現在はプレビュー版です。構成図・Cloud Functions GCSにpdfを格納するとエンべディングデータを作成しBig Queryにインサートする。・Cloud Run 質問するとBigQueryにベクトル検索で文書検索し、検索情報を基に回答するAPI。使用したデータ Wikipediaをpdf化したデータを使用しました。リンゴオレンジ Wikipediaの「ツール」→「pdf形式でダウンロード」からダウンロードしています。ソースコードテーブルスキーマベクトル検索するVector Search関数はArray<float>型に対応しています。 Embeddingデータの作成 Cloud Functionの処理です。 pdfを読み込み pdfの文章をEmbedding
sh19910711 2024/06/07
"質問するとBigQueryにベクトル検索で文書検索し、検索情報を基に回答する / pdfの文章をEmbedding + BigQueryにインサート + BigQueryから質問に近いEmbeddingデータの文書を抽出 / LangchainのBigQueryVectorSearch"

*data

dwh

gcloud

search
リンク
- 2024年6月8日
- 2024年6月7日
- 2024年6月6日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx