本文「dataset」を検索 - はてなブックマーク

1 - 40 件 / 373件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

datasetの検索結果1 - 40 件 / 373件

二子玉川の堤外地問題と小字地図に関して幾つか指摘その1
- 596 users
- anond.hatelabo.jp
- 学び
- 2024/06/12
二子玉川の堤外地に建つマンションが高値を付けてる事に嘆いて小字地図という面白いものを公開してくれた人がいる。でもその事をまとめたtogetterではそれに対して間違ったり不適当なツイートばかり拾ってるので指摘するよ。 https://b.hatena.ne.jp/entry/s/togetter.com/li/2381841 過去の経緯二子玉川には堤防の切れ目があった。陸閘ともいう。閘はパナマ運河などの閘門の閘で、板で締め切って水をブロックして水位を変化させるものだ。それが陸にあるから陸閘。 https://maps.app.goo.gl/DKKV4c1kefy3BVSE9 余談だがこの道は結構重要な道で、江戸時代の矢倉沢往還（青山通り大山道）だった。真っ直ぐ行って多摩川に出たところに渡船（二子の渡し）があったのだ。川を渡って崖を上ると二子の宿場に着く。ここは瀬田村の一部で、スレッドで
- 地図
- 歴史
- 地理
- 災害
- 増田
- あとで読む
- 二子玉川
- 東京
- 不動産
- history
大公開！バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG
- 543 users
- techblog.zozo.com
- テクノロジー
- 2024/06/10
こんにちは。MA部の田島です。弊社では開発ガイドラインというものを用いて、システムの品質を担保しています。今回私がテックリードを務めているということもあり、バッチアプリケーションを開発するためのガイドラインを作成しました。本記事では「開発ガイドライン」と「バッチ開発ガイドライン」を紹介します。バッチアプリケーション開発に限定したTipsはまとまっているものが多くないため参考にしていただければと思います。開発ガイドラインについての紹介冒頭でも紹介した通り弊社では、開発ガイドラインというものを用いてシステムの品質を担保しています。バッチ開発ガイドラインを紹介する前に、まず開発ガイドラインを紹介します。開発ガイドラインの種類開発ガイドラインは現在、以下の種類が存在します。共通 Android iOS Frontend Backend Infra API Batch DB(Datab
市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ
- 536 users
- www.m3tech.blog
- テクノロジー
- 2024/07/30
全国の市区町村の名前とコードをデータベーステーブル化したもの、すなわち市区町村マスタはITシステムを作っていれば何かしらの場面で必要になるものです。ではその市区町村マスタを作るための元データはどこから手に入れたらいいものか。そして「作る」というのもありますが、市区町村は再編されるものですから最新の変更にどう追従するか、しかもそれを自動化できるかというのも大いに気になるところですね。エムスリーエンジニアリンググループ三浦(@yuba@reax.work) [記事一覧 ]です。 Unit1（製薬プロモーション）およびUnit9（治験臨床研究支援）のエンジニアです。今回は私も皆様とまったく同じように市区町村マスタのデータ源に悩んでいろいろ調べましたので、それで得た知見を共有させていただこうと思います。今回は代表的な3つのデータソースをご紹介し比較していきます。ほしいのはこんな感じのデ
- データ
- あとで読む
- db
- webサービス
- 行政
- 住所
- 日本
- 資料
- 地図
- 開発
加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実
- 451 users
- wirelesswire.jp
- テクノロジー
- 2024/06/21
加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実 2024.06.21 Updated by Ryo Shimizu on June 21, 2024, 18:19 pm JST 世界中の企業や政府が狂ったようにNVIDIAのGPUを買い漁る流れはそろそろ潮時かもしれない。いくつかの興味深い事象が起きているからだ。昨日発表されたKarakuri社のLLM、「KARAKURI LM 8x7B Instruct v0.1」は、非常に高性能な日本語LLMだ。Karakuri社は今年の一月にも非常に高性能な70Bモデルを引っ提げて業界に旋風を巻き起こした。この最新のLLNは、日本語向けオープンLLMとしては初の「命令実行」チューニングを施されている。それだけでなく、RAGと呼ばれる、複数の知識を組み合わせてより正解に近い答えを導く技術や、Function
- LLM
- AI
- あとで読む
- 人工知能
- 生成AI
- ChatGPT
- GPU
- 開発
- GPT
- 機械学習
2024年最新版：Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita
- 332 users
- qiita.com/Tadataka_Takahashi
- テクノロジー
- 2024/07/21
はじめに Pythonのデータ解析エコシステムは日々進化を続けています。2024年現在、効率的なデータ処理、直感的な可視化、高度な機械学習の自動化など、様々な新しいツールが登場しています。本記事では、最新のPythonデータ解析ライブラリを紹介し、それぞれの特徴や使用例、実際のユースケース、そして導入方法まで詳しく解説します。 1. データ操作ライブラリ 1.1 Polars: 高速データ処理の新標準 Polarsは、Rustで実装された高速なデータ操作ライブラリです。pandasに似たAPIを持ちながら、大規模データセットでより高速に動作します。特徴: 高速な処理速度メモリ効率が良い pandasに似たAPI 使用例: import pandas as pd # サンプルデータを作成 data = { "age": [25, 32, 28, 35, 40, 50], "categor
- python
- あとで読む
- ライブラリ
- データ
- 機械学習
- データ分析
- まとめ
- qiita
- csv
- メモリ
RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
- 274 users
- sue124.hatenablog.com
- テクノロジー
- 2024/07/03
大規模言語モデル (LLM) の学習データに含まれない知識（各社の特有の書類など）を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。そのような問題への対応としてRAGが使われます。「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に
- RAG
- LLM
- AI
- あとで読む
- 論文
- 検索
- 自然言語処理
- 技術
ドキュメントをMarkdownやJSONに変換してくれる「Docling」を試す
- 224 users
- zenn.dev/kun432
- テクノロジー
- 2024/11/05
ここで知った。試しに、神戸市が公開している観光に関する統計・調査資料のうち、「令和5年度神戸市観光動向調査結果について」のPDFで一度試していたのだけども: （出典）神戸市Webサイトの「観光に関する統計・調査」のページ上記にある「令和5年度神戸市観光動向調査結果について」のPDF 日本語でも、概ね問題なく、表などもきれいにパースされるただし、表が画像になってる場合に、うまく解釈されない（表は解釈されるが、中の文字が化ける） OCRが正しくできていない可能性というのがあって、ドキュメント読んだけどわからなくて、それ以上深追いしてなかった。ただ、X界隈を見る限りは評判は良さそうで、いろいろ記事も出てきたみたいなので、改めて試してみる。 GitHubレポジトリドキュメント Docling Doclingは、ドキュメントを解析し、簡単かつ迅速に希望の形式にエクスポートします。
- markdown
- あとで読む
- pdf
- json
- ドキュメント
- ocr
- AI
- LLM
- document
- 論文
KPIのモニタリング自動化と運用体制の整備 - ZOZO TECH BLOG
- 189 users
- techblog.zozo.com
- テクノロジー
- 2024/09/25
はじめにこんにちは。データシステム部/推薦基盤ブロックの佐藤 (@rayuron) です。私たちはZOZOTOWNのパーソナライズを実現する推薦システムを開発・運用しています。推薦システムごとにKPIを策定していますが、データの欠損やリリース時の不具合によってKPIが意図しない値を取ることがあるため定常的に確認する必要があり、これをKPIのモニタリングと呼んでいます。先日、推薦システムの実績をLookerでモニタリングするというテックブログで推薦システムのKPIをモニタリングする方法を紹介しましたが、運用していく中でいくつかの課題が見えてきました。本記事では、より効率的かつ効果的なKPIのモニタリングを実現するための取り組みについて詳しくご紹介します。はじめに改善の背景と課題背景課題トレンドを考慮した異常検知が不可能モニタリングの設定が面倒アラート対応フローが不明確サマ
- 運用
- あとで読む
- 推薦
- MLOps
- KPI
- 開発
- 仕事
Claude 3.7 Sonnet and Claude Code
- 166 users
- www.anthropic.com
- テクノロジー
- 2025/02/25
Today, we’re announcing Claude 3.7 Sonnet1, our most intelligent model to date and the first hybrid reasoning model on the market. Claude 3.7 Sonnet can produce near-instant responses or extended, step-by-step thinking that is made visible to the user. API users also have fine-grained control over how long the model can think for. Claude 3.7 Sonnet shows particularly strong improvements in coding
- AI
- あとで読む
- LLM
- claude
- 人工知能
Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked
- 153 users
- ipullrank.com
- テクノロジー
- 2024/05/28
Watch Our Google Algorithm Leak Webinar Replay Google, if you’re reading this, it’s too late. Ok. Cracks knuckles. Let’s get right to the Google algorithm leak. Internal documentation for Google Search’s Content Warehouse API has been discovered. Google’s internal microservices appear to mirror what Google Cloud Platform offers and the internal version of documentation for the deprecated Document
- SEO
- google
- アルゴリズム
- algorithm
- あとで読む
- web
- 検索
- search
- web制作
MarkdownAIで子ども向けスマホ動物園を作ってみた - Qiita
- 144 users
- qiita.com/Tyamamoto1007
- テクノロジー
- 2025/02/11
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 2024年のアドベントカレンダーで、マークダウン記法で記述して簡単にウェブサイトやアプリが作れるMarkdownAIというサービスを知りました。そこで、お出かけ先でもスマホで楽しめる子ども向け動物園アプリをMarkdownAIで試作してみました。作ったもの「MarkdownAI動物園」今回作成したのは「MarkdownAI動物園」というスマホで使える、簡単なアプリケーションです。以下のリンクから実際にアプリを使えるのでぜひ試してみてください。 MarkdownAI動物園 ※スマホで使う想定のため、PCだと見づらい部分があります
JavaScriptで実現するFLIPアニメーションの原理と基礎 - ICS MEDIA
- 138 users
- ics.media
- テクノロジー
- 2024/09/04
アニメーション実装のテクニックのひとつにFLIPと呼ばれるものがあります。FLIPアニメーションは2つの状態をなめらかにつなげるテクニックで、とくに移動や拡大といった動きに有効です。FLIPアニメーションを用いると、次のようなアニメーションを実装できます。本記事では、ライブラリに依存しないFLIPアニメーションの原理を理解し、実装する方法を紹介します。 FLIPアニメーションとは FLIPとは、First, Last, Invert, Playをまとめた造語です。これらはFLIPアニメーションの手順を説明したものになります。 First：アニメーションを開始するときの状態 Last：アニメーション終了時の状態 Invert：変化量を計算し、Lastの状態に適用してFirstの状態を復元します Play：Invert量を徐々に減らしてLastの状態に近づけていきます FLIPのおもしろい点
BigQueryの新発表を解説（Google Cloud Next '25速報） - G-gen Tech Blog
- 80 users
- blog.g-gen.co.jp
- テクノロジー
- 2025/04/12
G-gen の杉村です。当記事では、Google Cloud Next '25 で発表された BigQuery の新機能について紹介します。概要 BigQuery と AI の統合全体像 BigQuery data preparation データセットレベルのインサイト（BigQuery データキャンバス） BigQuery pipelines にデータエンジニアリングエージェントが組み込み Colab Notebook にデータサイエンスエージェントが組み込み BigQuery AI query engine BigQuery DataFrames におけるコード支援 Looker の会話型分析 SQL 移行アシストデータガバナンス Dataplex Catalog が BigQuery universal catalog に改名 Automated metadata curati
- bigquery
- あとで読む
- AI
- google
日本のアニメなどから収集したデータセット「Sakuga-42M」　国際研究チームが公開　「学術研究でのみ使用可能」【更新済み】
- 78 users
- www.itmedia.co.jp
- テクノロジー
- 2024/05/24
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X：＠shiropen2 【更新履歴：2024年5月24日午後1時50分更新　同時刻時点で論文は取り下げられ、GitHubのリポジトリ非公開となったことを確認しました。カナダのアルバータ大学や中国の四川音楽学院に所属する研究者らが発表した論文「Sakuga-42M Dataset: Scaling Up Cartoon Research」は、AIモデルのトレーニング用に作成したアニメ動画データセットを提案した研究報告である。 Sakuga-42Mは、GitHubにおいてリポジトリが公開されており、学術研究の目的でのみ使用可能。また、データセット内の画像やビデオの著
- ai
- 研究
- あとで読む
- anime
- 人工知能
- アニメ
Llama 3.2 の使い方｜npaka
- 74 users
- note.com/npaka
- テクノロジー
- 2024/09/28
以下の記事が面白かったので、簡単にまとめました。・Llama can now see and run on your device - welcome Llama 3.2 1. Llama 3.2 Vision 11B・90B1-1. Llama 3.2 Vision 11B・90B「Llama 3.2 Vision 11B・90B」は、Metaがリリースした最も強力なオープンマルチモーダルモデルです。画像+テキストのプロンプトでは英語のみ、テキストのみのプロンプトでは英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語をサポートしています。コンテキスト長は128kトークンで、画像を含む可能性のある複数ターンの会話が可能です。ただし、モデルは単一の画像に注目する場合に最適に機能するため、transformers実装では入力で提供された最後の画像のみに注
- LLM
- あとで読む
- text
- AI
クルド問題で良くやり玉にあがる解体業トラックの積載とヤードの問題に就いてパート1
- 70 users
- anond.hatelabo.jp
- 世の中
- 2024/08/19
産経新聞が報じているクルド人ヤードで大騒ぎ問題に関して。因みに本稿では記事や事件そのものには触れない。 https://b.hatena.ne.jp/entry/s/www.sankei.com/article/20240818-Q7DJ43L7IVGBVIXACY4JX5FRBY/ トラックの制裁制限産経の記事では冒頭に「過積載の（解体業）トラック」の写真が掲載されている。Xでもよく同じような写真が「クルド人解体屋の過積載トラック」として掲示され「何故か警察が検挙しない！」と指弾されている。これらは違法積載なのだろうか？道交法は近年改正され、車両からのはみ出しの制限が緩和された。後方については車両長の20％以下となった（はみ出しが後方だけの場合）。これはいすゞエルフ2t積みの場合、全長が4.7mなのではみ出しの最大は940cmとなる。写真のトラックはそんなにでっぱっていない。側方
- 増田
- あとで読む
- 法律
- 企業
- 映画
- 社会
世界一わかりみの深いDify | SIOS Tech. Lab
- 64 users
- tech-lab.sios.jp
- テクノロジー
- 2025/03/03
第1章: Difyとは？生成AIが注目され始めて早数年。ChatGPTの登場が世間を賑わしたのは記憶に新しいですね。その後も、DALL-EやGPT-4など、様々な生成AIが登場しました。これらの生成AIは、それぞれの特徴を持ち、様々な用途に活用されています。ChatGPTなどの生成AIの技術は、LLM（Large Language Model）と呼ばれ、膨大なテキストデータから学習し、高度な言語理解を実現する技術であり、自然言語処理の分野で大きな注目を集めています。そして、LLMを利用したアプリも登場しました。特に大きな注目を集めているのはRAGやAIエージェントでしょう。RAGは、外部のデータベースや文書から関連情報を取得して回答の精度を向上させる技術、そしてAIエージェントはLLMを活用してタスクの実行や意思決定を自律的に行う仕組みです。これらのアプリは、LLMを利用して、高度な自
- AI
- あとで読む
- API
- ツール
AIエージェントのおかげでdbt開発の大部分を自動化した話
- 63 users
- zenn.dev/ubie_dev
- テクノロジー
- 2025/04/22
こんにちは、おきゆきです。Ubieでデータ関連業務を担当しています。この記事では、dbtを利用したデータモデル開発プロセスにおいて、AI搭載エディタであるCursor Editorを活用し、dbt model開発の速度向上にとどまらず、その開発ステップの大部分をAIで自動化した事例について紹介します。 Ubieでは3000以上のdbt modelを運用していますが、事業やプロダクトが拡大するにつれて、dbt model作成のためのファイル規約の遵守、テスト記述、ドキュメント更新、Lightdashに必要なメタデータの定義といった定型的な作業が増加し、開発者の負担となるケースが見られます。SQLロジックの設計や分析といったより本質的な業務に集中したい、という思いは多くの開発者が共有するところではないでしょうか。この課題に対し、Cursor Editor、特にその Agent機能と Pr
BigQueryのアンチパターン認識ツールで独自のSQLリンターを開発しました - ZOZO TECH BLOG
- 59 users
- techblog.zozo.com
- テクノロジー
- 2025/01/30
こんにちは、株式会社ZOZOで25卒の内定者アルバイトをしている村井です。この記事では業務で取り組んでいる、BigQueryで使うSQLのリンターの作成方法について紹介します。目次目次課題と解決策課題解決策 BigQueryのアンチパターン認識ツールミニマムな使い方日本語がSQL内に含まれている際の問題アンチパターンを定義するリンターとしてBigQueryのアンチパターン認識ツールを使用する際に生じる課題と解決策構成 APIサーバ化 Chrome拡張動作例まとめ課題と解決策課題社内では様々なチームがSQLを書いており、動作はするものの良くない書き方をしている場合があります。そういった構文を検知して、前もって修正する必要があります。解決策 BigQueryのコンソールで入力されたSQLの不正構文を検知、修正案を提示できるようにしました。 BigQueryのアン
- BigQuery
- sql
- あとで読む
- tool
- ツール
postgres.new: In-browser Postgres with an AI interface
- 56 users
- supabase.com
- テクノロジー
- 2024/08/13
Introducing postgres.new, the in-browser Postgres sandbox with AI assistance. With postgres.new, you can instantly spin up an unlimited number of Postgres databases that run directly in your browser (and soon, deploy them to S3). Each database is paired with a large language model (LLM) which opens the door to some interesting use cases: Drag-and-drop CSV import (generate table on the fly) Generat
- postgresql
- browser
- db
- wasm
- AI
- SQL
- database
- あとで読む
- article
全ての学習率スケジューリングを過去にするOptimizer
- 54 users
- zenn.dev/dena
- テクノロジー
- 2024/12/10
それでは ScheduleFree の使い方を見ていきましょう。といっても、基本的には従来のoptimizerとなんら変わりません。差分は以下の2点です。 scheduler が不要になること optimizer.eval()とoptimizer.train()を適切なタイミングで呼ぶこと例えば、AdamWとなんらかのschedulerを使う場合のよくあるモックを考え、そこからの差分として骨子を表現してみると、以下のような感じになるかと思います[4]。 import argparse import torch import torch.nn as nn import torch.nn.functional as F from pathlib import Path +from schedulefree import RAdamScheduleFree from torch import
BigQueryとGemini 1.5 Proによるラーメン店クチコミの定量分析 - G-gen Tech Blog
- 51 users
- blog.g-gen.co.jp
- テクノロジー
- 2024/07/18
G-gen の神谷です。本記事では、Google Maps API から取得したラーメン店のクチコミデータに対する定量分析手法をご紹介します。従来の BigQuery による感情分析の有用性を踏まえつつ、Gemini 1.5 Pro の導入によって可能となった、より柔軟なデータの構造化や特定タスクの実行方法を解説します。分析の背景と目的可視化イメージ分析の流れとアーキテクチャクチコミデータ取得と BigQuery への保存 API キーの取得データ取得のサンプルコードクチコミ数の制限と緩和策料金感情分析とデータパイプライン Dataform の利点 Dataform を使った感情分析のパイプライン定義例感情分析の結果解釈 ML.GENERATE_TEXT（Gemini 1.5 Pro）関数を使用した高度な分析ユースケースに応じた独自の評価観点によるクチコミの定量化
- Gemini
- BigQuery
- AI
- LLM
- google
- api
- あとで読む
GitHub - modelcontextprotocol/servers: Model Context Protocol Servers
- 49 users
- github.com/modelcontextprotocol
- テクノロジー
- 2024/11/28
These servers aim to demonstrate MCP features and the TypeScript and Python SDKs. AWS KB Retrieval - Retrieval from AWS Knowledge Base using Bedrock Agent Runtime Brave Search - Web and local search using Brave's Search API EverArt - AI image generation using various models Everything - Reference / test server with prompts, resources, and tools Fetch - Web content fetching and conversion for effic
- MCP
- AI
- Anthropic
- LLM
- protocol
- server
- github
- プログラミング
- 人工知能
Ace Your SQL Interview: Top 9 Must-Know Questions and Answers
- 49 users
- medium.com/@StefanoMeloccaro
- テクノロジー
- 2025/04/13
SQL interview questions, especially if done during a live session, can be challenging; however, knowing in advanced which are the most common ones allows you to organize your thoughts and expose structured answers that will clearly show to your interviewer an high level of preparation. Based on my experience, these are the most common one you can’t miss if you want to increase a chance to ace your
- sql
- あとで読む
- DB
最近の7B小型日本語LLMはエージェントになれるのか？
- 47 users
- soysoftware.sakura.ne.jp
- テクノロジー
- 2024/06/01
あれから進化的マージの試行錯誤を繰り返していたが、ついに相当性能が高そうなモデルが生まれた。 Umievo-itr012-Gleipnir-7Bである。 umiyuki/Umievo-itr012-Gleipnir-7B · Hugging Face ElyzaTasks100の平均スコアは3.91に達して、ついにGPT-3.5Turboのスコア（3.88）を上回ってしまった。ただし、スコアが上回ってるからと言って性能が勝ってるというわけではない事に注意して欲しい。例えるなら、身長が高いからと言って強いわけではないみたいな話である。前回の記事では少し誤解を招く書き方だったかもしれないが、そもそも7Bの小型日本語LLMなんてのは基本的にドアホである。間違ってもChatGPTの代わりに使えるなんて考えてはいけない。とは言うものの、単なるドアホではスコア3.91なんて取れないという事もまた
- LLM
- あとで読む
- AI
- dev
Doing RAG? Vector search is *not* enough
- 46 users
- techcommunity.microsoft.com
- テクノロジー
- 2024/06/12
I'm concerned by the number of times I've heard, "oh, we can do RAG with retriever X, here's the vector search query." Yes, your retriever for a RAG flow should definitely support vector search, since that will let you find documents with similar semantics to a user's query, but vector search is not enough. Your retriever should support a full hybrid search, meaning that it can perform both a vect
- RAG
- LLM
- AI
- search
- microsoft
- あとで読む
「Bluesky運営元はユーザーの投稿をAI学習に使わないが第三者はAI学習できてしまう」という実例が登場、BlueskyのAPI経由で100万投稿分のデータセットがHugging Faceで公開されてしまう
- 46 users
- gigazine.net
- テクノロジー
- 2024/11/28
2024年11月に利用規約を更新したX(旧Twitter)では、投稿をAI学習に利用することを明文化しました。これを受けて、多くのユーザーが「投稿をAIのトレーニングに利用することはない」と表明している競合SNSのBlueskyに移行しています。しかし、BlueskyのAPI経由で入手した100万投稿分のデータセットがHugging Face上で公開されてしまう事態が発生しました。 Someone Made a Dataset of One Million Bluesky Posts for 'Machine Learning Research' https://www.404media.co/someone-made-a-dataset-of-one-million-bluesky-posts-for-machine-learning-research/ Bluesky may not
- AI
- 人工知能
- gigazine
- techfeed
- SNS
- アプリ
【技術選定/OSS編】LLMプロダクト開発にLangSmithを使って評価と実験を効率化した話 - Gaudiy Tech Blog
- 45 users
- techblog.gaudiy.com
- テクノロジー
- 2024/07/23
こんにちは。ファンと共に時代を進める、Web3スタートアップ Gaudiy の seya (@sekikazu01)と申します。この度 Gaudiy では LangSmith を使った評価の体験をいい感じにするライブラリ、langsmith-evaluation-helper を公開しました。 github.com 大まかな機能としては次のように config と、詳細は後で載せますが、LLMを実行する関数 or プロンプトテンプレートと評価を実行する関数を書いて description: Testing evaluations prompt: entry_function: toxic_example_prompts providers: - id: TURBO config: temperature: 0.7 - id: GEMINI_PRO config: temperature:
BigQueryの承認済みビューを利用した社内データ公開設計 - enechain Tech Blog
- 44 users
- techblog.enechain.com
- テクノロジー
- 2024/07/30
はじめに旧BigQuery構成と課題点新GCP Project/BigQuery構成承認済みビューの設定結果終わりにはじめに enechainのデータプラットフォームデスクで2年目エンジニアをしている菱沼です。本記事では、社内ユーザに対する閲覧権限をBigQueryの承認済みビューを用いて改善した例をご紹介します。事業規模の拡大に伴い、各種データへのアクセス権限整備の重要性が増し、BigQuery上のデータも厳密な権限管理が求められるようになりました。今回は、我々が抱えていたBigQueryアーキテクチャの権限管理上の課題と、その課題に対する取り組みについて具体的にご紹介します。ぜひ最後までお付き合いください！旧BigQuery構成と課題点データプラットフォームデスクで構築しているデータ基盤の1つに、外部データソースから取得したデータを収集・蓄積するためのETLパ
- BigQuery
- あとで読む
vLLMを利用したLLM推論高速化テクニック - Taste of Tech Topics
- 43 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2024/12/24
皆さんこんにちは Acroquestのデータサイエンスチーム「YAMALEX」のチームリーダ、@tereka114です。 YAMALEXチームでは、コンペティションへの参加や自社製品開発、技術研究などに日々取り組んでいます。大規模言語モデル（通称：LLM）は近年、非常に注目される技術となりました。ただ、7Bや13Bといった巨大モデルのパラメータは推論時間も長時間で計算時間の面からも運用が非常に難しいです。しかし、vLLMを使えば、高速化できます。本記事では、推論をどこまで高速化できるのかを検討したいと思います。 ※本記事はLLM・LLM活用のAdvent Calendar 24日目の記事です。 qiita.com vLLMとは？ vLLMによる高速化実践 vLLMを利用しない場合 vLLMを利用する vLLMに加えてAWQを利用して量子化する Auto Prefix Caching
- LLM
- あとで読む
- ai
- 人工知能
- dev
- techfeed
- プログラミング
- vLLM
真にチラつかないダークモードをついに実現したぞ。実現方法と気付きを書く | stin's Blog
- 40 users
- blog.stin.ink
- テクノロジー
- 2024/07/14
真にチラつかないダークモードをついに実現したぞ。実現方法と気付きを書く2024/07/14 14:36 nextjsreact このサイトはダークモードに対応しています。なぜならダークモードは基本的人権だからです(要出典)。しばらく、サイトに訪問した直後ライトモードとダークモードが切り替わってチラつく現象が発生していました。これを改善したので、実装方法と気付いたことを残しておきます。ダークモードの実装方法一般に、ダークモードの実装方法は3タイプあります。 OSによるモード設定を反映するメディアクエリー@media (prefers-color-scheme: dark)を使うと、OS側でダークモードを指定している時だけ有効になるスタイルを書くことが出来ます。 JavaScriptでも判定が必要な場合はmatchMedia("(prefers-color-scheme: dark)")
- react
- color
- html
- article
- あとで読む
- data
- blog
Sakana.aiが公開した「Evolutionary Model Merge」手法を「mergekit」で実施してみる - Taste of Tech Topics
- 40 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2024/05/07
皆さんこんにちは機械学習チームYAMALEXの@tereka114です。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。（詳細はリンク先をご覧ください。）日々、LLMが進化していて、画像が本職（のはず）の私ですら、ここ数年LLMの勉強をはじめています。学習してモデル公開しましたといった記事はよく見ますが、今回は今、非常に注目されている日本に拠点があるAIスタートアップである「Sakana.ai」が公開した「Evolutionary Model Merge」を使う話をします。 Evolutionary Model Merge 「Evolutionary Model Merge」は「Sakana.ai」から発表された進化的モデルマージと呼ばれる技術です。端的に言ってしまえば、複数のモデルを利用して新し
- LLM
- あとで読む
- 生成AI
- 人工知能
- 機械学習
- techfeed
- AI
AWS IAM PolicyのForAllValuesを勘違いしてた件 - LayerX エンジニアブログ
- 40 users
- tech.layerx.co.jp
- テクノロジー
- 2024/05/01
LayerX Fintech事業部（※）で、ガバナンス・コンプラエンジニアリングをしている鈴木 (@ken5scal )です。 ※三井物産デジタル・アセットマネジメントに出向しています。今回は、AWS IAMポリシーの条件における「ForAllValues」の仕様を誤って理解していたことから、安全でないアクセス制御を実装していたという内容です。もし同様の勘違いをされている方がいたら参考になれば幸いです。ユースケース AWS IAMユーザーを、ロールの trust policy がユーザーのタグで制御するケースで考えます。具体的には、「Group A　あるいは Group B」に所属し、且つ「Admin」権限のあるユーザーのみが行使できる役割「AdminABRole」があるとしましょう。この場合、Group と Admin のタグが存在し、下記のようなパターン（※）が考えられます。
月35人以上が開発するUbieのdbt開発のガードレール
- 39 users
- zenn.dev/ubie_dev
- テクノロジー
- 2025/04/15
こんにちは、おきゆきです。Ubieでデータ関連業務を担当しています。 4月9日に開催されたTokyo dbt Meetup #13にて、「dbtとLightdashを社内へ浸透させるまでの取り組み」というテーマで発表させていただきました。当日は多くの方にご参加いただき、たくさんのご質問、誠にありがとうございました！その中で特にコメントが多かったのは、「データエンジニアが1人の状況で、dbtとLightdashを利用する月間PR作成者が35人以上というのは、具体的にどのようにデータマート開発を進めているのか？」「品質はどのように維持しているのか？」「データモデリングの知見はどのように共有しているのか？」といったご質問でした。具体的には、以下のスライドで示した数値についてです。 https://speakerdeck.com/okiyuki99/integrate-dbt-and-ligh
- 開発
- あとで読む
How Google handles JavaScript throughout the indexing process - Vercel
- 36 users
- vercel.com
- テクノロジー
- 2024/08/01
MERJ and Vercel's research to demystify Google's rendering through empirical evidence. Understanding how search engines crawl, render, and index web pages is crucial for optimizing sites for search engines. Over the years, as search engines like Google change their processes, it’s tough to keep track of what works and doesn’t—especially with client-side JavaScript. We’ve noticed that a number of o
- seo
- javascript
- あとで読む
- google
- article
Fluentdのプラグインを作ってBigQueryにログを挿入するコストを1/3にした話 - pixiv inside
- 34 users
- inside.pixiv.blog
- テクノロジー
- 2024/06/10
こんにちは。機械学習チームにてレコメンドの改善を行っているgumigumi4fです。この記事では、Fluentdにて収集したログをBigQueryに挿入する際に使用しているプラグインを置き換えることによって、高スループットかつ低コストを実現した話について紹介します。背景 pixivではアクセスログやアプリケーションログ等をBigQueryに収集し、分析できるような仕組みを構築しています。 BigQueryへアクセスログを挿入する際はFluentdとそのプラグインであるfluent-plugin-bigqueryを用いて直接BigQueryへ書き込むようになっていたのですが、その際にログ欠損が起こることが問題となっていました。ログの欠損はピークタイムで発生しており、そのピークタイムのログの流量は概ね毎秒30000logとかなり多く、実際Fluentdのworkerプロセスが1work
- fluentd
- api
- 開発
- あとで読む
Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ
- 34 users
- tech.layerx.co.jp
- テクノロジー
- 2024/07/01
はじめにこんにちは。バクラク事業部機械学習チームの機械学習エンジニアの上川(@kamikawa)です。バクラクではAI-OCRという機能を用いて、請求書や領収書をはじめとする書類にOCRを実行し、書類日付や支払い金額などの項目内容をサジェストすることで、お客様が手入力する手間を省いています。書類から特定の項目を抽出する方法は、自然言語処理や画像認識、近年はマルチモーダルな手法などたくさんあるのですが、今回は項目抽出のための物体検出モデルを構築するまでの手順について紹介します。 Document Layout Analysisとは Document Layout Analysisとは、文書のレイアウトを解析するタスク(直訳)のことを指します。具体的には、文書内のさまざまな要素(例えば、テキスト、画像、表、見出し、段落など)を抽出し、それぞれの位置や意味などを明らかにすることを目的とし
- あとで読む
オブザーバビリティ成熟度の頂点とその先 - 発明のための再発明
- 33 users
- mrasu.hatenablog.jp
- テクノロジー
- 2024/12/23
この記事はMackerel Advent Calendar 2024の23日目の記事ですはじめに世の中には多くのオブザーバビリティ製品が存在しています。オブザーバビリティ(可観測性)の重要性を、多くの会社が訴えています。 Mackerel Advent Calendar 2024にもオブザーバビリティ向上に貢献する話が多く書かれています。筆者がWebアプリケーションエンジニアとして所属しているMackerelも同様です。そんな中、オブザーバビリティの活用度を測る指標として、「オブザーバビリティ成熟度」という言葉を使うことがあります。 New RelicやAWS、Grafanaなど、色々な会社が独自に定義していますが、おおまかに「データを収集している->活用できている->進歩的な手法が実践できている」と進んでいくのは共通しています。では、それらが出来ていればオブザーバビリティを完
ELYZA-tasks-100を人間が解くと何点取れるのか？
- 33 users
- zenn.dev/yuki127
- テクノロジー
- 2024/07/16
と言ってもこの点数が低いのか高いのか分かりませんので、Claude 3.5 Sonnetの点数も見ていきましょう。 Claude 3.5 Sonnetの点数現時点で最強と名高いClaude 3.5 SonnetにもELYZA-tasks-100を解いてもらいます。単純に問題文だけを投げる形で、temperatureは0.8にしました。 import json import anthropic from datasets import load_dataset client = anthropic.Anthropic( api_key="APIキー", ) dataset = load_dataset("elyza/ELYZA-tasks-100") test_set = dataset["test"] results = {} for i, example in enumerate(t
- LLM
- 人工知能
- AI
- あとで読む
What We Learned from a Year of Building with LLMs (Part I)
- 33 users
- www.oreilly.com
- テクノロジー
- 2024/05/30
Join the O'Reilly online learning platform. Get a free trial today and find answers on the fly, or master something new and useful. Learn more It’s an exciting time to build with large language models (LLMs). Over the past year, LLMs have become “good enough” for real-world applications. The pace of improvements in LLMs, coupled with a parade of demos on social media, will fuel an estimated $200B