「Dataset」を検索 - はてなブックマーク

1 - 21 件 / 21件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Datasetの検索結果1 - 21 件 / 21件

データカタログにConnected SheetsやLooker Studioの情報を取り込んでレポートのデータソースを追跡する - LayerX エンジニアブログ
- 7 users
- tech.layerx.co.jp
- テクノロジー
- 2024/06/24
はじめにこんにちは！バクラク事業部機械学習・データ部データチームの@TrsNiumです。弊社では、データの意味やデータの質、データの利活用を一元的に管理することを目的として、データカタログソリューションの一種であるOpenMetadataを導入しました。OpenMetadataを利用することで、様々な種類のデータベースやBI、CRMと連携し、データの管理と可視化を効率化しています。弊社では主にBIツールとしてLooker Studioを使用しています。また、Google SheetsはConnected Sheetsの機能を使い、BigQuery上に構築されたデータ基盤のデータを用いて簡易的にデータ分析や可視化を行うツールとして利用しています。しかし、これらのツールはOpenMetadataのビルトイン機能ではサポートされていませんでした。そのため、データ変更時の影響範囲の把握や
Small Language Models: The Future of AI? Insights from Microsoft's Phi-3 Creators
- 2 users
- www.turingpost.com
- テクノロジー
- 2024/06/26
Hi there! If you like Turing Post, please consider to support us today Last year, with the paper "Textbooks Are All You Need," Microsoft introduced the smaller language model (SLM) Phi and broke existing scaling laws, demonstrating that high-quality data alone can be enough to build a model that can compete with much larger models. In less than a year, at Build 2024, they introduced additional Phi
- AI
- あとで読む
Updated Report to the U.S. Congress on Financing Mechanisms for Open Access Publishing of Federally Funded Research
- 2 users
- www.whitehouse.gov
- テクノロジー
- 2024/06/26
UPDATED REPORT TO THE U.S. CONGRESS ON FINANCING MECHANISMS FOR OPEN ACCESS PUBLISHING OF FEDERALLY FUNDED RESEARCH A Report by the WHITE HOUSE OFFICE OF SCIENCE AND TECHNOLOGY POLICY JUNE 2024 UPDATED REPORT TO THE U.S. CONGRESS ON FINANCING MECHANISMS FOR OPEN ACCESS PUBLISHING OF FEDERALLY FUNDED RESEARCH 2 Contents About this Report .............................................................
PyTorchを使ったDeep Learningのお勉強画像処理編【ノイズ除去実験】 - konchangakita
- 1 user
- konchangakita.hatenablog.com
- テクノロジー
- 2024/06/22
基本的な画像認識はなんとなくできたので、ここからは応用編ですせっかく実装してみたCNNを応用して、オートエンコーダ（自己符号化器）にチャレンジしてみたいと思いますというわけで、今回はDAE（Denoising Autoencoder）とよばれる、画像からノイズ除去に挑戦です ⅰ）入力された画像をCNN畳み込み処理で重要な特徴をとりだし、 ⅱ）重要な特徴を捉ええたフィルタが作られ ⅲ）このフィルタで復元する過程で邪魔な画素（ノイズ）は取り除かれ、 ⅳ）ノイズの無い画像が完成！（元の画像荒いのは、32x32 pixelで軽いから使っているのです） ※先に言い訳を書いておきますが、今回試す手法以外にに良い手法（or学習モデル）はたくさんあります！ ※今回はあくまで独学でできるDAEに挑戦し、 Python / PyTorch の Deep Learning コーディング能力向上のお勉強用で
【初心者向け】RAG評価フレームワーク Ragasを必要最低限で使ってみる | SIOS Tech. Lab
- 1 user
- tech-lab.sios.jp
- テクノロジー
- 2024/06/26
こんにちは、サイオステクノロジーの佐藤陽です。今回は、RAGの評価ツールであるRagasの紹介をしたいと思います。 RAGに限らずですが、生成AIを使ったアプリは評価が難しいとよく言われます。 RAGに関しては、RagasというOSSが評価用のフレームワークが存在しており、OpenAI社の発表でも紹介されていました。そこで今回は、「Ragasをとりあえず使ってみる！」というコンセプトで記事を書いていきたいと思います。 RAGを作ってみたはいいものの、システムの精度が分からない Ragas使ってみたいけど使い方がいまいち分からないといった方は、ぜひ最後までご覧ください！はじめに Ragasも既に色々なところで紹介されているのですが、複雑なユースケースに組み込まれていたりしているケースも多くありました。そこで Ragas単体の挙動や使い方を知りたい！とりあえずミニマムな感じで使
k-foldクロスバリデーションを用いたロジスティックLasso回帰[R] - 井出草平の研究ノート
- 1 user
- ides.hatenablog.com
- 世の中
- 2024/06/22
従属変数が連続変数のLasso回帰を今まで紹介してきたが、今回は従属変数が2値、つまりロジットモデルのLasso回帰の例を示す。使用するのは心臓病のデータである。データの作成 # データの読み込み（heart disease datasetを使用） url <- "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data" column_names <- c("age", "sex", "cp", "trestbps", "chol", "fbs", "restecg", "thalach", "exang", "oldpeak", "slope", "ca", "thal", "num") heart_data <- read.csv(url, he
【GA4 SQL】ページごとのページビュー数をBigQueryから集計
- 1 user
- sem-report.com
- テクノロジー
- 2024/06/24
日次のページごとのページビュー数をBigQueryから集計するクエリについて解説する。ページビュー数はそれ自体を単体でモニタリングすることもあるが、ページへとドリルダウンしページビュー数の推移を追うことで個々のページの閲覧数の推移に大きな変動が起きていないかをチェックできるため、改善アクションにつなげるための示唆が得やすくなる。GA4の探索ではページビュー数は「表示回数」と表示されているが同じ意味である。ページごとのページビュー数を日別で取得するクエリ WITH Pagelocation_PV AS ( SELECT ymd, page_location, COUNT(*) AS _pv FROM ( SELECT PARSE_DATE("%Y%m%d", event_date) AS ymd, REGEXP_REPLACE((SELECT value.string_value FROM
窓の下に3秒立つだけで物が買える真のウィンドウショッピングを実現する「DropOfAHat Zone」をAIを用いて開発した猛者が現る
- 1 user
- gigazine.net
- テクノロジー
- 2024/06/25
エンジニアのジェームズ・スタインバーグ氏が、窓の外を歩いている人の頭上をAIで検出して自動で帽子を落とす「DropOfAHat Zone」を開発しています。スタインバーグ氏はこのシステムが真のウィンドウショッピングにつながると指摘し、「DropOfAHat Zoneを使えば忙しいニューヨーカーでもわずか1分で買い物を楽しめる」と豪語しました。 I am using AI to automatically drop hats outside my window onto New Yorkers https://dropofahat.zone/ ニューヨーク市の中心部で暮らすスタインバーグ氏は、「8階か9階くらいにある高さの窓から誰かがパラシュートのついた荷物(鍵)を落とし、建物の下にいた人が落ちたものを拾って建物に入っていく様子」を見たことから、「窓の外に人が来たら帽子を落とす」というDro
Vertex AI Pipelines で利用している Kubeflow Pipelines を v2 へ移行しました - Commune Engineer Blog
- 1 user
- tech.commune.co.jp
- テクノロジー
- 2024/06/24
こんにちは，コミューンで機械学習エンジニアとして働いている柏木（@asteriam_fp）です．最近は，鬼滅の刃の柱稽古編が毎週日曜日に放送されていて，それを見て楽しんだ勢いで月曜日からの仕事も勤しんでいます！（無限城編も楽しみです）はじめに現在我々のチームでは，Google Cloud 上の Vertex AI Pipelines 上で機械学習パイプライン（バッチレコメンド等で利用中）を動かしています．その裏側では，Kubeflow Pipelines (KFP) を利用していますが，このライブラリ（フレームワーク）が2023年6月にバージョン2.0をリリースしました．以前まで使用していたバージョン1.8は2024年12月にサポートが終了してしまいます．これに伴い我々のチームでもバージョン2.0への移行対応を実施したため，本ブログではその内容を紹介したいと思います． https:
マルチヘッドな深層学習モデル。Mixture of Experts (MoE) Mamba。 - Qiita
- 1 user
- qiita.com/muratasub70
- テクノロジー
- 2024/06/23
このコードは、テキストデータを使って深層学習モデルをトレーニングし、次の単語を予測するテキスト生成モデルを構築しています。以下はコードの詳細な解説です。ハイパーパラメータの設定トレーニングのためのハイパーパラメータを設定します。データセットの作成連続する単語のシーケンスを生成し、次に来る単語をターゲットとして設定します。カスタムレイヤーの定義 SiLU (Swish) 活性化関数 SiLUは活性化関数の一つで、最近の深層学習モデルでよく使われます。（sigmoid で代用しています。） Gated Attention Unit これは自己注意機構を取り入れたレイヤーで、入力に対してゲート機構を使って重要な部分を強調します。 MLPBlock これは多層パーセプトロン（MLP）ブロックで、通常の全結合ニューラルネットワークのブロックです。 Mixture of Experts (M
アノテーションルールはどう作られるのか　顔検出を例に - Qiita
- 1 user
- qiita.com/nonbiri15
- テクノロジー
- 2024/06/27
画像認識を機械学習で開発することとなって、どのような実装を開発するか決まったとき、次に決める必要があるものの１つは、アノテーションルールを明らかすることだ。顔検出の場合 Haar-Cascade 検出器の時代 Haar-Cascade 検出器で、正面顔の検出器の場合には、両目のそれぞれの目の中央の位置を基準として、正方形の領域を顔位置として検出するものが多かった。 https://docs.opencv.org/3.4/db/d28/tutorial_cascade_classifier.html それらに対して、一定のルールで回転画像を加えて学習させており、基本は、両目の位置が水平になっている画像が基本になっていた。両目の位置を基準に正規化するやりかたでは、大人の顔と子どもの顔で、口の位置が違ってくるという課題を生じる。子どもの顔は大人の顔に比べて丸っこく、両目の位置で正規化する
- あとで読む
人文系（哲学）大学教員のためのRによる成績評価方法（α版） - 餡子付゛録゛
- 1 user
- uncorrelated.hatenablog.com
- 学び
- 2024/06/25
最近は理工系はもちろん、社会科学系の大学教員も研究で統計解析をしていることが多いので、Rで成績評価する方法を解説しても需要はあまり無さそうな気もするのですが、人文系でニーズがあるようなので。名簿と試験の成績とレポートの評価の3つのCSVファイルがあるとして、それをつないで総合得点と成績を出し、基本統計量を出すところまでやってみましょう。なお、データは完全に架空のものです。ファイルの読み込みデータフレームの結合成績をつける総合点をつける評価をつける成績の保存成績の検索集計学部ごとの平均点学部ごとの最低点、平均点、最高点学部ごとのレポート評価の頻度プロット計量分析被説明変数が基数データ被説明変数が序数データおまけ（tidyverse）回帰分析とプロットまとめファイルの読み込み今回はウェブサイトに置いてあるファイルを読み込みますが、実際の場合はURLでは
BigQuery への Cloud Billing データのエクスポートを設定する | Google Cloud
- 1 user
- cloud.google.com
- テクノロジー
- 2024/06/27
フィードバックを送信 BigQuery への Cloud Billing データのエクスポートを設定するコレクションでコンテンツを整理必要に応じて、コンテンツの保存と分類を行います。このガイドでは、BigQuery への Cloud Billing データのエクスポートを有効にするために必要なすべての設定手順を説明します。 Cloud Billing データを BigQuery にエクスポートするには、次の手順を行います。 Cloud Billing データを保存するプロジェクトを作成し、そのプロジェクトで課金を有効にします（まだ行っていない場合）。プロジェクトと Cloud 請求先アカウントで権限を構成します。 BigQuery Data Transfer Service API を有効にします（料金データのエクスポートに必要です）。データを保存する BigQuery データセ
Looker Studioで組織内に魔境を作らないための裏技的Tips集 - Qiita
- 1 user
- qiita.com/SoySoySoyB
- テクノロジー
- 2024/06/22
はじめに Looker StudioはGoogleが無料で提供しているBIツールです。無料でもかなりの機能が揃っており、BIの活用にあたっては大変重宝する存在になっています。ただし、以前「後回しにするとどうしようもなくなる（かもしれない）Looker Studioの権限を理解する」で整理したように、組織管理という観点で難があるのは事実です。それは例えば、レポートを組織的に管理する機能がなかったり、Google CloudのIAMを利用した権限管理ができなかったりすることが挙げられます。Looker Studio Proという有償版のサービスでは、こうした組織管理を円滑にするような機能拡充がされています。とはいえ、実は様々なデータをフル活用すると無料版でもできることは多くあります。今回は、そんな裏技的Tipsを5つ紹介しようと思います。こんな方におすすめ Looker Studioの組
- あとで読む
ChatGPTのAIモデルをFine-tuningしてみた - Qiita
- 1 user
- qiita.com/saika-magoichi
- テクノロジー
- 2024/06/25
1.はじめに本記事では、Fine-tuningを試した内容をまとめています。 OpenAIが開発したAIであるChatGPTでもFine-tuningの機能が提供されているのでそちらを使用しています。本記事の目標は以下の通りです。・OpenAIのコンソール上でFine-tuningを実施し、語尾や口調を変化させること。 2.Fine-tuningとは Fine-tuningとは、大量のデータで事前学習されたモデル（事前学習済みモデル）に対して、解きたいタスクに応じたデータを追加で学習させ、パラメータを微調整することを指します。 Fine-tuningを行うことで特定の目的に特化させ、その特定分野に関しては回答の精度を上げることができます。 3.準備作業本記事ではOpenAIを使用していますので、OpenAIのアカウントが必要になります。アカウントの作成方法については、他の方が記事
BigQueryを利用したアプリケーションのローカルテスト
- 1 user
- zenn.dev/carenet
- テクノロジー
- 2024/06/25
BigQueryを利用するアプリケーションの開発時に、データベースの操作をどのようにテストするかが課題となります。その際の主な選択肢は下記となります。 BigQueryのモックを作成してローカルでテストするテスト用のBigQuery環境を用意してGCP上でテストする bigquery-emulatorを利用してローカルでテストする 1. BigQueryのモックを作成してローカルでテストする概要 BigQueryの操作をモック化し、テスト時に実際のBigQueryに接続せずにテストを行う方法です。メリットテストの実行が高速外部サービスに依存しないため、安定したテスト環境を構築可能ネットワーク接続不要デメリット実際のBigQueryの動作と異なる場合があるため、信頼性が低い複雑なクエリや大規模データセットのテストが難しい 2. テスト用のBigQuery環境を用意してGCP
Rails: APIレスポンスに応じたエラーページ表示を自動化する（翻訳）｜TechRacho by BPS株式会社
- 1 user
- techracho.bpsinc.jp
- テクノロジー
- 2024/06/24
概要元サイトの許諾を得て翻訳・公開いたします。英語記事: How we automated displaying error pages based on API responses - BigBinary Blog 原文公開日: 2024/05/28 原著者: Farhan CK エラー処理は、ソフトウェアを構築するうえで重要な側面のひとつです。弊社では、エラーページの表示を可能な限り自動化して、対処方法を統一できるようにしています。この作業を自動化することで、弊社のプロダクトエンジニアは本来の業務である高品質なソフトウェアのリリースに専念できるようになりました。本記事では、私たちのneetoアプリケーションで用いているエラーページの処理や表示を自動化する方法について解説します。本題に入る前に、私たちが大きく依存している2つのnpmパッケージであるAxiosとZustandについ
- rails
SVGをURLエンコードし、CSSのbackground-imageプロパティの値に設定して出力するツールを公開しました。 - Qiita
- 1 user
- qiita.com/Simmon
- テクノロジー
- 2024/06/24
SVGをURLエンコードし、CSSのbackground-imageプロパティの値に設定して出力するツールを公開しました。HTMLCSSJavaScriptSVG SVGをCSSのbackground-imageで使えるようにエンコードするツールコピペするだけで使えます。 JSでのSVGのURLエンコードはencodeURIComponent()を使う人が多いみたいですが、それだとファイルサイズが大幅に増えてしまうので、自前で必要なものだけエンコードする形にしました。機能リアルタイムプレビュー背景色変更 svg以外のタグが入っていた場合、自動削除ネームスペースがない場合、自動付与改行、スペース、コメントアウトを自動削除 <div id="entry"> <div id="stbic"> <div id="stbic-forms"> <div id="stbic-svg"> <
即効性重視: Power BIのベストプラクティス② - テクテク日記
- 1 user
- marshal115.hatenablog.com
- テクノロジー
- 2024/06/24
前回と少し重複する箇所があるかもしれませんが、今回はさらに具体例を交えながらモデリングのベストプラクティスについて探っていきたいと考えています（一部は重要な補足も含まれています）。重要な基礎項目データモデルの確認 DAXの最適化スケール戦略ディメンションテーブルのボトルネックハードウェアセレクション最後に重要な基礎項目列削除これを行うだけでセマンティックモデルのデータサイズの圧縮に貢献できる計算列の使用 10万、20万行の場合は問題ないが、億単位の行がある場合、計算列は良いアイデアではないユニーク値が多い列に注意行数が多いのは構わない。しかし、ユニーク値が多い列があると留意が必要。例えば、1列に3,000万行もユニーク値があった場合、Power BI セマンティックモデルのリレーションシップのコストが非常に高くなってしまう。ここで重要なことは、データの分布についてD
Google Workspace レポートと監査ログを解説！プランによって何が違う？ - G-gen Tech Blog
- 1 user
- blog.g-gen.co.jp
- テクノロジー
- 2024/06/23
こんにちは G-gen の渡邉@norry です。 Goole Workspace を運用する際に管理者が特に気になる事の一つとして、セキュリティー関連のレポートや監査ログがあるかと思います。常日頃のガバナンス管理、有事の際での証跡として...今回は Google Workspace でどういったログが取れるのかのご案内と、プランによっては取得出来ないログもありますのでその点にも触れます。 Google Workspace の機能比較やプラン一覧はこちらをご覧ください。 blog.g-gen.co.jp レポートレポートの表示方法レポートの種類監査ログ監査ログの表示 Google Workspace で利用可能な監査ログプラン別の違い Google Workspace プラン別項目一覧ログ出力のタイムラグ保持期限ログのエクスポートエクスポートについてスプレッドシート、
Jax と PyTorch 用の TFDS | TensorFlow Datasets
- 1 user
- www.tensorflow.org
- テクノロジー
- 2024/06/22
Jax と PyTorch 用の TFDS コレクションでコンテンツを整理必要に応じて、コンテンツの保存と分類を行います。 TFDS は常にフレームワーク非依存型でした。たとえば、NumPy 形式のデータセットを簡単に読み込んで、Jax と PyTorch で使用することができます。 TensorFlow とそのデータ読み込みソリューション（tf.data）は、設計上、API の第一級市民です。 TensorFlow を使用せずに NumPy のみでデータを読み込めるように、TFDS を拡張しました。これは、Jax や PyTorch などの ML での使用に便利であり、実際に PyTorch ユーザーの場合、TensorFlow では以下のことが発生する可能性があります。 GPU/TPU メモリの予約 CI/CD でのビルド時間の長期化ランタイム時のインポートの長期化 Tensor