「Dataset」を検索 - はてなブックマーク

361 - 400 件 / 2892件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Datasetの検索結果361 - 400 件 / 2892件

OWASP Top 10:2021
- 33 users
- owasp.org
- テクノロジー
- 2021/09/09
Introduction Welcome to the OWASP Top 10 - 2021 Welcome to the latest installment of the OWASP Top 10! The OWASP Top 10 2021 is all-new, with a new graphic design and an available one-page infographic you can print or obtain from our home page. A huge thank you to everyone that contributed their time and data for this iteration. Without you, this installment would not happen. THANK YOU! What's cha
ディープラーニングで高性能な手の検出器を簡単に作る方法 - Qiita
- 33 users
- qiita.com/karaage0703
- テクノロジー
- 2019/08/16
はじめにとある目的で、ディープラーニングで手を検出したいなと思いやってみました。最初は1から学習して全然性能が出なくて、絶望していたのですが学習済みモデルを使うことで簡単に高性能な検出器を手に入れることができました。頼るべきはネットの集合知ですね。特に@KzhtTkhsさんの以下ツイートに助けられました。意外と無い不思議🐤 EgoHand Datasetを利用した以下の実装とかならあります🐤🐤https://t.co/h6U7ZENZI2 ハンドサインまでいれるとまず無いので、いつも自作しています……🐤🐤🐤 — 高橋かずひと@リベロ拝命🐤 (@KzhtTkhs) August 15, 2019 ネットに助けられたので、簡単に作りかたを記事にまとめてネットの海に放流いたします。写真では1つの手ですが、原理的には、複数の手でも検出可能です（両手の検出までは自分でも確認してい
BigQueryにおけるポリシータグを用いた秘密情報管理とデータ連携の仕組み - ZOZO TECH BLOG
- 33 users
- techblog.zozo.com
- テクノロジー
- 2022/02/18
こんにちは、データ基盤の開発・運用をしている谷口（case-k）です。本記事では、BigQueryで秘密情報を守るためのリソースである、ポリシータグをご紹介します。ポリシータグの概要から採用理由、仕様を考慮したデータ連携の仕組みや運用における注意点まで幅広くお伝えします。ポリシータグとはポリシータグを採用した理由匿名化による機密性の高さ機密性と利便性の両立データ基盤を保守運用しやすい秘密情報をテーブルに新規追加しやすい秘密情報の権限管理がしやすいポリシータグを活用したデータ連携の仕組み利用者が参照するデータ連携後のテーブル 2つのデータ連携基盤日次データ連携基盤基幹DBからBigQuery(Private)へのロード BigQuery公開環境への書き込みリアルタイムデータ連携基盤 BigQueryロード前にマスクしたカラムを追加 BigQueryへのストリーミング
- BigQuery
- security
- cloud
- google
- あとで読む
OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開
- 33 users
- gigazine.net
- テクノロジー
- 2024/05/29
2019年に公開されるやいなや「危険すぎる」と話題になったOpenAIの「GPT-2」を、ゼロから作成したレポートが公開されました。作成にかかった時間は、1時間14ドル(約2200円)のクラウドコンピューティングサービスで1時間半だったため、総コストは約20ドル(約3100円)に収まっています。 Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481 · GitHub https://github.com/karpathy/llm.c/discussions/481 # Reproduce GPT-2 (124M) in llm.c in 90 minutes for $20 ✨ The GPT-2 (124M) is the smallest model in t
- LLM
- 人工知能
- 機械学習
- あとで読む
- AI
Weights & Biases: The AI Developer Platform
- 33 users
- wandb.ai
- テクノロジー
- 2019/11/02
Build models faster, fine-tune LLMs, develop GenAI applications with confidence, all in one system of record developers are excited to use.
GitHub - lm-sys/FastChat: An open platform for training, serving, and evaluating large language models. Release repo for Vicuna and Chatbot Arena.
- 33 users
- github.com/lm-sys
- テクノロジー
- 2023/03/31
| Demo | Discord | X | FastChat is an open platform for training, serving, and evaluating large language model based chatbots. FastChat powers Chatbot Arena (https://chat.lmsys.org/), serving over 10 million chat requests for 70+ LLMs. Chatbot Arena has collected over 500K human votes from side-by-side LLM battles to compile an online LLM Elo leaderboard. FastChat's core features include: The trai
- ChatGPT
- MachineLearning
- LanguageModel
- github
- AI
- 機械学習
- Software
Minigpt-4
- 33 users
- minigpt-4.github.io
- テクノロジー
- 2023/04/17
MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models The recent GPT-4 has demonstrated extraordinary multi-modal abilities, such as directly generating websites from handwritten text and identifying humorous elements within images. These features are rarely observed in previous vision-language models. We believe the primary reason for GPT-4's advanced multi-modal
- AI
- あとで読む
- 人工知能
- image
日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ！ - CARTA TECH BLOG
- 33 users
- techblog.cartaholdings.co.jp
- テクノロジー
- 2020/10/07
3行まとめ背景データの流れそのままコピーするだけのLambda 外部テーブルを使おうゆるふわをゆるふわのまま扱う JSON Linesを1カラムのレコードとして取り込む定期的に外部テーブルにクエリして結果を保存するまとめ 3行まとめ BigQueryはいいぞ外部テーブルはすごいぞ Scheduled Queryも便利だぞこんにちは。ひむ（@himu）です。株式会社fluctでエンジニアとして働いていたり、ボルダリングしたりガチャを回したり健康で文化的な生活をしています。 fluctはインターネット広告プラットフォームのサービスなどを提供しており、毎日億単位の大量のイベントログが発生しています。イベントログには、売上の計算に必要なデータから、アプリケーションを改善する上で必要なデータなど、様々なデータが入り混じっており、情報が追加されることも度々あります。今回は、そんな
- BigQuery
- あとで読む
- GCP
- aws
「500年後に日本人が佐藤だけになる」という試算の問題と改善 - ill-identified diary
- 33 users
- ill-identified.hatenablog.com
- テクノロジー
- 2024/04/21
この記事の要約はじめに問題点の要約 (追記) 先行研究について GARCH(っぽい)モデルによるシミュレーションシミュレーション前の理論分析選択的夫婦別姓との比較 (追記) ゴルトン゠ワトソン分枝過程について使用するデータシミュレーションの技術的な補足乱数生成について GARCHモデルの結果シミュレーションの追試より複雑なシミュレーションについて男女別世代重複創作苗字三親等の婚姻禁止ルールより高度な人口学的モデル結論 2024/4/22: 先行研究とゴルトン゠ワトソン分枝過程の解説の追記 2024/4/23: 多数の言い回しのおかしい箇所の校正 2024/4/24: グラフ上の記載ミスとグラフ描画コードを修正この記事の要約先日報道された「500年後に日本人が佐藤だけになる」という試算の内容に違和感を覚えた. 資料を確認してみると, 大きな問題のある方法で試
- 佐藤
- シミュレーション
- 謎
- AI
- IT
- これはすごい
- 社会
- あとで読む
Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ
- 33 users
- tech.layerx.co.jp
- テクノロジー
- 2024/07/01
はじめにこんにちは。バクラク事業部機械学習チームの機械学習エンジニアの上川(@kamikawa)です。バクラクではAI-OCRという機能を用いて、請求書や領収書をはじめとする書類にOCRを実行し、書類日付や支払い金額などの項目内容をサジェストすることで、お客様が手入力する手間を省いています。書類から特定の項目を抽出する方法は、自然言語処理や画像認識、近年はマルチモーダルな手法などたくさんあるのですが、今回は項目抽出のための物体検出モデルを構築するまでの手順について紹介します。 Document Layout Analysisとは Document Layout Analysisとは、文書のレイアウトを解析するタスク(直訳)のことを指します。具体的には、文書内のさまざまな要素(例えば、テキスト、画像、表、見出し、段落など)を抽出し、それぞれの位置や意味などを明らかにすることを目的とし
- あとで読む
心電図データ×機械学習まとめ
- 33 users
- medium.com
- テクノロジー
- 2021/02/16
2021年1月27日、watchOSのアップデートに伴い、日本でもApple Watchの心電図（Electrocardiogram、ECG）機能が利用できるようになりました。 https://www.apple.com/jp/newsroom/2021/01/ecg-app-and-irregular-rhythm-notification-coming-to-apple-watch/ 日本ではスマートウォッチで心電図機能が使えるようになったのはこれが初めてだと思うのですが、海外ではApple Watch以外にもFitbitなども心電図機能に対応しています。心電図が身近なものになることによって、こちらを利用して病気の検知であったり介入であったりといった研究が更に進むのではないかと予想されるので、今回は機械学習の心電図データへの応用についてまとめてみたいと思います。心臓の拍動と心電図の
OpenCALM-7BをLoRAでFine tuningして対話ができるようにする｜masuidrive
- 33 users
- note.com/masuidrive
- 暮らし
- 2023/05/25
ちょっと出遅れたけど、サイバーエージェントが出したGPT-NeoXベースのLLM、OpenCALM-7BをGoogle Colab上でLoRA使ってFine tuningをしてみました。とりあえず対話を試したい人masuidrive/open-calm-instruct-lora-20230525-r4-alpha16-batch32-epoch1 に1 epoch回したLoRAを置いておきます。 Google Colabで試したい人はV100やA100のハイメモリで動かしてください。OpenCALM-7Bのshardが10GB単位なため、12GBの標準メモリでは動きません。transformersのloaderがもう少し賢ければ、T4の標準メモリでも動くと思うんだけど・・・なぜFine tuningをするのかOpenCALM-7Bは基礎モデルなので日本語やWikiPediaの内容など
100+ Best GitHub Repositories For Machine Learning
- 33 users
- www.theinsaneapp.com
- テクノロジー
- 2021/09/21
There are millions of github repos and filtering them is an insane amount of work. It takes huge time, efforts and a lot more. We have done this for you. In this article we’ll share a curated list of 100+ widely-known, recommended and most popular repositories and open source github projects for Machine Learning and Deep Learning. So without further ado, Let’s see all the hubs created by experts a
Core Web Vitals workflows with Google tools | Articles | web.dev
- 33 users
- web.dev
- テクノロジー
- 2020/05/29
Core Web Vitals workflows with Google tools Stay organized with collections Save and categorize content based on your preferences. Combine Google tools to audit, improve and monitor your website effectively. Core Web Vitals are a set of metrics that assess the user experience on criteria such as load performance, responsiveness to user input, and layout stability. A workflow for improving Core Web
- performance
- chrome
- browser
- あとで読む
- Tools
- SEO
- article
- webservice
Transformer モデルの仕組みを JAX/Flax で実装しながら解説してみる（パート１） - めもめも
- 32 users
- enakai00.hatenablog.com
- テクノロジー
- 2023/02/10
なんの話かと言うと最近、大規模言語モデルを用いたチャットシステムがよく話題になりますが、言語モデルの性能が大きく向上するきっかけとなったのが、下記の論文で公表された「Transformer」のアーキテクチャーです。 arxiv.org ここでは、JAX/Flax を用いて Transformer を実装しながら、その仕組みを解説していきます。このパート1では、Embedding レイヤーを解説します。 JAX/Flax の使い方を学びたいという方は、こちらの書籍を参照してください。 JAX/Flaxで学ぶディープラーニングの仕組み作者:中井悦司マイナビ出版Amazon Transformer の全体像冒頭の論文では、Transformer Encoder と Transformer Decoder を組み合わせた下記のモデルが説明されています。左側の Encoder でテキストを解
- 機械学習
- あとで読む
Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
- 32 users
- qiita.com/peisuke
- テクノロジー
- 2020/12/23
ABEJAアドベントカレンダー2020の19日目の記事です。この記事は何？結局AIって何個データ必要なの？ってよく聞かれると思います。そんなん知るかこの記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ！ってツッコミも歓迎です。あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い結果を出すことが出来ないこともない。が、最新技術とはいえ銀の弾丸ではないのが通常で、例えlightweightGANがでたからと言って、100枚で学習できます！とか勝手に広がると困っちゃう。色んなタスクにおいて、まぁ大体どんなタスクも一般的にはこんなもんよっ
東京都、多摩・島しょ地域の3次元点群データを無料公開。「デジタルツイン実現プロジェクト」の一環で
- 32 users
- gamemakers.jp
- アニメとゲーム
- 2023/09/05
東京都、多摩・島しょ地域（小笠原諸島を除く）の3次元点群データをオープンデータとして公開「東京都オープンデータカタログサイト」「東京都デジタルツイン3Dビューア」にて掲載されている DSM、グリッドデータ、微地形表現図など9種類のデータを含んでいる 2023年9月1日（金）、東京都は「デジタルツイン実現プロジェクト」推進の一環として、多摩・島しょ地域（小笠原諸島を除く）の3次元点群データをオープンデータとして公開しました。東京都 #デジタルツイン実現プロジェクト多摩・島しょ地域の点群データ公開！公開された航空レーザ測量の点群データでは、国内最高精度！https://t.co/CqguzZBoZu ✅公開データ(計9種) 地表面データ(DSM),グリッドデータ(0.25m),微地形表現図(0.25m)など#東京丸ごとスキャン #東京点群 pic.twitter.com/nVkGRMA
- GIS
- あとで読む
- 地図
- 統計
- 3d
Vertex AIを活用したMLOps基盤の作成 | CyberAgent Developers Blog
- 32 users
- developers.cyberagent.co.jp
- テクノロジー
- 2023/06/24
みなさんどうもこんにちは、AI事業本部の「極予測TD」というプロダクトで2023年2月から2ヶ月間、機械学習エンジニアとしてインターンシップ「CA Tech JOB」に参加させていただいた、高橋駿一と申します。本記事では、インターンシップで行った、MLOps基盤の開発についてご紹介します。極予測TDとは極予測TDとは、レスポンシブ検索広告（RSA）を自動生成する「広告テキスト自動生成AI」と、広告配信効果を事前に予測する「効果予測AI」を掛け合わせることで、効果的なRSAを制作するプロダクトです。本インターンシップでは、効果予測AIのMLOpsに取り組みました。背景チームに参加した際、以下のような状況にありました。複数の予測モデルが運用されているうち、一部、MLパイプラインが未実装のものがあった上記モデルはリリース当初からモデルが更新されていなかったが、時間が経過したことでデ
- MLOps
- gcp
- あとで読む
- 開発
- ai
- 技術
- 仕事
プログラミング不要でモデルの評価までできる！ Azure Machine Learning Studioで機械学習をしてみた | Ledge.ai
- 32 users
- ledge.ai
- テクノロジー
- 2021/01/02
TOP > Article Theme > やってみた > プログラミング不要でモデルの評価までできる！ Azure Machine Learning Studioで機械学習をしてみた「Azure Machine Learning Studio (クラシック)」はMicrosoft Azureの機械学習サービスであり、ブラウザ上でさまざまな機械学習のモデルを作成できます。今回は本サービスを使って、ノーコードで機械学習を試してみました。 1.ワークスペースを作成するまず、Microsoftのアカウントを作成し、Azureにログインします。検索欄に「machine learning」と入力すると候補が出るので、「Machine Learning Studio ワークスペース」を選択します。ここで、「Machine Learning Studio ワークスペースの作成」をクリックします。各
RAGs powered by Google Search technology, Part 1 | Google Cloud Blog
- 32 users
- cloud.google.com
- テクノロジー
- 2024/02/13
When a large language model (LLM) doesn’t have enough information or has no contextual knowledge of a topic, it is more likely to hallucinate and provide inaccurate or false responses. Developers are increasingly excited about generative AI and Retrieval Augmented Generation (RAG) — an architecture pattern that combines LLMs with backend information retrieval from other information sources. This a
- RAG
- AI
- LLM
- GCP
- あとで読む
- search
- google
大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part2
- 31 users
- zenn.dev/turing_motors
- テクノロジー
- 2023/07/24
はじめに Turing 株式会社リサーチチームの藤井(@okoge_kaz)です。 Turingでは、自動運転を支える技術のひとつとして大規模言語モデル(Large Language Model: LLM)に注目しており、関連する技術の研究開発を行っています。つい先日、大規模言語モデルの事前学習を行う際に用いられることが多いmicrosoft/Megatron-DeepSpeedが大きくupdateされました。(日本時間 2023/6/13, 2023/7/21に大きな変更がありました。) 具体的には、fork元であるNVIDIA/Megatron-LMの最新の変更を取り込むことを行ったようです。セットアップ方法は以下の記事で紹介している通りで、変化はないのですが、Job Scriptの引数や、新機能を使用するためのTipsなど補足するべきことが多数存在します。そのため、今回は前回の
Shinnosuke Takamichi (高道慎之介) - jvs_corpus
- 31 users
- sites.google.com
- エンタメ
- 2019/08/17
This corpus consists of Japanese text (transcripts) and multi-speaker voice data. The specification is as follows. 100 professional speakers Each speaker utters: "parallel100" ... 100 reading-style utterances that are common among speakers "nonpara30" ... 30 reading-style utterances that are completely different among speakers "whisper10" ... 10 whispered utterances "falsetto10" ... 10 falsetto ut
- 日本語
- 言語
- research
- dataset
- データ
- 研究
Building Netflix’s Distributed Tracing Infrastructure
- 31 users
- netflixtechblog.com
- テクノロジー
- 2020/10/20
“@Netflixhelps Why doesn’t Tiger King play on my phone?” — a Netflix member via Twitter This is an example of a question our on-call engineers need to answer to help resolve a member issue — which is difficult when troubleshooting distributed systems. Investigating a video streaming failure consists of inspecting all aspects of a member account. In our previous blog post we introduced Edgar, our t
- netflix
- tracing
- Observability
- microservices
- distributed
- infrastructure
- あとで読む
- web
- data
Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される
- 31 users
- gigazine.net
- テクノロジー
- 2023/08/21
デンマークの著作権侵害対策グループ「Rights Alliance」が、約20万冊にも上る書籍のデータセット「Books3」を削除するよう、ホストする「The Eye」に対して要請し、データセットの削除が行われました。Books3はMetaの開発する大規模言語モデル「LLaMA」のトレーニングにも使用されたデータセットです。 Anti-Piracy Group Takes Prominent AI Training Dataset ''Books3' Offline * TorrentFreak https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/ Revealed: The Authors Whose Pirated Books Are P
- meta
- AI
- 人工知能
- Copyright
- 著作権
- book
BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する
- 31 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/01/23
はじめにこんにちは、Google Cloud Partner Top Engineer 2024 を受賞いたしました、クラウドエースデータソリューション部の松本です。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する方法についてご紹介します。この記事はこんな人にオススメ BigQuery の SQL のみで LLM を使った問合せシステムを構築したい BigQue
- BigQuery
- LLM
- RAG
- gcp
- AI
画像生成AI「Stable Diffusion」などに使われた50億枚超の画像セット「LAION-5B」に1008枚の児童ポルノ画像が入っていることが判明し削除へ
- 31 users
- gigazine.net
- テクノロジー
- 2023/12/21
スタンフォード大学インターネット天文台(SIO)の調査により、画像生成AI「Stable Diffusion」などのトレーニングに利用されているオープンデータセットの「LAION-5B」に、児童性的虐待画像(CSAM)が含まれていることが明らかになりました。CSAMの疑いのある画像は3226枚で、そのうち1008枚が外部機関の検証によりCSAMであると確認されました。 Investigation Finds AI Image Generation Models Trained on Child Abuse | FSI https://cyber.fsi.stanford.edu/io/news/investigation-finds-ai-image-generation-models-trained-child-abuse Largest Dataset Powering AI Imag
- AI
- 人工知能
- 画像
- web
LLM開発のためのデータエンジニアリング - Qiita
- 31 users
- qiita.com/cvusk
- テクノロジー
- 2023/12/24
LLM開発のためのデータエンジニアリング MLOps Advent Calendar 2023の24日目です。 Stability AIでデータ系のソフトウェアエンジニアをやっているcvuskです。主な仕事は日本語LLMのためのデータ開発です。Stability AIでは日本語LLMも各種開発しています。LLMの学習というと大量のGPUを用意して巨大なデータでモデルを学習する、というキラキラしたイメージ（？）が強いかもしれませんが、データが重要かつ苦労が耐えない課題であることは他の機械学習やディープラーニングモデルと違いありません。日本語のテキストデータは英語ほど入手しやすいわけではないのと同時に、データエンジニアリングや品質面でもいろいろと大変なことが多々あります。今回はLLMのためのテキストデータの用途やエンジニアリングについて整理します。 LLMの学習 LLMの学習は大きく分けて事前
- LLM
- データ
- あとで読む
- qiita
- data
- 資料
- 開発
Qlibを使った機械学習パイプライン環境の構築　投資の取引戦略最適化と機械学習モデル作成の省力化を目指して - 株のシステムトレードをしよう - 1から始める株自動取引システムの作り方
- 31 users
- how-to-make-stock-trading-system.dogwood008.com
- テクノロジー
- 2023/06/01
概要はじめに Qlibの試用動作条件使用したrequirements.txt データの取得予測の実施出力図示ソースコードバックテストでのポートフォリオ分析リスク分析、分析モデルおわりに概要本記事では、Qlibを使用して、機械学習パイプライン環境を構築する第一歩について述べる。はじめにこのブログの趣旨としては、当初は「戦略作成」→「戦略検証」→「戦略稼働」→「成果の評価」→「戦略へフィードバック」といったサイクルを管理できるような自動トレーディングシステムを作ることを考えていた。最近、すこし株取引から離れていたのだが、最近になってまたやり始めようかなと思い、色々と現在の状況を調べはじめた。その中で、MicrosoftのリポジトリにQlibというものがあるのを見つけた。これが2020年の8月から作られたもので、現在でもメンテされており、もしかするとこれがやりたい
- 機械学習
- Python
- MLOps
- finance
- あとで読む
- 投資
- 株
- 学習
安心して利用できる図書館データの紹介 - Qiita
- 31 users
- qiita.com/uedayou
- テクノロジー
- 2021/09/16
先日、私が公開しているWebサイト図書館施設データポータルについて紹介した以下のQiitaの記事が、はてなブックマークにて、200を超えるブックマークをいただき、TwitterなどSNS等でも多数の共有をいただけたようで、多くの方に私の公開するWebサイトを知っていただきとてもうれしかったです。また、私の想像よりも図書館が持つデジタルデータに興味を持っている方々がたくさんおられるのだなと思いました。その反面、過去の騒動の影響か図書館のデータの利用に不安を持たれている方も少なからずおられるようでした。図書館施設データポータルで使用しているデータは、先のQiitaの記事でも書いていますが、各館のWebサイトをスクレイピングしたものではなく国立国会図書館が公開する「図書館及び関連組織のための国際標準識別子（ISIL）」試行版LODのデータセットをダウンロード・加工して使用しています。
- データ
- api
- あとで読む
- qiita
- library
Titanic：タイタニック号乗客者の生存状況（年齢や性別などの13項目）の表形式データセット
- 31 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/07/02
連載目次データセット解説 Titanic dataset（タイタニックデータセット。以下、Titanic）は、「1912年に北大西洋で氷山に衝突して沈没したタイタニック号への乗客者の生存状況」の表形式データセット（＝構造化データセット）である（図1、複数の研究者が「Encyclopedia Titanica」上から抽出し、Frank E. Harrell, Jr.氏が取りまとめ、Thomas Cason氏が大幅に更新＆改善して作成されたデータセットである）。 Titanicは、主に分類（つまり「生存状況の予測」）を目的としたディープラーニング／機械学習／統計学の研究や初心者向けチュートリアルで使われている（※ただし、ディープラーニングを行うにはデータ数が1309件と少なすぎる点に注意が必要だ）。特に、Kaggleの初心者チュートリアル「Titanic: Machine Learning
- これはすごい
- あとで読む
COVID-19 データの分析用のパブリックデータレイク | Amazon Web Services
- 31 users
- aws.amazon.com
- テクノロジー
- 2020/04/15
Amazon Web Services ブログ COVID-19 データの分析用のパブリックデータレイク COVID-19 のパンデミックは、世界中に脅威をもたらし、命を奪い続けています。私たちはこの病気と戦うために組織や科学的分野を超えて協力する必要があります。数え切れないほどの医療従事者、医学研究者、科学者、公衆衛生担当者は、すでに最前線で患者の世話、治療法の探求、国民の教育、政策立案の手助けをしています。AWS は、COVID-19 の原因となるウイルスをよりよく理解および追跡し、対応を計画し、最終的に封じ込めて制圧するために必要なデータとツールをこれらの専門家に提供することが一助になることを信じています。今日、私たちはパブリックの AWS COVID-19 のデータレイクを用意しました。このデータレイクは、新型コロナウイルス (SARS-CoV-2) とこれに関連する病気である
- aws
- COVID-19
- あとで読む
- データ
- dataset
- amazon
Google社とハンズオンワークショップを開催しました！～ANDPADの魅力を機械学習で爆上げしたい～ - ANDPAD Tech Blog
- 31 users
- tech.andpad.co.jp
- テクノロジー
- 2022/07/27
ANDPADでエンジニアをしている森です。先日Google社と機械学習（Machine Learning：以下、ML）についてのプライベートなワークショップを開催しました。その参加報告ということでテックブログを執筆しまして、社外の方にもその様子をお伝えできればと思います。はじめに私が所属するデータグループでは、２年ほどかけて社内のデータ基盤の構築を行い、データの蓄積を進めてきました。ある程度整備が進捗してきたところで、次はデータの分析にも力を入れていく方針を採っていて、MLやBusiness Intelligenceの分野がターゲットとなっています。直近のテックブログでは、Kaggleへの参加＆メダル獲得の記事もアップするなど、社内外の技術動向にアンテナを高く張って活動をしています。 Kaggleコンペティションの振り返り - ANDPAD Tech Blog H&Mコンペで銀メダルを
SageMaker Experimentsを使った機械学習モデルの実験管理 - コネヒト開発者ブログ
- 31 users
- tech.connehito.com
- テクノロジー
- 2021/12/15
皆さん，こんにちは！機械学習エンジニアの柏木（@asteriam）です．本エントリーはコネヒトアドベントカレンダーの15日目の記事になります．今回は機械学習モデルの実験管理をする際に使用しているAWSのSageMaker Experimentsの活用例を紹介したいと思います．アドベントカレンダー1日目でたかぱいさんがSageMaker Processingの使い所を紹介してくれているので，こちらも併せて参考下さい． tech.connehito.com はじめに前回のエントリー*1でML Test Scoreの話をしましたが，その際にMLOpsの大事な要素である再現性（モデル学習など）に触れました．今回はこのモデル学習の再現性のために必要な実験結果（ハイパーパラメータの引数の値，モデル評価指標など）の管理をSageMaker Experimentsでしているというお話です． ※本エ
- MLOps
- Python
- 機械学習
- あとで読む
- AWS
- HotEntry
- 学習
- data
- 開発
最近のニュース記事推薦手法まとめ〜固有表現の利用から多様性の向上まで〜 - Gunosyデータ分析ブログ
- 31 users
- data.gunosy.io
- テクノロジー
- 2022/10/11
はじめに他ドメインと比較したニュース記事推薦の特徴 1. ライフサイクルの短さがもたらすコールドスタート問題 2. 深い言語理解の必要性 3. 明示的なフィードバックの利用の難しさトピック別ニュース記事推薦手法記事の人気度合い（popularity）の考慮概要既存研究固有表現（Named Entity）の明示的な考慮概要知識グラフと知識グラフ埋め込み既存研究リッチな言語表現の利用概要既存研究明示的なユーザーフィードバック・post click指標の利用概要既存研究ユーザーの興味をより正確に捉えるアーキテクチャ概要既存研究今後のチャレンジおわりにはじめにこんにちは、Gunosy Tech Lab (GTL) Media ML チームの大竹です。Gunosyでは「情報を世界中の人に最適に届ける」というミッションのもと、グノシー・ニュースパス・LUCR
職場の先輩をLLMで作ってみようとした話 - Qiita
- 31 users
- qiita.com/sergicalsix
- テクノロジー
- 2023/10/23
はじめに皆さんはLLMで何かを作りたいという経験はありますか。世の中にはアニメキャラクターの作成を指向したチャットハルヒや霧雨魔理沙を言語モデルで作成&ラインbot化した話など様々な実例があります。今回私は勉強会でお話しするという温度感で、先輩をLLMで作ってみようとした話について述べます。参考になれば幸いです！ def convert_symbols_to_fullwidth(text): half_symbols = '!?~' full_symbols = '！？〜' half_to_full = {half: full for half, full in zip(half_symbols, full_symbols)} return ''.join(half_to_full.get(char, char) for char in text) def convert_fullw
点群データにおける表現学習 - Ridge-institute R&D Blog
- 31 users
- iblog.ridge-i.com
- テクノロジー
- 2021/05/19
こんにちは，株式会社Ridge-iの@obaradsです．本記事では点群処理における表現学習手法について紹介します．また，本記事は@machinery81にレビューしていただきました． TL;DR 表現学習とは点群で表現学習を扱う理由点群の特徴の生成ラベル付きデータが制限されている状況下におけるモデルの性能向上点群間の対応を見つけるための表現学習表現学習方法について再構築タスクによる学習 Contrastive Learning 点群の表現学習に関する文献紹介点群処理への深層学習の適用以前の特徴量の算出～2017年：PointNetが提案される以前の表現学習手法 2017～2019年：PointNetが提案されて以降の生成モデルを用いた表現学習手法 2019～2020年：自己教師あり学習を利用した表現学習手法 2020年～：シーン点群に着目した表現学習手法まとめと今後の傾
- 点群
- 学習
- Point Cloud
- deep learning
- まとめ
- 研究
NDLOCRのWebアプリを作ってみた【Gradio】 - Qiita
- 31 users
- qiita.com/relu
- テクノロジー
- 2022/05/01
import os import torch print(torch.__version__) torch_ver, cuda_ver = torch.__version__.split('+') os.system(f'pip install mmcv-full==1.4.0 -f https://download.openmmlab.com/mmcv/dist/{cuda_ver}/torch{torch_ver}/index.html --no-cache-dir') os.system('cd src/ndl_layout/mmdetection && python setup.py bdist_wheel && pip install dist/*.whl') os.system('wget https://lab.ndl.go.jp/dataset/ndlocr/text_re
- NDL
- あとで読む
- Python
- HotEntry
- qiita
- アプリ
- プログラミング
- web
Feature Importanceって結局何なの？｜Yotaro Katayama
- 30 users
- note.com/y_katayama
- テクノロジー
- 2020/07/07
この記事の目的GBDT(Gradient Boosting Decesion Tree)のような、決定木をアンサンブルする手法において、特徴量の重要性を定量化し、特徴量選択などに用いられる”Feature Importance”という値があります。本記事では、この値が実際にはどういう計算で出力されているのかについて、コードと手計算を通じて納得することを目指します。なお、この記事は3回シリーズの第2回で、最終的にcatboostのfeature importanceの算出方法を理解するのが目的です。ここでは、用意されているfeature importanceの計算方法がわかりやすいxgboostを使います第1回: Catboostの推論の仕組みを理解する第2回: Feature Importanceの計算を理解する (イマココ) 第3回: CatboostのFeature Impor
- あとで読む
Postgres Tutorials | Crunchy Data
- 30 users
- www.crunchydata.com
- テクノロジー
- 2022/08/19
Postgres PlaygroundEnhance your Postgres skillsOften times the gap in trying/learning something in Postgres is having a good tangible example. The playground makes that easier by loading a datasets then guiding you step by step through an exercise leveraging that dataset in a practical way. Whether it's just the basics of interacting in the Postgres CLI with psql , improving your querying skills w
- 学習
- postgresql
- postgres
- パフォーマンス
- 開発
- performance
- MySQL
- あとで読む
- data
- 勉強
複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ
- 30 users
- blog.engineer.adways.net
- テクノロジー
- 2022/03/25
こんにちは、インフラの天津です。今日は複数アカウントの AWS Security Hub 検出結果の可視化についてお話したいと思います。前提モチベーション AWS Security Hub とは構想ツール・サービスの選定検出結果データのエクスポートについて可視化用データベース（またはクエリサービス）と可視化ツールについて構築全体像検出結果データエクスポート検出結果データの S3 -> GCS への転送と BigQuery へのインポート Security Hub からエクスポートしたデータには BigQuery のカラム名に使用できない文字(以下禁則文字)が使用されている件自動判別で生成されたスキーマでインポートした際に INTEGER 型のカラムに STRING 型のデータが入ってくることがありインポートエラーが発生する件 AWS アカウントデータの S3 ->