並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 2892件

新着順 人気順

Datasetの検索結果361 - 400 件 / 2892件

  • OWASP Top 10:2021

    Introduction Welcome to the OWASP Top 10 - 2021 Welcome to the latest installment of the OWASP Top 10! The OWASP Top 10 2021 is all-new, with a new graphic design and an available one-page infographic you can print or obtain from our home page. A huge thank you to everyone that contributed their time and data for this iteration. Without you, this installment would not happen. THANK YOU! What's cha

    • ディープラーニングで高性能な手の検出器を簡単に作る方法 - Qiita

      はじめに とある目的で、ディープラーニングで手を検出したいなと思いやってみました。最初は1から学習して全然性能が出なくて、絶望していたのですが学習済みモデルを使うことで簡単に高性能な検出器を手に入れることができました。頼るべきはネットの集合知ですね。特に@KzhtTkhsさんの以下ツイートに助けられました。 意外と無い不思議🐤 EgoHand Datasetを利用した以下の実装とかならあります🐤🐤https://t.co/h6U7ZENZI2 ハンドサインまでいれるとまず無いので、いつも自作しています……🐤🐤🐤 — 高橋かずひと@リベロ拝命🐤 (@KzhtTkhs) August 15, 2019 ネットに助けられたので、簡単に作りかたを記事にまとめてネットの海に放流いたします。 写真では1つの手ですが、原理的には、複数の手でも検出可能です(両手の検出までは自分でも確認してい

        ディープラーニングで高性能な手の検出器を簡単に作る方法 - Qiita
      • BigQueryにおけるポリシータグを用いた秘密情報管理とデータ連携の仕組み - ZOZO TECH BLOG

        こんにちは、データ基盤の開発・運用をしている谷口(case-k)です。 本記事では、BigQueryで秘密情報を守るためのリソースである、ポリシータグをご紹介します。ポリシータグの概要から採用理由、仕様を考慮したデータ連携の仕組みや運用における注意点まで幅広くお伝えします。 ポリシータグとは ポリシータグを採用した理由 匿名化による機密性の高さ 機密性と利便性の両立 データ基盤を保守運用しやすい 秘密情報をテーブルに新規追加しやすい 秘密情報の権限管理がしやすい ポリシータグを活用したデータ連携の仕組み 利用者が参照するデータ連携後のテーブル 2つのデータ連携基盤 日次データ連携基盤 基幹DBからBigQuery(Private)へのロード BigQuery公開環境への書き込み リアルタイムデータ連携基盤 BigQueryロード前にマスクしたカラムを追加 BigQueryへのストリーミング

          BigQueryにおけるポリシータグを用いた秘密情報管理とデータ連携の仕組み - ZOZO TECH BLOG
        • OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開

          2019年に公開されるやいなや「危険すぎる」と話題になったOpenAIの「GPT-2」を、ゼロから作成したレポートが公開されました。作成にかかった時間は、1時間14ドル(約2200円)のクラウドコンピューティングサービスで1時間半だったため、総コストは約20ドル(約3100円)に収まっています。 Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481 · GitHub https://github.com/karpathy/llm.c/discussions/481 # Reproduce GPT-2 (124M) in llm.c in 90 minutes for $20 ✨ The GPT-2 (124M) is the smallest model in t

            OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開
          • Weights & Biases: The AI Developer Platform

            Build models faster, fine-tune LLMs, develop GenAI applications with confidence, all in one system of record developers are excited to use.

              Weights & Biases: The AI Developer Platform
            • GitHub - lm-sys/FastChat: An open platform for training, serving, and evaluating large language models. Release repo for Vicuna and Chatbot Arena.

              | Demo | Discord | X | FastChat is an open platform for training, serving, and evaluating large language model based chatbots. FastChat powers Chatbot Arena (https://chat.lmsys.org/), serving over 10 million chat requests for 70+ LLMs. Chatbot Arena has collected over 500K human votes from side-by-side LLM battles to compile an online LLM Elo leaderboard. FastChat's core features include: The trai

                GitHub - lm-sys/FastChat: An open platform for training, serving, and evaluating large language models. Release repo for Vicuna and Chatbot Arena.
              • Minigpt-4

                MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models The recent GPT-4 has demonstrated extraordinary multi-modal abilities, such as directly generating websites from handwritten text and identifying humorous elements within images. These features are rarely observed in previous vision-language models. We believe the primary reason for GPT-4's advanced multi-modal

                • 日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG

                  3行まとめ 背景 データの流れ そのままコピーするだけのLambda 外部テーブルを使おう ゆるふわをゆるふわのまま扱う JSON Linesを1カラムのレコードとして取り込む 定期的に外部テーブルにクエリして結果を保存する まとめ 3行まとめ BigQueryはいいぞ 外部テーブルはすごいぞ Scheduled Queryも便利だぞ こんにちは。ひむ(@himu)です。 株式会社fluctでエンジニアとして働いていたり、ボルダリングしたりガチャを回したり健康で文化的な生活をしています。 fluctはインターネット広告プラットフォームのサービスなどを提供しており、毎日億単位の大量のイベントログが発生しています。 イベントログには、売上の計算に必要なデータから、アプリケーションを改善する上で必要なデータなど、様々なデータが入り混じっており、情報が追加されることも度々あります。 今回は、そんな

                    日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG
                  • 「500年後に日本人が佐藤だけになる」という試算の問題と改善 - ill-identified diary

                    この記事の要約 はじめに 問題点の要約 (追記) 先行研究について GARCH(っぽい)モデルによるシミュレーション シミュレーション前の理論分析 選択的夫婦別姓との比較 (追記) ゴルトン゠ワトソン分枝過程について 使用するデータ シミュレーションの技術的な補足 乱数生成について GARCHモデルの結果 シミュレーションの追試 より複雑なシミュレーションについて 男女別 世代重複 創作苗字 三親等の婚姻禁止ルール より高度な人口学的モデル 結論 2024/4/22: 先行研究とゴルトン゠ワトソン分枝過程の解説の追記 2024/4/23: 多数の言い回しのおかしい箇所の校正 2024/4/24: グラフ上の記載ミスとグラフ描画コードを修正 この記事の要約 先日報道された「500年後に日本人が佐藤だけになる」という試算の内容に違和感を覚えた. 資料を確認してみると, 大きな問題のある方法で試

                      「500年後に日本人が佐藤だけになる」という試算の問題と改善 - ill-identified diary
                    • Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ

                      はじめに こんにちは。バクラク事業部 機械学習チームの機械学習エンジニアの上川(@kamikawa)です。 バクラクではAI-OCRという機能を用いて、請求書や領収書をはじめとする書類にOCRを実行し、書類日付や支払い金額などの項目内容をサジェストすることで、お客様が手入力する手間を省いています。 書類から特定の項目を抽出する方法は、自然言語処理や画像認識、近年はマルチモーダルな手法などたくさんあるのですが、今回は項目抽出のための物体検出モデルを構築するまでの手順について紹介します。 Document Layout Analysisとは Document Layout Analysisとは、文書のレイアウトを解析するタスク(直訳)のことを指します。具体的には、文書内のさまざまな要素(例えば、テキスト、画像、表、見出し、段落など)を抽出し、それぞれの位置や意味などを明らかにすることを目的とし

                        Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ
                      • 心電図データ×機械学習まとめ

                        2021年1月27日、watchOSのアップデートに伴い、日本でもApple Watchの心電図(Electrocardiogram、ECG)機能が利用できるようになりました。 https://www.apple.com/jp/newsroom/2021/01/ecg-app-and-irregular-rhythm-notification-coming-to-apple-watch/ 日本ではスマートウォッチで心電図機能が使えるようになったのはこれが初めてだと思うのですが、海外ではApple Watch以外にもFitbitなども心電図機能に対応しています。 心電図が身近なものになることによって、こちらを利用して病気の検知であったり介入であったりといった研究が更に進むのではないかと予想されるので、今回は機械学習の心電図データへの応用についてまとめてみたいと思います。 心臓の拍動と心電図の

                          心電図データ×機械学習まとめ
                        • OpenCALM-7BをLoRAでFine tuningして対話ができるようにする|masuidrive

                          ちょっと出遅れたけど、サイバーエージェントが出したGPT-NeoXベースのLLM、OpenCALM-7BをGoogle Colab上でLoRA使ってFine tuningをしてみました。 とりあえず対話を試したい人masuidrive/open-calm-instruct-lora-20230525-r4-alpha16-batch32-epoch1 に1 epoch回したLoRAを置いておきます。 Google Colabで試したい人はV100やA100のハイメモリで動かしてください。OpenCALM-7Bのshardが10GB単位なため、12GBの標準メモリでは動きません。transformersのloaderがもう少し賢ければ、T4の標準メモリでも動くと思うんだけど・・・ なぜFine tuningをするのかOpenCALM-7Bは基礎モデルなので日本語やWikiPediaの内容など

                            OpenCALM-7BをLoRAでFine tuningして対話ができるようにする|masuidrive
                          • 100+ Best GitHub Repositories For Machine Learning

                            There are millions of github repos and filtering them is an insane amount of work. It takes huge time, efforts and a lot more. We have done this for you. In this article we’ll share a curated list of 100+ widely-known, recommended and most popular repositories and open source github projects for Machine Learning and Deep Learning. So without further ado, Let’s see all the hubs created by experts a

                              100+ Best GitHub Repositories For Machine Learning
                            • Core Web Vitals workflows with Google tools  |  Articles  |  web.dev

                              Core Web Vitals workflows with Google tools Stay organized with collections Save and categorize content based on your preferences. Combine Google tools to audit, improve and monitor your website effectively. Core Web Vitals are a set of metrics that assess the user experience on criteria such as load performance, responsiveness to user input, and layout stability. A workflow for improving Core Web

                                Core Web Vitals workflows with Google tools  |  Articles  |  web.dev
                              • Transformer モデルの仕組みを JAX/Flax で実装しながら解説してみる(パート1) - めもめも

                                なんの話かと言うと 最近、大規模言語モデルを用いたチャットシステムがよく話題になりますが、言語モデルの性能が大きく向上するきっかけとなったのが、下記の論文で公表された「Transformer」のアーキテクチャーです。 arxiv.org ここでは、JAX/Flax を用いて Transformer を実装しながら、その仕組みを解説していきます。このパート1では、Embedding レイヤーを解説します。 JAX/Flax の使い方を学びたいという方は、こちらの書籍を参照してください。 JAX/Flaxで学ぶディープラーニングの仕組み 作者:中井悦司マイナビ出版Amazon Transformer の全体像 冒頭の論文では、Transformer Encoder と Transformer Decoder を組み合わせた下記のモデルが説明されています。 左側の Encoder でテキストを解

                                  Transformer モデルの仕組みを JAX/Flax で実装しながら解説してみる(パート1) - めもめも
                                • Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita

                                  ABEJAアドベントカレンダー2020の19日目の記事です。 この記事は何? 結局AIって何個データ必要なの?ってよく聞かれると思います。 そんなん知るか この記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ!ってツッコミも歓迎です。 あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い結果を出すことが出来ないこともない。が、最新技術とはいえ銀の弾丸ではないのが通常で、例えlightweightGANがでたからと言って、100枚で学習できます!とか勝手に広がると困っちゃう。色んなタスクにおいて、まぁ大体どんなタスクも一般的にはこんなもんよっ

                                    Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
                                  • 東京都、多摩・島しょ地域の3次元点群データを無料公開。「デジタルツイン実現プロジェクト」の一環で

                                    東京都、多摩・島しょ地域(小笠原諸島を除く)の3次元点群データをオープンデータとして公開 「東京都オープンデータカタログサイト」「東京都デジタルツイン3Dビューア」にて掲載されている DSM、グリッドデータ、微地形表現図など9種類のデータを含んでいる 2023年9月1日(金)、東京都は「デジタルツイン実現プロジェクト」推進の一環として、多摩・島しょ地域(小笠原諸島を除く)の3次元点群データをオープンデータとして公開しました。 東京都 #デジタルツイン実現プロジェクト 多摩・島しょ地域の点群データ公開! 公開された航空レーザ測量の点群データでは、国内最高精度!https://t.co/CqguzZBoZu ✅公開データ(計9種) 地表面データ(DSM),グリッドデータ(0.25m),微地形表現図(0.25m)など#東京丸ごとスキャン #東京点群 pic.twitter.com/nVkGRMA

                                      東京都、多摩・島しょ地域の3次元点群データを無料公開。「デジタルツイン実現プロジェクト」の一環で
                                    • Vertex AIを活用したMLOps基盤の作成 | CyberAgent Developers Blog

                                      みなさんどうもこんにちは、AI事業本部の「極予測TD」というプロダクトで2023年2月から2ヶ月間、機械学習エンジニアとしてインターンシップ「CA Tech JOB」に参加させていただいた、高橋駿一と申します。本記事では、インターンシップで行った、MLOps基盤の開発についてご紹介します。 極予測TDとは 極予測TDとは、レスポンシブ検索広告(RSA)を自動生成する「広告テキスト自動生成AI」と、広告配信効果を事前に予測する「効果予測AI」を掛け合わせることで、効果的なRSAを制作するプロダクトです。 本インターンシップでは、効果予測AIのMLOpsに取り組みました。 背景 チームに参加した際、以下のような状況にありました。 複数の予測モデルが運用されているうち、一部、MLパイプラインが未実装のものがあった 上記モデルはリリース当初からモデルが更新されていなかったが、時間が経過したことでデ

                                        Vertex AIを活用したMLOps基盤の作成 | CyberAgent Developers Blog
                                      • プログラミング不要でモデルの評価までできる! Azure Machine Learning Studioで機械学習をしてみた | Ledge.ai

                                        TOP > Article Theme > やってみた > プログラミング不要でモデルの評価までできる! Azure Machine Learning Studioで機械学習をしてみた 「Azure Machine Learning Studio (クラシック)」はMicrosoft Azureの機械学習サービスであり、ブラウザ上でさまざまな機械学習のモデルを作成できます。今回は本サービスを使って、ノーコードで機械学習を試してみました。 1.ワークスペースを作成するまず、Microsoftのアカウントを作成し、Azureにログインします。検索欄に「machine learning」と入力すると候補が出るので、「Machine Learning Studio ワークスペース」を選択します。 ここで、「Machine Learning Studio ワークスペースの作成」をクリックします。 各

                                          プログラミング不要でモデルの評価までできる! Azure Machine Learning Studioで機械学習をしてみた | Ledge.ai
                                        • RAGs powered by Google Search technology, Part 1 | Google Cloud Blog

                                          When a large language model (LLM) doesn’t have enough information or has no contextual knowledge of a topic, it is more likely to hallucinate and provide inaccurate or false responses. Developers are increasingly excited about generative AI and Retrieval Augmented Generation (RAG) — an architecture pattern that combines LLMs with backend information retrieval from other information sources. This a

                                            RAGs powered by Google Search technology, Part 1 | Google Cloud Blog
                                          • 大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part2

                                            はじめに Turing 株式会社リサーチチームの藤井(@okoge_kaz)です。 Turingでは、自動運転を支える技術のひとつとして大規模言語モデル(Large Language Model: LLM)に注目しており、関連する技術の研究開発を行っています。 つい先日、大規模言語モデルの事前学習を行う際に用いられることが多いmicrosoft/Megatron-DeepSpeedが大きくupdateされました。(日本時間 2023/6/13, 2023/7/21に大きな変更がありました。) 具体的には、fork元であるNVIDIA/Megatron-LMの最新の変更を取り込むことを行ったようです。 セットアップ方法は以下の記事で紹介している通りで、変化はないのですが、Job Scriptの引数や、新機能を使用するためのTipsなど補足するべきことが多数存在します。 そのため、今回は前回の

                                              大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part2
                                            • Shinnosuke Takamichi (高道 慎之介) - jvs_corpus

                                              This corpus consists of Japanese text (transcripts) and multi-speaker voice data. The specification is as follows. 100 professional speakers Each speaker utters: "parallel100" ... 100 reading-style utterances that are common among speakers "nonpara30" ... 30 reading-style utterances that are completely different among speakers "whisper10" ... 10 whispered utterances "falsetto10" ... 10 falsetto ut

                                                Shinnosuke Takamichi (高道 慎之介) - jvs_corpus
                                              • Building Netflix’s Distributed Tracing Infrastructure

                                                “@Netflixhelps Why doesn’t Tiger King play on my phone?” — a Netflix member via Twitter This is an example of a question our on-call engineers need to answer to help resolve a member issue — which is difficult when troubleshooting distributed systems. Investigating a video streaming failure consists of inspecting all aspects of a member account. In our previous blog post we introduced Edgar, our t

                                                  Building Netflix’s Distributed Tracing Infrastructure
                                                • Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される

                                                  デンマークの著作権侵害対策グループ「Rights Alliance」が、約20万冊にも上る書籍のデータセット「Books3」を削除するよう、ホストする「The Eye」に対して要請し、データセットの削除が行われました。Books3はMetaの開発する大規模言語モデル「LLaMA」のトレーニングにも使用されたデータセットです。 Anti-Piracy Group Takes Prominent AI Training Dataset ''Books3' Offline * TorrentFreak https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/ Revealed: The Authors Whose Pirated Books Are P

                                                    Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される
                                                  • BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する

                                                    はじめに こんにちは、Google Cloud Partner Top Engineer 2024 を受賞いたしました、クラウドエース データソリューション部の松本です。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する方法についてご紹介します。 この記事はこんな人にオススメ BigQuery の SQL のみで LLM を使った問合せシステムを構築したい BigQue

                                                      BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する
                                                    • 画像生成AI「Stable Diffusion」などに使われた50億枚超の画像セット「LAION-5B」に1008枚の児童ポルノ画像が入っていることが判明し削除へ

                                                      スタンフォード大学インターネット天文台(SIO)の調査により、画像生成AI「Stable Diffusion」などのトレーニングに利用されているオープンデータセットの「LAION-5B」に、児童性的虐待画像(CSAM)が含まれていることが明らかになりました。CSAMの疑いのある画像は3226枚で、そのうち1008枚が外部機関の検証によりCSAMであると確認されました。 Investigation Finds AI Image Generation Models Trained on Child Abuse | FSI https://cyber.fsi.stanford.edu/io/news/investigation-finds-ai-image-generation-models-trained-child-abuse Largest Dataset Powering AI Imag

                                                        画像生成AI「Stable Diffusion」などに使われた50億枚超の画像セット「LAION-5B」に1008枚の児童ポルノ画像が入っていることが判明し削除へ
                                                      • LLM開発のためのデータエンジニアリング - Qiita

                                                        LLM開発のためのデータエンジニアリング MLOps Advent Calendar 2023の24日目です。 Stability AIでデータ系のソフトウェアエンジニアをやっているcvuskです。主な仕事は日本語LLMのためのデータ開発です。Stability AIでは日本語LLMも各種開発しています。LLMの学習というと大量のGPUを用意して巨大なデータでモデルを学習する、というキラキラしたイメージ(?)が強いかもしれませんが、データが重要かつ苦労が耐えない課題であることは他の機械学習やディープラーニングモデルと違いありません。日本語のテキストデータは英語ほど入手しやすいわけではないのと同時に、データエンジニアリングや品質面でもいろいろと大変なことが多々あります。今回はLLMのためのテキストデータの用途やエンジニアリングについて整理します。 LLMの学習 LLMの学習は大きく分けて事前

                                                          LLM開発のためのデータエンジニアリング - Qiita
                                                        • Qlibを使った機械学習パイプライン環境の構築 投資の取引戦略最適化と機械学習モデル作成の省力化を目指して - 株のシステムトレードをしよう - 1から始める株自動取引システムの作り方

                                                          概要 はじめに Qlibの試用 動作条件 使用したrequirements.txt データの取得 予測の実施 出力 図示 ソースコード バックテストでのポートフォリオ分析 リスク分析、分析モデル おわりに 概要 本記事では、Qlibを使用して、機械学習パイプライン環境を構築する第一歩について述べる。 はじめに このブログの趣旨としては、当初は「戦略作成」→「戦略検証」→「戦略稼働」→「成果の評価」→「戦略へフィードバック」といったサイクルを管理できるような自動トレーディングシステムを作ることを考えていた。 最近、すこし株取引から離れていたのだが、最近になってまたやり始めようかなと思い、色々と現在の状況を調べはじめた。 その中で、MicrosoftのリポジトリにQlibというものがあるのを見つけた。これが2020年の8月から作られたもので、現在でもメンテされており、もしかするとこれがやりたい

                                                            Qlibを使った機械学習パイプライン環境の構築 投資の取引戦略最適化と機械学習モデル作成の省力化を目指して - 株のシステムトレードをしよう - 1から始める株自動取引システムの作り方
                                                          • 安心して利用できる図書館データの紹介 - Qiita

                                                            先日、私が公開しているWebサイト 図書館施設データポータル について紹介した以下のQiitaの記事 が、はてなブックマークにて、200を超えるブックマークをいただき、TwitterなどSNS等でも多数の共有をいただけたようで、多くの方に私の公開するWebサイトを知っていただきとてもうれしかったです。 また、私の想像よりも図書館が持つデジタルデータに興味を持っている方々がたくさんおられるのだなと思いました。その反面、過去の騒動の影響か図書館のデータの利用に不安を持たれている方も少なからずおられるようでした。 図書館施設データポータル で使用しているデータは、先のQiitaの記事でも書いていますが、各館のWebサイトをスクレイピングしたものではなく国立国会図書館が公開する「図書館及び関連組織のための国際標準識別子(ISIL)」試行版LODのデータセットをダウンロード・加工して使用しています。

                                                              安心して利用できる図書館データの紹介 - Qiita
                                                            • Titanic:タイタニック号乗客者の生存状況(年齢や性別などの13項目)の表形式データセット

                                                              連載目次 データセット解説 Titanic dataset(タイタニックデータセット。以下、Titanic)は、「1912年に北大西洋で氷山に衝突して沈没したタイタニック号への乗客者の生存状況」の表形式データセット(=構造化データセット)である(図1、複数の研究者が「Encyclopedia Titanica」上から抽出し、Frank E. Harrell, Jr.氏が取りまとめ、Thomas Cason氏が大幅に更新&改善して作成されたデータセットである)。 Titanicは、主に分類(つまり「生存状況の予測」)を目的としたディープラーニング/機械学習/統計学の研究や初心者向けチュートリアルで使われている(※ただし、ディープラーニングを行うにはデータ数が1309件と少なすぎる点に注意が必要だ)。特に、Kaggleの初心者チュートリアル「Titanic: Machine Learning

                                                                Titanic:タイタニック号乗客者の生存状況(年齢や性別などの13項目)の表形式データセット
                                                              • COVID-19 データの分析用のパブリックデータレイク | Amazon Web Services

                                                                Amazon Web Services ブログ COVID-19 データの分析用のパブリックデータレイク COVID-19 のパンデミックは、世界中に脅威をもたらし、命を奪い続けています。私たちはこの病気と戦うために組織や科学的分野を超えて協力する必要があります。数え切れないほどの医療従事者、医学研究者、科学者、公衆衛生担当者は、すでに最前線で患者の世話、治療法の探求、国民の教育、政策立案の手助けをしています。AWS は、COVID-19 の原因となるウイルスをよりよく理解および追跡し、対応を計画し、最終的に封じ込めて制圧するために必要なデータとツールをこれらの専門家に提供することが一助になることを信じています。 今日、私たちはパブリックの AWS COVID-19 のデータレイクを用意しました。このデータレイクは、新型コロナウイルス (SARS-CoV-2) とこれに関連する病気である

                                                                  COVID-19 データの分析用のパブリックデータレイク | Amazon Web Services
                                                                • Google社とハンズオンワークショップを開催しました!~ANDPADの魅力を機械学習で爆上げしたい~ - ANDPAD Tech Blog

                                                                  ANDPADでエンジニアをしている森です。先日Google社と機械学習(Machine Learning:以下、ML)についてのプライベートなワークショップを開催しました。その参加報告ということでテックブログを執筆しまして、社外の方にもその様子をお伝えできればと思います。 はじめに 私が所属するデータグループでは、2年ほどかけて社内のデータ基盤の構築を行い、データの蓄積を進めてきました。ある程度整備が進捗してきたところで、次はデータの分析にも力を入れていく方針を採っていて、MLやBusiness Intelligenceの分野がターゲットとなっています。直近のテックブログでは、Kaggleへの参加&メダル獲得の記事もアップするなど、社内外の技術動向にアンテナを高く張って活動をしています。 Kaggleコンペティションの振り返り - ANDPAD Tech Blog H&Mコンペで銀メダルを

                                                                    Google社とハンズオンワークショップを開催しました!~ANDPADの魅力を機械学習で爆上げしたい~ - ANDPAD Tech Blog
                                                                  • SageMaker Experimentsを使った機械学習モデルの実験管理 - コネヒト開発者ブログ

                                                                    皆さん,こんにちは!機械学習エンジニアの柏木(@asteriam)です. 本エントリーはコネヒトアドベントカレンダーの15日目の記事になります. 今回は機械学習モデルの実験管理をする際に使用しているAWSのSageMaker Experimentsの活用例を紹介したいと思います. アドベントカレンダー1日目でたかぱいさんがSageMaker Processingの使い所を紹介してくれているので,こちらも併せて参考下さい. tech.connehito.com はじめに 前回のエントリー*1でML Test Scoreの話をしましたが,その際にMLOpsの大事な要素である再現性(モデル学習など)に触れました.今回はこのモデル学習の再現性のために必要な実験結果(ハイパーパラメータの引数の値,モデル評価指標など)の管理をSageMaker Experimentsでしているというお話です. ※本エ

                                                                      SageMaker Experimentsを使った機械学習モデルの実験管理 - コネヒト開発者ブログ
                                                                    • 最近のニュース記事推薦手法まとめ 〜固有表現の利用から多様性の向上まで〜 - Gunosyデータ分析ブログ

                                                                      はじめに 他ドメインと比較したニュース記事推薦の特徴 1. ライフサイクルの短さがもたらすコールドスタート問題 2. 深い言語理解の必要性 3. 明示的なフィードバックの利用の難しさ トピック別ニュース記事推薦手法 記事の人気度合い(popularity)の考慮 概要 既存研究 固有表現(Named Entity)の明示的な考慮 概要 知識グラフと知識グラフ埋め込み 既存研究 リッチな言語表現の利用 概要 既存研究 明示的なユーザーフィードバック・post click指標の利用 概要 既存研究 ユーザーの興味をより正確に捉えるアーキテクチャ 概要 既存研究 今後のチャレンジ おわりに はじめに こんにちは、Gunosy Tech Lab (GTL) Media ML チームの大竹です。Gunosyでは「情報を世界中の人に最適に届ける」というミッションのもと、グノシー・ニュースパス・LUCR

                                                                        最近のニュース記事推薦手法まとめ 〜固有表現の利用から多様性の向上まで〜 - Gunosyデータ分析ブログ
                                                                      • 職場の先輩をLLMで作ってみようとした話 - Qiita

                                                                        はじめに 皆さんはLLMで何かを作りたいという経験はありますか。 世の中にはアニメキャラクターの作成を指向したチャットハルヒや霧雨魔理沙を言語モデルで作成&ラインbot化した話など様々な実例があります。 今回私は勉強会でお話しするという温度感で、先輩をLLMで作ってみようとした話について述べます。参考になれば幸いです! def convert_symbols_to_fullwidth(text): half_symbols = '!?~' full_symbols = '!?〜' half_to_full = {half: full for half, full in zip(half_symbols, full_symbols)} return ''.join(half_to_full.get(char, char) for char in text) def convert_fullw

                                                                          職場の先輩をLLMで作ってみようとした話 - Qiita
                                                                        • 点群データにおける表現学習 - Ridge-institute R&D Blog

                                                                          こんにちは,株式会社Ridge-iの@obaradsです.本記事では点群処理における表現学習手法について紹介します.また,本記事は@machinery81にレビューしていただきました. TL;DR 表現学習とは 点群で表現学習を扱う理由 点群の特徴の生成 ラベル付きデータが制限されている状況下におけるモデルの性能向上 点群間の対応を見つけるための表現学習 表現学習方法について 再構築タスクによる学習 Contrastive Learning 点群の表現学習に関する文献紹介 点群処理への深層学習の適用以前の特徴量の算出 ~2017年:PointNetが提案される以前の表現学習手法 2017~2019年:PointNetが提案されて以降の生成モデルを用いた表現学習手法 2019~2020年:自己教師あり学習を利用した表現学習手法 2020年~:シーン点群に着目した表現学習手法 まとめと今後の傾

                                                                            点群データにおける表現学習 - Ridge-institute R&D Blog
                                                                          • NDLOCRのWebアプリを作ってみた【Gradio】 - Qiita

                                                                            import os import torch print(torch.__version__) torch_ver, cuda_ver = torch.__version__.split('+') os.system(f'pip install mmcv-full==1.4.0 -f https://download.openmmlab.com/mmcv/dist/{cuda_ver}/torch{torch_ver}/index.html --no-cache-dir') os.system('cd src/ndl_layout/mmdetection && python setup.py bdist_wheel && pip install dist/*.whl') os.system('wget https://lab.ndl.go.jp/dataset/ndlocr/text_re

                                                                              NDLOCRのWebアプリを作ってみた【Gradio】 - Qiita
                                                                            • Feature Importanceって結局何なの?|Yotaro Katayama

                                                                              この記事の目的GBDT(Gradient Boosting Decesion Tree)のような、決定木をアンサンブルする手法において、特徴量の重要性を定量化し、特徴量選択などに用いられる”Feature Importance”という値があります。 本記事では、この値が実際にはどういう計算で出力されているのかについて、コードと手計算を通じて納得することを目指します。 なお、この記事は3回シリーズの第2回で、最終的にcatboostのfeature importanceの算出方法を理解するのが目的です。ここでは、用意されているfeature importanceの計算方法がわかりやすいxgboostを使います 第1回: Catboostの推論の仕組みを理解する 第2回: Feature Importanceの計算を理解する (イマココ) 第3回: CatboostのFeature Impor

                                                                                Feature Importanceって結局何なの?|Yotaro Katayama
                                                                              • Postgres Tutorials | Crunchy Data

                                                                                Postgres PlaygroundEnhance your Postgres skillsOften times the gap in trying/learning something in Postgres is having a good tangible example. The playground makes that easier by loading a datasets then guiding you step by step through an exercise leveraging that dataset in a practical way. Whether it's just the basics of interacting in the Postgres CLI with psql , improving your querying skills w

                                                                                  Postgres Tutorials | Crunchy Data
                                                                                • 複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ

                                                                                  こんにちは、インフラの天津です。今日は 複数アカウントの AWS Security Hub 検出結果の可視化についてお話したいと思います。 前提 モチベーション AWS Security Hub とは 構想 ツール・サービスの選定 検出結果データのエクスポートについて 可視化用データベース(またはクエリサービス)と可視化ツールについて 構築 全体像 検出結果データエクスポート 検出結果データの S3 -> GCS への転送と BigQuery へのインポート Security Hub からエクスポートしたデータには BigQuery のカラム名に使用できない文字(以下禁則文字)が使用されている件 自動判別で生成されたスキーマでインポートした際に INTEGER 型のカラムに STRING 型のデータが入ってくることがありインポートエラーが発生する件 AWS アカウントデータの S3 ->

                                                                                    複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ