並び順

ブックマーク数

期間指定

  • から
  • まで

321 - 360 件 / 2892件

新着順 人気順

Datasetの検索結果321 - 360 件 / 2892件

  • 文書要約の歴史を辿って(+BERTに文書要約させてみる) - Qiita

    はじめに この記事のターゲットは「文書要約やりたいけど、ゼロからサーベイするのはちょっとしんどい・・・」という人です。おそらく未来の自分ですね。これさえ読めば、2021年以降のサーベイだけでもランドスケープがぼんやりわかるぞってなるように書きました。 記事は全3部の構成です。第一部では時系列順に文書要約というタスクの歴史を辿っていきます。第二部では、第一部でぱらぱらと出てきた知識を体系的にまとめます。最後に第三部において、実際に要約モデルを動かしてみたいと思います。手を動かさないと理解するのは難しいので。 それでは、まずは文書要約の歴史を追いかけてみましょう。 第1部 文書要約の歴史 前ニューラル時代 (2000以前〜2014) → 抽象型要約の登場 (2015) → 抽象型要約の発展 (2016〜2018) → BERTの登場、そして抽出型要約の再流行 (2019) → BERTを超えた

      文書要約の歴史を辿って(+BERTに文書要約させてみる) - Qiita
    • TensorFlow 2.0 時代の Keras API での画像分類器 - すぎゃーんメモ

      TensorFlowを初期の頃から触っていて define-and-run の流儀にはそれなりに慣れてしまっていたけど、そろそろTensorFlowも2.0がreleaseされそうだし(2019.09時点で 2.0rc1) 新しいinterfaceも触っておかないと、と思って勉強してみた。 Effective TensorFlow 2.0 を読むと、major changesとして "Eager execution"、recommendationsとして"Keras layers and models"が紹介されている。 これからの時代はKeras APIを使ってEager executionでやっていく必要がありそうだ。 お題: 将棋駒画像の分類 昨年くらいから将棋の画像認識をやろうと思って 駒の画像データセットを作成 していた。今回はこれを使う。 各駒14種の先手・後手で28種、空白マ

        TensorFlow 2.0 時代の Keras API での画像分類器 - すぎゃーんメモ
      • Open Images Dataset:Googleによる膨大な画像データセット

        データセット「Open Images Dataset」について説明。物体検知用の境界ボックスや、セグメンテーション用のマスク、視覚的な関係性、Localized Narrativesといったアノテーションが施された、約900万枚と非常に膨大な数の画像データセット。その概要と使い方を紹介する。

          Open Images Dataset:Googleによる膨大な画像データセット
        • ChatGPT-4 と始める機械学習アプリ開発入門! - Qiita

          1. はじめに 本記事は、ChatGPTを活用してみたいけれど、どうやって使うの?という方向けの、「ChatGPTと始める」シリーズ第3弾として、機械学習アプリの開発に取り組みます! (「ChatGPTと始める」シリーズ第1弾, 第2弾はこちらです。どちらもたくさんのいいねをありがとうございます。) 今回は「猫の品種判別アプリ」を題材に、ChatGPT-4 にどのように機械学習アプリの開発を手伝ってもらうかについて順を追って説明します。 ChatGPTのおかげで、機械学習に対するハードルが大幅に下がったため、機械学習に挑戦したいと思っていたエンジニアの方々にも、ぜひトライしていただきたいです! 2. アプリの仕様を相談しよう! 2.1. 転移学習について 今回は「猫の品種判別アプリ」を作ってみようと思います。 先に完成品のキャプチャ動画を貼っておきます。 一例として「猫の品種判別アプリ」を

            ChatGPT-4 と始める機械学習アプリ開発入門! - Qiita
          • What We Learned from a Year of Building with LLMs (Part I)

            Join the O'Reilly online learning platform. Get a free trial today and find answers on the fly, or master something new and useful. Learn more It’s an exciting time to build with large language models (LLMs). Over the past year, LLMs have become “good enough” for real-world applications. The pace of improvements in LLMs, coupled with a parade of demos on social media, will fuel an estimated $200B

              What We Learned from a Year of Building with LLMs (Part I)
            • コロナの感染者数を、あなた個人はどう読むべきなのか

              「デルタ時の感染者1000人は恐かったけど、今は4000人でもそこまで恐がらなくてもいいよね?」 「そこまでって、じゃあ、どのくらい?」 知っての通り、個人にとってコロナ感染によるリスクは、年齢や基礎疾患、ワクチン接種の有無などによって大きく異なっている。したがって、全人口をひっくるめて「デルタの致死率はXX%」「オミクロンの重症化率はYY%」とか言われても、それは国や自治体、医療関係者が気にするべき数字であって、個人にとっては若者と高齢者では文字通り100倍もリスクが違うので、まったく実感を伴わない数字なのである。 本来であれば「50代・男性・ワクチン3回接種後1ヵ月・対オミクロンなら、あなたの入院リスクはX%・重症化はY%・死亡はZ%」くらいに細分化された一覧表が公開されてしかるべきだと思うが、あいにく海外も含めてそのような一覧表は見当たらない。しかしこの世には十分なデータが蓄積されて

                コロナの感染者数を、あなた個人はどう読むべきなのか
              • デザインとして動画を設置する際に気をつけている7つのポイント | BUILD Journal

                Webサイト上にデザインとして動画を活用する例は多くなってきました。クライアントからメインビジュアルや主要セクションに動画の設置を希望されることが増えてきて、需要があることは実感しています。 ただ、動画はファイルサイズが大きくなりがちで、扱いには注意が必要な要素でもあります。今回は、Webサイト上にデザインとして動画を設置するときに気をつけたいポイントについて7つ紹介します。 動画を設置する際に気をつけている7つのポイント 本記事でのデザイン動画とは、メインビジュアルの背景として実装する動画を指します。 デザイン動画サンプル 上のように、動画の上に半透明マスクをのせて、その上にコピーを設置する。メインビジュアルなどで採用されることが多いデザイン用の動画設置について解説していきます。 動画をデザイン用に編集 デザインとして使用する動画は、コンテンツを視聴するためのものではなく、ブランドイメー

                  デザインとして動画を設置する際に気をつけている7つのポイント | BUILD Journal
                • The Scary Thing About Automating Deploys - Slack Engineering

                  Most of Slack runs on a monolithic service simply called “The Webapp”. It’s big – hundreds of developers create hundreds of changes every week. Deploying at this scale is a unique challenge. When people talk about continuous deployment, they’re often thinking about deploying to systems as soon as changes are ready. They talk about microservices and 2-pizza teams (~8 people). But what does continuo

                  • GPT-4に無理やり画像を認識させてみるテスト - Qiita

                    こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日はGPT-4に強引に画像を読み込ませて行きたいと思います。 やりたいこと 言語モデルのIncontext Learning能力だけで画像を認識させる なにが面白いのか Computer Visionは非常におもしろい研究領域であり、畳み込みニューラルネットワーク(CNN)やTransformerを画像認識の領域に広げたVision Transformerは超おもろいです。 先日発表されたVirtual ChatGPTは既存研究を組み合わせ、VQA(画像をもちいた質問回答)や画像編集を行うことを可能にしています。 これらの研究はさらに進歩し、動画領域などに進んでいくことでしょう。 さて、今回はそれを忘れます。バイバーイ マタネー 今日やりたいのは、言語モデルのIncontext Learning

                      GPT-4に無理やり画像を認識させてみるテスト - Qiita
                    • the peculiar case of japanese web design - sabrinas.space

                      the peculiar case of japanese web design a project that should not have taken 8 weeks how is japanese web design different? in this 2013 Randomwire blog post, the author (David) highlighted an intriguing discrepancy in Japanese design. While the nation is known abroad for minimalist lifestyles, their websites are oddly maximalist. The pages feature a variety of bright colours (breaking the 3 colou

                      • How We Saved 70K Cores Across 30 Mission-Critical Services (Large-Scale, Semi-Automated Go GC Tuning @Uber)

                        How We Saved 70K Cores Across 30 Mission-Critical Services (Large-Scale, Semi-Automated Go GC Tuning @Uber) Introduction As part of Uber engineering’s wide efforts to reach profitability, recently our team was focused on reducing cost of compute capacity by improving efficiency. Some of the most impactful work was around GOGC optimization. In this blog we want to share our experience with a highly

                          How We Saved 70K Cores Across 30 Mission-Critical Services (Large-Scale, Semi-Automated Go GC Tuning @Uber)
                        • TechCrunch

                          [A version of this post appeared in TechCrunch’s robotics newsletter, Actuator. Subscribe here.] The last time I’d spoken with the NVIDIA at any length about robotics was also the last time we

                            TechCrunch
                          • Continuous Delivery for Machine Learning

                            Automating the end-to-end lifecycle of Machine Learning applications Machine Learning applications are becoming popular in our industry, however the process for developing, deploying, and continuously improving them is more complex compared to more traditional software, such as a web service or a mobile application. They are subject to change in three axis: the code itself, the model, and the data

                              Continuous Delivery for Machine Learning
                            • Text Classification: All Tips and Tricks from 5 Kaggle Competitions

                              In this article, I will discuss some great tips and tricks to improve the performance of your text classification model. These tricks are obtained from solutions of some of Kaggle’s top NLP competitions. Namely, I’ve gone through: Jigsaw Unintended Bias in Toxicity Classification – $65,000 Toxic Comment Classification Challenge – $35,000 Quora Insincere Questions Classification – $25,000 Google QU

                                Text Classification: All Tips and Tricks from 5 Kaggle Competitions
                              • Q&Aサイト「Stack Overflow」がオフライン対応を発表。ネットの通じない場所や回線が貧弱な発展途上国などでも参照可能に

                                Q&Aサイト「Stack Overflow」がオフライン対応を発表。ネットの通じない場所や回線が貧弱な発展途上国などでも参照可能に ITエンジニア向けQ&Aサイトで知られるStack Overflowは、オフラインツールのKiwixのサポートによりオフラインでの参照や検索が可能になるプロジェクトを明らかにしました。 Stack Overflow is going offline. We're partnering with @KiwixOffline to empower those without internet access to develop technology, such as incarcerated individuals, researchers at the South Pole, and students in Cameroon. https://t.co/SzS3

                                  Q&Aサイト「Stack Overflow」がオフライン対応を発表。ネットの通じない場所や回線が貧弱な発展途上国などでも参照可能に
                                • Browser-level image lazy loading for the web  |  Articles  |  web.dev

                                  Browser-level image lazy loading for the web Stay organized with collections Save and categorize content based on your preferences. You can use the loading attribute to lazy-load images without the need to write custom lazy-loading code or use a separate JavaScript library. Here's a demo of the feature: Lazy-loaded images load as the user scrolls through the page. This page walks through the detai

                                  • BloomをLoRaを使い日本語alpaca datasetでfine tuneを動かす - Qiita

                                    llamaをAlpacaデータセットを使いLoRaでfine tuneしたものが良い感じだったので、Bloomを日本語でfine tuneしてみようと思う 以下をそのまま参考にする とりあえず、fine funeを動かしただけで、ちゃんと学習させてないので注意 HugginfaceのBloomとpeftも参考にする fine tune fine tune対象をBloomに変更 model = LlamaForCausalLM.from_pretrained( "decapoda-research/llama-7b-hf", load_in_8bit=True, device_map=device_map, ) tokenizer = LlamaTokenizer.from_pretrained( "decapoda-research/llama-7b-hf", add_eos_token=

                                      BloomをLoRaを使い日本語alpaca datasetでfine tuneを動かす - Qiita
                                    • BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog

                                      自分が使いたいと思ったBigQuery上のリソース(tableやview)、内容を事前に完全に把握できている、ということは結構少ないのではないかと思います。そういったときに手助けをしてくれるのがメタデータです。BigQueryのリソースに対するメタデータを、Cloud Data Catalogのタグとして付与する方法を紹介します。Cloud Data Catalogを使うことで、分析者が必要なリソースに素早く辿り付いたり、正確な分析をするためのサポートができます。 BigQuery関連のAudit logを元に、以下の情報をData Catalogのタグに入れた。 - 最後にクエリを投げた{日, 人} - クエリを投げられた回数 「あまり使われていないので、信用できないデータかも」「最後にXXXさんがクエリ投げてるから、詳細詳しいかも」みたいな用途を想定してる pic.twitter.co

                                        BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog
                                      • Use Fast Data Algorithms | Joey Lynch's Site

                                        Disclaimer: There are lies, damn lies, and benchmarks from some random person on the internet. If you are considering taking some of the advice in this post please remember to test your specific workloads, which might have different bottlenecks. Also the implementation quality in your particular software stack for your particular hardware matters a lot. For this post I’ll be playing with a ~5 GiB

                                        • LLM のデータセットまとめ|npaka

                                          LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich

                                            LLM のデータセットまとめ|npaka
                                          • ELYZA-tasks-100を人間が解くと何点取れるのか?

                                            と言ってもこの点数が低いのか高いのか分かりませんので、Claude 3.5 Sonnetの点数も見ていきましょう。 Claude 3.5 Sonnetの点数 現時点で最強と名高いClaude 3.5 SonnetにもELYZA-tasks-100を解いてもらいます。 単純に問題文だけを投げる形で、temperatureは0.8にしました。 import json import anthropic from datasets import load_dataset client = anthropic.Anthropic( api_key="APIキー", ) dataset = load_dataset("elyza/ELYZA-tasks-100") test_set = dataset["test"] results = {} for i, example in enumerate(t

                                              ELYZA-tasks-100を人間が解くと何点取れるのか?
                                            • Off-Policy Evaluationの基礎とZOZOTOWN大規模公開実データおよびパッケージ紹介 - ZOZO TECH BLOG

                                              ※AMP表示の場合、数式が正しく表示されません。数式を確認する場合は通常表示版をご覧ください ※2020年11月7日に、「Open Bandit Pipelineの使い方」の節に修正を加えました。修正では、パッケージの更新に伴って、実装例を新たなバージョンに対応させました。詳しくは対応するrelease noteをご確認ください。今後、データセット・パッケージ・論文などの更新情報はGoogle Groupにて随時周知する予定です。こちらも良ければフォローしてみてください。また新たに「国際会議ワークショップでの反応」という章を追記しました。 ZOZO研究所と共同研究をしている東京工業大学の齋藤優太です。普段は、反実仮想機械学習の理論と応用をつなぐような研究をしています。反実仮想機械学習に関しては、拙著のサーベイ記事をご覧ください。 本記事では、機械学習に基づいて作られた意思決定の性能をオフラ

                                                Off-Policy Evaluationの基礎とZOZOTOWN大規模公開実データおよびパッケージ紹介 - ZOZO TECH BLOG
                                              • グーグル、世界の地表をほぼリアルタイムで監視する「Dynamic World」を公開

                                                Googleの最新のマッピングツール「Dynamic World」は、世界の水、植生、雪や人為的な開発のデータをほぼリアルタイムで表示する。 Dynamic Worldは、洪水、山火事、森林伐採、都市開発などによる環境破壊の影響を把握するのに役立つと、Googleは米国時間6月9日の発表で述べた。 地球の環境と開発の問題に取り組む非営利団体で、このツールの開発に協力した世界資源研究所(WRI)の食糧、森林、水、海洋担当バイスプレジデントCraig Hanson氏は次のように述べた。「世界的な土地のひっ迫を受け、よりスマートで効率的かつ持続可能な土地の利用法を見出すよう求める圧力が高まっている。世界が土地から必要なものを生み出し、残された自然を保護し、失われたものをいくらかでも回復させるには、地球のすべての土地に対して、信頼性の高い、ほぼリアルタイムのモニタリングが必要だ」 Googleはこ

                                                  グーグル、世界の地表をほぼリアルタイムで監視する「Dynamic World」を公開
                                                • Machine Learning Trends You Need to Know - Gradient Flow

                                                  Insights and trends that will help you navigate the AI landscape. By Assaf Araki and Ben Lorica. Automation and democratization are on the rise AutoML tools are designed to automate the process of training and deploying machine learning. Such tools have progressed to the point where they can produce adequate models for many use cases. Moreover, in domains where model hubs and foundation models (e.

                                                    Machine Learning Trends You Need to Know - Gradient Flow
                                                  • Fluentdのプラグインを作ってBigQueryにログを挿入するコストを1/3にした話 - pixiv inside

                                                    こんにちは。 機械学習チームにてレコメンドの改善を行っているgumigumi4fです。 この記事では、Fluentdにて収集したログをBigQueryに挿入する際に使用しているプラグインを置き換えることによって、高スループットかつ低コストを実現した話について紹介します。 背景 pixivではアクセスログやアプリケーションログ等をBigQueryに収集し、分析できるような仕組みを構築しています。 BigQueryへアクセスログを挿入する際はFluentdとそのプラグインであるfluent-plugin-bigqueryを用いて直接BigQueryへ書き込むようになっていたのですが、その際にログ欠損が起こることが問題となっていました。 ログの欠損はピークタイムで発生しており、そのピークタイムのログの流量は概ね毎秒30000logとかなり多く、実際Fluentdのworkerプロセスが1work

                                                      Fluentdのプラグインを作ってBigQueryにログを挿入するコストを1/3にした話 - pixiv inside
                                                    • アドレス・ベース・レジストリ|デジタル庁

                                                      アドレス・ベース・レジストリは、ベース・レジストリにおいて住所・所在地のマスターデータ及びその運用システム全体を指します。「アドレス」という言葉を用いているのは、一般的に「住所」は住民が居住する場所を、「所在地」は法人等が事業を営む場所を示すものですが、ベース・レジストリにおいては、住所や所在地に加えて農地や林地の場所など、地番の存在する場所全てを検討対象とすることから、それら全てを包含する意図で「アドレス」という言葉を用いています。 取組の背景住所・所在地の情報は、個人の住所や法人や公共施設の所在地等、官民の多くの台帳の項目として用いられています。住所・所在地は図1のような構造になっていますが、町字情報や住居表示情報は市区町村、地番は登記所でそれぞれ個別に管理されていることから、行政において、標準的な住所・所在地を一元的に管理できていません。さらに、一般に流通している住所・所在地の表記の

                                                        アドレス・ベース・レジストリ|デジタル庁
                                                      • Google Colabを用いたNDLOCRアプリの実行(Google Driveを用いた画像の入力と結果の保存) - デジタルアーカイブシステムの技術ブログ

                                                        概要 ノートブック 実行方法 入力フォルダの準備 ノートブックの実行:1.初期セットアップ ノートブックの実行:2.設定 ノートブックの実行:3.実行 まとめ 追記 2022.05.02 2022.04.30 概要 前回、Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行方法を共有しました。 nakamura196.hatenablog.com ただし、上記の方法は手続きが一部面倒で、かつ費用がかかる方法です。本番環境で使用するには適した方法ですが、小規模に、または試験的に使用するにはハードルが高い方法でした。 この課題に対して、 @blue0620 さんがGoogle Colabを用いたNDLOCRアプリの実行方法を作成されました。 https://twitter.com/blue0620/status/151929433215901

                                                          Google Colabを用いたNDLOCRアプリの実行(Google Driveを用いた画像の入力と結果の保存) - デジタルアーカイブシステムの技術ブログ
                                                        • 顔コレデータセット | 顔貌コレクション(顔コレ)

                                                          顔コレデータセット(KaoKore Dataset)は、日本の絵巻物や絵本に登場する様々な顔貌画像「顔コレ(顔貌コレクション)」を、機械学習に利用しやすい形式で提供するデータセットです。データセットをご利用の際には、引用、ライセンス、利用ガイドラインなどをご確認ください。 顔コレデータセットは、複数の組織がIIIF (International Image Interoperability Framework)形式で公開する絵巻物・絵本に登場する様々な顔貌画像の所在情報とメタデータをまとめたものです。 2022年5月現在、最新バージョン(v1.3)のデータセットは、9,683件の顔貌データを提供します。データセットの内容は以下の通りです。 顔貌画像(画素:256×256)の所在情報(URL)をまとめたテキストファイル 専門家が付与した属性情報(メタデータ)をまとめたテキストファイル 機械学

                                                            顔コレデータセット | 顔貌コレクション(顔コレ)
                                                          • セルフレジにおける不正行為を自動検知するレジ不正監視を一般公開しました - fltech - 富士通研究所の技術ブログ

                                                            こんにちは。人工知能研究所の石田です。 この度、富士通が研究開発した先端AI技術を迅速に試すことができるプラットフォームFujitsu Research Portal にて、レジ不正監視を一般公開しました。 ※ログイン後、技術一覧からレジ不正監視をご選択ください。 この記事ではレジ不正監視で使用している技術についてご紹介します。 レジ不正監視とは セルフレジは人手不足やコロナ禍への対策として導入が加速し、国内スーパーマーケットのレジ台数に占めるセルフレジ・セミセルフレジ設置率は2022年時点で49.4%にまで達しています。 *1 セルフレジは便利なこともある反面、お客様が商品のスキャンを忘れてしまう、スキャンに失敗して商品が正しく登録されないといった問題が発生することがあります。 レジ不正監視とは、このようなセルフレジでの会計時に発生する問題(以後、不正と呼びます)を監視するシステムです。

                                                              セルフレジにおける不正行為を自動検知するレジ不正監視を一般公開しました - fltech - 富士通研究所の技術ブログ
                                                            • The AWK Programming Language, Second Edition

                                                              Updated Mon Feb 5 10:22:02 EST 2024 Available in paperback and e-book formats. Order at Amazon and other fine booksellers. Introduction This page holds material related to the second edition of The AWK Programming Language. The first edition was written by Al Aho, Brian Kernighan and Peter Weinberger in 1988. Awk has evolved since then, there are multiple implementations, and of course the computi

                                                              • 機械学習をコモディティ化する AutoML ツールの評価 - RAKUS Developers Blog | ラクス エンジニアブログ

                                                                こんにちは、開発エンジニアの amdaba_sk(ペンネーム未定)です。 昨年度まで、ラクスの開発部ではこれまで社内で利用していなかった技術要素を自社の開発に適合するか検証し、ビジネス要求に対して迅速に応えられるようにそなえる 「開(か)発の未(み)来に先(せん)手をうつプロジェクト(通称:かみせんプロジェクト)」というプロジェクトがありました。本年度からは規模を拡大し、「技術推進プロジェクト」と名称を改めて再スタートされました。 本記事では、昨年度かみせんプロジェクトとしての最後のテーマとなった機械学習テーマの延長として 2020 年度上期に行った「AutoML ツールの調査と評価」について取り組み結果を報告します。 (ちなみに機械学習テーマは前年度から継続していたこともあり、上期で終了となってしまいました。残念……) なお過去の報告記事はかみせんカテゴリからどうぞ。技術推進プロジェクト

                                                                  機械学習をコモディティ化する AutoML ツールの評価 - RAKUS Developers Blog | ラクス エンジニアブログ
                                                                • JPCERT/CCが確認したフィッシングサイトのURLを公開 - JPCERT/CC Eyes

                                                                  前回公開した2021年度のフィッシングサイトドメインの傾向を紹介したブログを公開後、フィッシングサイト情報を提供して欲しいという要望を多くいただいたため、この度、2019年1月から2022年6月までのJPCERT/CCが確認したフィッシングサイトのURLデータを公開しました。フィッシングサイトのURLデータは、以下のGitHubレポジトリを通じて公開しています。 Phishing URL dataset from JPCERT/CC https://github.com/JPCERTCC/phishurl-list/ 各カラムの情報は以下のとおりです。 date: 確認した日付 URL: フィッシングサイトURL全体 description: 騙られたブランド情報 本公開情報は、JPCERT/CCに報告されたフィッシングサイト情報をもとに、フィッシングコンテンツの確認ができたサイトの情報で

                                                                    JPCERT/CCが確認したフィッシングサイトのURLを公開 - JPCERT/CC Eyes
                                                                  • GitHub - JPCERTCC/phishurl-list: Phishing URL dataset from JPCERT/CC

                                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                      GitHub - JPCERTCC/phishurl-list: Phishing URL dataset from JPCERT/CC
                                                                    • データ変換処理をモダンな手法で開発できる「dbt」を使ってみた | DevelopersIO

                                                                      奈良県でリモートワーク中の玉井です。 日本では全くと言っていいほど知名度がありませんが、国外(アメリカ?)のデータ分析界隈では既にメジャーな存在になりつつある「dbt」(data build tool)について、ご紹介します。 dbtとは? 公式情報など 公式はこちら(ググラビリティが低い名前なので検索しづらい)。 (死ぬほどざっくりいうと)データ変換を効率よく実施できるツールです。SaaSとしての提供になっているので(最初からあったわけではなく、後から登場したようです)、Webブラウザさえあれば、すぐに利用することができます。 主な特徴 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と呼称することがありますが、それの「T(変換)」を担当します。E(抽出)やL(ロード)はやりません。 そして、その変換処理をどうやって設定す

                                                                        データ変換処理をモダンな手法で開発できる「dbt」を使ってみた | DevelopersIO
                                                                      • BigQuery で実行できる SQL と実行できない SQL | DevelopersIO

                                                                        こんにちは、みかみです。 やりたいこと BigQuery では他のデータベースサービスと同等の SQL 構文がサポートされているのか確認したい BigQuery でサポートされていない SQL と同等の処理を行うにはどうすればよいか知りたい 前提 BigQuery の標準 SQL を対象とします。 標準 SQL への移行 | BigQuery ドキュメント BigQueryにおける「標準SQL」と「レガシーSQL」の立ち位置について把握する | Developers.IO また、SQL の検証には GCP 管理コンソール、bq コマンドまたは Python クライアントライブラリを使用しています。 bq コマンド、Python クライアントライブラリは、CLOUD SHELL から実行しました。 コマンドライン ツール リファレンス | BigQuery ドキュメント Python Cli

                                                                          BigQuery で実行できる SQL と実行できない SQL | DevelopersIO
                                                                        • NGBoostを読んで、実装する。 - nykergoto’s blog

                                                                          不確実性を考慮した予測が可能と噂の NGBoost の論文を読んでみたので、全体のながれをまとめて見ました。加えて自分でも NGBoost を実装して、その結果を載せています。 元の論文 NGBoost: Natural Gradient Boosting for Probabilistic Prediction はこちら https://arxiv.org/abs/1910.03225。 Introduction 一般的な教師あり学習を考えます。このとき予測モデルは入力データ $X$ に対して予測値 $y$ を出力するように学習していきますが、たいていのモデルではひとつのデータに対しては予測値はひとつしか得ることができません。 例えばウェブ上の行動履歴から、ユーザーの年齢を予測してください、という問題があったとすると、ユーザーの期待される年齢そのものを返すようなモデルがそれに当たります。

                                                                            NGBoostを読んで、実装する。 - nykergoto’s blog
                                                                          • Train, Test, and Validation Sets

                                                                            Train, Test, and Validation Sets By Jared Wilber In most supervised machine learning tasks, best practice recommends to split your data into three independent sets: a training set, a testing set, and a validation set. To demo the reasons for splitting data in this manner, we will pretend that we have a dataset made of pets of the following two types: Cats:      Dogs: For each pet in the dataset we

                                                                              Train, Test, and Validation Sets
                                                                            • ML and NLP Research Highlights of 2020

                                                                              The selection of areas and methods is heavily influenced by my own interests; the selected topics are biased towards representation and transfer learning and towards natural language processing (NLP). I tried to cover the papers that I was aware of but likely missed many relevant ones—feel free to highlight them in the comments below. In all, I discuss the following highlights: Scaling up—and down

                                                                                ML and NLP Research Highlights of 2020
                                                                              • What is Image-to-Text? - Hugging Face

                                                                                Image to text models output a text from a given image. Image captioning or optical character recognition can be considered as the most common applications of image to text. Use Cases Image Captioning Image Captioning is the process of generating textual description of an image. This can help the visually impaired people to understand what's happening in their surroundings. Optical Character Recogn

                                                                                  What is Image-to-Text? - Hugging Face
                                                                                • Dataset Search:Googleによる「データセット検索」サイト

                                                                                  Dataset Searchは、2018年9月からグーグル(Google)が提供しているサイトの一つで、世界中からデータセットを検索できる(=ググれる)。「機械学習で利用するデータセットを手軽に探したい」という場合に、最初に実行してみるツールとして非常に有用である。通常のGoogle検索では、例えば「PyTorch cats dogs images classification」などのようなキーワードを入れて検索することになるだろうが、その結果、必ずしもデータセットのみがヒットするわけではない。それと比べると、データセットのみを効率的に表示してくれるので便利である。 データセット検索 例えば図1は、Dataset Searchで実際にデータセットを検索しようとしているところである。

                                                                                    Dataset Search:Googleによる「データセット検索」サイト