  GitHub - squaredtechnologies/vizly-notebook: AI-powered Jupyter Notebook — use local AI to generate and edit code cells, automatically fix errors, and chat with your data

      GitHub - squaredtechnologies/vizly-notebook: AI-powered Jupyter Notebook — use local AI to generate and edit code cells, automatically fix errors, and chat with your data
    Data Security: Importance, Spheres, and Best Practices

      Data Security refers to practices employed in securing data from unauthorized tampering or corruption in an IT ecosystem. The entire digital world is run on data, and hence the statement, "data" is the new oil." Data is in files, databases, accounts, and networks in forms like emails, passwords, texts, names, IDs, or electronic cash. We need to ensure the security of all these items from threat or

        Data Security: Importance, Spheres, and Best Practices
      New in structured data: discussion forum and profile page markup  |  Google Search Central Blog  |  Google for Developers

        Send feedback New in structured data: discussion forum and profile page markup Stay organized with collections Save and categorize content based on your preferences. Monday, November 27, 2023 Today we're announcing support for profile page and discussion forum structured data for use in Google Search, including new reports in Search Console. This markup works with Google Search features that are d

          New in structured data: discussion forum and profile page markup  |  Google Search Central Blog  |  Google for Developers
        NumPy for Data Science Beginners in Python

          NumPy library on Python is an essential tool for data scientists to work on numerical data, especially when they deal with data arrays, especially multi-dimensional, and need a memory-efficient fast indexing of arrays, However, knowing about other useful packages when solving data science problems is essential. So, let's see which packages are available in Python programming language and are used

            NumPy for Data Science Beginners in Python
          • システム総点検タスクフォース 推進体制 © 2023 NTT DATA Group Corporation

            Introducing Mozilla Monitor Plus, a new tool to automatically remove your personal information from data broker sites  | The Mozilla Blog

              Introducing Mozilla Monitor Plus, a new tool to automatically remove your personal information from data broker sites Today, Mozilla Monitor (previously called Firefox Monitor), a free service that notifies you when your email has been part of a breach, announced its new paid subscription service offering: automatic data removal and continuous monitoring of your exposed personal information. Intro

                Introducing Mozilla Monitor Plus, a new tool to automatically remove your personal information from data broker sites  | The Mozilla Blog
              Fundamentals of Matplotlib Library for Data Science

                This article will discuss the Matplotlib library," in the data scientist's toolbox on Python. Matplotlib is a library very commonly used by data scientists…. In addition to "Matplotlib," "Pandas," and "NumPy" are important parts of the data scientist's toolbox. Introduction to Matplotlib Is it possible to know your data's trend or pattern without visualization? In my view, the answer is definitely

                  Fundamentals of Matplotlib Library for Data Science
                Azure OpenAI Service On your data でベクトル検索を行う

                  はじめに 2023 年 8 月の更新で Azure OpenAI Service On your data でベクトル検索ができるようになったため、使い方や勘所をまとめました。 On your data ベクトル検索で何が変わる? 2023 年 6 月に On your data のナレッジベースとして使われている Azure Cognitive Search にてベクトル検索のパブリックプレビューが開始しました。これに伴い、On your data にも以下の検索方法が新たに追加されました。 Single vector search (単一ベクトル検索) Hybrid search (ハイブリッド検索) Semantic hybrid search (セマンティックハイブリッド検索) イメージ図 これまでは従来の全文検索とセマンティック検索の選択肢しかありませんでしたが、ベクトル検索の選

                    Azure OpenAI Service On your data でベクトル検索を行う
                  [レポート] C-2 パフォーマンスは7倍へ!大量GPS位置情報データを爆速でSnowflakeへリプレイス成功!– Snowflake Data Cloud World Tour Tokyo – #SnowflakeDB | DevelopersIO

                    2023年09月08日(金)、ANAインターコンチネンタル東京にて、Snowflake社による日本最大級のデータイベント「Snowflake Data Cloud World Tour Tokyo」が開催されました。 「Snowflake Data Cloud World Tour」と銘打っているように、このイベントは全世界3つのリージョン(APJ, Americas, EMEA)、26の都市で継続的に開催されています。東京での開催はその一環という訳ですね。 当エントリでは、イベント内のセッション『パフォーマンスは7倍へ!大量GPS位置情報データを爆速でSnowflakeへリプレイス成功!』の参加レポートをお届けします。 目次 セッション概要 セッションレポート はじめに Agoopについて Redshift検証での課題 検証・移設・効果について 今後について まとめ セッション概要 アジ

                      [レポート] C-2 パフォーマンスは7倍へ!大量GPS位置情報データを爆速でSnowflakeへリプレイス成功!– Snowflake Data Cloud World Tour Tokyo – #SnowflakeDB | DevelopersIO
                    「エンジニアのための「データ可視化」入門」 Data Engineering Study #12

                      ▍プログラム 0:00 〜 待ち時間 9:06 〜 オープニング primeNumber 小林 寛和 / Forkwell 重本 / ゆずたそ氏 16:03 〜 講演 ヤフー株式会社 データ統括本部/サイエンス統括本部/CDO管掌 駒宮 大己氏 「データをデザインすること」 38:47 〜 質疑応答 駒宮 大己氏 × ゆずたそ氏 52:38 〜 スポンサーLT Forkwell 森 1:04:40 〜 講演 Tableau Zen Master/日本航空 我如古 聡志氏 「『Pre-Attentive Attribute』『ゲシュタルト法則』で考えるデータ視覚化と、その魅力」 1:28:05 〜 質疑応答 我如古 聡志氏 × ゆずたそ氏 1:38:25 〜 スポンサーLT primeNumber 小林 寛和 1:49:41 〜 講演 デジタル庁 / Digital Agency of Ja

                        「エンジニアのための「データ可視化」入門」 Data Engineering Study #12
                      Treasure Data Tech Talk 2024|IT勉強会・イベントならTECH PLAY[テックプレイ]

                        概要 わたしたちトレジャーデータは、データ分析を通じてマーケティング・セールス・コンタクトセンターなど様々な部門の顧客体験向上に貢献しています。そのために独自のデータ分析基盤をHive, Trinoといった多くのミドルウェア、アプリケーションと組み合わせて運用構築を行なっています。さらにはその基盤となる多くのツール(Fluentd / Embulk / Digdagなど)を開発し、OSSとして公開してきました。これまでのチャレンジについては過去に開催してきた以下のような多くのイベントで紹介しています。 Embulk & Digdag Online Meetup 2020 “PLAZMA” for DATA ENGINEERS その他の過去のイベント 現在、カスタマーデータプラットフォームを展開するにあたり高度な顧客ジャーニーを実現するジャーニーオーケストレーションの裏側についてや、グローバ

                          Treasure Data Tech Talk 2024|IT勉強会・イベントならTECH PLAY[テックプレイ]
                        How I Know Your Data Science/ML Project Will Fail Before You Even Begin

                          Written with Stephen Pettinato. Data science is a paradox—It is titled the "sexiest job of the 21st century" yet sees 70-85% project failure rates. And surprisingly, the demand for data professionals still far exceeds supply. This combination of high-demand and high-failure rates is counterintuitive. Why do businesses keep investing in data resources? Companies keep investing because they have to.

                            How I Know Your Data Science/ML Project Will Fail Before You Even Begin
                          Building an Efficient ETL/ELT Process for Data Delivery

                            "Data is the new oil" — a statement that has underscored our approach to data management over the past decade. We've dedicated ourselves to gathering, processing, and analyzing vast volumes of data to fuel our journey towards becoming a data-driven organization. However, with the rise of ChatGPT, collecting over 1 million users in just 5 days, the landscape has shifted. This phenomenon has sparked

                              Building an Efficient ETL/ELT Process for Data Delivery
                            TypeORMのData Mapperパターンにおけるリレーションの型安全性を担保する - Mobile Factory Tech Blog

                              こんにちは!BC チームでエンジニアをしている id:d-kimuson です。 今回は外部リレーションに関して型安全性の乏しい TypeORM の Data Mapper パターンを独自のユーティリティ型を使ってちょっとマシにする方法を紹介します。 前提: TypeORM の外部リレーションについて TypeORM では ManyToMany 等のデコレータを使ってスキーマに Foreign Key を書くことができます。 // 公式ドキュメントのサンプルです @Entity() export class Category { @PrimaryGeneratedColumn() id: number @Column() name: string @ManyToMany((type) => Question, (question) => question.categories) quest

                                TypeORMのData Mapperパターンにおけるリレーションの型安全性を担保する - Mobile Factory Tech Blog
                              さらば勘と経験!『DATA is BOSS 収益が上がり続けるデータドリブン経営入門』

                                『DATA is BOSS』に込めた思い ~ 一休.comが収益を上げ続けているワケ 「データ」という言葉を聞いて、どんなことを思い浮かべますか? 私が使っている「データ」という言葉は、ほとんど「顧客」のことを指しています。そして、データドリブン経営とは、顧客の姿を徹底的にデータで捉え、分析し、顧客によりよい提案を実現することです。「Consumer is Boss(顧客がボス)」という言葉が登場してから約20年。顧客≒データの時代となった今、顧客をボスとすることの実践は、この時代ならば顧客行動データに忠実になること、すなわち「DATA is BOSS」ではないでしょうか。本書を通じて「データドリブン経営」を1社でも多くの企業が実践し、大きな成果を実現するビジネスパーソンが世の中に1人でも増えることを願っています。

                                  さらば勘と経験!『DATA is BOSS 収益が上がり続けるデータドリブン経営入門』
                                What is Data Science, and How to Get Into It?

                                  Modern technology has enabled the development and usage of storage, increasing the volume of information and data. As a result, data storage in recent years has been explosive. However, most of this data is untouched in databases and data lakes. For organizations and society to reap the benefits of collected data, we must interpret it. This requires high-level skills, where Data Science comes into

                                    What is Data Science, and How to Get Into It?
                                  エムスリーデータ基盤チーム紹介資料 / Introduction of M3 Data Platform Team

                                    エムスリーのデータ基盤チームの紹介資料です。 エムスリーテックブログ https://www.m3tech.blog/ エンジニア採用ページ https://jobs.m3.com/engineer/

                                      エムスリーデータ基盤チーム紹介資料 / Introduction of M3 Data Platform Team
                                    AWS Data Center Cafe|AWS (アマゾン ウェブ サービス)

                                      このイベントは終了しました。AWS Data Center POP-UP CAFE 渋谷に OPEN! もっと知りたい AWS データセンターでの仕事とキャリア クラウドコンピューティングが普及することにより、データセンターの重要性はこれまで以上に高まっています。その中でも世界で最も包括的で、幅広く採用されている AWS のクラウドコンピューティングサービスを支える、AWS のデータセンターでの仕事は、デジタル化社会を支える非常に意義深いものです。その一方、データセンターでの実際の仕事内容はまだまだ世の中に広く知られていません。そこで、アマゾン ウェブ サービス ジャパンは 2023 年 11 月 2 日 ( 木 ) ~ 11 月 3 日 ( 金・祝 ) の 2 日間、「AWS Data Center POP-UP CAFE ~ もっと知りたい AWS データセンターでの仕事とキャリア」を

                                        AWS Data Center Cafe|AWS (アマゾン ウェブ サービス)
                                      dbt test + elementaryによってData Observabilityを高める - CARTA TECH BLOG

                                        【2024/06/28 追記】Elementary公式に取り上げられ翻訳記事が出ました! www.elementary-data.com 概要 CARTA HOLDINGSの事業部の1つである、fluctでデータエンジニアをやっているyanyanです。 現在fluctではsnowflake + dbtを中心としたデータ基盤を構築していて、今回はその基盤のオブザーバビリティを高めるために行った施策について書いていこうと思います。 tl;dr fluctと、fluctが扱うデータについて データオブザーバビリティについて 具体的に行った施策について dbt testの追加 Elementary OSS、Elementary Cloudの導入 今後の展望 fluctと、fluctが扱うデータについて https://techblog.cartaholdings.co.jp/entry/progr

                                          dbt test + elementaryによってData Observabilityを高める - CARTA TECH BLOG
                                        ハイドフェルド設立のFGシリーズ、複数のデジタル画面を搭載する新たな電動フォーミュラ「FG-Twin」を発表 | Formula1-Data / F1情報・ニュース速報解説

                                          元F1ドライバーのニック・ハイドフェルドと元マヒンドラFEチーム代表のディルバグ・ギルが立ち上げた新たな電動フォーミュラ「FGシリーズ」が2025年の初シーズンを前に、「FG-Twin」と名付けられたマシンのビジュアルを初公開した。 フォーミュラEの登竜門として設立されたこの新しいシリーズは当初、ACEチャンピオンシップと呼ばれていたが、後にフォーミュラGへと改称され、昨年11月に「FGシリーズ(FG series)」へと変更された。 最大出力350kW、約470馬力のモーターを搭載する「FG-Twin」と命名されたこのクルマは、後輪と四輪の両駆動方式で走行することが可能で、1つのクルマで「FG1」と「FG2」という2つの選手権を争うことから、各コンポーネントを迅速に交換できるようモジュラー方式が採用される。 FG2は、このシリーズのエントリー部門という位置づけで、プロドライバーを目指す若

                                            ハイドフェルド設立のFGシリーズ、複数のデジタル画面を搭載する新たな電動フォーミュラ「FG-Twin」を発表 | Formula1-Data / F1情報・ニュース速報解説
                                          Dataplexとdbt-osmosisを活用した「がんばらない」データカタログとメタデータ管理の運用(Data Engineering Study #22)

                                            Data Engineering Study #22 5社のデータエンジニアが振り返る2023 での発表資料になります。 - https://forkwell.connpass.com/event/299633/

                                              Dataplexとdbt-osmosisを活用した「がんばらない」データカタログとメタデータ管理の運用(Data Engineering Study #22)
                                            Eliminating data transfer fees when migrating off Google Cloud | Google Cloud Blog

                                              Cloud switching just got easier: Removing data transfer fees when moving off Google Cloud At Google Cloud, we work to support a thriving cloud ecosystem that is open, secure, and interoperable. When customers’ business needs evolve, the cloud should be flexible enough to accommodate those changes. Starting today, Google Cloud customers who wish to stop using Google Cloud and migrate their data to

                                                Eliminating data transfer fees when migrating off Google Cloud | Google Cloud Blog
                                              GitHub - dy/linefont: Font for rendering line chart data

                                                  GitHub - dy/linefont: Font for rendering line chart data
                                                8 Best Data Governance Books For Your 2024 Reading List

                                                  The Forrester Wave™: Enterprise Data Catalogs for DataOps, Q2 2022

                                                    8 Best Data Governance Books For Your 2024 Reading List
                                                  データイーストの情報満載!「ALL ABOUT DATA EAST」が発売

                                                      データイーストの情報満載!「ALL ABOUT DATA EAST」が発売
                                                    Google の新たな生成AIモデル Gemini を技術的観点で解説 - Platinum Data Blog by BrainPad

                                                      本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 ブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。 今回は Google から発表された Gemini のテクニカルレポートについて、ご紹介します。 こんにちは、株式会社ブレインパッドの辻、株式会社TimeTechnologiesの濵田です。 現在ブレインパッドではLLM関連の論文調査を行なっているのですが、今回は論文ではなく先日 Google から発表された Gemini のテクニカルレポートについて解説を行なっていきたいと思います。 目次 Gemini とは ベンチマークによる性能比較 クロスモーダルな推論能力 モデルファ

                                                        Google の新たな生成AIモデル Gemini を技術的観点で解説 - Platinum Data Blog by BrainPad
                                                      モダンデータスタック カテゴリ紹介 #21 『Data Quality Monitoring(データ品質監視)』 – Modern Data Stack Categories Overview Advent Calendar 2023 | DevelopersIO

                                                        モダンデータスタック カテゴリ紹介 #21 『Data Quality Monitoring(データ品質監視)』 – Modern Data Stack Categories Overview Advent Calendar 2023 当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 21日目のエントリです。 Modern Data Stack Categories Overviewのカレンダー | Advent Calendar 2023 - Qiita Modern Data Stack Categories Overview Advent Calendar 2023 の記事一覧 | DevelopersIO データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack

                                                          モダンデータスタック カテゴリ紹介 #21 『Data Quality Monitoring(データ品質監視)』 – Modern Data Stack Categories Overview Advent Calendar 2023 | DevelopersIO
                                                        AT&T's massive data breach deepens crisis for Snowflake seven weeks after hack was disclosed

                                                          Snowflake has spent the past seven weeks dealing with the fallout of a major cyberattack that compromised sensitive customer data at several of its clients. The software company's problems just got a whole lot worse. Telecommunications giant AT&T said in a regulatory filing on Friday that hackers tapped into a cloud platform housing customer data, gaining access to records of subscribers' calls an

                                                            AT&T's massive data breach deepens crisis for Snowflake seven weeks after hack was disclosed
                                                          Developing a hierarchical model for unraveling conspiracy theories - EPJ Data Science

                                                            Research Open access Published: 16 April 2024 Developing a hierarchical model for unraveling conspiracy theories Mohsen Ghasemizade ORCID: orcid.org/0009-0008-5758-16581 & Jeremiah Onaolapo1 EPJ Data Science volume 13, Article number: 31 (2024) Cite this article A conspiracy theory (CT) suggests covert groups or powerful individuals secretly manipulate events. Not knowing about existing conspiracy

                                                              Developing a hierarchical model for unraveling conspiracy theories - EPJ Data Science
                                                            RDS ProxyをやめてRDS Data APIに切り替えた - Qiita

                                                              はじめに RDS Proxyとは RDS Data APIとは Lambda×RDS(Aurora含む)の場合、RDS Proxyを間に挟むのはごく一般的な構成かと思います。 私も以前はLambdaからRDSアクセスがあるなら必須だよな〜と思っていたのですが、あるシステムでRDSにAuroraServerlessV2を採用した際、従来通りRDS Proxyも作成したら料金が跳ね上がってびっくりしました。 AuroraServerlessV2の場合のRDS Proxyの料金は、1時間1ACUあたり0.025USDで課金されます。 ただこの料金体系、よく見ると最低料金が8ACUとなっており、要は使用しているのが1ACUだけであっても、8ACU使ったものとして料金が計算されてしまうのです。 該当のシステムはサービスインする前のPoC段階だったので、ACUは0.5に設定していたのですが、8ACU分

                                                                RDS ProxyをやめてRDS Data APIに切り替えた - Qiita
                                                              GitHub - cal-itp/data-infra: Cal-ITP data infrastructure

                                                                  GitHub - cal-itp/data-infra: Cal-ITP data infrastructure
                                                                モダンデータスタック カテゴリ紹介 #1 『ETL Tools(ETLツール)』 – Modern Data Stack Categories Overview Advent Calendar 2023 | DevelopersIO

                                                                  モダンデータスタック カテゴリ紹介 #1 『ETL Tools(ETLツール)』 – Modern Data Stack Categories Overview Advent Calendar 2023 当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 1日目のエントリです。 Modern Data Stack Categories Overviewのカレンダー | Advent Calendar 2023 - Qiita Modern Data Stack Categories Overview Advent Calendar 2023 の記事一覧 | DevelopersIO データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス

                                                                    モダンデータスタック カテゴリ紹介 #1 『ETL Tools(ETLツール)』 – Modern Data Stack Categories Overview Advent Calendar 2023 | DevelopersIO
                                                                  MLOpsの「壁」を乗り越える、LINEヤフーの Data Quality as Code

                                                                    データの品質はMLモデルの信頼性に関わる重要な指標ですが、サイエンティストと運用者の連携は容易ではなく、MLOpsをスケールアウトする上で運用面のボトルネックとなりやすいポイントです。このセッションでは、信頼性の高いMLモデル運用を効果的に実現する、LINEヤフーのData Quality as Codeの仕組みを紹介します。

                                                                      MLOpsの「壁」を乗り越える、LINEヤフーの Data Quality as Code
                                                                    DB Pilot - All Your Data in One App

                                                                      All Your Data in One App DB Pilot is a Database GUI client and SQL editor for PostgreSQL, MySQL, SQLite, DuckDB & more.

                                                                        DB Pilot - All Your Data in One App
                                                                      • AIDB on X: "Microsoftなどの研究者らが、プロンプト圧縮技術『LLMLingua-"2"』を公開し、タスクの精度を維持したまま圧縮率2-5倍を達成したと報告しています。 さらにプロンプトが圧縮されることにより、回答速度が倍速になるとのこと。 "LLMLingua-2: Learn Compression Target via Data Distillation for… https://t.co/4bEsVp3pfp"

                                                                        The Data That Powers A.I. Is Disappearing Fast

                                                                          For years, the people building powerful artificial intelligence systems have used enormous troves of text, images and videos pulled from the internet to train their models. Now, that data is drying up. Over the past year, many of the most important web sources used for training A.I. models have restricted the use of their data, according to a study published this week by the Data Provenance Initia

                                                                            The Data That Powers A.I. Is Disappearing Fast
                                                                          YAML developers and the declarative data platforms

                                                                            The declarative paradigm is becoming ubiquitous in data engineering, to the point we sometimes feel we became YAML developers. Yet, I’ll argue it’s a good thing! Let’s take a step back and look at what it means to be declarative, and how it impacts the data systems we build. Data & logicFundamentally, a data platform is made of 2 pieces: Data. On the frontend, we find the actual files, tables, das

                                                                              YAML developers and the declarative data platforms
                                                                            モダンデータスタック カテゴリ紹介 #24 『Change Data Capture(変更データキャプチャ)』 – Modern Data Stack Categories Overview Advent Calendar 2023 | DevelopersIO

                                                                              モダンデータスタック カテゴリ紹介 #24 『Change Data Capture(変更データキャプチャ)』 – Modern Data Stack Categories Overview Advent Calendar 2023 当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 24日目のエントリです。 Modern Data Stack Categories Overviewのカレンダー | Advent Calendar 2023 - Qiita Modern Data Stack Categories Overview Advent Calendar 2023 の記事一覧 | DevelopersIO データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/

                                                                                モダンデータスタック カテゴリ紹介 #24 『Change Data Capture(変更データキャプチャ)』 – Modern Data Stack Categories Overview Advent Calendar 2023 | DevelopersIO
                                                                              • Yuuko Morimoto on X: "生涯を通じて孤独感はU字型を描くよという研究。若年期から中年期へと減少,高齢期に増加。性別や配偶者の有無は孤独感と関連するけど,U字型の凹みを緩和するものではない。/ Do We Become More Lonely With Age? A Coordinated Data Analysis of Nine Longitudinal Studies https://t.co/BIEfHaQUVR"

                                                                                [DATAで見るケータイ業界] 楽天モバイル「プラチナバンド商用化」の実像と課題

                                                                                    [DATAで見るケータイ業界] 楽天モバイル「プラチナバンド商用化」の実像と課題