並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 1716件

新着順 人気順

dataの検索結果161 - 200 件 / 1716件

  • 富士通が、米ガートナー社のレポート「2023 Magic Quadrant™ for Data Center Outsourcing and Hybrid Infrastructure Managed Services, Worldwide」にてビジョナリーの1社と評価 : 富士通

    2023年8月7日 富士通株式会社 富士通が、米ガートナー社のレポート「2023 Magic Quadrant™ for Data Center Outsourcing and Hybrid Infrastructure Managed Services, Worldwide」にてビジョナリーの1社と評価 当社は、Gartner, Inc.(以下、ガートナー社)が2023年6月27日に発刊したデータセンター・アウトソーシングとハイブリッド・インフラストラクチャ市場の調査レポート「2023 Gartner®, Magic Quadrant for Data Center Outsourcing and Hybrid Infrastructure Managed Services, Worldwide(DCO/HIMS)」において今年度はビジョナリーの1社として評価されました。 当社は、高度な

      富士通が、米ガートナー社のレポート「2023 Magic Quadrant™ for Data Center Outsourcing and Hybrid Infrastructure Managed Services, Worldwide」にてビジョナリーの1社と評価 : 富士通
    • コスト管理の新機能「Data Export」で請求データをSQLでエクスポート可能になりました! #AWSreinvent | DevelopersIO

      コスト管理データの新機能「Data Export」で、請求データの任意データをSQLでエクスポートできるようになりました! 絶賛re:invent2023が開催中の現在、多数のアップデートが出ています。今回は、請求周辺のData Exportという機能と、合わせてCUR 2.0が新規リリースされましたので、その内容を紹介していきます。 請求データあれこれできるのきたか…!! ( ゚д゚) ガタッ /   ヾ __L| / ̄ ̄ ̄/_ \/   / Data Exportのアップデート公式情報とサマリー アップデートはこちら。 今回Data Exportsの新機能で、SQLを利用して請求やコスト管理に関するデータをエクスポートできるようになりました。エクスポートデータは、BIやデータ分析で利用するためにS3バケットに定期的に配信することができ、既存のCost and Usage Report

        コスト管理の新機能「Data Export」で請求データをSQLでエクスポート可能になりました! #AWSreinvent | DevelopersIO
      • Azure OpenAI Service On your dataで日本語の検索精度を向上させる方法|クラウドテクノロジーブログ|ソフトバンク

        Azure OpenAI Service On your dataで日本語の検索精度を向上させる方法</h1>\r\n"}}" id="text-7578ec3b7f" class="cmp-text"> Azure OpenAI Service On your dataで日本語の検索精度を向上させる方法 <b><span class=\"biz-smb-fs-p1\">ソリューションエンジニア<br>\r\n 洪 亜龍</span></b></p>\r\n<p>こんにちは、私はAIソリューションの設計・開発・運用をしている洪と申します。機械学習や画像検索などの最新技術に興味があり、日々勉強しています。</p>\r\n<p>趣味はキャンプやスキー、スノーボードです。自然の中でリフレッシュするのが好きです。最近はキャンプ道具を揃えるのに夢中です。</p>\r\n<p>&nbsp;</p>\r

          Azure OpenAI Service On your dataで日本語の検索精度を向上させる方法|クラウドテクノロジーブログ|ソフトバンク
        • 不正アクセスによる個人情報漏えいの可能性に関するお詫びとお知らせ(Apology and Notice Regarding Potential Data Leakage of Personal Information Due to Unauthorized Access) | ニュース | 株式会社セガ フェイブ

          不正アクセスによる個人情報漏えいの可能性に関するお詫びとお知らせ(Apology and Notice Regarding Potential Data Leakage of Personal Information Due to Unauthorized Access) この度、株式会社セガ フェイブ Toysカンパニー(以下、当社)が利用するメールシステムの一部のアカウントが外部からの不正アクセスを受け、当社ならびに当社グループ会社において管理している個人情報が外部に漏えいした可能性があることが判明いたしました。そのため本日時点で判明している内容につき、お知らせいたします。 なお、漏えいの可能性がある個人情報にクレジットカード情報は含まれておりません。また、現時点において本件に関わる個人情報の不正利用等は確認されておりません。 お客様をはじめ多くの関係先の皆様にご迷惑とご心配をおかけい

            不正アクセスによる個人情報漏えいの可能性に関するお詫びとお知らせ(Apology and Notice Regarding Potential Data Leakage of Personal Information Due to Unauthorized Access) | ニュース | 株式会社セガ フェイブ
          • 【ChatGPT】主成分分析を活用したデータドリブンな組織開発をしてみよう_HR×Data Analytics×ChatGPT - Qiita

            【ChatGPT】主成分分析を活用したデータドリブンな組織開発をしてみよう_HR×Data Analytics×ChatGPT機械学習データ分析HRTech組織開発ChatGPT はじめに こんにちは、今回はHR(人事)領域でのChatGPTを使ったデータ分析の事例をご紹介します。 そもそもQiitaにてどのくらい組織/人事領域が求められているかはわかりませんが、 「へぇ、こんな手法もあるんだ」と参考にしていただければ幸いです。 またあなたが人事や多くの組織を管掌する現場マネージャーであれば、 本記事の手法を活用することで、たとえデータ分析のスキルがなかったとしても 組織改善を効果的に進められるようになるのでご参考にどうぞ。 本記事では具体的には エンゲーメントサーベイ(従業員に回答してもらったアンケート)データを元に 主成分分析という機械学習の手法を用いて 組織の開発を行う そしてそれを

              【ChatGPT】主成分分析を活用したデータドリブンな組織開発をしてみよう_HR×Data Analytics×ChatGPT - Qiita
            • [DATAで見るケータイ業界] 楽天モバイル「プラチナバンド商用化」の実像と課題

                [DATAで見るケータイ業界] 楽天モバイル「プラチナバンド商用化」の実像と課題
              • LLMの出力制御や新モデルについて【技術動向調査】 - Platinum Data Blog by BrainPad

                本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 ブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。 現在は、週に1回程度の頻度で、社内で実施している生成AI・LLMに関する論文レビュー会の内容をピックアップのうえ配信しています。 今回は、LLMの性能改善に関連して、4つの論文をご紹介させていただきます。 論文選定基準 From Pretraining Data to Language Models to Downstream Tasks:Tracking the Trails of Political Biases Leading to Unfair NLP Models

                  LLMの出力制御や新モデルについて【技術動向調査】 - Platinum Data Blog by BrainPad
                • OWASP Data Breach Notification | OWASP Foundation

                  This website uses cookies to analyze our traffic and only share that information with our analytics partners. Accept Andrew van der Stock Friday, March 29, 2024 In late February 2024, after receiving a few support requests, the OWASP Foundation became aware of a misconfiguration of OWASP’s old Wiki web server, leading to a data breach involving decade+-old member resumes. Who is affected? If you w

                  • 16th Forum on Data Engineering and Information Management/Tutorials

                    Tutorials Please check the Japanese version for the tutorial schedule and overview. Call for Tutorials At DEIM 2024, we are planning a tutorial that aims to update the basic knowledge of DEIM 2024 participants in a short time by introducing research areas that are currently getting or are beginning to get attention and the basic technologies that support them. DEIM 2024 is looking for a wide range

                    • Kinesis Data Streams へのデータ格納をトリガーに Lambda を起動する際の Batch size を変更して挙動を確認した | DevelopersIO

                      Kinesis Data Streams へのデータ格納をトリガーに Lambda を起動する際の Batch size を変更して挙動を確認した Kinesis Data Streams へのデータ格納をトリガーに Lambda を起動する際の Batch size を変更し、パフォーマンスチューニングをしてみました。 コーヒーが好きな emi です。 今回は Kinesis Data Streams へのデータ格納をトリガーに Lambda を起動する際の Batch size を変更して挙動を確認してみました。 Kinesis Data Streams についての詳細は以下のブログで紹介しておりますので、参考にしてください。 最初にまとめ Batch size を大きくすると Lambda での処理速度は速くなるが、順番は保証されない Batch size を小さくすると Lambd

                        Kinesis Data Streams へのデータ格納をトリガーに Lambda を起動する際の Batch size を変更して挙動を確認した | DevelopersIO
                      • [2024年2月21日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO

                        さがらです。 Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。 そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。 ※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。 Modern Data Stack全般 Navigating the Data Engineering Landscape in 2024 Airbyte社のブログにおいて、データエンジニアリングにおける2024年の展望について5つに分けてまとめた記事が出ていました。 大きく、以下5つについて述べられていました。 データエンジニアは生成AIを使うだけでなく

                          [2024年2月21日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO
                        • 我々は新生アルファタウリをどう呼ぶべきか? ”史上最悪”のF1チーム呼称を回避する「3つ」のアイデア | Formula1-Data / F1情報・ニュース速報解説

                          予想されていたことではあるが、スクーデリア・アルファタウリ改め「ビザ・キャッシュアップRBフォーミュラ1チーム(Visa Cash App RB Formula One Team)」が2024年のF1に誕生した。 各方面から批判続出の「Visa Cash App RB」 拝金主義的な雰囲気をまとい、かつ冗長で、チームの本体名、つまりチーム・アイデンティティが希薄なこのエントリーは早速、各方面で厳しい批判に晒された。それはザウバーが名乗る「Stake F1 Team Kick Sauber」に対するそれの比ではない。 Visa Cash App RBというチーム名について英『The Race』は「F1史上最悪の名前」で「レッドブルとF1全体にとって恥ずべき」と酷評し、同じくイギリスの『Race Fans』は1975年からその名でグリッドに立ち続けているウィリアムズを引き合いに『2073年に「

                            我々は新生アルファタウリをどう呼ぶべきか? ”史上最悪”のF1チーム呼称を回避する「3つ」のアイデア | Formula1-Data / F1情報・ニュース速報解説
                          • [DATAで見るケータイ業界] 家族割と学割を相次いで投入した楽天モバイル、契約数の増加でARPUを補う戦略にシフトか

                              [DATAで見るケータイ業界] 家族割と学割を相次いで投入した楽天モバイル、契約数の増加でARPUを補う戦略にシフトか
                            • Data Engineering Design Patterns: Mastering Convergent Evolution

                              Book: Data Engineering Design Patterns (DEDP) Hey there 👋, this is the start of a book about Data Engineering Design Patterns. About This Book This book is different from usual books. It does not come finished. I will steadily release new chapters of the book, carefully listen to all your feedback, and integrate them to create a (hopefully) great book at the end of the day. Keep an eye on the cha

                                Data Engineering Design Patterns: Mastering Convergent Evolution
                              • GitHub - apecloud/kubeblocks: KubeBlocks is an open-source control plane that runs and manages databases, message queues and other data infrastructure on K8s.

                                KubeBlocks is an open-source control plane software that runs and manages databases, message queues and other data infrastructure on K8s. The name KubeBlocks is inspired by Kubernetes and LEGO blocks, signifying that running and managing data infrastructure on K8s can be standard and productive, like playing with LEGO blocks. KubeBlocks could manage various type of engines, including RDBMSs (MySQL

                                  GitHub - apecloud/kubeblocks: KubeBlocks is an open-source control plane that runs and manages databases, message queues and other data infrastructure on K8s.
                                • Amazon Kinesis Data Streams launches cross-account access with AWS Lambda

                                  Amazon Kinesis Data Streams now supports resource-based policies, so you can process data ingested into a stream in one account with an AWS Lambda function in another account. Amazon Kinesis Data Streams is a serverless real-time data streaming service that can continuously capture gigabytes of data per second from hundreds of thousands of sources. AWS Lambda is a serverless compute service that l

                                    Amazon Kinesis Data Streams launches cross-account access with AWS Lambda
                                  • Extracting Training Data from ChatGPT

                                    Authors Milad Nasr*1, Nicholas Carlini*1, Jon Hayase1,2, Matthew Jagielski1, A. Feder Cooper3, Daphne Ippolito1,4, Christopher A. Choquette-Choo1, Eric Wallace5, Florian Tramèr6, Katherine Lee+1,3 1Google DeepMind, 2 University of Washington, 3Cornell, 4CMU, 5UC Berkeley, 6ETH Zurich. * Joint first author, +Senior author. We have just released a paper that allows us to extract several megabytes of

                                    • Data Contract CLI から考える Data Contracts ファーストのデータパイプラインの未来

                                      このポストについて#Data Contract CLI を触ってみたところ、面白かったのとこれからのデータパイプライン開発について思うところがあったので書いてみる。 Data Contract CLI とは?#datacontract/datacontract-cli Data Contract CLI は data contracts を運用するためのオープンソースのコマンドラインツールである。 data contracts の概念については以前の記事で詳しく書いているのでそちらをご参考いただければと。 ただしこちらの記事は1年前のものであり、今回取り上げる Data Contract CLI の登場などを含めて現在では data contracts を取り巻く状況も変わっている可能性があることに注意。 Data Contract CLI は Python で開発されており、pip でイ

                                        Data Contract CLI から考える Data Contracts ファーストのデータパイプラインの未来
                                      • Flitter - Data Visualization Framework

                                        Why Did We Copy Flutter? Because Even Google’s Castoffs Produce Greatness! “Google’s geniuses designed Flutter’s API to be elegant and efficient.” “Copying Flutter’s API gives us a top-tier data visualization framework with minimal effort.” “Flitter offers 50+ widgets, just like Flutter.” “Need help? Just ask ChatGPT or search YouTube for Flutter tips. Apply them to Flitter, and voilà, it works!”

                                        • 生成AIの数学能力を補うには・・・?(Advanced Data Analysis/Open Interpreter/Wolfram・・・) - Qiita

                                          生成AIの数学能力を補うには・・・?(Advanced Data Analysis/Open Interpreter/Wolfram・・・)AIChatGPTLLM 2023年7月に初版発行されたStephen Wolfram「ChatGPTの頭の中(WHAT IS ChatGPT DOING...AND WHY DOES IT WORK?)」で Wolfram|Alphaが紹介されていたのをきっかけに、Wolfram Alphaを含め生成AIの数学能力を補うにはどのようなものがあるか改めて整理してみました。 生成AIの数学能力の実力 GPTなど生成AIが人間よりも苦手とされてきた数学能力ですが、(基本的なレベルであれば)Gemini UltraやGPT-4(5-shot)などでは90%を超える能力を既に持っています。 引用元:Google Blog(Gemini) GSM8KおよびMAT

                                            生成AIの数学能力を補うには・・・?(Advanced Data Analysis/Open Interpreter/Wolfram・・・) - Qiita
                                          • Data Engineer: Interview Questions

                                            Here is a list of common data engineering interview questions, with answers, which you may encounter for an interview as a data engineer. The questions during an interview for a data engineer aim to check not only the grasp of data systems and architectures but also a keen understanding of your technical prowess and problem-solving skills. This article lists essential interview questions and answe

                                              Data Engineer: Interview Questions
                                            • AWS Analytics simplify users’ data access across services with IAM Identity Center

                                              AWS Analytics services, including Amazon QuickSight, Amazon Redshift, Amazon EMR, AWS Lake Formation, and Amazon S3 via S3 Access Grants, now use trusted identity propagation with AWS IAM Identity Center to manage and audit access to data and resources based on user identity. This new capability passes identity information between connected business intelligence and data analytics applications. Ad

                                                AWS Analytics simplify users’ data access across services with IAM Identity Center
                                              • Data Science: Theories, Models, Algorithms, and Analytics

                                                Data Science: Theories, Models, Algorithms, and Analytics Sanjiv Ranjan Das 2017-03-24 Preface I developed these class notes for my Machine Learning with R course. It traces my evolution as a data scientist into redundancy, I expect I will be replaced by a machine soon! There is a lot of work remaining to be done on this, including adding many more citations, replacing figures, and making sure ful

                                                • Tumblr and WordPress to Sell Users’ Data to Train AI Tools

                                                  Tumblr and WordPress.com are preparing to sell user data to Midjourney and OpenAI, according to a source with internal knowledge about the deals and internal documentation referring to the deals. The exact types of data from each platform going to each company are not spelled out in documentation we’ve reviewed, but internal communications reviewed by 404 Media make clear that deals between Automa

                                                    Tumblr and WordPress to Sell Users’ Data to Train AI Tools
                                                  • [2024年6月6日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO

                                                    さがらです。 Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。 そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。 ※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。 Data Extract/Load Fivetran 「Fivetran Managed Data Lake Service」を発表 Fivetranが新機能として、「Fivetran Managed Data Lake Service」を発表しました。 基本的には、宛先にS3、Azure Data Lake Storage、Microsoft OneLa

                                                      [2024年6月6日号]個人的に気になったModern Data Stack情報まとめ | DevelopersIO
                                                    • Report: 2023 State of Software Engineers Data Report + Survey Results

                                                      Big Transitions in the Tech Industry Hired’s 2023 State of Software Engineers It’s been quite a year. Last March, this overview read, “the demand for software engineers is simply not slowing down. We’ve run out of ways to describe how much it’s increasing.” Then, as the market reacted to rising inflation, changes in consumer buying habits, and sales cycles, the layoffs began. It affected developer

                                                        Report: 2023 State of Software Engineers Data Report + Survey Results
                                                      • 月30万円でデータ分析組織を立ち上げる支援パッケージ「Kazaneya Virtual Data Team」のベータ提供を開始します - 風音屋

                                                        風音屋では、書籍『実践的データ基盤への処方箋』や『データマネジメントが30分でわかる本』の著者である「ゆずたそ」(@yuzutas0)監修のもと、データ分析組織の立ち上げ・運用支援パッケージ「Kazaneya Virtual Data Team」のベータ提供を開始します。 Kazaneya Virtural Tea

                                                          月30万円でデータ分析組織を立ち上げる支援パッケージ「Kazaneya Virtual Data Team」のベータ提供を開始します - 風音屋
                                                        • Change Data Capture for Microservices

                                                          Transcript Morling: Welcome to this talk about Change Data Capture for microservices. Let me set the scene a little bit with a maybe blunt statement and an observation. The world around us, this is happening in real time. People buy stuff in an online store, maybe they do some payment transactions. Maybe you have machinery or IoT devices, which send over measurements or all kinds of sensor data. N

                                                            Change Data Capture for Microservices
                                                          • why lowercase letters save data | endtimes.dev

                                                            Lowercase letters and uppercase letters use the same amout of data — 1 byte each. So, it's surprising to learn that swapping uppercase letters for lowercase letters saves data. For example: I took the front page of Hacker News and rewrote the title of each article in sentence case instead of title case — reducing the size by 31 bytes. How can it be true that changing a few uppercase letters to low

                                                            • GitHub - Technion-Kishony-lab/data-to-paper: data-to-paper: AI-driven scientific research

                                                              data-to-paper is a framework for systematically navigating the power of AI to perform complete end-to-end scientific research, starting from raw data and concluding with comprehensive, transparent, and human-verifiable scientific papers (example). Towards this goal, data-to-paper systematically guides interacting LLM and rule-based agents through the conventional scientific path, from annotated da

                                                                GitHub - Technion-Kishony-lab/data-to-paper: data-to-paper: AI-driven scientific research
                                                              • Pandas: An Ultimate Library for Data Science

                                                                Introduction to Pandas Pandas is a great library of Python for data science for most industry applications with massive amounts of different types of data. In this tutorial, we will discuss the use of Pandas, including the advanced concepts of the Pandas library for data science. We generally have a massive amount of data. And to handle it, we have already explored NumPy for data science. But is N

                                                                  Pandas: An Ultimate Library for Data Science
                                                                • [DATAで見るケータイ業界] 都市部を中心に削減が進むキャリアショップ、店舗数の半数超は三大都市圏以外に

                                                                    [DATAで見るケータイ業界] 都市部を中心に削減が進むキャリアショップ、店舗数の半数超は三大都市圏以外に
                                                                  • モダンデータスタック カテゴリ紹介 #14 『Data Privacy and Governance(データプライバシーとガバナンス)』 – Modern Data Stack Categories Overview Advent Calendar 2023 | DevelopersIO

                                                                    モダンデータスタック カテゴリ紹介 #14 『Data Privacy and Governance(データプライバシーとガバナンス)』 – Modern Data Stack Categories Overview Advent Calendar 2023 当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 14日目のエントリです。 Modern Data Stack Categories Overviewのカレンダー | Advent Calendar 2023 - Qiita Modern Data Stack Categories Overview Advent Calendar 2023 の記事一覧 | DevelopersIO データ分析、データを扱う世界では昨今『モダンデータスタック(Moder

                                                                      モダンデータスタック カテゴリ紹介 #14 『Data Privacy and Governance(データプライバシーとガバナンス)』 – Modern Data Stack Categories Overview Advent Calendar 2023 | DevelopersIO
                                                                    • X, formerly Twitter, to collect biometric and employment data

                                                                      The social media firm, formerly Twitter, will gather facial information if premium users give consent.

                                                                        X, formerly Twitter, to collect biometric and employment data
                                                                      • Data Center Rack Market Size, Share | Industry Forecast - 2032

                                                                        Data Center Rack Market Research Report Information By Component (Solution, Service), By Rack Type (Cabinets/ Enclosed Racks, Open Frame Rack), By Data Center Size (Large Data Centers, Small and Mid-sized Data Centers), By Rack Height (42U and Below, 43U up to 52U, Above 52U), By Industry Vertical (BFSI, Manufacturing, IT and Telecom, Retail, Healthcare, Media and Entertainment, Others) and By Reg

                                                                        • 2024年に描く青写真(データアーキテクチャ) / strongest-data-architecture-discussion-2024

                                                                          みんなの考えた最強のデータアーキテクチャ'24新春-最新版SP! https://datatech-jp.connpass.com/event/301807/

                                                                            2024年に描く青写真(データアーキテクチャ) / strongest-data-architecture-discussion-2024
                                                                          • [DATAで見るケータイ業界] 国内基地局ベンダ市場で45%のシェアを獲得した北欧ベンダ、大幅にシェアを落とした国内ベンダ

                                                                              [DATAで見るケータイ業界] 国内基地局ベンダ市場で45%のシェアを獲得した北欧ベンダ、大幅にシェアを落とした国内ベンダ
                                                                            • 【Security Hub修復手順】[Kinesis.1] Kinesis Data Streams は、保管中に暗号化する必要があります | DevelopersIO

                                                                              皆さん、お使いのAWS環境のセキュリティチェックはしていますか? 当エントリでは、AWS Security HubによるAWS環境のセキュリティ状況スコアリングに該当する項目についての修正手順をご紹介します。 本記事の対象コントロール [Kinesis.1] Kinesis Data Streams は、保管中に暗号化する必要があります [Kinesis.1] Kinesis streams should be encrypted at rest 前提条件 本記事はAWS Security Hubで「AWS基礎セキュリティのベストプラクティススタンダード」を利用されている方向けの内容です。 AWS Security Hubの詳細についてはこちらのブログをご覧ください。 コントロールの説明 このコントロールは、Amazon Kinesis Data Streams(以降、KDS)が保管中にサ

                                                                                【Security Hub修復手順】[Kinesis.1] Kinesis Data Streams は、保管中に暗号化する必要があります | DevelopersIO
                                                                              • We just lost 3TB of data on a SanDisk Extreme SSD

                                                                                We just lost 3TB of data on a SanDisk Extreme SSD / My colleague Vjeran is furious. By Sean Hollister, a senior editor and founding member of The Verge who covers gadgets, games, and toys. He spent 15 years editing the likes of CNET, Gizmodo, and Engadget.

                                                                                  We just lost 3TB of data on a SanDisk Extreme SSD
                                                                                • RedPajama-Data-v2: an Open Dataset with 30 Trillion Tokens for Training Large Language Models — Together AI

                                                                                  RedPajama-Data-v2: an Open Dataset with 30 Trillion Tokens for Training Large Language Models Today, we’re releasing a new version of the RedPajama dataset, with 30 trillion filtered and deduplicated tokens (100+ trillions raw) from 84 CommonCrawl dumps covering 5 languages, along with 40+ pre-computed data quality annotations that can be used for further filtering and weighting. Over the last hal

                                                                                    RedPajama-Data-v2: an Open Dataset with 30 Trillion Tokens for Training Large Language Models — Together AI