並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 19 件 / 19件

新着順 人気順

言語判定の検索結果1 - 19 件 / 19件

  • GPT-3の学習データはどのように作られたか - moriyamaのエンジニアリング備忘録

    OpenAIが発表した言語モデルGPT-3はパフォーマンスの高さから各方面で注目されており、ついにはMicrosoftが学習済みモデルの利用を独占化しました。 私個人の所感としてこれまで学習済みモデルは無料公開するという流れを無視し、(アーキテクチャではなく)学習済みモデルが商品化するのはAIビジネスの一つの転換期と感じています。 深層学習による自然言語処理分野で巨大化していくモデルを十分に学習させるためにはWebデータの活用が大きな役割を果たしています。一方、その量に関する話題はあるものの、利用にあたっての細かな前処理に関する議論はあまりなされていない印象です。 そこで本記事は学習データの構築にフォーカスします。 GPT-3の論文でも言及されている通り、学習データはGoogle Researchが発表したT5のデータを踏襲したと書かれていますので、まずはT5のデータから見て行きましょう。

      GPT-3の学習データはどのように作られたか - moriyamaのエンジニアリング備忘録
    • 【承認リードタイムが1/5】Slack ワークフロー承認機能の紹介! | BLOG - DeNA Engineering

      3行で マネージャーが喜ぶ承認システム、 CTO いわく「マジ便利すぎて鼻血出る」 5時間かかっていた承認リードタイムが58分に短縮 コストは月当たり1ドル未満 はじめに はじめまして、 IT 戦略部システム開発グループの長谷川です。入社以来一貫して社内システムの内製開発に携わっています。今では当部署のマネージャーを務める身ですが、基本的には開発大好きアプリケーションエンジニアであり、メンバーとああでもないこうでもないと意見交換しながらコーディングに没頭する日々を過ごしています。 社内システムの内製開発? 社内システムは会計、人事、総務、法務…と多領域にわたり、担当者あたりのシステム数が必然的に嵩むため、それぞれの運用効率というものが強く求められます。その意味で、社内の主軸となるシステムは原則 SaaS で賄うべしというのが世の流れです。しかしながら SaaS が提供してくれる機能はあくま

        【承認リードタイムが1/5】Slack ワークフロー承認機能の紹介! | BLOG - DeNA Engineering
      • LLM開発のためのデータエンジニアリング - Qiita

        LLM開発のためのデータエンジニアリング MLOps Advent Calendar 2023の24日目です。 Stability AIでデータ系のソフトウェアエンジニアをやっているcvuskです。主な仕事は日本語LLMのためのデータ開発です。Stability AIでは日本語LLMも各種開発しています。LLMの学習というと大量のGPUを用意して巨大なデータでモデルを学習する、というキラキラしたイメージ(?)が強いかもしれませんが、データが重要かつ苦労が耐えない課題であることは他の機械学習やディープラーニングモデルと違いありません。日本語のテキストデータは英語ほど入手しやすいわけではないのと同時に、データエンジニアリングや品質面でもいろいろと大変なことが多々あります。今回はLLMのためのテキストデータの用途やエンジニアリングについて整理します。 LLMの学習 LLMの学習は大きく分けて事前

          LLM開発のためのデータエンジニアリング - Qiita
        • Twitterの公開したアルゴリズムのソースコードで判明した「おすすめ」タイムラインに掲載されやすい投稿・掲載されにくい投稿まとめ

          Twitterの「おすすめ」タイムラインの投稿選択アルゴリズムが2023年3月31日に公開され、どんな投稿が「おすすめ」タイムラインに掲載されやすいかが明らかになりました。 Twitter's Recommendation Algorithm https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm Twitter open-sources recommendation algorithm code https://www.bleepingcomputer.com/news/technology/twitter-open-sources-recommendation-algorithm-code/ Twitter's newly-released a

            Twitterの公開したアルゴリズムのソースコードで判明した「おすすめ」タイムラインに掲載されやすい投稿・掲載されにくい投稿まとめ
          • Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました | DevelopersIO

            こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、先日Hugging FaceのブログでHugging Faceのフレームワークを用いたfine-tuningの実行方法が紹介されました。 fine-tuningにより、自社で蓄積された音声や書き起こしのデータセットがある場合は、特化した学習をすることが可能です。 また著名なHugging Faceからfine-tuningの実装がリリースされたことで、今後様々なシーンでの応用の可能性を感じます。 Hugging FaceブログではHindi語を例として実施していますが、今回はこちらについて、日本語データを例にしながら動作を確認していきたいと思います。 概要 本記事では、Hugging Faceのフレームワークを用いたfine-tuningの実行を、日本語データセットを例

              Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました | DevelopersIO
            • OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた | DevelopersIO

              こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、先日は以下の紹介記事を書きました。 今回はもう少し深堀することで、様々な使い方がわかってきたのでシェアしたいと思います。 Whisperでできること APIを使ってできるのは以下になります。 transcribe(書き起こし処理) 音声からの文字書き起こし。 99言語に対応 translate(書き起こし + 翻訳) 音声からの翻訳処理。 入力は多言語に対応していますが、出力は英語のみ。 また内包される機能として、言語判定や有音無音判定(VAD:Voice Activation Detector)があります。 この記事ではそれぞれの使い方を見ていきながら、transcribeの詳細に迫ります。 実行環境 ハードウェアなどの主な情報は以下の通りです。 GPU: Tesla

                OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた | DevelopersIO
              • 【研究開発部の技術】第5回 ニュース配信を支える自然言語処理技術 - Sansan Tech Blog

                研究開発部Architectグループの堤(@shu223)と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第5弾となる今回は、Sansan/Eightのニュース配信システムがどのように実現されているか、またその中で研究開発部のどのような技術が利用されているかについて紹介したいと思います。 ニュースの種類 現在、SansanやEightでは以下のようなニュースを配信しています。 人事異動情報 社内の共通人脈の通知 企業の最新ニュース 同業他社の最新動向 ニュースフィード 企業の最新ニュース ニュース配信のための自然言語処理技術 質の高いビジネスニュースを配信するために、以下のような研究開発部の自然言語処理技術が利用されています。 固有表現抽出 ジャンル判定 プ

                  【研究開発部の技術】第5回 ニュース配信を支える自然言語処理技術 - Sansan Tech Blog
                • スマートニュースに掲載された理由。記事を見つける方法【スマニュー砲】 - hatebcustom

                  スマートニュースに自分のブログ記事が初めて載りました。 「スマニュー砲」の効果、掲載された理由、自分の記事の見つけ方・探す方法、掲載期間についてなど。 自分の記事を探すには? 結論:記事の探し方 掲載期間はどれくらい? 掲載のアルゴリズム 結論:掲載期間 なぜ掲載されたのか? 結論:掲載理由 さいごに 先日、当ブログのこの投稿が、スマートニュースに掲載されました! ブログ日数27日目、もちろん、スマートニュース初掲載です♪ rubirubi.hateblo.jp 掲載に関するお知らせの通知メールなどは、とくにありませんでした。 掲載に気付いたきっかけは、記事を投稿した翌日、たまたまGoogle アナリティクスを見ていて、いつもよりリアルタイムの訪問が多いな~、と思い、[集客 > 参照サイト] を調べてみると、smartnews.com からの訪問数が、グンと伸びていたからでした。 「もしか

                    スマートニュースに掲載された理由。記事を見つける方法【スマニュー砲】 - hatebcustom
                  • SVMで言語を判定する(Pythonによるスクレイピング&機械学習テクニック) - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

                    今回は、Webから取得したテキストファイルを読み込ませて、それが何語で書かれたテキストなのかを判定しました。 機械学習の一大テーマである自然言語処理の復習です。(そこまで大掛かりなことをやっているわけではないですが・・・。) 今回も Pythonによるスクレイピング&機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第4章を参考にさせていただきながら、取り組んでいます。 ※今回は、「lang/train」,「lang/test」ディレクトリの配下に英語、フランス語、インドネシア語、タガログ語の四種類の言語のファイルを配置してある前提です。また、それぞれのファイルは先頭2文字がen(英語),fr(フランス語),in(インドネシア語),tl(タガログ語)というデータを作成します。(機会があれば、このファイルを自動で作成またはスクレイピング

                      SVMで言語を判定する(Pythonによるスクレイピング&機械学習テクニック) - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話
                    • 音声認識モデル”Whisper”をストリーミング処理対応させる方法 | DevelopersIO

                      こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、前回はtranscribeの内容を紐解きました。 Whisperが提供しているtranscribeのAPIは、バッチ処理のみに対応した構成となっており、リアルタイムに認識を試すのが難しくなっています。 そこで今回は、前回紐解いた結果を使ってストリーミング処理に対応させてみようと思います。 設計の概要 以下に設計の概要を図で示します。 前回ご紹介した通り、transcribeの中身は30秒単位で処理をしています(この単位を本記事ではフレームと呼びます)。 そして次の処理フレームは、前のフレームのタイムスタンプトークンの末尾から30秒となります。 そのためフレームをずらす長さ(これを本記事ではシフト長と呼びます)は動的になります。 そのため、設計方針は以下のようにしました。

                        音声認識モデル”Whisper”をストリーミング処理対応させる方法 | DevelopersIO
                      • 『機械学習エンジニアのためのTransformers』が出ます - Ahogrammer

                        このたび、オライリー・ジャパンより、『Natural Language Processing with Transformers』の翻訳書である『機械学習エンジニアのためのTransformers』を出ることになりました。素直にタイトルを訳すと、『Transformersによる自然言語処理』のようになると思うのですが、1文字違いの本が出ていたので、このようなタイトルになっています。Amazonだと8月5日に発売のようです。表紙の鳥はゴシキセイガイインコで、オセアニアに生息しています。 『機械学習エンジニアのためのTransformers』が届きました🤗 来週発売です。 pic.twitter.com/6R2dYh7X7D— Hironsan (@Hironsan13) 2022年7月28日 本書はTransformersの開発元であるHugging Faceの開発者たちによって執筆された

                          『機械学習エンジニアのためのTransformers』が出ます - Ahogrammer
                        • Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2) - ABEJA Tech Blog

                          ABEJAでデータサイエンティストをしている服部です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」に採択されたことを受け、LLMの事前学習を実施しました。 その中でモデルの学習だけでなく、学習に欠かせない大規模日本語言語コーパスを作りました。データセットのサイズとしては、語彙拡張前のMixtral Tokenizerで約400Bほどのものです。 特にその中で大部分を占めるCommon Crawlをベースとしてデータセットを作った過程について解説します。 データセットの概要 Common Crawlについて warcとwet データセット作成方針 前処理の流れ 1. 日本語の簡易判定、w

                            Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2) - ABEJA Tech Blog
                          • Chatwork の Scala プロダクトとそれを支えるチーム その壱 - Chatwork Creator's Note

                            これは Chatwork Advent Calendar 2020 / Scala Advent Calendar 2020 10日目 の記事になります。 こんにちは。サーバーサイド開発部の Scala プロダクトを開発運用する部署でマネージャーをしている、 hayasshi です。 Chatwork は Scala を採用すると決めてから、約 6 年経ちました。 その中で、失敗もしながら、少しずつ Scala のシステム領域を広げてきました。 今回と次回の二記事にて、この 6 年で開発し、いま実際に稼働運用されている、 Chatwork の Scala プロダクトの紹介と、それを普段どのように開発運用しているかについて、書きたいと思います。 Scala プロダクトの紹介 今回は Chatwork の Scala プロダクトについてご紹介します。 特に下記の項目についてそれぞれ記載したいと

                              Chatwork の Scala プロダクトとそれを支えるチーム その壱 - Chatwork Creator's Note
                            • 最新の音声認識モデル『Whisper』を使ってみたよ

                              昨日は、あひるさんの知らない技術まみれのチームに移動した時に実践したことでした。 畑の違う技術や分野に挑戦するときはすごい体力がいりますが、そこに果敢に挑戦して成果を出し続けている姿に日々刺激をもらっています..! 改まして、こんにちは! @koonagiです。 普段はインフラエンジニア兼データエンジニアとしてTerraformを書いたり、CI/CD作ったり、ETL処理書いたりしています。 普段とは違うことをしてみようと音声認識モデル『Whisper』をつかってみたので、そのことについて書いてみようと思います。 Whisperとは Whisperってなんなのよというところからですが、最近流行っているChatGPTやGPT-3を開発しているOpenAIが開発している音声認識モデルです。 モデルで利用しているトレーニングデータはウェブで収集したデータでなんと68万時間分のデータとなっております

                                最新の音声認識モデル『Whisper』を使ってみたよ
                              • gzipで言語判定 - Qiita

                                はじめに 以前、UNIXに標準搭載されているライブラリを使って日英の言語判定をしたくなったので、gzipを使った言語判定の実験をしました。 言語判定とは 文が与えられたときにそれがどの言語で書かれているのか判定するタスクです。 他の自然言語処理タスクで使われるコーパスのクリーニングをしたり、言語によって処理を変えたりするのに有用な技術です。 gzip を使った言語判定の仕組み gzip はファイル圧縮に使われるライブラリです。そのため、言語判定タスクに使うと聞いてもピンとこないかもしれません。 gzip はファイルの圧縮に LZ法という手法を用いています。 これは辞書を用いた圧縮法で、ある文字列が繰り返し出現したとき、その文字列の代わりに辞書中の番号を出力することで元の文を短い長さで表すという仕組みです。 その仕組み上、今まで入力された文字列にないようなフレーズを多く含む文に対しては圧縮の

                                  gzipで言語判定 - Qiita
                                • 【Techの道も一歩から】第37回「データの集計に Luigi を使ってみる」 - Sansan Tech Blog

                                  こんにちは。 DSOC R&D グループの高橋寛治です。 あるプロジェクトにおいて、 「DB からデータを取得し整形した結果を出力する」という一連の処理をパイプラインパッケージである Luigi を用いて行いました。 ワークフローの監視や記述が簡単に記述できて良かった*1と感じたため、ここで流れを紹介したいと思います。 Luigi Luigi は Spotify が開発・運用しているオープンソースの Python のワークフローパッケージです。 pip install luigi で簡単に導入できます。 Luigi は単独で動作させたり、スケジューラによりスケジューリングや依存関係の可視化、タスク履歴を閲覧することができます。 ワークフローはタスクから構成されます。 ざっくり説明すると、一つのタスクは一つのクラスで表現されます。 クラスは Luigi が準備しているクラスを継承し、必要な実

                                    【Techの道も一歩から】第37回「データの集計に Luigi を使ってみる」 - Sansan Tech Blog
                                  • 簡便なウェブサイト翻訳ツール(サービス)をつくってみた - Qiita

                                    これです。 i18n.page - ウェブサイト翻訳ツール https://i18n.page 宣伝も兼ねて、と言いたいところですが、実現するまでいろいろ面倒だったので、その辺りの苦労をシェアした方が良いかと思い、記事にしてみました。 まず、どのようなツール(サービス)か? 翻訳したいウェブサイト、または HTML ファイルを読み込んで、翻訳できそうな箇所を自動抽出、それを手動、または Google 翻訳にかけて対訳データを作ります。 そしてそれらを JSON データに変換し、お手製の JavaScript ツール1つに含めてパッケージしたものを出力し、先のウェブサイトに読み込ませると、自動翻訳機能が実装されるというものです。 お手軽に1つのファイルにまとまっている この翻訳ツールで出力された JavaScript ファイル(i18n-page.js)には、翻訳データ、ツールバー、自動・手

                                      簡便なウェブサイト翻訳ツール(サービス)をつくってみた - Qiita
                                    • 週刊Railsウォッチ(20191112後編)invisible gemで可視性を変えずにパッチ当て、スライド:「型なし言語のための型」、自然言語の言語名を推測ほか|TechRacho by BPS株式会社

                                      2019.11.12 週刊Railsウォッチ(20191112後編)invisible gemで可視性を変えずにパッチ当て、スライド:「型なし言語のための型」、自然言語の言語名を推測ほか こんにちは、hachi8833です。DHHがAppleクレカの件でTVに出てたようです。 "Intent doesn't matter. What matters is the outcome, and we had sexist outcomes." @dhh says he stands by his tweet calling the Apple Card "f***ing sexist." https://t.co/fgX3eQHEps pic.twitter.com/CAkaRu5oA8 — CNBC (@CNBC) November 11, 2019 各記事冒頭には⚓でパーマリンクを置いてあり

                                        週刊Railsウォッチ(20191112後編)invisible gemで可視性を変えずにパッチ当て、スライド:「型なし言語のための型」、自然言語の言語名を推測ほか|TechRacho by BPS株式会社
                                      • gzipを使用した言語判定モデル、精度がほとんどのニューラルモデルを上回る | スラド

                                        言語判定には、ディープニューラルネットワーク(DNN)が広く使われているが、この方法は計算量が大きいことから大量のデータとリソースが必要であり、実際の利用時や最適化、新しいデータへの適用にはコストがかかるという問題が起きるそうだ。そこで、簡単で軽量かつ汎用的な代替手法がACL 2023で提案されたという。手法としてはタレコミにあるように、シンプルなコンプレッサ(gzipなど)とk近傍法を組み合わせたないようだという(ACL アンソロジー、Stephen Diehl氏のツイート)。 Patilise 曰く、 ACL 2023でk近傍法とgzipを組み合わせた言語判定モデルが発表された。軽量(大量のデータと処理能力が不要)、パラメータ調整不要でPythonスクリプトにして14行という簡素なものだったが、ほとんどのニューラルモデルと同程度または上回る精度となった。すべてのデータセットでgzipを

                                        1