「言語判定」を検索 - はてなブックマーク

1 - 19 件 / 19件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

言語判定の検索結果1 - 19 件 / 19件

GPT-3の学習データはどのように作られたか - moriyamaのエンジニアリング備忘録
- 100 users
- nmoriyama.hatenablog.com
- テクノロジー
- 2020/10/09
OpenAIが発表した言語モデルGPT-3はパフォーマンスの高さから各方面で注目されており、ついにはMicrosoftが学習済みモデルの利用を独占化しました。私個人の所感としてこれまで学習済みモデルは無料公開するという流れを無視し、（アーキテクチャではなく）学習済みモデルが商品化するのはAIビジネスの一つの転換期と感じています。深層学習による自然言語処理分野で巨大化していくモデルを十分に学習させるためにはWebデータの活用が大きな役割を果たしています。一方、その量に関する話題はあるものの、利用にあたっての細かな前処理に関する議論はあまりなされていない印象です。そこで本記事は学習データの構築にフォーカスします。 GPT-3の論文でも言及されている通り、学習データはGoogle Researchが発表したT5のデータを踏襲したと書かれていますので、まずはT5のデータから見て行きましょう。
- 機械学習
- GPT-3
- NLP
- あとで読む
- AI
- machineLearning
【承認リードタイムが1/5】Slack ワークフロー承認機能の紹介！ | BLOG - DeNA Engineering
- 71 users
- engineering.dena.com
- テクノロジー
- 2020/10/05
3行でマネージャーが喜ぶ承認システム、 CTO いわく「マジ便利すぎて鼻血出る」 5時間かかっていた承認リードタイムが58分に短縮コストは月当たり1ドル未満はじめにはじめまして、 IT 戦略部システム開発グループの長谷川です。入社以来一貫して社内システムの内製開発に携わっています。今では当部署のマネージャーを務める身ですが、基本的には開発大好きアプリケーションエンジニアであり、メンバーとああでもないこうでもないと意見交換しながらコーディングに没頭する日々を過ごしています。社内システムの内製開発？社内システムは会計、人事、総務、法務…と多領域にわたり、担当者あたりのシステム数が必然的に嵩むため、それぞれの運用効率というものが強く求められます。その意味で、社内の主軸となるシステムは原則 SaaS で賄うべしというのが世の流れです。しかしながら SaaS が提供してくれる機能はあくま
- slack
- あとで読む
- bot
- DeNA
- work
- 仕事
LLM開発のためのデータエンジニアリング - Qiita
- 31 users
- qiita.com/cvusk
- テクノロジー
- 2023/12/24
LLM開発のためのデータエンジニアリング MLOps Advent Calendar 2023の24日目です。 Stability AIでデータ系のソフトウェアエンジニアをやっているcvuskです。主な仕事は日本語LLMのためのデータ開発です。Stability AIでは日本語LLMも各種開発しています。LLMの学習というと大量のGPUを用意して巨大なデータでモデルを学習する、というキラキラしたイメージ（？）が強いかもしれませんが、データが重要かつ苦労が耐えない課題であることは他の機械学習やディープラーニングモデルと違いありません。日本語のテキストデータは英語ほど入手しやすいわけではないのと同時に、データエンジニアリングや品質面でもいろいろと大変なことが多々あります。今回はLLMのためのテキストデータの用途やエンジニアリングについて整理します。 LLMの学習 LLMの学習は大きく分けて事前
- LLM
- データ
- あとで読む
- qiita
- data
- 資料
- 開発
Twitterの公開したアルゴリズムのソースコードで判明した「おすすめ」タイムラインに掲載されやすい投稿・掲載されにくい投稿まとめ
- 24 users
- gigazine.net
- テクノロジー
- 2023/04/03
Twitterの「おすすめ」タイムラインの投稿選択アルゴリズムが2023年3月31日に公開され、どんな投稿が「おすすめ」タイムラインに掲載されやすいかが明らかになりました。 Twitter's Recommendation Algorithm https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm Twitter open-sources recommendation algorithm code https://www.bleepingcomputer.com/news/technology/twitter-open-sources-recommendation-algorithm-code/ Twitter's newly-released a
Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました | DevelopersIO
- 18 users
- dev.classmethod.jp
- テクノロジー
- 2022/11/09
こんちには。データアナリティクス事業本部機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、先日Hugging FaceのブログでHugging Faceのフレームワークを用いたfine-tuningの実行方法が紹介されました。 fine-tuningにより、自社で蓄積された音声や書き起こしのデータセットがある場合は、特化した学習をすることが可能です。また著名なHugging Faceからfine-tuningの実装がリリースされたことで、今後様々なシーンでの応用の可能性を感じます。 Hugging FaceブログではHindi語を例として実施していますが、今回はこちらについて、日本語データを例にしながら動作を確認していきたいと思います。概要本記事では、Hugging Faceのフレームワークを用いたfine-tuningの実行を、日本語データセットを例
- Whisper
- あとで読む
OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた | DevelopersIO
- 15 users
- dev.classmethod.jp
- テクノロジー
- 2022/09/29
こんちには。データアナリティクス事業本部機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、先日は以下の紹介記事を書きました。今回はもう少し深堀することで、様々な使い方がわかってきたのでシェアしたいと思います。 Whisperでできること APIを使ってできるのは以下になります。 transcribe(書き起こし処理) 音声からの文字書き起こし。 99言語に対応 translate(書き起こし + 翻訳) 音声からの翻訳処理。入力は多言語に対応していますが、出力は英語のみ。また内包される機能として、言語判定や有音無音判定（VAD：Voice Activation Detector）があります。この記事ではそれぞれの使い方を見ていきながら、transcribeの詳細に迫ります。実行環境ハードウェアなどの主な情報は以下の通りです。 GPU: Tesla
- AI
【研究開発部の技術】第5回ニュース配信を支える自然言語処理技術 - Sansan Tech Blog
- 14 users
- buildersbox.corp-sansan.com
- テクノロジー
- 2022/12/22
研究開発部Architectグループの堤（@shu223）と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第5弾となる今回は、Sansan/Eightのニュース配信システムがどのように実現されているか、またその中で研究開発部のどのような技術が利用されているかについて紹介したいと思います。ニュースの種類現在、SansanやEightでは以下のようなニュースを配信しています。人事異動情報社内の共通人脈の通知企業の最新ニュース同業他社の最新動向ニュースフィード企業の最新ニュースニュース配信のための自然言語処理技術質の高いビジネスニュースを配信するために、以下のような研究開発部の自然言語処理技術が利用されています。固有表現抽出ジャンル判定プ
- あとで読む
スマートニュースに掲載された理由。記事を見つける方法【スマニュー砲】 - hatebcustom
- 11 users
- rubirubi.hateblo.jp
- 暮らし
- 2019/08/18
スマートニュースに自分のブログ記事が初めて載りました。「スマニュー砲」の効果、掲載された理由、自分の記事の見つけ方・探す方法、掲載期間についてなど。自分の記事を探すには？結論：記事の探し方掲載期間はどれくらい？掲載のアルゴリズム結論：掲載期間なぜ掲載されたのか？結論：掲載理由さいごに先日、当ブログのこの投稿が、スマートニュースに掲載されました！ブログ日数27日目、もちろん、スマートニュース初掲載です♪ rubirubi.hateblo.jp 掲載に関するお知らせの通知メールなどは、とくにありませんでした。掲載に気付いたきっかけは、記事を投稿した翌日、たまたまGoogle アナリティクスを見ていて、いつもよりリアルタイムの訪問が多いな～、と思い、[集客 > 参照サイト] を調べてみると、smartnews.com からの訪問数が、グンと伸びていたからでした。「もしか
- あとで読む
SVMで言語を判定する（Pythonによるスクレイピング＆機械学習テクニック） - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話
- 9 users
- oregin-ai.hatenablog.com
- テクノロジー
- 2020/06/07
今回は、Webから取得したテキストファイルを読み込ませて、それが何語で書かれたテキストなのかを判定しました。機械学習の一大テーマである自然言語処理の復習です。（そこまで大掛かりなことをやっているわけではないですが・・・。）今回も Pythonによるスクレイピング＆機械学習開発テクニック増補改訂 Scrapy、BeautifulSoup、scik [ クジラ飛行机 ]の第４章を参考にさせていただきながら、取り組んでいます。 ※今回は、「lang/train」,「lang/test」ディレクトリの配下に英語、フランス語、インドネシア語、タガログ語の四種類の言語のファイルを配置してある前提です。また、それぞれのファイルは先頭２文字がen(英語),fr(フランス語),in(インドネシア語),tl(タガログ語)というデータを作成します。（機会があれば、このファイルを自動で作成またはスクレイピング
音声認識モデル”Whisper”をストリーミング処理対応させる方法 | DevelopersIO
- 7 users
- dev.classmethod.jp
- テクノロジー
- 2022/10/09
こんちには。データアナリティクス事業本部機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、前回はtranscribeの内容を紐解きました。 Whisperが提供しているtranscribeのAPIは、バッチ処理のみに対応した構成となっており、リアルタイムに認識を試すのが難しくなっています。そこで今回は、前回紐解いた結果を使ってストリーミング処理に対応させてみようと思います。設計の概要以下に設計の概要を図で示します。前回ご紹介した通り、transcribeの中身は30秒単位で処理をしています（この単位を本記事ではフレームと呼びます）。そして次の処理フレームは、前のフレームのタイムスタンプトークンの末尾から30秒となります。そのためフレームをずらす長さ（これを本記事ではシフト長と呼びます）は動的になります。そのため、設計方針は以下のようにしました。
『機械学習エンジニアのためのTransformers』が出ます - Ahogrammer
- 7 users
- hironsan.hatenablog.com
- テクノロジー
- 2022/08/07
このたび、オライリー・ジャパンより、『Natural Language Processing with Transformers』の翻訳書である『機械学習エンジニアのためのTransformers』を出ることになりました。素直にタイトルを訳すと、『Transformersによる自然言語処理』のようになると思うのですが、1文字違いの本が出ていたので、このようなタイトルになっています。Amazonだと8月5日に発売のようです。表紙の鳥はゴシキセイガイインコで、オセアニアに生息しています。『機械学習エンジニアのためのTransformers』が届きました🤗 来週発売です。 pic.twitter.com/6R2dYh7X7D— Hironsan (@Hironsan13) 2022年7月28日本書はTransformersの開発元であるHugging Faceの開発者たちによって執筆された
- 機械学習
- 本
Common Crawlから作る大規模日本語コーパスとその前処理（Mixtral 8x7Bを語彙拡張継続事前学習 Part2） - ABEJA Tech Blog
- 7 users
- tech-blog.abeja.asia
- テクノロジー
- 2024/05/07
ABEJAでデータサイエンティストをしている服部です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構（以下「NEDO」）が公募した「ポスト5G情報通信システム基盤強化研究開発事業／ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」に採択されたことを受け、LLMの事前学習を実施しました。その中でモデルの学習だけでなく、学習に欠かせない大規模日本語言語コーパスを作りました。データセットのサイズとしては、語彙拡張前のMixtral Tokenizerで約400Bほどのものです。特にその中で大部分を占めるCommon Crawlをベースとしてデータセットを作った過程について解説します。データセットの概要 Common Crawlについて warcとwet データセット作成方針前処理の流れ 1. 日本語の簡易判定、w
Chatwork の Scala プロダクトとそれを支えるチームその壱 - Chatwork Creator's Note
- 4 users
- creators-note.chatwork.com
- テクノロジー
- 2020/12/11
これは Chatwork Advent Calendar 2020 / Scala Advent Calendar 2020 10日目の記事になります。こんにちは。サーバーサイド開発部の Scala プロダクトを開発運用する部署でマネージャーをしている、 hayasshi です。 Chatwork は Scala を採用すると決めてから、約 6 年経ちました。その中で、失敗もしながら、少しずつ Scala のシステム領域を広げてきました。今回と次回の二記事にて、この 6 年で開発し、いま実際に稼働運用されている、 Chatwork の Scala プロダクトの紹介と、それを普段どのように開発運用しているかについて、書きたいと思います。 Scala プロダクトの紹介今回は Chatwork の Scala プロダクトについてご紹介します。特に下記の項目についてそれぞれ記載したいと
- scala
- aws
最新の音声認識モデル『Whisper』を使ってみたよ
- 4 users
- zenn.dev/stafes_blog
- テクノロジー
- 2022/12/12
昨日は、あひるさんの知らない技術まみれのチームに移動した時に実践したことでした。畑の違う技術や分野に挑戦するときはすごい体力がいりますが、そこに果敢に挑戦して成果を出し続けている姿に日々刺激をもらっています..! 改まして、こんにちは！ @koonagiです。普段はインフラエンジニア兼データエンジニアとしてTerraformを書いたり、CI/CD作ったり、ETL処理書いたりしています。普段とは違うことをしてみようと音声認識モデル『Whisper』をつかってみたので、そのことについて書いてみようと思います。 Whisperとは Whisperってなんなのよというところからですが、最近流行っているChatGPTやGPT-3を開発しているOpenAIが開発している音声認識モデルです。モデルで利用しているトレーニングデータはウェブで収集したデータでなんと68万時間分のデータとなっております
gzipで言語判定 - Qiita
- 4 users
- qiita.com/TomokiMatsuno
- テクノロジー
- 2022/02/27
はじめに以前、UNIXに標準搭載されているライブラリを使って日英の言語判定をしたくなったので、gzipを使った言語判定の実験をしました。言語判定とは文が与えられたときにそれがどの言語で書かれているのか判定するタスクです。他の自然言語処理タスクで使われるコーパスのクリーニングをしたり、言語によって処理を変えたりするのに有用な技術です。 gzip を使った言語判定の仕組み gzip はファイル圧縮に使われるライブラリです。そのため、言語判定タスクに使うと聞いてもピンとこないかもしれません。 gzip はファイルの圧縮に LZ法という手法を用いています。これは辞書を用いた圧縮法で、ある文字列が繰り返し出現したとき、その文字列の代わりに辞書中の番号を出力することで元の文を短い長さで表すという仕組みです。その仕組み上、今まで入力された文字列にないようなフレーズを多く含む文に対しては圧縮の
- language
- 言語
【Techの道も一歩から】第37回「データの集計に Luigi を使ってみる」 - Sansan Tech Blog
- 4 users
- buildersbox.corp-sansan.com
- テクノロジー
- 2021/03/29
こんにちは。 DSOC R&D グループの高橋寛治です。あるプロジェクトにおいて、「DB からデータを取得し整形した結果を出力する」という一連の処理をパイプラインパッケージである Luigi を用いて行いました。ワークフローの監視や記述が簡単に記述できて良かった*1と感じたため、ここで流れを紹介したいと思います。 Luigi Luigi は Spotify が開発・運用しているオープンソースの Python のワークフローパッケージです。 pip install luigi で簡単に導入できます。 Luigi は単独で動作させたり、スケジューラによりスケジューリングや依存関係の可視化、タスク履歴を閲覧することができます。ワークフローはタスクから構成されます。ざっくり説明すると、一つのタスクは一つのクラスで表現されます。クラスは Luigi が準備しているクラスを継承し、必要な実
- あとで読む
簡便なウェブサイト翻訳ツール（サービス）をつくってみた - Qiita
- 3 users
- qiita.com/hibara
- テクノロジー
- 2021/02/10
これです。 i18n.page - ウェブサイト翻訳ツール https://i18n.page 宣伝も兼ねて、と言いたいところですが、実現するまでいろいろ面倒だったので、その辺りの苦労をシェアした方が良いかと思い、記事にしてみました。まず、どのようなツール（サービス）か？翻訳したいウェブサイト、または HTML ファイルを読み込んで、翻訳できそうな箇所を自動抽出、それを手動、または Google 翻訳にかけて対訳データを作ります。そしてそれらを JSON データに変換し、お手製の JavaScript ツール１つに含めてパッケージしたものを出力し、先のウェブサイトに読み込ませると、自動翻訳機能が実装されるというものです。お手軽に１つのファイルにまとまっているこの翻訳ツールで出力された JavaScript ファイル（i18n-page.js）には、翻訳データ、ツールバー、自動・手
週刊Railsウォッチ（20191112後編）invisible gemで可視性を変えずにパッチ当て、スライド:「型なし言語のための型」、自然言語の言語名を推測ほか｜TechRacho by BPS株式会社
- 3 users
- techracho.bpsinc.jp
- テクノロジー
- 2019/11/12
2019.11.12 週刊Railsウォッチ（20191112後編）invisible gemで可視性を変えずにパッチ当て、スライド:「型なし言語のための型」、自然言語の言語名を推測ほかこんにちは、hachi8833です。DHHがAppleクレカの件でTVに出てたようです。 "Intent doesn't matter. What matters is the outcome, and we had sexist outcomes." @dhh says he stands by his tweet calling the Apple Card "f***ing sexist." https://t.co/fgX3eQHEps pic.twitter.com/CAkaRu5oA8 — CNBC (@CNBC) November 11, 2019 各記事冒頭には⚓でパーマリンクを置いてあり
- ruby
- javascript
gzipを使用した言語判定モデル、精度がほとんどのニューラルモデルを上回る | スラド
- 3 users
- srad.jp
- 世の中
- 2023/07/20
言語判定には、ディープニューラルネットワーク（DNN）が広く使われているが、この方法は計算量が大きいことから大量のデータとリソースが必要であり、実際の利用時や最適化、新しいデータへの適用にはコストがかかるという問題が起きるそうだ。そこで、簡単で軽量かつ汎用的な代替手法がACL 2023で提案されたという。手法としてはタレコミにあるように、シンプルなコンプレッサ（gzipなど）とk近傍法を組み合わせたないようだという（ACL アンソロジー、Stephen Diehl氏のツイート）。 Patilise 曰く、 ACL 2023でk近傍法とgzipを組み合わせた言語判定モデルが発表された。軽量（大量のデータと処理能力が不要）、パラメータ調整不要でPythonスクリプトにして14行という簡素なものだったが、ほとんどのニューラルモデルと同程度または上回る精度となった。すべてのデータセットでgzipを