並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 1685件

新着順 人気順

recognitionの検索結果161 - 200 件 / 1685件

  • GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB

    Googleは、非構造化文書(例えばレシートなど)から高精度にテキストを抽出するOCR(Optical Character Recognition)技術『LMDX(Language Model-based Document Information Extraction and Localization)』を発表しました。この技術は、特にGoogleの大規模な言語モデル「Bard」と、Google DriveやGmailなどのサービスとの連携をさらに強化する可能性もあります。 参照論文情報 タイトル:LMDX: Language Model-based Document Information Extraction and Localization 著者:Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ram

      GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB
    • LogLog Games

      The article is also available in Chinese. Disclaimer: This post is a very long collection of thoughts and problems I've had over the years, and also addresses some of the arguments I've been repeatedly told. This post expresses my opinion the has been formed over using Rust for gamedev for many thousands of hours over many years, and multiple finished games. This isn't meant to brag or indicate su

      • 顔誤認は冤罪が怖い! IBMに続きAmazon、マイクロソフトも捜査利用停止宣言

        顔誤認は冤罪が怖い! IBMに続きAmazon、マイクロソフトも捜査利用停止宣言2020.06.12 23:0010,437 satomi こちらの写真、見分ける自信ありますか? これ、黒人の方が見ると全然別人に見えるのだけど、白人の方が見るとほぼ同一人物に見えることがあるそうなんですよ? 人間の苦手分野はAIも苦手というわけで、IBMが8日、「監視、人種識別、人権と自由の侵害に顔認識などのテクノロジーを使うのは断固反対!」と米議会宛ての書簡で宣言し、顔認識技術の研究、開発、広告、販売の終了を発表したのに続き、10日にはAmazon(アマゾン)も自社の顔認識システム「Recognition」の捜査利用を1年禁じることを表明。Microsoft(マイクロソフト)も法が整備されるまでは警察への販売を控えることを誓いました。 アメリカで沸き起こっている警察による人種差別抗議デモを受けた動きですが

          顔誤認は冤罪が怖い! IBMに続きAmazon、マイクロソフトも捜査利用停止宣言
        • コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編 | BLOG - DeNA Engineering

          はじめに こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている加藤です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は 2D Human Pose Estimation 編として加藤直樹 ( @nk35jk ) が調査を行いました。 本記事では 2D Human Pose Estimation に関する代表的な研究事例を紹介するとともに、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された 2D Human Pose Estimation の最新論文を紹介します。 過去の他タスク編については以下をご参照ください。 Human Recognition 編 (2019/04/26) 3D Vision 編 (2019/06/04) キーポイント検

            コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編 | BLOG - DeNA Engineering
          • 感染・伝播性の増加や抗原性の変化が懸念される 新型コロナウイルス(SARS-CoV-2)の新規変異株について (第6報)

            国立感染症研究所 2021年2月12日18:00時点 PDF 要約 ウイルスのヒトへの感染性・伝播のしやすさや、すでに感染した者・ワクチン接種者が獲得した免疫の効果に影響を与える可能性のある遺伝子変異を有する複数の新型コロナウイルス(SARS-CoV-2)の新規変異株として、特にVOC-202012/01, 501Y.V2, 501Y.V3の流行が懸念されている。いずれも感染性・伝播のしやすさに影響があるとされるN501Y遺伝子を有するが、特にVOC-202012/01については、2次感染率の増加や、死亡リスクの増加の可能性が疫学データから示唆されている。501Y.V2と501Y.V3については、さらに抗原性に影響を与える可能性があるE484K変異も有する。特に501Y.V2については、過去の感染によって得られた免疫や承認されているワクチンによって得られた免疫を回避する可能性が指摘されてお

            • 新たな活性化関数「FReLU」誕生&解説! - Qiita

              オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 他にも次のような記事を書いていますので興味があればぜひ! 【2020決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- 画像認識の定番データセットImageNetはもう終わりか パラメータ数を激減させる新しい畳み込み「MixConv」解説! 自然言語処理の王様「BERT」の論文を徹底解説 【基本編】画像認識に使用されるData Augmentationを一挙にまとめてみた! 画像認識に特化させた新たな活性化関数FReLU解説&実装! 今やあらゆる分野で驚くべき結果を残し続けているニューラルネットワークですが、そのニューラルネットに無くてはならないものこそが活性化関数で

                新たな活性化関数「FReLU」誕生&解説! - Qiita
              • ウクライナ危機でアフリカが見せた“怒り”のスピーチ 世界中で大きな反響

                ロシアの軍事侵攻をアフリカ諸国はどうみているのでしょうか。 ロシアによるウクライナへの軍事侵攻開始からおよそ1週間。世界からロシアに対し、批判の声が向けられるなか、あるスピーチが話題を集めています。 先月21日、アメリカで開催された国連の緊急会合。ケニアのキマニ国連大使のスピーチです。 この日、ロシアのプーチン大統領はウクライナ東部のドネツク州とルガンスク州の一部地域の独立を承認、この地域への軍の派遣を命令していました。 かつて、イギリスを始めとした欧州列強による植民地支配を受け、国境を決められ分断された過去を持つアフリカ。 軍事力を振りかざし、一方的に独立を承認したロシアの行動に対し、キマニ氏はアフリカの歴史と照らし合わせ、憤りをあらわにしました。 ケニア共和国・キマニ国連大使: 「This situation echoes our history. Kenya、 almost ever

                  ウクライナ危機でアフリカが見せた“怒り”のスピーチ 世界中で大きな反響
                • ついに出た!本当にDETR! 物体検出の革新的なパラダイム

                  3つの要点 ✔️ ついにTransformerを物体検出に応用 ✔️ End-to-endなモデルを実現し、人手による設計を削減 ✔️ 物体検出を直接的な集合予測問題として再定義 End-to-End Object Detection with Transformers written by Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko (Submitted on 26 May 2020 (v1), last revised 28 May 2020 (this version, v3)) Comments: Published by arXiv Subjects: Computer Vision and Pattern Reco

                    ついに出た!本当にDETR! 物体検出の革新的なパラダイム
                  • 失敗から学ぶ機械学習応用~Another Story~ - Qiita

                    はじめに 機械学習をどう学んだか by 日経 xTECH ビジネスAI② Advent Calendar 2019 13日目の記事です。 本記事はSlideShareで公開した勉強会資料「失敗から学ぶ機械学習応用」 のあとがき的な位置づけの記事です。 おそらく機械学習の勉強法やおすすめ書籍、Kaggle参戦などの話題は他の方がまとめていると思うので、私は機械学習のプロジェクトに関わる中で得た学びを中心に書いていこうと思います。 機械学習をどう学んだか はじめに私が機械学習テーマに配属されてから勉強会発表にいたるまでの遍歴と学び、そしてお世話になった教材をざっくりと振り返ってみます。 ※明確な期間や時期は伏せますが、全体で約4、5年くらいのスパンです。 1.前任者の異動により機械学習テーマを引き継ぐ 機械学習テーマを担当していた前任者が異動し、素人だった私がそのテーマを引き継ぐことになる。

                      失敗から学ぶ機械学習応用~Another Story~ - Qiita
                    • Stanford CS229: Machine Learning Full Course taught by Andrew Ng | Autumn 2018

                      Led by Andrew Ng, this course provides a broad introduction to machine learning and statistical pattern recognition. Topics include: supervised learning (gen...

                        Stanford CS229: Machine Learning Full Course taught by Andrew Ng | Autumn 2018
                      • Host your LLMs on Cloud Run | Google Cloud Blog

                        Run your AI inference applications on Cloud Run with NVIDIA GPUs Developers love Cloud Run for its simplicity, fast autoscaling, scale-to-zero capabilities, and pay-per-use pricing. Those same benefits come into play for real-time inference apps serving open gen AI models. That's why today, we’re adding support for NVIDIA L4 GPUs to Cloud Run, in preview. This opens the door to many new use cases

                          Host your LLMs on Cloud Run | Google Cloud Blog
                        • 描写の哲学において写真は個別の議論を必要とするのか? - obakeweb

                          「描写の哲学」研究ノートです。 「描写の哲学ビギナーズガイド」で言えば、「1.描写の本性:描写とはなにか? 画像とはなにか?」と「6.写真の特性:写真のなにがそんなに特別なのか?」にまたがる話題。 写真(photographs)は画像の一種だが、とりわけ特殊な性格を持った画像である。 ごく素朴な直観において、「絵画は間違いうるが、写真は嘘をつかない」「絵画は主観的な表現だが、写真は客観的な伝達である」と思われる。 描写の哲学は基本的に「画像」一般の本性に迫ろうとする分野だが、絵画のような手製(hand-made)の画像と写真を分けて論じるべきかどうかについては、意見が別れている。 すなわち、「絵画と写真は区別して論じるべきだ/論じざるを得ない」と考える陣営と、「なんらかのひとつの原理によって画像一般を包括的に説明すべきだ」と考える陣営がある。適当に、前者を区別派、後者を包括派と呼んでおこう

                            描写の哲学において写真は個別の議論を必要とするのか? - obakeweb
                          • 拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ

                            はじめに こんにちは。BASEのデータ分析チーム(Data Strategy Team)で不正対策を行ったり、機械学習モデルを触ったりしている竹内です。 先日チーム内の論文読み会でニューラルネットを用いた画像合成によるバーチャル試着技術というトピックに触れる機会があったので、その最近のトレンドについて改めてブログという形でまとめてみました。 バーチャル試着は画像生成モデルの実用的なユースケースの一つとして今現在データセットの拡充やアーキテクチャの検証が進んでいる分野の一つであり、個人的には非常にアツいトピックだと感じています。 バーチャル試着とは バーチャル試着(Virtual Try On)とは、ある人物がある衣服を着用した状態を画像や3Dモデルなどの情報をもとに仮想的に実現し、どのように見えるか可視化する技術のことです。 ネットショップの普及により、店頭に出向かずともPCやスマートフォ

                              拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ
                            • テスラの「完全自動運転をAIチームディレクターが解説」を翻訳とともに解説 - EVsmartブログ

                              『CVPR2021』というコンピュータービジョンのイベントで、テスラのAIチームシニアディレクターであるAndrej Karpathy氏が登壇。テスラが進める完全自動運転への取り組みを解説しました。はたして、テスラはどこまで進んでいるのか。テスラオーナーで翻訳家の池田篤史氏が翻訳しつつ解説します。かなり専門的ながら、興味深い内容です。 ※冒頭画像はCVPRウェブサイトより引用。 はじめに 2021年6月下旬に開催されたCVPR(Computer Vision and Pattern Recognition)に、昨年に続きテスラのAIチームシニアディレクター、アンドレイ・カーパシー氏が登壇し、カメラからの入力のみで自動運転機能を達成する取り組みについて解説しました。この記事ではそれに加え、テスラハッカーとして有名なGreentheonly氏にも取材をして、アンドレイ氏が表向き言えないようなこ

                                テスラの「完全自動運転をAIチームディレクターが解説」を翻訳とともに解説 - EVsmartブログ
                              • もっと早く使いたかったPDF編集ソフト「PDFelement」のすごいところ【今日のライフハックツール】 | ライフハッカー・ジャパン

                                もう「面倒なファイルだなぁ」とは思わない! 仕事をしていくなかで必ず出会う、PDFというファイル形式。しかし、WordやExcelといった一般的なファイルよりも扱いづらいと感じたこともあるのでは? WordやExcelからPDF形式で出力することもできますが、PDFそのものを編集するソフトを使えば、もっと効率的に軽やかに仕事ができます。「元データどこだっけ?」となることもありません。 そもそもPDFってなんだっけ?ソフトを紹介する前に、簡単にPDFそのものについての解説をば。 PDF(Portable Document Format)はAdobe社が開発した文書フォーマットで、PC、スマホ、あるいはOSの違いといった環境に左右されずに文書を表示・保存できるのが強み。印刷にも柔軟に対応できます。 たとえばWordファイルを扱う場合、ソフトのバージョンやPCの違いによって、表示やレイアウトが乱

                                  もっと早く使いたかったPDF編集ソフト「PDFelement」のすごいところ【今日のライフハックツール】 | ライフハッカー・ジャパン
                                • 機械学習チームで論文読み会を実施してみました(A ConvNet for the 2020s解説) - BASEプロダクトチームブログ

                                  BASEの機械学習チームで論文読み会を実施してみました こんにちは。BASEのDataStrategy(DS)チームでエンジニアをしている竹内です。 DSチームではBASEにおける様々なデータ分析業務をはじめ、機械学習技術を利用した検索、推薦機能のサポート、商品のチェックや不正決済の防止などに取り組んでいます。 先日、チーム内で最新の機械学習技術についての知見を相互に深めるための試みとして、各々興味のある機械学習系の論文を持ち寄って紹介し合う、いわゆる論文読み会というものを実施してみました。 この記事では、その会で私が発表した内容の一部を紹介したいと思います。 ※ 中身は論文読み会用から本記事用に一部修正を加えています。 A ConvNet for the 2020s 紹介する論文について タイトル: A ConvNet for the 2020s 著者: Zhuang Liu, Hanz

                                    機械学習チームで論文読み会を実施してみました(A ConvNet for the 2020s解説) - BASEプロダクトチームブログ
                                  • ついに誕生!期待の新しい活性化関数「Mish」解説

                                    3つの要点 ✔️ ReLU、Swishに次ぐ新たな活性化関数Mishを提案 ✔️ MNISTやCIFAR-10/100などでReLUとSwishを圧倒 ✔️ 論文筆者実装のGitHubレポは早速600以上のスターを持ち、非常に簡単に使える Mish: A Self Regularized Non-Monotonic Neural Activation Function written by Diganta Misra (Submitted on 23 Aug 2019 (v1), last revised 2 Oct 2019 (this version, v2)) Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Neural and Evolutionary Comp

                                      ついに誕生!期待の新しい活性化関数「Mish」解説
                                    • RWKVについて解説

                                      本記事では、RWKVとよばれるモデルのアーキテクチャについて詳しく説明します。 はじめに 自然言語処理の分野において、Transformer[1]の登場以前に一般的に使用されてきたRNN[2]はいくつかの課題を抱えており、その課題を克服する新たな手法として、RNNとは完全に異なるアプローチを取るTransformerが登場しました。しかし、Transformerにも解決すべき問題が存在しています。そこで、これらのアプローチを結びつけて進化させていく必要が出てきました。 まず、RNNの利点と欠点を見てみましょう。RNNは、文章の長さにほとんど制約がなく、計算コストも比較的小さいという利点があります。しかし、以前の入力を正確に記憶することが難しく(長期依存性を捉えられない)、学習を高速化することも難しい(学習並列化が困難)という欠点も存在します。 一方、Transformerは長期依存性を捉え

                                        RWKVについて解説
                                      • What is Image-to-Text? - Hugging Face

                                        Image to text models output a text from a given image. Image captioning or optical character recognition can be considered as the most common applications of image to text. Use Cases Image Captioning Image Captioning is the process of generating textual description of an image. This can help the visually impaired people to understand what's happening in their surroundings. Optical Character Recogn

                                          What is Image-to-Text? - Hugging Face
                                        • 音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita

                                          本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化 重みの fp16 化 TorchScript 化 認識の長さを30秒ごとから10秒ごとに 結果処理速度が約2倍に ソースコード: https://github.com/projectlucas/efficient_whisper 実験結果: https://github.com/projectlucas/efficient_whisper/blob/main/notebooks/efficient_whisper.ipynb はじめに こんにちは株式会社 MIXI Romi 事業部 Engineering Manager の

                                            音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita
                                          • 100+ Best GitHub Repositories For Machine Learning

                                            There are millions of github repos and filtering them is an insane amount of work. It takes huge time, efforts and a lot more. We have done this for you. In this article we’ll share a curated list of 100+ widely-known, recommended and most popular repositories and open source github projects for Machine Learning and Deep Learning. So without further ado, Let’s see all the hubs created by experts a

                                              100+ Best GitHub Repositories For Machine Learning
                                            • Designed to Deceive: Do These People Look Real to You? (Published 2020)

                                              The creation of these types of fake images only became possible in recent years thanks to a new type of artificial intelligence called a generative adversarial network. In essence, you feed a computer program a bunch of photos of real people. It studies them and tries to come up with its own photos of people, while another part of the system tries to detect which of those photos are fake. The back

                                                Designed to Deceive: Do These People Look Real to You? (Published 2020)
                                              • What to know about Threads

                                                Today, Meta is launching its new microblogging platform called Threads. What is noteworthy about this launch is that Threads intends to become part of the decentralized social web by using the same standard protocol as Mastodon, ActivityPub. There’s been a lot of speculation around what Threads will be and what it means for Mastodon. We’ve put together some of the most common questions and our res

                                                • macOSのVisionフレームワークでOBSの映像からテキストを抽出するWebSocketプロキシ - 詩と創作・思索のひろば

                                                  激安HDMIキャプチャーボードを買ってから、ときどきゲームプレイの録画・配信をしている。OBS Studioというソフトウェアがデファクトらしく、自分もこれを使っている。 便利なことにOBSにはWebSocketで操作できるインタフェースがあり、JavaScriptやPythonからかなり自由に操作することができる。となればソフトウェアエンジニアとしてはプレイログを構造化して残したいわけ。 WebSocket経由でスクリーンショットも随時取得できるので、画像を分析することでたとえばシーン判定はできるが、さらに詳細な情報を取ろうとするとテキスト情報もほしい。クラウドサービスなどに金をかけずに手軽にやるならTessaract一択となるが、素晴らしいソフトウェアではあるものの期待する精度を出すには工夫がいりそう。具体的には、ポケモンの名前は日本語だけでなく中国語の場合もある(左下の「古劍豹」)。

                                                    macOSのVisionフレームワークでOBSの映像からテキストを抽出するWebSocketプロキシ - 詩と創作・思索のひろば
                                                  • TechCrunch

                                                    Microsoft has changed its policy to ban U.S. police departments from using generative AI for facial recognition through the Azure OpenAI Service, the company’s fully managed, enterprise-focused

                                                      TechCrunch
                                                    • Web Neural Network API

                                                      Web Neural Network API W3C Candidate Recommendation Draft, 5 May 2024 More details about this document This version: https://www.w3.org/TR/2024/CRD-webnn-20240505/ Latest published version: https://www.w3.org/TR/webnn/ Editor's Draft: https://webmachinelearning.github.io/webnn/ Previous Versions: https://www.w3.org/TR/2024/CRD-webnn-20240503/ History: https://www.w3.org/standards/history/webnn/ Im

                                                      • 「なぜ私が死ななければならないのですか」

                                                        Imagine a situation in which a patient asks a doctor “Why must I die?” and the doctor stands there stunned. Physicist Schrödinger claimed that scientists unconsciously put “I” as the subject of recognition outside the objective world. Both doctor and patient put “I” as the subject of recognition outside the objective world. In medicine as a science, doctors eliminate the fact that each patient is

                                                        • OpenAI Multimodal Research

                                                          A long-term objective of artificial intelligence is to build “multimodal” neural networks—AI systems that learn about concepts in several modalities, primarily the textual and visual domains, in order to better un­der­stand the world. In our latest research an­nounce­ments, we present two neural networks that bring us closer to this goal. The first neural network, DALL·E, can successfully turn tex

                                                            OpenAI Multimodal Research
                                                          • 読書メモ:学術出版の来た道(有田正規 著) - 重ね描き日記(rmaruy_blogあらため)

                                                            学術出版の来た道 (岩波科学ライブラリー 307) 作者:有田 正規 岩波書店 Amazon 何気なく手に取ったこの本、非常に面白く、ためになる内容だった。タイトルに「学術出版」とあるが、「学術書」というよりは「学術誌」(いわゆる「ジャーナル」)が主題だ。 私の予備知識は以下のようなところだった。 研究者は、論文を書くことで成果を発表し、そのことで業績を認められる。 論文は、エルゼビア、シュプリンガーなど一握りの出版社が刊行する学術誌に掲載される。 近年はインターネット上でアクセスできるようになっているが、論文数の急増、雑誌の購読料の高騰など、様々な構造的問題が指摘されている。 …ここまでは、自分も何となく知っていた。 しかし、ではそうした学術界と出版界の関係がどのように構築されてきたのか。なぜ、大手出版からたびたび研究者から非難を浴びながらも、そのビジネスを続けられているのか*1。学術書

                                                              読書メモ:学術出版の来た道(有田正規 著) - 重ね描き日記(rmaruy_blogあらため)
                                                            • Google Cloud Speech-to-Text APIをいろいろ調査してみる - OPTiM TECH BLOG

                                                              こんにちは、2020年新卒入社予定の山口です!修論と引越し準備とアルバイトで慌ただしい日々を過ごしています。今日は業務で触った、Google製API Google Cloud Speech-to-Text API について皆さんと共有できればと思います。 Google Cloud Speech-to-Text API とは APIを導入していく GCP側 PC側 実際に試してみる 認識モデルを変更してみる マルチチャンネルで試してみる ファイル形式・サンプリング周波数を比較してみる ナレーション音声(「本日は〜」の音声です。) 走れメロス_朗読 おわりに Google Cloud Speech-to-Text API とは Google Cloud Speech-to-Text API は名前の通り、音声データから文字起こしをするAPIです。この音声データは私たちが日頃聞いているような音声

                                                                Google Cloud Speech-to-Text APIをいろいろ調査してみる - OPTiM TECH BLOG
                                                              • 点群データにおける表現学習 - Ridge-institute R&D Blog

                                                                こんにちは,株式会社Ridge-iの@obaradsです.本記事では点群処理における表現学習手法について紹介します.また,本記事は@machinery81にレビューしていただきました. TL;DR 表現学習とは 点群で表現学習を扱う理由 点群の特徴の生成 ラベル付きデータが制限されている状況下におけるモデルの性能向上 点群間の対応を見つけるための表現学習 表現学習方法について 再構築タスクによる学習 Contrastive Learning 点群の表現学習に関する文献紹介 点群処理への深層学習の適用以前の特徴量の算出 ~2017年:PointNetが提案される以前の表現学習手法 2017~2019年:PointNetが提案されて以降の生成モデルを用いた表現学習手法 2019~2020年:自己教師あり学習を利用した表現学習手法 2020年~:シーン点群に着目した表現学習手法 まとめと今後の傾

                                                                  点群データにおける表現学習 - Ridge-institute R&D Blog
                                                                • Whisperで話者分離ができる!会議や録音データを素早く文字起こし - Qiita

                                                                  この記事はSafie Engineers' Blog! Advent Calendar 8日目の記事です。 はじめに 映像から取得できる1時間程度の映像(ムービークリップ)を文字起こししたいという要望があったので、文字起こしシステムを作ってみました。 備忘録も兼ねて実施したことをまとめておこうと思います。whisperはOpenAI社が公開している高精度の文字起こしが可能なモデルになります。 文字起こしにwhipsperを使った決め手は以下です。 AWS Transcribeより高精度 pythonで素早く試せる MITライセンス AWS Transcribeで可能な話者分離ができないことが懸念でしたが、話者分離も別のモデルを組み合わせれば実現可能と思いwhipserに決めました。 アーキテクチャ whisper単体では処理の限界があったので、いくつか工夫を加えた結果上記のようなアーキテク

                                                                    Whisperで話者分離ができる!会議や録音データを素早く文字起こし - Qiita
                                                                  • NDLOCRのWebアプリを作ってみた【Gradio】 - Qiita

                                                                    import os import torch print(torch.__version__) torch_ver, cuda_ver = torch.__version__.split('+') os.system(f'pip install mmcv-full==1.4.0 -f https://download.openmmlab.com/mmcv/dist/{cuda_ver}/torch{torch_ver}/index.html --no-cache-dir') os.system('cd src/ndl_layout/mmdetection && python setup.py bdist_wheel && pip install dist/*.whl') os.system('wget https://lab.ndl.go.jp/dataset/ndlocr/text_re

                                                                      NDLOCRのWebアプリを作ってみた【Gradio】 - Qiita
                                                                    • Why do so many brands change their logos and look like everyone else?

                                                                      Why do so many brands change their logos and look like everyone else? A few months ago, I received an email from Revolut (a British fintech company) in which they proudly unveiled their new logo. Previously, Revolut had a distinct and instantly recognizable logo. They replaced it with… something I was sure I had seen before. The previous Revolut logo had a unique font, a recognizable color gradien

                                                                        Why do so many brands change their logos and look like everyone else?
                                                                      • 1日1分かんたんTOEICリスニング対策部:単語数=8 その39

                                                                        解説TOEIC基礎単語シリーズ、動詞編。 英文・和訳 英文: This facial recognition AI can identify mask wearers. 和訳: この顔認識AIはマスクをつけた人を識別できる。 解説 recognition = 認識 identify = 認識する、識別する wearer = 着用者 「recognize」=「認識する」、名詞形は「recognition」=「認識」 「identify」=「認識する」、名詞形は「identification」=「身分証明」 似たような意味ですが、identifyの方が特定感が強いです。 たとえば、見覚えのある人が前から歩いてきたとします。 「誰だっけ?……たしか、ご近所さんだ」 この辺まで思い出すのが「recognize」。 「名前は……そうだ、○○さんだ」 どこの誰かまで完全に思い出せれば「identify

                                                                          1日1分かんたんTOEICリスニング対策部:単語数=8 その39
                                                                        • ChatGPTで書かれた科学論文を99%以上の精度で検出できるツールが開発される

                                                                          近年は文章や画像を生成するAIの発展が著しく、スタンフォード大学が行った調査では、学生の約17%が「課題または試験にChatGPTを使っている」と回答しています。カンザス大学のヘザー・デゼール氏らの研究チームはChatGPTを使って書かれた論文を検出するツールを開発しました。研究チームによると、検出の精度は99%以上とされています。 Distinguishing academic science writing from humans or ChatGPT with over 99% accuracy using off-the-shelf machine learning tools: Cell Reports Physical Science https://doi.org/10.1016/j.xcrp.2023.101426 AI-generated academic science

                                                                            ChatGPTで書かれた科学論文を99%以上の精度で検出できるツールが開発される
                                                                          • Annotated Research Paper Implementations: Transformers, StyleGAN, Stable Diffusion, DDPM/DDIM, LayerNorm, Nucleus Sampling and more

                                                                            This is a collection of simple PyTorch implementations of neural networks and related algorithms. These implementations are documented with explanations, and the website renders these as side-by-side formatted notes. We believe these would help you understand these algorithms better. We are actively maintaining this repo and adding new implementations. for updates. Translations English (original)

                                                                              Annotated Research Paper Implementations: Transformers, StyleGAN, Stable Diffusion, DDPM/DDIM, LayerNorm, Nucleus Sampling and more
                                                                            • 自然言語処理(NER, RE)を使ってニュースデータから知識グラフを構築してみました - GMOインターネットグループ グループ研究開発本部

                                                                              2022.04.07 自然言語処理(NER, RE)を使ってニュースデータから知識グラフを構築してみました はじめに こんにちは、次世代システム研究室のC.Wです。 知識グラフは近年流行始めた概念で、お恥ずかしいのですが今年に入ってから知識グラフの概念を知りました。その思想を分かればわかるほど高い興味が湧いていきて、これこそがデータの最終的な形式ではないのかと思い始めています。 ただ構築しやすくないのが知識グラフの問題であって、自然言語処理を使って一発の自動作成ができるとすごく嬉しいと思ったので今回のテーマを研究しました。それでは始めましょう。 TL;DR ニュースデータからグラフDBに落とすまでを一通り試して、結果は微妙だった 自然言語処理の結果がグラフの意義性を左右している (言ってみれば当たり前のことです!) 知識グラフの概要 知識グラフとは、グラフ構造のデータモデルまたはトポロジを

                                                                              • 「日本語のくずし字をAIで活字に直す試み」の活発化に海外の研究者らも注目

                                                                                by Peter Roan 日本の古典籍や古文書で用いられている「くずし字」を現代日本語の文字に変換する作業を「翻刻」と呼びます。多くの現代日本人はくずし字を読むことができないので、変換は誰にでもできるものではありません。そこで注目が集まっているのが、機械学習を利用して翻刻する試みです。モントリオール大学の博士課程で機械学習の研究を行うアレックス・ラム氏が、くずし字の活字化を取り巻く事情をまとめています。 How Machine Learning Can Help Unlock the World of Ancient Japan https://thegradient.pub/machine-learning-ancient-japan/ 過去の人々が残した膨大な書物や文書は、歴史や文化を考える上で非常に重要な資料となります。しかし、言語や記法は時間と共に変化していくものであり、古い文書

                                                                                  「日本語のくずし字をAIで活字に直す試み」の活発化に海外の研究者らも注目
                                                                                • OpenAI Sora に使われる技術

                                                                                  TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開 画像生成モデル Diffusion-Transformer を利用 動画を3次元画像として扱うことで画像モデルを拡張 キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。 図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。 こ

                                                                                    OpenAI Sora に使われる技術