並び順

ブックマーク数

期間指定

  • から
  • まで

521 - 560 件 / 1646件

新着順 人気順

recognitionの検索結果521 - 560 件 / 1646件

  • GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images

    We generate a 3D SDF and a texture field via two latent codes. We utilize DMTet to extract a 3D surface mesh from the SDF, and query the texture field at surface points to get colors. We train with adversarial losses defined on 2D images. In particular, we use a rasterization-based differentiable renderer to obtain RGB images and silhouettes. We utilize two 2D discriminators, each on RGB image, an

    • [レポート] Responsible AI: From theory to practice (2/2) – Google Cloud Next ’20: OnAir #GoogleCloudNext | DevelopersIO

      [レポート] Responsible AI: From theory to practice (2/2) – Google Cloud Next ’20: OnAir #GoogleCloudNext こんにちは、Mr.Moです。 現在、2020年7月14日から9月8日までの数週間にわたってGoogle Cloudのデジタルイベント『Google Cloud Next ’20: OnAir』が開催されています。 当エントリでは、その中から「Cloud AI」シリーズのセッションとして公開された『Responsible AI: From theory to practice』の内容をまとめてみたいと思います。(独自の解釈なども含まれると思いますのであらかじめご了承ください) なお、このセッションのレポートは内容が長くなったので2つに分けました。前半は下記をご参照ください。 Responsib

        [レポート] Responsible AI: From theory to practice (2/2) – Google Cloud Next ’20: OnAir #GoogleCloudNext | DevelopersIO
      • Annotated history of modern AI and deep neural networks

        For a while, DanNet enjoyed a monopoly. From 2011 to 2012 it won every contest it entered, winning four of them in a row (15 May 2011, 6 Aug 2011, 1 Mar 2012, 10 Sep 2012).[GPUCNN5] In particular, at IJCNN 2011 in Silicon Valley, DanNet blew away the competition and achieved the first superhuman visual pattern recognition[DAN1] in an international contest. DanNet was also the first deep CNN to win

          Annotated history of modern AI and deep neural networks
        • プロダクト価値を上げるためのCTOの取り組み チームファーストへの変遷と、技術負債の解消

          3社のCTOのLTとパネルディスカッションで、苦悩やパフォーマンスの上げかたを詳らかにする「CTO兼PMがぶつかった壁とその乗り越え方 vol.2」。ここでsweeep株式会社の平下氏が登壇。プロダクトの価値を上げるために取り組んだ2つのことを紹介します。 自己紹介 平下公洋氏(以下、平下):では「CTOとしてプロダクト価値を上げるために実施したことリスト」を、sweeepのCTOの平下が発表します。よろしくお願いします。 本日話すのは、タスクファーストからチームファーストへの変遷と、あとは技術負債の解消。それと現在地と今後の展望をお話しします。 まず簡単に自己紹介です。私は医療機器の開発リーダーだったり、医療IT製品のプロマネや技術リーダーを経験したあとにフリーランスを経験して、現在はsweeepでCTOをしています。Twitterもやっているので、よければフォローしてください。 swe

            プロダクト価値を上げるためのCTOの取り組み チームファーストへの変遷と、技術負債の解消
          • ※サービス終了しました【ユーザー10万人超えの個人開発】「自分の声」が嫌いな人ほど使ってほしい!声成分分析サービス『Voice component』を作りました! - Qiita

            ※サービス終了しました【ユーザー10万人超えの個人開発】「自分の声」が嫌いな人ほど使ってほしい!声成分分析サービス『Voice component』を作りました!RailsVue.jsポートフォリオ個人開発話者識別 はじめに 突然ですが、ご自身の声は好きですか?嫌いですか? ちなみに私自身は後者です。理由は男なのに声が高くて電話でよく女性に間違われるからです笑 ふとそんな話を通っているスクールで話したところ男性・女性問わず「自分の声」が嫌い・苦手と思っている方が意外と多いことが分かりました。調べてみると、下記の一般向けに行われた調査データのように自分の声が好きと答えた人は約3割なのに対して、自分の声が嫌いと答えた人は約7割と圧倒的に多いということが分かります。(データ情報古いですが・・・) 参考: あなたは「自分の声」が好き? 嫌い? 声は生まれ持ったもので変えることはできません。その為、

              ※サービス終了しました【ユーザー10万人超えの個人開発】「自分の声」が嫌いな人ほど使ってほしい!声成分分析サービス『Voice component』を作りました! - Qiita
            • spaCy入門 (1) - 事始め|npaka

              以下の記事を参考に書いてます。サンプルは「GiNZA」で日本語対応してます。 ・spaCy 101: Everything you need to know 1. spaCy とは?「spaCy」は、Pythonの自然言語処理ライブラリです。プロダクト用に設計されており、大量のテキストの処理および理解を行うアプリの構築に役立ちます。「情報抽出」「自然言語理解」「深層学習のテキストの前処理」に使用できます。 2. spaCy ではないもの◎ spaCyはWebサービスではありません。 Webサービスではなく、NLPアプリを構築するために設計されたライブラリです。 ◎ spaCyはチャットボットエンジンではありません。 会話型アプリの強化にも利用できますが、チャットボット用に設計されたものではなく、テキスト処理機能のみを提供します。 ◎ spaCyは研究用のソフトウェアではありません。 最新の

                spaCy入門 (1) - 事始め|npaka
              • Overlay Fact Sheet

                What is a web accessibility overlay?Overlays are a broad term for technologies that aim to improve the accessibility of a website. They apply third-party source code (typically JavaScript) to make improvements to the front-end code of the website. Website add-on products claiming to improve accessibility go back to the late 1990s with products like Readspeaker and Browsealoud. They added text-to-s

                • アメリカの大都市が相次いで顔認証システムを禁止に

                  by Mike MacKenzie アメリカ・マサチューセッツ州の州都ボストンが、2020年6月24日に「当局による顔認証技術の使用を禁止する条例」を可決しました。また、同日にカリフォルニア州サンタクルーズ郡最大の都市サンタクルーズ市も同様の条例を可決したと報じられています。 Boston City Council votes to ban facial-recognition technology – Boston Herald https://www.bostonherald.com/2020/06/24/boston-city-council-votes-to-ban-facial-recognition-technology/ Boston Lawmakers Vote To Ban Use Of Facial Recognition Technology By The City

                    アメリカの大都市が相次いで顔認証システムを禁止に
                  • 人間は実物の顔の表情より「絵文字」からの方が感情を読み取りやすい

                    海外でも「emoji」と呼ばれている絵文字は、細かいニュアンスが伝わりづらいメッセージやメールで気持ちを表すのに重宝されており、絵文字ひとつで法的効力のある契約が成立しうるという判例も出ています。絵文字を使うと実際の顔の表情よりも正確かつ迅速に感情を伝えられることが、イタリアの研究により判明しました。 Emojis vs. facial expressions: An electrical neuroimaging study on perceptual recognition: Social Neuroscience: Vol 18, No 1 https://doi.org/10.1080/17470919.2023.2203949 People are better at decoding emojis compared to real facial expressions, stu

                      人間は実物の顔の表情より「絵文字」からの方が感情を読み取りやすい
                    • 日本語音声のマイク入力をオフラインでリアルタイム音声認識:「VOSK」を JavaScript(Node.js)で扱う - Qiita

                      この記事の内容は、オフラインでリアルタイム音声認識ができ、日本語にも対応している以下の「VOSK」を試してみた話です。 ●VOSK Offline Speech Recognition API https://alphacephei.com/vosk/ そして今回の記事で、VOSK を扱う開発言語・環境は「JavaScript(Node.js)」です(自分がよく使っているから、という選定理由です)。 なお、対応している他の開発言語などは、公式ページの「Installation」を見ると確認でき、例えばスマホ向け(Android・iOS)や Python・Java・C# などもあるようです。 VOSK を「JavaScript(Node.js)」で扱う それでは、タイトルや冒頭にも書いた JavaScript(Node.js)で VOSK を扱う話へと進んでいきます。 公式ドキュメントの情報

                        日本語音声のマイク入力をオフラインでリアルタイム音声認識:「VOSK」を JavaScript(Node.js)で扱う - Qiita
                      • Deep Neural Nets: 33 years ago and 33 years from now

                        The Yann LeCun et al. (1989) paper Backpropagation Applied to Handwritten Zip Code Recognition is I believe of some historical significance because it is, to my knowledge, the earliest real-world application of a neural net trained end-to-end with backpropagation. Except for the tiny dataset (7291 16x16 grayscale images of digits) and the tiny neural network used (only 1,000 neurons), this paper r

                        • Voice In - 音声からテキストへのディクテーション - Chrome ウェブストア

                          ディクテーションを使用して、50 以上の言語で 10,000 以上のサイトに入力します。 VoiceIn は、音声をリアルタイムでテキストに書き起こします。 With VoiceIn you can use speech recognition capabilities in ANY textbox on ANY website. VoiceIn uses Google's speech recognition engine, the most accurate Speech To Text technology available today to let you voice type into any website. After initial installation - it's recommended to close and reopen the browser, so it

                            Voice In - 音声からテキストへのディクテーション - Chrome ウェブストア
                          • A Complete Guide To Accessible Front-End Components — Smashing Magazine

                            In a new short series of posts, we highlight some of the useful tools and techniques for developers and designers. Recently we’ve covered CSS Auditing Tools and CSS Generators, and this time we look into reliable accessible components: from tabs and tables to toggles and tooltips. Table of ContentsBelow you’ll find an alphabetical list of all accessible components. Skip the table of contents, or j

                              A Complete Guide To Accessible Front-End Components — Smashing Magazine
                            • Transformerの成長は止まらない!Transformerの改善に関する研究のまとめ Part1

                              3つの要点 ✔️ Transformerの改良版"Efficient Transformer"について ✔️ Efficient Transformerの大まかな区分について ✔️ Efficient Transformerの関連情報について Efficient Transformers: A Survey written by Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler (Submitted on 14 Sep 2020 (v1), last revised 16 Sep 2020 (this version, v2)) Comments: Accepted at arXiv Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computa

                                Transformerの成長は止まらない!Transformerの改善に関する研究のまとめ Part1
                              • iOS14.2とiPadOS 14.2のRC版(GM版)がリリース【更新:watchOS 7.1とtvOS 14.2も】 - こぼねみ

                                Appleは日本時間10月31日、「iOS 14.2」と「iPadOS 14.2」の「Release Candidate」(RC版/リリース候補版)をリリースしました。 開発者およびパブリックベータ登録者はソフトウェアアップデート経由でダウンロードできます。 追記:11月3日、「watchOS 7.1」「tvOS 14.2」のRC版も公開 Appleによると、Release Candidate(RC)はApp Store に提出する予定のアプリのテストに使用できます。 なお、Release Candidate(RC)という用語は、「GM seed」に替わって用いられ、このバージョンが最終版に近いことを示しています。 iOS 14.2 Release Candidate (18B91) iPadOS 14.2 Release Candidate (18B91) watchOS 7.1 Rel

                                  iOS14.2とiPadOS 14.2のRC版(GM版)がリリース【更新:watchOS 7.1とtvOS 14.2も】 - こぼねみ
                                • Python と Tesseract OCR を使って文字認識をしてみよう! - GIS奮闘記

                                  本日は Python と Tesseract OCR を使って文字認識をしてみようと思います。みなさんは OCR と聞いてピンときますか?実は私たちの周りは OCR を使用したテクノロジーで溢れかえっています。 OCR とは? OCR(Optical Character Recognition/Reader、オーシーアール、光学的文字認識)とは、手書きや印刷された文字を、イメージスキャナやデジタルカメラによって読みとり、コンピュータが利用できるデジタルの文字コードに変換する技術のことです。この技術を利用することによって、例えば、紙に書かれている情報を毎回パソコンで手入力しなければいけない、ということはよくあるかと思います。OCR を使うことによってこの作業を自動化することができるようになります。 最近はフリーの OCR エンジン が普及していており、プログラミング で OCR を扱うことが

                                    Python と Tesseract OCR を使って文字認識をしてみよう! - GIS奮闘記
                                  • 複数人の会話から特定の1人だけを音声識別する手法 米NVIDIA「CONF-TSASR」開発

                                    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 話者プロファイルと補助発話(ターゲット話者)が与えられた重複多話者環境において、「単一チャネル話者自動音声認識」という特定の話者の発話を書き起こすタスクがある。この研究では、エンド・ツー・エンドの単一チャネル話者自動音声認識「CONF-TSASR」を提案する。 このモデルは、TitaNetベースの話者埋め込みモジュール、Conformer(TransformerとCNNを組み合わせたモデル)ベースのMaskNet、ASRモジュールから構成される。TitaNetは目標話者の補助発話から話者埋め込みを抽出する。MaskNetはConformer

                                      複数人の会話から特定の1人だけを音声識別する手法 米NVIDIA「CONF-TSASR」開発
                                    • Visual Studio Code January 2024

                                      Version 1.92 is now available! Read about the new features and fixes from July. January 2024 (version 1.86) Update 1.86.2: The update addresses these issues. Update 1.86.1: The update addresses these issues. Downloads: Windows: x64 Arm64 | Mac: Universal Intel silicon | Linux: deb rpm tarball Arm snap Welcome to the January 2024 release of Visual Studio Code. There are many updates in this version

                                        Visual Studio Code January 2024
                                      • 画像認識で最先端の性能を発揮するモデル「EfficientNetV2」と「CoAtNet」をGoogle Researchが紹介 ~ より小さく、より速く、より正確なニューラルネットワーク

                                        9月16日、Google AI Blogに、学習時間を短縮し、最先端の性能を実現した、画像認識用の2つのモデルを紹介した「Toward Fast and Accurate Neural Networks for Image Recognition」が公開された。 スクリーンショット: Toward Fast and Accurate Neural Networks for Image Recognition この記事では、画像認識モデルの「EfficientNetV2」と「CoAtNet」を紹介している。 EfficientNetV2は、convolutional neural networksで構成されており、ImageNet1k(128万枚の画像)のような比較的小規模なデータセットに対して、高速な学習速度を目指している。 CoAtNetは、convolutionとself-attent

                                          画像認識で最先端の性能を発揮するモデル「EfficientNetV2」と「CoAtNet」をGoogle Researchが紹介 ~ より小さく、より速く、より正確なニューラルネットワーク
                                        • IBM、Amazon、Microsoftが相次ぎ見合わせ、AIによる顔認識の何が問題なのか?

                                          AIを使った顔認識のテクノロジーは、なぜ今、問題となっているのか。そこにはAIによるバイアス(偏見)に対する嫌悪感がある――。 顔認識AIへの懸念が急速に高まっている。直接のきっかけは、米ミネアポリスの白人警察官による黒人死亡事件に端を発した、警察官の不正行為に対する改革を求める議論だ。 そんな中でIBMは8日、顔認識AIビジネスからの撤退を表明した。同社の新CEO、アルビンド・クリシュナ氏は、大規模な監視を批判し、特に警察などによる顔認識テクノロジーの使用には、明確な規制が必要と指摘している。 また、アマゾンも10日、警察が使用する同社の顔認識AI「レコグニション」について、今後1年間、提供を停止すると発表した。これは「連邦議会が適切なルールを実施するのに要するであろう時間」だとしている。 両社に続き、マイクロソフト社長のブラッド・スミス氏も11日、法整備が行われるまで、顔認識AIを警察

                                            IBM、Amazon、Microsoftが相次ぎ見合わせ、AIによる顔認識の何が問題なのか?
                                          • 【iOS16】設定アプリのURLスキーム一覧(標準アプリ) - もう一人のY君

                                            ランキング参加中iPhone ランキング参加中Apple Modified 2024/3/22 iOS16のiPhoneで使用可能な設定アプリおよび標準アプリのURLスキームを紹介しています. スポンサーリンク 検証 環境および先頭の文字列について 設定アプリ(起動) アカウント Apple ID iCloud > 名前、電話番号、メール iCloud > パスワードとセキュリティ iCloud > お支払いと配達先 > お支払いを追加 サブスクリプション iCloud iCloud > パスワードとキーチェーン iCloud > バックアップ 探す ファミリー共有 連絡先キー確認 Apple Pencil Wi-Fi Bluetooth モバイル通信 通信のオプション(シングルSIMの場合) 通信のオプション(デュアルSIMの場合) "インターネット共有"を設定 通知 プレビューを表示

                                              【iOS16】設定アプリのURLスキーム一覧(標準アプリ) - もう一人のY君
                                            • OpenAIのWhisperの音声認識率を計測してみた(AmiVoice VS Whisper) - AmiVoice Techblog

                                              (著者注)本記事は2022年10月に書いたものですが、諸事情で公開が遅くなってしまいました。その後Whisperのlarge-v2やAPIがリリースされるなど状況に変化がありましたが当時書いたものをそのまま公開します。 安藤章悟 みなさま、こんにちは。 2022年の9月22日にOpenAIからWhisperという音声認識エンジンが公開されました。 私も気になったので早速自宅で試してみました。少し試した段階でそれなりにちゃんと音声認識していそうと感じたので、とにかく難易度の高そうな音声を試してみようと思いYoutubeにあったコウメ太夫さんの動画( https://www.youtube.com/watch?v=NnvghuOrThg )を音声認識させてみたところ、ものすごく高精度で衝撃でした。 音声認識が難しい動画って何だろう?と考えてぱっと浮かんだのがコウメ太夫だったので、OpenAIの

                                                OpenAIのWhisperの音声認識率を計測してみた(AmiVoice VS Whisper) - AmiVoice Techblog
                                              • 『女』へ仕掛けられた戦争について 〜ノルウェーからの報告|トランスジェンダリズム海外情報

                                                🤖:Twitter上で発見したノルウェー女性の現状を訳した。ここにはトランスカルトが如何に法の裏を掻き、民主主義を出し抜いて『Self-ID』を制度化してしまったか、その手法と、ノルウェー女性の生の声が綴られている。 ■訳文■ 1)このスレッドは、ここ数年続いている『#GenderWooWoo』 についてのスレッド。TRA(Trans Rights Activists )が子供たち、特に女の子や女性にどのような影響を与えてきたか、そしてトランス権利拡張運動が 『対女性戦争』に発展し、私の国ノルウェーがどのようにしてこの戦争の主導的役割を果たすようになったか……についてのスレッドだ。 2)多くの人にとって、ノルウェーは男女平等の象徴として位置付けられている。事実、ノルウェーは女性の身体的性別に基づく権利……つまり男女平等法の徹底、および女性の妊娠中絶権の確保に関して、先駆者だった。 3)し

                                                  『女』へ仕掛けられた戦争について 〜ノルウェーからの報告|トランスジェンダリズム海外情報
                                                • AIアノテーションツール20選を比較!タグ付け自動化ツールの選び方

                                                  近年、AI・人工知能の技術は急速に進歩しており、さまざまな業界でAIを導入するケースが見受けられます。実際、AIを活用したサービスを利用する方や、実際に業務でAIを活用する方も増えてきていることでしょう。 そんなAI領域ですが、専門用語も数多く存在しているため、正しく理解した上でAIを使いこなしていくには専門用語の理解が欠かせません。そこで今回は、AIを理解する上で重要な「アノテーション」について詳しく解説するとともに、アノテーションを行うツールをご紹介していきますので、ぜひ参考にしてみてください。 アノテーションについて詳しく知りたい方は以下の記事もご覧ください。 アノテーションとは?AI機械学習に欠かせない作業の種類を解説 アノテーションのサービス比較と企業一覧を見る アノテーションとはどんな意味? アノテーションとは、音声や画像、テキストといったさまざまな形態のデータに対し、関連する

                                                    AIアノテーションツール20選を比較!タグ付け自動化ツールの選び方
                                                  • リモートで強いチームを作る方法

                                                    OKRを軸にレポーティングする秘訣について 新型コロナウィルスの影響でほとんどの企業がリモートワーク(テレワーク)の導入を始めた。モバイルPCとテレビ会議システムとVPNを導入するだけでうまくいくことはない。これらのハードのリモート対策だけではなく、ソフトのリモート対策は議論されるべきである。クライアント先からよく聞かれるのでその対策を淡々と述べていく。 リモートワークの導入メリットとははじめに、リモートを導入する目的を整理してみよう。 1.業務生産性が向上する(無駄なミーティングが減少し、やるべきことにフォーカスできる)*家に子供がいないなど誰にも邪魔されない場合に限る。 2.通勤時間が減少する(従業員にとって自由な時間が増える、通勤手当が減る) 3.家庭の時間が増える(家でご飯を食べる機会が増えたり、育児に参加する機会が増える) 4.出勤時のストレスが減る(満員電車、感染症リスクの軽減

                                                      リモートで強いチームを作る方法
                                                    • BloombergGPT: A Large Language Model for Finance

                                                      The use of NLP in the realm of financial technology is broad and complex, with applications ranging from sentiment analysis and named entity recognition to question answering. Large Language Models (LLMs) have been shown to be effective on a variety of tasks; however, no LLM specialized for the financial domain has been reported in literature. In this work, we present BloombergGPT, a 50 billion pa

                                                        BloombergGPT: A Large Language Model for Finance
                                                      • 富士通、人の集中度を推定するAIを開発 精度は85%以上 | Ledge.ai

                                                        画像は集中状態に現れる人共通の特徴抽出による集中度推定方式 株式会社富士通研究所は3月1日、人がさまざまなタスクを実行しているときの集中度を表情筋の動きの変化から、集中時・非集中時の顔面の状態の違いとして検出することで高精度に捉え、定量化できる集中度推定AIモデルを開発したと発表。 従来、AIを活用して集中度を定量化するモデルは、eラーニングなど特定のタスクを実行している人の表情や振る舞いを学習することで作成していた。しかし、表情や振る舞いは、従事するタスクや育った文化的背景により異なるため、作成したモデルは個別のモデルとならざるを得ない。さまざまな場面に応じて個別にAIモデルを開発する必要があったという。 今回、同社は表情筋に対応した顔面の各部位の動作単位であるAction Unitを世界一の精度で検出するとうたう独自の技術を活用。口もとに力が入るなど数秒程度の短期間の変化や、目を凝らし

                                                          富士通、人の集中度を推定するAIを開発 精度は85%以上 | Ledge.ai
                                                        • Overview

                                                          Stanza – A Python NLP Package for Many Human Languages Stanza is a collection of accurate and efficient tools for the linguistic analysis of many human languages. Starting from raw text, Stanza divides it into sentences and words, and then can recognize parts of speech and entities, do syntactic analysis, and more. Stanza brings state-of-the-art NLP models to languages of your choosing. Table of c

                                                            Overview
                                                          • 法隆寺金堂壁画ガラス原板 デジタルビューア

                                                            このたび、法隆寺金堂壁画写真ガラス原板のデジタル画像を公開することとなりました。 この写真ガラス原板は、昭和10年(1935)、文部省の法隆寺国宝保存事業部による修理事業の一環として美術印刷会社便利堂によって撮影されたものです。しかし昭和24年(1949)1月26日、不慮の火災により金堂壁画が焼損いたしました。 この写真ガラス原板は焼損前の金堂壁画の姿を伝える貴重な資料となり、又、写真の歴史的、学術的価値が評価され、平成27年(2015)には国の重要文化財に指定されています。そして平成28年から5年をかけて、国庫補助と朝日新聞文化財団の助成を受け、修理が実施され、写真ガラス原板のデジタル化が行われております。 このデジタル画像により金堂壁画の細部までご鑑賞頂けることと成り、研究活用して頂ければと願っております。 最後になりましたが、公開にご尽力を賜りました関係各位に厚くお礼申しあげます。

                                                              法隆寺金堂壁画ガラス原板 デジタルビューア
                                                            • Millet

                                                              Jul 2, 2022 Millet, a language server for Standard ML (SML), is now available. Check it out on: GitHub VS Code marketplace Open VSX In this post, I will: Introduce some of the main features of the project. Note some caveats and potential areas of improvement. Talk a bit about its development. Close with some thanks. Features: an overview Basic The extension provides syntax highlighting, as well as

                                                                Millet
                                                              • YOLOv8でナンバープレートを検出してAI-OCRで読み取ってみました。 〜ファインチューニングに使用したデータは、撮影した写真ではなく、Pythonで生成した画像(30,000枚・192,000アノテーション)です〜 | DevelopersIO

                                                                5 AI-OCR AI-OCRとしては、MicrosoftのComputer Visionで提供されている、Read APIを使用させて頂きました。 参考: Computer Vision 3.2 GA Read API を呼び出す 最初は、ナンバープレート画像を、そのままOCRにかけてみたのですが、下段左の平仮名1文字のところの認識が難しいようでした。これは、このように「ひらがな」1文字だけが配置されることに、モデルが対応しきれていないような気がしました。 対策として、画像を3つの部分に分割し、それぞれでOCRにかけるようにしてみました。また、認識精度が上がるように、業務用(緑バックの白文字、及び、黒バックの黄色文字)は、ネガポジ反転し、最終的にグレースケール変換することにしました。 AI-OCRで処理しているコードと、それを使っている、全体のコードです。 ocr.py import t

                                                                  YOLOv8でナンバープレートを検出してAI-OCRで読み取ってみました。 〜ファインチューニングに使用したデータは、撮影した写真ではなく、Pythonで生成した画像(30,000枚・192,000アノテーション)です〜 | DevelopersIO
                                                                • Where Programming, Ops, AI, and the Cloud are Headed in 2021

                                                                  In this report, we look at the data generated by the O’Reilly online learning platform to discern trends in the technology industry—trends technology leaders need to follow. But what are “trends”? All too often, trends degenerate into horse races over languages and platforms. Look at all the angst heating up social media when TIOBE or RedMonk releases their reports on language rankings. Those repo

                                                                    Where Programming, Ops, AI, and the Cloud are Headed in 2021
                                                                  • もはや安全ではない二要素認証(2FA)と生体認証

                                                                    パスワードは最も脆弱(ぜいじゃく)なユーザー認証方式の一つだ。パスワード侵害の最初期の例は、紀元前413年までさかのぼる。古代ギリシャ軍は、夜間戦闘で敵味方を識別するのに合言葉を使っていた。この合言葉がシュラクサイ(訳注)軍に知られてしまった。ギリシャ軍は合言葉を使って友軍のふりをしたシュラクサイ軍に大打撃を受けた。 訳注:シチリア島の都市シラクサ(イタリア語)のこと。シュラクサイは古代ギリシャ語。ペロポネソス戦争におけるアテナイ(アテネ)のシケリア(シチリア)遠征(紀元前415~紀元前413年)失敗のエピソードと思われる。 関連記事 2FAバイパスツールがもたらした二要素認証安全神話の終焉 十分に進化した生体認証は“手に埋め込んだチップ”すら不要 Windows 10の次期バージョンでパスワードレスサインインが実現 「人の声がその答えだ」──パスワード認証に代わる音声生体認証 RPAに組

                                                                      もはや安全ではない二要素認証(2FA)と生体認証
                                                                    • Jun Togawa – Suki Suki Daisuki (Official Music Video)

                                                                      Official music video for “Suki Suki Daisuki” by Jun Togawa, taken from promotional footage for the release of the album “Suki Suki Daisuki” ©1985 Alfa Music. Listen to the song here: https://lnk.to/TJSukiSukiDaisuki ▲ Subscribe to ALFA MUSIC on YouTube: https://www.youtube.com/channel/UCED_jMuUdSWi1KRY_6n3hHQ ▲ Listen to more from Jun Togawa: https://lnk.to/JunTogawa ▲ Follow Jun Togaw

                                                                        Jun Togawa – Suki Suki Daisuki (Official Music Video)
                                                                      • 画像に対する自己教師あり表現学習手法について②

                                                                        はじめに 機械学習エンジニアの荒居秀尚です。2021年新卒入社で、機械学習モデリングや機械学習を用いたデータ施策におけるMLOps推進などに携わっています。 最近、担当案件で画像を扱っていたのもあり、画像を対象とした自己教師あり表現学習について調査していました。今回はその調査内容について紹介したいと思います。なお、この調査は文献調査と、実際に使ってみて案件への適用可能性を評価した実験とに分かれていますので、ブログの方も両方について触れようと思います。 分量が多いため、自己教師あり学習の基礎の部分の紹介、具体的な手法の紹介、そして応用例の紹介の三部立ての構成になっています。 前回の記事 では、自己教師あり学習が近年大きく発展している背景と、画像を対象とした自己教師あり学習の部品となる技術の紹介を行いました。それを踏まえ、今回は具体的な手法について紹介を行います。 おさらい 代表的手法の紹介に

                                                                          画像に対する自己教師あり表現学習手法について②
                                                                        • Spiking Neural Networkとは何なのか - Qiita

                                                                          はじめに 近年,深層学習における畳み込みニューラルネットワークをはじめとする機械学習が主流です.このニューラルネットワークとは,その名の通り生物の脳における神経回路網を模したものであり,それを構成する神経細胞を形式ニューロンとしてモデリングしたものがはじまりです. しかし,この形式ニューロンは神経細胞の簡単なモデルに過ぎません.一部の研究者はより精緻なニューロンモデルを研究し,今日まで様々なニューロンモデルを提案してきました. このような本来の神経細胞に,より近づけたニューロンモデルを一般的にスパイキングニューロンモデル (Spiking Neuron Models)と言います.またそれを用いたニューラルネットワークをスパイキングニューラルネットワーク (SNN: Spiking Neural Networks)と言います. ここで「スパイク (Spike)」という単語が出てきましたが,こ

                                                                            Spiking Neural Networkとは何なのか - Qiita
                                                                          • Welcome to tkasasagi’s website

                                                                            Welcome to tkasasagi’s website My name is Tarin Clanuwat. I am a research scientist at Sakana AI in Tokyo. I got my PhD in Classical Japanese Literature (文学) from Waseda University, Graduate School of Arts Letters and Science. I specialized in the Tale of Genji’s commentary books from Kamakura and Nambokucho period. Previously I was a senior research scientist at Google Research, Brain team, Googl

                                                                            • 深層学習は脳の振る舞いを取り込めるのか?/佐々木雄一 - SYNODOS

                                                                              ニューラルネットワークは、脳を理解しようとする試みの中から生まれた。ニューラルネットワークとは、人間の脳内にある神経細胞(ニューロン)とそのつながり、つまり神経回路網を、人工ニューロンという数式的なモデルで表現したものだ。 では、一つ一つは単純な機能しか持たないニューロンを多数組み合わせることで、ニューラルネットワークモデルを構築した場合、いかにして脳のような高度な認識機能が発現しうるのか? こうした学術的な問いからスタートした研究は、実際、脳に近い認識機能を獲得するという成果を収め、脳研究における大きなマイルストーンとなった。そして、ニューラルネットワーク研究の一分野として生まれた深層学習によって、ニューラルネットワークモデルはさらに高度な認識能力を獲得するに至り、一定の領域においては人間を代替しうる水準にまで到達した。その潜在的な可能性に産業界の注目も集まり、多くの研究者が参入して、素

                                                                                深層学習は脳の振る舞いを取り込めるのか?/佐々木雄一 - SYNODOS
                                                                              • Launch of CNCF Japan Chapter “Cloud Native Community Japan” | Cloud Native Computing Foundation

                                                                                By Cloud Native Community Japan Today we are thrilled to announce that leaders of the cloud native community in Japan have collaboratively established “Cloud Native Community Japan” as the Japanese Chapter of Cloud Native Computing Foundation (CNCF). CNCF hosts major open source projects in the cloud native field, and global tech conferences and events such as KubeCon + CloudNativeCon, where innov

                                                                                  Launch of CNCF Japan Chapter “Cloud Native Community Japan” | Cloud Native Computing Foundation
                                                                                • CompVis/stable-diffusion-v-1-4-original · Hugging Face

                                                                                  Stable Diffusion is a latent text-to-image diffusion model capable of generating photo-realistic images given any text input. The Stable-Diffusion-v-1-4 checkpoint was initialized with the weights of the Stable-Diffusion-v-1-2 checkpoint and subsequently fine-tuned on 225k steps at resolution 512x512 on "laion-aesthetics v2 5+" and 10% dropping of the text-conditioning to improve classifier-free g

                                                                                    CompVis/stable-diffusion-v-1-4-original · Hugging Face