並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 1776件

新着順 人気順

recognitionの検索結果161 - 200 件 / 1776件

  • 最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you

    こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K

      最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you
    • たった2行で画像認識モデルの精度向上!?新しいDataAugmentation自動最適化手法「RandAugment」解説!

      3つの要点 ✔️ ランダムにData Augmentationの手法を選択するRandAugmentを提案 ✔️ 従来のAutoAugmentと比べ探索空間を$10^{-30}$にも削減し計算量を激減させたことで実践で使えるようにしただけでなく、CIFAR-10/100やImageNet, COCOなどのデータセットにおいて有用性が確認できた ✔️ ImageNetのSoTAであるNoisyStudentにも使われており、関数は2行で実装できるため読者の方も容易に使うことができる。 RandAugment: Practical automated data augmentation with a reduced search space written by Ekin D. Cubuk, Barret Zoph, Jonathon Shlens, Quoc V. Le (Submitted

        たった2行で画像認識モデルの精度向上!?新しいDataAugmentation自動最適化手法「RandAugment」解説!
      • GitHub - google-research/tuning_playbook: A playbook for systematically maximizing the performance of deep learning models.

        This document is for engineers and researchers (both individuals and teams) interested in maximizing the performance of deep learning models. We assume basic knowledge of machine learning and deep learning concepts. Our emphasis is on the process of hyperparameter tuning. We touch on other aspects of deep learning training, such as pipeline implementation and optimization, but our treatment of tho

          GitHub - google-research/tuning_playbook: A playbook for systematically maximizing the performance of deep learning models.
        • 【和訳】J.K.ローリングの声明文(6月10日付)※追記あり - 54023通りの空論

          JKローリングの声明文、適当な日本語訳がなかったのでざっくり訳しました。 日本語圏でも「JKRはTERF」「JKRはTERFじゃない」と色々言われていますが、英語の読めないJKローリングファンにものすごくアンフェアな状況では?と思ったので…。 あまり推敲していないので、訳抜け・誤字脱字等ありましたら恐縮です。もう疲れたよパトラッシュ…… ※ですます調でうっかり訳しちゃったので、死ぬほど長いです。14000字くらい。原文は3600 wordくらいなので、そこまで長くないです。 ※6/15 13:41 menstrator、people with vulvaについて追記しました。 ※11/11 23:52 しばらく「下書き」に下げてたのですが、やはり日本語の訳がないと日本の読者が不便かなと思い、再度公開します。何度読み返しても「さすがプロの小説家だなあ」と感慨深くなるお上手な物言いで「トランス

            【和訳】J.K.ローリングの声明文(6月10日付)※追記あり - 54023通りの空論
          • UI = f(statesⁿ)

            “UI is a function of state” is a pretty popular saying in the front-end world. In context (pun intended), that’s typically referring to application or component state. I thought I’d pull that thread a little further and explore all the states that can effect the UI layer… First-party application states Every application whether it’s a to-do list or a shopping cart or some radically complex app wil

            • Yann LeCun’s Deep Learning Course at CDS is Now Fully Online & Accessible to All

              CDS is excited to announce the release of all materials for Yann LeCun’s Deep Learning, DS-GA 1008, co-taught in Spring 2020 with Alfredo Canziani. This unique course material consists of a mix of close captioned lecture videos, detailed written overviews, and executable Jupyter Notebooks with PyTorch implementations. The course covers the latest techniques in both deep learning and representation

                Yann LeCun’s Deep Learning Course at CDS is Now Fully Online & Accessible to All
              • OpenCVによる非ディープラーニングの顔認識でどこまでできるのか試してみた! – 株式会社ライトコード

                ディープラーニングを使わない顔認識 Githubで公開されている「Face-Detection-OpenCV」を実行し、OpenCVでの顔認識の限界を探ってみました。 このコードには、OpenCV(オープンシーヴィ)による、「非ディープラーニングの顔認識のテスト用コード」がまとまっています。 赤ちゃんのグレイ表示/顔認識テスト3人の赤ちゃんの顔認識テスト顔認識精度をパラメータ調整で向上させた例LBP方式の顔認識テストHaar方式とLBP方式の比較最終的にHaar方式、LBP方式という2種類の顔認識を比較しています。 Haar方式については、認識速度が遅く、壁に貼ったポスターの顔まで「顔」と認識してしまいました。 しかし、LBP方式は、実際の人間の顔のみキレイに認識出来た上、認識にかかる時間が1/3以下。 ここだけ見ると、「ああ、Haar方式って良いところないんだな。使わないようにしよう…」

                  OpenCVによる非ディープラーニングの顔認識でどこまでできるのか試してみた! – 株式会社ライトコード
                • 色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog

                  こんにちは、ラボで研究開発をしたりプロトタイプを作っている藤本(X(Twitter))です。ABEJAアドベントカレンダー2023の21日目の記事です。ここ近年、生成AIの勢いが凄いです。最近は一夜明けたら世界が変わっているみたいなことがしょっちゅう起きています。そんな状況なので、なかなか世の中についていくのが難しいのではないかと思います。そこで今回は、これまでに色々と出てきた生成モデルを振り返りつつ、ひたすら思いつく限りColabで動かしまくってみる企画をやってみようかと思います。流石に全部Colabで動かすのは大変でした・・・。 まずは言語を対象として日本語モデルを含む様々なモデルを対象に推論実験を行います。続いて高速化の実験、更にSFTによるInstructionチューニングや、RLHFもやってみます。最後に、ソースコード生成もやってみましょう。次に、画像を対象として、言語同様に色々

                    色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog
                  • GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB

                    ★AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。 Googleは、非構造化文書(例えばレシートなど)から高精度にテキストを抽出するOCR(Optical Character Recognition)技術『LMDX(Language Model-based Document Information Extraction and Localization)』を発表しました。この技術は、特にGoogleの大規模な言語モデル「Bard」と、Google DriveやGmailなどのサービスとの連携をさらに強化する可能性もあります。 参照論文情報 タイトル:LMDX: Language Model-based Document Information Extraction and Localization 著者:Vincent Perot, K

                      GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB
                    • LogLog Games

                      The article is also available in Chinese. Disclaimer: This post is a very long collection of thoughts and problems I've had over the years, and also addresses some of the arguments I've been repeatedly told. This post expresses my opinion the has been formed over using Rust for gamedev for many thousands of hours over many years, and multiple finished games. This isn't meant to brag or indicate su

                      • 【質疑応答付き】Kaggle Tokyo Meetup #6 に参加しました - 天色グラフィティ

                        DeNAで開催された、Kaggle Tokyo Meetup #6の参加記です。YouTube配信の視聴を含めるとMeetup参加は3回目ですが、回を増すごとに情報量も発表内容の多様性も増しているように思います。 本当にすばらしい発表を皆様ありがとうございました。僕も発表やLTでコミュニティに貢献していきたいと思います。 この記事では、各発表について僕自身が面白い・知らなかったと思ったポイントを中心にまとめ、可能な限り出典などのリンクをつけています。 内容を網羅しているわけでは必ずしもありませんので、もとの資料を併せてご覧になることを強くおすすめします。素晴らしい資料なので。 それでは、15000文字を超える長い記事ですが、最後までお読みくださると幸いです。 Opening Talk (threecourseさん) Petfinder 2nd Place Solution (Wodoriチ

                          【質疑応答付き】Kaggle Tokyo Meetup #6 に参加しました - 天色グラフィティ
                        • 顔誤認は冤罪が怖い! IBMに続きAmazon、マイクロソフトも捜査利用停止宣言

                          顔誤認は冤罪が怖い! IBMに続きAmazon、マイクロソフトも捜査利用停止宣言2020.06.12 23:0010,437 satomi こちらの写真、見分ける自信ありますか? これ、黒人の方が見ると全然別人に見えるのだけど、白人の方が見るとほぼ同一人物に見えることがあるそうなんですよ? 人間の苦手分野はAIも苦手というわけで、IBMが8日、「監視、人種識別、人権と自由の侵害に顔認識などのテクノロジーを使うのは断固反対!」と米議会宛ての書簡で宣言し、顔認識技術の研究、開発、広告、販売の終了を発表したのに続き、10日にはAmazon(アマゾン)も自社の顔認識システム「Recognition」の捜査利用を1年禁じることを表明。Microsoft(マイクロソフト)も法が整備されるまでは警察への販売を控えることを誓いました。 アメリカで沸き起こっている警察による人種差別抗議デモを受けた動きですが

                            顔誤認は冤罪が怖い! IBMに続きAmazon、マイクロソフトも捜査利用停止宣言
                          • コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編 | BLOG - DeNA Engineering

                            はじめに こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている加藤です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は 2D Human Pose Estimation 編として加藤直樹 ( @nk35jk ) が調査を行いました。 本記事では 2D Human Pose Estimation に関する代表的な研究事例を紹介するとともに、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された 2D Human Pose Estimation の最新論文を紹介します。 過去の他タスク編については以下をご参照ください。 Human Recognition 編 (2019/04/26) 3D Vision 編 (2019/06/04) キーポイント検

                              コンピュータビジョンの最新論文調査 2D Human Pose Estimation 編 | BLOG - DeNA Engineering
                            • 感染・伝播性の増加や抗原性の変化が懸念される 新型コロナウイルス(SARS-CoV-2)の新規変異株について (第6報)

                              国立感染症研究所 2021年2月12日18:00時点 PDF 要約 ウイルスのヒトへの感染性・伝播のしやすさや、すでに感染した者・ワクチン接種者が獲得した免疫の効果に影響を与える可能性のある遺伝子変異を有する複数の新型コロナウイルス(SARS-CoV-2)の新規変異株として、特にVOC-202012/01, 501Y.V2, 501Y.V3の流行が懸念されている。いずれも感染性・伝播のしやすさに影響があるとされるN501Y遺伝子を有するが、特にVOC-202012/01については、2次感染率の増加や、死亡リスクの増加の可能性が疫学データから示唆されている。501Y.V2と501Y.V3については、さらに抗原性に影響を与える可能性があるE484K変異も有する。特に501Y.V2については、過去の感染によって得られた免疫や承認されているワクチンによって得られた免疫を回避する可能性が指摘されてお

                              • 新たな活性化関数「FReLU」誕生&解説! - Qiita

                                オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 他にも次のような記事を書いていますので興味があればぜひ! 【2020決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- 画像認識の定番データセットImageNetはもう終わりか パラメータ数を激減させる新しい畳み込み「MixConv」解説! 自然言語処理の王様「BERT」の論文を徹底解説 【基本編】画像認識に使用されるData Augmentationを一挙にまとめてみた! 画像認識に特化させた新たな活性化関数FReLU解説&実装! 今やあらゆる分野で驚くべき結果を残し続けているニューラルネットワークですが、そのニューラルネットに無くてはならないものこそが活性化関数で

                                  新たな活性化関数「FReLU」誕生&解説! - Qiita
                                • ウクライナ危機でアフリカが見せた“怒り”のスピーチ 世界中で大きな反響

                                  ロシアの軍事侵攻をアフリカ諸国はどうみているのでしょうか。 ロシアによるウクライナへの軍事侵攻開始からおよそ1週間。世界からロシアに対し、批判の声が向けられるなか、あるスピーチが話題を集めています。 先月21日、アメリカで開催された国連の緊急会合。ケニアのキマニ国連大使のスピーチです。 この日、ロシアのプーチン大統領はウクライナ東部のドネツク州とルガンスク州の一部地域の独立を承認、この地域への軍の派遣を命令していました。 かつて、イギリスを始めとした欧州列強による植民地支配を受け、国境を決められ分断された過去を持つアフリカ。 軍事力を振りかざし、一方的に独立を承認したロシアの行動に対し、キマニ氏はアフリカの歴史と照らし合わせ、憤りをあらわにしました。 ケニア共和国・キマニ国連大使: 「This situation echoes our history. Kenya、 almost ever

                                    ウクライナ危機でアフリカが見せた“怒り”のスピーチ 世界中で大きな反響
                                  • 音声認識AIに言葉を覚えさせよう!! (COTOHA音声認識) - Qiita

                                    COTOHA APIとは?? NTTが長年頑張って得たノウハウを詰め込んだ、NTTコミュニケーションズが提供する自然言語処理のAPIサービスになります!! サービスの詳細 はこちらを見て頂くとして、これまでは構文解析やユーザ属性推定などのテキスト解析のサービスを提供していました。 Python初心者 COTOHA API 初心者 "自然言語処理を簡単に扱えると噂のCOTOHA APIをPythonで使ってみた"で、テキスト解析で遊んでもらってからこの記事を見て頂くことをオススメします!! リファレンス はこちら GitHub はこちら さて本題に入りましょう!! 今回はテキストではなく... 音声認識 !! 今までCOTOHAは、テキストしか相手にしてくれませんでした... しかし、音声認識APIが2019年3月にリリースされCOTOHA君が音声言語を理解するようになりました!!しかも、

                                      音声認識AIに言葉を覚えさせよう!! (COTOHA音声認識) - Qiita
                                    • ついに出た!本当にDETR! 物体検出の革新的なパラダイム

                                      3つの要点 ✔️ ついにTransformerを物体検出に応用 ✔️ End-to-endなモデルを実現し、人手による設計を削減 ✔️ 物体検出を直接的な集合予測問題として再定義 End-to-End Object Detection with Transformers written by Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko (Submitted on 26 May 2020 (v1), last revised 28 May 2020 (this version, v3)) Comments: Published by arXiv Subjects: Computer Vision and Pattern Reco

                                        ついに出た!本当にDETR! 物体検出の革新的なパラダイム
                                      • 失敗から学ぶ機械学習応用~Another Story~ - Qiita

                                        はじめに 機械学習をどう学んだか by 日経 xTECH ビジネスAI② Advent Calendar 2019 13日目の記事です。 本記事はSlideShareで公開した勉強会資料「失敗から学ぶ機械学習応用」 のあとがき的な位置づけの記事です。 おそらく機械学習の勉強法やおすすめ書籍、Kaggle参戦などの話題は他の方がまとめていると思うので、私は機械学習のプロジェクトに関わる中で得た学びを中心に書いていこうと思います。 機械学習をどう学んだか はじめに私が機械学習テーマに配属されてから勉強会発表にいたるまでの遍歴と学び、そしてお世話になった教材をざっくりと振り返ってみます。 ※明確な期間や時期は伏せますが、全体で約4、5年くらいのスパンです。 1.前任者の異動により機械学習テーマを引き継ぐ 機械学習テーマを担当していた前任者が異動し、素人だった私がそのテーマを引き継ぐことになる。

                                          失敗から学ぶ機械学習応用~Another Story~ - Qiita
                                        • 拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ

                                          はじめに こんにちは。BASEのデータ分析チーム(Data Strategy Team)で不正対策を行ったり、機械学習モデルを触ったりしている竹内です。 先日チーム内の論文読み会でニューラルネットを用いた画像合成によるバーチャル試着技術というトピックに触れる機会があったので、その最近のトレンドについて改めてブログという形でまとめてみました。 バーチャル試着は画像生成モデルの実用的なユースケースの一つとして今現在データセットの拡充やアーキテクチャの検証が進んでいる分野の一つであり、個人的には非常にアツいトピックだと感じています。 バーチャル試着とは バーチャル試着(Virtual Try On)とは、ある人物がある衣服を着用した状態を画像や3Dモデルなどの情報をもとに仮想的に実現し、どのように見えるか可視化する技術のことです。 ネットショップの普及により、店頭に出向かずともPCやスマートフォ

                                            拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ
                                          • Kaggleで学ぶ系列データのための深層学習モデリング

                                            最近は画像コンペではモデリングの余地があまりないことが多いが、系列データのコンペはデファクトの(pretrain)モデルが確立しておらずモデリングで勝敗が分かれることが多い。ここで系列データとは、時系列データ、センサデータ、RNA等のシーケンスデータのようなデータを意図している。 このような背景のもと、これまでの系列データを扱ったKaggleコンペティションとその上位解法を振り返りながら、系列データの深層学習モデリングを俯瞰する。 紹介しているコンペ: - IceCube - Neutrinos in Deep Ice - Google - American Sign Language Fingerspelling Recognition - Stanford Ribonanza RNA Folding - HMS - Harmful Brain Activity Classifica

                                              Kaggleで学ぶ系列データのための深層学習モデリング
                                            • Stanford CS229: Machine Learning Full Course taught by Andrew Ng | Autumn 2018

                                              Led by Andrew Ng, this course provides a broad introduction to machine learning and statistical pattern recognition. Topics include: supervised learning (gen...

                                                Stanford CS229: Machine Learning Full Course taught by Andrew Ng | Autumn 2018
                                              • 描写の哲学において写真は個別の議論を必要とするのか? - obakeweb

                                                「描写の哲学」研究ノートです。 「描写の哲学ビギナーズガイド」で言えば、「1.描写の本性:描写とはなにか? 画像とはなにか?」と「6.写真の特性:写真のなにがそんなに特別なのか?」にまたがる話題。 写真(photographs)は画像の一種だが、とりわけ特殊な性格を持った画像である。 ごく素朴な直観において、「絵画は間違いうるが、写真は嘘をつかない」「絵画は主観的な表現だが、写真は客観的な伝達である」と思われる。 描写の哲学は基本的に「画像」一般の本性に迫ろうとする分野だが、絵画のような手製(hand-made)の画像と写真を分けて論じるべきかどうかについては、意見が別れている。 すなわち、「絵画と写真は区別して論じるべきだ/論じざるを得ない」と考える陣営と、「なんらかのひとつの原理によって画像一般を包括的に説明すべきだ」と考える陣営がある。適当に、前者を区別派、後者を包括派と呼んでおこう

                                                  描写の哲学において写真は個別の議論を必要とするのか? - obakeweb
                                                • テスラの「完全自動運転をAIチームディレクターが解説」を翻訳とともに解説 - EVsmartブログ

                                                  『CVPR2021』というコンピュータービジョンのイベントで、テスラのAIチームシニアディレクターであるAndrej Karpathy氏が登壇。テスラが進める完全自動運転への取り組みを解説しました。はたして、テスラはどこまで進んでいるのか。テスラオーナーで翻訳家の池田篤史氏が翻訳しつつ解説します。かなり専門的ながら、興味深い内容です。 ※冒頭画像はCVPRウェブサイトより引用。 はじめに 2021年6月下旬に開催されたCVPR(Computer Vision and Pattern Recognition)に、昨年に続きテスラのAIチームシニアディレクター、アンドレイ・カーパシー氏が登壇し、カメラからの入力のみで自動運転機能を達成する取り組みについて解説しました。この記事ではそれに加え、テスラハッカーとして有名なGreentheonly氏にも取材をして、アンドレイ氏が表向き言えないようなこ

                                                    テスラの「完全自動運転をAIチームディレクターが解説」を翻訳とともに解説 - EVsmartブログ
                                                  • ついに誕生!期待の新しい活性化関数「Mish」解説

                                                    3つの要点 ✔️ ReLU、Swishに次ぐ新たな活性化関数Mishを提案 ✔️ MNISTやCIFAR-10/100などでReLUとSwishを圧倒 ✔️ 論文筆者実装のGitHubレポは早速600以上のスターを持ち、非常に簡単に使える Mish: A Self Regularized Non-Monotonic Neural Activation Function written by Diganta Misra (Submitted on 23 Aug 2019 (v1), last revised 2 Oct 2019 (this version, v2)) Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Neural and Evolutionary Comp

                                                      ついに誕生!期待の新しい活性化関数「Mish」解説
                                                    • 機械学習チームで論文読み会を実施してみました(A ConvNet for the 2020s解説) - BASEプロダクトチームブログ

                                                      BASEの機械学習チームで論文読み会を実施してみました こんにちは。BASEのDataStrategy(DS)チームでエンジニアをしている竹内です。 DSチームではBASEにおける様々なデータ分析業務をはじめ、機械学習技術を利用した検索、推薦機能のサポート、商品のチェックや不正決済の防止などに取り組んでいます。 先日、チーム内で最新の機械学習技術についての知見を相互に深めるための試みとして、各々興味のある機械学習系の論文を持ち寄って紹介し合う、いわゆる論文読み会というものを実施してみました。 この記事では、その会で私が発表した内容の一部を紹介したいと思います。 ※ 中身は論文読み会用から本記事用に一部修正を加えています。 A ConvNet for the 2020s 紹介する論文について タイトル: A ConvNet for the 2020s 著者: Zhuang Liu, Hanz

                                                        機械学習チームで論文読み会を実施してみました(A ConvNet for the 2020s解説) - BASEプロダクトチームブログ
                                                      • RWKVについて解説

                                                        本記事では、RWKVとよばれるモデルのアーキテクチャについて詳しく説明します。 はじめに 自然言語処理の分野において、Transformer[1]の登場以前に一般的に使用されてきたRNN[2]はいくつかの課題を抱えており、その課題を克服する新たな手法として、RNNとは完全に異なるアプローチを取るTransformerが登場しました。しかし、Transformerにも解決すべき問題が存在しています。そこで、これらのアプローチを結びつけて進化させていく必要が出てきました。 まず、RNNの利点と欠点を見てみましょう。RNNは、文章の長さにほとんど制約がなく、計算コストも比較的小さいという利点があります。しかし、以前の入力を正確に記憶することが難しく(長期依存性を捉えられない)、学習を高速化することも難しい(学習並列化が困難)という欠点も存在します。 一方、Transformerは長期依存性を捉え

                                                          RWKVについて解説
                                                        • What is Image-to-Text? - Hugging Face

                                                          Image to text models output a text from a given image. Image captioning or optical character recognition can be considered as the most common applications of image to text. Use Cases Image Captioning Image Captioning is the process of generating textual description of an image. This can help the visually impaired people to understand what's happening in their surroundings. Optical Character Recogn

                                                            What is Image-to-Text? - Hugging Face
                                                          • はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場

                                                            前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに 本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能/操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ

                                                              はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
                                                            • GitHubがWebAuthn対応を開始。MacのTouch IDやWindows Helloの指紋認証などを2要素認証に利用可能に[訂正あり]

                                                              GitHubがWebAuthn対応を開始。MacのTouch IDやWindows Helloの指紋認証などを2要素認証に利用可能に[訂正あり] GitHubは、Web標準仕様「WebAuthn」への対応開始を発表しました。 Remember when fingerprint authentication seemed like the future? Starting today, secure access to your code with a fingerprint, facial recognition, and more. Two-factor authentication that's more secure and easier than ever to usehttps://t.co/VUEQenjERD — GitHub (@github) August 21, 201

                                                                GitHubがWebAuthn対応を開始。MacのTouch IDやWindows Helloの指紋認証などを2要素認証に利用可能に[訂正あり]
                                                              • 100+ Best GitHub Repositories For Machine Learning

                                                                There are millions of github repos and filtering them is an insane amount of work. It takes huge time, efforts and a lot more. We have done this for you. In this article we’ll share a curated list of 100+ widely-known, recommended and most popular repositories and open source github projects for Machine Learning and Deep Learning. So without further ado, Let’s see all the hubs created by experts a

                                                                  100+ Best GitHub Repositories For Machine Learning
                                                                • Designed to Deceive: Do These People Look Real to You? (Published 2020)

                                                                  The creation of these types of fake images only became possible in recent years thanks to a new type of artificial intelligence called a generative adversarial network. In essence, you feed a computer program a bunch of photos of real people. It studies them and tries to come up with its own photos of people, while another part of the system tries to detect which of those photos are fake. The back

                                                                    Designed to Deceive: Do These People Look Real to You? (Published 2020)
                                                                  • 「なぜ私が死ななければならないのですか」

                                                                    Imagine a situation in which a patient asks a doctor “Why must I die?” and the doctor stands there stunned. Physicist Schrödinger claimed that scientists unconsciously put “I” as the subject of recognition outside the objective world. Both doctor and patient put “I” as the subject of recognition outside the objective world. In medicine as a science, doctors eliminate the fact that each patient is

                                                                    • What to know about Threads

                                                                      Today, Meta is launching its new microblogging platform called Threads. What is noteworthy about this launch is that Threads intends to become part of the decentralized social web by using the same standard protocol as Mastodon, ActivityPub. There’s been a lot of speculation around what Threads will be and what it means for Mastodon. We’ve put together some of the most common questions and our res

                                                                      • macOSのVisionフレームワークでOBSの映像からテキストを抽出するWebSocketプロキシ - 詩と創作・思索のひろば

                                                                        激安HDMIキャプチャーボードを買ってから、ときどきゲームプレイの録画・配信をしている。OBS Studioというソフトウェアがデファクトらしく、自分もこれを使っている。 便利なことにOBSにはWebSocketで操作できるインタフェースがあり、JavaScriptやPythonからかなり自由に操作することができる。となればソフトウェアエンジニアとしてはプレイログを構造化して残したいわけ。 WebSocket経由でスクリーンショットも随時取得できるので、画像を分析することでたとえばシーン判定はできるが、さらに詳細な情報を取ろうとするとテキスト情報もほしい。クラウドサービスなどに金をかけずに手軽にやるならTessaract一択となるが、素晴らしいソフトウェアではあるものの期待する精度を出すには工夫がいりそう。具体的には、ポケモンの名前は日本語だけでなく中国語の場合もある(左下の「古劍豹」)。

                                                                          macOSのVisionフレームワークでOBSの映像からテキストを抽出するWebSocketプロキシ - 詩と創作・思索のひろば
                                                                        • LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ

                                                                          こんにちは!LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。 みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。 tech.layerx.co.jp ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。 comemo.nikkei.com AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩

                                                                            LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ
                                                                          • TechCrunch

                                                                            Microsoft has changed its policy to ban U.S. police departments from using generative AI for facial recognition through the Azure OpenAI Service, the company’s fully managed, enterprise-focused

                                                                              TechCrunch
                                                                            • Web Neural Network API

                                                                              Web Neural Network API W3C Candidate Recommendation Draft, 5 May 2024 More details about this document This version: https://www.w3.org/TR/2024/CRD-webnn-20240505/ Latest published version: https://www.w3.org/TR/webnn/ Editor's Draft: https://webmachinelearning.github.io/webnn/ Previous Versions: https://www.w3.org/TR/2024/CRD-webnn-20240503/ History: https://www.w3.org/standards/history/webnn/ Im

                                                                              • OpenAI Multimodal Research

                                                                                A long-term objective of artificial intelligence is to build “multimodal” neural networks—AI systems that learn about concepts in several modalities, primarily the textual and visual domains, in order to better un­der­stand the world. In our latest research an­nounce­ments, we present two neural networks that bring us closer to this goal. The first neural network, DALL·E, can successfully turn tex

                                                                                  OpenAI Multimodal Research
                                                                                • 読書メモ:学術出版の来た道(有田正規 著) - 重ね描き日記(rmaruy_blogあらため)

                                                                                  学術出版の来た道 (岩波科学ライブラリー 307) 作者:有田 正規 岩波書店 Amazon 何気なく手に取ったこの本、非常に面白く、ためになる内容だった。タイトルに「学術出版」とあるが、「学術書」というよりは「学術誌」(いわゆる「ジャーナル」)が主題だ。 私の予備知識は以下のようなところだった。 研究者は、論文を書くことで成果を発表し、そのことで業績を認められる。 論文は、エルゼビア、シュプリンガーなど一握りの出版社が刊行する学術誌に掲載される。 近年はインターネット上でアクセスできるようになっているが、論文数の急増、雑誌の購読料の高騰など、様々な構造的問題が指摘されている。 …ここまでは、自分も何となく知っていた。 しかし、ではそうした学術界と出版界の関係がどのように構築されてきたのか。なぜ、大手出版からたびたび研究者から非難を浴びながらも、そのビジネスを続けられているのか*1。学術書

                                                                                    読書メモ:学術出版の来た道(有田正規 著) - 重ね描き日記(rmaruy_blogあらため)