並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 1776件

新着順 人気順

recognitionの検索結果201 - 240 件 / 1776件

  • Google Cloud Speech-to-Text APIをいろいろ調査してみる - OPTiM TECH BLOG

    こんにちは、2020年新卒入社予定の山口です!修論と引越し準備とアルバイトで慌ただしい日々を過ごしています。今日は業務で触った、Google製API Google Cloud Speech-to-Text API について皆さんと共有できればと思います。 Google Cloud Speech-to-Text API とは APIを導入していく GCP側 PC側 実際に試してみる 認識モデルを変更してみる マルチチャンネルで試してみる ファイル形式・サンプリング周波数を比較してみる ナレーション音声(「本日は〜」の音声です。) 走れメロス_朗読 おわりに Google Cloud Speech-to-Text API とは Google Cloud Speech-to-Text API は名前の通り、音声データから文字起こしをするAPIです。この音声データは私たちが日頃聞いているような音声

      Google Cloud Speech-to-Text APIをいろいろ調査してみる - OPTiM TECH BLOG
    • Whisperで話者分離ができる!会議や録音データを素早く文字起こし - Qiita

      この記事はSafie Engineers' Blog! Advent Calendar 8日目の記事です。 はじめに 映像から取得できる1時間程度の映像(ムービークリップ)を文字起こししたいという要望があったので、文字起こしシステムを作ってみました。 備忘録も兼ねて実施したことをまとめておこうと思います。whisperはOpenAI社が公開している高精度の文字起こしが可能なモデルになります。 文字起こしにwhipsperを使った決め手は以下です。 AWS Transcribeより高精度 pythonで素早く試せる MITライセンス AWS Transcribeで可能な話者分離ができないことが懸念でしたが、話者分離も別のモデルを組み合わせれば実現可能と思いwhipserに決めました。 アーキテクチャ whisper単体では処理の限界があったので、いくつか工夫を加えた結果上記のようなアーキテク

        Whisperで話者分離ができる!会議や録音データを素早く文字起こし - Qiita
      • 音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita

        本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化 重みの fp16 化 TorchScript 化 認識の長さを30秒ごとから10秒ごとに 結果処理速度が約2倍に ソースコード: https://github.com/projectlucas/efficient_whisper 実験結果: https://github.com/projectlucas/efficient_whisper/blob/main/notebooks/efficient_whisper.ipynb はじめに こんにちは株式会社 MIXI Romi 事業部 Engineering Manager の

          音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita
        • 点群データにおける表現学習 - Ridge-institute R&D Blog

          こんにちは,株式会社Ridge-iの@obaradsです.本記事では点群処理における表現学習手法について紹介します.また,本記事は@machinery81にレビューしていただきました. TL;DR 表現学習とは 点群で表現学習を扱う理由 点群の特徴の生成 ラベル付きデータが制限されている状況下におけるモデルの性能向上 点群間の対応を見つけるための表現学習 表現学習方法について 再構築タスクによる学習 Contrastive Learning 点群の表現学習に関する文献紹介 点群処理への深層学習の適用以前の特徴量の算出 ~2017年:PointNetが提案される以前の表現学習手法 2017~2019年:PointNetが提案されて以降の生成モデルを用いた表現学習手法 2019~2020年:自己教師あり学習を利用した表現学習手法 2020年~:シーン点群に着目した表現学習手法 まとめと今後の傾

            点群データにおける表現学習 - Ridge-institute R&D Blog
          • NDLOCRのWebアプリを作ってみた【Gradio】 - Qiita

            import os import torch print(torch.__version__) torch_ver, cuda_ver = torch.__version__.split('+') os.system(f'pip install mmcv-full==1.4.0 -f https://download.openmmlab.com/mmcv/dist/{cuda_ver}/torch{torch_ver}/index.html --no-cache-dir') os.system('cd src/ndl_layout/mmdetection && python setup.py bdist_wheel && pip install dist/*.whl') os.system('wget https://lab.ndl.go.jp/dataset/ndlocr/text_re

              NDLOCRのWebアプリを作ってみた【Gradio】 - Qiita
            • Why do so many brands change their logos and look like everyone else?

              Why do so many brands change their logos and look like everyone else? A few months ago, I received an email from Revolut (a British fintech company) in which they proudly unveiled their new logo. Previously, Revolut had a distinct and instantly recognizable logo. They replaced it with… something I was sure I had seen before. The previous Revolut logo had a unique font, a recognizable color gradien

                Why do so many brands change their logos and look like everyone else?
              • 1日1分かんたんTOEICリスニング対策部:単語数=8 その39

                解説TOEIC基礎単語シリーズ、動詞編。 英文・和訳 英文: This facial recognition AI can identify mask wearers. 和訳: この顔認識AIはマスクをつけた人を識別できる。 解説 recognition = 認識 identify = 認識する、識別する wearer = 着用者 「recognize」=「認識する」、名詞形は「recognition」=「認識」 「identify」=「認識する」、名詞形は「identification」=「身分証明」 似たような意味ですが、identifyの方が特定感が強いです。 たとえば、見覚えのある人が前から歩いてきたとします。 「誰だっけ?……たしか、ご近所さんだ」 この辺まで思い出すのが「recognize」。 「名前は……そうだ、○○さんだ」 どこの誰かまで完全に思い出せれば「identify

                  1日1分かんたんTOEICリスニング対策部:単語数=8 その39
                • ChatGPTで書かれた科学論文を99%以上の精度で検出できるツールが開発される

                  近年は文章や画像を生成するAIの発展が著しく、スタンフォード大学が行った調査では、学生の約17%が「課題または試験にChatGPTを使っている」と回答しています。カンザス大学のヘザー・デゼール氏らの研究チームはChatGPTを使って書かれた論文を検出するツールを開発しました。研究チームによると、検出の精度は99%以上とされています。 Distinguishing academic science writing from humans or ChatGPT with over 99% accuracy using off-the-shelf machine learning tools: Cell Reports Physical Science https://doi.org/10.1016/j.xcrp.2023.101426 AI-generated academic science

                    ChatGPTで書かれた科学論文を99%以上の精度で検出できるツールが開発される
                  • TechCrunch | Startup and Technology News

                    The families of victims of the shooting at Robb Elementary School in Uvalde, Texas are suing Activision and Meta, as well as gun manufacturer Daniel Defense. The families bringing the…

                      TechCrunch | Startup and Technology News
                    • Annotated Research Paper Implementations: Transformers, StyleGAN, Stable Diffusion, DDPM/DDIM, LayerNorm, Nucleus Sampling and more

                      This is a collection of simple PyTorch implementations of neural networks and related algorithms. These implementations are documented with explanations, and the website renders these as side-by-side formatted notes. We believe these would help you understand these algorithms better. We are actively maintaining this repo and adding new implementations. for updates. Translations English (original)

                        Annotated Research Paper Implementations: Transformers, StyleGAN, Stable Diffusion, DDPM/DDIM, LayerNorm, Nucleus Sampling and more
                      • Learn These Words First

                        Lesson 1 1A. to see, saw, seen. thing, something, what. this, these. the other, another, else. 1B. is the same as, be, am, are, being, was, were. one of. two of. person, people. 1C. many of, much of. inside. not, do not, does not, did not. 1D. some of. all of. there is, there are. more than. 1E. live, alive. big. small. very. 1F. kind of. if, then. touch. far from. near to. 1G. in a place, somepla

                        • 自然言語処理(NER, RE)を使ってニュースデータから知識グラフを構築してみました - GMOインターネットグループ グループ研究開発本部

                          2022.04.07 自然言語処理(NER, RE)を使ってニュースデータから知識グラフを構築してみました はじめに こんにちは、次世代システム研究室のC.Wです。 知識グラフは近年流行始めた概念で、お恥ずかしいのですが今年に入ってから知識グラフの概念を知りました。その思想を分かればわかるほど高い興味が湧いていきて、これこそがデータの最終的な形式ではないのかと思い始めています。 ただ構築しやすくないのが知識グラフの問題であって、自然言語処理を使って一発の自動作成ができるとすごく嬉しいと思ったので今回のテーマを研究しました。それでは始めましょう。 TL;DR ニュースデータからグラフDBに落とすまでを一通り試して、結果は微妙だった 自然言語処理の結果がグラフの意義性を左右している (言ってみれば当たり前のことです!) 知識グラフの概要 知識グラフとは、グラフ構造のデータモデルまたはトポロジを

                          • 「日本語のくずし字をAIで活字に直す試み」の活発化に海外の研究者らも注目

                            by Peter Roan 日本の古典籍や古文書で用いられている「くずし字」を現代日本語の文字に変換する作業を「翻刻」と呼びます。多くの現代日本人はくずし字を読むことができないので、変換は誰にでもできるものではありません。そこで注目が集まっているのが、機械学習を利用して翻刻する試みです。モントリオール大学の博士課程で機械学習の研究を行うアレックス・ラム氏が、くずし字の活字化を取り巻く事情をまとめています。 How Machine Learning Can Help Unlock the World of Ancient Japan https://thegradient.pub/machine-learning-ancient-japan/ 過去の人々が残した膨大な書物や文書は、歴史や文化を考える上で非常に重要な資料となります。しかし、言語や記法は時間と共に変化していくものであり、古い文書

                              「日本語のくずし字をAIで活字に直す試み」の活発化に海外の研究者らも注目
                            • OpenAI Sora に使われる技術

                              TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開 画像生成モデル Diffusion-Transformer を利用 動画を3次元画像として扱うことで画像モデルを拡張 キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。 図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。 こ

                                OpenAI Sora に使われる技術
                              • ZOZOTOWNのクエリ解釈機能の改善に向けたAPIリプレイスの取り組み - ZOZO TECH BLOG

                                はじめに こんにちは。検索基盤部 検索技術ブロックの今井です。 検索基盤部では検索機能や検索精度を改善する中で検索クエリの意図解釈にも取り組んでいます。ZOZOTOWNで検索窓にクエリを入力して検索ボタンを押すと、クエリに応じて検索の絞り込み条件に変換するクエリ解釈機能の処理が動作します。 例えば、「ワンピース 白色」と検索した時、「ワンピース」を洋服のカテゴリー、「白色」を色のカテゴリーと解釈し、「白色のワンピース」を検索する絞り込み条件に変換します。 2024年5月現在ではスマートフォン向けWebサイト(https://zozo.jp/sp/xxx)とアプリのみ、クエリ解釈機能の処理が適用されています。クエリ解釈機能では意図解釈や検索の絞り込み条件に変換しています。 現在はシンプルな辞書ベースの手法を用いていますが、カバーしきれない課題も出てきており、改善のモチベーションが少しずつ上が

                                  ZOZOTOWNのクエリ解釈機能の改善に向けたAPIリプレイスの取り組み - ZOZO TECH BLOG
                                • 40もの主要音楽フェスが顔認識技術を採用しないことを誓約 - YAMDAS現更新履歴

                                  この話題が日本ではあまり話題になってないようなのが気になるのだが、SXSW やコーチェラやピッチフォークやボナルーといった世界的に知られる40もの音楽フェスが、顔認識技術を採用しないことを誓っている。 AI(人工知能)の進歩などあり、顔認識技術が実用化されているのはご存知の通りである。確かに顔認識技術には大きなメリットがあるが、一方でプライバシー侵害の懸念があり、また現行の顔認識技術に人種的なバイアスがある話も知られている。 犯罪防止などメリットがあるはずの音楽フェスが率先してその不採用を誓約するのには上記の理由もあるだろうし、何より日常から離れた楽しみであるはずの音楽フェスが率先してジョージ・オーウェルを連想させる監視社会化に手を貸しちゃいかんだろうというという意思があるのではないか。 フェス全般における顔認識技術の利用については BanFacialRecognition.com にまと

                                    40もの主要音楽フェスが顔認識技術を採用しないことを誓約 - YAMDAS現更新履歴
                                  • 低リソースかつノイジーなテキストに対する固有表現認識 - Ahogrammer

                                    ACL 2019より以下の論文を紹介。 Towards Robust Named Entity Recognition for Historic German この論文は、昔のドイツ語(1700年〜1900年くらい)に対する固有表現認識を行った論文。「昔のドイツ語の固有表現認識になんか興味ねーよ」と思うかもしれないが、要するに低リソースかつノイジーなテキストに対する固有表現認識を上手くやるための方法だと考えればいい。手法としては言語モデルを事前学習して、それを使って固有表現認識するというもの。時代の異なる2つのデータセットに対して検証したところ、従来手法より良い結果となった。 昔のドイツ語に対する固有表現認識には3つの課題がある。一つはリソースの量が少ない点。現在よく使われているCoNLL 2003のデータセットと比べると、タグの付いたデータ量が少なく、その分難しくなっている。2つ目はテキ

                                      低リソースかつノイジーなテキストに対する固有表現認識 - Ahogrammer
                                    • 顔認証システムをだます詐欺が急増、詐欺師はどうやって突破しているのか?

                                      顔認証技術はスマートフォンのアンロックの方法として一般的になってきたほか、アプリの認証システムとしても利用されています。しかし、近年は顔認証システムを突破する詐欺が目立っており、今後はさらに増加していくものと見られています。詐欺師たちはどのようにして顔認証システムをだまそうとしているのか、テクノロジーレポーターのParmy Olson氏が伝えています。 Faces Are the Next Target for Fraudsters - WSJ https://www.wsj.com/articles/faces-are-the-next-target-for-fraudsters-11625662828 生体認証の1つである顔認証技術はFBIを始めとする多くの法執行機関で利用されるほか、中国のゲーム会社が「顔認証によるゲームプレイ時間の制限を実施する」と発表するなど、多岐に渡る分野で活用

                                        顔認証システムをだます詐欺が急増、詐欺師はどうやって突破しているのか?
                                      • コンピュータビジョン分野における世界最高峰の国際会議CVPR2022からワークショップの模様を紹介(前編) - NTT Communications Engineers' Blog

                                        目次 目次 はじめに CVPR2022概要 Workshop on Image Matching: Local Features & Beyond SuperPoint and SuperGlue: Lessons Learned Large-scale 3D reconstruction Deployment - Successes, Challenges, Open Problems Unstructured Object Matching using Co-Salient Region Segmentation Nerfels: Renderable Neural Codes for Improved Camera Pose Estimation Feature Query Networks: Neural Surface Description for Camera Pose Re

                                          コンピュータビジョン分野における世界最高峰の国際会議CVPR2022からワークショップの模様を紹介(前編) - NTT Communications Engineers' Blog
                                        • GitHub - yemount/pose-animator

                                          Pose Animator takes a 2D vector illustration and animates its containing curves in real-time based on the recognition result from PoseNet and FaceMesh. It borrows the idea of skeleton-based animation from computer graphics and applies it to vector characters. This is running in the browser in realtime using TensorFlow.js. Check out more cool TF.js demos here. This is not an officially supported Go

                                            GitHub - yemount/pose-animator
                                          • 「顔認識技術を禁止せよ」 黒人差別を受けハイテク大手の対応は?

                                            「顔認識技術を禁止せよ」 黒人差別を受けハイテク大手の対応は?:星暁雄「21世紀のイノベーションのジレンマ」(1/3 ページ) 「顔認識技術は有害だ」「顔認識技術の利用を禁止せよ」──このような声が米国で高まっている。巨大テクノロジー企業の米IBM、Amazon、Microsoftは相次ぎ警察など法執行機関への顔認識技術の提供を中止すると発表した。 「顔認識技術は有害」との表現に抵抗を感じる読者もいるかもしれない。「技術それ自体は善でも悪でもない」と考えるのが従来の常識だったからだ。だが時代は変わり、情報技術は大規模適用されて社会に影響を及ぼしている。いまや技術と倫理・人権の距離は非常に近い。機械学習に基づく顔認識技術には人種差別、性差別が組み込まれており、使い方によっては社会から排除されがちな人々をより脆弱(ぜいじゃく)な立場に追いやる危険性が指摘されている。 引き金を引いたのは、202

                                              「顔認識技術を禁止せよ」 黒人差別を受けハイテク大手の対応は?
                                            • 顔認証決済とは?JCBとパナソニックが本格展開を検討!特徴やメリットを徹底解説

                                              『イーデス』は、複数の企業と提携し情報を提供しており、当サイトを経由して商品への申込みがあった場合には、各企業から報酬を受け取ることがあります。ただし当サイト内のランキングや商品の評価に関して、提携の有無や報酬の有無が影響を及ぼすことはございません。 また当サイトで得た収益は、サイトを訪れる皆様により役立つコンテンツを提供するために、情報の品質向上・ランキング精度の向上等に還元しております。※提携機関一覧 クレジットカード会社のJCBはパナソニックシステムソリューションズ ジャパン株式会社が展開している「顔認証クラウドサービス パートナープログラム」に参画し、両者で顔認証決済サービスの本格展開の検討を始めました。 ただ、顔認証決済サービスと聞いても、どのようなものなのかイメージが湧かない人が多いかと思います。 そこで、この記事では

                                                顔認証決済とは?JCBとパナソニックが本格展開を検討!特徴やメリットを徹底解説
                                              • 人名とニックネームが混じった検索の改善 - エムスリーテックブログ

                                                エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回は弊社で運用しているメンバーズメディアと言う医療系記事サービスの著者名検索を改善したお話をします。目新しいことはやってませんが、ちょっぴり特殊な対応なので共有します。 人名とニックネームが混じった検索とは 課題 解決方法 部分一致的な検索をする ひらがな/カタカナや小文字/大文字を寄せる 苗字+名前の間のスペースを全体で削除する スコアの調整 まとめ さらなる改善を行う場合 We're hiring! 人名とニックネームが混じった検索とは メンバーズメディアというサービスでは専門家が医師向けの記事を執筆しています。著者の中には人気の方もおり、ユーザーが著者の名前で検索されることもあります。 著者には人名(苗字+名前)の方もいればニックネームで登録

                                                  人名とニックネームが混じった検索の改善 - エムスリーテックブログ
                                                • AIは顔を見ただけで「保守派」「リベラル派」などの政治思想を特定できる可能性

                                                  「この人は保守派だ」「この人はリベラル政党を支持している」といった傾向を判断するには、通常はその人の言動などを分析する必要があります。しかし、スタンフォード大学経営大学院の研究チームが、顔認識技術とAIを組み合わせることで、顔を見るだけでその人の政治的指向を正確に評価できると主張しています。 Facial Recognition Technology and Human Raters Can Predict Political Orientation From Images of Expressionless Faces Even When Controlling for Demographics and Self-Presentation https://awspntest.apa.org/fulltext/2024-65164-001.html AI Can Tell Your Pol

                                                    AIは顔を見ただけで「保守派」「リベラル派」などの政治思想を特定できる可能性
                                                  • Command PATH security in Go - The Go Programming Language

                                                    Russ Cox 19 January 2021 Today’s Go security release fixes an issue involving PATH lookups in untrusted directories that can lead to remote execution during the go get command. We expect people to have questions about what exactly this means and whether they might have issues in their own programs. This post details the bug, the fixes we have applied, how to decide whether your own programs are vu

                                                      Command PATH security in Go - The Go Programming Language
                                                    • AIライティングアシストとは?英語学習への効果やデメリット・最新の研究も紹介 - ポリグロットライフ | 言語まなび∞ラボ

                                                      はじめに 今回はAIライティングアシストの英語学習への効果やデメリットについて考えていきたいと思います。さらに、最新の研究も紹介していきます。AIライティングアシストを支えているのが自然言語処理であり、それを言語に最適化したツールとしてChatGPTやGrammalyが英語学習のツールとして注目されています。今回はそれらのAIライティングアシストの正しい使い方について考えていきたいと思います。 ↓↓英語学習動画を随時アップしています www.youtube.com 主な参考文献 「言語と身体性」 「はじめての認知言語学 」 「ゼロからわかる人口知能」 AIライティングアシスト AIライティングアシストとは 英語学習者(EFL)とAIライティングアシスト AIと第二言語習得研究 自然言語処理(NLP) 自然言語処理とは 自然言語処理の発展 脳内に入り込んだニューラルネットワーク ディープラー

                                                        AIライティングアシストとは?英語学習への効果やデメリット・最新の研究も紹介 - ポリグロットライフ | 言語まなび∞ラボ
                                                      • カメラを使わない顔認識システム、顔を振るだけで暗闇でも検知 中国とオーストラリアの研究チームが開発

                                                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 中国の深せん大学とオーストラリアのUniversity of New South Walesによる研究チームが開発した「RFaceID: Towards RFID-based Facial Recognition」は、RFID技術を使った顔認識システムだ。ユーザーがRFIDタグマトリクスの前で数秒間顔を振るだけで顔を認識する。カメラを使わないため暗闇でも検知する。 一般的に顔認識を行うには、カメラを使った視覚的な入力が必要だ。しかし、PCやスマートフォンなどの一般的なカメラには、暗視用の赤外線ライトを搭載していないため、照明条件が悪い場合には精度が低下する。 カメラによるプライバシー漏えい

                                                          カメラを使わない顔認識システム、顔を振るだけで暗闇でも検知 中国とオーストラリアの研究チームが開発
                                                        • Huaweiが中国政府の監視システムに関与していたことを示す文書が報じられる

                                                          by Web Summit アメリカの日刊紙であるワシントン・ポストが、独自入手した文書をもとに、中国の新疆ウイグル自治区に設けられた労働・再教育施設用のテクノロジーや監視システムの構築にHuaweiが関与していたと報じています Huawei documents show Chinese tech giant’s involvement in surveillance programs - The Washington Post https://www.washingtonpost.com/world/2021/12/14/huawei-surveillance-china/ Leaked documents link Huawei to China’s domestic spying in Xinjiang - The Verge https://www.theverge.com/202

                                                            Huaweiが中国政府の監視システムに関与していたことを示す文書が報じられる
                                                          • VIM - Minimal Setup Explained

                                                            This changes the values of a LOT of options, enabling features which are not Vi compatible but really really nice. Enables input of special characters by a combination of two characters. Example: Type 'a', erase it by typing CTRL-H - and then type ':' - this results in the umlaut: ä So Vim remembers the character you have erased and combines it with the character you have typed "over" the previos

                                                            • AIによる風景の†異世界変換† - Qiita

                                                              おわかり、いただけたでしょうか。 こちらはGAN(敵対的生成ネットワーク)を活用し、写真に「ホラー」の特徴を与え、変換しています。 原理についてはひとまず置いておいて、まずはGANの可能性をご覧ください! 季節変換、オーロラ変換、花火変換 変換前 変換後 これらはCycleGAN[1]を利用して「夏と春」「雲とオーロラ」「空と花火」などのペアで特徴の入れ替えを行っています。 ただ色彩を変えるわけでなく、言わば「画像の翻訳(変換)」のように原型を保ちながら変換が行われています。 CycleGANの原理について詳しく知りたい方は、こちらの記事を参考にしてください。私も大変お世話になりました。 今回、私はこの技術を写真の「風景変換」に……否!! 「†異世界変換†」に活用しました!! 4ヶ月に渡る奮闘と、その成果をご覧ください。 †ファンタジー変換† まずは†ファンタジー変換†です。 「風景(鹿児

                                                                AIによる風景の†異世界変換† - Qiita
                                                              • 【Groq】一秒で500トークン、GPT-4の25倍のスピードで出力できるAIを使ってみた | WEEL

                                                                WEELメディア事業部LLMリサーチャーの中田です。 ここ数日で、言語生成AIの「Groq」が話題になりました。 これにより、GPTよりも高速でテキストを生成できるんです、、、! "GPT-3.5 class LLMs are too slow." Sure, that was true last week. Here is Groq (not the same as Musk's Grok) running Llama 2. Watch for the moment I click send. If you want to try: https://t.co/aZKkWVsamS pic.twitter.com/gOlB4cL5MC — Ethan Mollick (@emollick) February 19, 2024 XでのGroq関連の投稿のいいね数は、すで1100を超えており、

                                                                • 知識ゼロでもわかる!歴史から紐解く人工知能(AI)のこれまでとこれから

                                                                  はじめに本記事は,題名の通り「人工知能 (AI)」のこれまでの軌跡と,展望についてまとめた記事です. 知識ゼロでもわかる,と言っていますが多少の数学的知識があるとより深く内容が理解できるかと思います. なお,上記目次を見ればわかるように,それなりに長いです. 後で読む場合はブックマークにでも入れておいてください. 長編ではありますが,噛み砕いて読みやすいようには頑張って書いていきます. 読み進めていただく前にいくつか注意すべき点があります. 本記事の対象者人工知能について興味はあるけどイマイチ実態がわからない人人工知能について少し知識はあるものの,正直よく分かっていない人人工知能技術を業務で使用したことがあるけれど,歴史とか今後どうなっていくか等「全体像は意外と知らないかも」と思った人理系のことはよくわからないけど,人工知能の雰囲気を掴んでちょっと雑学を増やしたい人筆者について最初に,そも

                                                                    知識ゼロでもわかる!歴史から紐解く人工知能(AI)のこれまでとこれから
                                                                  • AI vs 人間!顔認識技術の限界にチャレンジしてみた - karaage. [からあげ]

                                                                    古くて新しい顔検出技術 顔認識技術は、顔の位置を検出する技術です。デジタルカメラやスマートフォンのカメラ機能などでおなじみの、顔に四角い枠が出てピントが合うやつです。有名ですよね。 より正確には顔の位置を示すのが「顔検出」で、誰の顔かを見分けるのは「顔識別」「顔判別」「顔認証」と区別されます。今回の記事では、便宜上一般的に馴染みのある「顔認識」=「顔検出」という定義で説明いたします(専門家の方、石投げるのはご勘弁を)。 顔認識技術は、興味ある人も多いようで、当ブログで過去に顔認識技術を扱った記事も、古いわりに今だに人気のある記事になります。 拙作の 「からあげ先生のとにかく楽しいAI自作教室」でも、顔認識技術は少し扱っているのですが、書籍の主題から外れるので、詳細は割愛しておりました。書籍の補足的な位置付けもこめて、今回は顔認識技術に関して、楽しみながらより深く理解できる記事として、顔認識

                                                                      AI vs 人間!顔認識技術の限界にチャレンジしてみた - karaage. [からあげ]
                                                                    • GitHub - flashlight/flashlight: A C++ standalone library for machine learning

                                                                      Flashlight is a fast, flexible machine learning library written entirely in C++ from the Facebook AI Research and the creators of Torch, TensorFlow, Eigen and Deep Speech. Its core features include: Total internal modifiability including internal APIs for tensor computation. A small footprint, with the core clocking in at under 10 MB and 20k lines of C++. High-performance defaults featuring just-i

                                                                        GitHub - flashlight/flashlight: A C++ standalone library for machine learning
                                                                      • Twitterで振り返る2019年のDeep Learning論文(前編) - Qiita

                                                                        はじめに みなさんどうやってDeep Learningの最新論文をフォローしているでしょうか。私は特に工夫することもなくarXivをチェックする毎日です。基本的に自分の専門分野であるコンピュータビジョンに関連するComputer Vision and Pattern Recognitionの新着だけを見ています。大体1日に50〜100件くらいの新規投稿があります。タイトルと著者(の所属)とアブストラクトをざっと見て、気になったものはもうちょっと読みます。で、たまにその紹介をツイートします。 さて、2019年も終わりということで、ツイートした論文紹介からピックアップして補足する形で2019年のDeep Learning論文の振り返りをしてみようと思います。ピックアップにはTwitter公式のアナリティクスを使いました。といっても単に各ツイートのインプレッション1を取得し、インプレッションが高

                                                                          Twitterで振り返る2019年のDeep Learning論文(前編) - Qiita
                                                                        • Create Logos in Seconds With Generative A.I | Logo Diffusion

                                                                          PricingAffilatesRoadmapBlogHelpContactSign inRegisterCreate Logos in Seconds With Generative A.ICreate unique & custom logos without relying on stock designs. Unleash A.I’s power to control every aspect of your logo design process. Watch a DemoGet Started Free Text to LogoCreate beautiful Logos from simple text promptsWrite a logo prompt and watch as the A.I. creates original designs within second

                                                                          • GPU1枚、1日未満で学習!超高速学習GAN、「Lightweight GAN」

                                                                            3つの要点 ✔️ Skip-Layer Excitationとself-supervised Discriminatorを提案し、パラメータの大幅削減に成功 ✔️ 少量データでも学習可能 ✔️ 1024×1024の画像もGPU1枚、数時間で学習可能 Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis written by Anonymous (Submitted on 29 Sep 2020) Comments: Accepted at ICLR2021 Subjects: Computer Vision and Pattern Recognition (cs.CV); Image and Video Processing (eess.IV) Comm 概要 これまでのG

                                                                              GPU1枚、1日未満で学習!超高速学習GAN、「Lightweight GAN」
                                                                            • Changing World, Changing Mozilla | The Mozilla Blog

                                                                              This is a time of change for the internet and for Mozilla. From combatting a lethal virus and battling systemic racism to protecting individual privacy — one thing is clear: an open and accessible internet is essential to the fight. Mozilla exists so the internet can help the world collectively meet the range of challenges a moment like this presents. Firefox is a part of this. But we know we also

                                                                                Changing World, Changing Mozilla | The Mozilla Blog
                                                                              • Face and hand tracking in the browser with MediaPipe and TensorFlow.js

                                                                                Posted by Ann Yuan and Andrey Vakunov, Software Engineers at Google Today we’re excited to release two new packages: facemesh and handpose for tracking key landmarks on faces and hands respectively. This release has been a collaborative effort between the MediaPipe and TensorFlow.js teams within Google Research. Try the demos live in your browserThe facemesh package finds facial boundaries and lan

                                                                                  Face and hand tracking in the browser with MediaPipe and TensorFlow.js
                                                                                • 「警察によるAI使用禁止」を欧州議会が決議、顔認証技術や行動監視が対象

                                                                                  欧州議会が2021年10月6日に、法執行機関が顔認証技術や犯罪を予見する技術を使用することを禁止するよう求める決議を採択したと発表しました。欧州議会が人工知能(AI)を用いた捜査の禁止に乗り出した背景には、アルゴリズムの偏りにより差別が助長されることへの懸念があります。 Use of artificial intelligence by the police: MEPs oppose mass surveillance | News | European Parliament https://www.europarl.europa.eu/news/en/press-room/20210930IPR13925/use-of-artificial-intelligence-by-the-police-meps-oppose-mass-surveillance European Parliame

                                                                                    「警察によるAI使用禁止」を欧州議会が決議、顔認証技術や行動監視が対象