並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 195件

新着順 人気順

recognitionの検索結果1 - 40 件 / 195件

  • 【AI動画生成】Sora 要素技術解説

    もう全部OpenAIでいいんじゃないかな はじめに 月間技術革新です。 ということで、昨日OpenAIから発表された新しい動画生成AI「Sora」が非常に話題となっていますね。 圧倒的な一貫性の保持と1分間に及ぶ長時間動画が生成可能という事で、現状の動画生成技術を圧倒的に凌駕する性能を持っているようです。 在野エンジニアの小手先テクニックなど一笑に付すような圧倒的性能を Soraの凄さは色んなエンジニアやインフルエンサーがたくさん語っているのでそちらを見てもらうとして、この記事ではSoraを構成する各技術について簡単に解説していければと思います。 Soraの技術構成 論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。 原文を見たい方はこちらからどうぞ 全体構成 Soraは以下の技術要素で構成されているとのこと

      【AI動画生成】Sora 要素技術解説
    • 【AWS】近年の終了サービスから見るAWSの今後の方向性 - Qiita

      前段 最近CodeCommitやCloud9の新規アカウント利用不可になったことでX上ではざわざわ...していました。 ・ 2024年7月27日時点におけるAWS CodeCommitとAmazon CloudSearchの新規利用に関して ・AWS Cloud9が突然、新規利用不可に? 代替策「SageMaker Studio コードエディタ」の利用手順 そこで、ここ直近一年(2023/4~)で終了(の予告があった)サービスをみて、今後の展開を考えてみようと思いました。 あわよくば、「このサービスもなくなるかもなー」と先見の明が少しでも生えれば焦らなくてすむな、という思いで書いています。 ※あくまで個人見解です ここ一年で終了(の予告があった)したサービス AWS OpsWorks(2024.1.31 終了) AWS OpsWorks Stacks サポート終了FAQs 登場背景 201

        【AWS】近年の終了サービスから見るAWSの今後の方向性 - Qiita
      • Transformer Explainer: LLM Transformer Model Visually Explained

        What is a Transformer? Transformer is a neural network architecture that has fundamentally changed the approach to Artificial Intelligence. Transformer was first introduced in the seminal paper "Attention is All You Need" in 2017 and has since become the go-to architecture for deep learning models, powering text-generative models like OpenAI's GPT, Meta's Llama, and Google's Gemini. Beyond text, T

          Transformer Explainer: LLM Transformer Model Visually Explained
        • OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics

          はじめに こんにちは。データサイエンスチームYAMALEXのSsk1029Takashiです。 最近はOpenAIに日本支社が出来て、日本語対応が加速するというニュースにわくわくしています。 今回はそんなOpenAIから発表されたBatch APIという機能が便利、かつお得な機能だったのでどのように使えるのか試してみます。 Introducing the Batch API: save costs and get higher rate limits on async tasks (such as summarization, translation, and image classification). Just upload a file of bulk requests, receive results within 24 hours, and get 50% off API pri

            OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics
          • Pythonの高速なスーパーセット「Mojo」がAppleシリコン搭載のMacにまもなく対応

            Modular社はPythonの高速なスーパーセットだと同社が位置づけている開発中の新言語「Mojo」が、今月(2023年10月)中にAppleシリコンを搭載したMacに対応予定であることを明らかにしました。 Mojo is coming to Apple Silicon before the end of October! Here’s a sneak-peak using Infermo - https://t.co/7KEV3G5xj7 - created by @fe_tilli to train a model for digit recognition pic.twitter.com/q350IS2oDl — Modular (@Modular_AI) October 11, 2023 MojoはPython互換として既存のTensorFlowやPyTorchなどをそのまま実行

              Pythonの高速なスーパーセット「Mojo」がAppleシリコン搭載のMacにまもなく対応
            • 1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」

              徳永拓之(LeapMind(株)) 1bit LLMの時代が来る? 2024 年2 月,The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits¹⁾ というタイトルの論文がarXiv上で公開され,にわかに話題となりました.“1.58 Bits” という表現はあまりなじみがありませんが,log₂(3) = 1.58 . . . ということで,パラメーターを三値にした場合の情報量を示しているようです.この論文(以下b1.58 論文とする)は,同じ著者グループによる文献2)を少し拡張したもので,大規模言語モデル(LLM)の効率化についての研究です. 本稿の前半ではこれらの論文の主張を解説し,後半ではその主張の妥当性について検討します. なお,これらの2本の論文は,本稿執筆時点では,査読を経たものではありませんのでご注意くだ

                1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」
              • 画像grepツールを作ってみた - Qiita

                経緯 ごく稀に、プロダクト内に書かれた文言の修正をすることってありますよね。 htmlやテンプレートファイルに文字列が記載されていれば、普通にgrepするなり、sedで一括置換できたりします。 問題は画像です・・・! 画像の中に置き換えなければいけない文字があることもあると思いますが、画像を目視で見ないと分からないですよね。 過去の経験的にも、あとから置き換えなければいけない文字を含む画像が見つかって、修正する・・・みたいなことを何度か経験したことがあります。 (本来は、画像内にあまり文字を書くのは良くないと思うのだけど・・・説明ページとかだと仕方ない場合もありますよね。) 画像内をgrepできたらいいのに、と思ったのでOCRを活用して画像内の文字列をテキスト化し、その中に調べたい文字列があるかをチェックするツールを作ってみたので紹介します。 OCRとは OCR(Optical Chara

                  画像grepツールを作ってみた - Qiita
                • Claude 3.5 SonnetでStable Diffusion XLによる画像生成を要件が満たされるまで繰り返すAmazon Bedrockの使用例 - NRIネットコムBlog

                  小西秀和です。 Amazon BedrockのAIモデルとして利用可能になったAnthropic Claude 3ファミリーでは画像認識機能が導入されました。そして、最新モデルのAnthropic Claude 3.5 Sonnetにも更に強化された画像認識機能が備わっています。 これらのAnthropic Claudeモデルの画像認識機能、特にOCR(光学文字認識)の性能については、いくつかの簡単な試行と比較を実施してみたことがあります。詳細は以下の記事でご覧いただけます。 Using Amazon Bedrock for titling, commenting, and OCR (Optical Character Recognition) with Claude 3 Haiku Using Amazon Bedrock for titling, commenting, and OCR

                    Claude 3.5 SonnetでStable Diffusion XLによる画像生成を要件が満たされるまで繰り返すAmazon Bedrockの使用例 - NRIネットコムBlog
                  • GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics

                    こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。 検証では、日本語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。 また、手書き・活字での違いも見ていきましょう。 一番簡単に試せるChatGPT(Web版)でOCRをさせようとするとエラーになることが多かったので、 ここではAPIを使っていくこととします。 APIを呼び出すプログラム 以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。 画像は個人のgithu

                      GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
                    • 最初期の絵文字セットが1988年のシャープ製電子手帳から発見される

                      絵文字は英語でも「emoji」と呼ばれている通り、日本発祥の文化という説が有力です。新たに1988年に生産された日本の電子手帳から「最初期の絵文字」が発見されました。 Emoji history: the missing years  ⌘I  Get Info https://blog.gingerbeardman.com/2024/05/10/emoji-history-the-missing-years/ New Earliest Emoji Sets From 1988 & 1990 Uncovered https://blog.emojipedia.org/new-earliest-emoji-sets-from-1988-and-1990-uncovered/ 絵文字文化の起源には多様な説があり、中でも「1999年のNTTドコモによるiモード開発が切っ掛けで誕生した」という説が広

                        最初期の絵文字セットが1988年のシャープ製電子手帳から発見される
                      • イスラエル当局が「Googleフォト」等を利用してパレスチナ人の大規模監視を行っていたことが明らかに

                        イスラエルの軍事諜報部門がガザ地区で実験的な顔認識プログラムを展開し、人工知能プログラムを用いて指名手配犯を捜索していることが明らかになりました。軍は民間企業の技術のほか、Googleフォトも利用していると報じられています。 Israel Deploys Expansive Facial Recognition Program in Gaza - The New York Times https://www.nytimes.com/2024/03/27/technology/israel-facial-recognition-gaza.html 2024年3月27日、ガザ地区から出ようとして突然拘束されてしまったパレスチナ人のエピソードをニューヨーク・タイムズが報じました。報道によると、イスラエル軍は顔認識技術を導入した監視システムを導入しており、人工知能プログラムによって誤って無関係な人

                          イスラエル当局が「Googleフォト」等を利用してパレスチナ人の大規模監視を行っていたことが明らかに
                        • The Development of the C Language

                          The Development of the C Language* Dennis M. Ritchie Bell Labs/Lucent Technologies Murray Hill, NJ 07974 USA dmr@bell-labs.com ABSTRACT The C programming language was devised in the early 1970s as a system implementation language for the nascent Unix operating system. Derived from the typeless language BCPL, it evolved a type structure; created on a tiny machine as a tool to improve a meager progr

                          • 「前歯を舌でタップ」「舌をかむ」 VRヘッドセットを“舌操作” 米Microsoftが開発

                            このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米ジョージア工科大学と米Microsoft Researchに所属する研究者らが発表した論文「TongueTap: Multimodal Tongue Gesture Recognition with Head-Worn Devices」は、VR/ARヘッドセットなどで、口を閉じたまま舌を使って操作するインタフェースに関する研究報告である。 頭部装着型デバイスにおける舌を使った操作は、ハンズフリーだけでなく、唇や顎を最小限に動かし、口を閉じたままで操作できる利点がある。外部から気付かれにくいため、公共の場でも使用しやすい。 しかし、過去の舌

                              「前歯を舌でタップ」「舌をかむ」 VRヘッドセットを“舌操作” 米Microsoftが開発
                            • 新世代CPUアーキテクチャ「Zen 5」完全解説。Ryzen 9000シリーズはどのように進化したのか[西川善司の3DGE]

                              新世代CPUアーキテクチャ「Zen 5」完全解説。Ryzen 9000シリーズはどのように進化したのか[西川善司の3DGE] ライター:西川善司 2017年の初登場以来,改良と進化を継続してきたAMDの「Zen」マイクロアーキテクチャ。その最新版となる「Zen 5」を採用するデスクトップPC向けCPU「Ryzen 9000」が,7月31日に発売となる(関連記事)。 当初のラインナップとして発表となったのは,以下に示す4製品だ。 2024年7月31日に発売予定のRyzen 9000シリーズのラインナップ AMDは,2022年に投入した「Zen 4」マイクロアーキテクチャ世代のRyzen 7000シリーズから,デスクトップPC向けCPUは「Socket AM5」(以下,AM5)プラットフォームに移行しているが,今回のRyzen 9000シリーズも,引き続きAM5向けとなっている。なお,AMDは

                                新世代CPUアーキテクチャ「Zen 5」完全解説。Ryzen 9000シリーズはどのように進化したのか[西川善司の3DGE]
                              • LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ

                                こんにちは!LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。 みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。 tech.layerx.co.jp ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。 comemo.nikkei.com AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩

                                  LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ
                                • UI = f(statesⁿ)

                                  “UI is a function of state” is a pretty popular saying in the front-end world. In context (pun intended), that’s typically referring to application or component state. I thought I’d pull that thread a little further and explore all the states that can effect the UI layer… First-party application states Every application whether it’s a to-do list or a shopping cart or some radically complex app wil

                                  • 色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog

                                    こんにちは、ラボで研究開発をしたりプロトタイプを作っている藤本(X(Twitter))です。ABEJAアドベントカレンダー2023の21日目の記事です。ここ近年、生成AIの勢いが凄いです。最近は一夜明けたら世界が変わっているみたいなことがしょっちゅう起きています。そんな状況なので、なかなか世の中についていくのが難しいのではないかと思います。そこで今回は、これまでに色々と出てきた生成モデルを振り返りつつ、ひたすら思いつく限りColabで動かしまくってみる企画をやってみようかと思います。流石に全部Colabで動かすのは大変でした・・・。 まずは言語を対象として日本語モデルを含む様々なモデルを対象に推論実験を行います。続いて高速化の実験、更にSFTによるInstructionチューニングや、RLHFもやってみます。最後に、ソースコード生成もやってみましょう。次に、画像を対象として、言語同様に色々

                                      色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog
                                    • GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB

                                      Googleは、非構造化文書(例えばレシートなど)から高精度にテキストを抽出するOCR(Optical Character Recognition)技術『LMDX(Language Model-based Document Information Extraction and Localization)』を発表しました。この技術は、特にGoogleの大規模な言語モデル「Bard」と、Google DriveやGmailなどのサービスとの連携をさらに強化する可能性もあります。 参照論文情報 タイトル:LMDX: Language Model-based Document Information Extraction and Localization 著者:Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ram

                                        GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB
                                      • LogLog Games

                                        The article is also available in Chinese. Disclaimer: This post is a very long collection of thoughts and problems I've had over the years, and also addresses some of the arguments I've been repeatedly told. This post expresses my opinion the has been formed over using Rust for gamedev for many thousands of hours over many years, and multiple finished games. This isn't meant to brag or indicate su

                                        • Host your LLMs on Cloud Run | Google Cloud Blog

                                          Run your AI inference applications on Cloud Run with NVIDIA GPUs Developers love Cloud Run for its simplicity, fast autoscaling, scale-to-zero capabilities, and pay-per-use pricing. Those same benefits come into play for real-time inference apps serving open gen AI models. That's why today, we’re adding support for NVIDIA L4 GPUs to Cloud Run, in preview. This opens the door to many new use cases

                                            Host your LLMs on Cloud Run | Google Cloud Blog
                                          • 拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ

                                            はじめに こんにちは。BASEのデータ分析チーム(Data Strategy Team)で不正対策を行ったり、機械学習モデルを触ったりしている竹内です。 先日チーム内の論文読み会でニューラルネットを用いた画像合成によるバーチャル試着技術というトピックに触れる機会があったので、その最近のトレンドについて改めてブログという形でまとめてみました。 バーチャル試着は画像生成モデルの実用的なユースケースの一つとして今現在データセットの拡充やアーキテクチャの検証が進んでいる分野の一つであり、個人的には非常にアツいトピックだと感じています。 バーチャル試着とは バーチャル試着(Virtual Try On)とは、ある人物がある衣服を着用した状態を画像や3Dモデルなどの情報をもとに仮想的に実現し、どのように見えるか可視化する技術のことです。 ネットショップの普及により、店頭に出向かずともPCやスマートフォ

                                              拡散モデルを用いた2Dバーチャル試着技術について - BASEプロダクトチームブログ
                                            • もっと早く使いたかったPDF編集ソフト「PDFelement」のすごいところ【今日のライフハックツール】 | ライフハッカー・ジャパン

                                              もう「面倒なファイルだなぁ」とは思わない! 仕事をしていくなかで必ず出会う、PDFというファイル形式。しかし、WordやExcelといった一般的なファイルよりも扱いづらいと感じたこともあるのでは? WordやExcelからPDF形式で出力することもできますが、PDFそのものを編集するソフトを使えば、もっと効率的に軽やかに仕事ができます。「元データどこだっけ?」となることもありません。 そもそもPDFってなんだっけ?ソフトを紹介する前に、簡単にPDFそのものについての解説をば。 PDF(Portable Document Format)はAdobe社が開発した文書フォーマットで、PC、スマホ、あるいはOSの違いといった環境に左右されずに文書を表示・保存できるのが強み。印刷にも柔軟に対応できます。 たとえばWordファイルを扱う場合、ソフトのバージョンやPCの違いによって、表示やレイアウトが乱

                                                もっと早く使いたかったPDF編集ソフト「PDFelement」のすごいところ【今日のライフハックツール】 | ライフハッカー・ジャパン
                                              • macOSのVisionフレームワークでOBSの映像からテキストを抽出するWebSocketプロキシ - 詩と創作・思索のひろば

                                                激安HDMIキャプチャーボードを買ってから、ときどきゲームプレイの録画・配信をしている。OBS Studioというソフトウェアがデファクトらしく、自分もこれを使っている。 便利なことにOBSにはWebSocketで操作できるインタフェースがあり、JavaScriptやPythonからかなり自由に操作することができる。となればソフトウェアエンジニアとしてはプレイログを構造化して残したいわけ。 WebSocket経由でスクリーンショットも随時取得できるので、画像を分析することでたとえばシーン判定はできるが、さらに詳細な情報を取ろうとするとテキスト情報もほしい。クラウドサービスなどに金をかけずに手軽にやるならTessaract一択となるが、素晴らしいソフトウェアではあるものの期待する精度を出すには工夫がいりそう。具体的には、ポケモンの名前は日本語だけでなく中国語の場合もある(左下の「古劍豹」)。

                                                  macOSのVisionフレームワークでOBSの映像からテキストを抽出するWebSocketプロキシ - 詩と創作・思索のひろば
                                                • 「なぜ私が死ななければならないのですか」

                                                  Imagine a situation in which a patient asks a doctor “Why must I die?” and the doctor stands there stunned. Physicist Schrödinger claimed that scientists unconsciously put “I” as the subject of recognition outside the objective world. Both doctor and patient put “I” as the subject of recognition outside the objective world. In medicine as a science, doctors eliminate the fact that each patient is

                                                  • OpenAI Sora に使われる技術

                                                    TL; DR OpenAI が非常に高品質な動画生成モデル Sora を公開 画像生成モデル Diffusion-Transformer を利用 動画を3次元画像として扱うことで画像モデルを拡張 キャプションは DALL•E3 同様、キャプション生成モデルで作成 OpenAI Sora Sora は OpenAI が今年の2月に発表した、動画生成モデルです。まずはこのモデルの出力例を見てみましょう。 図1. Sora の生成例: https://cdn.openai.com/sora/videos/big-sur.mp4 各フレームの画像が非常に美しく生成されています。また、従来の動画生成では時間が経った際に写っているオブジェクトを保つことが難しく、消えたり現れたり、急に歪んだりするものが多かったのに対し、Sora では一度隠れてから再度現れる場合であっても、矛盾なく生成できています。 こ

                                                      OpenAI Sora に使われる技術
                                                    • ZOZOTOWNのクエリ解釈機能の改善に向けたAPIリプレイスの取り組み - ZOZO TECH BLOG

                                                      はじめに こんにちは。検索基盤部 検索技術ブロックの今井です。 検索基盤部では検索機能や検索精度を改善する中で検索クエリの意図解釈にも取り組んでいます。ZOZOTOWNで検索窓にクエリを入力して検索ボタンを押すと、クエリに応じて検索の絞り込み条件に変換するクエリ解釈機能の処理が動作します。 例えば、「ワンピース 白色」と検索した時、「ワンピース」を洋服のカテゴリー、「白色」を色のカテゴリーと解釈し、「白色のワンピース」を検索する絞り込み条件に変換します。 2024年5月現在ではスマートフォン向けWebサイト(https://zozo.jp/sp/xxx)とアプリのみ、クエリ解釈機能の処理が適用されています。クエリ解釈機能では意図解釈や検索の絞り込み条件に変換しています。 現在はシンプルな辞書ベースの手法を用いていますが、カバーしきれない課題も出てきており、改善のモチベーションが少しずつ上が

                                                        ZOZOTOWNのクエリ解釈機能の改善に向けたAPIリプレイスの取り組み - ZOZO TECH BLOG
                                                      • ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG

                                                        はじめに こんにちは、推薦基盤ブロック、新卒1年目の住安宏介です。普段は推薦システムの開発・運用を担当しています。 2024年6月に開催されたコンピュータビジョン・パターン認識分野において世界最高峰の国際会議の1つであるCVPR(Conference on Computer Vision and Pattern Recognition)2024に参加しました。参加レポートとして発表内容や参加した感想を紹介いたします。また、最後にZOZO NEXTが行っているワークショップのスポンサー活動についてZOZO Researchの清水から紹介いたします。 目次 はじめに 目次 CVPR とは 開催地のシアトルについて 学会のスケジュール 企業展示ブースの様子 ポスターセッションの雰囲気 採択数増加に伴うポスターセッションの懸念とその実際 特に、印象に残った研究発表 SLICE: Stabilize

                                                          ZOZOの新卒1年目MLエンジニアが行くCVPR 2024 参加レポート - ZOZO TECH BLOG
                                                        • AIライティングアシストとは?英語学習への効果やデメリット・最新の研究も紹介 - ポリグロットライフ | 言語まなび∞ラボ

                                                          はじめに 今回はAIライティングアシストの英語学習への効果やデメリットについて考えていきたいと思います。さらに、最新の研究も紹介していきます。AIライティングアシストを支えているのが自然言語処理であり、それを言語に最適化したツールとしてChatGPTやGrammalyが英語学習のツールとして注目されています。今回はそれらのAIライティングアシストの正しい使い方について考えていきたいと思います。 ↓↓英語学習動画を随時アップしています www.youtube.com 主な参考文献 「言語と身体性」 「はじめての認知言語学 」 「ゼロからわかる人口知能」 AIライティングアシスト AIライティングアシストとは 英語学習者(EFL)とAIライティングアシスト AIと第二言語習得研究 自然言語処理(NLP) 自然言語処理とは 自然言語処理の発展 脳内に入り込んだニューラルネットワーク ディープラー

                                                            AIライティングアシストとは?英語学習への効果やデメリット・最新の研究も紹介 - ポリグロットライフ | 言語まなび∞ラボ
                                                          • AIは顔を見ただけで「保守派」「リベラル派」などの政治思想を特定できる可能性

                                                            「この人は保守派だ」「この人はリベラル政党を支持している」といった傾向を判断するには、通常はその人の言動などを分析する必要があります。しかし、スタンフォード大学経営大学院の研究チームが、顔認識技術とAIを組み合わせることで、顔を見るだけでその人の政治的指向を正確に評価できると主張しています。 Facial Recognition Technology and Human Raters Can Predict Political Orientation From Images of Expressionless Faces Even When Controlling for Demographics and Self-Presentation https://awspntest.apa.org/fulltext/2024-65164-001.html AI Can Tell Your Pol

                                                              AIは顔を見ただけで「保守派」「リベラル派」などの政治思想を特定できる可能性
                                                            • WebKit Features in Safari 17.0

                                                              Sep 18, 2023 by Jen Simmons and the Safari / WebKit Team Today’s the day for Safari 17.0. It’s now available for iOS 17 and iPadOS 17. [Update September 26th] And now, Safari 17.0 is available for macOS Ventura, and macOS Monterey, and macOS Sonoma. Safari 17.0 is also available in the vision OS Simulator, where you can test your website by downloading the latest beta of Xcode 15, which supports t

                                                                WebKit Features in Safari 17.0
                                                              • 脳オルガノイドをコンピューターに接続、日本語の音声認識に成功

                                                                ヒト「脳オルガノイド」をコンピューター・チップに接続し、単純な計算タスクを実行できるシステムが開発された。新しいバイオ・コンピューターの可能性を示している。 by Abdullahi Tsanni2023.12.12 24 9 米研究チームが、シャーレの中で培養されたヒトの脳細胞の塊である「脳オルガノイド」を電子チップに接続し、簡単な計算タスクを実行することに成功。新たな研究成果として発表した。 発表したのは、インディアナ大学ブルーミントン校のフェン・グオ准教授らの研究チーム。幹細胞から作製した脳オルガノイドをコンピューター・チップに取り付けた「ブレイノウェア(Brainoware)」と呼ばれるセットアップを構築。人工知能(AI)ツールに接続した。研究チームは、このハイブリッド・システムが、情報を処理、学習、記憶できることを明らかにした。初歩的な音声認識の実行にも成功したという。12月11

                                                                  脳オルガノイドをコンピューターに接続、日本語の音声認識に成功
                                                                • Ridge Alkonis: The sailor who stoked Japanese resentment against the US

                                                                  A photo of a smiling Ridge Alkonis sitting with his family in a car after his release When the story of Ridge Alkonis first broke on 29 May 2021, it did not initially attract much attention in Japan. The US Navy officer had killed two Japanese citizens in a car accident during a trip to Mount Fuji - the victims were an 85-year-old woman and her son-in-law, aged 54. After pleading guilty to neglige

                                                                    Ridge Alkonis: The sailor who stoked Japanese resentment against the US
                                                                  • Amazon BedrockでClaude 3.5 Sonnetの画像理解・分析機能を使用して画像生成を検証・再生成・自動化する(Amazon Titan Image Generator G1編) - NRIネットコムBlog

                                                                    小西秀和です。 以前の記事では、Anthropic Claude 3.5 Sonnetの画像理解・分析機能を活用して、Stability AI Stable Diffusion XL(SDXL)で生成した画像を検証・再生成するAmazon Bedrockの使用例を紹介しました。 Claude 3.5 SonnetでStable Diffusion XLによる画像生成を要件が満たされるまで繰り返すAmazon Bedrockの使用例 本記事では、Anthropic Claude 3.5 Sonnetの画像理解・分析機能を活用して、Amazon Titan Image Generator G1で生成した画像を検証・再生成するAmazon Bedrockの使用例をご紹介します。 この試みは、前述の記事同様に生成画像の要件充足を自動的に判定することで、人間による目視確認の作業量削減も目指しています

                                                                      Amazon BedrockでClaude 3.5 Sonnetの画像理解・分析機能を使用して画像生成を検証・再生成・自動化する(Amazon Titan Image Generator G1編) - NRIネットコムBlog
                                                                    • ロシアのウクライナ侵攻後にAmazonがロシア企業に顔認識技術を提供し制裁に違反したとAWSの元従業員が告発

                                                                      2022年にロシアがウクライナ侵攻を始めて以降、ロシアは世界中の各国から制裁を受けています。世界的なテクノロジー企業であるAmazonが、ロシアに制裁が課されたあとに同国に顔認証技術を販売したと、Amazon Web Services(AWS)の元従業員がリークしました。 Amazon breached UK’s Russia sanctions, claims ex-employee at tribunal https://www.ft.com/content/f28377a1-432b-4f29-8544-e5ec7ac1cab9 Whistleblower claims Amazon violated UK sanctions by selling facial recognition tech to Russia https://www.engadget.com/whistlebl

                                                                        ロシアのウクライナ侵攻後にAmazonがロシア企業に顔認識技術を提供し制裁に違反したとAWSの元従業員が告発
                                                                      • iOSで文字認識(Text Recognition)

                                                                        iOS 13以降で、待望だった「文字認識」機能が使えるようになりました。カメラなどで撮影した画像内にある文字を読み取る [1] ことができます。 iOS 9からあった「文字検出」との違い 文字認識は、Visionフレームワークの一機能として追加されました。 一方、Core ImageのCIDetectorというクラスでは、CIDetectorTypeTextというタイプを指定でき、テキストを検出することができます。 このCIDetectorTypeTextやCIFeatureTypeTextはiOS 9からあるものです。 しかしこちらは文字の「領域」を検出する機能です。何が書いてあるか、までは認識できませんでした。 そこで今まではTesseract[2]というオープンソースのOCRエンジンや、SwiftOCR[3]という(おそらく個人がメンテしている)OSSしか選択肢がなかったのですが、つ

                                                                          iOSで文字認識(Text Recognition)
                                                                        • GNN の最新動向 (ICLR 2024) - ジョイジョイジョイ

                                                                          拙著『グラフニューラルネットワーク』が重版して第 3 刷となりました。皆さまありがとうございます! 拡散モデルと最適輸送でもやりましたが、漫画家さんやイラストレーターさんが重版したときに重版感謝の描き下ろしイラストを投稿しているのを見ていいなと思ったので、僕も専門書が重版したときに重版感謝の書き下ろし専門記事を投稿します。 本稿では、ICLR 2024(5/7 - 5/11 @ウィーン)で発表されたグラフニューラルネットワーク (GNN) 関連の研究動向を紹介します。 ICLR 2024 で発表された GNN 関連の論文は全部で 170 本です。凄まじい量ですね。ICLR 2024 では全て合わせて 2296 本の論文が採択されたので、7.4 パーセントが GNN 関連ということになります。この分量からも、GNN が活気ある研究対象であることが伺えます。 以下では、代表的なトピックについて

                                                                            GNN の最新動向 (ICLR 2024) - ジョイジョイジョイ
                                                                          • すごすぎ!GPT-4oをPower Apps、Power Automateで楽しんでみよう! | ドクセル

                                                                            スライド概要 ■ タイトル: すごすぎ!GPT-4oをPower Apps、Power Automateで楽しんでみよう! - 日付: 2024年5月25日 - スピーカー: 出戻りガツオ(De’modori Gatsuo) - 主催: ビリビリ☆Power Apps 同好会 ### スピーカープロフィール - 名前: 出戻りガツオ(De’modori Gatsuo) - 役職: Microsoft 365 コンサルタント、インドの青鬼 語り隊 隊長 - スキル: Power Apps、Power Automate、Python、Excel VBA、Google Apps Script、RPA、Power BI、SharePoint #### セッション内容 1. テーマ紹介 - GPT-4o(オムニ)について - Azure OpenAI APIの使用方法とその事前準備 - 利用コストと

                                                                              すごすぎ!GPT-4oをPower Apps、Power Automateで楽しんでみよう! | ドクセル
                                                                            • 謎に包まれた微生物「ユーグレナ藻」が初めて化石の中に発見される

                                                                              ユーグレナ藻とは、さまざまな生き物の融合体として知られる単細胞真核生物の一種で、植物のような光合成と、動物のような捕食とを合わせてエネルギーを得ています。ユーグレナ藻は約10億年前に誕生したと考えられつつも、化石記録はほとんど見つかっていませんでしたが、国際的な科学者チームが「発表済みの論文の中にユーグレナ藻の化石を発見した」と主張しています。 Recognition of an extended record of euglenoid cysts: Implications for the end-Triassic mass extinction - ScienceDirect https://www.sciencedirect.com/science/article/pii/S0034666723002129 Microfossils shed light on the long fo

                                                                                謎に包まれた微生物「ユーグレナ藻」が初めて化石の中に発見される
                                                                              • 運転版の"Sora"を作る: 動画生成の世界モデルTerraの開発背景

                                                                                1. はじめに Turing生成AIチームの荒居です。生成AIチームでは、完全自動運転の実現に向けて、現実世界の複雑な状況を理解し予測する動画生成AI、「世界モデル」の開発に取り組んできました。前回の私の記事では、その取り組みの中で調査したGAIA-1の紹介を行いました。今回は、Turingが開発した世界モデル"Terra"で利用している技術や課題・展望などについて紹介をしたいと思います。 この記事で解説している内容 世界モデルTerraは何ができるのか 世界モデルTerraはどのような仕組みで動いているのか どのような課題が残されているか Terraで生成した動画。Terraは運転環境に特化しており、車載カメラの一人称視点動画の生成を行うことができる 2. 世界モデルTerraは何ができるのか? Turingの世界モデルは大きく分けて二つのことができます。一つ目は短い動画を与えるとその続

                                                                                  運転版の"Sora"を作る: 動画生成の世界モデルTerraの開発背景
                                                                                • Google Cloud上でGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみた | DevelopersIO

                                                                                  こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 この記事は、ブログリレー『Google CloudのAI/MLとかなんとか』の3本目の記事になります。 今回は、Vertex AIからGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみたいと思います。 Chirpについて 以下に詳しい説明があります。 Chirp: Universal speech model  |  Cloud Speech-to-Text V2 documentation  |  Google Cloud ChirpはGoogleの次世代音声認識モデルで、現在の音声モデルとは異なるアーキテクチャで学習させたモデルとなっているようです。 Google CloudではCloud Speech-to-Text V2における一つのモデルとして使用できます。その他

                                                                                    Google Cloud上でGoogleの次世代のASR(自動音声認識)モデル「Chirp」を使ってみた | DevelopersIO