並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 24 件 / 24件

新着順 人気順

recognitionの検索結果1 - 24 件 / 24件

  • リコー経済社会研究所 | リコーグループ 企業・IR | リコー

    「あれっ!こんなところを間違えてるよ」―。パソコン画面上で何回も確認して間違いがなかったのに、紙に印刷すると原稿のミスが...。こんな経験はだれにでもあるが、その理由がよく分からない。 画面よりも紙のほうが、間違いに気がつきやすい。これは今まで何となく経験してきた真理だ。新型コロナウイルスの感染拡大に伴い、リモートワークを始めてからは、より一層それを強く感じる。リモートワークではプリンターが無かったり、あってもその能力不足で印刷に手間取ったり。だから、紙でのチェックを怠りがちになり、ミスが生じて後で大きなしっぺ返しを食らう。 もちろんできる限り間違いを減らし、仕事はスムーズに進めたい。紙と画面それぞれにおける、脳の働き方の違いなどを調べた上で、両者の使い分けを考察してみた。 「分析」の紙vs「パターン認識」の画面 メディア批評の先駆者、カナダのマーシャル・マクルーハン(1911~1980年

      リコー経済社会研究所 | リコーグループ 企業・IR | リコー
    • 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化

      Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you. 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化2月にβ版がリリースされたGoogle製の音声文字変換(Live Transcribe)アプリ。もともと聴覚障害者のために作られたアクセシビリティ機能だが、精度の高さから文字起こしとしても使えるのではないかと話題だ。来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞いた。

        「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化
      • DNP、読む速度を約2倍にする自動レイアウト技術

          DNP、読む速度を約2倍にする自動レイアウト技術
        • 現状を打破できるアイデアを思いつく方法|ふろむだ@分裂勘違い君劇場

          アイデアにはたいした価値はない。 とよく言われますが、 ただ単に「思いつく」かどうかで勝負が半ば決まってしまう、というケースはけっこう多いです。 たとえば、iモードにJavaが搭載されたとき、「テトリスのように、誰もがやり慣れたシンプルな定番ゲームをiモードJavaで提供する」というアイデアで会社を作って爆速成長、2年後にはJASDAQに株式の店頭公開をしてしまった人がいます。 これ、「誰もがやり慣れたシンプルな定番ゲームを提供する」というアイデアを思いついた瞬間、勝負は半ば決まってるんです。 当時の起業家たちで、「くそ、やられた。なんでこれを思いつかなかったかな」と悔しがってた人はけっこういました。 もちろん、資本を調達し、版権交渉をし、優秀な人材を集め……という部分も難しいですし、それをやりきれるかどうかも運次第なところはありますが、そこは優秀な人が延々と努力し続ければなんとかなること

            現状を打破できるアイデアを思いつく方法|ふろむだ@分裂勘違い君劇場
          • とくさん|MYCOPING on Twitter: "この研究面白い。賢い人が専門領域外について語る時にたしかに良く起こっている現象かも。 「認知能力が優れている人ほど、情報を合理化して都合の良いように解釈する能力も高くなり、ひいては自分の意見に合わせて巧みにデータを歪めてしまう」 https://t.co/KZfklkSNar"

            この研究面白い。賢い人が専門領域外について語る時にたしかに良く起こっている現象かも。 「認知能力が優れている人ほど、情報を合理化して都合の良いように解釈する能力も高くなり、ひいては自分の意見に合わせて巧みにデータを歪めてしまう」 https://t.co/KZfklkSNar

              とくさん|MYCOPING on Twitter: "この研究面白い。賢い人が専門領域外について語る時にたしかに良く起こっている現象かも。 「認知能力が優れている人ほど、情報を合理化して都合の良いように解釈する能力も高くなり、ひいては自分の意見に合わせて巧みにデータを歪めてしまう」 https://t.co/KZfklkSNar"
            • OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

              こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。 個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…?と思っていたのですが… ですが… … … … おお!?(上記はGitHubにあるWER: Word Error Rateのグラフです) これは!? これは結構良さげな数値を出している!?(たぶん) ってことで元音声屋さんとしては、これは試すしかない!ということで動かしてみました!(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け 今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試

                OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
              • 物体認識モデルYOLOv3を軽く凌駕するYOLOv4の紹介 - ほろ酔い開発日誌

                はじめに 先月、YOLOv4が公開されました。位置づけとしては、物体認識のポピュラーなモデルの1つであるYOLO系統の最新版となります。結果がすごいのはぱっと見分かりましたし、内容も既存の手法をサーベイ・実験頑張って、精度上げていったんだなあくらいのさら読みはしていましたが、もう少しちゃんと読んでおこうと思い、読んでみたので紹介します。 私自身は物体認識の研究者というわけではないですが、なんだかんだ物体認識周りの記事をいくつか書いているので興味のある方は以下もご参照下さい。 note.com note.com [DL輪読会]Objects as Points from Deep Learning JP www.slideshare.net さて、このYOLOv4ですが、元々のYOLOの作者であるJoseph Redmon氏は著者ではありません。Jeseph Redmon氏は研究の軍事利用や

                  物体認識モデルYOLOv3を軽く凌駕するYOLOv4の紹介 - ほろ酔い開発日誌
                • 認知負荷は「ワーキングメモリに対する負荷」のこと 認知科学の観点から課題を整理すると“つらい”の輪郭が見えてくる

                  「Developers Meetup 急成長ベンチャーが向き合う『開発生産性』」は、開発組織や事業フェーズの異なる株式会社Another works・株式会社SmartHR・株式会社スタメンの3社が、開発生産性について語り尽くすイベントです。ここで株式会社SmartHRのすがわらまさのり氏が登壇。チーム増加に伴い起きた「認知負荷が高い」状況をどのように解決したかについて紹介します。 チームの増加に伴いできるようになったこと、やりにくくなったこと すがわらまさのり氏:ここから本題ですね。「開発生産性について、上から見るか、下から見るか」ということで、よろしくお願いします。過去に私が登壇したもので似たテーマがいくつかあるので、軽く紹介しておきます。もし気になる方がいれば後で見てください。 前提の共有というところで、先ほどもお話ししたように、私が担当したのは「SmartHR」の基本機能というプロ

                    認知負荷は「ワーキングメモリに対する負荷」のこと 認知科学の観点から課題を整理すると“つらい”の輪郭が見えてくる
                  • ReazonSpeech - Reazon Human Interaction Lab

                    ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。

                    • Speech-to-Text Webcam Overlay

                      *認識結果が確定したタイミングで反映されます。テキストの編集・コピーも可能です。 **認識中にEnterキーを押すと,認識を止めて文を区切ることができます。日本語の場合は文末に句点が付与されます。 よくある質問・ソースコード: GitHub 音声認識は Web Speech API を利用しています。 カメラやマイクが機能しないとき → ページの再読み込みや,ブラウザの設定を確認してください: Chrome ヘルプ 「ログをダウンロード」でダウンロードされるファイルは,アクセスしているユーザーのブラウザで生成されています。

                        Speech-to-Text Webcam Overlay
                      • OSSなWeb会議アプリ(SkyWay Conf)に文字起こし機能を実装してみた - Qiita

                        SkyWay ConferenceはSkyWayを利用したのブラウザ上で動作するWeb会議デモアプリです。OSSとして公開されています。 今回はSkyWay Confを改造して文字起こし機能をつけてみました! Web会議アプリに文字起こし機能がついてると、出先でイヤホンを忘れてもなんとかなるかもしれません。 議事録も自動で出来て素晴らしいですね。 左上の窓で文字起こし関連の操作が出来て、画面中央下部に書き起こされた文字が表示されるようにしました。 できたもの まずデモアプリはこちら。Chromeで開いてください! 文字起こし機能つきSkyWay Confのデモページ https://shinyoshiaki.github.io/skyway-conf ソースコードなど 文字起こし機能つきSkyWay Confのソースコード https://github.com/shinyoshiaki/s

                          OSSなWeb会議アプリ(SkyWay Conf)に文字起こし機能を実装してみた - Qiita
                        • Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog

                          こんにちは ハタ です。 最近Mirrativ上に構築した配信の文字起こしシステムを紹介したいなと思います 音声からの文字起こしは、各社SaaSでAPI提供されているものがあると思いますが、今回紹介するものはセルフホスト型(自前のGPUマシンを使う)になります 構築していく上で色々試行錯誤したのでそれが紹介できればなと思っています どんなものを作ったか 前提知識: 配信基盤 前提知識: Unix Domain Socket Live Recorder Archiver DS Filter VAD Filter NAC / Compress Transcriber NAC / Decompress Speach To Text コンテナイメージ まとめ We are hiring! どんなものを作ったか 今回作ったものは Mirrativで配信されるすべての音声を対象に文字起こしを行う シス

                            Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog
                          • GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++

                            Stable: v1.5.4 / Roadmap | F.A.Q. High-performance inference of OpenAI's Whisper automatic speech recognition (ASR) model: Plain C/C++ implementation without dependencies Apple Silicon first-class citizen - optimized via ARM NEON, Accelerate framework, Metal and Core ML AVX intrinsics support for x86 architectures VSX intrinsics support for POWER architectures Mixed F16 / F32 precision 4-bit and 5

                              GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++
                            • End-to-End音声認識の計算量を削減した話

                              ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、音声処理黒帯(黒帯はヤフー内のスキル任命制度)の藤田です。今日のブログでは、音声認識技術の研究開発におけるヤフーの最新の取り組みを紹介します。 特に、近年注目されているTransformerという手法に基づく、End-to-End音声認識の計算量を削減した研究を紹介します。この研究は、難関国際会議IEEE ICASSP2020に投稿し、採択されました。また、arXivでプレプリントを公開しています。そして、ESPnetというEnd-to-Endモデルのツールキット上でソースコードも公開しています。興味のある方はぜひ、こちらもご参照ください。 音声認識で用いられるEnd-to-Endモデルとは? 音声認識技術は音声をテキ

                                End-to-End音声認識の計算量を削減した話
                              • Multiple Object Trackingの手法・ライブラリ紹介 - OPTiM TECH BLOG

                                R&Dチーム2年目の葉山です。巣ごもりの影響...はあまり関係なく元からですが、もっぱら自宅で映画ばかり見ています。バイオレンスな映画が好きです。最近は業務でMultiple Object Trackingを扱っており、トラッキング処理の実装に四苦八苦しています。 今回はMultiple Object Trackingの基本的な解説と、アルゴリズムや便利なライブラリを紹介していきたいと思います。 Multiple Object Trackingとは? MOTの手法やライブラリなど MOTベンチマークで顕著な成績を残しているモデルたち FairMOT TransMOT(STGT) その他の手法やライブラリ FastMOT motpy MOTの評価指標 評価指標を測るライブラリ py-motmetricsの使い方 終わりに Multiple Object Trackingとは? Multipl

                                  Multiple Object Trackingの手法・ライブラリ紹介 - OPTiM TECH BLOG
                                • Whisper Web - a Hugging Face Space by Xenova

                                  Discover amazing ML apps made by the community

                                    Whisper Web - a Hugging Face Space by Xenova
                                  • 🗣️ Talk face-to-face with AI

                                    Experience real-time conversations with Chat.D-ID

                                      🗣️ Talk face-to-face with AI
                                    • PyCon JP 2021 で「絵を読む技術 Pythonによるイラスト解析」を発表しました - Hirosaji Tech Blog 🍙

                                      オンライン/オンサイトのハイブリッド会場で開催されたPyCon JP 2021に、Hirosaji(エンジニア名義)とひろさじ(絵師名義)のハイブリッド名義で登壇してきました。 PyCon JP 2019 で登壇して以来、PyConには二回目の登壇です。これまでの登壇史上、最高の登壇体験でした。 今回は、登壇内容のまとめや印象に残ったセッションを、雑感を含めてまとめました。 イベント概要 概要:日本最大級のPythonユーザカンファレンス 日時:2021年10月15日(土)~ 2021年10月16日(日) 会場:オンライン(ZOOM + Discord)/オンサイト(ベルサール神田) 公式 HP:https://2021.pycon.jp/ 登壇内容 絵を読む技術 Pythonによるイラスト解析(Hirosaji / ひろさじ, 30min) 一言で言うと、「イラストで絵師が伝えたいことを

                                        PyCon JP 2021 で「絵を読む技術 Pythonによるイラスト解析」を発表しました - Hirosaji Tech Blog 🍙
                                      • RICOH THETA + OpenCV で 360° 顔検出 - Qiita

                                        はじめに こんにちは、リコーの @yomura_ です。 今回は RICOH THETA V に顔検出処理をさせてみました。 また、せっかくの 360° カメラなので、顔を検出した方向に応じて内蔵 LED の点灯色を変えるようにしてみました。 RICOH THETA プラグインについて THETA プラグインをご存じない方はこちらをご覧ください。 興味を持たれた方は Twitter のフォローと THETA プラグイン開発コミュニティ(Slack) への参加もよろしくお願いします。 準備 OpenCV 環境の準備 顔検出には画像処理ライブラリ OpenCV のバージョン 3.4.5 を使用しました。 THETA の中で OpenCV を動かすための環境は THETAの中でOpenCVを動かす【プレビューフレーム取得編】 の記事で詳しく紹介されています。今回はそちらの記事の環境とサンプルコー

                                          RICOH THETA + OpenCV で 360° 顔検出 - Qiita
                                        • Whisper - a Hugging Face Space by openai

                                          Discover amazing ML apps made by the community

                                            Whisper - a Hugging Face Space by openai
                                          • 論より動くもの.fmを支える技術 〜Podcast初心者が使っているツール紹介〜 - STORES Product Blog

                                            こんにちは、技術広報のえんじぇるです。 社内のLT大会にて「論より動くもの.fmの作り方」という発表をしました。本記事は、その発表内容をブログ向けに編集したものです。どのようなツールを使って論より動くもの.fmを運営しているのか紹介します。 社内LT大会についてはこちらをご覧ください ▼ 社内LT大会を始めてよかったこと - hey Product Blog 論より動くもの.fmとは 論より動くもの.fmは、CTOの藤村さんがホストとして、技術や技術にまつわるさまざなことを話すPodcastです。社外に向けても、社内に向けても、CTOがどんな人で、どんなことを考えているのかを知ってもらいたいという思いで、2022年4月から始めました。 実はCTOの発信を増やしたいプロジェクトは2021年下半期から始まっていました。 ほぼ毎週、藤村さんとネタ出し会をし「その話、ブログに書きませんか?」と提案

                                              論より動くもの.fmを支える技術 〜Podcast初心者が使っているツール紹介〜 - STORES Product Blog
                                            • LINE Login

                                              Log in to CLOVA Note

                                                LINE Login
                                              • Fawkes

                                                Shawn Shan†, PhD Student Emily Wenger†, PhD Student Jiayun Zhang, Visiting Student Huiying Li, PhD Student Haitao Zheng, Professor Ben Y. Zhao, Professor † Project co-leaders and co-first authors Email the Fawkes team Email us to join Fawkes mailing list for news on updates/changes. NEWS 5-12-22: v1.01 release for Macbook M1! 5-1-22: Fawkes hits 840,000 downloads! 4-23-21: v1.0 release for Windows

                                                • Otter Voice Meeting Notes

                                                  Otter.ai uses artificial intelligence to empower users with real-time transcription meeting notes that are shareable, searchable, accessible and secure.

                                                    Otter Voice Meeting Notes
                                                  1