recognitionの人気記事 28件 - はてなブックマーク

1 - 28 件 / 28件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

recognitionの検索結果1 - 28 件 / 28件

リコー経済社会研究所 | リコーグループ企業・IR | リコー
- 1315 users
- blogs.ricoh.co.jp
- テクノロジー
- 2020/09/16
「あれっ！こんなところを間違えてるよ」―。パソコン画面上で何回も確認して間違いがなかったのに、紙に印刷すると原稿のミスが...。こんな経験はだれにでもあるが、その理由がよく分からない。画面よりも紙のほうが、間違いに気がつきやすい。これは今まで何となく経験してきた真理だ。新型コロナウイルスの感染拡大に伴い、リモートワークを始めてからは、より一層それを強く感じる。リモートワークではプリンターが無かったり、あってもその能力不足で印刷に手間取ったり。だから、紙でのチェックを怠りがちになり、ミスが生じて後で大きなしっぺ返しを食らう。もちろんできる限り間違いを減らし、仕事はスムーズに進めたい。紙と画面それぞれにおける、脳の働き方の違いなどを調べた上で、両者の使い分けを考察してみた。「分析」の紙vs「パターン認識」の画面メディア批評の先駆者、カナダのマーシャル・マクルーハン（1911～1980年
- 印刷
- あとで読む
- 心理
- 仕事
- 脳
- 文字
- 文章
- 研究
- 知覚
- work
「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化
- 953 users
- www.buzzfeed.com
- テクノロジー
- 2019/09/02
Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you. 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化2月にβ版がリリースされたGoogle製の音声文字変換（Live Transcribe）アプリ。もともと聴覚障害者のために作られたアクセシビリティ機能だが、精度の高さから文字起こしとしても使えるのではないかと話題だ。来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞いた。
DNP、読む速度を約2倍にする自動レイアウト技術
- 723 users
- www.watch.impress.co.jp
- 暮らし
- 2020/07/10
- 技術
- レイアウト
- 認知
- あとで読む
- 文章
- typography
- 組版
- accessibility
- 読書
- technology
現状を打破できるアイデアを思いつく方法｜ふろむだ@分裂勘違い君劇場
- 430 users
- note.com/fromdusktildawn
- 暮らし
- 2022/02/12
アイデアにはたいした価値はない。とよく言われますが、ただ単に「思いつく」かどうかで勝負が半ば決まってしまう、というケースはけっこう多いです。たとえば、iモードにJavaが搭載されたとき、「テトリスのように、誰もがやり慣れたシンプルな定番ゲームをiモードJavaで提供する」というアイデアで会社を作って爆速成長、2年後にはJASDAQに株式の店頭公開をしてしまった人がいます。これ、「誰もがやり慣れたシンプルな定番ゲームを提供する」というアイデアを思いついた瞬間、勝負は半ば決まってるんです。当時の起業家たちで、「くそ、やられた。なんでこれを思いつかなかったかな」と悔しがってた人はけっこういました。もちろん、資本を調達し、版権交渉をし、優秀な人材を集め……という部分も難しいですし、それをやりきれるかどうかも運次第なところはありますが、そこは優秀な人が延々と努力し続ければなんとかなること
- アイデア
- あとで読む
- 仕事
- 考え方
- idea
- 本
- 考察
- note
- book
- 書籍
とくさん｜MYCOPING on Twitter: "この研究面白い。賢い人が専門領域外について語る時にたしかに良く起こっている現象かも。「認知能力が優れている人ほど、情報を合理化して都合の良いように解釈する能力も高くなり、ひいては自分の意見に合わせて巧みにデータを歪めてしまう」 https://t.co/KZfklkSNar"
- 219 users
- twitter.com/nori76
- 政治と経済
- 2021/01/17
この研究面白い。賢い人が専門領域外について語る時にたしかに良く起こっている現象かも。「認知能力が優れている人ほど、情報を合理化して都合の良いように解釈する能力も高くなり、ひいては自分の意見に合わせて巧みにデータを歪めてしまう」 https://t.co/KZfklkSNar
- 研究
- あとで読む
- 科学
- 政治
OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
- 124 users
- dev.classmethod.jp
- テクノロジー
- 2022/09/23
こんちには。データアナリティクス事業本部機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…？と思っていたのですが… ですが… … … … おお！？(上記はGitHubにあるWER: Word Error Rateのグラフです) これは！？これは結構良さげな数値を出している！？(たぶん) ってことで元音声屋さんとしては、これは試すしかない！ということで動かしてみました！(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試
- 音声認識
- AI
- whisper
- あとで読む
- 機械学習
- OpenAI
- python
- 音声
- api
物体認識モデルYOLOv3を軽く凌駕するYOLOv4の紹介 - ほろ酔い開発日誌
- 116 users
- blog.seishin55.com
- テクノロジー
- 2020/05/16
はじめに先月、YOLOv4が公開されました。位置づけとしては、物体認識のポピュラーなモデルの1つであるYOLO系統の最新版となります。結果がすごいのはぱっと見分かりましたし、内容も既存の手法をサーベイ・実験頑張って、精度上げていったんだなあくらいのさら読みはしていましたが、もう少しちゃんと読んでおこうと思い、読んでみたので紹介します。私自身は物体認識の研究者というわけではないですが、なんだかんだ物体認識周りの記事をいくつか書いているので興味のある方は以下もご参照下さい。 note.com note.com [DL輪読会]Objects as Points from Deep Learning JP www.slideshare.net さて、このYOLOv4ですが、元々のYOLOの作者であるJoseph Redmon氏は著者ではありません。Jeseph Redmon氏は研究の軍事利用や
- 機械学習
- yolo
- 物体認識
- あとで読む
- deep learning
- 画像処理
- 論文
- GPU
認知負荷は「ワーキングメモリに対する負荷」のこと　認知科学の観点から課題を整理すると“つらい”の輪郭が見えてくる
- 76 users
- logmi.jp
- テクノロジー
- 2023/12/17
「Developers Meetup 急成長ベンチャーが向き合う『開発生産性』」は、開発組織や事業フェーズの異なる株式会社Another works・株式会社SmartHR・株式会社スタメンの3社が、開発生産性について語り尽くすイベントです。ここで株式会社SmartHRのすがわらまさのり氏が登壇。チーム増加に伴い起きた「認知負荷が高い」状況をどのように解決したかについて紹介します。チームの増加に伴いできるようになったこと、やりにくくなったことすがわらまさのり氏：ここから本題ですね。「開発生産性について、上から見るか、下から見るか」ということで、よろしくお願いします。過去に私が登壇したもので似たテーマがいくつかあるので、軽く紹介しておきます。もし気になる方がいれば後で見てください。前提の共有というところで、先ほどもお話ししたように、私が担当したのは「SmartHR」の基本機能というプロ
ReazonSpeech - Reazon Human Interaction Lab
- 73 users
- research.reazon.jp
- テクノロジー
- 2023/01/19
ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。
- AI
- speech
- 機械学習
- voice
- japanese
- 日本語
- 学習
- 音声認識
- api
Speech-to-Text Webcam Overlay
- 72 users
- 1heisuzuki.github.io
- テクノロジー
- 2020/05/21
*認識結果が確定したタイミングで反映されます。テキストの編集・コピーも可能です。 **認識中にEnterキーを押すと，認識を止めて文を区切ることができます。日本語の場合は文末に句点が付与されます。よくある質問・ソースコード: GitHub 音声認識は Web Speech API を利用しています。カメラやマイクが機能しないとき → ページの再読み込みや，ブラウザの設定を確認してください: Chrome ヘルプ「ログをダウンロード」でダウンロードされるファイルは，アクセスしているユーザーのブラウザで生成されています。
- chrome
- 音声認識
- browser
- webサービス
- カメラ
- text
- AI
OSSなWeb会議アプリ(SkyWay Conf)に文字起こし機能を実装してみた - Qiita
- 65 users
- qiita.com/ShinYoshiaki
- テクノロジー
- 2020/06/12
SkyWay ConferenceはSkyWayを利用したのブラウザ上で動作するWeb会議デモアプリです。OSSとして公開されています。今回はSkyWay Confを改造して文字起こし機能をつけてみました！ Web会議アプリに文字起こし機能がついてると、出先でイヤホンを忘れてもなんとかなるかもしれません。　議事録も自動で出来て素晴らしいですね。左上の窓で文字起こし関連の操作が出来て、画面中央下部に書き起こされた文字が表示されるようにしました。できたものまずデモアプリはこちら。Chromeで開いてください！文字起こし機能つきSkyWay Confのデモページ https://shinyoshiaki.github.io/skyway-conf ソースコードなど文字起こし機能つきSkyWay Confのソースコード https://github.com/shinyoshiaki/s
- WebRTC
- SkyWay
- SpeechRecognition
- OSS
- あとで読む
- ライブラリ
- React
- ブラウザ
- web
Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog
- 65 users
- tech.mirrativ.stream
- テクノロジー
- 2024/03/04
こんにちはハタです。最近Mirrativ上に構築した配信の文字起こしシステムを紹介したいなと思います音声からの文字起こしは、各社SaaSでAPI提供されているものがあると思いますが、今回紹介するものはセルフホスト型(自前のGPUマシンを使う)になります構築していく上で色々試行錯誤したのでそれが紹介できればなと思っていますどんなものを作ったか前提知識: 配信基盤前提知識: Unix Domain Socket Live Recorder Archiver DS Filter VAD Filter NAC / Compress Transcriber NAC / Decompress Speach To Text コンテナイメージまとめ We are hiring! どんなものを作ったか今回作ったものは Mirrativで配信されるすべての音声を対象に文字起こしを行うシス
GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++
- 41 users
- github.com/ggerganov
- テクノロジー
- 2022/11/07
Stable: v1.5.4 / Roadmap | F.A.Q. High-performance inference of OpenAI's Whisper automatic speech recognition (ASR) model: Plain C/C++ implementation without dependencies Apple Silicon first-class citizen - optimized via ARM NEON, Accelerate framework, Metal and Core ML AVX intrinsics support for x86 architectures VSX intrinsics support for POWER architectures Mixed F16 / F32 precision 4-bit and 5
- whisper
- C++
- speech
- 音声
- voice
- C
- AI
End-to-End音声認識の計算量を削減した話
- 35 users
- techblog.yahoo.co.jp
- テクノロジー
- 2020/06/29
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、音声処理黒帯（黒帯はヤフー内のスキル任命制度）の藤田です。今日のブログでは、音声認識技術の研究開発におけるヤフーの最新の取り組みを紹介します。特に、近年注目されているTransformerという手法に基づく、End-to-End音声認識の計算量を削減した研究を紹介します。この研究は、難関国際会議IEEE ICASSP2020に投稿し、採択されました。また、arXivでプレプリントを公開しています。そして、ESPnetというEnd-to-Endモデルのツールキット上でソースコードも公開しています。興味のある方はぜひ、こちらもご参照ください。音声認識で用いられるEnd-to-Endモデルとは？音声認識技術は音声をテキ
macOSのVisionフレームワークでOBSの映像からテキストを抽出するWebSocketプロキシ - 詩と創作・思索のひろば
- 32 users
- motemen.hatenablog.com
- テクノロジー
- 2024/06/28
激安HDMIキャプチャーボードを買ってから、ときどきゲームプレイの録画・配信をしている。OBS Studioというソフトウェアがデファクトらしく、自分もこれを使っている。便利なことにOBSにはWebSocketで操作できるインタフェースがあり、JavaScriptやPythonからかなり自由に操作することができる。となればソフトウェアエンジニアとしてはプレイログを構造化して残したいわけ。 WebSocket経由でスクリーンショットも随時取得できるので、画像を分析することでたとえばシーン判定はできるが、さらに詳細な情報を取ろうとするとテキスト情報もほしい。クラウドサービスなどに金をかけずに手軽にやるならTessaract一択となるが、素晴らしいソフトウェアではあるものの期待する精度を出すには工夫がいりそう。具体的には、ポケモンの名前は日本語だけでなく中国語の場合もある（左下の「古劍豹」）。
Multiple Object Trackingの手法・ライブラリ紹介 - OPTiM TECH BLOG
- 29 users
- tech-blog.optim.co.jp
- テクノロジー
- 2021/07/07
R&Dチーム2年目の葉山です。巣ごもりの影響...はあまり関係なく元からですが、もっぱら自宅で映画ばかり見ています。バイオレンスな映画が好きです。最近は業務でMultiple Object Trackingを扱っており、トラッキング処理の実装に四苦八苦しています。今回はMultiple Object Trackingの基本的な解説と、アルゴリズムや便利なライブラリを紹介していきたいと思います。 Multiple Object Trackingとは？ MOTの手法やライブラリなど MOTベンチマークで顕著な成績を残しているモデルたち FairMOT TransMOT（STGT）その他の手法やライブラリ FastMOT motpy MOTの評価指標評価指標を測るライブラリ py-motmetricsの使い方終わりに Multiple Object Trackingとは？ Multipl
Whisper Web - a Hugging Face Space by Xenova
- 26 users
- huggingface.co
- テクノロジー
- 2023/06/10
Discover amazing ML apps made by the community
- AI
- ツール
- text
- 文章
- 日本語
- サイト
- あとで読む
🗣️ Talk face-to-face with AI
- 24 users
- chat.d-id.com
- テクノロジー
- 2023/03/09
Experience real-time conversations with Chat.D-ID
- AI
- chat
- webサービス
- webservice
PyCon JP 2021 で「絵を読む技術 Pythonによるイラスト解析」を発表しました - Hirosaji Tech Blog 🍙
- 20 users
- hirosaji.hatenablog.com
- テクノロジー
- 2021/10/17
オンライン／オンサイトのハイブリッド会場で開催されたPyCon JP 2021に、Hirosaji（エンジニア名義）とひろさじ（絵師名義）のハイブリッド名義で登壇してきました。 PyCon JP 2019 で登壇して以来、PyConには二回目の登壇です。これまでの登壇史上、最高の登壇体験でした。今回は、登壇内容のまとめや印象に残ったセッションを、雑感を含めてまとめました。イベント概要概要：日本最大級のPythonユーザカンファレンス日時：2021年10月15日（土）～ 2021年10月16日（日）会場：オンライン（ZOOM + Discord）／オンサイト（ベルサール神田）公式 HP：https://2021.pycon.jp/ 登壇内容絵を読む技術 Pythonによるイラスト解析（Hirosaji / ひろさじ, 30min）一言で言うと、「イラストで絵師が伝えたいことを
- python
- slide
- AI
- technology
- あとで読む
- プログラミング
- まとめ
- illust
RICOH THETA + OpenCV で 360° 顔検出 - Qiita
- 17 users
- qiita.com/yomura_
- テクノロジー
- 2020/01/29
はじめにこんにちは、リコーの @yomura_ です。今回は RICOH THETA V に顔検出処理をさせてみました。また、せっかくの 360° カメラなので、顔を検出した方向に応じて内蔵 LED の点灯色を変えるようにしてみました。 RICOH THETA プラグインについて THETA プラグインをご存じない方はこちらをご覧ください。興味を持たれた方は Twitter のフォローと THETA プラグイン開発コミュニティ(Slack) への参加もよろしくお願いします｡準備 OpenCV 環境の準備顔検出には画像処理ライブラリ OpenCV のバージョン 3.4.5 を使用しました。 THETA の中で OpenCV を動かすための環境は THETAの中でOpenCVを動かす【プレビューフレーム取得編】の記事で詳しく紹介されています。今回はそちらの記事の環境とサンプルコー
- あとで読む
Whisper - a Hugging Face Space by openai
- 9 users
- huggingface.co
- テクノロジー
- 2022/09/24
Discover amazing ML apps made by the community
- app
- api
- AI
論より動くもの.fmを支える技術〜Podcast初心者が使っているツール紹介〜 - STORES Product Blog
- 8 users
- product.st.inc
- 学び
- 2022/09/29
こんにちは、技術広報のえんじぇるです。社内のLT大会にて「論より動くもの.fmの作り方」という発表をしました。本記事は、その発表内容をブログ向けに編集したものです。どのようなツールを使って論より動くもの.fmを運営しているのか紹介します。社内LT大会についてはこちらをご覧ください ▼ 社内LT大会を始めてよかったこと - hey Product Blog 論より動くもの.fmとは論より動くもの.fmは、CTOの藤村さんがホストとして、技術や技術にまつわるさまざなことを話すPodcastです。社外に向けても、社内に向けても、CTOがどんな人で、どんなことを考えているのかを知ってもらいたいという思いで、2022年4月から始めました。実はCTOの発信を増やしたいプロジェクトは2021年下半期から始まっていました。ほぼ毎週、藤村さんとネタ出し会をし「その話、ブログに書きませんか？」と提案
LINE Login
- 6 users
- clovanote.line.me
- テクノロジー
- 2022/12/24
Log in to CLOVA Note
- text
- webservice
Fawkes
- 6 users
- sandlab.cs.uchicago.edu
- テクノロジー
- 2020/07/23
Shawn Shan†, PhD Student Emily Wenger†, PhD Student Jiayun Zhang, Visiting Student Huiying Li, PhD Student Haitao Zheng, Professor Ben Y. Zhao, Professor † Project co-leaders and co-first authors Email the Fawkes team Email us to join Fawkes mailing list for news on updates/changes. NEWS 5-12-22: v1.01 release for Macbook M1! 5-1-22: Fawkes hits 840,000 downloads! 4-23-21: v1.0 release for Windows
- AI
- technology
- security
Otter Voice Meeting Notes
- 5 users
- otter.ai
- テクノロジー
- 2022/09/04
Otter.ai uses artificial intelligence to empower users with real-time transcription meeting notes that are shareable, searchable, accessible and secure.
- ai
- webservice
face_recognition/README_Japanese.md at master · m-i-k-i/face_recognition
- 2 users
- github.com/m-i-k-i
- テクノロジー
- 2021/01/06
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- 日本語
- github
- python
FaceCheck - Reverse Image Search - Face Recognition Search Engine
- 2 users
- facecheck.id
- テクノロジー
- 2023/11/05
FaceCheck works extra hard to find and index faces of violent criminals, child rapists & molesters, sex offenders, kidnappers, abusers, murderers, hate crime perpetrators, burglars, gang members, fugitives, terrorists, online dating & romance scammers, and other fraudsters. Avoid Becoming a Victim Uncover catfish, romance scammer, or fake dating profile Avoid dating a swindler, convict, or deadbea
- ai
- image
- search
- webservice
NIFTY engineering - ニフティ株式会社のエンジニアたちのいまを伝えます
- 1 user
- blog.web.nifty.com
- テクノロジー
- 2020/06/20
【3/26 (火曜日) 19:00~20:00 ハイブリッド開催】スクラムマスターによるチーム改善LT！ニフティのスクラムトーク vol 2 を開催します！
- エンジニア
- プログラミング