[B! recognition] manabouのブックマーク

manabou id:manabou

recognitionに関するmanabouのブックマーク (26)

macOSのVisionフレームワークでOBSの映像からテキストを抽出するWebSocketプロキシ - 詩と創作・思索のひろば
激安HDMIキャプチャーボードを買ってから、ときどきゲームプレイの録画・配信をしている。OBS Studioというソフトウェアがデファクトらしく、自分もこれを使っている。便利なことにOBSにはWebSocketで操作できるインタフェースがあり、JavaScriptやPythonからかなり自由に操作することができる。となればソフトウェアエンジニアとしてはプレイログを構造化して残したいわけ。 WebSocket経由でスクリーンショットも随時取得できるので、画像を分析することでたとえばシーン判定はできるが、さらに詳細な情報を取ろうとするとテキスト情報もほしい。クラウドサービスなどに金をかけずに手軽にやるならTessaract一択となるが、素晴らしいソフトウェアではあるものの期待する精度を出すには工夫がいりそう。具体的には、ポケモンの名前は日本語だけでなく中国語の場合もある（左下の「古劍豹」）。
manabou 2024/06/29
obs

mac

vision

recognition
リンク
Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog
こんにちはハタです。最近Mirrativ上に構築した配信の文字起こしシステムを紹介したいなと思います音声からの文字起こしは、各社SaaSでAPI提供されているものがあると思いますが、今回紹介するものはセルフホスト型(自前のGPUマシンを使う)になります構築していく上で色々試行錯誤したのでそれが紹介できればなと思っていますどんなものを作ったか前提知識: 配信基盤前提知識: Unix Domain Socket Live Recorder Archiver DS Filter VAD Filter NAC / Compress Transcriber NAC / Decompress Speach To Text コンテナイメージまとめ We are hiring! どんなものを作ったか今回作ったものは Mirrativで配信されるすべての音声を対象に文字起こしを行うシス
manabou 2024/03/06
audio

recognition

mirrativ
リンク
論より動くもの.fmを支える技術〜Podcast初心者が使っているツール紹介〜 - STORES Product Blog
こんにちは、技術広報のえんじぇるです。社内のLT大会にて「論より動くもの.fmの作り方」という発表をしました。本記事は、その発表内容をブログ向けに編集したものです。どのようなツールを使って論より動くもの.fmを運営しているのか紹介します。社内LT大会についてはこちらをご覧ください ▼ 社内LT大会を始めてよかったこと - hey Product Blog 論より動くもの.fmとは論より動くもの.fmは、CTOの藤村さんがホストとして、技術や技術にまつわるさまざなことを話すPodcastです。社外に向けても、社内に向けても、CTOがどんな人で、どんなことを考えているのかを知ってもらいたいという思いで、2022年4月から始めました。実はCTOの発信を増やしたいプロジェクトは2021年下半期から始まっていました。ほぼ毎週、藤村さんとネタ出し会をし「その話、ブログに書きませんか？」と提案
manabou 2022/09/29
podcast

technology

software

speech

speech2text

recognition
リンク
PyCon JP 2021 で「絵を読む技術 Pythonによるイラスト解析」を発表しました - Hirosaji Tech Blog 🍙
オンライン／オンサイトのハイブリッド会場で開催されたPyCon JP 2021に、Hirosaji（エンジニア名義）とひろさじ（絵師名義）のハイブリッド名義で登壇してきました。 PyCon JP 2019 で登壇して以来、PyConには二回目の登壇です。これまでの登壇史上、最高の登壇体験でした。今回は、登壇内容のまとめや印象に残ったセッションを、雑感を含めてまとめました。イベント概要概要：日本最大級のPythonユーザカンファレンス日時：2021年10月15日（土）～ 2021年10月16日（日）会場：オンライン（ZOOM + Discord）／オンサイト（ベルサール神田）公式 HP：https://2021.pycon.jp/ 登壇内容絵を読む技術 Pythonによるイラスト解析（Hirosaji / ひろさじ, 30min）一言で言うと、「イラストで絵師が伝えたいことを
manabou 2021/10/19
python

slide

recognition

technology
リンク
Multiple Object Trackingの手法・ライブラリ紹介 - OPTiM TECH BLOG
R&Dチーム2年目の葉山です。巣ごもりの影響...はあまり関係なく元からですが、もっぱら自宅で映画ばかり見ています。バイオレンスな映画が好きです。最近は業務でMultiple Object Trackingを扱っており、トラッキング処理の実装に四苦八苦しています。今回はMultiple Object Trackingの基本的な解説と、アルゴリズムや便利なライブラリを紹介していきたいと思います。 Multiple Object Trackingとは？ MOTの手法やライブラリなど MOTベンチマークで顕著な成績を残しているモデルたち FairMOT TransMOT（STGT）その他の手法やライブラリ FastMOT motpy MOTの評価指標評価指標を測るライブラリ py-motmetricsの使い方終わりに Multiple Object Trackingとは？ Multipl
manabou 2021/07/08
object

image

recognition

objecttracking

tracking

vision
リンク
リコー経済社会研究所 | リコーグループ企業・IR | リコー
「あれっ！こんなところを間違えてるよ」―。パソコン画面上で何回も確認して間違いがなかったのに、紙に印刷すると原稿のミスが...。こんな経験をした人も多いはず。だが、その理由がよく分からない。もちろん、できる限り間違いを減らし、仕事はスムーズに進めたい。紙と画面の違い、その使い分けを考察してみた。「反射光」と「透過光」画面よりも紙のほうが、間違いに気がつきやすい。これは私が今まで何度となく経験してきた。新型コロナウイルスの感染拡大に伴い、リモートワークを始めてからは、自宅などにプリンターが無かったり、あってもその能力不足で印刷に手間取ったり。だから、紙でのチェックを怠りがちになり、ミスが生じて後で大きなしっぺ返しを食らう。情報処理学会の研究報告（注）が、紙と液晶ディスプレーにおける「反射光」と「透過光」の性質の違いなどに着目し、実験を行った。反射光はいったん紙に反射してから目に入る光、
manabou 2020/09/16
recognition

image

ui

ux

work

science
リンク
DNP、読む速度を約2倍にする自動レイアウト技術
manabou 2020/07/11
reading

layout

design

recognition

accessibility
リンク
End-to-End音声認識の計算量を削減した話
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、音声処理黒帯（黒帯はヤフー内のスキル任命制度）の藤田です。今日のブログでは、音声認識技術の研究開発におけるヤフーの最新の取り組みを紹介します。特に、近年注目されているTransf ormerという手法に基づく、End-to-End音声認識の計算量を削減した研究を紹介します。この研究は、難関国際会議IEEE ICASSP2020に投稿し、採択されました。また、arXivでプレプリントを公開しています。そして、ESPnetというEnd-to-Endモデルのツールキット上でソースコードも公開しています。興味のある方はぜひ、こちらもご参照ください。音声認識で用いられるEnd-to-Endモデルとは？音声認識技術は音声をテキ
manabou 2020/06/30
audio

sound

speechrecognition

machinelearning

deeplearning

speech

recognition

performance

network

order
リンク
OSSなWeb会議アプリ(SkyWay Conf)に文字起こし機能を実装してみた - Qiita
SkyWay ConferenceはSkyWayを利用したのブラウザ上で動作するWeb会議デモアプリです。OSSとして公開されています。今回はSkyWay Confを改造して文字起こし機能をつけてみました！ Web会議アプリに文字起こし機能がついてると、出先でイヤホンを忘れてもなんとかなるかもしれません。　議事録も自動で出来て素晴らしいですね。左上の窓で文字起こし関連の操作が出来て、画面中央下部に書き起こされた文字が表示されるようにしました。できたものまずデモアプリはこちら。Chromeで開いてください！文字起こし機能つきSkyWay Confのデモページ https://shinyoshiaki.github.io/skyway-conf ソースコードなど文字起こし機能つきSkyWay Confのソースコード https://github.com/shinyoshiaki/s
manabou 2020/06/12
skyway

speechrecognition

recognition

webrtc

oss
リンク
物体認識モデルYOLOv3を軽く凌駕するYOLOv4の紹介 - ほろ酔い開発日誌
はじめに先月、YOLOv4が公開されました。位置づけとしては、物体認識のポピュラーなモデルの1つであるYOLO系統の最新版となります。結果がすごいのはぱっと見分かりましたし、内容も既存の手法をサーベイ・実験頑張って、精度上げていったんだなあくらいのさら読みはしていましたが、もう少しちゃんと読んでおこうと思い、読んでみたので紹介します。私自身は物体認識の研究者というわけではないですが、なんだかんだ物体認識周りの記事をいくつか書いているので興味のある方は以下もご参照下さい。 note.com note.com [DL輪読会]Objects as Points from Deep Learning JP www.slideshare.net さて、このYOLOv4ですが、元々のYOLOの作者であるJoseph Redmon氏は著者ではありません。Jeseph Redmon氏は研究の軍事利用や
manabou 2020/05/18
object

detect

recognition

image

gpu

darknet
リンク
RICOH THETA + OpenCV で 360° 顔検出 - Qiita
はじめにこんにちは、リコーの @yomura_ です。今回は RICOH THETA V に顔検出処理をさせてみました。また、せっかくの 360° カメラなので、顔を検出した方向に応じて内蔵 LED の点灯色を変えるようにしてみました。 RICOH THETA プラグインについて THETA プラグインをご存じない方はこちらをご覧ください。興味を持たれた方は Twitter のフォローと THETA プラグイン開発コミュニティ(Slack) への参加もよろしくお願いします｡準備 OpenCV 環境の準備顔検出には画像処理ライブラリ OpenCV のバージョン 3.4.5 を使用しました。 THETA の中で OpenCV を動かすための環境は THETAの中でOpenCVを動かす【プレビューフレーム取得編】の記事で詳しく紹介されています。今回はそちらの記事の環境とサンプルコー
manabou 2020/01/29
opencv

recognition

face

detect
リンク
最近の物体検出 2019/05/30
最近の物体検出 2019/05/30 1. 最近の物体検出 2019/05/30 2. お品書き •イントロ • 歴史の振り返り •最近の動向 • キーポイント系 • multi-scale対応 3. イントロ 4. https://twitter.com/RUSH1L/status/889963452143357952/photo/1https://www.youtube.com/watch?v=VOC3huqHrss 5. MegDet 詳細不明 (ensem ble) 52.5 SNIP (R-FCN, DPN-98, DCN) (ensem ble) 48.3 Mask R-CNN ResNeXt-152 32x8d CornerNet Hourglass-104 SNIPER (Faster R-CNN, R-101, DCN) NAS-FPN RetinaNet, AmoebaNe
manabou 2019/06/17
image

detection

recognition

objectdetection

object

slide
リンク
ディープラーニングで五十嵐響子と椎名法子を見分けられるか試してみた - Qiita
五十嵐響子(いがらしきょうこ) 鳥取県出身で、Cute属性のユニットである「ピンクチェックスクール」に所属しています。その楽曲「ラブレター」のMVがニコニコ動画で再生数100万回を超えました。以降、苗字を省略して単に「響子」と呼称します。椎名法子(しいなのりこ) 大阪府出身で、同じくCute属性のユニット「メロウイエロー」に所属しています。ドーナツが大好きで、常時ドーナツを持ち歩いています。こちらも以降、単に「法子」と呼称します。方法使用したのは公式イラストのみで、二次創作イラストは使っていません。ネックとなるのが画像数の少なさで、この二人の公式イラストは数十枚しかありません。また、アニメ版の登場シーンも僅かなため、畳み込み層の学習に必要な画像数が得られません。そこで、学習済みのVGG16モデルを用いて特徴を抽出して最後の判定結果を出力する段だけこの二人の判定に挿げ替
manabou 2019/05/21
deeplearning

recognition

keras

image
リンク
ML Kit に顔輪郭検出が加わり、スマートでビジュアルなアプリの作成が可能に
.app 1 .dev 1 #11WeeksOfAndroid 13 #11WeeksOfAndroid Android TV 1 #Android11 3 #DevFest16 1 #DevFest17 1 #DevFest18 1 #DevFest19 1 #DevFest20 1 #DevFest21 1 #DevFest22 1 #DevFest23 1 #hack4jp 3 11 weeks of Android 2 A MESSAGE FROM OUR CEO 1 A/B Testing 1 A4A 4 Accelerator 6 Accessibility 1 accuracy 1 Actions on Google 16 Activation Atlas 1 address validation API 1 Addy Osmani 1 ADK 2 AdMob 32 Ads
manabou 2019/04/02
mlkit

machinelearning

image

face

recognition

android

ios
リンク
スタンフォード大学など、単眼カメラから人の動きと物体との相互作用における因果関係を学習する機械学習モデルを発表。行動予測に活用など
スタンフォード大学など、単眼カメラから人の動きと物体との相互作用における因果関係を学習する機械学習モデルを発表。行動予測に活用など 2019-02-21 スタンフォード大学やUberATGなどによる研究チームは、単眼カメラから人の動きと物体との相互作用における因果関係を学習する機械学習モデルを発表しました。論文：Learning a Generative Model for Multi-Step Human-Object Interactions from Videos 著者：He Wang, Sören Pirk, Ersin Yumer, Vladimir G. Kim, Ozan Sener, Srinath Sridhar, Leonidas J. Guibas 所属：Stanford University, Uber ATG, Adobe Research, Intel La
manabou 2019/02/21
image

recognition

camera
リンク
ディープラーニングで交通量調査の映像解析精度を上げるのに苦労した - Qiita
サマリー・映像解析による交通量調査の手法について・解析結果の映像サンプルはこちら：https://youtu.be/kgjG6_hejE8 ・映像によっては誤認識しやすいエリアがある・マスク機能について映像解析による交通量調査の手法についてここではディープラーニングによる映像解析精度を上げるためには「解析しないこと」が早道だよ、という話をします。ディープラーニングそのもののチューニングによる解決ではなく、実装方法の工夫による回避なので、ディープラーニングの勉強にはならないかも。あ、トップ画像ですが「small_truck」として軽貨物が判別できているのがちょっと自慢。ピンクの枠です。・やっぱり映像解析は簡単ではない前の記事でも書いてますが、SSDにしてもMask R-CNNにしてもYOLO V3にしても物体検出は「静止画」に対して行います。動画をinputに選択できたとして
manabou 2019/02/18
deeplearning

image

recognition

youtube
リンク
２人で残業→１時間で完了　ＡＩで議事録、効果てきめん：朝日新聞デジタル
徳島県は人工知能（ＡＩ）を使った議事録の音声のテキスト化と要約を、１５日から全ての審議会や協議会に広げた。昨年度に知事の定例会見のデータを使って実施した実証実験を踏まえ、本格導入することにした。議事録作成にかかる作業が５分の１に減り、公開までの時間も大幅に短縮されるという。行政改革室によると、昨年１０月から今年３月に実施した実証実験では、これまで会見４日後だった知事会見のホームページ公開を当日中に前倒しできた。ホームページへのアクセス数も２倍以上に増え、利用者の満足度は９割を超えたという。会議データを要約する「ＡＩ要約システム」は、当初は不自然な日本語になることもあったが、長い発言には「。」（句点）を入れるなどの工夫で分かりやすい表現になるよう、使い方を改善したという。県の審議会や協議会は約１３０あり、議事録は原則としてインターネットで公開している。これまでは職員が音声データを聞きな
manabou 2018/10/24
mtg

machinelearning

audio

recognition
リンク
20180609 chainer meetup_es_pnet
6. 便利なシチュエーション • 「少し寝たっぽいから、テレビつけてみよ」（しばしして）「あら、泣きはじめた…!」（抱っこ）（テレビ消したい…が、手がふさがっている…!）「オッケーグーグル、テレビ消して！」 Kei Shiratsuchi, レトリバセミナー
manabou 2018/06/10
e2e

speech

recognition

speechtotext
リンク
MIT、“頭の中でしゃべる”だけで音声認識できるシステム「AlterEgo」
manabou 2018/04/09
keyboard

speech

recognition

technology

brain

bmi

mit
リンク
最近の大学生がインタビューの文字起こしをするのに「iPhone」と「iPad」の２台だけを使っている理由
岸政彦 @sociologbook こないだ龍大のゼミ生と話してて、卒論のための生活史調査の文字起こしをえらい丁寧にしてきたから、どうやってやったのって聞いたら、「インタビューの音声をiPhoneで再生してイヤホンで聞きながら、iPadのメモを音声入力にして、マイクに向かって自分で同じセリフを喋り続けた」だった→ 2017-10-06 01:04:51 岸政彦 @sociologbook →最近みんなこれ。InterviewWiterももはや時代遅れか（笑）。漢字変換の精度もかなりいいんだって。タイピングが遅い学生たちに無理やりキーボードで文字起こしさせるよりも、こっちのやり方をすすめていったほうが、これから院生指導するときでも、ええかもしれんね。→ 2017-10-06 01:05:09 岸政彦 @sociologbook →「いまでもタイピングしてるぞ！」という、そんな貴方に。文字起こ
manabou 2017/10/10
audio

audioinput

text

recognition

speech

speechtotext
リンク
1 2 次のページ