「recognition」を検索 - はてなブックマーク

121 - 160 件 / 1704件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

recognitionの検索結果121 - 160 件 / 1704件

単なる「雑学好き」で終わる人と、本当の教養を手に入れる人の差
- 50 users
- diamond.jp
- 政治と経済
- 2022/05/21
『独学大全──絶対に「学ぶこと」をあきらめたくない人のための55の技法』著者の読書猿さんは昨年「独学」「執筆」に加えて「復刊」をライフワークとしていくことをTwitterで宣言した。この連載「読書猿が推す『良書復刊』プロジェクト」では、読書猿さんが推す復刊本や、復刊に関係する話を紹介していく。 2022年5月19日より、国会図書館による「個人向けデジタル化資料送信サービス」がスタートする。ごく簡単に説明すると「国会図書館デジタルコレクション所蔵の絶版本や雑誌が、自宅で読み放題になる無料サービス」だ。読書猿さんは、このニュースは全国の独学者にとっても福音であると話す。今回は、元司書でレファレンス担当だった書物蔵さんを対談相手に迎え、同サービスの使いこなし方、楽しみ方を語ってもらった。（取材・執筆／藤田美菜子）第1回　元司書が語る！国立国会図書館の絶版本「読み放題解禁」がスゴい膨大な資料を
How to Use ChatGPT With Siri on Your iPhone
- 49 users
- www.makeuseof.com
- テクノロジー
- 2023/03/27
ChatGPT may not have an official mobile app, but you can still access its capabilities with Siri and the Shortcuts app. We'll teach you how. With ChatGPT being all the rage today, Apple users are likely wondering how to access it on their iPhones. For those of you who aren't aware, ChatGPT is an AI-powered chatbot that allows you to have human-like conversations. Although ChatGPT doesn't have an o
- AI
- ChatGPT
- iPhone
- あとで読む
ネコは「自分の名前」も「飼い主の声」も分かっていてあえて無視している - ナゾロジー
- 49 users
- nazology.net
- 暮らし
- 2021/08/14
ネコは飼い主が名前を呼んでも反応しないことが多いです。これは、飼い主の声や自分の名前が分かっていないからなのでしょうか？近年の日本の研究によって、実はネコは「飼い主の声」も「自分の名前」も分かっていたと判明しました。ネコはあえて飼い主の呼び声を無視していたのです。ツレない猫、答えないけど飼い主の声聞き分ける。科学的に証明 https://www.u-tokyo.ac.jp/focus/ja/press/p01_250327_02.html ネコは自分の名前を聞き分ける～ヒトの発する「自分の名前」と「他の名詞」や「同居ネコの名前」を区別する能力を実験的に証明～ https://www.sophia.ac.jp/jpn/news/PR/press0405.html Vocal recognition of owners by domestic cats (Felis catus) ht
- cat
- ねこ
- animal
- 猫
- Article
- 動物
Code Reviews 101 - The Basics | Sema
- 48 users
- www.semasoftware.com
- テクノロジー
- 2022/04/15
Code improves with multiple reviews and revisions, and this process isn’t something that can be done alone. Spotting errors in code design is difficult at the best of times — and the closer you are to the work, the harder it can be to critique. That’s where code reviews come in. The beginning: introducing code reviewsWhat is a code review? Code improves with multiple reviews and revisions, and thi
RNNからTransformerまでの歴史を辿る～DNNを使ったNLPを浅く広く勉強～ - arutema47's blog
- 48 users
- aru47.hatenablog.com
- テクノロジー
- 2020/08/18
Amazon Prime 一ヶ月無料 Seq2seqからBERTまでのNLPモデルの歴史をざっとまとめる。 DNNは知ってるけどTransformerってなんだかわからない、って人におすすめです。 Abst. 画像認識にもTransformerが使われることが多く、DeepRLやGPT-3といったNLPモデルも身近になってきています。"Attention is 何?"と言えなくなってきたので勉強しました。 Feedforward NetworksからSeq2Seq, Attention機構からTransformer登場、そしてBERT GPTといった最新モデルまでの流れを広く浅く記述する予定。またKaggle NLPコンペの上位解法から利用例を探る。 Tl;DR TransformerはSelf-Attentionという機構でデータ内の時系列的特徴を抽出でき、従来のRNNを始めとするNN
- BERT
- NLP
- 機械学習
- 自然言語処理
- Transformer
- RNN
- attention
- あとで読む
styleguide
- 48 users
- google.github.io
- テクノロジー
- 2020/05/09
Background Which Shell to Use Bash is the only shell scripting language permitted for executables. Executables must start with #!/bin/bash and a minimum number of flags. Use set to set shell options so that calling your script as bash script_name does not break its functionality. Restricting all executable shell scripts to bash gives us a consistent shell language that’s installed on all our machi
- shell
- style guide
- bash
- ShellScript
- sh
- Google
Claude 3.5 SonnetでStable Diffusion XLによる画像生成を要件が満たされるまで繰り返すAmazon Bedrockの使用例 - NRIネットコムBlog
- 48 users
- tech.nri-net.com
- テクノロジー
- 2024/07/23
小西秀和です。 Amazon BedrockのAIモデルとして利用可能になったAnthropic Claude 3ファミリーでは画像認識機能が導入されました。そして、最新モデルのAnthropic Claude 3.5 Sonnetにも更に強化された画像認識機能が備わっています。これらのAnthropic Claudeモデルの画像認識機能、特にOCR(光学文字認識)の性能については、いくつかの簡単な試行と比較を実施してみたことがあります。詳細は以下の記事でご覧いただけます。 Using Amazon Bedrock for titling, commenting, and OCR (Optical Character Recognition) with Claude 3 Haiku Using Amazon Bedrock for titling, commenting, and OCR
- Claude
- あとで読む
- Bedrock
- Prompt Engineering
- AI
- Generative AI
- prompt
- AWS
- Amazon
リックライダー「人と計算機の共生」 - 山形浩生の「経済のトリセツ」
- 48 users
- cruel.hatenablog.com
- テクノロジー
- 2023/04/16
翻訳中の本に、影響力の強い文として出てきたので、座興でやってみた。んー、いまだとそんなにすごい感じではないのと、ChatGPTとか出てきて、人間計算機共生のありかたそのものの、歴史的前提が崩れ始めている感じではある。とはいえ、60年以上前の話だから……　むしろ、この中で出てくる、人間で拡張された機械、という概念の方が妥当性が高いんじゃないかとさえ思う。人と計算機の共生 Man‑Computer Symbiosis J. C. R. リックライダー　山形浩生訳 (hiyori13@alum.mit.edu) IRE Transactions on Human Factors in Electronics, volume HFE-1, pages 4-11, March 1960 groups.csail.mit.edu 要約人と計算機の共生は、人と電子計算機との協力的な相互作用の中で、予
- AI
- technology
- あとで読む
- 経済
- システム
- 人工知能
- 思想
- 生物
- science
Huaweiが中国のAI大手Megviiと協力して「ウイグル人アラーム」を開発していたことが機密文書から判明
- 48 users
- gigazine.net
- テクノロジー
- 2020/12/09
中国の通信機器大手Huaweiが、北京を拠点とする画像認識や人工知能(AI)のベンダーであるMegviiと共同で、ウイグル人を追跡する顔認証システムを開発していたと報じられています。 Huawei / Megvii Uyghur Alarms https://ipvm.com/reports/huawei-megvii-uygur Huawei tested AI software that could recognize Uighur minorities and alert police, report says - The Washington Post https://www.washingtonpost.com/technology/2020/12/08/huawei-tested-ai-software-that-could-recognize-uighur-minoritie
- Huawei
- 中国
- GIGAZINE
- 人工知能
- China
固有表現抽出のアノテーションデータについて - NLP太郎のブログ
- 48 users
- kzinmr.hatenablog.com
- テクノロジー
- 2020/10/06
自然言語処理技術のなかでも固有表現抽出（Named Entity Recognition; NER）は情報抽出の処理をやろうとするときにとても役立つ。応用は幅広く、会社名や個人名などの情報抽出処理、個人情報除去などのような抽出した情報に対する処理、代名詞の解析（照応解析・共参照解析）のような文脈解析処理などに用いられる。最も簡単なNERの方法としては、辞書や形態素解析結果や正規表現などに基づくルールを用いて、単語列にラベリングする方法があるが、会社名など判断が難しいケースについては機械学習によってNERを行うことが有効なことが多い。機械学習ベースの既存の固有表現抽出器を使ってみたい場合には、GiNZAやKNPのようなNERモデルが同梱されているツールを使用してみるのがよい。しかし公開モデルの性能では満足いかない場合に自分でモデルを構築しようとしても、公開データセットが見つけにくかった
PyTorch vs TensorFlow in 2023
- 47 users
- www.assemblyai.com
- テクノロジー
- 2021/12/15
Should you use PyTorch vs TensorFlow in 2023? This guide walks through the major pros and cons of PyTorch vs TensorFlow, and how you can pick the right framework. PyTorch and TensorFlow are far and away the two most popular Deep Learning frameworks today. The debate over which framework is superior is a longstanding point of contentious debate, with each camp having its share of fervent supporters
【React/Python】２年がかりで完成した個人開発サービスの話【ChatGPT】 - Qiita
- 47 users
- qiita.com/034miyatsuka
- テクノロジー
- 2023/08/27
個人開発でサービスを作り始めて、気がついたら２年も経っていました。気軽な気持ちで作り始めたのですが、思いの外色々なことに手を出してしまったので、利用した技術などをまとめてみます。作ったもの YouTubeのライブ配信風の画面に向かって話しかけると、音声を認識してAIがスーパーチャットを送ってくれる、その名も「AIスパチャ」です。良かったら遊んでみてください。作るきっかけ YouTubeでひろゆき氏の配信を見ていた時に、「私もひろゆきさんみたいに質問回答の配信をやってみたいです。けれどいざ配信をしてみても視聴者が少なく、質問なんて全くきません」といった質問がありました。確かに、ひろゆき氏のように、何千人も視聴者がいて、ガンガンとスパチャが送られてきたらそりゃ楽しいですが、普通の人はまずスパチャなんて送られません。そもそも実際にYouTubeライブをやることのハードル
- 文章生成AI
- React
- あとで読む
- 人工知能
- techfeed
- Python
- qiita
NVIDIAがテキストから高解像度の映像を生成するAIモデル「VideoLDM」を発表
- 46 users
- gigazine.net
- テクノロジー
- 2023/04/20
NVIDIAが、アメリカのコーネル大学と共同で開発したAIモデル「Video Latent Diffusion Model(VideoLDM)」を発表しました。VideoLDMは、テキストで入力した説明に基づき、最大2048×1280ピクセルの解像度、24fpsの動画を最長4.7秒生成することができます。 Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models https://research.nvidia.com/labs/toronto-ai/VideoLDM/ NVIDIA Introduces AI That Generates High-resolution Videos Based On Text Descriptions - Tech News Space https:/
- NVIDIA
- AI
- 動画
ぼやけた顔写真から最大64倍鮮明な画像を生成するAIツールを開発、デューク大研究チーム
- 46 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/06/17
デューク大学の研究チームは、ぼやけて被写体が特定できない顔写真から、これまでの方法よりも精細な、極めて本物に近い画像をコンピュータで生成できるAIツール「PULSE」（Photo Upsampling via Latent Space Exploration）を開発した。研究チームは、2020年6月14～19日の会期でオンラインで開催中の2020 Conference on Computer Vision and Pattern Recognition（CVPR）で、PULSEのプレゼンテーションを行った。これまでの方法では、顔写真の解像度は最大8倍にしか高めることができなかった。デューク大学のチームは少数のピクセルからなる顔写真画像の解像度を最大64倍に高める方法を考案した。研究チームを率いたデューク大学のコンピュータ科学者シンシア・ルーディン氏は「このような低解像度の画像を用いて
- 機械学習
- 研究
- 写真
- 画像
- あとで読む
最初期の絵文字セットが1988年のシャープ製電子手帳から発見される
- 46 users
- gigazine.net
- アニメとゲーム
- 2024/05/14
絵文字は英語でも「emoji」と呼ばれている通り、日本発祥の文化という説が有力です。新たに1988年に生産された日本の電子手帳から「最初期の絵文字」が発見されました。 Emoji history: the missing years ⌘I Get Info https://blog.gingerbeardman.com/2024/05/10/emoji-history-the-missing-years/ New Earliest Emoji Sets From 1988 & 1990 Uncovered https://blog.emojipedia.org/new-earliest-emoji-sets-from-1988-and-1990-uncovered/ 絵文字文化の起源には多様な説があり、中でも「1999年のNTTドコモによるiモード開発が切っ掛けで誕生した」という説が広
- 絵文字
- 文字
- history
- gigazine
- Net
AmazonやAppleの音声認識アルゴリズムに「黒人の声を上手く聞き取ることができない」問題があると研究者が指摘
- 46 users
- gigazine.net
- テクノロジー
- 2020/04/19
音声認識アルゴリズムはスマートスピーカーやスマートフォンなど、さまざまなデバイスやアプリケーションに採用されており、もはや日常の一部となっています。ところが、AppleやAmazon、Google、IBM、Microsoftなどの音声認識アルゴリズムを使った実験で、「音声認識アルゴリズム白人の声と比較して黒人の声を上手く認識できない」問題があることが判明しました。 Racial disparities in automated speech recognition | PNAS https://www.pnas.org/content/117/14/7684 There Is a Racial Divide in Speech-Recognition Systems, Researchers Say - The New York Times https://www.nytimes.com/
GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
- 46 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2023/12/18
こんにちは、安部です。気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか？得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。検証では、日本語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。また、手書き・活字での違いも見ていきましょう。一番簡単に試せるChatGPT（Web版）でOCRをさせようとするとエラーになることが多かったので、ここではAPIを使っていくこととします。 APIを呼び出すプログラム以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。画像は個人のgithu
ユーザーインタフェースデザインのための10ユーザビリティヒューリスティックス
- 45 users
- u-site.jp
- テクノロジー
- 2021/04/12
ヤコブ・ニールセンのインタラクションデザインのための一般的な原則。これらの原則は幅広い経験則であり、具体的なユーザビリティガイドラインではないため、「ヒューリスティックス」という。 10 Usability Heuristics for User Interface Design by Jakob Nielsen on November 15, 2020 日本語版2021年4月12日公開この記事の最後で、ヤコブの10ユーザビリティヒューリスティックスの無料ポスター（英語）をダウンロードできる。 1. システム状態の視認性デザインは、妥当な時間内に適切なフィードバックを通じて、今、何が起こっているのかを絶えずユーザーに知らせる必要がある。ユーザーが現在のシステムの状態を把握できれば、彼らは自分がそれまでに行ったインタラクションの結果を知り、次のステップを決定することができる。予測可能
カメラにシールを貼るだけでディープラーニングを誤認識させる攻撃方法が登場
- 45 users
- ai-scholar.tech
- テクノロジー
- 2019/10/18
3つの要点 ✔️カメラにシールを貼るだけでディープラーニングを誤認識させることが可能になった ✔️対象物を異なる角度や距離で撮影しても誤認識させられることを動画データで検証 ✔️顔認証用のカメラにシールを貼っておくことでシステムに気づかれずに他人になりすましたりできてしまうかもしれないディープラーニングによる画像分類は高い性能を誇りますが、画像に摂動を加えるだけで、人間の目ではほぼ違いがないのにディープラーニングが他のカテゴリであると誤認識してしまう adversarial attack という攻撃方法が知られています。この adversarial attack にどのように対応するかは、実世界でディープラーニングを含んだシステムを運用していく上で重要になるだけでなく、人間の認識とディープラーニングによる認識の違いを理解するのにも重要であり、一つの大きな研究テーマにもなっています。こ
- 人工知能
- あとで読む
- 機械学習
- 謎
- AI
- 科学
道端の花の名前を調べる散歩が楽しくなるiPhoneアプリ「ハナノナ」 #ハナノナ #hananona - I AM A DOG
- 45 users
- moognyk.jp
- テクノロジー
- 2020/05/21
お花の話題が続きますが、先日妻に面白そうなiPhone用アプリを教えて貰いました。その名は「ハナノナ」、人工知能によりカメラが捉えた花の名前を判定するアプリです。ハナノナ app Chiba Institute of Technology写真／ビデオ無料そもそも「ハナノナ」は千葉工業大学ステアラボ（人工知能・ソフトウェア技術研究センター）が開発した、ディープラーニングにより花の名前を判別する人工知能の名称だそう。WEBサービス版が2017年に公開されていて、それを元にiPhoneアプリ版（ハナノナ app）として開発されたようです人工知能花分類システムハナノナ – Surface & Architecture Hananona - Flower Recognition Service - STAIR Lab. 今まで買ってきた花の名前を調べるのに［Googleフォト］アプリ内の
- 人工知能
- あとで読む
- iPhone
- カメラ
- アプリ
- 技術
- 写真
DEEP LEARNING · Deep Learning
- 44 users
- atcold.github.io
- テクノロジー
- 2020/05/16
Description This course concerns the latest techniques in deep learning and representation learning, focusing on supervised and unsupervised deep learning, embedding methods, metric learning, convolutional and recurrent nets, with applications to computer vision, natural language understanding, and speech recognition. The prerequisites include: DS-GA 1001 Intro to Data Science or a graduate-level
GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga
- 44 users
- github.com/kha-white
- テクノロジー
- 2022/09/27
Optical character recognition for Japanese text, with the main focus being Japanese manga. It uses a custom end-to-end model built with Transformers' Vision Encoder Decoder framework. Manga OCR can be used as a general purpose printed Japanese OCR, but its main goal was to provide a high quality text recognition, robust against various scenarios specific to manga: both vertical and horizontal text
- ocr
- github
- 画像処理
- comic
- 漫画
- idea
カリコー・カタリン - Wikipedia
- 43 users
- ja.wikipedia.org
- 学び
- 2021/03/07
カリコー・カタリン（Karikó Katalin, [ˈkɒrikoː ˌkɒtɒlin], 1955年1月17日 - ）は、アメリカ合衆国在住のハンガリー人生化学者。ビオンテック上席副社長。RNAの修飾機構を専門とし、ガラス管内で修飾させたmRNAを用いて蛋白質療法への応用を研究する。RNARx社の共同創業者でCEOを務め（2006年–2013年[1]）、2013年よりビオンテックの重役を歴任し上級副社長（Senior Vice President）、またペンシルベニア大学の非常勤准教授職(客員教授)にある[1][2]。ハンガリーとアメリカの二重国籍（アメリカ籍は1999年に取得）[注釈 1]。ハンガリーのソルノク県（現在のヤース・ナジクン・ソルノク県）ソルノク市出身。姓は「カリコー」と伸ばすが日本では英語からカリコと短母音で表記したり[3]、名前のカタリンを英語風にケイトと表記したり
精度の高い日本語OCRを実現する技術　LINE BRAIN OCRのパイプラインを解説
- 43 users
- logmi.jp
- テクノロジー
- 2020/04/07
日本語におけるOCR Hwalsuk Lee氏：ここまでテキスト検出のお話をしてまいりました。これからは日本語におけるテキスト認識についてお話ししようと思います。先ほど言いましたように、日本語というのはテキスト認識において、英語に比べると何百倍ものたくさんの文字を扱う必要があります。そのため、たくさんのテキスト認識の論文を検証いたしました。 Scene Text Recognition（STR）とは何でしょうか？　STRというのは、文字列を画像パッチ入力から認識するタスクです。この場合は「UNITED」という文字列を認識するということになります。 STRについてはこれまでいろいろな研究がされてきました。ですが我々がその評価内容を見たとき、たくさんの問題を発見しました。STR手法の比較においてどんな問題があるのでしょうか。こちらは先行研究の手法のリストです。このリストをご覧いただくと
機械学習を使ってUIを補完するAppleの研究の紹介 - dely Tech Blog
- 42 users
- tech.dely.jp
- テクノロジー
- 2021/12/02
TRILL開発部のiOSエンジニアの石田です。今年もdelyではアドベントカレンダーを行っており、本記事はその2日目の記事となっています。昨日の1日目の記事は奥原さん (@okutaku0507) の「プロダクトマネージャー3年目の教科書」という記事でした。delyのエースPdMである奥原さんによる大作となっていますので是非ご覧ください。本記事では、機械学習を使ってUIを補完するAppleの研究について紹介します。 AppleはMachine Learning Researchで機械学習に関する様々な研究を発表しています。その多くはコンピュータビジョンや音声・テキスト認識のような研究なのですが、機械学習xUIという研究も行っております。本記事ではその中でも、アプリのスクリーンショット(画像)から機械学習を使ってUIコンポーネントを認識し、アクセシビリティ機能を補完するMaking
AIはレントゲン写真から人種を90％の確率で見分けられる、ただし見分け方は不明
- 42 users
- gigazine.net
- テクノロジー
- 2022/05/18
人間の医師にとって、肌の色などがわからないレントゲン写真から患者の人種を見分けることは困難ですが、新たに医学誌のThe Lancet Digital Healthに発表された論文で、「AIは胸部X線画像から人種を90％の精度で見分けられる」ことが示されました。研究者らはAIが人種を見分ける方法についても調べましたが、今のところAIがどうやって人種を判別しているのかは不明とのことです。 AI recognition of patient race in medical imaging: a modelling study - The Lancet Digital Health https://www.thelancet.com/journals/landig/article/PIIS2589-7500(22)00063-2/fulltext MIT, Harvard scientists f
- AI
- GIGAZINE
- 人工知能
- 差別
- Medical
- 研究
- 技術
Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ
- 42 users
- tech.layerx.co.jp
- テクノロジー
- 2023/07/27
初めまして。機械学習エンジニアの島越@nt_4o54です。現在はMLチームで日々、バクラクシリーズで用いられているAI-OCR機能の改善や新規機能の開発などを行なっています。 7月はLayerXエンジニアブログを活発にしよう月間ということで、自分からは表題にもある通り、「Document AI」と呼ばれる技術についての紹介と、またLayerXにおいてどういう応用先があるのかというお話をさせていただこうと思います。 ※ 同名のDocument AIというGCPのサービスがありますが、今回は一般的なDocument AIの話になります。 Document AIとは Document AIに用いられる技術 Optical Character Recognition (OCR) Document Classification Layout Analysis Document Parsing Tab
Introducing Whisper
- 42 users
- openai.com
- 学び
- 2022/09/22
Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web. We show that the use of such a large and diverse dataset leads to improved robustness to accents, background noise and technical language. Moreover, it enables transcription in multiple languages, as well as translation from those languages into Eng
- AI
- Audio
Grad-CAMだけじゃない画像認識におけるCAM手法を徹底解説 - ABEJA Tech Blog
- 41 users
- tech-blog.abeja.asia
- テクノロジー
- 2022/03/01
長期インターン生の木村です。今回、以前から興味を持っていた画像認識モデルにおける説明可能なAIのクラス活性化マッピング手法を調査してみました。説明可能なAIとは近年、深層学習ベースの画像認識モデルは製造業、医療、自動運転など至る場面で社会実装が進められていますが、ディープなラーニングを行っているだけに推論の判断根拠を人間が解釈できない問題があります。医療、自動運転のような命に関わる領域では安全性や公平性を担保できないために安心して導入できません。このような問題を解決するのが「説明可能なAI(XAI)」です。「説明可能なAI(XAI)」は、AIの推論結果を人間が解釈可能な形で出力する技術を指します。例えば、犬と猫が映っている画像を画像分類するAIが犬と推論した場合、モデルがどこを判断根拠としているかをヒートマップで可視化します。このヒートマップは、「顕著性マップ」と呼ばれます。画
- 画像認識
- 機械学習
- あとで読む
- HotEntry
- 勉強
- AI
- 画像
GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++
- 41 users
- github.com/ggerganov
- テクノロジー
- 2022/11/07
Stable: v1.5.4 / Roadmap | F.A.Q. High-performance inference of OpenAI's Whisper automatic speech recognition (ASR) model: Plain C/C++ implementation without dependencies Apple Silicon first-class citizen - optimized via ARM NEON, Accelerate framework, Metal and Core ML AVX intrinsics support for x86 architectures VSX intrinsics support for POWER architectures Mixed F16 / F32 precision 4-bit and 5
- whisper
- C++
- speech
- 音声
- voice
- C
- AI
spaCyを使ってルールベースの記述をシンプルに！ - Qiita
- 41 users
- qiita.com/moriyamanaoto
- テクノロジー
- 2019/12/12
この記事は自然言語処理アドベントカレンダー 2019の12日目です。昨今自然言語処理界隈ではBERTを始めとする深層学習ベースの手法が注目されています。一方それらのモデルは計算リソースや推論速度の観点で制約が大きく、プロダクション運用の際は留意すべき事項を多く持ちます。（googleが検索にBERTを導入というニュースを見た時はとても驚きました）そこで本記事では自然言語処理タスクのシンプルかつ運用しやすい実装方法を考えていきます。実装にはpythonと以降説明するspaCyとGiNZAの2つのライブラリを使います。環境: ubuntu18.04 python 3.6.8 ライブラリインストールはpipから行います pip install spacy pip install "https://github.com/megagonlabs/ginza/releases/downlo
- spacy
- 自然言語処理
- NLP
- 機械学習
- python
- 言語処理
- deeplearning
性自認の法制化等についての４団体の共同声明｜女性スペースを守る会
- 41 users
- note.com/sws_jp
- 暮らし
- 2021/11/27
性自認の法制化等についての４団体の共同声明私たちは、それぞれ市井の女性を中心とする団体、性的指向・性同一性に対する理解の増進を図る同性愛者の団体、性・恋愛・ジェンダー少数当事者と理解者の相互交流の団体、そして性自認至上主義に疑問を呈する性的少数者と支持者の会です。私たちは、いわゆるＬＧＢＴ法、「性的指向および性自認の多様性に関する国民の理解の増進に関する法律」等を制定するか否か、そしてその内容の論議、一部の自治体で成立している条例や各行政部局の運用につき、性的指向等と性自認の多様性の理解が増進され尊重されるためにこそ、ここに次の通り声明を発します。記１立法や行政において、女性スペースでの女性の安心・安全という権利法益を守るための措置をされるよう、慎重な取り扱いを求めます。性的指向等と性自認（ジェンダー・アイデンティティ、性同一性）の多様性の理解は増進され尊重されなければなりませ
- 性
2020年機械学習総まとめ興味深い論文/記事85選｜akiraTOSEI
- 41 users
- note.com/akira_tosei
- テクノロジー
- 2020/12/20
この記事では、2020年に発表された論文や記事のうち、特に興味深かったものを合計85紹介します。下記12のトピックに分けて紹介していますが、あくまで便宜上の分類です。私の個人的な2020年総括は以下の通りです。 --------------------- 個人的2020年総まとめと所感 --------------------- 2020年はTransformerが大躍進しました。自然言語処理では大規模なTransformerモデルであるGPT-3が高い精度を多くのタスクで叩き出しています。大量のデータと大量のパラメータを使って画像分類でも最高精度であったBig Transferを超えるものが出てきています。差別的要素や著作権の問題のないフラクタル画像データセットはAIの倫理がさらに重視されるであろう今後は、非常に重要なものになってくるかもしれません。ImageNetにアクセスでき
イスラエル当局が「Googleフォト」等を利用してパレスチナ人の大規模監視を行っていたことが明らかに
- 41 users
- gigazine.net
- テクノロジー
- 2024/03/28
イスラエルの軍事諜報部門がガザ地区で実験的な顔認識プログラムを展開し、人工知能プログラムを用いて指名手配犯を捜索していることが明らかになりました。軍は民間企業の技術のほか、Googleフォトも利用していると報じられています。 Israel Deploys Expansive Facial Recognition Program in Gaza - The New York Times https://www.nytimes.com/2024/03/27/technology/israel-facial-recognition-gaza.html 2024年3月27日、ガザ地区から出ようとして突然拘束されてしまったパレスチナ人のエピソードをニューヨーク・タイムズが報じました。報道によると、イスラエル軍は顔認識技術を導入した監視システムを導入しており、人工知能プログラムによって誤って無関係な人
goによるOCRエンジン実行のまとめ - freee Developers Hub
- 41 users
- developers.freee.co.jp
- テクノロジー
- 2019/12/11
会計フリー周りのエンジニアをしているよーだ（@rtryoda）です。この記事は freee Developers Advent Calendar 2019 の11日目です。最近各ベンダーやOSSのOCRエンジンをgoで触る機会があったので、実行方法と結果をまとめました。 OCRとは OCRとは光学的文字認識（Optical Character Recognition）のことで、画像などに記されている文字を読み取りテキストデータに変換することです。例えば以下のような画像に対してOCRを実行すると"あいうえお 12345"と認識されることを期待します。 ※各OCRの実行にはこちらの画像を使用します。今回試すOCRエンジン一覧 OCRエンジン日本語対応クライアントライブラリ(go) Google Cloud Vision API ○ googleapis/google-cloud-go A
- ocr
- あとで読む
- golang
- go
- API
- google
スマホの充電器から“人間のような音声”を発声、音声アシスタントにこっそり入力するサイバー攻撃
- 40 users
- www.itmedia.co.jp
- テクノロジー
- 2023/05/23
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: ＠shiropen2 中国の上海交通大学と浙江大学の研究者らが発表した論文「Remote Attacks on Speech Recognition Systems Using Sound from Power Supply」は、遠隔から操作してスマートフォンの充電器などから人間のような音声を発声させ、音声アシスタントを攻撃する研究報告である。スマートフォンの充電器やノートPC用アダプター、デスクトップPC、液晶テレビなど、さまざまな電化製品には、スイッチング電源（SMPS、Switched-Mode Power Supply）という安定した直流電流を供給するための電源装
OpenAIの音声認識モデルWhisperを利用し音声からテキストを書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリース。
- 40 users
- applech2.com
- テクノロジー
- 2023/02/03
OpenAIの音声認識モデルWhisperを利用し音声をテキストへ書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリースされています。詳細は以下から。 ChatGPTやGPT-3などを開発しているOpenAIは2022年09月、Web上から収集した68万時間にも及ぶ音声データを利用し学習させた自動音声認識(ASR: Automated speech recognition)システムWhisperを公開しましたが、その音声認識モデルを利用して音声ファイルをテキストへ変換(書き起こし)してくれるMacアプリ「MacWhisper (Whisper Transcription)」が新たにリリースされています。 Quickly and easily transcribe audio files into text with OpenAI’s
- Whisper
- AI
- OpenAI
- mac
- audio
- あとで読む
- 人工知能
- idea
The Development of the C Language
- 40 users
- cm.bell-labs.co
- テクノロジー
- 2023/09/09
The Development of the C Language* Dennis M. Ritchie Bell Labs/Lucent Technologies Murray Hill, NJ 07974 USA dmr@bell-labs.com ABSTRACT The C programming language was devised in the early 1970s as a system implementation language for the nascent Unix operating system. Derived from the typeless language BCPL, it evolved a type structure; created on a tiny machine as a tool to improve a meager progr
機械学習と公平性
- 40 users
- ai-elsi.org
- テクノロジー
- 2020/01/23
1 2 3 4 The field of study that gives computers the ability to learn without being explicitly programmed. — A. L. Samuel ※ Programming computers to learn from experience should eventually eliminate the need for much of this detailed programming effort. — A. L. Samuel [Samuel 59] The field of machine learning is concerned with the question of how to construct computer programs that automatically im
機械学習で実現するヤフーのOCR（文字認識技術）〜 PayPayフリマ本棚出品での活用事例
- 39 users
- techblog.yahoo.co.jp
- テクノロジー
- 2022/10/03
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーで画像処理エンジニアをしている吉橋です。この記事ではヤフーのさまざまなサービスで使われている独自の画像文字認識（OCR）技術と、特に最近のPayPayフリマ「本棚一括持ち物追加機能」での活用事例をご紹介します。画像文字認識とは皆さん、ウェブサイトを見ていて「このキーワード気になるな……よしコピーしてヤフーで検索してみよう！　と思ったらこれ画像じゃん、コピーできないよ……」なんて困ったことはありませんか？ウェブで私たちが目にする情報は“テキスト”と“画像”の2種類が主なものです。テキスト：文字列としての情報を保持したデータであり、コピーやウェブ検索に利用したり解析したり、容易に活用できます。画像データ：
- OCR
- 機械学習
- あとで読む
- dev
- 画像