並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 1776件

新着順 人気順

recognitionの検索結果121 - 160 件 / 1776件

  • 固有表現抽出のアノテーションデータについて - NLP太郎のブログ

    自然言語処理技術のなかでも固有表現抽出(Named Entity Recognition; NER)は情報抽出の処理をやろうとするときにとても役立つ。 応用は幅広く、会社名や個人名などの情報抽出処理、個人情報除去などのような抽出した情報に対する処理、代名詞の解析(照応解析・共参照解析)のような文脈解析処理などに用いられる。 最も簡単なNERの方法としては、辞書や形態素解析結果や正規表現などに基づくルールを用いて、単語列にラベリングする方法があるが、会社名など判断が難しいケースについては機械学習によってNERを行うことが有効なことが多い。機械学習ベースの既存の固有表現抽出器を使ってみたい場合には、GiNZAやKNPのようなNERモデルが同梱されているツールを使用してみるのがよい。 しかし公開モデルの性能では満足いかない場合に自分でモデルを構築しようとしても、公開データセットが見つけにくかった

      固有表現抽出のアノテーションデータについて - NLP太郎のブログ
    • PyTorch vs TensorFlow in 2023

      Should you use PyTorch vs TensorFlow in 2023? This guide walks through the major pros and cons of PyTorch vs TensorFlow, and how you can pick the right framework. PyTorch and TensorFlow are far and away the two most popular Deep Learning frameworks today. The debate over which framework is superior is a longstanding point of contentious debate, with each camp having its share of fervent supporters

        PyTorch vs TensorFlow in 2023
      • 【React/Python】2年がかりで完成した個人開発サービスの話【ChatGPT】 - Qiita

        個人開発でサービスを作り始めて、気がついたら2年も経っていました。 気軽な気持ちで作り始めたのですが、思いの外色々なことに手を出してしまったので、 利用した技術などをまとめてみます。 作ったもの YouTubeのライブ配信風の画面に向かって話しかけると、 音声を認識してAIがスーパーチャットを送ってくれる、 その名も「AIスパチャ」です。 良かったら遊んでみてください。 作るきっかけ YouTubeでひろゆき氏の配信を見ていた時に、 「私もひろゆきさんみたいに質問回答の配信をやってみたいです。 けれどいざ配信をしてみても視聴者が少なく、質問なんて全くきません」 といった質問がありました。 確かに、ひろゆき氏のように、何千人も視聴者がいて、ガンガンとスパチャが送られてきたらそりゃ楽しいですが、 普通の人はまずスパチャなんて送られません。 そもそも実際にYouTubeライブをやることのハードル

          【React/Python】2年がかりで完成した個人開発サービスの話【ChatGPT】 - Qiita
        • OKR運用を1年間やりきって見えた成功と失敗のふりかえり - Speee DEVELOPER BLOG

          デジタルトランスフォーメーション(DX)事業本部でPMをしています、渡邊です。 1年ぐらいOKRを運用し続けていろいろ経験できたので、失敗パターンの紹介とうまくいったケースの工夫した点について紹介します。 OKRを始めて見たけど、運用がしっくりこないという方にとっての一助になれば幸いです。 Agenda OKRとは OKR本の「よくある失敗事例」と比較してみた 成功ケースから振り返るOKR運用の5つのポイント OKRとは? Objectives and Key Resultsの略称です。目標達成や評価のフレームワークとして、言葉を耳にしたことがある方も多いのではないでしょうか? 昨年4月に発売された以下の書籍(以下OKR本)がきっかけで弊社でも有志を中心に実施される運びとなり、今は全社での導入が進んでいる状態です。 OKR(オーケーアール) 作者: クリスティーナ・ウォドキー出版社/メーカ

            OKR運用を1年間やりきって見えた成功と失敗のふりかえり - Speee DEVELOPER BLOG
          • NVIDIAがテキストから高解像度の映像を生成するAIモデル「VideoLDM」を発表

            NVIDIAが、アメリカのコーネル大学と共同で開発したAIモデル「Video Latent Diffusion Model(VideoLDM)」を発表しました。VideoLDMは、テキストで入力した説明に基づき、最大2048×1280ピクセルの解像度、24fpsの動画を最長4.7秒生成することができます。 Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models https://research.nvidia.com/labs/toronto-ai/VideoLDM/ NVIDIA Introduces AI That Generates High-resolution Videos Based On Text Descriptions - Tech News Space https:/

              NVIDIAがテキストから高解像度の映像を生成するAIモデル「VideoLDM」を発表
            • ぼやけた顔写真から最大64倍鮮明な画像を生成するAIツールを開発、デューク大研究チーム

              デューク大学の研究チームは、ぼやけて被写体が特定できない顔写真から、これまでの方法よりも精細な、極めて本物に近い画像をコンピュータで生成できるAIツール「PULSE」(Photo Upsampling via Latent Space Exploration)を開発した。 研究チームは、2020年6月14~19日の会期でオンラインで開催中の2020 Conference on Computer Vision and Pattern Recognition(CVPR)で、PULSEのプレゼンテーションを行った。 これまでの方法では、顔写真の解像度は最大8倍にしか高めることができなかった。デューク大学のチームは少数のピクセルからなる顔写真画像の解像度を最大64倍に高める方法を考案した。 研究チームを率いたデューク大学のコンピュータ科学者シンシア・ルーディン氏は「このような低解像度の画像を用いて

                ぼやけた顔写真から最大64倍鮮明な画像を生成するAIツールを開発、デューク大研究チーム
              • 最初期の絵文字セットが1988年のシャープ製電子手帳から発見される

                絵文字は英語でも「emoji」と呼ばれている通り、日本発祥の文化という説が有力です。新たに1988年に生産された日本の電子手帳から「最初期の絵文字」が発見されました。 Emoji history: the missing years  ⌘I  Get Info https://blog.gingerbeardman.com/2024/05/10/emoji-history-the-missing-years/ New Earliest Emoji Sets From 1988 & 1990 Uncovered https://blog.emojipedia.org/new-earliest-emoji-sets-from-1988-and-1990-uncovered/ 絵文字文化の起源には多様な説があり、中でも「1999年のNTTドコモによるiモード開発が切っ掛けで誕生した」という説が広

                  最初期の絵文字セットが1988年のシャープ製電子手帳から発見される
                • AmazonやAppleの音声認識アルゴリズムに「黒人の声を上手く聞き取ることができない」問題があると研究者が指摘

                  音声認識アルゴリズムはスマートスピーカーやスマートフォンなど、さまざまなデバイスやアプリケーションに採用されており、もはや日常の一部となっています。ところが、AppleやAmazon、Google、IBM、Microsoftなどの音声認識アルゴリズムを使った実験で、「音声認識アルゴリズム白人の声と比較して黒人の声を上手く認識できない」問題があることが判明しました。 Racial disparities in automated speech recognition | PNAS https://www.pnas.org/content/117/14/7684 There Is a Racial Divide in Speech-Recognition Systems, Researchers Say - The New York Times https://www.nytimes.com/

                    AmazonやAppleの音声認識アルゴリズムに「黒人の声を上手く聞き取ることができない」問題があると研究者が指摘
                  • GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics

                    こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。 検証では、日本語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。 また、手書き・活字での違いも見ていきましょう。 一番簡単に試せるChatGPT(Web版)でOCRをさせようとするとエラーになることが多かったので、 ここではAPIを使っていくこととします。 APIを呼び出すプログラム 以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。 画像は個人のgithu

                      GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
                    • ユーザーインタフェースデザインのための10ユーザビリティヒューリスティックス

                      ヤコブ・ニールセンのインタラクションデザインのための一般的な原則。これらの原則は幅広い経験則であり、具体的なユーザビリティガイドラインではないため、「ヒューリスティックス」という。 10 Usability Heuristics for User Interface Design by Jakob Nielsen on November 15, 2020 日本語版2021年4月12日公開 この記事の最後で、ヤコブの10ユーザビリティヒューリスティックスの無料ポスター(英語)をダウンロードできる。 1.  システム状態の視認性 デザインは、妥当な時間内に適切なフィードバックを通じて、今、何が起こっているのかを絶えずユーザーに知らせる必要がある。 ユーザーが現在のシステムの状態を把握できれば、彼らは自分がそれまでに行ったインタラクションの結果を知り、次のステップを決定することができる。予測可能

                        ユーザーインタフェースデザインのための10ユーザビリティヒューリスティックス
                      • カメラにシールを貼るだけでディープラーニングを誤認識させる攻撃方法が登場

                        3つの要点 ✔️カメラにシールを貼るだけでディープラーニングを誤認識させることが可能になった ✔️対象物を異なる角度や距離で撮影しても誤認識させられることを動画データで検証 ✔️顔認証用のカメラにシールを貼っておくことでシステムに気づかれずに他人になりすましたりできてしまうかもしれない ディープラーニングによる画像分類は高い性能を誇りますが、画像に摂動を加えるだけで、人間の目ではほぼ違いがないのにディープラーニングが他のカテゴリであると誤認識してしまう adversarial attack という攻撃方法が知られています。 この adversarial attack にどのように対応するかは、実世界でディープラーニングを含んだシステムを運用していく上で重要になるだけでなく、人間の認識とディープラーニングによる認識の違いを理解するのにも重要であり、一つの大きな研究テーマにもなっています。 こ

                        • ネコは「自分の名前」も「飼い主の声」も分かっていてあえて無視している - ナゾロジー

                          ネコは飼い主が名前を呼んでも反応しないことが多いです。 これは、飼い主の声や自分の名前が分かっていないからなのでしょうか? 近年の日本の研究によって、実はネコは「飼い主の声」も「自分の名前」も分かっていたと判明しました。 ネコはあえて飼い主の呼び声を無視していたのです。 ツレない猫、答えないけど飼い主の声聞き分ける。科学的に証明 https://www.u-tokyo.ac.jp/focus/ja/press/p01_250327_02.html ネコは自分の名前を聞き分ける~ヒトの発する「自分の名前」と「他の名詞」や「同居ネコの名前」を区別する能力を実験的に証明~ https://www.sophia.ac.jp/jpn/news/PR/press0405.html Vocal recognition of owners by domestic cats (Felis catus) ht

                            ネコは「自分の名前」も「飼い主の声」も分かっていてあえて無視している - ナゾロジー
                          • 道端の花の名前を調べる散歩が楽しくなるiPhoneアプリ「ハナノナ」 #ハナノナ #hananona - I AM A DOG

                            お花の話題が続きますが、先日妻に面白そうなiPhone用アプリを教えて貰いました。 その名は「ハナノナ」、人工知能によりカメラが捉えた花の名前を判定するアプリです。 ハナノナ app Chiba Institute of Technology写真/ビデオ無料 そもそも「ハナノナ」は千葉工業大学 ステアラボ(人工知能・ソフトウェア技術研究センター)が開発した、ディープラーニングにより花の名前を判別する人工知能の名称だそう。WEBサービス版が2017年に公開されていて、それを元にiPhoneアプリ版(ハナノナ app)として開発されたようです 人工知能花分類システム ハナノナ – Surface & Architecture Hananona - Flower Recognition Service - STAIR Lab. 今まで買ってきた花の名前を調べるのに[Googleフォト]アプリ内の

                              道端の花の名前を調べる散歩が楽しくなるiPhoneアプリ「ハナノナ」 #ハナノナ #hananona - I AM A DOG
                            • DEEP LEARNING · Deep Learning

                              Description This course concerns the latest techniques in deep learning and representation learning, focusing on supervised and unsupervised deep learning, embedding methods, metric learning, convolutional and recurrent nets, with applications to computer vision, natural language understanding, and speech recognition. The prerequisites include: DS-GA 1001 Intro to Data Science or a graduate-level

                              • カリコー・カタリン - Wikipedia

                                カリコー・カタリン(Karikó Katalin, [ˈkɒrikoː ˌkɒtɒlin], 1955年1月17日 - )は、アメリカ合衆国在住のハンガリー人生化学者。ビオンテック上席副社長。RNAの修飾機構を専門とし、ガラス管内で修飾させたmRNAを用いて蛋白質療法への応用を研究する。RNARx社の共同創業者でCEOを務め(2006年–2013年[1])、2013年よりビオンテックの重役を歴任し上級副社長(Senior Vice President)、またペンシルベニア大学の非常勤准教授職(客員教授)にある[1][2]。 ハンガリーとアメリカの二重国籍(アメリカ籍は1999年に取得)[注釈 1]。ハンガリーのソルノク県(現在のヤース・ナジクン・ソルノク県)ソルノク市出身。姓は「カリコー」と伸ばすが日本では英語からカリコと短母音で表記したり[3]、名前のカタリンを英語風にケイトと表記したり

                                  カリコー・カタリン - Wikipedia
                                • 精度の高い日本語OCRを実現する技術 LINE BRAIN OCRのパイプラインを解説

                                  日本語におけるOCR Hwalsuk Lee氏:ここまでテキスト検出のお話をしてまいりました。これからは日本語におけるテキスト認識についてお話ししようと思います。 先ほど言いましたように、日本語というのはテキスト認識において、英語に比べると何百倍ものたくさんの文字を扱う必要があります。 そのため、たくさんのテキスト認識の論文を検証いたしました。 Scene Text Recognition(STR)とは何でしょうか? STRというのは、文字列を画像パッチ入力から認識するタスクです。 この場合は「UNITED」という文字列を認識するということになります。 STRについてはこれまでいろいろな研究がされてきました。ですが我々がその評価内容を見たとき、たくさんの問題を発見しました。STR手法の比較においてどんな問題があるのでしょうか。 こちらは先行研究の手法のリストです。このリストをご覧いただくと

                                    精度の高い日本語OCRを実現する技術 LINE BRAIN OCRのパイプラインを解説
                                  • GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga

                                    Optical character recognition for Japanese text, with the main focus being Japanese manga. It uses a custom end-to-end model built with Transformers' Vision Encoder Decoder framework. Manga OCR can be used as a general purpose printed Japanese OCR, but its main goal was to provide a high quality text recognition, robust against various scenarios specific to manga: both vertical and horizontal text

                                      GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga
                                    • 機械学習を使ってUIを補完するAppleの研究の紹介 - dely Tech Blog

                                      TRILL開発部のiOSエンジニアの石田です。 今年もdelyではアドベントカレンダーを行っており、本記事はその2日目の記事となっています。 昨日の1日目の記事は奥原さん (@okutaku0507) の「プロダクトマネージャー3年目の教科書」という記事でした。delyのエースPdMである奥原さんによる大作となっていますので是非ご覧ください。 本記事では、機械学習を使ってUIを補完するAppleの研究について紹介します。 AppleはMachine Learning Researchで機械学習に関する様々な研究を発表しています。 その多くはコンピュータビジョンや音声・テキスト認識のような研究なのですが、機械学習xUIという研究も行っております。 本記事ではその中でも、アプリのスクリーンショット(画像)から機械学習を使ってUIコンポーネントを認識し、アクセシビリティ機能を補完するMaking

                                        機械学習を使ってUIを補完するAppleの研究の紹介 - dely Tech Blog
                                      • AIはレントゲン写真から人種を90%の確率で見分けられる、ただし見分け方は不明

                                        人間の医師にとって、肌の色などがわからないレントゲン写真から患者の人種を見分けることは困難ですが、新たに医学誌のThe Lancet Digital Healthに発表された論文で、「AIは胸部X線画像から人種を90%の精度で見分けられる」ことが示されました。研究者らはAIが人種を見分ける方法についても調べましたが、今のところAIがどうやって人種を判別しているのかは不明とのことです。 AI recognition of patient race in medical imaging: a modelling study - The Lancet Digital Health https://www.thelancet.com/journals/landig/article/PIIS2589-7500(22)00063-2/fulltext MIT, Harvard scientists f

                                          AIはレントゲン写真から人種を90%の確率で見分けられる、ただし見分け方は不明
                                        • Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ

                                          初めまして。機械学習エンジニアの島越@nt_4o54です。現在はMLチームで日々、バクラクシリーズで用いられているAI-OCR機能の改善や新規機能の開発などを行なっています。 7月はLayerXエンジニアブログを活発にしよう月間ということで、自分からは表題にもある通り、「Document AI」と呼ばれる技術についての紹介と、またLayerXにおいてどういう応用先があるのかというお話をさせていただこうと思います。 ※ 同名のDocument AIというGCPのサービスがありますが、今回は一般的なDocument AIの話になります。 Document AIとは Document AIに用いられる技術 Optical Character Recognition (OCR) Document Classification Layout Analysis Document Parsing Tab

                                            Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ
                                          • Introducing Whisper

                                            Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web. We show that the use of such a large and diverse dataset leads to improved robustness to accents, background noise and technical language. Moreover, it enables transcription in multiple languages, as well as translation from those languages into Eng

                                              Introducing Whisper
                                            • Grad-CAMだけじゃない画像認識におけるCAM手法を徹底解説 - ABEJA Tech Blog

                                              長期インターン生の木村です。 今回、以前から興味を持っていた画像認識モデルにおける説明可能なAIのクラス活性化マッピング手法を調査してみました。 説明可能なAIとは 近年、深層学習ベースの画像認識モデルは製造業、医療、自動運転など至る場面で社会実装が進められていますが、ディープなラーニングを行っているだけに推論の判断根拠を人間が解釈できない問題があります。医療、自動運転のような命に関わる領域では安全性や公平性を担保できないために安心して導入できません。 このような問題を解決するのが「説明可能なAI(XAI)」です。 「説明可能なAI(XAI)」は、AIの推論結果を人間が解釈可能な形で出力する技術を指します。例えば、犬と猫が映っている画像を画像分類するAIが犬と推論した場合、モデルがどこを判断根拠としているかをヒートマップで可視化します。このヒートマップは、「顕著性マップ」と呼ばれます。 画

                                                Grad-CAMだけじゃない画像認識におけるCAM手法を徹底解説 - ABEJA Tech Blog
                                              • spaCyを使ってルールベースの記述をシンプルに! - Qiita

                                                この記事は自然言語処理アドベントカレンダー 2019の12日目です。 昨今自然言語処理界隈ではBERTを始めとする深層学習ベースの手法が注目されています。 一方それらのモデルは計算リソースや推論速度の観点で制約が大きく、プロダクション運用の際は留意すべき事項を多く持ちます。 (googleが検索にBERTを導入というニュースを見た時はとても驚きました) そこで本記事では自然言語処理タスクのシンプルかつ運用しやすい実装方法を考えていきます。 実装にはpythonと以降説明するspaCyとGiNZAの2つのライブラリを使います。 環境: ubuntu18.04 python 3.6.8 ライブラリインストールはpipから行います pip install spacy pip install "https://github.com/megagonlabs/ginza/releases/downlo

                                                  spaCyを使ってルールベースの記述をシンプルに! - Qiita
                                                • 2020年機械学習総まとめ 興味深い論文/記事85選|akiraTOSEI

                                                  この記事では、2020年に発表された論文や記事のうち、特に興味深かったものを合計85紹介します。下記12のトピックに分けて紹介していますが、あくまで便宜上の分類です。私の個人的な2020年総括は以下の通りです。 ---------------------   個人的2020年総まとめと所感  --------------------- 2020年はTransformerが大躍進しました。自然言語処理では大規模なTransformerモデルであるGPT-3が高い精度を多くのタスクで叩き出しています。大量のデータと大量のパラメータを使って画像分類でも最高精度であったBig Transferを超えるものが出てきています。 差別的要素や著作権の問題のないフラクタル画像データセットはAIの倫理がさらに重視されるであろう今後は、非常に重要なものになってくるかもしれません。ImageNetにアクセスでき

                                                    2020年機械学習総まとめ 興味深い論文/記事85選|akiraTOSEI
                                                  • イスラエル当局が「Googleフォト」等を利用してパレスチナ人の大規模監視を行っていたことが明らかに

                                                    イスラエルの軍事諜報部門がガザ地区で実験的な顔認識プログラムを展開し、人工知能プログラムを用いて指名手配犯を捜索していることが明らかになりました。軍は民間企業の技術のほか、Googleフォトも利用していると報じられています。 Israel Deploys Expansive Facial Recognition Program in Gaza - The New York Times https://www.nytimes.com/2024/03/27/technology/israel-facial-recognition-gaza.html 2024年3月27日、ガザ地区から出ようとして突然拘束されてしまったパレスチナ人のエピソードをニューヨーク・タイムズが報じました。報道によると、イスラエル軍は顔認識技術を導入した監視システムを導入しており、人工知能プログラムによって誤って無関係な人

                                                      イスラエル当局が「Googleフォト」等を利用してパレスチナ人の大規模監視を行っていたことが明らかに
                                                    • goによるOCRエンジン実行のまとめ - freee Developers Hub

                                                      会計フリー周りのエンジニアをしているよーだ(@rtryoda)です。この記事は freee Developers Advent Calendar 2019 の11日目です。最近各ベンダーやOSSのOCRエンジンをgoで触る機会があったので、実行方法と結果をまとめました。 OCRとは OCRとは光学的文字認識(Optical Character Recognition)のことで、画像などに記されている文字を読み取りテキストデータに変換することです。例えば以下のような画像に対してOCRを実行すると"あいうえお 12345"と認識されることを期待します。 ※各OCRの実行にはこちらの画像を使用します。 今回試すOCRエンジン一覧 OCRエンジン 日本語対応 クライアントライブラリ(go) Google Cloud Vision API ○ googleapis/google-cloud-go A

                                                        goによるOCRエンジン実行のまとめ - freee Developers Hub
                                                      • GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++

                                                        Stable: v1.5.4 / Roadmap | F.A.Q. High-performance inference of OpenAI's Whisper automatic speech recognition (ASR) model: Plain C/C++ implementation without dependencies Apple Silicon first-class citizen - optimized via ARM NEON, Accelerate framework, Metal and Core ML AVX intrinsics support for x86 architectures VSX intrinsics support for POWER architectures Mixed F16 / F32 precision 4-bit and 5

                                                          GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++
                                                        • スマホの充電器から“人間のような音声”を発声、音声アシスタントにこっそり入力するサイバー攻撃

                                                          Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 中国の上海交通大学と浙江大学の研究者らが発表した論文「Remote Attacks on Speech Recognition Systems Using Sound from Power Supply」は、遠隔から操作してスマートフォンの充電器などから人間のような音声を発声させ、音声アシスタントを攻撃する研究報告である。 スマートフォンの充電器やノートPC用アダプター、デスクトップPC、液晶テレビなど、さまざまな電化製品には、スイッチング電源(SMPS、Switched-Mode Power Supply)という安定した直流電流を供給するための電源装

                                                            スマホの充電器から“人間のような音声”を発声、音声アシスタントにこっそり入力するサイバー攻撃
                                                          • OpenAIの音声認識モデルWhisperを利用し音声からテキストを書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリース。

                                                            OpenAIの音声認識モデルWhisperを利用し音声をテキストへ書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリースされています。詳細は以下から。 ChatGPTやGPT-3などを開発しているOpenAIは2022年09月、Web上から収集した68万時間にも及ぶ音声データを利用し学習させた自動音声認識(ASR: Automated speech recognition)システムWhisperを公開しましたが、その音声認識モデルを利用して音声ファイルをテキストへ変換(書き起こし)してくれるMacアプリ「MacWhisper (Whisper Transcription)」が新たにリリースされています。 Quickly and easily transcribe audio files into text with OpenAI’s

                                                              OpenAIの音声認識モデルWhisperを利用し音声からテキストを書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリース。
                                                            • 固有表現抽出APIを使ってニュースの場所や時間などの情報を抜き出す - Qiita

                                                              概要 cotoha apiには固有表現抽出APIがあり、いつどこでみたいな情報が取れるらしい。 今回はTwitterのニュースから、いつ、誰がみたいな情報を抽出した。 抽出例 こんな感じの情報がとれました。 アメリカの俳優のキャメロン・ボイスさんが20歳で亡くなりました。 APIの詳細 固有表現抽出APIは、入力として日本語で記述された文を受け取り、人名や地名、日付表現(時間、日付)、組織名、量的表現(金額、割合)、人工物の8種類の固有表現と、200種類以上のクラス数を持つ拡張固有表現を出力します。 (https://api.ce-cotoha.com/contents/reference.html#api-Ne から引用) 入力文に対し、固有表現クラスがつけられ、存在すればより詳細な拡張固有表現クラスが付与される。 例えば、「俳優」に対しては固有表現でART、拡張固有表現でPositio

                                                                固有表現抽出APIを使ってニュースの場所や時間などの情報を抜き出す - Qiita
                                                              • 機械学習と公平性

                                                                1 2 3 4 The field of study that gives computers the ability to learn without being explicitly programmed. — A. L. Samuel ※ Programming computers to learn from experience should eventually eliminate the need for much of this detailed programming effort. — A. L. Samuel [Samuel 59] The field of machine learning is concerned with the question of how to construct computer programs that automatically im

                                                                • The Development of the C Language

                                                                  The Development of the C Language* Dennis M. Ritchie Bell Labs/Lucent Technologies Murray Hill, NJ 07974 USA dmr@bell-labs.com ABSTRACT The C programming language was devised in the early 1970s as a system implementation language for the nascent Unix operating system. Derived from the typeless language BCPL, it evolved a type structure; created on a tiny machine as a tool to improve a meager progr

                                                                  • 機械学習で実現するヤフーのOCR(文字認識技術)〜 PayPayフリマ 本棚出品での活用事例

                                                                    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーで画像処理エンジニアをしている吉橋です。この記事ではヤフーのさまざまなサービスで使われている独自の画像文字認識(OCR)技術と、特に最近のPayPayフリマ「本棚一括持ち物追加機能」での活用事例をご紹介します。 画像文字認識とは 皆さん、ウェブサイトを見ていて「このキーワード気になるな……よしコピーしてヤフーで検索してみよう! と思ったらこれ画像じゃん、コピーできないよ……」なんて困ったことはありませんか? ウェブで私たちが目にする情報は“テキスト”と“画像”の2種類が主なものです。 テキスト: 文字列としての情報を保持したデータであり、コピーやウェブ検索に利用したり解析したり、容易に活用できます。 画像データ:

                                                                      機械学習で実現するヤフーのOCR(文字認識技術)〜 PayPayフリマ 本棚出品での活用事例
                                                                    • 【初学者必見】 CNN の過去のモデルから紐解いて学ぶと理解が深まった話 - Qiita

                                                                      はじめに はじめまして。株式会社キカガクの河原です。 キカガクは、「AI を含めた先端技術の研修」を行っている会社です。 さっそくですが、CNN の構造ってどのように決めるのか、難しいと感じた方も多いのではないでしょうか。 フィルタのサイズは、なぜ $3\times3$ が多いのか Convolution と Pooling は何回繰り返したらいいのか Convolution を何度も繰り返すと、計算量膨大になるのでは みなさん、様々な疑問を抱いてるかと思います。 私自身、学び初めの頃は、どのように CNN のアーキテクチャを構成すればいいのか、理解出来ずにいました。 そこで、CNN の過去のモデルから紐解いて学ぶ事によって、上記の疑問が解消された背景から、本記事を書いていきます。 本記事を通して、皆様の抱いていた疑問が少しでも解消されれば幸いです。 本記事を参考にして欲しい方 ニューラル

                                                                        【初学者必見】 CNN の過去のモデルから紐解いて学ぶと理解が深まった話 - Qiita
                                                                      • 性自認の法制化等についての4団体の共同声明|女性スペースを守る会

                                                                        性自認の法制化等についての4団体の共同声明 私たちは、それぞれ市井の女性を中心とする団体、性的指向・性同一性に対する理解の増進を図る同性愛者の団体、性・恋愛・ジェンダー少数当事者と理解者の相互交流の団体、そして性自認至上主義に疑問を呈する性的少数者と支持者の会です。 私たちは、いわゆるLGBT法、「性的指向および性自認の多様性に関する国民の理解の増進に関する法律」等を制定するか否か、そしてその内容の論議、一部の自治体で成立している条例や各行政部局の運用につき、性的指向等と性自認の多様性の理解が増進され尊重されるためにこそ、ここに次の通り声明を発します。 記 1 立法や行政において、女性スペースでの女性の安心・安全という権利法益を守るための措置をされるよう、慎重な取り扱いを求めます。 性的指向等と性自認(ジェンダー・アイデンティティ、性同一性)の多様性の理解は増進され尊重されなければなりませ

                                                                          性自認の法制化等についての4団体の共同声明|女性スペースを守る会
                                                                        • 「前歯を舌でタップ」「舌をかむ」 VRヘッドセットを“舌操作” 米Microsoftが開発

                                                                          このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米ジョージア工科大学と米Microsoft Researchに所属する研究者らが発表した論文「TongueTap: Multimodal Tongue Gesture Recognition with Head-Worn Devices」は、VR/ARヘッドセットなどで、口を閉じたまま舌を使って操作するインタフェースに関する研究報告である。 頭部装着型デバイスにおける舌を使った操作は、ハンズフリーだけでなく、唇や顎を最小限に動かし、口を閉じたままで操作できる利点がある。外部から気付かれにくいため、公共の場でも使用しやすい。 しかし、過去の舌

                                                                            「前歯を舌でタップ」「舌をかむ」 VRヘッドセットを“舌操作” 米Microsoftが開発
                                                                          • 画像検索のwebアプリを雑に作ってみる - Re:ゼロから始めるML生活

                                                                            可愛かったのでアイキャッチ画像にしました ちょっと画像検索が必要になることがあり、良い機会なので復習しようということになりました。 過去にはこんなのをやってみたりしました。 www.nogawanogawa.com 今回は改めて、主にこちらの資料を参考に画像検索に関して復習してみました。 docs.google.com 今回はこちらを参考にアプリを作ってみたのでそのメモです。 画像検索 TBIRとCBIR CBIRの実現方法 画像検索として使用する特徴量 RGB Histgram Average Hash Perceptual Hash SIFT SURF NN Embedding 類似度の評価方式 Bag of keypoints Earth Mover's Distance SVM ハミング距離 コサイン類似度 要するに 作ってみる 対象画像 画面まわり 検索周り pHash - ハミ

                                                                              画像検索のwebアプリを雑に作ってみる - Re:ゼロから始めるML生活
                                                                            • Modern IDEs are magic. Why are so many coders still using Vim and Emacs? - Stack Overflow

                                                                              Developers are a finicky bunch. Like a dog refusing to walk on wet grass, there always seemed to be a bit of resistance to changing up a routine. We love what we grew up with, be it Star Trek jokes, Vim, or Emacs. The origins of this war harken back to Usenet groups in the 1980s, a time when Vi and Emacs were the primary tools used for coding. Emacs, as we well know, is a “maze of twisty little pa

                                                                                Modern IDEs are magic. Why are so many coders still using Vim and Emacs? - Stack Overflow
                                                                              • コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編) - NTT Communications Engineers' Blog

                                                                                目次 目次 はじめに 論文紹介 The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by Normalization OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic 3D Reconstruction EPro-PnP: Generalized End-to-End Probabilistic Perspective-N-Points for Monocular Object Pose Estimation Cascade Transformers for End-to-End Person Search TrackFormer: Multi-Object Tracking With Transformers Global T

                                                                                  コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編) - NTT Communications Engineers' Blog
                                                                                • UIデザインのための10のヒューリスティクスについて改めて考えてみた|i3DESIGN Designers

                                                                                  はじめにこんにちは。i3DESIGNデザイナーチームです。 「ユーザーインタフェースデザインのための10のユーザビリティヒューリスティクス(10 Usability Heuristics for User Interface Design)」をご存知ですか? https://www.nngroup.com/articles/ten-usability-heuristics/ 1994年にヤコブ・ニールセンによって提唱され、現在も多くのデザイナーが使用している、良いUIデザインの原則をまとめたリストのようなものです。 ヒューリスティック(heuristic)は、日本語では「発見的手法」と訳されます。これは、経験や先入観によって直感的に正解に近い答えを得ることができる、という思考法のことです。 ニールセン自身も、これは“経験則”であり、“ユーザビリティガイドライン”ではないとしています(上記U

                                                                                    UIデザインのための10のヒューリスティクスについて改めて考えてみた|i3DESIGN Designers