GitHub、数クリックで話題の生成AIモデルを試せる「GitHub Models」を発表:「全ての開発者がAIエンジニアになれる」 GitHubはAIアプリ開発支援サービスの「GitHub Models」を発表した。Microsoft、OpenAI、Meta、Mistralなどの人気のあるプライベートモデルやオープンモデルを数回のクリックとキー操作で実験、比較、テストできるという。
OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。 配信中のpodcast番組 白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。 最初に結論 インストール 実行方法 結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果 まとめ 追記 カタカナ英語 完全制覇 whisperくん せんでんせんでん 最初に結論 whisperは異なるモデルサイズが5種が利用可能であ
D.M.です。今回は RPA にて PDF を OCR で読み取る検証をしたお話です。 TL;DR ・実用性は AI OCR しか勝たん。 ・AI OCR は Google vs Microsoft の構図。 両者精度高。 ・Google も Microsoft も API に無料枠があり Python などのプログラムで連携できる。 ・Microsoft は有料の RPA 連携機能が超絶楽勝なのでコードを書かない前提ならこっちも選択肢。非エンジニアでも楽々自動化できる。 ※関連記事 AI OCR でクレカ読み取りをやっています。 スマホNativeアプリでクレジットカード番号の読み取り機能の技術検証結果まとめ https://recruit.gmo.jp/engineer/jisedai/blog/technical_review_ocr_solutions_on_auto_detect
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く