2021年3月3日にリリースされたデスクトップ版Google Chrome 89の安定版で、ブラウザ上で再生される音声やムービーからリアルタイムで字幕を生成する「自動字幕起こし」機能が追加されたことが明らかになったので、実際にどんな感じなのか使ってみました。 Google's Live Caption feature rolling out for Chrome desktop users https://www.xda-developers.com/google-chrome-live-caption-feature-rolls-out-transcribe-speech-videos/ Google's Live Caption is now rolling out to Chrome on desktop | Android Central https://www.androidce
はじめに みなさん、こんにちは。高校生エンジニアのRaioです! 平日は公立高校に通いながら、放課後や休日はIT企業のエンジニアとして働いています🧑🏻💻 ↓筆者について↓ 今回の記事では、0円で読めるPythonの技術書5選を紹介します! 無料で読む方法も紹介してるので、是非最後まで見て頂けると幸いです👍🏻 技術書を無料で読む方法 KindleUnlimitedを使うことで、沢山の技術書を無料で何冊でも読むことが可能です🙌 200万冊以上の書籍が何冊でも読み放題 月額980円が今なら1ヶ月無料 場所に囚われず、様々な端末で使用可能 勿論、技術書以外にもビジネス書や漫画など種類豊富です! 今回の記事で紹介する技術書も、KindleUnlimitedで読むことができるので是非🥳 ↓入会したい方は画像をクリック↓ Python×Excelで作る かんたん自動化ツール 本書では、プ
SkyWay ConferenceはSkyWayを利用したのブラウザ上で動作するWeb会議デモアプリです。OSSとして公開されています。 今回はSkyWay Confを改造して文字起こし機能をつけてみました! Web会議アプリに文字起こし機能がついてると、出先でイヤホンを忘れてもなんとかなるかもしれません。 議事録も自動で出来て素晴らしいですね。 左上の窓で文字起こし関連の操作が出来て、画面中央下部に書き起こされた文字が表示されるようにしました。 できたもの まずデモアプリはこちら。Chromeで開いてください! 文字起こし機能つきSkyWay Confのデモページ https://shinyoshiaki.github.io/skyway-conf ソースコードなど 文字起こし機能つきSkyWay Confのソースコード https://github.com/shinyoshiaki/s
デジタルプロダクション「factory4」でアプリやさまざまなIoTプロジェクトのUIUXデザインを手がける新谷友樹さんが、UIやUXにまつわるトピックについて解説する本連載。今回のテーマは「GPT4oを活用したウェブサイトづくり」です。 こんにちは!株式会社Cosmowayが組織するデジタルプロダクション「factory4」のUIUXデザイナー新谷です。 今回は先日OpenAIが発表した新たなAIモデル「GPT-4o」を使ってウェブサイト(LP)を作成してみました。GPT-4oのパフォーマンスを知ること、そしてデザイナーが生成AIとどう関わっていくべきかを探るきっかけにすることが、今回の目的です。 前提として「GPT-4o」がゼロベースでウェブページを作成することに向いているツールではないと思いますが、チュートリアルの要素と今後の可能性を知るためにあえて取り組んでみました。 GPT-4o
2019年も様々なデータサイエンス関連のコンペが実施され、論文が発表されました。その中でも面白かったものはどれか、5人のkagglerの方に直接お伺いしました。 2019年はTellusxSIGNATEで実施された衛星データコンペの解説(第1回・第2回)が、データサイエンティストの方に読んでいただいた宙畑のヒット記事としてランクイン。 では、データサイエンティストの方は他にどのようなコンペや論文に興味を持たれていたのか……と気になった宙畑編集部。 今回、以下5名のKagglerの方に協力いただき、2019年の振り返りとして面白かったコンペと論文、そしてその理由を教えていただきました。 あきやま様(@ak_iyama) jsato様(@synapse_r) Hiroki Yamamoto様(@tereka114) smly様(@smly) ※順不同 ※1名、非公表 Kaggleについては「世
こんにちは、2z(Twitter: @2zn01 )です。 趣味でWebサービスの個人開発をしており、以下のサービスを開発・運営しています! ■AIメーカー https://aimaker.io/ → 誰でも簡単にAIを作れるサービス ■ツイレポ https://twirepo.com/ → キーワードで話題のツイートを自動で収集したり、自動でリツイート・フォローができるサービス ■文字起こすくん https://text.aimaker.io/recognize-bot/ → 画像、音声、動画をアップするだけで簡単に文字起こし・書き起こしできるサービス 今回作ったもの 動画をアップロードするだけで、動画内の音声を認識して文字起こしを行い、自動で動画に字幕・テロップをつけてくれる「テロップメーカー」というサービスをリリースしました! ■URL https://text.aimaker.io
5月17日、ドワンゴがSeiren Voice(セイレンボイス)という、これまでにない新たなAI音声合成システムの販売を開始しました。これは、従来のTTS(テキスト to スピーチ)と呼ばれる文字を入力して音声合成とは異なり、人が喋った声を入力し、その発音の仕方、イントネーションやスピード、間の取り方などを、トレースするかのようにターゲットのキャラクタの声に置き換え、非常に高品位な音声合成を実現する、というものです。 今回、その第一弾製品として、「結月ゆかり」、「琴葉 茜・葵」が、それぞれ19,800円(税込)でダウンロード販売の形でスタート。Windows10/11用となっていますが、動作させるにはNVIDIAのある程度のスペックを持ったGPUを搭載していることが必須となっています。そのため、体験版もリリースされており、これを使うことで実際に自分のPC環境で動作させることが可能なのかチェ
こんにちは、株式会社 ACES でサーバーサイドエンジニアをしている福澤 (@fuku_tech) です。 ACES は、オンライン会議を録画し、独自 AI による話者ごとの自動文字起こしや重要なシーンの可視化を行うことで、オンライン商談における成約率の向上と現場の工数削減に寄与する商談解析 AI ツール「ACES Meet」を提供しています。 今回は、先日プレスリリースが公開された ACES Meet の新機能である ChatGPT API を活用した AI まとめ機能の裏側についてご紹介します。 prtimes.jp はじめに AI まとめ機能を実現するための課題 2-1. 入力データの精度改善 2-2. 長時間の会議・商談への対応 案1: 社内アルゴリズムと ChatGPT API を併用する 案2: ChatGPT API をフル活用する 2-3. 商談と商談以外の会議の性質の違い
株式会社レッジが開催中のAI・人工知能オンライン見本市「Ledge.ai EXPO 2021 秋」では、エヌビディア合同会社や株式会社日本HP、京大オリジナル株式会社などの無料ウェビナーを視聴できます。 本稿では、現在配信中の無料ウェビナーをご紹介します。Ledge.ai EXPO 2021 秋の開催日は2021年9月24日(金)まで。視聴期限はウェビナーにより異なります。気になる人は今すぐチェックしてください! わずか5分で電話対応を自動化、電話窓口改善のヒント モビルスが提供するAI技術を取り入れたボイスボット「MOBI VOICE」は、わずか5分で電話対応を自動化できます。ウォーターサーバーで知られる株式会社マイアクアの導入事例では、入電数を90%削減し、電話対応の50%を完全に自動化しました。 モビルス株式会社による無料ウェビナー「諦めてませんか?電話対応窓口の業務効率化 ~AI技
Pixel 6が素晴らしすぎて、もう他のスマホ買う意味がわからない2021.11.01 11:30304,589 Sam Rutherford - Gizmodo US [原文] ( 福田ミホ ) 最近他のスマホ買っちゃった人、すみません…! Pixel 6とPixel 6 Pro、ついに出ましたね。Google謹製Tensorチップ搭載でAI系機能がますます強化、カメラもさらに増強、それでいて低めの価格設定と、これでもかっていう攻めの姿勢を感じます。米GizmodoのSam Rutherford記者のレビュー、以下見ていきましょう! 今までのGoogle Pixelは、フラッグシップといいつつも、じつはカメラの数やバッテリー容量、古めのプロセッサーといったハードウェアの足りないところをソフトウェアでカバーしすぎてる感じがありました。 でもPixel 6では、独自チップのTensorやアッ
ユーザーローカルは1月8日、入力された文章を「エンタメニュース」「趣味の話」といったカテゴリーに自動で分類する「ユーザーローカル テキスト自動分類AI」の無償提供を始めた。AIが文章を分析し、テーマや書き手の感情を推定する。 AIは、入力された文章を「仕事」「恋愛」など13のカテゴリーに振り分ける「ニュースカテゴリー分類」と、「肯定的」「否定的」といった感情に分類する「感情カテゴリー分類」の2パターンに対応。 ユーザーがExcelで作ったカテゴリー分け済みの文章の表を、教師データとしてアップロードすれば、オリジナルのAIを作成できる機能も搭載している。 具体的な用途としては、企業に届いた問い合わせメールの振り分けや、アンケート結果の分類、作品へのレビューやコメントの感情ごとの分類などを想定。今後は作成したオリジナルのAIを外部システムに組み込むためのAPIを提供する予定。 関連記事 Web
使い古された感のあるタイトルにて失礼します。@tanimoto_akira といいます。社会人博士学生として意思決定のための機械学習について研究し、2021年9月に博士(情報学)を取得しました。 経歴 学部(2008-2012) 航空宇宙工学科で工学系[1]の研究 傍らロボコンサークルでプログラムを担当、情報系に進むきっかけに 修士(2012-2014) 同専攻内で情報系の研究室に移り、画像認識に基づく制御の研究[2] 社会人(2014-) IT系企業に就職。顧客企業のデータ分析および研究 博士課程(2017-2021) 京都大学鹿島・山田研究室にて意思決定のための機械学習(強化学習、因果推論、小データ学習)を研究、博士(情報学)取得 前説: なぜ書いたのか 社会人博士を実際にとる人というのは、実は修士課程中に眠らせてあったネタや続きものの研究であるパターンが多いことが知られています[3]
ChatGPTで「業務アプリ」作成に挑戦 プログラミングの工数削減につながるか? 新機能を使い倒してみた AIの進化が止まらない。“生成AIブーム”の火付け役といえる米OpenAIの「ChatGPT」が2022年11月に登場してから、早くも1年以上が経過した。当時、出力結果の精度の高さに驚いた人も多いだろう。 世の中に数多くのAIツールや基盤モデルが登場し、業務効率化やデータ分析による新たな価値創造を狙ってAIの活用に乗り出そうという企業も増えている。米IDCが全世界の890人を対象に23年9月に実施した調査によると、77%以上の組織が生成AIに投資または活用を模索中と答えた(米IDC「企業向けGenerative AIガイド」より)。 生成AIはどのような用途で活躍するのか。IDCが上記調査で「今後18カ月で生成AIが最も大きな影響を与える可能性があるビジネス分野」を聞くと、第1位が「ソ
◆ Live配信スケジュール ◆ サイオステクノロジーでは、Microsoft MVPの武井による「わかりみの深いシリーズ」など、定期的なLive配信を行っています。 ⇒ 詳細スケジュールはこちらから ⇒ 見逃してしまった方はYoutubeチャンネルをご覧ください 【4/18開催】VSCode Dev Containersで楽々開発環境構築祭り〜Python/Reactなどなど〜 Visual Studio Codeの拡張機能であるDev Containersを使ってReactとかPythonとかSpring Bootとかの開発環境をラクチンで構築する方法を紹介するイベントです。 https://tech-lab.connpass.com/event/311864/ みなさん、こんにちは。サイオステクノロジー武井です。今回は、今話題沸騰の生成AIサービスであるAzure OpenAI Se
こんばんは、夜中たわしです。 さて、久々に育児関連のグッズを紹介します。主に2020年に買ったものですが、一部はそれ以前のものも含みます。 なお現在息子は3歳5ヶ月、娘は1歳11ヶ月。 後半は育児にあまり関係ないのも出てきますが、まあ間接的には関係ありますんで。逆に家電やキッチン用品の部分は育児してなくても参考になるかも。 件数が多いので興味を持った部分だけでもどうぞ。 食事 エジソンのお箸 六角知能ばし キシリトールタブレット おもちゃ おふろdeキットパス ペグ遊び ひらがなつみき くもんのジグソーパズル アンパンマンパズル アンパンマン おしゃべりいっぱい ことばずかん プラレール こどもちゃれんじベビー 絵本 だるまさんシリーズ ミッケ! のりもののろう! しまじろうのえいごのうた おむつ・トイレ 補助便座 防臭袋 家電 Fire TV Stick Echo Dot Nature
Googleの最強書き起こしアプリ、非公式に他社スマホでも使えるように2020.01.08 07:0044,972 Victoria Song - Gizmodo US [原文] ( 塚本直樹 ) iPhone…はまだか。 Pixel 4とともにGoogle(グーグル)から発表された、新たな「Recorder」アプリの書き起こし機能。オフラインモードでもガリガリスピーチを文字化できる超便利なこの機能は現在Pixel 4/3/2にて利用できるわけですが、とうとう非公式ながら他のAndroidスマートフォンでも使えるようになりました! XDA-Developersに投稿された改造版のRecorderアプリでは、Pixelシリーズと同じく、リアルタイム/オフラインでのスピーチ書き起こしが可能です。動作にはAndroid 9/10を搭載したAndroidスマートフォンが必要で、Huawei(ファー
世の中の企業がどのように機械学習を活用しているのか事例を知り、業界全体や自社の目の前の業務で抱えている課題解決に活かせるかを考えるきっかけとなるよう、52種類の事例を紹介します。 近年、AIにおける要素技術のひとつである「機械学習」を活用したニュースを耳にすることが多く、漠然と自社でも活用したほうが良いのではないかと考えている方は多いのではないでしょうか。 世の中の企業がどのように機械学習を活用しているのか事例を知り、業界全体や自社の目の前の業務で抱えている課題解決に活かせるかを考えるきっかけとなるよう、57種類の事例を紹介します。 宇宙ビジネスメディアである本サイト「宙畑(そらばたけ)」では、そんな「機械学習」にインプットするデータの一つとして、俯瞰的・継続的にデータを取得可能な「衛星データ」を提案しています。事例と合わせて、「衛星データ」の可能性にも注目いただけると幸いです。 ※202
最初はタイトルを「和文プログラミング論文を〜」としていたのですが、いわゆる「日本語プログラミング言語」の話にも見えてしまうことから、「プログラミング和文論文を〜」に置き換えました。 日本の人々が「プログラミング」にかかわるようになったのは、いつごろでしょうか? その前に、まずは世界のコンピュータとプログラミングの歴史を簡単に振り返ってみましょう。まずは OS から有名どころをたどると、 わかりやすく Windows 95 が 1995 年 [1] その前に広く使われた Windows 3.1 は 1992 年 [2] その下で動く MS-DOS は、バージョン 6 が 1993 年、バージョン 1 が 1981 年 [3] Linus Torvalds が Linux の開発を始めたのが 1991 年 [4] その「契機となった」 Andrew Tanenbaum の MINIX が 19
最終更新日: 2023年1月6日 こんにちはAINOWインターンのsatoshiです。今回の記事ではAIやディープラーニングと混同されがちな機械学習について、それらの関係性・違いを理解できるようにわかりやすく説明します。 また機械学習を知る上で必要不可欠な用語(教師あり学習や教師なし学習、各アルゴリズムなど)に関しても、この記事を通して、きちんと整理して理解できるようになっています。 機械学習とはAIの1つの要素技術です。 多くの企業で取り組むことができる技術の1つでしょう。機械学習について理解するのに必要なことは3つあり、以下のようになります。 データからルールやパターンを発見する方法である 識別と予測が主な使用目的である 分析の精度は100%ではないが、従来の手法より精度をあげられる可能性は高い 機械学習にできる4つこと 機械学習は与えられた膨大なデータを元にして、複数のルールやパター
ChatGPTは株価予測ができる 森正弥氏:こんな使い方もありますみたいなところで、大企業でもいろいろ進んでいるのは財務分析で、「財務データを入れて分析して」と言うと……ちょっと(スライドの)真ん中の文字が小さくて見えにくいですが、一般的な財務分析をしてくれます。 ちょっとインパクトがあったのが、ChatGPTは株価予測ができるという話ですね。これは普通にAIやマシンラーニングをやられている方からすると、「おいおい、それは言い過ぎだろう」と思ったりするわけですが、この論文の中身を読んだり、あるいは株価予測を業務としてやっている方からすると「まぁ、そうだよね」と思うところがある。 それは何かというと、株価予測だけじゃなくて金利の予測とか、そのマーケットの予測とか、あるいは原材料の価格予測でも共通の話です。基本的に今のデータからマシンラーニングの予測モデルを作って予測していきます。過去データか
https://medium.com/google-cloud-jp から派生したGoogle Cloud Japan の Customer Engineer (CE) が 書く Advent Calendar 2019 です。CE 達が是非紹介したい機能、いままで培ってきたノウハウ、知っておくと便利なTipsなどを公開予定です。 google-cloud-jp はGoogle Cloud Platform 製品などに関連するコミュニティが記載したテクニカル記事集です。掲載された意見はすべて著者個人のものであり、必ずしも Google のものを反映するものではありません。 12/1Kubernetes とGCPの世界をつなぐアクセス管理のはなし (Hiroki Tanaka)12/2Apache Hadoop のデータを BigQuery で分析するための移行手順 ( Keiji Yosh
機械学習は次のステージへーーMIT研究者が発明、“No-Hardware AI”「Neural Magic」のインパクト Image Credit : Neural Magic HP ピックアップ:Neural Magic gets $15M seed to run machine learning models on commodity CPUs ニュースサマリ:“No-Hardware AI” 企業を謳う「Neural Magic」は、11月6日、シードラウンドにて1,500万ドルの資金調達を実施したと発表した。出資者にはComcast Ventures NEA、Andreessen Horowitz、Pillar VC、Amdocsが名を連ねる。 同社は、MITでマルチコア処理と機械学習を長年研究してきた2人の研究者によって2018年に設立された。ディープラーニングモデルを処理する高
探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 手を動かしてわかるクリーンアーキテクチャ ヘキサゴナルアーキテクチャによるクリーンなアプリケーション開発 Tom Hombergs(著), 須田智之(訳) 詳解 AWS CloudFormation 潮村 哲 その決定に根拠はありますか? 確率思考でビジネスの成果を確実化するエビデンス・ベースド・マーケティング 小川 貴史, 山本 寛 プログラマーのためのVisual Studio Codeの教科書【改訂2版】 川崎 庸
インタビューの記録や会議の議事録を作成する際は録音した音声を聞いて文字起こしする作業が必要ですが、自分の耳で聞いて一から文字起こしするのは非常に手間がかかる作業です。LINE株式会社が開発した音声認識アプリ「CLOVA Note」ならAIの力を利用して文字起こしが可能とのことなので、実際に使って文字起こしの手順や精度を確かめてみました。 CLOVA Note公式サイト https://clovanote.line.me/ CLOVA NoteにはiOS版・Android版・ブラウザ版が存在しており、利用の際にはLINEアカウントが必須です。今回はiOS版とブラウザ版を使ってみます。 ・目次 ◆1:iOS版CLOVA Noteのインストール&初期設定 ◆2:アプリ版CLOVA Noteの使い方 ◆3:ブラウザ版CLOVA Noteの使い方 ◆4:アプリ版CLOVA Noteとブラウザ版CLO
インタビューや会議の際に発言内容をメモしながら、後で間違えないよう録音もする人は少なくないだろう。だが、録音した音声を聞いてテキストに起こす作業はかなりの手間がかかる。筆者の場合は聞き取りづらい箇所を繰り返し再生したり、パソコンに文字を打ち込む操作が遅れて音声の再生を一時停止したりしているうちに、実際の録音時間の何倍もかかってしまう。作業が終わるころには疲れてうんざりしていることもある。 筆者と同じように「骨の折れる文字起こし作業を何とか楽にこなしたい」と考える人は、洋の東西を問わず多いのかもしれない。最近はAI(人工知能)によって音声を解析して自動的に文字起こしするツールが国内外で増えてきた。中でも大きな注目を集めているのは、米OpenAI(オープンAI)の音声認識AI「Whisper」だ。 同社は米テスラ創業者のイーロン・マスク氏らが設立したAIの研究開発企業で、2020年に発表した言
内容をメモる必要なし! 電話の内容を録音&文字起こしするAIアプリ「コネクト」2021.05.10 10:0026,541 岡本玄介 後になって「アレ何だっけ?」がなくなりそう。 電話で喋ったやり取りが、テキスト・メッセージのような文字の吹き出しで表示され、その音声も録音されるので後から内容を確認しやすい、AI通話アプリ「コネクト」が開発されました。 作ったのは、ソフト開発を行なう株式会社アトラスコネクト。これがあれば、上司や取引先と話した内容など、大事な情報を失念することがなくなります。 Video: Jay Jang/YouTubeタグ付けもできて管理がラクテキストはAIによりリアルタイムで文字起こしされ、終了後すぐに見返すことができます。そして通話データはタグも付けられ、後から検索や管理ができるというスグレモノ。「電話業務が難しい理由は通話内容が記録されないから」…という原因をこれで
こんにちは!逆瀬川 ( @gyakuse ) です! 今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ! できたもの openai_keyにOpenAIのAPIキーを入れる メイン音声ファイルに会話音声 (wav, 25MB以内) を入れる 話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (1) の名前を入れる 話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (2) の名前を入れる 上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。 話者分離 (S
Spotifyは「クリエイター自身の声を使うことで、音声翻訳はこれまで以上にリアルな方法で世界中のリスナーにホストのインスピレーションを受け取る力を与える」と語った。 ダニエル・エクCEOのXのポストで、スティーブン・バートレット氏とレックス・フリードマン氏のスペイン語吹き替えを試聴できる。 関連記事 ChatGPT、“目”と“耳”の実装を発表 写真の内容を認識、発話機能でおしゃべりも可能に 米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。 YouTube、クリエイター向けイベントでAI搭載の複数ツールを発表 YouTubeはクリエイター向けイベントを開催し、複数の編集ツールを発表した。YouTubeショートの背景を生成AIで作る「Dream Screen」など、A
モザイクやぼかしを除去して画像や映像を鮮明化する技術は古くから存在しますが、特に近年はAIなどの発達により急激に進歩しています。悪用されると、プライバシーやセキュリティの保護をやすやすと突破することにもつながるこの技術について、ドイツのセキュリティ企業であるPositive Securityが解説しました。 Recovering redacted information from pixelated videos | Positive Security https://positive.security/blog/video-depixelation 修正技術は大きく分けて、モザイク処理(左上)とガウスぼかし(右下)の2種類に分けられます。このうち、モザイク処理は複数のピクセルを合成し、そのピクセルの色を元となったピクセルの平均値にするもので、ガウスぼかしはガウス関数を用いてピクセル同士の
ユーザーローカルは11月19日、AIが人間の声を分析し、その中に含まれる感情を7種類に分類するサービスを無償公開した。同社が実験でアニメのせりふを分析したところ、「ドラゴンボール」に登場する孫悟空の「クリリンのことかーっ!」は怒りが36.8%、嫌悪が21.3%だったという。 感情の度合いを数値化したり、グラフ化したりできる。まずはPCブラウザ(Google Chrome、Firefox、Microsoft Edge)向けの専用サイトで提供し、今後はWeb APIのリリースも検討する。 検出できる感情は「平穏」「幸福」「怒り」「悲しみ」「恐怖」「嫌悪」「驚き」。利用者が専用サイトで声を録音するか、オーディオファイル(MP3・WAV)をアップロードすると、AIが音声を分析。これらの7種類に分類し、その度合いを数値化する。 アニメのせりふを使った他の実験では、「鬼滅の刃」に登場する我妻善逸の「雷
こんにちは!逆瀬川 ( @gyakuse ) です。 今日は最近作ったもの、書いたもの、勉強したことを備忘録的にまとめていきたいと思います。 なぜ書くのか、なぜ学ぶのか DeepLearningの普及以降、Attention Is All You Need以降、Hugging Faceでの民主化以降、そしてStable DiffusionやChatGPTの登場以降、どんどんAGIへの距離が短くなってきています。未来は想定より大きく変わりそうです。どったんばったん大騒ぎのときはみんなが分かっておくべきことは効率的に共有すべきで、そのために書いています。書くためには論文等を読む必要があります。そしてそのためには基礎からしっかり学ぶことが大事です。次の一歩をみんなで歩んでいくために、学び、書いています。 間違ったことを言うかもしれませんが、それでも誰かのためになれば嬉しいです。あと、個人的にはこ
はじめに 現在のデジタル社会では、Teamsなどのオンライン会議が日常的に行われています。 しかし、その議事録を取るのは容易ではありません。そこで、OpenAIのChatGPTとWhisperを使って、動画ファイルから議事録を自動生成する方法をご紹介します。 補足説明:ChatGPTについて ChatGPTは、OpenAIが開発した自然言語処理AIで、人間と自然に会話することが可能です。GPT-3、GPT-4という大規模な言語モデルをベースにしており、様々な文脈での文章生成が得意です。 補足説明:Whisperについて Whisperは、OpenAIが開発した自動音声認識(ASR)システムです。大量の音声とテキストデータで訓練されており、音声をテキストに変換するタスクを効率的に行います。 処理の流れ ここから、具体的に動画ファイルから議事録を生成するための具体的な手順を説明します。 1.
無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス
本内容は、技術書典7 合同本『機械学習の炊いたん2』収録の、「エッジで機械学習」記事を公開したものです。内容は2019年9月時点の調査等に基づきます。 最近Raspberry Pi 4の検証結果などをみていると、エッジ、かつCPUでもそれなりの速度で動くケースもみられます。またこの後にM5StickV(K210)などを触りましたが、専用チップも使い所があります。今後、それらの動きもできれば補足したいと思います。 9/12-22に開催された技術書典9では、新刊『機械学習の炊いたん3』を頒布しました。私は、「AIエンジニア、データサイエンティストのための経営学、ソフトウェア工学」を寄稿しています。他にも機械学習のビジネス、エンジニアリング、数理までもりだくさん。気になられたら、ぜひご覧ください! 他にも、技術書典9「機械学習、データ分析」系の新刊リスト - Qiitaの通り、たくさんの本が出品
スマートスピーカーやスマートフォンなどのデバイスに搭載されているMEMSマイクにレーザー光線を当てることで、AIアシスタントを操作できることを、電気通信大学の菅原健准教授らの研究者が11月4日に公開した論文で紹介し、専用サイトも公開した。 研究者らはこの仕組みを「Light Commands」と名付けた。光を使って遠距離から音声制御システムにコマンドを送る攻撃だ。攻撃者は音声信号を光に変調してマイクに向けて照射し、マイクは受信した光を音声信号に変換してアシスタントに伝える。実験では、透明なガラス窓越しに、最大110メートル離れた位置からコマンド入力に成功した。 実験でコマンド入力に成功したのは、Appleの「Siri」、Googleの「Googleアシスタント」、Amazon.comの「Alexa」、Facebookの「Portal」を搭載するさまざまな製品。 例えば、スマートホームを制御
今日のマイクロソフト、配信は止まるし自動翻訳メタメタだったし、もうちょっと頑張ってほしかったな2021.06.25 01:5433,510 三浦一紀 オンライン発表会って難しいよね。 Windows 11の発表会、内容的には結構ワクワクするものでしたが、いくつか気になるところがありましたね。 まず、メディア向けのサイトやイベント公式サイトでの配信が止まりまくっていました。結局Twitterでの配信を見て原稿書いていました。あとでアーカイブが見られるとはいえ、やっぱりリアルタイムで見たいじゃないですか。何が原因なのかはわかりませんけどね。 Image: Microsoftあとは、字幕。メディア向けサイトでは、英語以外にも日本語やフランス語など各国に対応していたのですが、どうやら自動翻訳を使っていたようで、日本語字幕を見ていてもあまり意味がわからないところがありました。自動翻訳の聞き取り精度も
機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning – 論文紹介 概要 「Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning」は、米国のNIST(National Institute of Standards and Technology)が策定を進めている機械学習セキュリティに関するベストプラクティスのドラフトであり、機械学習システムの安全確保を目的として、機械学習にまつわるセキュリティを「攻撃」「防御」「影響」の3つの視点で分類している。 NISTIR8269はブログ執筆時点(2020年7月9日)でドラフト版であるが、「NIST SP8
月間10万人が読んでいるCoral Insightsのニュースレターにご登録いただくと、Coral Capitalメンバーによる国内外のスタートアップ業界の最新動向に関するブログや、特別イベントの情報等について、定期的にお送りさせていただきます。ぜひ、ご登録ください! Coral Capitalのポッドキャストでは、かなりAIに編集作業を頼っています。英語でインタビューしていることから、日本語では未実現の最新技術を使ったサービスに触れる機会があるのですが、ここ1、2年は、その進化には目を見張るものがあります。 収録した音声を文字(テキスト)に変換する「文字起こし」の精度が上がった結果、もはや人間に依頼する意味はなくなりましたし、音声編集についても画期的な機能が登場しています。それは音声から文字起こしされたテキストを編集することで、それに対応する元の音声データも同時に編集可能である、という機
皆さん初めましてこんにちはこんばんは。スウェーデン在住のエンジニア、Harry(ハリー: https://twitter.com/harrythecode )と申します。 普段はDevOpsエンジニアとして働く傍ら、生成AIの最前線にも繰り出し、ToBやToC向けのアプリケーション開発などにフルスタックエンジニアとして携わっています。 2023年11月7日 日本時間午前3時より、ChatGPTの生みの親、OpenAI社のサム・オルトマンによる講演が行われました。 この中で、多くの人が待ち望んだ様々な機能の実装や改善が行われています。 読むのが辛いよ、って方は以下の一言まとめをどうぞ。 また今回の発表によって何が新しくなって、今後どう変わっていくのか、を現役エンジニア目線でご紹介します。では見ていきましょう。 何が新しいん? GPT-4 Turboの発表: コンテキスト長の拡張: 128,0
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く