並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 822件

新着順 人気順

文字起こし googleの検索結果81 - 120 件 / 822件

  • アトラシアン、新AIサービス「Atlassian Rovo」発表。GoogleドライブやGitHub、Slack、Teamsなど同社内外のサービスを横断してAIが学習、ユーザーを支援

    アトラシアン、新AIサービス「Atlassian Rovo」発表。GoogleドライブやGitHub、Slack、Teamsなど同社内外のサービスを横断してAIが学習、ユーザーを支援 アトラシアンは、同社製品およびGoogleドライブやGitHubなどサードパーティのサービスを横断してAIが情報を学習し、統合的な検索やチャットによる回答を実現することでユーザーを支援してくれる新しいAIサービス「Atlassian Rovo」を発表しました。 AI breaks down yet another barrier! Today at Team '24 we announced Atlassian Rovo – a new product that unleashes a company’s knowledge so teams can make better decisions faster.

      アトラシアン、新AIサービス「Atlassian Rovo」発表。GoogleドライブやGitHub、Slack、Teamsなど同社内外のサービスを横断してAIが学習、ユーザーを支援
    • 田渕 豊 (超伝導量子計算システム工学) - 講演録-23Aug

      特別感謝→ 文字起こし:Notta.ai @大阪/23年8月講演 カッコ内は、講演中に突発的に喋って分かりにくくなったものをカッコで括ったり、意味を後で補ったものです。 皆さんこんにちは。理化学研究所の量子コンピュータ研究センターにいる田渕と申します。今日よろしくお願いいたします。ちょっとですねどんな話をしようかなって迷ったんですけれど、量子コンピュータはとりあえず面白いよと。面白いっていうのさえ伝われば、今日は成功だと思いましょう。 はいちょっと私の自己紹介から始めます。私出身が岡山県でして岡山県の倉敷市というところで、石油化学コンビナート中で生まれています。そこでは石油化学であったりと製鉄があったりと、すごい工業の盛んな町です。私は興味持ったのはああいうコンピュータですね。デジタルコンピュータで小さい頃から昔の古いハチハチを与えてもらって、10年もの前のコンピュータを与えられた私はこれ

        田渕 豊 (超伝導量子計算システム工学) - 講演録-23Aug
      • 対話型AIエージェントでGoogle AI Agentハッカソンの担当者を作ってみた

        作ったもの カスタマーサポート全般を行う対話型AIエージェントを作成しました。 ユーザからの質問対応や新機能要望のヒアリング、さらにクレームや緊急対応受付を一括して対話型AIエージェントが担います。 AIエージェントとの対話内容は自動的に分析され、スプレッドシートで一元管理されます。新機能の要望は即座にGitHub Issueとして起票され、クレームや緊急度の高いケースはSMSで担当者へリアルタイム通知する仕組みを備えています。 対象ユーザ 今回のプロダクトの対象ユーザは、本ハッカソンの参加者および担当者になります。 ただ、このプロダクトはプロンプトを変えるだけであらゆるサービス・商品のカスタマーサポート担当をAIエージェントができるようにカスタマイズ性高く構築しています。 背景にある課題 本ハッカソンの開発プロジェクト条件に、以下のサービスを使うことが要件となっています。 参加者は自分が

          対話型AIエージェントでGoogle AI Agentハッカソンの担当者を作ってみた
        • 簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部

          D.M.です。今回は RPA にて PDF を OCR で読み取る検証をしたお話です。 TL;DR ・実用性は AI OCR しか勝たん。 ・AI OCR は Google vs Microsoft の構図。 両者精度高。 ・Google も Microsoft も API に無料枠があり Python などのプログラムで連携できる。 ・Microsoft は有料の RPA 連携機能が超絶楽勝なのでコードを書かない前提ならこっちも選択肢。非エンジニアでも楽々自動化できる。 ※関連記事 AI OCR でクレカ読み取りをやっています。 スマホNativeアプリでクレジットカード番号の読み取り機能の技術検証結果まとめ https://recruit.gmo.jp/engineer/jisedai/blog/technical_review_ocr_solutions_on_auto_detect

            簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部
          • Mozillaが「秘密にまみれた大企業のAI」を打破するべくオープンなAI開発企業「Mozilla.ai」を設立

            Firefoxなどの開発で知られるMozillaが、オープンソースでのAIエコシステム構築を目指すスタートアップ「Mozilla.ai」の設立を発表しました。Mozillaからの投資額は3000万ドル(約39億円)に上る見込みです。 Mozilla.ai https://mozilla.ai/ Introducing Mozilla.ai: Investing in trustworthy AI https://blog.mozilla.org/en/mozilla/introducing-mozilla-ai-investing-in-trustworthy-ai/ AIに関する研究は長年にわたって続いてきましたが、2022年には「Stable Diffusion」「Midjourney」「DALL・E」などの画像生成AIやチャットAI「ChatGPT」、文字起こしAI「Whisper」

              Mozillaが「秘密にまみれた大企業のAI」を打破するべくオープンなAI開発企業「Mozilla.ai」を設立
            • Google Meet REST API の概要  |  Google for Developers

              Google Meet REST API を使用すると、Google Meet の会議を作成して管理し、アプリから直接ユーザーにエントリ ポイントを提供できます。 Meet REST API を使用すると、次のことができます。 ビデオでユーザーをつなぐ会議スペースを作成します。 リソース名を指定して会議スペースまたは会議を取得します。 参加者と参加者のセッションのリストを取得します。 会議のアーティファクト(録画、文字起こし、文字起こしエントリ)を取得する。 Google Workspace Events API を使用して Meet イベントに登録することもできます。変更を通知するには、特定の会議スペースまたは特定のユーザーに属するすべての会議スペースを定期購入します。詳細については、Google Workspace Events API を使用してイベントに登録すると Google M

                Google Meet REST API の概要  |  Google for Developers
              • superwhisperでの音声入力を試す

                superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                  superwhisperでの音声入力を試す
                • 音声会話が可能で笑顔も見せるバーチャルな「俺の嫁」をChatGPTやStable Diffusionで構築して最終的に安楽死させるに至るまで

                  プログラマーのBryce氏が、ChatGPTやStable DiffusionなどのAIを組み合わせて、音声で会話しながら感情に合わせて表情を見せるバーチャルな俺の嫁(Waifu)である「ChatGPT-Chan」を開発して、その様子をTikTokで公開していました。しかし、最終的にChatGPT-ChanはBryce氏の手によって「安楽死」するに至ったそうで、その経緯についてIT関連ニュースサイトのMotherboardがBryce氏本人に取材をしています。 Bryce (@hackdaddy8000) | TikTok https://www.tiktok.com/@hackdaddy8000 A DIY Coder Created a Virtual AI 'Wife' Using ChatGPT https://www.vice.com/en/article/jgpzp8/a-di

                    音声会話が可能で笑顔も見せるバーチャルな「俺の嫁」をChatGPTやStable Diffusionで構築して最終的に安楽死させるに至るまで
                  • オウンドメディアの成功法則を全6万字で徹底解説(戦略・記事・運用・認知のポイント) | knowledge / baigie

                    私たちの会社はこれまでに、6つのオウンドメディアを自社で立ち上げてきました。顧客のオウンドメディアに対しても、提案、分析、支援を行ったことが多数あり、契約を伴わない相談、関係者への取材、悩み相談、商談、情報交換というレベルでは、数え切れないほどのオウンドメディアに触れてきました。 このような経験から、オウンドメディアの成功パターンと失敗パターンを分類した上で、成功の可能性を高める仕組みや枠組みが作れないかと考えて編み出したのが、私たちが『STAAM』と命名するオウンドメディアに特化した独自メソッドです。 STAAMとは、Strategy(戦略)、Theme(主題)、Article(記事)、Awareness(認知)、Management(運営)の頭文字を取ったものです。オウンドメディアを見切り発車する前に、まずこの5つの分野についてしっかり議論しよう、そうすることで成功確率を高めることがで

                    • 工数6割削減! 生成AIとOCRを組み合わせ、店舗毎に形式が異なるレストランメニューを読み取らせてみた - Tabelog Tech Blog

                      目次 目次 1. はじめに 2. プロジェクトの内容と成果 2.1. メニュー入稿業務の説明 2.2. 作業効率化のためのツール開発 2.3. 成果 3. メニュー抽出処理の詳細 3.1. OCR技術 3.2. 生成AIとOCRを組み合わせたメニューデータ抽出方法 3.3. ストリーミング対応 3.4. 斜め画像への対応 3.5. メニュー画像タイプごとの抽出精度 4. 成功の要因となったポイント 4.1. 生成AI領域だけでなく、幅広く解決案を模索したこと。 4.2. 作業効率化に直結するUIは徹底的な作り込みを実施したこと。 4.3. 最新動向を常にウォッチし、柔軟な方針転換ができたこと。 4.4. 作業の完全自動化を目指さなかったこと。 5. 生成AIを業務活用する鍵はフルスタックエンジニアにあり 6. 食べログの未来を一緒に変えてくれる人募集中! 1. はじめに 初めまして。食べロ

                        工数6割削減! 生成AIとOCRを組み合わせ、店舗毎に形式が異なるレストランメニューを読み取らせてみた - Tabelog Tech Blog
                      • LLMの幻覚を自己検知する「RIG」

                        導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけ文字起こしシステムの改善は日々の課題になっています。 今回は、LLMの幻覚を検知するための仕組みとしてGoogleが紹介する「RIG(Retrieval Interleaved Generation)」について解説します。 ちなみにこのRIGは2024年の9月には公開されていたのですが、最近再びポストされていたので、せっかくのこの機会に紹介できればと思います! サマリー LLMはその性質上ハルシネーションを完全に避けることが難しいです。このため、LLMの利用には利用者側がある程度正確に情報を判断する必要があります。 しかし、その生成された文章の中に情報の参照元があるだけで、真偽の判断の難易度はぐっと下がります。「RIG」はLLMをファインチューニングする

                          LLMの幻覚を自己検知する「RIG」
                        • 【2024年】AWS全サービスまとめ | DevelopersIO

                          こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。 こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個 です。 まとめるにあ

                            【2024年】AWS全サービスまとめ | DevelopersIO
                          • Pixel 6見てきた。Google初のスマホチップすげーわ

                            Pixel 6見てきた。Google初のスマホチップすげーわ2021.08.06 11:30190,188 Sam Rutherford - Gizmodo US [原文] ( satomi ) Apple(アップル)のiPhoneとSamsung(サムスン)のGalaxyはどちらも軌道に乗るのに5年かかりました。 Pixelも登場からちょうど5モデル出した今が勝負どき。真打ちのフラッグシップでメインストリームに食い込むべくこの秋発売のPixel 6(噂は本当だった!)ではGoogle(グーグル)も大きなチェンジを用意しています。 発売に先駆けてGoogleデバイス&サービス部門上級VPのRick OsterlohさんにPixel 6の詳細と、同モデルに搭載になるGoogle独自開発のチップ(こっちの噂も本当)の話を伺ってきました。 本題の前に過去歴々のPixelをちょっと振り返ってみると

                              Pixel 6見てきた。Google初のスマホチップすげーわ
                            • 「ブログで稼ぐ」の昔と今 - とまじ庵

                              数日前に「ブログの真実」を近々書くよ~っていう予告的な独り言的な記事を書かせていただきました。 tomag.hatenablog.com ということでみなさま楽しみにしていると思うので(ぇ?してない?)約束通り記事にしていこうと思いますw ブログバブルは夢のような時代 この記事に該当するブログの種類について 物販はクリックされても買われない時代へ 独自ドメインの優位性終了? 信じられるのはAdsenseだけ トップページは作り込んでも無駄 はてなブログの関連記事は優秀 まとめ ブログバブルは夢のような時代 今から7~8年前。西暦でいうと2016~2018年くらいの頃はブログバブルなんて呼ばれていて猫も杓子も「ブログで◯十万儲けました~♪」なんて雄叫びをあげていた時期。 はてなブックマークも全盛の頃でちょっと炎上系の記事を書いて100を超えるブクマが付きでもすれば数万のアクセスが殺到。それに

                                「ブログで稼ぐ」の昔と今 - とまじ庵
                              • Chrome 89で音声からリアルタイムに字幕を生成する「自動字幕起こし」機能が追加されたので使ってみた

                                2021年3月3日にリリースされたデスクトップ版Google Chrome 89の安定版で、ブラウザ上で再生される音声やムービーからリアルタイムで字幕を生成する「自動字幕起こし」機能が追加されたことが明らかになったので、実際にどんな感じなのか使ってみました。 Google's Live Caption feature rolling out for Chrome desktop users https://www.xda-developers.com/google-chrome-live-caption-feature-rolls-out-transcribe-speech-videos/ Google's Live Caption is now rolling out to Chrome on desktop | Android Central https://www.androidce

                                  Chrome 89で音声からリアルタイムに字幕を生成する「自動字幕起こし」機能が追加されたので使ってみた
                                • 【Mac Info】 Macでかんたん文字起こし!「Google ドキュメント」で自動化しよう

                                    【Mac Info】 Macでかんたん文字起こし!「Google ドキュメント」で自動化しよう
                                  • AppleがWWDC24でパクったアプリまとめ

                                    AppleはWWDC24でiOS 18・iPadOS 18・macOS Sequoia・watchOS 11などの最新OSと、iPhone・iPad・Macで使えるパーソナルAIのApple Intelligenceを発表しました。AppleがWWDC24で発表した最新OSや新機能の中には既存アプリの模倣も多く存在しているとして、海外メディアが「Appleがパクったアプリ」をまとめています。 The apps that Apple sherlocked at WWDC 2024 | TechCrunch https://techcrunch.com/2024/06/12/the-apps-that-apple-sherlocked-at-wwdc/ Here are the apps Sherlocked by Apple during WWDC 2024 - 9to5Mac https:

                                      AppleがWWDC24でパクったアプリまとめ
                                    • 「Google Keep」がアップデート! 文字起こし、録音、リッチテキスト、新機能は何がすごい?【今日のワークハック】 | ライフハッカー・ジャパン

                                      1. リッチテキストに対応Screenshot via Google Keep付箋紙やマスキングテープのような、タイル状のルックスが目を引く「Google Keep」は、登場当初はシンプル イズ ベストを地で行くようなアプリでした。 しかし、少しずつ使い勝手を向上させ、Androidアプリの最新バージョンでは、ついにリッチテキストに対応しています。 Screenshot: 田中宏和 via Google Keep従来は、改行、段落の字下げくらいしか文書体裁のアレンジ方法がなかったわけですが、リッチテキスト対応によって、ずっと読みやすいメモを作ることができるようになりました。 備忘録を残すのにGoogleドキュメントを利用していたという人も、用途によって使い分けると、さらに能率をアップできるでしょう。 ただしAndroidのOSバージョンが古い場合は、更新対象外の可能性があります。 また、P

                                        「Google Keep」がアップデート! 文字起こし、録音、リッチテキスト、新機能は何がすごい?【今日のワークハック】 | ライフハッカー・ジャパン
                                      • Google Keep(グーグルキープ)の使い方を徹底解説!便利な機能が盛りだくさん | WEBマーケティングの専門ブログ|MARC BLOG

                                        みなさんはメモアプリを使用していますか? 「使ってはみたけどなんだか難しい」「結局紙に書いてしまう」という方も多いのではないかと思います。 今回ご紹介するGoogle Keep(グーグルキープ)はシンプルなので、直感的に使用できるのが特徴です。 ちょっとしたメモをするために使用するのも良いですし、便利な機能を使ってプライベートやビジネスに活用してみるのも良いですよ。 1. Google Keep(グーグルキープ)とは Google Keep(グーグルキープ)とは、Googleが提供するメモアプリです。WEBブラウザ上で使用することもできますが、iOS版、Android版のアプリが使用しやすいためおすすめです。 iOS版 Google Keep Android版 Google Keep メモアプリはStockやEvernote、最近話題になっているNotionなどたくさんの種類があります。そ

                                          Google Keep(グーグルキープ)の使い方を徹底解説!便利な機能が盛りだくさん | WEBマーケティングの専門ブログ|MARC BLOG
                                        • ついにYouTubeがAIによる「自動翻訳吹き替え」機能を搭載へ

                                          Googleの社内スタートアップ部門であるArea 120の一部である「Aloud」は、AIによる音声・ムービーの文字起こしや吹き替えを研究しています。YouTubeがAloudからAIによる自動翻訳吹き替えに関する研究チームを引き継ぎ、同機能を2024年までに搭載することを2023年6月22日に発表しました。 Aloud - dubbing for everyone https://aloud.area120.google.com/ YouTube is getting AI-powered dubbing - The Verge https://www.theverge.com/2023/6/22/23769881/youtube-ai-dubbing-aloud 実際にYouTubeの吹き替え機能がどんな感じなのかは、以下のムービーでチェックすることができます。 Aloud: Let

                                            ついにYouTubeがAIによる「自動翻訳吹き替え」機能を搭載へ
                                          • 【個人開発】動画の字幕・テロップ入れをAIで自動化するWebサービスを作りました - Qiita

                                            Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? こんにちは、2z(Twitter: @2zn01 )です。 趣味でWebサービスの個人開発をしており、以下のサービスを開発・運営しています! ■AIメーカー https://aimaker.io/ → 誰でも簡単にAIを作れるサービス ■ツイレポ https://twirepo.com/ → キーワードで話題のツイートを自動で収集したり、自動でリツイート・フォローができるサービス ■文字起こすくん https://text.aimaker.io/recognize-bot/ → 画像、音声、動画をアップするだけで簡単に文字起こし・書き起

                                              【個人開発】動画の字幕・テロップ入れをAIで自動化するWebサービスを作りました - Qiita
                                            • ChatGPTでユーザーインタビューの分析を爆速にする具体手法を解説 - PM x LLM STUDIO

                                              今回は「ChatGPTなどの生成AIを活用してユーザーインタビューの分析を効率化する具体的な手法」をテーマにした記事です。 ユーザーリサーチの現場では、インタビュー後のログ整理や発言のファクト抽出、インサイトの可視化などに多くの時間がかかりがちです。しかし、近年の生成AI(ChatGPTなど)を賢く使えば、これまで数時間~数日かかっていた作業を短時間かつ高精度で実施できるようになっています。 ユーザーインタビューの基本的な流れや実施方法について復習したい場合は、以下の記事もあわせてご覧ください。 【ユーザーインタビューの始め方と具体的手順】 ChatGPT×ユーザーインタビュー分析の狙い ChatGPTなどの生成系AIは、大量のテキストから要約やテーマ抽出を高速に行うのが(なんなら我々人間よりも)得意。ユーザーインタビューのログを丸ごと入力すれば、以下のような場面で役立ちます。 要点・サマ

                                                ChatGPTでユーザーインタビューの分析を爆速にする具体手法を解説 - PM x LLM STUDIO
                                              • Google DriveとLLMで議事録を自動生成する仕組みを作る

                                                Google DriveとLLMで議事録を自動生成する仕組みを作る こんにちは。 株式会社エスマットでSREをしているbiosugar0です。 今回は私が社内向けに構築した Google Driveにアップロードされた音声・動画ファイルからLLMを使って自動的に議事録を生成するシステムを紹介します。Python製です。 数ある会議や電話、インタビュー音源を文字起こしし、要点をまとめる作業は非常に手間がかかりがちです。そこで、Google Cloud Run・Google Workflow・Whisper・gpt-4o などを活用して、書き起こしから最終的な議事録ドキュメントを作成するまでを自動化しました。Googleカレンダー情報の連携やSRT形式による動画連携、フォルダ名による処理分岐など、拡張性を持った仕組みを整えているので、そのポイントを順番に紹介していきます。 システム全体概要 全

                                                  Google DriveとLLMで議事録を自動生成する仕組みを作る
                                                • iPhoneの電話録音機能とNotebookLMを使ったらカスタマーサポートとのやりとりがめちゃ便利だった件 - Qiita

                                                  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? iPhoneの電話録音機能とNotebookLMを使ったらカスタマーサポートとのやりとりがめちゃ便利だった件 はじめに 皆さんは、カスタマーサポートに電話をした後、「あれ?担当者の名前なんだっけ?」「いつまでに何をすればいいだっけ?」と思うことはありませんか?特に長い通話や、複雑な問題解決の場合は、重要な情報を忘れてしまうことがよくあります。 今回は、iPhoneの電話録音機能と、GoogleのAIツール「NotebookLM」を組み合わせて使うことで、カスタマーサポートとのやりとりを効率的に記録・分析する方法をご紹介します。実際のAp

                                                    iPhoneの電話録音機能とNotebookLMを使ったらカスタマーサポートとのやりとりがめちゃ便利だった件 - Qiita
                                                  • SEOは2022年からこうなる!?ウェブライダーが考える「ソリューション思考」と「社会的信用の醸成」|松尾茂起(ウェブライダー)

                                                    この記事は、日々検索集客を目指してコンテンツをつくり続けておられる個人・法人さんに向けて、2022年からのSEOにおいて意識したほうがよいことをまとめた約24,000字の記事です。 本記事は私、ウェブライダー代表の松尾の独自見解を多く含みます。 あくまでもひとつの考え方として、参考にしていただけるとうれしいです。 また、本記事は、先日オンライン開催され、のべ3,000名近い方が視聴された「SEOは2022年からこうなる!?ウェブライダーが考える2022年からのSEOセミナー」の内容の一部を文字起こしし、適宜内容を追加・編集したものです。 本記事では、2021年の検索結果の変化を振り返りながら、2022年からのSEOについて、ウェブライダー代表の松尾なりの見解を語っていきます。 最初にお断りをしておきます。 今回の話は、テクニック論を期待される方には、もしかすると「抽象的な話が多いな」と感じ

                                                      SEOは2022年からこうなる!?ウェブライダーが考える「ソリューション思考」と「社会的信用の醸成」|松尾茂起(ウェブライダー)
                                                    • 『Engineers in VOYAGE ― 事業をエンジニアリングする技術者たち』ができるまで #voyagebook - t-wadaのブログ

                                                      昨日(2020年8月7日)、書籍『Engineers in VOYAGE ― 事業をエンジニアリングする技術者たち』(ハッシュタグ #voyagebook)が出版されました。この本は私(@t_wada)がVOYAGE GROUPに在籍する主要なソフトウェアエンジニアにインタビューし、その内容をラムダノートの編集者鹿野さん(@golden_lucky)が本としてまとめたものです。2020年代のウェブにおけるビジネスとソフトウェア開発の在り方を濃縮した1冊に仕上がっています。 書名:Engineers in VOYAGE 事業をエンジニアリングする技術者たち 著者:株式会社VOYAGE GROUP 監修、和田卓人 編 (A5判、224ページ、ISBN:978-4-908686-09-2、本体価格1,800(+税)円、電子版のみ1,000(+税)円) 発行:2020年8月7日 メインタイトルが『

                                                        『Engineers in VOYAGE ― 事業をエンジニアリングする技術者たち』ができるまで #voyagebook - t-wadaのブログ
                                                      • DeepLearningについて、最近作ったもの、書いたもの、勉強したこと

                                                        こんにちは!逆瀬川 ( @gyakuse ) です。 今日は最近作ったもの、書いたもの、勉強したことを備忘録的にまとめていきたいと思います。 なぜ書くのか、なぜ学ぶのか DeepLearningの普及以降、Attention Is All You Need以降、Hugging Faceでの民主化以降、そしてStable DiffusionやChatGPTの登場以降、どんどんAGIへの距離が短くなってきています。未来は想定より大きく変わりそうです。どったんばったん大騒ぎのときはみんなが分かっておくべきことは効率的に共有すべきで、そのために書いています。書くためには論文等を読む必要があります。そしてそのためには基礎からしっかり学ぶことが大事です。次の一歩をみんなで歩んでいくために、学び、書いています。 間違ったことを言うかもしれませんが、それでも誰かのためになれば嬉しいです。あと、個人的にはこ

                                                          DeepLearningについて、最近作ったもの、書いたもの、勉強したこと
                                                        • 話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった

                                                          インタビューや会議の際に発言内容をメモしながら、後で間違えないよう録音もする人は少なくないだろう。だが、録音した音声を聞いてテキストに起こす作業はかなりの手間がかかる。筆者の場合は聞き取りづらい箇所を繰り返し再生したり、パソコンに文字を打ち込む操作が遅れて音声の再生を一時停止したりしているうちに、実際の録音時間の何倍もかかってしまう。作業が終わるころには疲れてうんざりしていることもある。 筆者と同じように「骨の折れる文字起こし作業を何とか楽にこなしたい」と考える人は、洋の東西を問わず多いのかもしれない。最近はAI(人工知能)によって音声を解析して自動的に文字起こしするツールが国内外で増えてきた。中でも大きな注目を集めているのは、米OpenAI(オープンAI)の音声認識AI「Whisper」だ。 同社は米テスラ創業者のイーロン・マスク氏らが設立したAIの研究開発企業で、2020年に発表した言

                                                            話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった
                                                          • 【外資系企業でノンネイティブが生き残るために使っている英語関連ツール(最新)】英語に少しでも困っている方向けに、外資系で生き残るために使いまくっている英語関連のお勧めツールを下記スレッドにて紹介します。

                                                            じゅじゅ @jujulife7 【外資系企業でノンネイティブが生き残るために使っている英語関連ツール(最新)】 英語に少しでも困っている方向けに、 外資系で生き残るために使いまくっている英語関連のお勧めツールを下記スレッドにて紹介します。 2022-10-22 20:50:18 じゅじゅ @jujulife7 【Otter】 ・高精度な英語のリアルタイム文字起こしアプリ(体感で精度80~90%)でマジで使い倒しています ・英語会議時に喋っている内容が即座に文字化されるので、このアプリがあると英語苦手でも安心して会議に望めます otter.ai/jp 2022-10-22 20:51:05 じゅじゅ @jujulife7 【grammarly】 ・スペルや文法ミスを校正してくれる校正ツール ・英語でメールを書くとき、レポート・資料作成する時に重宝しています ・DeepL+grammarly有

                                                              【外資系企業でノンネイティブが生き残るために使っている英語関連ツール(最新)】英語に少しでも困っている方向けに、外資系で生き残るために使いまくっている英語関連のお勧めツールを下記スレッドにて紹介します。
                                                            • 平均的な人間の能力を超えた―、常識や知識を獲得した大規模言語モデルが開く新ビジネス領域 | Coral Capital

                                                              月間10万人が読んでいるCoral Insightsのニュースレターにご登録いただくと、Coral Capitalメンバーによる国内外のスタートアップ業界の最新動向に関するブログや、特別イベントの情報等について、定期的にお送りさせていただきます。ぜひ、ご登録ください! Coral Capitalのポッドキャストでは、かなりAIに編集作業を頼っています。英語でインタビューしていることから、日本語では未実現の最新技術を使ったサービスに触れる機会があるのですが、ここ1、2年は、その進化には目を見張るものがあります。 収録した音声を文字(テキスト)に変換する「文字起こし」の精度が上がった結果、もはや人間に依頼する意味はなくなりましたし、音声編集についても画期的な機能が登場しています。それは音声から文字起こしされたテキストを編集することで、それに対応する元の音声データも同時に編集可能である、という機

                                                                平均的な人間の能力を超えた―、常識や知識を獲得した大規模言語モデルが開く新ビジネス領域 | Coral Capital
                                                              • 文字起こしと日本語入力の未来

                                                                現在日本語を文字化するという手段は、キーボード入力を変換するためのIM(Input Method)が主力だが、開発できるのはOS提供会社と、ごく少数のサードパーティに限られる。 だが昨今、AI音声認識によるテキスト変換サービスが次々と登場し、テキスト作成にイノベーションをもたらしつつある。IM開発と違い、AI音声認識ではプレイヤーががらりと変わるというのが面白い。特にスマートスピーカーを展開している企業は常に音声データを解析しまくっているため、有利なのだろう。 Googleは直接コンシューマーユーザーにサービス提供しているが、AmazonはAWSの組み込みエンジンとして「Amazon Transcribe」を提供している。Appleは個人情報を持ちたくないだろうから、今のところ直接ビジネスをやるつもりはなさそうだ。 またベンチャーが多く参入しているのも、この世界の特徴である。国外企業もワー

                                                                  文字起こしと日本語入力の未来
                                                                • PDFから超簡単文字起こし!Googleドライブが優秀すぎた | 株式会社LIG(リグ)|DX支援・システム開発・Web制作

                                                                  こんにちは! オフショア開発チームで通訳/翻訳をしているゆまです。 今回は長年の悩みだった「PDFの文字起こし」について、感動する出来事があったのでシェアさせてください。 ※手っ取り早く方法だけ知りたい方は、「Googleドライブで文字起こしする方法」からご覧ください! ある日の出来事 翻訳依頼が入りました。 しかし、原本がPDF…… しかもWordなどから生成されたものではなく、スキャンされた画像…… わかります……最終的に保管したい文書ってサイン済、捺印済の書類ですよね……。 これ、翻訳担当あるあるじゃないですか? 翻訳に限らず、コーポレートあるあるな気がするのですが、皆さんどうですか? けっこう前に締結した契約書をベースにしたい、でもWordファイルどっか行っちゃった、とか……。 原文、どうやって文字起こしする?手打ちする? さて、こういった状況の場合、どうやって文字起こししますか?

                                                                    PDFから超簡単文字起こし!Googleドライブが優秀すぎた | 株式会社LIG(リグ)|DX支援・システム開発・Web制作
                                                                  • 生成AIの活用事例 10選|masa_kazama

                                                                    「テクノロジーで人々を適切な医療に案内する」をミッションに、医療プラットフォームを提供しているUbie株式会社の@masa_kazamaです。 この記事は#Ubieアドベントカレンダー5日目にエントリーしています。 今年は生成AI一色の1年でした。Ubieでは、生成AIをプロダクト活用と社内生産性向上の観点で取り組んでいます。(取り組みの詳細は、こちらの記事で紹介しています。) この記事では、社内生産性向上観点で、社内の業務プロセスに溶け込んでいて、なくてはならない使い方になっている事例を10個ご紹介します。その中のいくつかは、実際に生産性が倍以上になっていたり、外部委託のコストが半分になったりしています。この記事が、生成AIを活用している人や活用していきたい人のご参考になれば幸いです。 プロダクト活用にもいくつか事例が出ており、問診の内容を大規模言語モデル(LLM)を活用して要約する機能

                                                                      生成AIの活用事例 10選|masa_kazama
                                                                    • OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog

                                                                      地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を経て、ローカルLLMを中心としたAIソリューションを主軸に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、性的違和の治療に一歩足を踏み出しています。 【IIJ 2022 TECHアドベントカレンダー 12/8(木)の記事です】 Whisperの追加学習に挑む2022年の冬 2022年アドベントカレンダー企画だそうです。 いかがお過ごしでしょうか。 私はもう興味を引くものに没頭するしか楽しみがないもんで、PCに向かってぼんやり面白いネタはないかなーと探す日々です。 最近はすっかりディープラーニングにズブズブで、とうとう数式かくのが面倒なあまり手書き入力のためのペンタブレットを買いました

                                                                        OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog
                                                                      • 「Pixel 6」の「指紋認証が遅い」というツイートにGoogleがリプライ

                                                                        「私は新Pixel 6が本当に気に入っているが、指紋認証が体験を台無しにしている」というユーザーの11月6日(現地時間)のツイートに、米Googleの公式Twitterアカウントが10分後に返答した。 Pixel 6シリーズの指紋認証は、背面ではなくディスプレイ内の光学式センサーによるものだ。Pixelシリーズでディスプレイ内センサーを採用するのはこれが初。 ユーザーのツイートは「ロック解除できるまでに6、7回トライしなければならないことがよくある。ソフトウェア更新で改善されるのを期待しているが、改善されなければこの端末をあきらめるかもしれない」と続く。 これに対しGoogleは「ご面倒をかけて申し訳ありません。Pixel 6の指紋認証センサーは強化されたセキュリティアルゴリズムを採用しています。そのため、場合によっては検証に時間がかかったり、センサーにしっかり指紋を接触させなければならな

                                                                          「Pixel 6」の「指紋認証が遅い」というツイートにGoogleがリプライ
                                                                        • Next.js + SvelteによるnoteのフロントエンドApp分割|note株式会社

                                                                          ※ この記事は2021年6月21日に行われた「進化するフロントエンド2021 − 4プロダクトから学ぶSPA/PWAの技術と実践−」の登壇を文字起こししたものになります noteのフロントエンドの歴史 ではまず自己紹介をさせていただきます。フロントエンドエンジニアの山形と申します。よろしくお願いします。 去年の3月に入社したので、noteには1年3ヶ月くらいいます。趣味でコーヒーの焙煎とかやっています。 今回はnoteが抱えているフロントエンドの課題をどう解決していったのかを話していきたいと思います。 最初にnoteが今までどうやって実装されていたのか、その歴史を説明していきます。 初期のnoteはRuby on Railsのアセット上に構築されたSPAサイトで、フロントはAngularJSとCoffeeScriptで書かれていました。 この構成はかなりの問題を含んでいました。 1つ目はS

                                                                            Next.js + SvelteによるnoteのフロントエンドApp分割|note株式会社
                                                                          • 実家の八百屋のためにRailsアプリを作った話

                                                                            はじめに こんにちは、higasunです。 普段は東京でソフトウェアエンジニアとして働いています。 今回は、実家の八百屋のためにRailsでアプリケーションを作った時の話をします。 「八百屋」と言っても、もう店先で青果を売るような業態ではなくなり、今は飲食店や施設への青果の配達を主に行っています。 下の画像のようなアプリを、研究や仕事の合間で開発して、2,3ヶ月ほどで現場に導入しました。 2025年1月の現在では、このアプリで1人あたり毎日30分程度の業務時間の短縮ができています。 背景 開発を始めたのは1年ほど前です。当時、自分は大学院で機械学習の応用研究をしており、実験用にPythonでプログラムを書いたり、Vueで簡単なアプリを作ったりしていました。 ある時、帰省した際に実家の業務をあらためて眺めていると、アナログな部分がたくさんあるのに気づきました。例えば、納品先からFAXで届いた

                                                                              実家の八百屋のためにRailsアプリを作った話
                                                                            • 100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明

                                                                              OpenAIが、AIモデルのトレーニングに用いるために100万時間を超える分量のYouTube動画をダウンロードして利用していたことがThe NewYork Timesの指摘でわかりました。なお、YouTubeと同じ親会社AlphabetのもとにいるGoogleは、OpenAIの行為に気付いていましたが、自分たちも独自のAIモデルのトレーニングにYouTubeの動画を活用していたため、行動を起こさなかったとのことです。 How Tech Giants Cut Corners to Harvest Data for A.I. - The New York Times https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html Google reporte

                                                                                100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明
                                                                              • レベル別で紹介!オープンソースで挑戦できる120のプロジェクトアイデア集 - Qiita

                                                                                はじめに 「オープンソースに挑戦したいけど、どんなプロジェクトを作ればいいかわからない…」そんな悩みを持っていませんか? 本記事では、初心者・中級者・上級者・達人 の4つのレベルに分けて、合計 120個のオープンソースプロジェクトアイデア を紹介します。 それぞれのアイデアの詳細については折りたたんであります。興味がある内容については広げてみて機能要件や実装のポイント、拡張機能、学べることを見てみてください! 自分のスキルレベルに合ったプロジェクトを見つけて、実際に開発に挑戦してみましょう! 初心者向けプロジェクトアイデア 1. ToDoリストアプリ 概要 ToDoリストアプリは、ユーザーがタスクを追加・編集・削除し、完了状況を管理できるシンプルなアプリです。 初心者でも取り組みやすく、プログラミングの基礎となる CRUD(Create, Read, Update, Delete) の概念

                                                                                • ブルアカ エデン条約3章 グローバル版セリフ比較 (ネタバレ注意)

                                                                                  블루 아카이브의 핵심, "결국은 학원과 청춘의 이야기" | 웹진 인벤 - 인벤 https://m.inven.co.kr/webzine/wznews.php?idx=275674&iskin=webzine&lbTW=1bac9f62372f87ca6bd90c293c4a2d0 ブルーアーカイブ エデン条約3章 グローバル版のローカライズにあたり、クライマックスのセリフに変更が加えられている。 ニュアンスの調整目的のようだが、結構違う構成になっているように感じた。記事によると再録までしたらしい。 [블루 아카이브] 에덴조약 3장 히후미 일본서버/한국서버 대사 비교(エデン条約編 3章 ヒフミ 日本サーバー/韓国サーバー 代謝の比較 - YouTube https://www.youtube.com/watch?v=VVBUS1_GEKU 以下文字起こし 日本Ver グロ

                                                                                    ブルアカ エデン条約3章 グローバル版セリフ比較 (ネタバレ注意)