並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 2616件

新着順 人気順

文字起こし googleの検索結果121 - 160 件 / 2616件

  • AmazonやAppleの音声認識アルゴリズムに「黒人の声を上手く聞き取ることができない」問題があると研究者が指摘

    音声認識アルゴリズムはスマートスピーカーやスマートフォンなど、さまざまなデバイスやアプリケーションに採用されており、もはや日常の一部となっています。ところが、AppleやAmazon、Google、IBM、Microsoftなどの音声認識アルゴリズムを使った実験で、「音声認識アルゴリズム白人の声と比較して黒人の声を上手く認識できない」問題があることが判明しました。 Racial disparities in automated speech recognition | PNAS https://www.pnas.org/content/117/14/7684 There Is a Racial Divide in Speech-Recognition Systems, Researchers Say - The New York Times https://www.nytimes.com/

      AmazonやAppleの音声認識アルゴリズムに「黒人の声を上手く聞き取ることができない」問題があると研究者が指摘
    • Viceは死ぬべくして死に、404 Mediaは生まれるべくして生まれた | p2ptk[.]org

      Viceは死ぬべくして死に、404 Mediaは生まれるべくして生まれた投稿者: heatwave_p2p 投稿日: 2024/9/72024/9/7 以下の文章は、コリイ・ドクトロウの「Vice surrenders」という記事を翻訳したものである。 本稿はVice Mediaの崩壊について書かれたコラムだが、Viceの崩壊により生み出された404 Mediaについては、WirelessWire Newsに掲載された論考「ジャーナリスト自身が運営する404 Mediaにみる『オルタナメディア』の可能性」が大変に面白かったので、ご一読をおすすめしたい。 Pluralistic Viceは、まさに自らの生き様そのままに死んだ。より狡猾な捕食者にだまされ続け、その一方で自らの捕食本能を、自社の愚かな経営陣以上に騙されやすい者たちに向け続けた。安らかに眠れ。あのViceはもういない。 Viceを

        Viceは死ぬべくして死に、404 Mediaは生まれるべくして生まれた | p2ptk[.]org
      • Google にメールを届けるために 2023 冬 | IIJ Engineers Blog

        2015 年新卒入社。途中、2年ほど IIJ Europe に出向経験もあるが SMX の中の人として長年スパムメールと奮闘中。M3AAWG, JPAAWG にも参加し始め、メッセージングエンジニアとして頑張ってます。最近の趣味はぶらり都バス旅。 Google, Yahoo の Sender Guidelines について 前回、こんな記事を書いたもののいくつか説明を端折っていた部分があったので再度文字起こしをします。 # さらに、前回字面が強めだったので今回はもう少し優しめにします。 改めまして、IIJセキュアMX サービスの中の人、今村です。 師走に入り、気づいたらインフルエンザにかかり、、記事を公開するのに時間がかかってしまいました。 (みなさんもお気をつけください。) さて、2024/02 から Google, Yahoo! に一部のメールが受け取ってもらえなくなりますが、メール送

          Google にメールを届けるために 2023 冬 | IIJ Engineers Blog
        • いま売れに売れてるChromebookで1週間仕事をしてみた

          いま売れに売れてるChromebookで1週間仕事をしてみた2021.03.25 18:0055,668 Buy PR 三浦一紀 最近、Chromebook(クロームブック)が話題ですね。なんでもChrome OSがmacOSのシェアを超えているとか。多くは教育機関やビジネス向けとして大量導入されているからだとは思いますが、それにしても普及率がハンパないですね。 さすがにWindowsやmacOSと比べると機能的には物足りないところもあるのでしょうが、比較的安価でサクサク動くノートPCと考えると、かなりいい選択肢です。 そこで、Chromebookでどれだけ仕事ができるのか検証するため、1週間Chromebookだけで仕事をしてみました。 普段の仕事をChromebookだけでやってみる僕は普段MacBook Airを使って仕事をしています。仕事内容としてはWebの閲覧やメールのチェック、

            いま売れに売れてるChromebookで1週間仕事をしてみた
          • ChatGPT対抗のチャットAI「Claude」が公開、Googleが支援するOpenAIの元社員が設立したAIスタートアップが開発

            ChatGPTやDALL-E 2といったAIツールを開発したOpenAIの元社員が立ち上げたAIスタートアップのAnthropicが開発する、ChatGPTのようなチャットAIが「Claude」です。これまでNotionやQuora、DuckDuckGoといった主要パートナーと協力してクローズドアルファ版の開発を進めてきたというClaudeが、あらゆるユーザー向けに公開されました。 Anthropic | Introducing Claude https://www.anthropic.com/index/introducing-claude チャットAIのClaudeは、開発者コンソールのチャットインターフェイスにAPIを介してアクセスし、高度な信頼性と予測可能性を維持しながら、さまざまな会話およびテキスト処理タスクを実行できます。 Claudeは文章の要約・検索・ユーザーとの共同執筆・

              ChatGPT対抗のチャットAI「Claude」が公開、Googleが支援するOpenAIの元社員が設立したAIスタートアップが開発
            • MonotaROのデータ基盤10年史(後編) - MonotaRO Tech Blog

              こんにちは。データ基盤グループの香川です。 本記事は、MonotaRO のデータ基盤の歴史についての社内での発表の文字起こし記事の後編になります。 前編の記事: tech-blog.monotaro.com 前編では データ基盤の変遷の概要 2010年頃のデータ基盤 販促基盤とDWH(2010~2015) データ基盤構想とBigQueryの導入(2015~2017年) 同期システムの改良とBigQueryデータ基盤の展開(2018) までお話しましたが、後半たる本記事では以下について説明をしていきます。 他システムへのデータ提供とEC基盤の展開(2018) 2020年におけるデータ基盤へのデータ同期と利用状況 データ基盤の課題:データの管理体制の未整備による局所最適化 データ管理のグループ発足、Looker導入・DWH構築 歴史を振り返っての学び 歴史を振り返ることの意義 最後に 最後まで

                MonotaROのデータ基盤10年史(後編) - MonotaRO Tech Blog
              • 第1回 生成AIの得意・不得意 2024・夏 | gihyo.jp

                皆さんこんにちは。スリーシェイク代表の吉田です。 今回より生成AIを、金融業界や製造業、医療業界など各事業ドメイン固有の課題解決にどう使われているのか、具体的なユースケースを提示しながら、それを実現するアーキテクチャについて解説していきます。この連載を通して、これまで生成AIを実際のシステムに組み込むイメージが湧かない方への第一歩として手助けになれば幸いです。 第1回は、生成AI自体の一般的な得意不得意を踏まえながらユースケースを解説します。 生成AIが得意とする処理とは? 生成AIが得意とするのは、「⁠専門性のない一般的な知識をベースにした」テキスト生成、コード生成、画像認識や画像生成が挙げられます。RAG(Retrieval-Augmented Generation)やプロンプトエンジニアリングにより固有ドメインに特化させることは可能ですが、教師あり学習データを前提としたMLやDeep

                  第1回 生成AIの得意・不得意 2024・夏 | gihyo.jp
                • 話題の日本酒「ソースコード」を読んで(飲んで)みた | DevelopersIO

                  こんにちは、AWS事業本部@福岡オフィスのべこみん(@beco_minn)です。 早速ですが皆さん、日本酒は好きですか?私はほぼ毎週近所の酒屋さんに買いに行くぐらい大好きです。 つい最近、こんな日本酒がSNSで話題になっていました。 「自分好み」を読み解いてシステムエンジニアに捧ぐ日本酒 クリアな飲み口に、豊かなお米の旨みが溢れ出る上質な味わい。料理と合わせても、様々な温度帯でも楽しめる1本に、思わず誰もが「自分好みの楽しみ方」を探してしまう。「読み解きたくなるロジック」が詰め込まれた、システムエンジニアたちに飲んでほしい純米吟醸酒です。 とのこと。 はい、買いました。ラベルのソースコードが気になったというのもあるんですが、純粋に味が気になったので買ってみました。 本記事では味の感想含め、ラベルの内容についても触れたいと思います。 飲んでみた コードの解読前にまずは飲んでみます。お酒は飲ん

                    話題の日本酒「ソースコード」を読んで(飲んで)みた | DevelopersIO
                  • 僕は CREing:ソフトウェアエンジニアにカスタマーサクセスを任せたときに起こるもの、を Autify で実現したいと思っている - えいのうにっき

                    この文章で出てくる用語たち: SRE Site Reliability Engineering / Engineer 。 前者のことを指して SREing, 後者のことを指して SREs, と表記することもある サイトリライアビリティエンジニアリング - Wikipedia CRE Customer Reliability Engineering / Engineer 。 「CRE」という言葉が使われるときはだいたい後者な気がする。前者を指してこの言葉が使われてるのはあんまり見ないな、という印象がある 僕自身、前職でサーバーモニタリングSaaSに携わっていたこともあって「SRE」については最低限の知識というか、その概念の理解はあるつもり。でも最近目にしたこちらの記事を読んで、ああそうだった、と認識を新たにした表現があった。以下は、この記事の中の「そもそもSREとは何なのか」という問を受けて

                      僕は CREing:ソフトウェアエンジニアにカスタマーサクセスを任せたときに起こるもの、を Autify で実現したいと思っている - えいのうにっき
                    • 東大学生新聞HP - Sechiyama-statement

                      4月13日に行われた授業における瀬地山氏の弁解の書き起こしです。同氏の特に個人的な情報に関する部分は伏せております。 仮にも授業の内容を文字起こしすることについて問題視する方もいるかもしれませんが、瀬地山氏自身が弁解で書き起こしの重要性を訴えているため、今回に関しては問題にはならないと考えております。 その詳細は明かさないまでも、「精神科と関わりがあること」のみは明かすことについては、瀬地山氏が自身でLMS(授業より公開範囲が広い)に公開していること、授業で「ツイート等しないでほしい」と言っている部分にあたらないこと、それ自体は様々な解釈ができることから、その上で、瀬地山氏の主張の根幹に関わることから、公開は問題ないと判断しております。しかし、センシティブな案件のため、読者の皆様におかれましては、これ以上具体的にどのような関わりがあるかについての詮索は何卒お控えくださるようお願いいたします

                      • 【無料】高精度&爆速で文字起こしが終わるAIツール「Gladia」がスゴイ | 株式会社LIG(リグ)|DX支援・システム開発・Web制作

                        こんにちは、インハウスマーケティング部のかけるです。 生成AIによってライティング業務の効率化が進むなかで、「文字起こし」は生成AIが得意とする領域の一つです。 今回は数ある文字起こしAIのなかでも、実際に使ってみて良かった文字起こしAI「Gladia」について、その使い方や魅力をご紹介します! 「Gladia」は精度が抜群 https://www.gladia.io/ まず前提として、Gladiaの文字起こしの技術には、OpenAIがオープンソースとして公開している文字起こしAI「Whisper」が活用されています。 Gladiaの大きな魅力は、なんといっても音声から文字を起こす(Speech-to-Text)際の精度の高さです。 一般的に、音声認識の精度は「単語誤り率 (WER)」という、その音声認識モデルが音声をテキストへ変換する際にどれぐらい間違えてしまったのかという評価尺度があり

                          【無料】高精度&爆速で文字起こしが終わるAIツール「Gladia」がスゴイ | 株式会社LIG(リグ)|DX支援・システム開発・Web制作
                        • プロの議事録はここが違う。一目置かれる議事録作りの8つのメソッド|Shoichi Hasegawa

                          議事録は、書く側にも読む側にも「なんか面倒くさいな」と思われがちです。しかし、議事録をないがしろにするのは、情報流通を疎かにすることと同じ。 議事録の質を高めることは、仕事の評価を高めるだけでなく、ビジネスを加速させる力となります。 このnoteでは、「残念な議事録を少なくする」をテーマに、「文章を書くのが苦手」「情報の論理構造の整理が苦手」という方にも、実践可能な方法を書いていこうと思います。 新人の仕事といえば…議事録今回、アドビさんの「みんなの資料作成」という企画に参加し、「新社会人向けに社内資料のノウハウ」をお伝えすることになりました。 Adobe Acrobat「みんなの資料作成」 新人が任せられる資料の代表例といえば…議事録ではないでしょうか。 多くの会議に必須な議事録ですが、面倒な仕事でもあります。現場では、新人メンバーが議事録をまかせられる傾向があります。 ただ、新社会人の

                            プロの議事録はここが違う。一目置かれる議事録作りの8つのメソッド|Shoichi Hasegawa
                          • Notebook LMを活用して音声配信をもっと楽しむ方法

                            NotebookLM NotebookLMはGoogleが提供している生成AIを活用したサービスです。なんと(2024年10月現在は)無料で使えます。 NotebookLMは、Googleの生成AI Geminiのロングコンテキスト(多くの量のプロンプトを扱うことができるという意味)の特徴を活かした、文章の要約やQA対応が得意です。文章は、直接プロンプトに入れている(と思われる)ので、単なるRAGとは違う(と思われ)ます。 RAGとロングコンテキストのどっちが良いのかというのは、色々議論があるようです。例えばLost in the Middle: How Language Models Use Long Contextsという論文では「ロングコンテキストの真ん中の情報は失われるよ」みたいなことが書いてありますがRetrieval Augmented Generation or Long-C

                              Notebook LMを活用して音声配信をもっと楽しむ方法
                            • 初心者でもYouTube風「テロップ」を簡単に。世界一やさしい動画編集アプリ誕生秘話 | キャリアハック(CAREER HACK)

                              動画編集で最も工数のかかる作業のひとつが「字幕テロップ」。アプリ「Telorain」では、初心者でも簡単にYouTube風のテロップが作成できる。仕掛け人はスーパークリエータ、大峠和基さん。開発の裏側には、ユーザーの「楽しさ」をつくるための試行錯誤があった。 はじめての動画編集が「楽しめる」ように。 2020年5月にリリースされた動画編集アプリ「Telorain(てろれいん)」。 日常の風景やVlogなどのショートムービーをアップロードするだけで、YouTuber風の字幕をつけることができるすぐれものだ。 未踏事業で開発した、AIによりほぼ自動でプロクオリティのテロップを作れるiOSアプリ @telorainをローンチしました 雑に撮った日常やVlogなどのショートムービーにTV/YouTuber風の字幕を付けて楽しむことができます 紹介動画はtelorain(+AE)で作っています ▼無

                                初心者でもYouTube風「テロップ」を簡単に。世界一やさしい動画編集アプリ誕生秘話 | キャリアハック(CAREER HACK)
                              • サーバーレス技術の今と未来についてServerlessDays TokyoのPreEventで話してきました - めもおきば

                                𝕏にURL貼れなくなっているので、Zennにもマルチポストしています。 ServerlessDays Tokyo 2024 PreEvent 2024-09-21のServerlessDays Tokyo 2024にむけて、去年に引き続き、直前イベントでサーバーレス技術の今と未来について話してきました。 いよいよ明日からメインイベントですので参加お待ちしています! Serverless Update 2024 文字起こし スライド全体はDocswellさんで公開しています。 PreEventはYouTubeでアーカイブがあります。 サーバーレスのおさらい 「サーバーレス」は、誤解を招きやすい技術用語で様々な定義がありますが、ここでは2つの視点で定義します。 運用者の視点としてのサーバーレスは、物理的なマシンや仮想マシン、EC2インスタンスのような「サーバー」を自分で管理するのではなく、そ

                                  サーバーレス技術の今と未来についてServerlessDays TokyoのPreEventで話してきました - めもおきば
                                • 【徹底比較】ChatGPTに「DeepResarch」登場。GeminiやGensparkの同機能と結果を比較|たてばやし淳.エクセル兄さん@ ChatGPT書籍8冊執筆

                                  【徹底比較】ChatGPTに「DeepResarch」登場。GeminiやGensparkの同機能と結果を比較 ChatGPTにDeepResarch(ディープリサーチ)機能が登場。他のAIサービスと比較したい以前、Voicyで「2時間ほどかかるリサーチ作業をAIに任せたら、わずか5分で終わった」という話をしたことがあります。いわゆる「DeepResearch」というAIエージェントがWeb調査を自動化してくれるという内容でしたが、そこへついにChatGPTからも、同様の調査機能が登場して話題になっています。 実は「DeepResearch」という名称を持つAI機能は他にもありましたが、ChatGPTの新機能はアウトプットの品質と精度が高いということで、各所で評判になっているのです。私も早速試したのですが、使い勝手が思った以上に良く、これならVoicyでも紹介したいと思うほど役立ちそうだと

                                    【徹底比較】ChatGPTに「DeepResarch」登場。GeminiやGensparkの同機能と結果を比較|たてばやし淳.エクセル兄さん@ ChatGPT書籍8冊執筆
                                  • ChatGPT以外にも試す価値のある生成型AIツール10選 | Forbes JAPAN 公式サイト(フォーブス ジャパン)

                                    最近テック分野の動向を追っている人なら、ChatGPTやBardについてよく耳にしているだろう。OpenAI(オープンエーアイ)やMicrosoft(マイクロソフト)、Google(グーグル)が大規模な言語モデルを続々と一般公開している。 だが、より小規模なジェネレーティブ(生成型)AIプロジェクトもこの1年で多数展開されてきた。生成型AIツールは音楽、アート、文学などさまざまな分野に大きな影響を及ぼしている。画像を作成するツールもあれば、電子メールを下書きするものもある。あるツールは動画を制作する。しかし、いずれのツールもより多くの人がクリエイティブな分野に親しめるようにしながら時間を節約するために作られた。我々がいかに迅速に作業を行うか、法的・倫理面での予期せぬ問題、生成型AIが仕事に与える究極の影響についてはまだ結論は出ていないが、生成型AIが定着していることは明白になりつつある。

                                      ChatGPT以外にも試す価値のある生成型AIツール10選 | Forbes JAPAN 公式サイト(フォーブス ジャパン)
                                    • 今年のオープンソース活動振り返り @ 2020

                                      2020年のオープンソース活動の振り返り記事です。 今までの振り返り。 今年のOSS活動振り返り @ 2019 | Web Scratch 今年のOSS活動振り返り @ 2018 | Web Scratch 今年のOSS活動振り返り @ 2017 | Web Scratch 今年のOSS活動振り返り @ 2016 | Web Scratch 今年のOSS活動振り返り @ 2015 | Web Scratch 今年のOSS活動振り返り @ 2014 | Web Scratch 2020年のGitHubのPublicなContributionsは7000~9000ぐらいを推移していました。 最近はPrivateリポジトリをメモやブックマーク管理などでも使うようになったので、Private比率は増えてPrivateなContributionsは13400でした。 GitHub Issuesを個人

                                        今年のオープンソース活動振り返り @ 2020
                                      • NotebookLM を日本語でも提供開始。ウェブサイトや Google スライドにもサポート

                                        昨年の夏、Google は AI を活用したリサーチや執筆する際のアシスタントである NotebookLM を発表しました。そして本日より、 Google Labs で Gemini 1.5 Pro を搭載した更新版の NotebookLM を日本語を含む言語で 200 以上の国と地域に順次提供します。 私たちが NotebookLM で目指してきたのは、複雑な資料を理解して精査し、情報から新しい類似性を見つけ、下書きなどをすばやく作成するのに役立つツールの開発です。研究論文や取材記録、仕事でのドキュメントなどの参照文献(ソース)をアップロードすると、NotebookLM がそれらの重要な資料を理解し、必要なサポートを提供します。また、本日からお使いいただける NotebookLM では、英語で提供していたものから更新し、いくつかの新機能も導入します。 Google ドキュメント、PDF、

                                          NotebookLM を日本語でも提供開始。ウェブサイトや Google スライドにもサポート
                                        • iPhoneより格安のPixel 7が想像以上のパフォーマンスを発揮 | Forbes JAPAN 公式サイト(フォーブス ジャパン)

                                          最新のGoogle謹製Android端末、Pixel7とPixel7Pro。暗所に強いカメラに加え、GoogleのAIを活用したオリジナルプロセッサ「Tensor G2」などが特徴です。 発売後もiPhoneから乗り換えたユーザーの多くがべた褒めしています。どれほど良いスマホなのか、私も気になったので両方とも購入して試してみました。 サイズ感はiPhoneより若干大きめ 右がPixel7 Pro 左がPixel7 まずはサイズ感から。横幅に関しては、iPhone14 Proの71.5mmに比べて双方とも数ミリ大きいです。Pixel7 Pro とPixel7は横幅は1mmしか違わないので、「持ち感」に関してはPixel7とPixel7 Proとの間には、あまり差を感じません。 男性にしては手が小さめで、iPhone14 Proが片手で使うには限界の僕としては、Pixel7 Pro もPixe

                                            iPhoneより格安のPixel 7が想像以上のパフォーマンスを発揮 | Forbes JAPAN 公式サイト(フォーブス ジャパン)
                                          • OpenAIの文字起こしAI「Whisper」の使い方 | DXを推進するAIポータルメディア「AIsmiley」

                                            OpenAIが発表した音声認識モデル「Whisper」は、日本語の音声でも精度高く文字起こしできるツールとして知られています。今回はアイスマイリー編集部が「AIニュース原稿の読み上げ音声を素材にどのくらい精度高く文字起こしできるのか」や「生活騒音下における読み上げ音声でも結果は変わらないのか」について調べてみましたので是非やり方を真似して試してみてください。 記事後半ではWhisper APIおよびChatGPT APIを活用した文字起こしサービスである「writeout.ai」の紹介も行っていますので、業務への活用イメージとしてご活用ください。 生成AIについて詳しく知りたい方はこちらの記事もご覧ください。 生成AI(ジェネレーティブAI)とは?種類・使い方・できることをわかりやすく解説 音声認識モデルとは? 音声認識モデルとは、AIが人間の声を認識し、認識した音声をもとに何らかのデータ

                                              OpenAIの文字起こしAI「Whisper」の使い方 | DXを推進するAIポータルメディア「AIsmiley」
                                            • LLMアプリケーションからAgenticアプリケーションの時代へ〜「LangChainとLangGraphによるRAG・AIエージェント[実践]入門」の出版に寄せて - Generative Agents Tech Blog

                                              ジェネラティブエージェンツの西見(@mah_lab)です。 2022年11月のChatGPT公開前夜にGPT-3.5の最新モデルtext-davinci-003が公開され、このモデルもまた人間の書いた文章と見分けがつかない自然な生成できるとされ大いに話題になりました。しかし、大規模言語モデル(以下LLM)を活用したアプリケーション開発が本格的に活発化したのは、やはり2023年3月1日のChatGPT API(gpt-3.5-turbo)の公開からでしょう。 openai.com gpt-3.5-turboの登場、検索から生成へ このAPIは1kトークンあたり0.002ドルと、text-davinci-003の1/10の価格で提供されました。チャット向けにインストラクションチューニングされているため、チャットボットを開発するのに有用です。何よりも、一世を風靡していたChatGPTのようなアプ

                                                LLMアプリケーションからAgenticアプリケーションの時代へ〜「LangChainとLangGraphによるRAG・AIエージェント[実践]入門」の出版に寄せて - Generative Agents Tech Blog
                                              • 【プレイバック2021】Google Pixel 6 Proの文字起こし機能だけで記事を書いてみた by 麻倉怜士

                                                  【プレイバック2021】Google Pixel 6 Proの文字起こし機能だけで記事を書いてみた by 麻倉怜士
                                                • 誰でも書ける『Web記事』の作り方|記事作成編 - イーアイデム「ジモコロ」

                                                  こんにちは! バーグハンバーグバーグ編集部です。 新人ライターさんから編集部によく寄せられる「どうやって記事を作ればいいですか!?」という声。 そこで、どんな人でも書けるようになる『Web記事の作り方』を、前回まで2回にわたって解説してきました。 今回は、実際に記事を作成する段階のコツを解説します! 今までと同じく、ジモコロ編集部のギャラクシー(左)と加藤(右)が、新人ライター瀬戸はるかさんに、解説する形で進めます! ▼登場人物 WEBライター|瀬戸はるか フリーの新人ライター。取材やインタビューはほぼ未経験。 ジモコロ編集長|ギャラクシー 雑誌の編集、通販番組の脚本を経てWEB編集者に。【ギャラクシーが書いた記事】 WEB編集者|加藤亮 編集プロダクションで編集とライティングを学んだ。【加藤が書いた記事】 文字起こしについて インタビューを記事にする時、自分でやってみて思ったのが、とにか

                                                    誰でも書ける『Web記事』の作り方|記事作成編 - イーアイデム「ジモコロ」
                                                  • サーバーレス技術の今と未来についてServerlessDays Tokyo 2024 直前イベントで話してきました

                                                    ServerlessDays Tokyo 2024 PreEvent 2024-09-21のServerlessDays Tokyo 2024にむけて、去年に引き続き、直前イベントでサーバーレス技術の今と未来について話してきました。 いよいよ明日からメインイベントですので参加お待ちしています! Serverless Update 2024 文字起こし スライド全体はDocswellさんで公開しています。 PreEventはYouTubeでアーカイブがあります。 サーバーレスのおさらい 「サーバーレス」は、誤解を招きやすい技術用語で様々な定義がありますが、ここでは2つの視点で定義します。 運用者の視点としてのサーバーレスは、物理的なマシンや仮想マシン、EC2インスタンスのような「サーバー」を自分で管理するのではなく、その管理をクラウド事業者に任せるという考え方で、要するに完全従量課金型のフル

                                                      サーバーレス技術の今と未来についてServerlessDays Tokyo 2024 直前イベントで話してきました
                                                    • OpenAIが「Sora」の学習にYouTube動画を使ったとすれば違反──YouTubeのモーハンCEO

                                                      米Google傘下のYouTubeのニール・モーハンCEOは4月4日(現地時間)、米Bloombergとのインタビューで、米OpenAIがもし自社のAIモデルのトレーニングにYouTube動画を使っているとすれば、それはYouTubeポリシーの「明らかな違反」になると語った。 OpenAIのミラ・ムラティCTO(最高技術責任者)は3月、米Wall Street Journalとのインタビューで、2月に発表した動画生成AIモデル「Sora」のトレーニングにYouTube、Facebook、Instaramなどの動画を使ったかどうか問われ、分からないと答えた。 モーハン氏は「クリエイターが努力して作った成果をYouTubeにアップロードするとき、彼らは利用規約が順守されると信じている」ので、「トランスクリプト(文字起こし)や動画などのダウンロードは許可されておらず、それは明らかな違反だ」と語っ

                                                        OpenAIが「Sora」の学習にYouTube動画を使ったとすれば違反──YouTubeのモーハンCEO
                                                      • Pixel 7発売後でも「Pixel 6a」を買うべき理由 外観からAI、カメラまでをじっくり検証

                                                        Pixel 7発売後でも「Pixel 6a」を買うべき理由 外観からAI、カメラまでをじっくり検証(1/5 ページ) 「Google Pixel 6a」は、5万円台で手に入るPixel(ピクセル)シリーズの入門機だ。高級機と同じプロセッサを搭載し、自動文字起こしや消しゴムマジックといったPixelシリーズならではの機能が利用できる。このレビューではPixel 6aの実力を検証しつつ、Pixel 7/7 ProやPixel 6/6 Proとの違いも紹介する。 Pixel 6aは“Google版のiPhone SE” Pixel 6aは2022年7月28日に発売された、Google Pixelシリーズのスマートフォンだ。Pixelの低価格ライン「a」シリーズに属し、Google Storeでは5万3900円(税込み、以下同)で販売されている。携帯電話キャリアではauとソフトバンクが取り扱ってい

                                                          Pixel 7発売後でも「Pixel 6a」を買うべき理由 外観からAI、カメラまでをじっくり検証
                                                        • 「Googleドキュメント」の音声入力機能がアップデート--使い方を解説

                                                          声は強力なツールだ。Googleの音声入力機能は、声による文字入力を支援するだけでなく、プレゼンにも活用できる。 Googleの音声入力機能を使えば、自分の声を使って、頭の中の考えを素早く簡単にデジタル化できる。 Googleは米国時間1月9日、音声入力でより正確かつ安定した文字起こしを実現するアップデートを段階的にリリースすると発表した。 主な変更点は次のとおりだ。 音声を文字起こしする際の変換ミスを削減 文字起こしの漏れを最小化 対象が大半の主要ブラウザーに拡大 「Googleスライド」のキャプションに句読点を自動挿入 強化された音声入力機能を実際に使えようになるのは大半のユーザーの場合、2月9日以降だ。その間に、Googleの音声入力機能を使って「Googleドキュメント」で入力・編集をしたり、Googleスライドのスピーカーノートに音声でテキストを入力したりする方法を紹介しよう。

                                                            「Googleドキュメント」の音声入力機能がアップデート--使い方を解説
                                                          • 「Pixel 7/7 Pro」速攻レビュー 性能重視ではないが、多くの人に“刺さる”と感じた理由

                                                            「Pixel 7/7 Pro」速攻レビュー 性能重視ではないが、多くの人に“刺さる”と感じた理由(1/4 ページ) Googleが自身で開発した「Pixel 7」「Pixel 7 Pro」が、10月13日に発売される。Pixelシリーズは、Googleが得意とするソフトウェアやAIを融合させ、新たな価値を提供するためのハードウェア。2021年に発売された「Pixel 6」「Pixel 6 Pro」からは、プロセッサも独自設計の「Tensor」になり、AIの活用が一段進んだ。コンピュテーショナルフォトグラフィーをリードするカメラ機能や、日本語を含めた文字起こし機能は、同モデルの代名詞になりつつある。 最新モデルのPixel 7シリーズには、第2世代のTensorとなる「Google Tensor G2」を採用。この処理能力を生かし、カメラや画像処理に新機能が加わっている他、AIを使った顔認証

                                                              「Pixel 7/7 Pro」速攻レビュー 性能重視ではないが、多くの人に“刺さる”と感じた理由
                                                            • Streamlit × GKE で構築する社内向けツール - enechain Tech Blog

                                                              この記事はenechain Advent Calendar 2024の10日目の記事です。 はじめに enechain データサイエンスデスク エンジニアの藤村です。 我々データサイエンスデスクは、電力や燃料に関するデータ分析や予測モデルの構築などの他に、enechainの様々なビジネスをサポートする社内向けツールの開発・運用も行っています。機械学習や数理最適化を活用したアプローチを中心に、最近ではLLMの活用にも取り組んでいます。 本稿では、この取り組みでStreamlitアプリケーションをGKEでホストするに至った経緯や、その運用について紹介します。 なぜ Streamlit なのか 社内の業務を支援するツールを構築する際、常に課題となるのが「人間の判断をどのように介在させるか」という点です。ドメインやアルゴリズムの性質上、自動化が難しい部分も多く、人間の判断を介在させる必要のある場面

                                                                Streamlit × GKE で構築する社内向けツール - enechain Tech Blog
                                                              • 2024 の振り返り

                                                                2025 年に書いています。2024 を振り返ります。 仕事 現職 12 年目がそろそろ終わる。2023 末に Head of Security and IT というポジションを継いだり1、その上で Corporate Engineering チームではオフィスの池尻大橋移転があったので主にその方面の仕事をしたりしていた。一方プロダクト方面では Software Engineer (Platform) な帽子も引き続き持っていて、One Experience という、従来ばらばらに開発していたグローバル版に日本版のシステムをマージするという大掛りなプロジェクトをずっとやっていた。といっても、自分は前述の通り別の責務が増えてしまっていて、キックオフや方針決め、日英のブリッジ、セキュリティ面のコードレビューに関わったくらいで実作業はあんまりできていない 2。これらを総括すると引き続き仕事の 4

                                                                • RailsConf 2023 参加レポート - ZOZO TECH BLOG

                                                                  こんにちは、バックエンドエンジニアの近です! 4/24〜4/26にかけてアトランタで開催されたRailsConf 2023にWEARバックエンドブロックから近・小山・高久の3人が参加しました。 去年はコロナの影響もあってオンラインの開催だったのですが、今年はオフラインでの開催となり、大勢が参加していて大盛況でした。 我々が開発・運営しているファッションコーディネートアプリ「WEAR」のバックエンドはRuby on Railsで開発しています。現在では、新機能の開発やリプレイスなど、チームメンバーの全員がRuby on Railsに関わっているため、今回RailsConfにて様々なセッションを聞けたことはとても有意義な経験でした。 RailsConfとは 1年に1回開催されるRuby on Railsに関する世界最大のカンファレンスとなります。(公式サイト) 2020〜2022年はコロナの影

                                                                    RailsConf 2023 参加レポート - ZOZO TECH BLOG
                                                                  • シングルGPUで動作するTransformer相当のRNNモデル RWKV-Raven-14Bを試してみた | DevelopersIO

                                                                    こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 今回はシングルGPUで動作するTransformer相当のRNNモデル、という噂のRWKVについて試してみたいと思います。 RWKVとは TransformerベースのLLMと同等の性能を持つ、並列化可能なRNNモデルであり、Attentionフリー(Attention構造を持たない)なモデルです。 ライセンス形態がApache License 2.0かつ、シングルGPUでも動作する点が凄いところとなっています。 GitHub https://github.com/BlinkDL/RWKV-LM Huggin Face https://huggingface.co/BlinkDL Hugging Face側にモデルがいくつか公開されており、rwkv-4が付くものが最近よく話題で使用されているもので

                                                                      シングルGPUで動作するTransformer相当のRNNモデル RWKV-Raven-14Bを試してみた | DevelopersIO
                                                                    • kateinoigakukunがプログラムに興味を持ったきっかけ、Wasmとの出会い。深掘りRubyKaigi 2022 with ko1 & kateinoigakukun 文字起こしレポートvol.1 - STORES Product Blog

                                                                      2022年10月5日に『深掘りRubyKaigi 2022 with ko1 & kateinoigakukun ~ RubyKaigiどうでした&RubyのWASI/並列どうなるの? ~』を開催しました。イベントでお話した内容を3部作でお届けします。 自己紹介 fujimura:皆様、今日はお集まりいただきありがとうございます。今日はゲストにkateinoigakukunさんと、笹田さんをお迎えしております。プログラムとしては、前半でkateiさんにWasmの話を聞いて、後半に笹田さんに並列並行のところを聞くというようなコンテンツでやっていきます。 さっそく始めていこうと思うのですが、僕らの自己紹介と、kateiさんの自己紹介から始めようかな。僕は STORES でCTOをやってる藤村と申します。RubyKaigiもリアルで参加して、非常に楽しかったです。じゃあ、hogelogさん。 h

                                                                        kateinoigakukunがプログラムに興味を持ったきっかけ、Wasmとの出会い。深掘りRubyKaigi 2022 with ko1 & kateinoigakukun 文字起こしレポートvol.1 - STORES Product Blog
                                                                      • 深津貴之さんが解説、AI モデルを使い分けて使いこなす|Gemini - Google の AI

                                                                        *本 note は、Google が深津貴之さんにインタビューした内容を編集して掲載しています。深津さんには、Gemini の改善や活用のための知見をいただくため、アドバイザーに就任いただいています。また、Gemini を含む生成 AI の利用に関する説明は例示を目的としています。実際の回答結果については、ご自身で正確性をご確認いただくようお願いいたします。 こんにちは。Google の AI「Gemini(ジェミニ)」の公式 note 編集部です。 今回は、Gemini のアドバイザーで、Gemini を初期から使っているユーザーでもある深津貴之さんのインタビューをお届けします。 深津さんは 2023 年初頭、プロンプトを構造化して生成 AI からの出力精度を高める「深津式プロンプト」を公開しました。当時画期的だったこのテクニックは生成 AI の広がりとともに多くの人に使われたのです。そ

                                                                          深津貴之さんが解説、AI モデルを使い分けて使いこなす|Gemini - Google の AI
                                                                        • 無料で使えるChatGPT公式iOSアプリが日本でもインストール可能になったので使ってみた

                                                                          2023年5月26日、ChatGPTのiOS版アプリの提供地域が拡大され、日本でもついに利用可能となっています。アプリから簡単にChatGPTが利用できるということで、さっそくインストールしてAIと会話してみました。 We expanded the ChatGPT iOS app to 30+ more countries today! Now serving users in Algeria, Argentina, Azerbaijan, Bolivia, Brazil, Canada, Chile, Costa Rica, Ecuador, Estonia, Ghana, India, Iraq, Israel, Japan, Jordan, Kazakhstan, Kuwait, Lebanon, Lithuania (????1/2)— OpenAI (@OpenAI) May 2

                                                                            無料で使えるChatGPT公式iOSアプリが日本でもインストール可能になったので使ってみた
                                                                          • ChatGPT と Whisper で発音練習アプリを作ってみた - NTT Communications Engineers' Blog

                                                                            この記事は NTTコミュニケーションズ Advent Calendar 2023 の15日目の記事です。 この記事では、ChatGPT と 音声認識モデルの Whisper を用いた発音練習アプリケーションをご紹介します。 ChatGPT に読み上げる文章を考えてもらい、その文章の読み上げた音声を Whisper で文字起こしします。 正確に発音できていれば、正確に文字起こしできる、という考えから、 原稿と文字起こし結果を比較すれば発音練習に使えるのではないかと考えました。 実際に使ってみた結果、発音のどこが悪かったのかといったフィードバックはもらえませんが、 自分の発話した音声に対して評価がつくだけでも、結構楽しく練習できると感じました。 音声認識を活用したアプリケーションは、一般に音声認識精度がネックになると思いますが、 このアプリケーションは音声認識精度が100%ではないことを逆手に

                                                                              ChatGPT と Whisper で発音練習アプリを作ってみた - NTT Communications Engineers' Blog
                                                                            • マルチモーダルLLMで複雑な画像を攻略:AOAIでGPT-4oをFine-tuning - Insight Edge Tech Blog

                                                                              はじめに Insight EdgeのLLM Engineerの藤村です。 昨今、企業のDX推進に伴い、社内に蓄積された大量の画像データや文書の効率的な活用が求められています。弊社では、実務でLLMを活用する際、画像や表形式、複雑な図を含むドキュメントの理解が大きな課題となっています。この課題は多くの企業でも同様に直面していると考えられ、その解決は業務効率化において重要な意味を持ちます。 例えば: PowerPointの表やグラフの内容理解 手書きのホワイトボード写真からの情報抽出 複雑な組織図の階層関係の把握 スキャンした文書の図表部分の解釈 これらの課題に対して、以下の2点を検証しました: 最新のマルチモーダルLLMでどこまで対応できるのか GPT-4oのファインチューニングによってどの程度改善できるのか 目次 はじめに 目次 マルチモーダル大規模言語モデルとは 1. 主要マルチモーダル

                                                                                マルチモーダルLLMで複雑な画像を攻略:AOAIでGPT-4oをFine-tuning - Insight Edge Tech Blog
                                                                              • 経理からプログラマへ、Lramaの今後、なぜBisonを倒したのか。深掘りRubyKaigi 2023 with spikeolaf & makenowjust 文字起こしレポート vol.2 - STORES Product Blog

                                                                                2023年6月15日に『深掘りRubyKaigi 2023 with spikeolaf & makenowjust』を開催しました。イベントの内容をほぼ全文文字起こし形式でお届けします。この記事は第2部です。 hey.connpass.com 登場人物 ゲスト makenowjust/藤浪 大弥さん spikeolaf/金子 雄一郎さん STORES fujimura/藤村 大介 shyouhei/卜部 昌平 hogelog/小室 直 パーサとの出会い fujimura:金子さんのパートにいきます。簡単にどんな話をRubyKaigi 2023でしたか紹介していただけますでしょうか? spikeolaf:ここ2年ぐらい、主にAnd the WorldっていうRubyKaigiの名物コンテンツを見ていると、パーサへの関心というのは高まってきていて、ここ何年かで何が問題かはだいぶ整理されてきて

                                                                                  経理からプログラマへ、Lramaの今後、なぜBisonを倒したのか。深掘りRubyKaigi 2023 with spikeolaf & makenowjust 文字起こしレポート vol.2 - STORES Product Blog
                                                                                • LLM開発のためのデータエンジニアリング - Qiita

                                                                                  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? LLM開発のためのデータエンジニアリング MLOps Advent Calendar 2023の24日目です。 Stability AIでデータ系のソフトウェアエンジニアをやっているcvuskです。主な仕事は日本語LLMのためのデータ開発です。Stability AIでは日本語LLMも各種開発しています。LLMの学習というと大量のGPUを用意して巨大なデータでモデルを学習する、というキラキラしたイメージ(?)が強いかもしれませんが、データが重要かつ苦労が耐えない課題であることは他の機械学習やディープラーニングモデルと違いありません。日本

                                                                                    LLM開発のためのデータエンジニアリング - Qiita