並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 62件

新着順 人気順

Whisperの検索結果1 - 40 件 / 62件

  • クレディセゾンでDXを進めてきた5年間を振り返る|小野 和俊

    はじめにクレディセゾンに来てちょうど5年が経ったので、これまでの取り組みをまとめてみようかと思う。書き進めていくうちにとても長くなってしまったので、1年につき3トピックに絞ってあとはカットした。それでも5年分なこともありかなり長くなったので、目次から各トピックに飛んでもらえればと思う。社内の関係者も読むかもしれず、「自分のやったことが載ってない!」と思うこともあるかもしれないが、内製開発案件だけでも53案件あり全部載せるととんでもない量になるので許してほしい。それから、振り返ってまとめると退職すると勘違いされるかもしれないけれど、退職するわけではありません! 2019年:ゼロからのスタート1-1. 内製開発エンジニア募集を始める「日本のそれなりの規模の事業会社の中に、内製開発チームを立ち上げることはできるのだろうか?」 2019年3月、クレディセゾンに来たばかりの私にとってはこの質問への答

      クレディセゾンでDXを進めてきた5年間を振り返る|小野 和俊
    • 日本のアニメ映画を米Pasteが厳選「歴代ベスト・アニメ映画 TOP100」発表 - amass

      日本のアニメ映画を、米国のエンタテインメント系メディアPaste Magazineが厳選。「歴代ベスト・アニメ映画 TOP100」を発表しています。 Pasteは以前に、日本のTVアニメ・シリーズを厳選した「歴代ベスト・アニメ・シリーズ TOP30」を発表しています。詳しくはこちら 100. The Boy and the Beast (2015) バケモノの子 99. Mobile Suit Gundam F-91 (1991) 機動戦士ガンダムF91 98. On-Gaku: Our Sound (2021) 音楽 97. Ah! My Goddess: The Movie (2000) 劇場版 ああっ女神さまっ 96. Dallos (1983) ダロス 95. When Marnie Was There (2014) 思い出のマーニー 94. A Dog of Flanders (

        日本のアニメ映画を米Pasteが厳選「歴代ベスト・アニメ映画 TOP100」発表 - amass
      • 「思考を整理する方法」を模索して辿り着いた先|Yuki Fujisaki|DeployGate Inc.

        こんにちは。DeployGateの藤﨑です。 仕事をしていると、とにかく考えて答えを出さないといけないことが数多くあります。すぐ思いついてアウトプットできることならいいのですが、大事なものは大体、どこから考え始めればいいのか分からないことだったり、なんとなく浮かんでいるんだけどうまく言語化できないものだったりします。 そんなときに、どうやってその状況を抜け出して、話を深めていくか。今日は、最近自分がやってみて、とても効果を感じられた手法について紹介します。 これまでの手法自分が考え事をする上で、まずやるのはテキストで書き出すということでした。何らか課題について考えるときは、ひたすら箇条書きで考えを書き出していくということをします。だいたいNotionにページを作って箇条書きでひたすら書き出しています。 それ以外だと、やはり紙とペンです。長年適当なコピー用紙→ノート→コンパクトなメモ…と移り

          「思考を整理する方法」を模索して辿り着いた先|Yuki Fujisaki|DeployGate Inc.
        • GWにChatGPTについて振り返りたい人向けまとめ - まなめはうす

          今や毎日耳にするChatGPTだけれど、そもそもどんな風に話題になってきたのかをこのGWを利用して振り返りたいって人もいるはず。そんな人のためにChatGPT関連ニュースをまとめておきましたので、ぜひご利用ください! 良い振り返りで、良い人生を。 このタイトルだけでもChatGPTに食わせて、話題の流れをまとめてもらうのが一番かも? 週刊東洋経済 2023/4/22号(ChatGPT 仕事術革命) 作者:週刊東洋経済編集部東洋経済新報社Amazon 2020/06/01 あまりに高精度のテキストを作り出してしまうため「危険すぎる」と問題視された文章生成言語モデルの最新版「GPT-3」が公開 - GIGAZINE 2020/07/21 GPT-3の衝撃 - ディープラーニングブログ 2020/07/22 「GPT-3」は思ってたより「やばい」ものだった。話し言葉でプログラミングまでこなすAI

            GWにChatGPTについて振り返りたい人向けまとめ - まなめはうす
          • 30分で完全理解するTransformerの世界

            はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

              30分で完全理解するTransformerの世界
            • AI 激動の年!2022年の人工知能10大トレンドと必読論文

                AI 激動の年!2022年の人工知能10大トレンドと必読論文
              • 文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

                会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。 すると、GitHubアカウントでのサインインを求められます

                  文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
                • セキュリティ担当者がChatGPTの業務利用方針を検討するうえでの留意点

                  目次[非表示] 1.はじめに 2.AI関連の指針・原則・ガイドラインの動向 2.1.国内における分野横断の主なAI関連の指針・原則・ガイドライン 3.ChatGPTの業務利用に関する動向 3.1.ChatGPT等の業務利用を推進する企業様のニュース 3.2.ChatGPTの業務利用を制限・禁止する企業様のニュース 3.3.AIサービスの業務利用に関するガイドライン策定のニュース 4.ChatGPTのプライバシーポリシーと利用規約における留意点 4.1.情報漏えい 4.2.情報の正確性 4.3.参照 5.ChatGPT Web版の業務利用における情報セキュリティ上の留意点のまとめ 5.1.情報漏えい 5.2.情報の正確性 6.まとめ はじめに昨今、ChatGPTに関する話題に注目が集まるなか、「業務利用」について検討される企業様が増加しています。実際に、クラウドリスク評価「Assured(ア

                    セキュリティ担当者がChatGPTの業務利用方針を検討するうえでの留意点
                  • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                    株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                      超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                    • 時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす

                      みなさん、こんにちは!9月は久しぶりに個人開発をしてました。 今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です! 「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え?大丈夫なの?」って感じですよね笑 でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います! 「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能 (10時間でも100時間でも!)使いやすさにこだわった機能 (コピー、シェア、自動タイトル生成など)「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げます そして、無

                        時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす
                      • DALLE3 (ダリスリー) の無料教科書:初級編|プチpony

                        DALL-E3を実装日からほぼ毎日使用し面白さにとりつかれています。何となくで触っているため, いまいち思った画像が出来ないことも多々ありましたので今回まじめに作成法を勉強してみました。初級編と名前がついているのは高等テクニックを教えるほどの技術がないだけで後に上級編が控えているという意味ではないです。 0. はじめに DALL-E とはシンプルなテキストのみで画像がつくれるAIです。 簡単なテキストのみで画像生成語源は『ウォーリー探せ』と芸術家の『ダリ』から来ているみたいです。ウィーリーはある種の「探し物」をする, userが提示するテキストのプロンプトから隠された要素やまだ見ぬ画像を「探し出し」生成することらしいです。 ウォーリーをインスパイアした少年1. 問題点, 主に著作権やはり何と言っても著作権問題ではないでしょうか。現在法整備が進行しているところです。OpenAIはコンテンツポ

                          DALLE3 (ダリスリー) の無料教科書:初級編|プチpony
                        • 文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉

                          どうもこんにちは、あんどう(@t_andou)です。 前回宣言した通りに誰でも簡単にYoutubeの字幕ファイルを作る方法を書きます。 「Youtubeの」と書いていますが、実際はどの動画でも対応してます。 前回の記事 blog.takuya-andou.com まずはGoogleColabの共有 colab.research.google.com 使い方 GoogleColabに記載していますが 1.GPUを使用するように切り替え 上の「ランタイム」→「ランタイムのタイプを変更」からからGPUを選択 2.右上の接続 下のセルを実行すると自動的に接続されるので省略可能です 3.動画をアップロード ここにドラッグ&ドロップでアップできます 大容量のデータの場合、GoogleDriveと連携した方が効率的です 4.入出力のパスの変更 ファイル名に合わせて変更してください 5.全セルを実行 あと

                            文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉
                          • 愛すべき昔の歌ヘタアイドルたち

                            https://anond.hatelabo.jp/20200924204657 これを読んで、増田の訴えたいことはともかく、確かに懐メロ番組とかの影響で、 昔のアイドルはみんな歌がうまかったみたいに思い込んでいる人が多いよな~と思ったので アイドルオタの間で特に言及されがちな人、個人的に下手だな~と思った人の中からめぼしい所をピックアップしてみる。 (中にはアイドルか?って思う人もいるだろうが、一応全員アイドル物のオムニバスCDに入ってたりしてるんですわ) URL貼りまくると投稿できないんで、どうしてもこれはって奴だけURL付き。 下手だけどみんな味があって良いので、気になるアイドルがいたら色々聞いてみて欲しい。 ブコメで結構言及されていた浅田美代子と、わざわざ触れなくても名前が出そうな超メジャー所(松本伊代とか)は省く。 あいつがいないという人が出るだろうけどそこは申し訳ない。 (追記

                              愛すべき昔の歌ヘタアイドルたち
                            • OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能

                              画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン

                                OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
                              • Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び|にょす

                                日常生活の中で生まれた「できごと」や「思ったこと」を、楽しく記録できるメモ日記アプリを開発しました! しゃべったら、あとは丸投げして良い感じにメモを残してくれる「シャべマル」です!(笑) シャべマルの紹介具体的には、、 絵文字で見返せるメモアプリあんまりないですが、良いですよ…!音声入力でメモ内容を作成。かなり高精度な音声認識モデル(Whisper)を用いているので、想像以上にちゃんと文字起こししてくれます! 「今日あったこと」など、日記として利用するのもオススメです。1日を振り返る機会になって、それが後から振り返りできるので、あの時こんなこと考えていたなー、といった発見につながるはずです! そして個人的にここが目玉なのですが、文字起こしされたメモには、「タイトル」「絵文字アイコン」「感情アイコン」「カテゴリ」が自動で紐づきます! これ何が良いかというと、圧倒的に見返しやすくなるんですよね

                                  Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び|にょす
                                • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

                                  東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

                                    超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
                                  • 英語学習は AI と行う時代がついに到来!? ChatGPT と LINE Bot でオンライン英会話アプリ「Small GPTalk」を作ってみた | DevelopersIO

                                    こんにちは。CX 事業本部 Delivery 部のきんじょーです。 ChatGPT の API がついに提供されたということで、チャット AI 界隈が盛り上がっていますね。 このビッグウェーブに乗り遅れてはいけないと思い、ChatGPT の優れた自然言語処理能力を活かして LINE で英会話の練習をする「Small GPTalk」というサービスを作ってみました! アプリの紹介と、アプリ作成を通して感じた ChatGPT の可能性についてブログ化していきます。 Small GPTalk とは Small GPTalk は、ChatGPT から派遣された AI 英語講師と LINE 上で SmallTalk(世間話) を楽しむためのアプリです。 レッスンが始まると、講師はトピックを提示してくれます。好きなトピックを選んで講師と会話を楽しみましょう。 レッスンを終わるときは「終わります」と伝えて

                                      英語学習は AI と行う時代がついに到来!? ChatGPT と LINE Bot でオンライン英会話アプリ「Small GPTalk」を作ってみた | DevelopersIO
                                    • 自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告

                                      AI研究団体のOpenAIが開発した「Whisper」は非常に高い精度で録音から文字起こしを行うAIモデルで、オープンソースで無料公開されています。エンジニアのロバー・ダム氏が自身のブログで、毎日スマートフォンに行動を逐一吹き込み、その録音をWhisperで文字起こしすることで「全自動口述日記」を残すことができるシステムを試した結果について報告しています。 I record myself on audio 24x7 and use an AI to process the information. Is this the future? https://roberdam.com/en/wisper.html ダム氏が全自動口述日記を思いついたのは、以前から「1TB超えのストレージを内蔵したスマートフォンが登場すれば、24時間365日録音し続けることが可能なのではないか」と考えていたことから

                                        自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告
                                      • 可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme|shi3z

                                        こういうのが欲しかったんだよ。マジで。 コマンドラインからLLMを呼び出せるgptmeというツールがアツい これは、gptmeコマンドを追加するというもの。 環境変数としてOPENAI_API_KEYとかAnthropicのキーとかを設定しておくと勝手にAPIを呼び出してくれる。もちろん、クラウドに送信するとかけしからんという勢にはローカルLLMでも対応できる。 こいつはコマンドライン版ChatGPTのようなものなので、コマンドラインで動くのだが、その真価は例えばパイプで繋いだ時とかに発揮される。 $ du -d 1|gptme "一番容量を食ってるフォル ダは何Gバイト使ってんの?" Found OpenAI API key, using OpenAI provider [10:13:32] No model specified, using recommended model for

                                          可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme|shi3z
                                        • https://twitter.com/hiraoka_dx/status/1638658560170274818

                                            https://twitter.com/hiraoka_dx/status/1638658560170274818
                                          • https://twitter.com/buffett_code/status/1605488460659392514

                                              https://twitter.com/buffett_code/status/1605488460659392514
                                            • 音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力

                                              Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 ソニーコンピュータサイエンス研究所(CSL)フェロー・副所長であり東京大学大学院情報学環の暦本純一教授が開発した「DualVoice: A Speech Interaction Method Using Whisper-Voice as Commands」は、キーボードやマウスなどを使用せず、音声入力だけで長い文章が書ける技術だ。文字入力以外のコマンド入力と音声認識ミスによる修正は、通常の声とは別に「ささやき声」で操作する。通常の声とささやき声を使い分ける方法で、ハンズフリーの完全な音声入力を実現する。 音声による文字入力はタイピングに比べて格段に速いため、アイデアを書き留めたり、原稿を素

                                                音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力
                                              • PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記

                                                PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。 先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。 そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。 ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan

                                                  PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記
                                                • 「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】

                                                    「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】
                                                  • OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka

                                                    以下の記事が面白かったので、かるくまとめました。 ・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。 開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

                                                      OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka
                                                    • 10倍速の効率に専門医レベルの回答精度―医師はChatGPTなどの生成AIをどう扱うべきか?|医師のキャリア情報サイト【エピロギ】

                                                      10倍速の効率に専門医レベルの回答精度―医師はChatGPTなどの生成AIをどう扱うべきか? 「医師による医師のためのChatGPT入門 臨床がはかどる魔法のプロンプト」著者インタビュー 大塚 篤司 氏(皮膚科医/近畿大学医学部皮膚科学教室主任教授) 2024.07.18 簡単な指示文(プロンプト)を入力するだけで、専門家のような文章や画像などを即座に回答する生成AI。2022年にOpenAI社が発表したChatGPTに始まり、精度や機能のめざましい進歩とともに各業界で存在感を増しています。 医療分野でも、生成AIへの期待は高まっています。しかし、中には使い方がわからなかったり、安全性の懸念がぬぐえなかったりして活用に踏み切れない医師の方もいらっしゃるのではないでしょうか。 「確実にできることは増えるし、仕事が早くなります。作業速度は体感”10倍速”」と生成AI活用による驚異的な変化を語る

                                                        10倍速の効率に専門医レベルの回答精度―医師はChatGPTなどの生成AIをどう扱うべきか?|医師のキャリア情報サイト【エピロギ】
                                                      • ChatGPT×Whisperで履歴書と職務経歴書づくりを効率化 開発してみてわかった、生成AIの活かし方

                                                        大規模言語モデル(LLM)を、実際にプロダクトや実務に役立つかたちで利用している各社が見た使いどころや、実践の上での工夫について学び合うためのイベント「ChatGPT IN ACTION 実践で使う大規模言語モデル」。株式会社ROXXからは、CTOの松本宏太氏が登壇。「ChatGPT×Whisper」で作ったプロトタイプを紹介しました。 ROXX社・CTO松本宏太氏 松本宏太氏:弊社は「ChatGPT×Whisper」でいろいろプロトタイプを作っているので、その中の事例を1つ紹介して、そこで学んだ内容をもとに、今後の展望をお話できればなと思っています。 (スライドを示して)今日は、こういう感じで話していこうかなと思っています。まず、自己紹介をさせていただきます。 あらためて、株式会社ROXXでCTOをやっている松本と申します。「kotamat」という名前でいろいろやっているのですが、もとも

                                                          ChatGPT×Whisperで履歴書と職務経歴書づくりを効率化 開発してみてわかった、生成AIの活かし方
                                                        • ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp|shi3z

                                                          科学の世界では、それまでの常識が覆ることを俗に「パラダイムシフト」と呼ぶ。 しかし、もしもAIの世界にパラダイムシフトという言葉があるとしたら、今週の人類は一体何度のパラダイムシフトを経験しただろうか。 そのトドメの一撃とも言えるのが、BitNetのLlama8B版だ。 Lllama-8B構造で学習された最初のBitNetであり、全てを変えてしまうゲームチェンジャーでもある。CPUのみで秒間5-20トークンを出力する。超強力なLLM推論エンジンの出現だ。 BitNetとは、そもそも1.58ビットに相当する情報量で、本来は4ビット以上必要な大規模言語モデルの計算を劇的に高速化する技術である。 LLMの推論には通常は巨大な浮動小数点数(8ビットから16ビット)の、大量の乗算(掛け算)が必要なため、GPUなどの特殊な半導体を必要としていた。特にNVIDIAのGPUがこの目的にマッチしていたので今

                                                            ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp|shi3z
                                                          • 稲田豊史『映画を早送りで観る人たち』感想〜万人の万人に対する象徴闘争から覚醒させられる「編集権の簒奪」というチートスキル - 太陽がまぶしかったから

                                                            映画を早送りで観る人たち なぜ映画や映像を早送り再生しながら観る人がいるのか――。なんのために? それで作品を味わったといえるのか? 著者の大きな違和感と疑問から始まった取材は、やがてそうせざるを得ない切実さがこの社会を覆っているという事実に突き当たる。一体何がそうした視聴スタイルを生んだのか? いま映像や出版コンテンツはどのように受容されているのか? あまりに巨大すぎる消費社会の実態をあぶり出す意欲作。 映画を早送りで観る人たち~ファスト映画・ネタバレ――コンテンツ消費の現在形~ (光文社新書) 作者:稲田 豊史光文社Amazon 本書は『「映画を早送りで観る人たち」の出現が示す、恐ろしい未来(稲田 豊史) | 現代ビジネス | 講談社(1/6)』から始まった早送り論についての、派生記事のとりまとめや書き下ろしを含んだ総括である。コンテンツの消費者にも、脚本家にもインタビューしており、ま

                                                              稲田豊史『映画を早送りで観る人たち』感想〜万人の万人に対する象徴闘争から覚醒させられる「編集権の簒奪」というチートスキル - 太陽がまぶしかったから
                                                            • ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp

                                                              ChatGPT APIの使い方 実際にChatGPT APIを使ってみましょう。 openai-pythonのインストール 今回はOpenAIのPython用ライブラリであるopenai-pythonを使います。pipを用いて、openai-pythonをインストールしましょう。 pip install openai APIリクエスト ChatCompletion.createで対話を生成できます。たとえば、以下のようなコードになります。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "こんにちは!"}] ) print(complet

                                                                ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp
                                                              • [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO

                                                                [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 はじめに Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(電話番号,日時,名前,人数)を正しく抽出できるか検証しました。 コールセンターでは、有人対応から無人対応に変更したいニーズが増えているように思います。 電話予約の無人対応を想定し、1回の発話で、下記の5つの予約情報を抽出できるか確認します。 お名前 電話番号 予約日 予約時間 人数 発話で予約情報を抽出する方法として、GPT-4 Turbo のJSONモードを利用します。 JSONモードの詳細は、下記を参照ください。 例えば、「名前はクラスメソッドで、電話番号は09011111111。来週の火曜日の19時に4名で予約できます

                                                                  [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO
                                                                • OpenAIが「GPT-4」を一般公開し誰でも利用可能に、ChatGPT内でコードを実行する機能も正式リリース

                                                                  OpenAIが高性能モデル「GPT-4」のAPIを一般公開しました。また、ChatGPT Plusの会員向けにコード実行プラグイン「Code Interpreter」の一般公開も予告されています。 GPT-4 API general availability and deprecation of older models in the Completions API https://openai.com/blog/gpt-4-api-general-availability GPT-4 API is now available to all paying OpenAI API customers. GPT-3.5 Turbo, DALL·E, and Whisper APIs are also now generally available, and we’re announcing a

                                                                    OpenAIが「GPT-4」を一般公開し誰でも利用可能に、ChatGPT内でコードを実行する機能も正式リリース
                                                                  • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                                                                    自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                                                                      自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                                                                    • AI翻訳「ポケトーク」アメリカ市場を席巻の原動力

                                                                      AI翻訳アプリが主流の時代に、あえて専用端末で挑む。日本発のAI通訳機ポケトークは、教育現場から公共サービスまで、アメリカ市場で急成長を遂げている。 5年ぶりの新モデル ソースネクスト傘下のポケトークは5年ぶりとなる新機種「ポケトークS2」を10月15日に発表した。新機種は、双方向自動翻訳機能を搭載し、世界170以上の国と地域で使用可能なAI通訳機だ。従来のモデルからの大きな変更点は、特に法人や公共機関のニーズに応える形でセキュリティや管理機能が強化されている点だ。ユーザーインターフェースの改善やバッテリー寿命の延長など、実用面での若干の向上も図られている。また、AI技術の進歩により、翻訳の品質も徐々に向上しているという。 興味深いのは、処理性能に関しては5年前の前世代機種と大きな違いがないという点だ。前世代機種にも継続してソフトウェアアップデートを提供しており、サービス利用料を支払えば、

                                                                        AI翻訳「ポケトーク」アメリカ市場を席巻の原動力
                                                                      • AIの進歩とつらみについて - Qiita

                                                                        こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です。 今日はAIの進歩にともなうヒトの役割にかんするポエムを書いていきます! なにについて書いてある文章か AI※の進歩ってすごいよね AIがなんでもできるようになったら、ヒトは何を思うか ※AIって気軽に使う世界になったのもすごい. なお、MicrosoftはすでにAGI as a serviceについて考えている: https://thegenerality.com/agi/ さいきん思うこと 言語モデルや生成モデルの進歩は凄まじくて、どんどん知的な活動がAIに置き換えられて行きそうな空気を感じます。じっさい、イラストを描くことやプログラミングを実装することなどは、かなりできるようになってきています。 今回は、こうした人間しか出来ないと思われていたことが、どんどんAIができてくることによって、何が起き

                                                                          AIの進歩とつらみについて - Qiita
                                                                        • ChatGPT APIを取り巻くライブラリ 〜LangChainとguidanceの紹介 | gihyo.jp

                                                                          こんにちは! 逆瀬川(@gyakuse)です! 前回はOpenAIが公開しているChat APIとWhisper APIを用いて議事録文字起こしアプリケーションを作ってみました。今回は、Chat APIを便利に使うためのライブラリであるLangChainとguidanceを紹介していきます。 なぜ便利に使うためのライブラリが必要なのか? 単純にChat APIにリクエストを送るだけであれば、各言語に用意されたライブラリを使うだけで良いでしょう。たとえば、Pythonにおいてはopenai-pythonが用意されています。前回紹介したとおり、Chat APIを使うだけなら以下のようなリクエストを作るだけで済みます。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create

                                                                            ChatGPT APIを取り巻くライブラリ 〜LangChainとguidanceの紹介 | gihyo.jp
                                                                          • Introducing ChatGPT and Whisper APIs

                                                                            Developers can now integrate ChatGPT and Whisper models into their apps and products through our API. ChatGPT and Whisper models are now available on our API, giving developers access to cutting-edge language (not just chat!) and speech-to-text capabilities. Through a series of system-wide optimizations, we’ve achieved 90% cost reduction for ChatGPT since December; we’re now passing through those

                                                                              Introducing ChatGPT and Whisper APIs
                                                                            • 2022年の深層学習ハイライト - Qiita

                                                                              はじめに 2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。 AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事(2021年、2020年、2019年)もよろしければご覧ください。 * 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。 ** 記事中の画像は、ことわりのない限り対象論文からの引用です。 研究論文 Block-NeRF: Scalable Large Scene Neural View Synthesis 著者: Matthew Tancik, Vincent Casser,

                                                                                2022年の深層学習ハイライト - Qiita
                                                                              • ブレインパッドでの8年間を振り返って - 毎日がEveryday、日々 Day by Day

                                                                                新卒から約8年勤めたブレインパッドを3月に退職しました。 「受託分析」という生存/スケールが難しい事業分野で、ブレインパッド社は着々と大きくなり、そこでデータサイエンティストとしてファーストキャリアを過ごせたことは今後の僕の仕事への価値観/方法論に大きく影響を与えたのだろうと思っています。 なので8年経って思い至ったことを忘れないうちにブログにメモしておこうと思います。 新しい職場でこの考えをアップデートしたり壊したりしていきたい。 僕がいた2015年~2023年の激動のデータ/AI分野の業界の流れについてはこちらのpodcastでも話したので良かったら聞いてください🙂 open.spotify.com ※なお、全ての行末には「知らんけど」が省略されていることをご了承ください。 データ分析の仕事 「問題の抽象化・構造化」の価値がますます高くなっている 「現実がこい」: DXとはなんだった

                                                                                  ブレインパッドでの8年間を振り返って - 毎日がEveryday、日々 Day by Day
                                                                                • GPT-4に日本語特化モデル OpenAI Japan始動会見で発表

                                                                                  米OpenAIは4月15日、大規模言語モデル「GPT-4」について、日本語に最適化したカスタムモデルを発表した。日本語のテキストを記述する能力が向上しており、「GPT-4 Turbo」より最大3倍高速とうたっている。今後数カ月以内にAPIをリリースするという。 関連記事 OpenAI、“怠けにくい”「GPT-4 Turbo」プレビューリリースや値下げを発表 OpenAIは、11月に発表した「GPT-4 Turbo」のプレビュー版をリリースすると発表した。「GPT-4」が怠け者になってきたという苦情を受け、怠けにくくしたという。公式版は数カ月中にリリースする計画だ。 マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応 米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenA

                                                                                    GPT-4に日本語特化モデル OpenAI Japan始動会見で発表