並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 37 件 / 37件

新着順 人気順

Audioの検索結果1 - 37 件 / 37件

  • Hello GPT-4o

    GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversat

      Hello GPT-4o
    • ワイヤレスイヤホンの価格帯別選び方 - ARTIFACT@はてブロ

      今使っているワイヤレスイヤホンのEdifier NeoBuds Proが2021年に出た製品でちょっと古めになったので新しいのが欲しいと思い、情報収集をしていた。入門記事で、あまり触れられていないことがあったのでまとめておきたい。 現在、Amazon新生活セールFINALでセール価格になっている製品が多いので、気になる製品は価格をチェックして欲しい。 LDAC接続は再生時間が短くなる ワイヤレスイヤホンの再生時間は初心者にはわかりにくい。10時間以上の再生をうたうものはバッテリーケースを使っての充電を含めての場合を言っているものがほとんどだ。*1更にイヤホン本体のみの再生時間はノイズキャンセルON/OFFと使うCODECによって変わってくる。 「LDAC接続は高音質」みたいなことはよく書かれるのだが、この再生時間がかなり短くなることについては触れられていないことが多くて罠だ。ハイレゾのCO

        ワイヤレスイヤホンの価格帯別選び方 - ARTIFACT@はてブロ
      • 俺に骨伝導イヤホンの質問するならこれ読んで - 本しゃぶり

        骨伝導イヤホンを常時着用は便利である。 しかし、勧めるには語るべきことが多い。 だからここに俺の知識をまとめることにした。 これを読めばいい 骨伝導イヤホンの基本 常時着用で運用 骨伝導が向かない状況 外がうるさい 音漏れ禁止 音質にこだわる 痛みがする 選び方とおすすめ Shokz OpenRun Pro Shokz OpenMove Shokz OpenComm 2 何でShokz製品しか紹介しないの?手先なの? 骨伝導以外の選択肢 ブコメで人気なFreeClip 終わりに これを読めばいい 骨伝導イヤホンを使い始めて4年が経とうとしている。使い始めた当時はまだ珍しかったが、今ではかなり普及してきたと思う。実際、弊社でも着けている人をよく見るようになった。とはいえ、普通のワイヤレスイヤホンと比べると、使ったことのある人は少ない。 それゆえか、骨伝導イヤホンがどんなものかと質問されること

          俺に骨伝導イヤホンの質問するならこれ読んで - 本しゃぶり
        • 時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす

          みなさん、こんにちは!9月は久しぶりに個人開発をしてました。 今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です! 「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え?大丈夫なの?」って感じですよね笑 でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います! 「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能 (10時間でも100時間でも!)使いやすさにこだわった機能 (コピー、シェア、自動タイトル生成など)「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げます そして、無

            時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす
          • 「割れ音源」は完全に悪なのか?

            「割れ音源」は完全に悪なのか? 「割る側」かつ「割られる側」のピアノ男が論点を整理する 2023年11月1日 19:00 2772 210 × 2772 この記事に関するナタリー公式アカウントの投稿が、SNS上でシェア / いいねされた数の合計です。 606 2110 56 シェア クラブカルチャーに関してSNSなどでたびたび議論が巻き起こるテーマの1つに、割れ音源をDJやリミックスなどで使うことの是非というものがある。「割れ」とは、違法な方法でダウンロードしたものを示すときに使う言葉で、割れ音源とは海賊版の音源のことだ。 2010年1月、ネット上の違法録音・録画物を違法と知りながらダウンロードする行為が著作権法の改正によって違法となり、その後も本行為に関する法整備が続いている。割れ音源と知っていながらそれを入手することは違法ではあるものの、告訴がなければ起訴されない親告罪であり、文化の発

              「割れ音源」は完全に悪なのか?
            • アニメ スナックバス江

              合成音声 VOICEVOX:四国めたん VOICEVOX:ずんだもん VOICEVOX:後鬼 https://voicevox.hiroshiba.jp/ 動画編集:ゆっくりムービーメーカー4 https://manjubox.net/ymm4/ 音楽:魔王魂 https://maou.audio/ 効果音:効果音ラボ https://soundeffect-lab.info/

                アニメ スナックバス江
              • コレクターが選ぶ完全ワイヤレスイヤホンおすすめランキング【価格帯別】 - 僕は猫だった

                更新日:2024年4月4日 こんにちは、猫居です。 趣味で完全ワイヤレスイヤホン(TWS)を集めています。 今回はこれまで使ってきた200個以上のTWSの中から特におすすめと感じたイヤホンを厳選して紹介。 音質だけでなく、 機能(ノイキャンなどの性能) 装着感(長時間装着していても不快感がないか) 使い勝手(操作性・Bluetooth接続の安定性) なども考慮して総合力の高いイヤホンを選びました。 価格帯別にまとめてありますので、予算に合わせてご覧ください。 【価格帯別】完全ワイヤレスイヤホンおすすめランキング 【1万円以下】エントリークラスTWSのおすすめTOP5 1位 CMF by NOTHING Buds Pro 2位 EarFun Air Pro 3 3位 GEO QT13 (QCY T13) 4位 Victor HA-A30T 5位 ag PITA 【1万円台】ミドルローTWSの

                  コレクターが選ぶ完全ワイヤレスイヤホンおすすめランキング【価格帯別】 - 僕は猫だった
                • デジタルガジェットのレビュー評価でサクラチェッカーを鵜呑みにしないで! - ARTIFACT@はてブロ

                  Amazoでセールが行われるたびに、サクラチェッカーの使用を勧める人が多いが、自分はこれに疑問を感じる。レビューのサクラ度が高いと表示される製品の中に、良い製品が多数あるからだ。 オーディオを中心に中華製品をよく買っているのだが、サクラチェッカーを使ったことがなかった。なぜなら中華製品だと、どれも高いサクラ度表示が出るので、それを信じたら何も買えない。 無名メーカーならともかく、知名度があり評価の高い製品を出している中国系オーディオメーカーで検索してみたら、EarFunやEdifier、SOUNDPEATSといったメーカーは軒並みサクラチェッカーではサクラ度99%という結が出てくる。各社日本の販売代理店や支社があるが、いまだに怪しい中華メーカー扱いなのだろうか。かわりにFunLogy(※生産は中国だけど日本企業)やAnkerはなんとサクラ度0%であった。 各メーカーのサクラチェッカー検索結

                    デジタルガジェットのレビュー評価でサクラチェッカーを鵜呑みにしないで! - ARTIFACT@はてブロ
                  • 無料でYouTubeやX(旧Twitter)の動画をURLをコピペしてダウンロードできる「cobalt」

                    YouTubeなどに投稿される動画は、ブラウザのデベロッパーツールや「yt-dlp」などを使ってダウンロードできますが、操作が少し手間です。オープンソースプロジェクトとして公開されている「cobalt」を使うと、URLを貼り付けるだけでYouTubeやX(旧Twitter)の動画をダウンロードできるとのことなので、実際に使ってみました。 GitHub - imputnet/cobalt: save what you love https://github.com/imputnet/cobalt cobalt https://cobalt.tools/ 上記のcobaltの公開ページにアクセスすると、以下のように表示されます。 今回は、試しに以下の動画をダウンロードしてみます。 1.56秒で180km/hに達する富士急ハイランド「ド・ドドンパ」の加速力3.75Gをプレス向け試乗会で体験してき

                      無料でYouTubeやX(旧Twitter)の動画をURLをコピペしてダウンロードできる「cobalt」
                    • 音楽生成AI「Suno AI」が話題、文章から楽曲を瞬時に作成 プロの音楽家も「これはヤバい」と驚愕

                      音楽生成AI「Suno AI」がX(旧Twitter)上で話題になっている。歌詞や曲調を文章で指示するだけで音楽を自動生成するサービスで、PCやスマートフォンのWebブラウザ上から利用できる。生成した音楽の出来栄えには、プロの音楽家からも驚きの声が上がっている。 Suno AIは、米国を拠点とする音楽家とAIの専門家たちからなる米Sunoが運営するサービス。開発者の中には、米MetaやTikTokを運営する中国ByteDanceなどに所属していた人たちもいるという。利用にはGoogleやMicrosoft、Discordのアカウントが必要で、12月14日時点ではβ版を提供中。1日5回まで無料で音楽を生成できる他、有料プランもある。 早速使ってみた そのお手並みは? 記者も試しに利用してみた。メニューにある「Create」を押し、「記事を書くのがはかどる音楽を作成してください」と指示を入れた

                        音楽生成AI「Suno AI」が話題、文章から楽曲を瞬時に作成 プロの音楽家も「これはヤバい」と驚愕
                      • Xiaomi TV A Pro 43 2025 購入レビュー:「量子ドット」はウソですが・・・コスパは凄い! | ちもろぐ

                        粗利益率5%ポリシーの外資系メーカー「Xiaomi」から、戦略的な価格設定の43インチテレビが発売されました。 「Xiaomi TV A Pro 43 2025」です。チューナーレスだから国営放送の電波を受信できず、YoutubeやPrime VideoなどVODサービスをTV本体だけで見られます。 もちろん、パソコンと接続すればPCディスプレイとして利用できます。格安な大型4Kゲーミングモニターに超コスパが良さそうなのでAmazonで1台買って詳しくレビューします。 (公開:2024/9/3 | 更新:2024/9/3) この記事の目次 Toggle Sponsored Link 「Xiaomi TV A Pro 43 2025」はどんなゲーミングモニター? Xiaomi TV A Pro 43 2025【量子ドット】 Xiaomi / サイズ : 43インチ / 解像度 : 3840

                          Xiaomi TV A Pro 43 2025 購入レビュー:「量子ドット」はウソですが・・・コスパは凄い! | ちもろぐ
                        • すぐに役に立つものはすぐに陳腐化してしまうから方法ではなく設計の本を読む - API Design Patterns の読書感想文 - じゃあ、おうちで学べる

                          あなたがさっきまで読んでいた技術的に役立つ記事は、10年後も使えるでしょうか?ほとんどの場合でいいえ はじめに 短期的に効果的な手法や知識は、ソフトウェア開発の分野において、急速に価値を失う傾向があります。この現象は、私たちが何を重点的に学ぶべきかを示唆しています。最も重要なのは、第一に基本的な原理・原則、そして第二に方法論です。特定の状況にのみ適用可能な知識や即座に結果を出すテクニックは、長期的には有用性を失う可能性が高いです。これは、技術や手法が時間とともに進化し、変化していくためです。 learning.oreilly.com 「API Design Patterns」は、このような考え方を体現した書籍です。しかも480 ページもあります。本書は単なる手法の列挙ではなく、Web APIデザインの根幹をなす原則と哲学を探求しています。著者のJJ Geewax氏は、APIを「コンピュータ

                            すぐに役に立つものはすぐに陳腐化してしまうから方法ではなく設計の本を読む - API Design Patterns の読書感想文 - じゃあ、おうちで学べる
                          • 可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme|shi3z

                            こういうのが欲しかったんだよ。マジで。 コマンドラインからLLMを呼び出せるgptmeというツールがアツい これは、gptmeコマンドを追加するというもの。 環境変数としてOPENAI_API_KEYとかAnthropicのキーとかを設定しておくと勝手にAPIを呼び出してくれる。もちろん、クラウドに送信するとかけしからんという勢にはローカルLLMでも対応できる。 こいつはコマンドライン版ChatGPTのようなものなので、コマンドラインで動くのだが、その真価は例えばパイプで繋いだ時とかに発揮される。 $ du -d 1|gptme "一番容量を食ってるフォル ダは何Gバイト使ってんの?" Found OpenAI API key, using OpenAI provider [10:13:32] No model specified, using recommended model for

                              可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme|shi3z
                            • RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

                              大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

                                RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
                              • メインPCをついにMacへ戻しました。Windowsから切り替えたメリット・デメリット - すまほん!!

                                M3 Maxを選んだ理由として画面出力は3画面以上欲しかったこと、M1 MaxからM3 Proはダウングレードになるということ、メモリは48GB以上欲しかったということ、によりM3 Max搭載のMacBook Proにしました。価格は60万8800円。筆者の人生で一番高いPCになりました。 データ移行 前回、14TBのデータ移行に苦労した経験を元に、使用しなくなったデータはNASへバックアップする癖をつけ、移行するデータは1TB以下で済むようにしました。ゆえに移行はすんなり完了しました。 また基本的なデータはM1 MaxのMacBook Proにも入れており、こちらはThunderboltケーブルでつなぐことでわずか十数分で数百GBのデータが移行できました。 周辺機器 Windows環境から引き続き使用する周辺機器は以下の通りです。 オーディオインターフェースとしてYAMAHA MG12X

                                  メインPCをついにMacへ戻しました。Windowsから切り替えたメリット・デメリット - すまほん!!
                                • 初心者が"次"に買うイヤホン(2024/09) - 花見川の日記

                                  はじめに 経緯 記事の方針 基本事項共有:ドライバの種類 DDについて BAについて 1DD KEFINE Delci:¥7000~10000 Maestraudio MA910SR アイドルマスターU149Edition:¥8000~10000 SIVGA Que:¥10000~12000 1DD+nBA ND X12:¥4500~7500 KZ ZS12 Pro X(スイッチ付き):¥4800~8700 nBA KZ AS10 Pro:¥4500~11000 1PD NICEHCK F1 PRO ¥10000~¥15000 あとがき はじめに 経緯 ch1248.hatenadiary.jp ↑の記事を書いた後、古からのオーデイオ・オタクであるc_CさんにTRN ORCAが好評で、「次にもう少し高いイヤホンで良いものは無いか?」と聞かれたため、「これはシャッシャッと優秀なイヤホンを提示

                                    初心者が"次"に買うイヤホン(2024/09) - 花見川の日記
                                  • Crush! | iPad Pro | Apple

                                    Introducing the all-new iPad Pro. Outrageous performance by the first-ever M4 chip. With the breakthrough Ultra Retina XDR display. All in the thinnest Apple product ever. iPad has never been this powerful. Or this thin. Learn More: https://apple.co/3QEsTSv Audio Descriptions: https://youtu.be/uT24U56I1ZA “All I Ever Need Is You” by Sonny & Cher - https://apple.co/sonny-cher-all-I-need #iPad

                                      Crush! | iPad Pro | Apple
                                    • [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO

                                      [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 はじめに Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(電話番号,日時,名前,人数)を正しく抽出できるか検証しました。 コールセンターでは、有人対応から無人対応に変更したいニーズが増えているように思います。 電話予約の無人対応を想定し、1回の発話で、下記の5つの予約情報を抽出できるか確認します。 お名前 電話番号 予約日 予約時間 人数 発話で予約情報を抽出する方法として、GPT-4 Turbo のJSONモードを利用します。 JSONモードの詳細は、下記を参照ください。 例えば、「名前はクラスメソッドで、電話番号は09011111111。来週の火曜日の19時に4名で予約できます

                                        [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO
                                      • LUNA SEAも驚いたヤマハの「ライブの真空パック」。ロックバンドの演奏再現も夢じゃない!?【藤本健のDigital Audio Laboratory】

                                          LUNA SEAも驚いたヤマハの「ライブの真空パック」。ロックバンドの演奏再現も夢じゃない!?【藤本健のDigital Audio Laboratory】
                                        • ウォークマン®45歳の誕生日|ソニー株式会社|広報note

                                          ソニー広報部のKKです。 2024年7月で「ウォークマン®」は誕生45周年を迎えます。みなさんがウォークマンと聞いて思い浮かべるのは何でしょうか?最新機種、初代ウォークマン、学生時代に使った思い出の製品…人それぞれのウォークマンが思い浮かんでいると嬉しいです。今回はソニー社内にある「ウォークマンルーム」を巡りつつ、ウォークマン45年間の歴史をご紹介します! ウォークマンルームで振り返る45年の歴史ソニーの社内にはウォークマンルームという部屋があり、歴代ウォークマンや関連する資料などが集められています。残念ながら、普段は社外の方に自由に出入りいただくことはできないのですが…今回は特別にウォークマンルームに集められたウォークマンの一部をご紹介しつつ、45年間の歴史を振り返っていきます! 歴代のウォークマンがずらりと並ぶウォークマンルーム1979年発売 ウォークマン1号機の開発秘話『TPS-L2

                                            ウォークマン®45歳の誕生日|ソニー株式会社|広報note
                                          • ロスレスとMP3ってどのくらい差があるんだ? 専門家に聞いてみた

                                            ロスレスとMP3ってどのくらい差があるんだ? 専門家に聞いてみた2024.04.12 19:0088,501 Maxwell Zeff - Gizmodo US [原文] ( そうこ ) 「音楽聴くなら絶対ロスレス音源がいいよ? MP3より音がいいから」なんて、一度は聞いたことがあるようなセリフです。 データ容量をギュっと縮めた圧縮音源であるMP3。データ圧縮時の劣化を最小限に留めた、または圧縮していないロスレス音源。 なるべくロスがない方がサウンドクオリティがいいのは事実です。ロスレスがアーティストが意図する生の音に近いのも事実です。…事実なのですが、やっぱり言わずにはいられません。 その音、聴き分けられるの? 圧縮音源とロスレスの差って、フツーの人が聴いてもわかるのかい? 少々古い話で恐縮ですが、2014年に米Gizmodoが読者アンケートをとっていました。質問は「ロスレス音源とMP3

                                              ロスレスとMP3ってどのくらい差があるんだ? 専門家に聞いてみた
                                            • Stability AI、無料で起承転結のある最大3分の音楽を生成可能な「Stable Audio 2.0」を公開/テキストだけでなくアップロードしたオーディオから音楽を生成可能に

                                                Stability AI、無料で起承転結のある最大3分の音楽を生成可能な「Stable Audio 2.0」を公開/テキストだけでなくアップロードしたオーディオから音楽を生成可能に
                                              • 無料で自動文字起こし&テキストで音声編集も可能な「audapolis」を使ってみた

                                                オープンソースで開発される「audapolis」は書き起こし機能を備えたメディアエディターで、音声を自動的にテキストに書き起こすだけでなく、書き起こしたテキストを編集することで同時に音声も編集できるツールで、無料で使うことができます。 GitHub - bugbakery/audapolis: an editor for spoken-word audio with automatic transcription https://github.com/bugbakery/audapolis audapolisはオープンソースで開発されるフリーアプリで、AGPL-3.0ライセンスの下で配布されています。GitHubのページにアクセスし、「Release」にある最新バージョンをクリック。記事作成時点での最新バージョンはv0.3.0です。 audapolisはmacOS・Linux・Window

                                                  無料で自動文字起こし&テキストで音声編集も可能な「audapolis」を使ってみた
                                                • ソウルとファンクの1974年:50年前の時代を定義した7つの作品

                                                  ヒップホップやR&Bなどを専門に扱う雑誌『ブラック・ミュージック・リヴュー』改めウェブサイト『bmr』を経て、現在は音楽・映画・ドラマ評論/編集/トークイベント(最新情報はこちら)など幅広く活躍されている丸屋九兵衛さんの連載コラム「丸屋九兵衛は常に借りを返す」の第46回。 今回は、今から50年前となる1974年のチャートで話題となったソウルとファンクの名盤について。 <関連記事> ・【動画付】1974年に発売されたアルバム・ベスト68 ・【動画付】1984年に発売されたアルバム・ベスト64 ・【動画付】1994年に発売されたアルバム・ベスト69 ・ベスト・アルバム・ランキング記事一覧 1970年代は米ブラック・ミュージックが最も熱かったディケイドの一つ。というわけで今から50年前にあたる1974年のブラック・ミュージック界を見てみよう。 取り上げる7作品とは、ビルボードの「Hot Soul

                                                  • 商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開|AI Picasso

                                                    これらのデータセットに含まれる画像のみを使っているため、学習画像に対する透明性は限りなく高いと考えております。もし問題のある画像が見つけたら、ご報告いただけると今後の開発に助かります。なお、同様の考え方を持って作成されたモデルとして、Stable Audio Open 1.0があります。 日本語と英語の文章がそのまま通じる画像生成を使ってみたいが使えないクリエイターの中には、プロンプトが英語であるから、使い勝手がわるいと思っている方も少なくないと思います。実際、画像生成AIに慣れている人も時には翻訳ソフトを使って入力している方もいるようです。しかし、翻訳ソフトを間に挟むことでニュアンスが変わるという問題も従来指摘されています。 そこで、本画像生成は日本語を日本人の話す感覚と近いかたちで処理し、画像を生成できるようにしました。具体的には入力テキストを処理する技術を通常の言語モデルから大規模言

                                                      商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開|AI Picasso
                                                    • 俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ

                                                      こちらはエムスリー Advent Calendar 2023 1日目の記事です。 Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。趣味は麻雀でフリー雀荘で毎年200半荘以上打ちます。好きな麻雀プロは園田賢さんです。 麻雀を始めるときに一番の障壁になるのは点数計算ではないでしょうか? 特に符計算が初心者の関門のようです。一方私のような初中級者でも突然のレアな点数申告にまごつくことがあります。 そこで、今回はその人に合った麻雀の点数計算問題(主に符計算が焦点となる問題)を生成して、自分で点数計算&点数申告の練習をする方法を探求したのでその紹介をします。麻雀用語が少しだけ登場するので、対象読者は麻雀を少しでもかじったことのあるエンジニアの方です。 Overview 麻雀の点数計算の難しさ 現状の点数計算の練習

                                                        俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ
                                                      • ローカルLLMとRAGで自分の外部記憶を強化しよう - VA Linux エンジニアブログ

                                                        はじめに 自宅PC編 会社サーバ編 感想等 執筆者:佐藤友昭 ※ 「ディスアグリゲーテッドコンピューティングとは何か?」連載記事一覧はこちら はじめに 作業ログや検討メモ、参照した定型論文や書籍、ネット上の記事、視聴した講演やウェビナーのメモ等、日常を記録する情報は日々増えていく。これらの情報はできれば後に役立てたいと思うが、筆者の場合、なかなか上手くいかない。自分の外部記憶を紐解いてみると、記録したことすら忘れてしまっている項目が大半である。本稿では、ローカルLLMとRAGを用いて自分の外部記憶にいろいろと質問できるようにする方法を入門的に紹介する。決してベストプラクティス的な内容ではない。 自宅PC編 まずは、普段自宅で使用しているLinux PCを実験台として使えそうか試してみてから会社のサーバに適用してみることにする。 第一の要件は、ローカル環境で動作することである。情報の性質によ

                                                          ローカルLLMとRAGで自分の外部記憶を強化しよう - VA Linux エンジニアブログ
                                                        • 【JavaScript】読みやすいコードの書き方 - Qiita

                                                          はじめに 私は他人のコードをレビューしたことも自身のコードを他人にレビューしてもらったこともない初学者として現在のプロジェクトに加わりました。そこから現在までの2年間毎月10から20ほどのプルリクエストをレビューし、またチームメンバー内で読みやすいコードについて議論することで、徐々に読みやすいコードを書くためのポイントが掴めてきました。 これらの経験を通じて、私が現在考えている読みやすいコードを書くためのポイントを本記事にまとめていきます✍️ 前提 言語はJavaScriptで、レガシーな環境での手続き的なJavaScriptを想定しています。 「JavaScriptの文法やメソッドは理解してきたけど、より読みやすいコードの書き方がわからない」と感じている初学者向けです。 筆者は一般的なコーディング規約や設計原則についての書籍や資料をほとんど参照していません(読んだことがある本と言えばリー

                                                            【JavaScript】読みやすいコードの書き方 - Qiita
                                                          • Synthesizer VがDTM界にまた新たな革命!人の歌声から音程と歌詞を抽出して再合成。ARA 2対応でDAWとの有機的な融合も実現|DTMステーション

                                                            ボーカルをMIDIに変換し、歌詞も抽出 今回発表されたSynthesizer V Studioのバージョンは1.11.0 b1(β版)と、11番目のバージョンとなるのですが、今回も従来と同様にユーザーに対しては無償のアップデートとなっています。普通であればメジャーバージョンアップというか、新製品といってもいいほどの革新的なアップデートを繰り返してきているのに、「無償アップデートで大丈夫なの?」とこちらが心配になってしまうほどではありますが、その気前の良さがSynthesizer Vユーザーを飛躍的に増やしてきている大きな要素ともなっているのだと思います。 今回も、まさに革命といってもいい機能を実現しているので、まずは以下の動画をご覧ください。 何をしているかお分かりいただけたでしょうか?これは、声優・小岩井ことりさん歌唱による「ハレのち☆ことり♪」のボーカルのWAVをSynthesizer

                                                              Synthesizer VがDTM界にまた新たな革命!人の歌声から音程と歌詞を抽出して再合成。ARA 2対応でDAWとの有機的な融合も実現|DTMステーション
                                                            • マリアナ海溝から聞こえる謎の音の正体が解明される

                                                              2014年に北西太平洋・マリアナ海溝で実施した音響調査で収集された謎の音は約10年にわたって科学者を悩ませていました。しかし、アメリカ海洋大気庁(NOAA)の研究者らがAIを用いた分析を行った結果、この音の正体を突き止めることに成功しました。 Frontiers | Bryde’s whales produce Biotwang calls, which occur seasonally in long-term acoustic recordings from the central and western North Pacific https://www.frontiersin.org/journals/marine-science/articles/10.3389/fmars.2024.1394695/full Creepy 'biotwang' noises coming fro

                                                                マリアナ海溝から聞こえる謎の音の正体が解明される
                                                              • 廃止が決まったStudio One Primeの受け皿になる!?プロ絶賛のUniversal Audioの無料DAW、LUNA入手法と基本操作ガイド|DTMステーション

                                                                先日Studio One 7が発表されると同時に、無料版のStudio One PrimeおよびミッドレンジのStudio One Artistが廃止され、Studio One Proのみになることが発表され、この界隈に大きな波紋を呼んでいます。そのStuido One 7 Proについては、また近いうちにレポートするつもりですが、その一方で、Universal AudioがLUNAという無料DAWをリリースし、どんどん進化させてきているのをご存じでしょうか?当初はMac版のみでスタートしたのですが、先日Windows版のパブリックベータが公開され、すでに問題なく使えるようになっています。そしてまもなくWindows版も正式リリースされる予定となっています。 そのLUNAは無料とはいえ、機能削減版とかエントリー版といった位置づけではありません。プロが快適に使えることを目指して開発されたDA

                                                                  廃止が決まったStudio One Primeの受け皿になる!?プロ絶賛のUniversal Audioの無料DAW、LUNA入手法と基本操作ガイド|DTMステーション
                                                                • Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報(名前、住所、生年月日)を正しく認識できるか試してみた | DevelopersIO

                                                                  構成 構成としては、下記の通りです。 Connectのフローの詳細は下記の通りです。 例として、発話で住所を認識させる処理の流れは以下のとおりです。 コンタクトフロー内で「メディアストリーミングの開始」ブロックを使って、Kinesis Video Stream(KVS)への音声のストリーミングを開始します。 顧客は、住所を含めた発話をします。 「顧客の入力を保存する」ブロックで、顧客が特定の番号を押すと、ストリーミングを終了します。 「AWS Lambda関数を呼び出す」ブロックを使い、LambdaでKVSからデータを取得します。取得したデータをWAV形式に変換し、Whisper APIで文字起こしします。文字起こし内容から、GPT-4 Turboで住所のみを抽出します。 プロンプト再生で、住所のみを音声出力します。 以下の図は、電話での対話の流れを示しています。 前提 2023年11月時

                                                                    Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報(名前、住所、生年月日)を正しく認識できるか試してみた | DevelopersIO
                                                                  • Transformer Explainer: LLM Transformer Model Visually Explained

                                                                    What is a Transformer? Transformer is a neural network architecture that has fundamentally changed the approach to Artificial Intelligence. Transformer was first introduced in the seminal paper "Attention is All You Need" in 2017 and has since become the go-to architecture for deep learning models, powering text-generative models like OpenAI's GPT, Meta's Llama, and Google's Gemini. Beyond text, T

                                                                      Transformer Explainer: LLM Transformer Model Visually Explained
                                                                    • 1人ビートルズで全曲完コピを目指す、60歳からの宅録ライフ“日々を生きる”ためのDTM〜Akifumi Tamagawaさん(70)の場合〜 - Always Listening by Audio-Technica(オーディオテクニカ)

                                                                      職業的な作業としてではなく、ただただ日常を満たすためだけの切実な営みとして音楽を作る人々にフォーカスしていく「 “日々を生きる” ためのDTM」。 音楽を「作る」ことが「聴く」ことよりも特別な行為だと考えている人は、現代では少数派かも知れない。 ラップトップ一台で誰でも手軽に楽曲制作ができる今、作曲や録音は特権的なことではなくなった。 例えば、その人にとって音楽を聴くということが、日常を潤したりエキサイティングなものにするためのものだったとしたら、より能動的な作曲という習慣は、その人が求める癒しや興奮をさらに手応えのあるものにしてくれるのかもしれない。 今回登場してもらったのは、埼玉県蕨市在住のAkifumi Tamagawaさん。 約10年間にわたって、宅録で制作したビートルズ(The Beatles)の「完コピ」音源をYouTubeなどのオンラインプラットフォーム上にアップし続けている

                                                                        1人ビートルズで全曲完コピを目指す、60歳からの宅録ライフ“日々を生きる”ためのDTM〜Akifumi Tamagawaさん(70)の場合〜 - Always Listening by Audio-Technica(オーディオテクニカ)
                                                                      • The Beatles - Now And Then (Official Audio)

                                                                        Now and Then's eventful journey to fruition took place over five decades and is the product of conversations and collaborations between the four Beatles that go on to this day. The long mythologised John Lennon demo was first worked on in February 1995 by Paul, George and Ringo as part of The Beatles Anthology project but it remained unfinished, partly because of the impossible technological chall

                                                                          The Beatles - Now And Then (Official Audio)
                                                                        • ヘルスケアデータをGrafanaで見たくない…?〜健康 Reliability Engineering〜

                                                                          はじめに まずはこちらをご覧ください。 これは私のApple Watchで計測されたヘルスケアデータです。Apple Watchをつけていると、心拍数や歩数、睡眠時間などのデータが自動的にiPhone内に記録されます。 SREなら健康を維持するためにもSLIとSLOを設定して可視化するべきですよね? SREなら健康エラーバジェットが無くなりそうだったら「今すぐ寝ましょう!」と架電が来て欲しいですよね? 普通にやるとiOSアプリを用いて直接ヘルスケアデータを確認することになりますが、Web系のSRE的なエンジニアとしてはやはり業界標準の技術で可視化したいところです。 また、iOSアプリを開発するのは専門知識が必要となり非常に骨が折れる作業です。そもそもMacがないとできないですし。 そこで、今回は Apple Watchのヘルスケアデータを 全自動で良い感じにデータベースに保存し Grafa

                                                                            ヘルスケアデータをGrafanaで見たくない…?〜健康 Reliability Engineering〜
                                                                          • 今年のGAME OF THE YEARは「Baldur's Gate 3」に決定。「The Game Awards 2023」各賞が発表に

                                                                            今年のGAME OF THE YEARは「Baldur's Gate 3」に決定。「The Game Awards 2023」各賞が発表に 編集部:TeT その年にリリースされた優れたゲームを表彰する世界最大級のゲームアワード,「The Game Awards 2023」の各賞が本日(2023年12月8日)発表された。 今年は「Baldur's Gate 3」(PC / PlayStation 5)がGAME OF THE YEARを獲得。ちなみに同作は,BEST COMMUNITY SUPPORT,BEST RPG,BEST MULTIPLAYER,BEST PERFORMANCE,PLAYERS' VOICEと合わせて6冠となった。 また,「Alan Wake 2」(PC / PlayStation 5 / Xbox Series X|S)は,BEST GAME DIRECTION,B

                                                                              今年のGAME OF THE YEARは「Baldur's Gate 3」に決定。「The Game Awards 2023」各賞が発表に
                                                                            1