[B! python][*tips] masadreamのブックマーク

pyannote.audioで簡単話者分離〜whisperを添えて〜 - Qiita

音声認識の世界では、OpenAIが開発したwhisperというモデルが話題になりましたね。99言語に対応しており、日本語の音声認識の精度も抜群です。非常に優秀なwhisperですが、いつ誰が話したのかを認識する、いわゆる「話者分離」はできません…。ということで、アドベントカレンダー8日目の記事では、pyannote.audioというライブラリを使った話者分離方法について紹介します。 pyannote.audioの概要 pyannote.audioは、話者分離のためのPythonによるオープンソースフレームワークです。下記のようなパイプラインで話者分離を実現しています。論文：pyannote.audio: neural building blocks for speaker diarization Github：https://github.com/pyannote/pyannote

masadream 2023/09/22

よさげ

リンク

Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する！ - Qiita

こんにちは！逆瀬川 ( @gyakuse ) です！今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ！できたもの openai_keyにOpenAIのAPIキーを入れるメイン音声ファイルに会話音声 (wav, 25MB以内) を入れる話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる話者 (1) の名前を入れる話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる話者 (2) の名前を入れる上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。話者分離 (S

masadream 2023/09/22

リンク

大容量音声ファイルも安心！Whisper APIで25MB以上の音声ファイルでも文字起こしできるように対応しました。｜にょす

Whisper APIは、音声ファイルをテキストデータに変換する、非常に便利なAPIです。しかし、その利便性にも関わらず、25MB以上の音声ファイルには対応していないという課題がありました。今回の記事では、これを解決し、どんなサイズの音声ファイルでも文字起こしができるようになった方法を紹介していきます。下記にコードを載せてあります。詳しくはこちらをご確認ください！仕組みについてまず、25MB以下の音声ファイルに関しては、通常通りWhisper APIを使用して文字起こしを行います。これにより、小さな音声ファイルは引き続き簡単に扱えるようになっています。ここで問題となるのが、25MBを超える音声ファイルです。その対応策として、次の2つの方法が提案されました。音声ファイルを圧縮してサイズを縮小する音声ファイルを複数の小さなファイルに分割するまず、音声ファイルを圧縮することで、25M

masadream 2023/09/22

リンク

chatGPTにCSVデータの情報を元に回答させてみる - Qiita

Llamaindex を用いてCSVデータからchatGPTちゃんに回答させてみようと思います。とりあえずやってみた系の記事なので、雑ですがご了承下さい。準備今回は居酒屋的のメニュー的なものを適当に作りました。項目,タイトル,価格,説明鴨料理,鴨フィレ肉のカシスソース,930円,鴨フィレ肉を浅めにソテーしロゼ色に。甘酸っぱいカシスと赤ワインのソースで。ピンクペッパーがとても合います。赤ワイン。鴨料理,鴨刺し,860円,"皮面をパリッと焼き、肉にも焼き目をつけた状態をお刺身。" 鴨料理,鴨南蛮うどん,830円,"鴨と長ネギをごま油で炒め、味を出しています。合わせだしも引いています。汁まで美味しい一品。小さめの為〆に最適です。" 馬料理,ユッケ,930円,"言わずと知れた生肉ユッケ。 ...

masadream 2023/09/11

リンク

LlamaIndexを用いてChatGPTに独自データを元に回答させる

アルバイトの Sasaokaです。今回はChatGPTにCSVやYouTube動画などの独自データを情報を付与して回答させることができるLlamaIndexというライブラリを試してみました。準備次の3つのライブラリをインストールします。 $ pip install llama-index langchain youtube_transcript_api OpenAIのAPIキーを環境変数OPENAI_API_KEYに設定しておきます。 $ export OPENAI_API_KEY='sk-xxxxxx' CSVデータを与えるここでは弊社のアドクロールの広告タイトル文を読み込ませてみます。次のような、id、飲料の広告の会社、カテゴリ、ブランド、広告タイトルをカラムとする258レコードのdrink.csvファイルを用いました。 "id","company","category","br

masadream 2023/09/11

リンク

Python+pandasを使ってRSSフィードを取得→Mattermostに投稿＆DBに保存 - Qiita

やったこと Mattermostを導入してなにかやってみたかったので、RSSフィードを投稿するプログラムを作りました。（あとで、公式のプロジェクトがあったことに気づいたのは秘密）いろいろと応用が利くかなと思い、取得したfeedをpandasで処理して DBに格納することとしました。 ※Mattermostってなんぞやって言う人はこちら環境 CentOS7 Python2.7 pandas feedparser sqlalchemy requests PostgreSQL9.5 MatterMost PostgreSQLについては、dockerイメージから導入しました。 docker pull postgres:9.5 docker run -p 5432:5432 --name postgres-server -v /var/lib/postgresql:/var/lib/postgr

masadream 2023/05/15

リンク

ChatGPT APIとStreamlitを使って超簡単にAIアプリを作ってみた - NRIネットコムBlog

こんにちは堤です。 3月1日にChatGPTのAPIが公開されました。 openai.com APIが公開されたことでChatGPTを活用したアプリが色々登場して盛り上がっていますね！今回はPythonのみで簡単にWebアプリを作成できるStreamlitとChatGPT APIを組み合わせて簡単にAIアプリを作成する方法をご紹介します。 Streamlitについて StreamlitはフロントもバックエンドもPythonのみの記述でWebアプリケーションを作成できるフレームワークです。 streamlit.io Webアプリ作りたいけどフロントの知識が全くない。。という人でもUIが簡単に作成できるのでとても便利です。データ可視化や機械学習モデルの共有がとても簡単にできるのでデータサイエンスの領域でよく使われています。作成するアプリ今回はこのChatGPT APIとStreaml

masadream 2023/03/13

リンク

Narito Blog

Python/Djangoを中心に、プログラミングのメモや備忘録、チュートリアルを書いています。

masadream 2023/03/13

python
*tips

リンク

日経クロストレンドのRSSフィードを自分用に生成してみた

きっかけ仕事の都合があり、日経クロストレンドで情報収集をすることにしました。 WEBサイトの記事はFeedlyにRSSフィードを登録してまとめて読むようにしているので、これもまとめちゃお～と思ったのですが、なんと日経クロストレンドは新着記事のRSSフィードを吐いていないようです[1]。ないなら作ればいいんじゃない？ということで、PythonもAWSも初心者の筆者がやってみたら意外とさくっとできたので、自分の整理も兼ねて記事にしようと思った次第です。作りたいことの要件新着記事一覧のRSSファイルを生成する生成したRSSファイルはFeedlyが読みに行けるインターネット上のどこかに置かれていること上記の処理を定期的（1日に1回）に自動実行する環境を作って運用する作ったものの処理流れ LambdaとS3で実装しました。初心者でもかんたんにできた！（と思う） Lambdaで新着記事一

masadream 2023/03/10

ちょっとしたPython工作をしたので記事を書きました

*tips
python

リンク

【AWS Lambda】Pythonのseleniumで定期実行する

AWS Lambdaを利用することでPythonのプログラムを定期実行することが可能になります。本記事ではAWS LambdaにPythonプログラムをデプロイ、定期実行までの設定を行う方法を解説します。 AWSにサインイン自身のアカウントでサインインします。地域を選択東京リージョンを選択します。 Cloud9で環境作成 Cloud9にアクセス cloud9と入力してCloud9をクリックします。 Create environment Create environmentをクリックします。環境名を入力します。 Configure settingsはデフォルトのままでNext Stepをクリックします。 Review画面でCreate environmentをクリックします。 Pythonバージョン確認 Cloud9上でpython -Vを入力してPython3.7であることを確認

masadream 2023/03/08

リンク

Lambdaで/tmpディレクトリの利用 - 協栄情報ブログ

初めに AWS Lambda は、サーバーのプロビジョニングや管理の必要なしにコードを実行できるコンピューティングサービスです。 Lambdaを利用してファイル操作するケースもあるので、今回はファイルを処理するために、利用できる一時領域をご紹介します。 Lambdaの公式ドキュメントに、/tmpディレクトリに対して以下の記述があります。各実行環境は、/tmp ディレクトリ内のディスク領域を 512 MB に提供します。ディレクトリのコンテンツは、実行環境が停止された際に維持され、複数の呼び出しに使用できる一時的なキャッシュを提供します。キャッシュに保存したデータが存在するかどうかを確認するための追加コードを追加できます。デプロイのサイズ制限の詳細については、「Lambda のクォータ」を参照してください。 512MBの一時領域(/tmp)が提供されます。利用検証下記のコードを利用して

masadream 2023/03/08

リンク

AWS Lambda PythonでSeleniumを使える環境を構築する | DevelopersIO

データアナリティクス事業本部のueharaです。今回はAWS Lambda (Python)で、WebアプリケーションをテストするためのポータブルフレームワークであるSeleniumを使える環境を構築してみたいと思います。バケットの準備今回はLambda Layerを構築することになりますが、その資材をS3に配置するため、まずバケットを用意します。 AWSコンソールでサービスからS3を検索します。「バケットを作成」から作業用のバケット「selenium-work」という名前のバケットを作成します。その他の設定はデフォルトのままとします。パッケージの用意まず、Lambda (Python)でSeleniumを利用できるようにするために、各パッケージの用意を行います。パッケージの用意には、無料で使えるサービスであるAWS CloudShellを利用します。 Seleniumのダ

masadream 2023/03/08

リンク

【AWS Lambdaの基本コードその2】 S3へのファイル保存

大柳です。「AWS Lambdaの基本コード」シリーズ、第２回目はLambdaからS3へのファイル保存を行います。前回記事【AWS Lambdaの基本コードその1】 S3からのファイル取得とローカル保存 | ナレコムAWS レシピ今回の構成 Lambdaが起動されると、テキストの内容をS3にファイルに保存します。ローカルの/tmpディレクトリへのファイル保存なしで、直接S3にコンテンツを出力します。コードコードは以下のようになります。 # ①ライブラリのimport import boto3 from datetime import datetime print('Loading function') # ②Functionのロードをログに出力 s3 = boto3.resource('s3') # ③S3オブジェクトを取得 # ④Lambdaのメイン関数 def lambd

masadream 2023/03/08

リンク

AWS S3 で静的サイトを公開する

AWS S3 で静的サイトを公開するまでの作業手順です。 1.バケットの作成 ▶ 一般的な設定バケット名を入力します。東京リージョン以外にしたければリージョンを変更します。 ▶ オブジェクトの所有権デフォルトのままです。 ▶ このバケットのブロックパブリックアクセス設定パブリックアクセスをすべてブロックのチェックを外し、承認をチェックONします。 ▶ バケットのバージョニング誤ってファイルを削除や上書きしてしまったりした場合に復元できるので有効にしておきます。 ▶ タグ(0) - オプションデフォルトのままです。 ▶ デフォルトの暗号化デフォルトのままです。 ▶ バケットの作成バケットを作成します。 2.バケットに追加の設定をする作成したバケットを選択します。 ▶ 静的ウェブサイトホスティングプロパティタブを選択し、最下部の「静的ウェブサイトホスティング」の編集をクリ

masadream 2023/03/08

リンク

Pythonを使ってAmazon S3にファイルをアップロードする - Qiita

はじめに AWS との連携を Python で試す。Python 用 AWS SDK である Boto3 を用いて Amazon S3 へのファイルアップロードという簡単な操作を試してみる。AWS SDK for Python を参考にした。 Boto3 とは冒頭にも書いた通り、Python 用 AWS SDK で、Python アプリケーションやライブラリ、スクリプトを AWS の各種サービス（Amazon S3, Amazon EC2, Amazon DynamoDB など）と容易に統合ができる。 Boto3 には、Client API（低レベル API）と Resource API（高レベル API）という2つの異なるレベルの API がある。両者の違いは明確に理解できていないが、本記事では Client API で試行してみる。その他にも、AWS リソースの変化を自動的にポー

masadream 2023/03/08

リンク

AWS S3の特定bucketにCLIやAPIでアクセスする設定 - Qiita

AWS S3の特定のbucketに、CLIやAPIからアクセスキーIDとシークレットアクセスキーでアクセスする設定を行います。全体像は以下のようなイメージです。まず、s3testwsというバケットをつくります。そしてs3testwsuserというユーザーをつくり、アクセスキーIDとシークレットアクセスキーを生成します。そして、バケットポリシーでこのバケットs3testwsに対してユーザーs3testwsuserのアクセス権限を付与します。 1 バケットの作成以下のようにバケットを作成します。リージョンはap-northeast-1を選び、パブリックアクセスをすべてブロックしています。テスト用にtest.csvというファイルをアップロードしておきました。 2 ユーザーの作成以下のようにユーザーを作成します。「プログラムによるアクセス」にチェックをいれて、アクセスキーIDとシークレッ

masadream 2023/03/08

リンク

ChatGPT APIを使ってAIキャラクターを作ってみる！ - Qiita

こんにちは！逆瀬川( https://twitter.com/gyakuse ) です！今日は公開されたばかりのChatGPT APIを使ってAIキャラクターを作ってみます。概要 ChatGPT APIを使ってAIキャラクターを作る嬉しいところ以前のOpenAIのGPT-3.5系のAPIは $0.0200 / 1K tokens で、だいたい1000文字で3〜5円くらいでした。今回のChatGPT APIは $0.002 / 1K tokens であるため、1/10のやすさになっています。また、規約が更新され、APIを使ったinput/outputは学習対象外(オプトアウトがデフォルト)となりました。 DPAの締結(OpenAIの書式に従う必要があります)も可能になっているためより以前よりは守秘性の高いコミュニケーションに使用できる可能性があります。 Colab 実装会話を行

masadream 2023/03/06

リンク

[python]Jupyter-Notebookを秒でWebアプリ化するパッケージMercuryの使い方 - Qiita

概要 MecruryはJupyter-notebookファイルをそのままWebアプリとして実装できるパッケージである。 GitHub：https://github.com/mljar/mercury 日本語でも既に2件、ハンズオン形式で紹介されている。早速動かしてみたい人はこちらを参照すると良い。 https://www.salesanalytics.co.jp/datascience/datascience089/ https://ss1.xrea.com/penguinitis.g1.xrea.com/computer/programming/Python/mercury.html この記事で書いたこと Mercuryの利用シーン(@筆者が働いている大学) Mercuryの基本的な機能の説明使用した所感こちらにサンプルコードを載せています。 https://github.com/

masadream 2023/02/12

リンク

requestsで取得できないWebページをスクレイピングする方法 - ガンマソフト

ブログ requestsで取得できないWebページをスクレイピングする方法［ＰＲ］ 2019/12/20 2020/10/7 | Python Webスクレイピングスクレイピングの定番の方法と言えば「requests + BeautifulSoup」の組み合わせです。一般的はWebページであれば、大抵はスクレイピングできます。しかし、この方法で読み取れないWebページに遭遇することがあります。特にYahoo!やTwitterなど頻繁に更新されるサイトによくあります。その原因は、「ダウンロードしたHTMLファイル」と「ブラウザに表示されるHTML」が異なるからです。そのため、requestsでサーバーから直接ダウンロードしたHTMLファイルをBeautifulSoupで解読してもブラウザで見ている内容と違うのでスクレイピングできません。 Yahoo! JAPANが運営しているYaho

masadream 2023/01/17

リンク

matplotlibの高速化手法 - AnyTech Engineer Blog

こんにちは、AnyTechの岩井です。今回は推論結果の可視化などで使うことが多いにも関わらず推論より遅いじゃないか！となることがあるmatplotlibでのplotを高速化する手法を備忘録もかねてここに紹介したいと思います。実行環境 OS : Ubuntu20.04 CPU: Intel® Core™ i9-10850K メモリ: 64GB 各種手法比較検証用設定ノイズののった正弦波と余弦波をplotし、その上を点が動くという5分の動画を作成してみます。 30fpsで5分ですので各波は9000個のデータで構成されます。 plot数は各波2つと点2つの計4つになります。高速化手法なしまずは普通に書くとどのくらい遅いかを確認するため、点を動かす度に全部plotし直すコードを書きました。検証用コード import tqdm import cv2 import numpy as np

masadream 2023/01/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (16)

pythonと*tipsに関するmasadreamのブックマーク (60)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス