はじめに 音声の文字起こしは、会議の議事録作成、インタビューの書き起こし、動画コンテンツの字幕作成など、様々な場面で必要とされる作業です。クラウドベースの文字起こしサービスは多数存在しますが、料金がかかったり、プライバシーの懸念があったりします。 本記事では、OpenAIが公開しているオープンソースの音声認識モデル「Whisper」を使って、完全無料でローカル環境で動作する文字起こしツールを構築する方法を解説します。インターネット接続不要で、プライバシーを確保しながら高精度な文字起こしが可能です! 以下のレポジトリからローカルに環境構築して実行することでwhisperを使用できます! Whisperとは? Whisperは、OpenAIが2022年9月に公開したオープンソースの音声認識モデルです。以下の特徴があります: 多言語対応(日本語を含む80以上の言語) 複数のモデルサイズ(tiny
パッケージ管理システムcondaについてcondaとはAnacondaが提供するパッケージ管理システムであり、データサイエンス向けのPython/Rパッケージを効率的に管理するためのツールである。以下がcondaの主な特徴となっている。 複数の環境を独立して管理可能 依存関係の自動解決機能を搭載 バイナリパッケージの効率的な配布に対応 Anacondaパッケージはデータサイエンスコミュニティで広く活用されており、PyTorchの公式チャンネル廃止は大きな影響を及ぼす可能性がある。conda-forgeという代替手段は存在するものの、Windows対応などの一部機能では現行のAnacondaパッケージと完全な互換性を持たないことが明らかになっている。 PyTorchのパッケージング戦略に関する考察PyTorchがAnacondaパッケージの公開を停止する決定は、開発リソースの効率的な活用とい
Cargo.tomlにはデフォルトのメタデータとPyO3の依存関係(バージョン)などが記載されています。また、pyproject.tomlにはビルドツールとしてmaturinが使用されることなどがあらかじめ定義されています。 注目すべきはRustスクリプトを記述するsrc/lib.rsファイルです。以下のようなscaffold(足場)が最初から記載されています。 src/lib.rsにデフォルトで記載されているscaffold 1 use pyo3::prelude::*; 2 3 /// Formats the sum of two numbers as string. 4 #[pyfunction] 5 fn sum_as_string(a: usize, b: usize) -> PyResult<String> { 6 Ok((a + b).to_string()) 7 } 8 9
概要 CPython は Python インタプリタの拡張を記述するための C API を備えていて、C言語で Python の拡張モジュールを書くことができます。身近なところでは、numpy のような C で書かれたライブラリなどもこれにあたります。 この記事ではそのような Python の拡張モジュールを C API を使って記述するための方法をごく簡単なサンプルを使って説明します。 C API の知識は拡張モジュールを書くための基礎となるのに加えて、CPython の内部で用いられているデータ構造に触れることになるので CPython インタプリタ実装を読むにあたっての入り口にもなると思います。 想定する読者 なんらかの事情で C API を使った Python 拡張モジュールを開発する必要がある。 Python の他言語 (特に C言語) 連携の仕組みを知りたい。 特に、Cytho
はじめに メカトロ系のモデルベース制御を行う上で大事なのが、制御対象のモデルを獲得すること。ひいては、そのモデルを作るために、元となる特性を把握する必要があります。 特性を把握する方法としてM系列信号(『周波数領域におけるシステム同定の性能評価 』,足立,室井,2008)やステップ信号などがありますが、その他に有効な方法として、正弦波掃引法があります。 正弦波掃引法とは、制御対象P(s)へ外部信号dとして正弦波を加え、その時の入出力u,yを高速フーリエ変換(FFT)により解析することで、周波数特性を得る方法です。このとき、入力指令rは0とします。 このとき、制御対象が不安定系の場合だと出力が発散してしまうため、フィードバック制御器C_FB(s)を加えて対処することがあります。 ブロック線図で示すとこんな感じです。 正弦波は外部信号(外乱)dとして加えるわけですが、入力指令rがないので、次の
はじめに こんにちは! 私は業務で、数理最適化を活用したシステム開発、および導入支援に従事しています。 本記事は、私の妻が担当した 雑務(部署の懇親会のグループ分け) を題材として、それを数理最適化問題に落とし込み、条件を満たすようなグループ分けを求める簡易的なアプリをPythonで実装してみました。 「とりあえず動くものを作る」という意識で取り組んだため、もし特に数理最適化周りについて、より効率的なアプローチをご存じの方、また思いついた方は、ぜひご指摘いただけると幸いです。 具体的に・・・ 「部署の懇親会のグループ分け」の背景や概要は以下の通りとのことでした。 部署全体の人数は 100人程度、またその部署内にいくつかのチームが存在する。 この部署には、特に若手について、別チームの社員との親交が薄いという課題があった。 そこで、別チームの若手同士や、若手と年次が上の社員の親睦を深めるために
はじめに この記事は,Kaggle Advent Calendar 2022第6日目の記事になります。 本記事では、 32GB超のCSVデータの基本統計量を、小規模マシンでも省メモリかつ高速に計算するテクニック について解説します。 Kaggleコンペに限らず、 マシンスペックが低いため、大きなデータセットを満足に処理できず困っている 毎回行うファイル読み込みが遅いので、もっと高速化したい ⚡ といった悩みや課題を抱えている方の参考になれば幸いです。 モチベーション データ分析業務やKaggle等のコンペティションで初めてのデータセットを扱う場合、いきなり機械学習アルゴリズムを行うことはまず無く、最初にデータ観察を行うのが一般的です。 テーブルデータであれば、各カラムの基本統計量(最小値、最大値、平均、分散、四分位数)などを計算・可視化し、データクレンジングの要否や特徴量設計の方針などを検
Low-CodeData Preparation Collect, clean, and visualize your data in python with a few lines of code from dataprep.datasets import load_datasetfrom dataprep.eda import create_reportdf = load_dataset("titanic")create_report(df).show() from dataprep.connector import connectdc = connect("twitter", _auth={"client_id":client_id, "client_secret":client_secret})df = await dc.query("twitter", q="covid-19",
更新情報 -目次- はやくもUI改善等 Ver.upが図られています。以下内容の記事を追加しました。 1. データフレーム表示 2. ヒストグラムの描き方 3. ダークモード対応 4. オンライン版 5. 海外のデータイノベーション支援団体でも人気 はじめに Tableauはご存じでしょうか? 私は使ったことはありませんが、名前だけはよく耳にします。 これは、専門家でなくてもデータの収集・分析・加工ができるBI(ビジネス・インテリジェンス)ツールのひとつです。 なんと、Jupyter Notebook上(Google ColabもOK)で実行できる Tableau風 BIツール「PyGWalker」が登場しました。 Tableauそのものではありませんが、ドラッグ&ドロップの簡単な操作でデータ分析や視覚的な探索が実行できます。 こんなのが出てくるとは・・・すごい。 しかも、数行のコードで実
k-means(k平均法)は教師なし学習の中でもとても有名なアルゴリズムの一つです。例えば、顧客のデータから顧客を購買傾向によってグループ分けしたり、商品の特性からいくつかのグループに分けたりと使用法は様々です。 そんなk-measですが、実は中学生でも知っている点と点の間の距離を使うだけのアルゴリズムで成り立っているので、簡単に実装することができます。 今回は、k-means とk-meansの弱点を克服したk-means++をPythonを使って実装していきます。 k-meansの仕組み k-meansの問題点とk-means++ クラスの数を決めるエルボー法 scikit-learnを使ったk-meansとk-means++ まとめ 参考 k-meansの仕組み 今回は2つの変数からサンプルをクラスタリングすることを想定してみましょう。グラフはこんな感じになります。 import n
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Information 2024/1/8: pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 はじめに どうもこんにちは、kunishouです。 この度、PythonライブラリであるPolarsを効率的に学ぶためのコンテンツとして
PolarsというPandasを100倍くらい高性能にしたライブラリがとても良いので布教します1。PolarsはRustベースのDataFrameライブラリですが、本記事ではPythonでのそれについて語ります。 ちなみにpolarsは白熊の意です。そりゃあまあ、白熊と大熊猫比べたら白熊のほうが速いし強いよねってことです2。 何がいいの? 推しポイントは3つあります 高速! お手軽! 書きやすい! 1. 高速 画像はTPCHのBenchmark(紫がPolars)3。 日本語でも色々記事があるので割愛しますが、RustやApach Arrowなどにお世話になっており、非常に速いです。MemoryErrorに悩まされる問題も解決されます。開発者のRitchieがしゃれおつなツイートをしてるので、そちらも参考にどうぞ ↓ 4。 抄訳: (ひとつ目)Pandasは黄色くした部分でDataFram
import os import polars as pl dtypes = { 'customer_id': str, 'gender_cd': str, 'postal_cd': str, 'application_store_cd': str, 'status_cd': str, 'category_major_cd': str, 'category_medium_cd': str, 'category_small_cd': str, 'product_cd': str, 'store_cd': str, 'prefecture_cd': str, 'tel_no': str, 'postal_cd': str, 'street': str, 'application_date': str, 'birth_day': pl.Date } df_customer = pl.read_c
pandasではデフォルトでは文字列をオブジェクトデータ型で扱うようになっています。それに対してpolarsには最初から文字列専用のデータ型が用意されています。 pandasで日付を扱う場合は一般的には時刻を0:00:00にした日時np.datetime64で代用しますが、polarsには日付のみを扱うpl.Dateが存在し、また時刻のみを扱うpl.Time、日付+時刻を扱うpl.Datetimeもそれぞれ存在します。 型変換メソッド、つまりpandasの.astype()は、polarsでは.cast()です。 エクスプレッション(pl.Expr()) polarsには、データフレーム・シリーズとは別にエクスプレッションというクラスが存在します。エクスプレッションは「一連の操作の命令」だと思うとよいでしょう。 例えば、「"A"列を選択→3で割る→10より小さい値は2倍して大きい値は2で割
こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 本記事では、世間でも話題となっているPolarsについて基本的な使い方を抑えていきたいと思います。 私自身「データサイエンス100本ノック」をPolarsで一通り実施しましたので、それを元に実践に必要な使い方とノウハウをご紹介します。 本記事でPolarsの使い方とノウハウを習得し、実践的なテクニックを身につけて頂ければと思います。 Polarsとは pandasのようにデータフレーム形式を扱うライブラリで、高速で遅延評価可能などの特徴があります。 その他以下のような特徴があります。 indexがない、マルチカラムもない カラム名の重複不可(いい制約という意味で) pl.Exprという計算式で記述でき、実体化が不要 複雑な処理もワンライナーで書ける(df_tmpなど一時的な実体化が不要) 処理を文字列リテラルではなく関
門脇@satoru_kadowakiです。今月のPython Monthly Topicsでは、Rust製の高速データフレームライブラリ Polars について紹介します。 Polarsとは Pythonでデータ分析に使用される主なライブラリに pandas があります。Polarsはpandasと同様にデータフレームというデータ構造オブジェクトを提供するサードパーティライブラリです。特にpandasを意識して作られており、メインページに「Lightning-fast DataFrame library for Rust and Python」とあるように、Rustによる高速処理を謳っています。 Polarsのリポジトリや関連ドキュメントは以下を参照してください。 Github: https://github.com/pola-rs/polars ユーザーガイド: https://pola
アンケート調査の分析をするのはマーケティング担当者で、恐らく大学時代は社会学や心理学といった文系出身だと思います。昔ならSPSS、最近ならRだと思います。 一方で、Pythonはどちらかというと情報学系の人やシステムエンジニアが使うツール(言語)でPythonでアンケート分析を真っ向からしている書籍は存外少ないものです。最近私はRからPythonへの全面的な移行を考えているのですが、備忘録も兼ねて、Pythonでアンケート調査を行ってみました。 事前準備・前処理 先ずは予め読み込んでおいた方が良いLibrary類をインポートしておきます。 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline seabornのテーマをデフォ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く