Whisper

音声認識 (Speach-to-Text) API

公式サイト:

Introducing Whisper | OpenAI [Official]

使い方

参考:

Whisper API の使い方 | npaka

Whisper の使い方 | 株式会社アイスマイリー

モデル

  • 最小 (Tiny) パラメータ数 39 メガ
  • 基本 (Base) パラメータ数 74 メガ
  • 小 (Small) パラメータ数 244 メガ
  • 中 (Medium) パラメータ数 769 メガ
  • 大 (Large) パラメータ数 1,550 メガ

ドキュメント:

Model Card: Whistper – openai/whisper – GitHub

Google Colab で使う

参考:

Google Colab ではじめる OpenAI Whisper | npaka

ローカルで実行する

参考:

ローカル環境で使用する方法 – Qiita

ローカルで実行し文字起こしする方法 | agusblog

Whisper を自分の PC にインストールして文字起こし | 気まぐれブログ

対応言語

ドキュメント:

Available Models and Languages – openai/whisper – GitHub

サンプル

コード:

LibriSpeech.ipynb | Google Colaboratory

ドキュメント

Speech to Text API | OpenAI [Official]

リポジトリ

openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision – GitHub

資料

Robust Speech Recognition via Large-Scale Weak Supervision | arXiv.org

Faster Whisper

リポジトリ:

SYSTRAN/faster-whisper: Faster Whisper Transcription with CTranslate2 – GitHub

参考:

Faster Whisper を利用してローカル環境でリアルタイム文字起こしに挑戦 – Qiita

記事をシェアする:

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

Protected by reCAPTCHA