Whisper
音声認識 (Speach-to-Text) API
公式サイト:
Introducing Whisper | OpenAI [Official]
使い方
参考:
モデル
- 最小 (Tiny): パラメータ数
39
メガ - 基本 (Base): パラメータ数
74
メガ - 小 (Small): パラメータ数
244
メガ - 中 (Medium): パラメータ数
769
メガ - 大 (Large): パラメータ数
1,550
メガ
ドキュメント:
Model Card: Whistper – openai/whisper – GitHub
Google Colab で使う
参考:
Google Colab ではじめる OpenAI Whisper | npaka
ローカルで実行する
参考:
Whisper を自分の PC にインストールして文字起こし | 気まぐれブログ
対応言語
ドキュメント:
Available Models and Languages – openai/whisper – GitHub
サンプル
コード:
LibriSpeech.ipynb | Google Colaboratory
ドキュメント
Speech to Text API | OpenAI [Official]
リポジトリ
openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision – GitHub
資料
Robust Speech Recognition via Large-Scale Weak Supervision | arXiv.org
Faster Whisper
リポジトリ:
SYSTRAN/faster-whisper: Faster Whisper Transcription with CTranslate2 – GitHub
参考: