Whisper
音声認識 (Speach-to-Text) API
公式サイト:
Introducing Whisper | OpenAI [Official]
使い方
参考:
OpenAI API の Whisper API の使い方 | npaka
モデル
- 最小 (Tiny):パラメータ数
39
メガ - 基本 (Base):パラメータ数
74
メガ - 小 (Small):パラメータ数
244
メガ - 中 (Medium):パラメータ数
769
メガ - 大 (Large):パラメータ数
1,550
メガ
ドキュメント:
Model Card: Whistper – openai/whisper – GitHub
Google Colab で使う
参考:
Google Colab ではじめる OpenAI Whisper | npaka
対応言語
ドキュメント:
Available Models and Languages – openai/whisper – GitHub
サンプル
コード:
LibriSpeech.ipynb | Google Colaboratory
ドキュメント
Speech to Text API | OpenAI [Official]
リポジトリ
openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision – GitHub
資料
Robust Speech Recognition via Large-Scale Weak Supervision | arXiv.org