Whisper
音声認識 (Speach-to-Text) API
公式サイト:
Introducing Whisper | OpenAI [Official]
使い方
参考:
モデル
- 最小 (Tiny): パラメータ数
39
メガ - 基本 (Base): パラメータ数
74
メガ - 小 (Small): パラメータ数
244
メガ - 中 (Medium): パラメータ数
769
メガ - 大 (Large): パラメータ数
1,550
メガ
ドキュメント:
Model Card: Whistper – openai/whisper – GitHub
Google Colab で使う
デモ:
Whisper – プログラミング不要!誰でも無料で音声書き起こし AI を使えるノート (notaijp) | Google Colab
参考:
Google Colab ではじめる Whisper | npaka
Whisper – Google Colab で試してみた – Qiita
Whisper v3 – Google Colab で実装する/無料で簡単に音声書き起こし AI が使える | AI じゃないよ
Whisper – Google Colabで無料で使える/文字起こしの使い方! | MiraLabAI
Whisper と Google Colab で音声の文字起こしをやってみた | Kazuki Yonemoto
Gradio
参考:
ローカルで実行する
参考:
Whisper を自分の PC にインストールして文字起こし | 気まぐれブログ
字幕生成
参考:
Whisper v3 – YouTube 動画を文字起こしする | つくもちブログ
対応言語
ドキュメント:
Available Models and Languages – openai/whisper – GitHub
サンプル
コード:
LibriSpeech.ipynb | Google Colaboratory
ドキュメント
Speech to Text API | OpenAI [Official]
リポジトリ
openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision – GitHub
資料
Robust Speech Recognition via Large-Scale Weak Supervision | arXiv.org
Faster Whisper
リポジトリ:
SYSTRAN/faster-whisper: Faster Whisper Transcription with CTranslate2 – GitHub
参考:
Faster Whisper を利用してローカル環境でリアルタイム文字起こしに挑戦 – Qiita
Kotoba Whisper
リポジトリ:
kotoba-tech/kotoba-whisper – GitHub
リンク:
Kotoba Technologies [Official]
Kotoba Technologies (@kotoba_tech) | X
参考:
kotoba-whisper-v2.0 – ほぼリアルタイム!?爆速で動作する日本語特化の文字起こし AI! – Qiita
kotoba-whisper-v2.0 – 爆速でローカル動作する日本語特化の文字起こし AI の実力は? | 窓の杜
Whisper Web UI
リポジトリ:
jhj0517/Whisper-WebUI: A Web UI for easy subtitle using whisper model – GitHub
デモ:
whisper-webui.ipynb (jhj0517) | Google Colab
参考: