Whisper

音声認識 (Speach-to-Text) API

公式サイト:

Introducing Whisper | OpenAI [Official]

使い方

参考:

Whisper API の使い方 | npaka

Whisper の使い方 | 株式会社アイスマイリー

モデル

  • 最小 (Tiny) パラメータ数 39 メガ
  • 基本 (Base) パラメータ数 74 メガ
  • 小 (Small) パラメータ数 244 メガ
  • 中 (Medium) パラメータ数 769 メガ
  • 大 (Large) パラメータ数 1,550 メガ

ドキュメント:

Model Card: Whistper – openai/whisper – GitHub

Google Colab で使う

デモ:

Whisper – プログラミング不要!誰でも無料で音声書き起こし AI を使えるノート (notaijp) | Google Colab

参考:

Google Colab ではじめる Whisper | npaka

Whisper – Google Colab で試してみた – Qiita

Whisper v3 – Google Colab で実装する/無料で簡単に音声書き起こし AI が使える | AI じゃないよ

Whisper – Google Colabで無料で使える/文字起こしの使い方! | MiraLabAI

Whisper と Google Colab で音声の文字起こしをやってみた | Kazuki Yonemoto

Gradio

参考:

Web アプリを作ってデモ編 – Qiita

ローカルで実行する

参考:

ローカル環境で使用する方法 – Qiita

ローカルで実行し文字起こしする方法 | agusblog

Whisper を自分の PC にインストールして文字起こし | 気まぐれブログ

字幕生成

参考:

YouTube 用に字幕生成してみた – Qiita

Whisper v3 – YouTube 動画を文字起こしする | つくもちブログ

対応言語

ドキュメント:

Available Models and Languages – openai/whisper – GitHub

サンプル

コード:

LibriSpeech.ipynb | Google Colaboratory

ドキュメント

Speech to Text API | OpenAI [Official]

リポジトリ

openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision – GitHub

資料

Robust Speech Recognition via Large-Scale Weak Supervision | arXiv.org

Faster Whisper

リポジトリ:

SYSTRAN/faster-whisper: Faster Whisper Transcription with CTranslate2 – GitHub

参考:

Faster Whisper を利用してローカル環境でリアルタイム文字起こしに挑戦 – Qiita

Kotoba Whisper

リポジトリ:

kotoba-tech/kotoba-whisper – GitHub

リンク:

Kotoba Whisper | Hugging Face

Kotoba Technologies [Official]

Kotoba Technologies (@kotoba_tech) | X

参考:

kotoba-whisper-v2.0 – ほぼリアルタイム!?爆速で動作する日本語特化の文字起こし AI! – Qiita

kotoba-whisper-v2.0 – 爆速でローカル動作する日本語特化の文字起こし AI の実力は? | 窓の杜

Whisper Web UI

リポジトリ:

jhj0517/Whisper-WebUI: A Web UI for easy subtitle using whisper model – GitHub

デモ:

whisper-webui.ipynb (jhj0517) | Google Colab

参考:

Whisper を Google Colab で試す | しろ

記事をシェアする:

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

Protected by reCAPTCHA