Whisper 音声認識 (Speech-to-Text)¶
1. 概要 (Overview)¶
Whisper は OpenAI が開発した 音声認識 AI です。
音声ファイルをテキストに変換(STT)でき、多言語に対応しています。
VoiceScriptPlayer では、自動字幕生成、スクリプト抽出、リアルタイム音声コマンド認識 などに利用されています。
2. インストールと準備 (Installation & Setup)¶
VoiceScriptPlayer には WhisperNet がすでに内蔵されており、追加のインストールは不要です。
WhisperNet は Whisper を .NET 環境で利用できるようにした移植版ライブラリです。
- WhisperNet GitHub
🔽 モデルの自動ダウンロード¶
VoiceScriptPlayer の AI / Whisper 設定タブ から、希望のモデルサイズ(tiny, base, small, medium, large)を選択すると、
自動的にモデルがダウンロードされ、適用されます。
インターネット接続があれば手動でのダウンロードは不要です。
手動でダウンロードしたい場合は、以下のリンクから取得できます:
| モデル名 | 容量 | ダウンロードリンク |
|---|---|---|
| tiny | 約 75 MB | ダウンロード |
| base | 約 142 MB | ダウンロード |
| small | 約 466 MB | ダウンロード |
| medium | 約 1.5 GB | ダウンロード |
| large | 約 2.9 GB | ダウンロード |
⚠️ モデルサイズが大きいほど精度は向上しますが、処理速度が遅くなりメモリ使用量も増加します。
3. 設定方法 (Configuration)¶
- VoiceScriptPlayer では WhisperNet を通してモデルを選択できます。
- デフォルトモデルの設定(例:
base,medium) - 言語設定(自動検出 または 手動指定)
- パフォーマンスオプション
- 精度優先 / 速度優先
- CPU / GPU モードの切り替え
4. 使用方法 (Usage)¶
- 音声ファイルを読み込み(MP3、WAV、MP4 など)
- 字幕ファイル(SRT、VTT)として書き出し
- テキストのみ抽出
- リアルタイム音声認識の使用例
- UI 操作の流れ:
ファイル → Whisper 処理 → 結果表示
5. 注意事項 (Notes & Limitations)¶
- モデルサイズにより処理速度やメモリ使用量が大きく異なります。
- 長時間の音声ファイルは処理に時間がかかります。
- GPU 環境がない場合、処理速度が遅くなることがあります。
- Whisper 自体はオープンソースですが、商用利用する場合はライセンスを必ず確認してください。
- Whisper はオフラインでも動作しますが、モデルの初回ダウンロード時にはインターネット接続が必要です。
⚡ パフォーマンス比較 (Performance Benchmark)¶
| 環境 | モデル | 10分音声の処理時間(目安) |
|---|---|---|
| CPU (一般的なデスクトップ i5/i7) | base |
約 7〜10 分 |
| CPU (低スペックノート) | base |
約 12〜15 分 |
| GPU (RTX 3060 以上) | base |
約 1〜2 分 |
| GPU (RTX 4090 等) | large |
約 30 秒〜1 分 |
💡 モデルが大きいほど精度は向上しますが、処理速度は低下します。
Whisper は一度モデルをダウンロードすれば、以降はオフラインで使用可能です。
6. ライセンスと出典 (License & Credits)¶
- Whisper(オリジナル): MIT License
- Whisper.cpp: MIT License
- WhisperNet: MIT License
- 公式 GitHub:
- Whisper
- Whisper.cpp
- WhisperNet
- 商用利用可能(変換されたテキストの著作権はユーザーに帰属)
7. トラブルシューティング (Troubleshooting / FAQ)¶
-
❓ 「モデルファイルが見つかりません。」
→ Whisper 設定タブからモデルを選択すれば、自動的にダウンロードおよび適用されます。
手動で取得する場合は Whisper.cpp のページからダウンロードしてください。 -
❓ 「処理が遅すぎます。」
→ 小さいモデル(tiny,base)を使用するか、GPU アクセラレーションを有効にしてください。
一般的な CPU では 10分音声で約 7〜10 分、GPU 使用時は約 1〜2 分で処理されます。 -
❓ 「言語が正しく認識されません。」
→ 自動検出ではなく、明示的に言語を指定してください。 -
❓ 「メモリエラーが発生します。」
→ 小さいモデルを使用するか、音声ファイルを分割して処理してください。