Whisper 音声認識 (Speech-to-Text)¶

1. 概要 (Overview)¶

Whisper は OpenAI によって開発された 音声認識 AI です。
音声ファイルをテキストに変換（STT）でき、さまざまな言語をサポートしています。
VoiceScriptPlayer では、自動字幕生成、スクリプト抽出、リアルタイム音声コマンド認識 などに利用されています。

2. インストールと準備 (Installation & Setup)¶

VoiceScriptPlayer には WhisperNet がすでに組み込まれているため、追加のインストールは不要です。
WhisperNet は Whisper を .NET 環境で動作させるための移植ライブラリです。
- WhisperNet GitHub

🔽 自動モデルダウンロード¶

VoiceScriptPlayer の AI / Whisper 設定タブ から、希望のモデルサイズ
（tiny, base, small, medium, large）を選択すると、
自動的にモデルがダウンロードおよび適用されます。
インターネット接続があれば手動でのダウンロードは不要です。

手動でダウンロードしたい場合は、以下のリンクから取得できます：

モデル名	サイズ	ダウンロード
tiny	約 75 MB	ダウンロード
base	約 142 MB	ダウンロード
small	約 466 MB	ダウンロード
medium	約 1.5 GB	ダウンロード
large	約 2.9 GB	ダウンロード

⚠️ モデルサイズが大きいほど精度は向上しますが、処理速度が遅くなりメモリ使用量も増加します。

3. 設定方法 (Configuration)¶

VoiceScriptPlayer で WhisperNet を通してモデルを選択できます。
デフォルトモデルの指定（例: base, medium）
言語設定（自動検出 vs 手動指定）
パフォーマンスオプション
精度優先 / 速度優先
CPU / GPU モード選択

4. 使用方法 (Usage)¶

音声ファイルを読み込み（MP3, WAV, MP4 など）
字幕ファイル（SRT, VTT）として書き出し
テキストのみ抽出
リアルタイム音声認識の使用例
UI 操作フロー：
ファイル → Whisper 処理 → 結果表示

5. 注意事項 (Notes & Limitations)¶

モデルサイズにより速度とメモリ消費が大きく異なります。
長時間のファイルは処理に時間がかかります。
GPU がない場合、処理が遅くなることがあります。
Whisper 自体はオープンソースですが、商用利用時はライセンスを必ず確認してください。
Whisper はオフラインで動作しますが、モデルダウンロード時のみインターネット接続が必要です。

⚡ パフォーマンス比較 (Performance Benchmark)¶

環境	モデル	10分の音声処理時間（目安）
CPU (一般的なデスクトップ i5/i7)	`base`	約 7〜10 分
CPU (低スペックノート)	`base`	約 12〜15 分
GPU (RTX 3060 以上)	`base`	約 1〜2 分
GPU (RTX 4090 等)	`large`	約 30 秒〜1 分

💡 モデルが大きいほど精度は高くなりますが、処理速度は遅くなります。
Whisper は一度モデルをダウンロードすれば、オフラインでも使用できます。

6. ライセンスと出典 (License & Credits)¶

Whisper（オリジナル）: MIT License
Whisper.cpp: MIT License
WhisperNet: MIT License
公式 GitHub:
Whisper
Whisper.cpp
WhisperNet
商用利用可（変換されたテキストの著作権はユーザーに帰属）

7. トラブルシューティング (Troubleshooting / FAQ)¶

❓ 「モデルファイルが見つかりません。」
→ Whisper 設定タブからモデルを選択すると自動的にダウンロード・適用されます。
手動で取得する場合は Whisper.cpp ページからダウンロードしてください。
❓ 「動作が遅いです。」
→ 小さいモデル（tiny, base）を使用するか、GPU 加速を有効にしてください。
一般的な CPU では 10 分の音声で約 7〜10 分、GPU 使用時は約 1〜2 分で処理されます。
❓ 「言語が正しく認識されません。」
→ 自動検出ではなく、明示的に言語を指定してください。
❓ 「メモリエラーが発生します。」
→ 小さいモデルを使用するか、ファイルを分割して処理してください。