Whisper 음성 인식 (Speech-to-Text)¶

1. 개요 (Overview)¶

Whisper는 OpenAI에서 개발한 음성 인식 AI입니다.
음성 파일을 텍스트로 변환(STT)할 수 있으며, 다양한 언어를 지원합니다.
VoiceScriptPlayer에서는 자동 자막 생성, 대본 추출, 실시간 명령 인식 등에 활용할 수 있습니다.

2. 설치 및 준비 (Installation & Setup)¶

VoiceScriptPlayer에는 이미 WhisperNet이 내장되어 있어 별도의 설치 과정이 필요하지 않습니다.
WhisperNet은 Whisper를 .NET 환경에서 사용할 수 있도록 포팅한 라이브러리입니다.
- WhisperNet GitHub

🔽 자동 모델 다운로드¶

VoiceScriptPlayer 내의 AI / Whisper 설정 탭에서 원하는 모델 크기(tiny, base, small, medium, large)를 선택하면
자동으로 모델을 다운로드하고 적용할 수 있습니다.
인터넷 연결만 되어 있으면 별도의 수동 다운로드 과정이 필요 없습니다.

직접 다운로드를 원하는 경우에는 아래 링크에서 수동으로 받을 수도 있습니다:

모델명	용량	다운로드
tiny	~75 MB	다운로드
base	~142 MB	다운로드
small	~466 MB	다운로드
medium	~1.5 GB	다운로드
large	~2.9 GB	다운로드

⚠️ 모델 크기가 커질수록 정확도는 올라가지만 처리 속도가 느려지고 메모리 사용량이 많아집니다.

3. 설정 방법 (Configuration)¶

VoiceScriptPlayer에서 WhisperNet을 통해 모델을 선택할 수 있습니다.
기본 모델 지정 (예: base, medium)
언어 설정 방법 (자동 감지 vs 수동 지정)
성능 옵션
정확도 우선 vs 속도 우선
CPU / GPU 모드 선택

4. 사용 방법 (Usage)¶

음성 파일 불러오기 (MP3, WAV, MP4 등)
자막 파일(SRT, VTT)로 내보내기
텍스트만 추출하기
실시간 음성 인식 사용 예시
UI 동작 흐름:
파일 → Whisper 처리 → 결과 표시

5. 주의사항 (Notes & Limitations)¶

모델 크기에 따라 속도 및 메모리 사용량이 크게 달라집니다.
긴 파일은 처리 시간이 오래 걸릴 수 있습니다.
GPU 환경이 없는 경우 속도가 느려질 수 있습니다.
Whisper 자체는 오픈소스이지만, 상업적 이용 시 반드시 라이선스를 확인해야 합니다.
인터넷 연결은 필요 없지만, 모델 다운로드 시에는 인터넷이 필요합니다.

⚡ 성능 참고 (Performance Benchmark)¶

환경	모델	10분 영상 처리 시간(대략)
CPU (일반 데스크탑 i5/i7급)	`base`	약 7~10분
CPU (저사양 노트북)	`base`	약 12~15분
GPU (RTX 3060 이상)	`base`	약 1~2분
GPU (RTX 4090 등 고성능)	`large`	약 30초~1분

💡 모델 크기가 커질수록 정확도는 향상되지만 처리 속도는 느려집니다.
Whisper는 오프라인에서도 동작하며, 한 번 모델을 다운로드하면 인터넷 없이도 사용할 수 있습니다.

6. 라이선스 및 출처 (License & Credits)¶

원본 Whisper: MIT License
Whisper.cpp: MIT License
WhisperNet: MIT License
공식 GitHub:
Whisper
Whisper.cpp
WhisperNet

7. 문제 해결 (Troubleshooting / FAQ)¶

❓ "모델 파일을 찾을 수 없습니다."
→ 프로그램 내에서 모델을 자동 다운로드할 수 있습니다.
설정 메뉴의 Whisper 탭에서 모델을 선택하면 자동으로 다운로드 및 적용됩니다.
수동 다운로드를 원할 경우 Whisper.cpp 페이지에서 직접 받을 수 있습니다.
❓ "속도가 너무 느립니다."
→ 작은 모델(tiny, base)을 사용하거나 GPU 가속을 설정하세요.
일반적인 CPU에서는 10분짜리 영상 기준 약 7~10분 정도가 소요됩니다.
GPU를 사용할 경우 약 1~2분 내에 처리됩니다.
❓ "언어가 잘못 인식됩니다."
→ 언어를 자동 감지 대신 명시적으로 지정하세요.
❓ "메모리 부족 오류가 납니다."
→ 더 작은 모델을 사용하거나 파일을 나누어 처리하세요.