声音标签页（Sound Tab）¶

VoiceScriptPlayer 的 声音标签页 是用于管理项目中核心音频的编辑区域，
同时执行字幕（STT）、翻译和语音合成（TTS）等功能。
所有轨道和事件都以声音为基准进行同步。

1. 基本界面¶

sound-main

声音标签页用于管理项目中使用的所有音频文件。
TTS 生成、字幕设置、文件导入等所有与语音相关的功能都在此完成。

组件	说明
① 包含到项目中	勾选后，导入的音频会复制到项目内部文件夹中。取消勾选则仅引用外部文件，不会复制实际音频。
② 导入	从本地磁盘导入 `.wav`、`.mp3` 文件。是否复制取决于“包含到项目中”的状态。
③ 新建	创建新的 TTS 语音。点击后打开 TTS 生成窗口，可通过指定的语音引擎（如 COEIROINK）合成输入台词。
④ 编辑 ✏️	打开所选音频的详细编辑窗口。导入的音频显示为字幕编辑器，生成的 TTS 音频显示为 TTS 编辑器。
⑤ 删除 🗑️	从列表中移除选定的音频。
⑥ 导出 ↗ / 重新导入 ↙	将项目中包含的音频导出到外部文件夹，或重新导入到项目中。
⑦ 打开音频文件夹 📂	直接打开当前项目中音频文件所在的文件夹。
⑧ 波形预览区域	显示选定音频的波形与长度。下方显示文件名、播放时长及是否包含在项目中。

⚙️ 操作概要¶

情况	结果
勾选“包含到项目中”后导入	文件将复制到项目文件夹（`Asset/Sound/`）。
未勾选后导入	文件仅被引用，实际不会移动。
使用“导出到外部”按钮	将选定音频复制到指定文件夹。
使用“重新导入到项目”按钮	将外部文件恢复到项目中。

💡 提示：
取消勾选“包含到项目中”有以下优点：

✅ 减少项目体积： 大型音频文件不会被复制，从而节省存储空间。

⚡ 加快加载速度： 省略复制过程，导入更快。

🛠️ 易于外部编辑： 外部编辑（如降噪、替换音频）能立即反映在项目中。

🧾 保护版权： 可避免将付费音源或商用语音包含在项目文件中。

但请注意，这类引用音频在发布导出时不会自动包含，
他人获取项目后将无法播放未包含的音频文件。

2. 字幕设置（Medio Editor）¶

sound-subtitle-editor

选择音频文件并点击 ✏️ 编辑 按钮后，
将打开 Medio Editor 窗口，可同时执行字幕生成（STT）、翻译与时间调整。

🎛️ 基本组成¶

项目	说明
名称	当前正在编辑的音频文件名。
长度	显示音频的播放范围和总时长。
AI 设置	可直接打开 Whisper、DeepL 等 AI 引擎设置，无需关闭窗口。
音频语言	选择 STT 使用的语音语言（如日语、韩语、英语等）。
翻译语言	指定翻译的目标语言。
视频预览窗口	显示字幕预览效果。
字幕列表（右侧）	可单独修改每一行字幕的时间区间与位置。

🗣️ 将音频转换为字幕（STT）¶

设置 音频语言。
点击 [将音频转换为字幕] 按钮。
使用已注册的 STT 引擎（如 Whisper）将语音转换为文本。
结果会自动显示为分段字幕列表。

项目	说明
StartTime / EndTime	调整字幕的开始与结束时间。
字幕内容	显示识别出的文本，可直接编辑。
X / Y	指定字幕在屏幕中的显示位置。
FontSize / OutlineSize	调整字幕的字体大小与描边粗细。
Dock	选择字幕基准位置（上、中、下）。
Fill / Outline	设置字幕颜色与描边颜色。

💡 提示：
转换后的字幕会自动保存至项目的 Asset/Sound/ 文件夹，
可在其他音频或视频中复用。

🌐 字幕翻译¶

生成字幕后点击 [翻译字幕] 按钮。
使用所选的 翻译引擎（DeepL、LibreTranslate 等）
自动将 音频语言 → 翻译语言。
翻译结果会与原文并排显示，可逐条修改。

选项	说明
自动翻译引擎	使用在设置中指定的翻译 API。
结果预览	在字幕预览窗口中即时查看翻译结果。
编辑应用	可直接在右侧面板中编辑并应用翻译结果。

💡 提示：
- 若要将日语音频翻译成韩语，请将 音频语言=日语、翻译语言=韩语。
- 翻译后的字幕与原字幕一同保存，播放音频时将自动显示。

▶️ 预览与确认¶

点击底部的 播放按钮 ▶ 可检查字幕同步。
可通过滑块查看特定时间段字幕。

⚙️ STT 与翻译引擎设置：
- AI → Whisper
- AI → DeepL
- AI → LibreTranslate

📦 输出位置¶

类型	路径
STT 字幕文件	`Asset/Sound/原始文件名.srt`

3. 语音合成（TTS）¶

sound-tts-editor

点击 [新建] 按钮后，会打开 Audio Editor 窗口，
可输入多句文本，并为每句单独设置合成参数。
可使用 COEIROINK、Hailuo 等语音引擎，生成自然的语音片段。

🧩 主要更新摘要¶

项目	说明
多句输入支持	在一次编辑中可输入多句，每句单独合成。
句子级 TTS 设置	每句可独立调整角色、语速、音高、音量等参数。
新增时间轴	增加 TTS 专用时间轴，与其他轨道（视频、事件等）一致。
预览功能改进	可逐句播放或连续预览。

🎛️ 基本组成¶

项目	说明
名称	要生成的音频文件名称。
长度	显示当前句子集合的总播放时间。
AI 设置	打开所选 TTS 引擎的配置窗口。
TextToSpeech 引擎	选择所使用的引擎（如 `COEIROINK`、`Hailuo`）。
时间轴	句子在时间轴上排列，可调整长度与位置。操作方式与视频、事件轨道相同。

🗣️ 句子级编辑¶

每句文本独立管理，可单独调整文本、语音参数、字幕样式。

项目	说明
文本输入框	输入要转换的台词。多行输入时每行为单独句子。
角色选择	指定使用的语音角色（如リリン酱、ノエル等）。
速度 / 音高 / 强度 / 音量	每句可单独调整。
字幕预览	下方显示字幕以检查同步。
字幕设置	独立设置字幕位置、字体大小、颜色、描边等视觉属性。

📜 时间轴控制¶

新增的 TTS 时间轴 与其他轨道编辑方式一致。

项目	说明
句子节点	每句显示为独立节点，可拖动调整位置。
区间调整	拖动节点两端调整长度。
顺序修改	改变句子顺序会自动更新时间轴。
播放控制	支持区间播放、全播放、暂停等功能。

💡 提示：
通过时间轴可精准同步音频、字幕与事件。
编辑快捷键与操作方式与其他轨道一致。

🎧 各引擎特征¶

🪶 COEIROINK¶

日本开发的开源语音合成引擎
擅长情感表达与语调控制
支持本地快速生成
输出格式：WAV
主要参数：Speed、Pitch、Volume

🌊 Hailuo¶

云端 AI 语音合成引擎
擅长自然发音与平滑衔接
支持多语言（日语、韩语、英语等）
通过云 API 提供高音质合成
主要参数：Pitch、Intensity、Timbre、Emotion

🎧 在线体验
可在 Hailuo 官方演示页面
试听多种语音角色，选择喜欢的风格（女性、男性、感情型等），
并在 VoiceScriptPlayer 中应用相同设置。

hailuo-web-demo

AI → COEIROINK

AI → Hailuo

▶️ 预览与合成¶

点击 ▶ 按钮 即可播放当前句子。
支持全句播放与区间预览。
修改文本后会自动重新合成。

📦 输出位置¶

项目	路径
生成的音频文件	自动保存到 `Asset/Sound/` 文件夹
字幕数据	保存为 `.srt` 文件或项目元数据

💡 提示¶

若需要在不同句子中切换角色或情感，可将台词拆分为多个句子并分别设置。
可混合使用 COEIROINK 与 Hailuo（例如：日语部分使用 COEIROINK，韩语旁白使用 Hailuo）。

4. 添加到轨道中¶

生成或导入的音频可拖拽到时间轴直接添加。

从左侧列表拖拽音频到轨道上，会自动生成节点。
可立即调整节点长度与位置。
可同时放置多个音频以实现复合音效。

💡 提示：
音频节点可与其他资源（Live2D、UI、事件）在时间轴上精确同步。

🎚️ 音频节点设置¶

时间轴中的音频可通过声音设置窗口进行详细调整。
右键点击音频节点选择“编辑”，或双击打开如下设置：

sound-settings

项目	说明
开始时间 / 结束时间	设置播放的起始与结束位置。
循环	勾选后将在指定区间循环播放。
左声道 / 右声道音量	可分别调整立体声平衡。

通过这些设置可实现空间化音效或特定片段循环播放。

声音标签页（Sound Tab）¶

1. 基本界面¶

⚙️ 操作概要¶

2. 字幕设置（Medio Editor）¶

🎛️ 基本组成¶

🗣️ 将音频转换为字幕（STT）¶

🌐 字幕翻译¶

▶️ 预览与确认¶

📦 输出位置¶

3. 语音合成（TTS）¶

🧩 主要更新摘要¶

🎛️ 基本组成¶

🗣️ 句子级编辑¶

📜 时间轴控制¶

🎧 各引擎特征¶

🪶 COEIROINK¶

🌊 Hailuo¶

▶️ 预览与合成¶

📦 输出位置¶

💡 提示¶

4. 添加到轨道中¶

🎚️ 音频节点设置¶

5. 相关文档¶