Pet Echo 1.6.87

1提取器与筛选

Pet Vocal Segment Extractor｜候选片段提取。在卡片 2 上传素材后直接「提交并提取」；后续在流水线中处理片段。

当前模式：稳定候选裁切模式

提取 Provider

候选提取经 Worker /api/classify-audio；auto / yamnet 调用独立 yamnet_service（TF Hub YAMNet，默认 localhost:8000/classify）。连通性状态显示在卡片 2 内。

Custom Endpoint（可选，仅 custom-endpoint）仅输出猫相关候选（meow / purr / pet_sound） Debug 模式（显示被排除片段）

2上传并提取候选片段

拖拽音频/视频到这里，或点击选择文件（最多 3 个）

选择文件

当前已添加 0 个文件

正在检测 YAMNet/TF 分类接口连通性…

请先添加文件（最多 3 个），然后点击「提交并提取候选片段」。

3本机仓库（IndexedDB）

按视频/素材文件名保存完整流程版本（上传 → 识别 → 清洗）。刷新页面后工作台为空白，请从下方历史文档载入某一版本。同名文件再次上传会自动加 (2) 等尾缀。数据仅存本机浏览器。

历史文档（按素材名 · 版本，当前宠物）

3流水线：Stage 3A+3B → 3C

一键依次执行 Stage 3A（基础整理）与 Stage 3B（干扰检测）；后台分两步处理，下方仅展示 3B 结果快照（3A 不单独展示）。Stage 3B 完成后自动 Stage 3C 与声学特征。

Stage 3B 选项：额外导出「VAD 人声区间强衰减」轨（粗处理；人声与猫叫同频仍会伤猫叫）

Stage 3C 人声分离（默认 Demucs htdemucs，分离「伴奏/人声」和弦乐残留，猫叫+说话共存时 YAMNet 仍可能标 Speech）。若抑制后波形仍像有人声，请改用语言查询分离： SPEECH_SEPARATION_MODE=audiosep uvicorn speech_separation_service.app:app --port 8844（或 lass / audiosep_lass），Worker 配置 SPEECH_SEPARATION_SERVICE_URL。猫声增强的播放器与 YAMNet 图均使用 3C 抑制轨。拖动波形裁切手柄松开后，将自动写入下方 Clean 训练并同步到 Pane 4 档案。

猫声增强为最干净轨：列表中「可 AI 复制」表示已进入 Pane 4 AI 训练档案。

当前：标记 accepted 片段后，点「执行 Stage 3A+3B」开始流水线（后台先 3A 再 3B，自动 3C）

6Stage 4A 人工分拣

4我的猫咪叫声档案

仅「Clean Training + 通过全部技术闸门 + 已确认本猫」的样本会入档；优先 YAMNet embedding，不可用时回退声学向量。与档案 centroidEmbedding 做余弦相似度（profileStatus：<10 不足、≥10 可匹配、≥30 可试生成）。

档案尚未加载…

AI 训练样本（来自猫声增强裁切 / Clean 训练集）

声音复制打标（按 clean 质量勾选后提交）

相似度试听：上传一段猫叫 WAV/音频，与当前宠物的 centroid 比对（不调用生成模型）。

上传片段

（尚无结果）

8已保留片段（Pet Sound Library）

素材档案库