Step 1 · v1.6.87
Step 2 · v1.6.87
Step 3 · v1.6.69
1提取器与筛选
Pet Vocal Segment Extractor|候选片段提取。在卡片 2 上传素材后直接「提交并提取」;后续在流水线中处理片段。
当前模式:稳定候选裁切模式
候选提取经 Worker
/api/classify-audio;auto / yamnet 调用独立 yamnet_service(TF Hub YAMNet,默认 localhost:8000/classify)。连通性状态显示在卡片 2 内。2上传并提取候选片段
拖拽音频/视频到这里,或点击选择文件(最多 3 个)
当前已添加 0 个文件
正在检测 YAMNet/TF 分类接口连通性…
请先添加文件(最多 3 个),然后点击「提交并提取候选片段」。
3流水线:Stage 3A+3B → 3C
一键依次执行 Stage 3A(基础整理)与 Stage 3B(干扰检测);后台分两步处理,下方仅展示 3B 结果快照(3A 不单独展示)。Stage 3B 完成后自动 Stage 3C 与声学特征。
Stage 3C 人声分离(默认 Demucs htdemucs,分离「伴奏/人声」和弦乐残留,猫叫+说话共存时 YAMNet 仍可能标 Speech)。
若抑制后波形仍像有人声,请改用语言查询分离:
SPEECH_SEPARATION_MODE=audiosep uvicorn speech_separation_service.app:app --port 8844(或 lass / audiosep_lass),Worker 配置 SPEECH_SEPARATION_SERVICE_URL。
猫声增强的播放器与 YAMNet 图均使用 3C 抑制轨。拖动波形裁切手柄松开后,将自动写入下方 Clean 训练并同步到 Pane 4 档案。
猫声增强为最干净轨:列表中「可 AI 复制」表示已进入 Pane 4 AI 训练档案。
当前:标记 accepted 片段后,点「执行 Stage 3A+3B」开始流水线(后台先 3A 再 3B,自动 3C)
4我的猫咪叫声档案
仅「Clean Training + 通过全部技术闸门 + 已确认本猫」的样本会入档;优先 YAMNet embedding,不可用时回退声学向量。与档案
centroidEmbedding 做余弦相似度(profileStatus:<10 不足、≥10 可匹配、≥30 可试生成)。
档案尚未加载…
AI 训练样本(来自猫声增强裁切 / Clean 训练集)
声音复制打标(按 clean 质量勾选后提交)
相似度试听:上传一段猫叫 WAV/音频,与当前宠物的 centroid 比对(不调用生成模型)。
(尚无结果)