Experiment AI Tool

ASD Pipeline

把 Active Speaker Detection 变成可恢复、可测试、可复用的本地能力入口

ASD Pipeline illustration

Overview

这是什么

一个面向 Apple Silicon 本地验证的 Active Speaker Detection 工作台,把 LR-ASD 从一次性 CLI 运行整理成分阶段、可恢复、可输出结构化工件的基础能力。

面向 视频理解实验、说话人分析、字幕与多模态工作流开发者。

更多说明

原始的 ASD 基线常常更像一次性研究脚本:整跑重、恢复弱、中间状态不透明。这个项目的价值不在于换了一个新模型,而在于把整条流程拆成清晰阶段,并把结果落成结构化 JSON。

每次运行会输出 tracks.json、frame_scores.json、predictions.json、metrics.json 和 validation_overlay.mp4,比单纯”跑出一个可视化视频”更适合作为下游能力模块。

Features

核心能力

阶段式运行
阶段式运行

把 extract、detect、track、score、render 拆成显式阶段,便于局部调试和定位问题。

恢复与复用
恢复与复用

支持从中间工件恢复、跳过已有阶段、强制重跑指定阶段,适合离线实验流程。

结构化结果
结构化结果

统一产出 tracks、frame scores、predictions 等 JSON 工件,便于后续分析和集成。

Stack
PythonLR-ASDFFmpegPyTorchMPS
Published 2026-05-02
Tags
Active Speaker DetectionVideo AnalysisLocal AIPipeline
返回产品目录