Article
DeepSeek V4 推理能力拉满,但它是个「睁眼瞎」
前几篇一直没提我在 pi 里用的是什么模型。
今天说一下,因为这直接导致了这期工具的诞生。
我换成了 DeepSeek V4
pi 支持自由切换模型,上个月我把主力换成了 DeepSeek V4。
原因很简单:推理能力强,价格便宜,中文理解比很多模型都好。
用下来很满意——写稿、改代码、分析内容,思路清晰,输出质量稳定。
但有一个硬伤:
DeepSeek V4 是纯语言模型,没有视觉能力。
你给它发一张图,它看不见。
这个问题有多影响我
我做播客内容,素材里有大量图片和视频:
- 发布会的 PPT 截图
- 演示 demo 的录屏
- 采访现场的照片
- 竞品截图、数据图表……
以前用带视觉的模型,直接扔过去就能分析。
换了 DeepSeek V4 之后,这条路断了。
我只能自己看图,然后用文字描述给它听。
描述一张图要花多少时间?少则一两分钟,多则五六分钟。
一期播客要处理十几张图,加起来就是半小时的纯体力劳动。
解决方案:补一个本地视觉模型
思路很清楚:DeepSeek V4 负责推理,视觉的部分用另一个专门的模型来做,两者分工。
我之前自己搭过一个本地视觉服务 Qwen3-VL-Mac,用的是阿里开源的 Qwen3-VL 模型,跑在本机 18017 端口,支持图片和视频输入,流式返回分析结果。
当时主要用来在浏览器里临时查图,现在把它正式接进 pi,让 DeepSeek V4 在需要「看」东西的时候,自动把任务转交给它。
怎么接的
Extension 做三件事:
1. 每次调用前检查视觉服务是否在线,没在线自动启动
不需要我手动开服务,pi 自己判断,自己拉起来,等它就绪再继续。
2. 图片、视频、URL 三种输入方式都支持
本地图片:/Users/tim/Desktop/screenshot.png
本地视频:/Users/tim/Downloads/demo.mp4
图片 URL:https://example.com/chart.png
URL 还会自动判断是图片还是视频,对应传不同的参数,用户不需要关心。
3. 同一会话有上下文记忆
先说「看一下这张图」,再问「图里右边那个数字是多少」——它知道「这张图」指的是什么,不需要重复传文件。
现在的工作流
遇到图片,我直接跟 pi 说:
「帮我看这张发布会截图,提取 PPT 上的核心数据」
遇到视频:
「这个演示视频大概讲了什么,按时间顺序总结」
DeepSeek V4 收到请求,识别到需要视觉能力,自动调 vision_analyze 工具,Qwen3-VL 看完给出结果,DeepSeek 再接着做分析和总结。
两个模型各司其职,我在中间什么都不用做。
一个有意思的组合方式
这个方案让我意识到一件事:
选模型不一定非要选一个「全能」的,可以用专门的模型拼出来。
DeepSeek V4 推理强,但没有视觉——那就让它专注推理,视觉单独用 Qwen3-VL 补上。
以后如果有更好的本地语音合成模型,也可以替换掉 VoxCPM。
工具链是模块化的,每一块可以独立升级,不用推倒重来。
现在的工具合集
| 工具 | 做什么 |
|---|---|
transcribe_audio | 本地语音转录(SenseVoice) |
generate_xiaohongshu_card | 小红书配图生成 |
dub_narration | 声音克隆配音 + 字幕视频 |
vision_analyze | 本地视觉理解(图片 / 视频) |
四个工具,全部本地运行,没有数据上传。
但工具越多,新问题来了——下一篇说。
本系列持续更新,记录把各种工具接进 AI 助手 pi 的完整过程。