Article

DeepSeek V4 推理能力拉满,但它是个「睁眼瞎」

trial

前几篇一直没提我在 pi 里用的是什么模型。

今天说一下,因为这直接导致了这期工具的诞生。


我换成了 DeepSeek V4

pi 支持自由切换模型,上个月我把主力换成了 DeepSeek V4

原因很简单:推理能力强,价格便宜,中文理解比很多模型都好。

用下来很满意——写稿、改代码、分析内容,思路清晰,输出质量稳定。

但有一个硬伤:

DeepSeek V4 是纯语言模型,没有视觉能力。

你给它发一张图,它看不见。


这个问题有多影响我

我做播客内容,素材里有大量图片和视频:

  • 发布会的 PPT 截图
  • 演示 demo 的录屏
  • 采访现场的照片
  • 竞品截图、数据图表……

以前用带视觉的模型,直接扔过去就能分析。

换了 DeepSeek V4 之后,这条路断了。

我只能自己看图,然后用文字描述给它听。

描述一张图要花多少时间?少则一两分钟,多则五六分钟。

一期播客要处理十几张图,加起来就是半小时的纯体力劳动。


解决方案:补一个本地视觉模型

思路很清楚:DeepSeek V4 负责推理,视觉的部分用另一个专门的模型来做,两者分工。

我之前自己搭过一个本地视觉服务 Qwen3-VL-Mac,用的是阿里开源的 Qwen3-VL 模型,跑在本机 18017 端口,支持图片和视频输入,流式返回分析结果。

当时主要用来在浏览器里临时查图,现在把它正式接进 pi,让 DeepSeek V4 在需要「看」东西的时候,自动把任务转交给它。


怎么接的

Extension 做三件事:

1. 每次调用前检查视觉服务是否在线,没在线自动启动

不需要我手动开服务,pi 自己判断,自己拉起来,等它就绪再继续。

2. 图片、视频、URL 三种输入方式都支持

本地图片:/Users/tim/Desktop/screenshot.png
本地视频:/Users/tim/Downloads/demo.mp4
图片 URL:https://example.com/chart.png

URL 还会自动判断是图片还是视频,对应传不同的参数,用户不需要关心。

3. 同一会话有上下文记忆

先说「看一下这张图」,再问「图里右边那个数字是多少」——它知道「这张图」指的是什么,不需要重复传文件。


现在的工作流

遇到图片,我直接跟 pi 说:

「帮我看这张发布会截图,提取 PPT 上的核心数据」

遇到视频:

「这个演示视频大概讲了什么,按时间顺序总结」

DeepSeek V4 收到请求,识别到需要视觉能力,自动调 vision_analyze 工具,Qwen3-VL 看完给出结果,DeepSeek 再接着做分析和总结。

两个模型各司其职,我在中间什么都不用做。


一个有意思的组合方式

这个方案让我意识到一件事:

选模型不一定非要选一个「全能」的,可以用专门的模型拼出来。

DeepSeek V4 推理强,但没有视觉——那就让它专注推理,视觉单独用 Qwen3-VL 补上。

以后如果有更好的本地语音合成模型,也可以替换掉 VoxCPM。

工具链是模块化的,每一块可以独立升级,不用推倒重来。


现在的工具合集

工具做什么
transcribe_audio本地语音转录(SenseVoice)
generate_xiaohongshu_card小红书配图生成
dub_narration声音克隆配音 + 字幕视频
vision_analyze本地视觉理解(图片 / 视频)

四个工具,全部本地运行,没有数据上传。


但工具越多,新问题来了——下一篇说。


本系列持续更新,记录把各种工具接进 AI 助手 pi 的完整过程。