Article

DeepSeek V4 推理能力拉满，但它是个「睁眼瞎」

trial

2026-06-05 3 min read

前几篇一直没提我在 pi 里用的是什么模型。

今天说一下，因为这直接导致了这期工具的诞生。

我换成了 DeepSeek V4

pi 支持自由切换模型，上个月我把主力换成了 DeepSeek V4。

原因很简单：推理能力强，价格便宜，中文理解比很多模型都好。

用下来很满意——写稿、改代码、分析内容，思路清晰，输出质量稳定。

但有一个硬伤：

DeepSeek V4 是纯语言模型，没有视觉能力。

你给它发一张图，它看不见。

这个问题有多影响我

我做播客内容，素材里有大量图片和视频：

发布会的 PPT 截图
演示 demo 的录屏
采访现场的照片
竞品截图、数据图表……

以前用带视觉的模型，直接扔过去就能分析。

换了 DeepSeek V4 之后，这条路断了。

我只能自己看图，然后用文字描述给它听。

描述一张图要花多少时间？少则一两分钟，多则五六分钟。

一期播客要处理十几张图，加起来就是半小时的纯体力劳动。

解决方案：补一个本地视觉模型

思路很清楚：DeepSeek V4 负责推理，视觉的部分用另一个专门的模型来做，两者分工。

我之前自己搭过一个本地视觉服务 Qwen3-VL-Mac，用的是阿里开源的 Qwen3-VL 模型，跑在本机 18017 端口，支持图片和视频输入，流式返回分析结果。

当时主要用来在浏览器里临时查图，现在把它正式接进 pi，让 DeepSeek V4 在需要「看」东西的时候，自动把任务转交给它。

怎么接的

Extension 做三件事：

1. 每次调用前检查视觉服务是否在线，没在线自动启动

不需要我手动开服务，pi 自己判断，自己拉起来，等它就绪再继续。

2. 图片、视频、URL 三种输入方式都支持

本地图片：/Users/tim/Desktop/screenshot.png
本地视频：/Users/tim/Downloads/demo.mp4
图片 URL：https://example.com/chart.png

URL 还会自动判断是图片还是视频，对应传不同的参数，用户不需要关心。

3. 同一会话有上下文记忆

先说「看一下这张图」，再问「图里右边那个数字是多少」——它知道「这张图」指的是什么，不需要重复传文件。

现在的工作流

遇到图片，我直接跟 pi 说：

「帮我看这张发布会截图，提取 PPT 上的核心数据」

遇到视频：

「这个演示视频大概讲了什么，按时间顺序总结」

DeepSeek V4 收到请求，识别到需要视觉能力，自动调 vision_analyze 工具，Qwen3-VL 看完给出结果，DeepSeek 再接着做分析和总结。

两个模型各司其职，我在中间什么都不用做。

一个有意思的组合方式

这个方案让我意识到一件事：

选模型不一定非要选一个「全能」的，可以用专门的模型拼出来。

DeepSeek V4 推理强，但没有视觉——那就让它专注推理，视觉单独用 Qwen3-VL 补上。

以后如果有更好的本地语音合成模型，也可以替换掉 VoxCPM。

工具链是模块化的，每一块可以独立升级，不用推倒重来。

现在的工具合集

工具	做什么
`transcribe_audio`	本地语音转录（SenseVoice）
`generate_xiaohongshu_card`	小红书配图生成
`dub_narration`	声音克隆配音 + 字幕视频
`vision_analyze`	本地视觉理解（图片 / 视频）

四个工具，全部本地运行，没有数据上传。

但工具越多，新问题来了——下一篇说。

本系列持续更新，记录把各种工具接进 AI 助手 pi 的完整过程。

返回博客列表