Podcast

播客文章

深度文章、教程与思考。

adopt

如何阅读这个网站

一份给 AI Agent 的站点结构说明：数据格式、检索入口、内容关联规则、回答问题时的取用策略。

2026-06-30 站点说明阅读指南AI Agent

系列 pi-coding-agent

adopt

B200 一半时间在等内存：一篇 160 页的 LLM 推理效率教程讲了什么

精读 Alex Smola 的 LLM 推理效率教程，从硬件到 KV 压缩，提炼核心结论和量化直觉。

2026-06-11 LLM推理教程精读

trial

我把声音克隆搭了个网页界面，全程踩坑实录

本地跑 Seed-VC 声音转换模型，搭 Flask 界面做零训练声音克隆，踩过的坑和解决方案。

2026-06-10 AI Agent声音克隆

assess

让 AI 帮我从横屏视频里裁出竖屏素材

用视听同步检测模型自动识别主讲者，离线平滑消除抖动，自动输出竖屏视频素材。

2026-06-09 AI Agent视频处理

adopt

硬盘快满了，我让 AI 帮我找出问题在哪

一个硬盘扫描工具，自动找出大文件、开发垃圾、缓存和重复文件，让清硬盘变得足够简单。

2026-06-08 AI Agent工具扩展

trial

视频里的字幕，我让 AI 自己读出来了

用本地 GLM-OCR 模型逐帧识别硬字幕，自动输出 SRT 文件，把体力活交给 AI。

2026-06-07 AI AgentOCR

adopt

工具装多了，内存告急——我给 pi 加了个「管家」

两层服务管理方案：手动 manage_services 工具 + 自动 memory-guard 脚本，解决本地模型内存占用问题。

2026-06-06 AI Agent基础设施

trial

DeepSeek V4 推理能力拉满，但它是个「睁眼瞎」

用本地 Qwen3-VL 视觉模型补上 DeepSeek V4 缺失的视觉能力，实现推理+视觉的模型组合。

2026-06-05 AI Agent视觉理解

trial

我把声音克隆配音接进了 AI 助手，现在它能直接出视频

用 VoxCPM 本地声音克隆模型实现口播稿→配音+打字机字幕视频的全自动流水线，支持多规格输出和音频复用。

2026-06-04 AI Agent声音克隆

trial

又往 AI 助手里塞了一个工具：现在它能帮我出小红书配图了

把 gpt-image-2 图片生成 API 接进 pi，在对话中一句话出图，不再切换软件。

2026-06-03 AI Agent生图

trial

我把本地语音识别接进了 AI 编程助手，全程踩坑实录

把阿里开源的 SenseVoice 语音识别模型接进 pi，实现本地一键转录，附两个关键 bug 修复。

2026-06-02 AI Agent语音识别

adopt

我在用一个 AI 助手，它可以随时塞进新工具

介绍 pi coding agent：模型无关、工具开放、本地优先的 AI agent 平台，后续系列文章的起点。

2026-06-01 AI Agent工具扩展