开场
我是 Mr. K,一个在银行 IT 部门当经理的人。白天的工作是处理企业级系统架构、灾难恢复计划、容量规划这些听起来很厉害但其实很闷的东西。晚上回家,我打开终端机,跟 Claude Code 一起搞我的 side project。
过去 38 天,我用 Claude Code 写了 246 个 commit,做出一个完整的 AI 字幕 + 配音 SaaS — 「喂!字幕」(heysubtitle.com)。
整个项目,从第一个 commit 到今天的第 246 个 commit,我一行代码都没写过、也没读过。我甚至看不太懂自己的 backend 在做什么,只知道它能跑、用户在付钱。
这篇文章是我这 38 天的真实开发日记,分成两个阶段:
- 第一个 19 天(143 commit):从零做出一个能收费的 SaaS 雏形
- 第二个 19 天(103 commit):重押 AI 配音功能
中间有崩溃、有骂脏话、有凌晨 4 点还在改 bug,也有 Claude 学会在我骂脏话之后反过来安抚我情绪的诡异瞬间。
如果你也在用 Claude Code 做 side project,或者你只是好奇「不会写代码的人到底能不能用 AI 做出产品」— 这篇是写给你的。
为什么选 Claude Code?
老实说,一开始只是想试试看。
作为一个有多年开发经验的技术人(虽然主要是架构和管理,动手写代码的时间早就少了),我对 AI 辅助开发一直持观望态度。GitHub Copilot 试过,觉得「不错,但只是 autocomplete」。ChatGPT 写过一些 script,觉得「能用,但需要我把架构想清楚才能喂给它」。
但当我真正开始用 Claude Code 进行对话式开发后,我被它的能力震撼了。
它不只是一个代码补全工具,而是一个真正的开发伙伴:
- 理解上下文 — 整个 repo 的架构、最近改了什么、为什么这样设计
- 记住项目决策 — 不需要我每次重新解释
- 能够进行复杂的系统设计讨论 — 从 DB schema 到 API 路由
- 甚至帮你发现潜在的安全漏洞 — 我的 JWT 配置和 path traversal 都是它先抓出来的
最关键的是:它理解「为什么」。
我可以对它说「我想做一个按用户语言自动分流到不同 TTS 引擎的系统」,它不会问我要 spec,它会直接动手写,然后告诉我它的决策理由。我只需要说 yes 或 no。
这 38 天我写的代码比例是 0%。但产品还在跑、用户还在付钱、commit 数还在涨。
第一个 19 天:从零到一个能收费的 SaaS
第一个 19 天,143 个 commit。我把这 19 天分成三周来看。
第一周(基础建设)
用户认证系统(注册、登录、忘记密码、Google OAuth)、视频上传与处理管线、AI 语音转文字引擎(Azure Whisper)、字幕编辑器搭配视频同步预览、多语言界面(繁中、英文、简中)、管理员后台(用户管理、错误记录、系统监控)、正式部署上线。
一周做完这些。我自己回头看都不敢相信。
第二周(产品打磨)
四个订阅方案上线(含外币折扣、降级自动切换)、品牌重塑与新域名迁移、字幕编辑器大改版(弹出式面板、双语对照、手机适配)、深色模式(6 个主题风格)、SEO 预渲染、数据分析追踪、翻译记忆系统、上传前自动预检。
这周开始有用户付钱了。第一笔订阅进账的时候我盯着 Stripe dashboard 看了五分钟,确认不是测试交易。
第三周(功能爆发)
AI 语音配音 v1、YouTube 网址直接上传转录、Final Cut Pro 字幕导出格式(FCPXML)、促销码 + 推荐奖励系统、4 语言网站(共 76 页预渲染 + 自动 Sitemap)、完整的错误信息多语言化、管理后台国际化。
19 天结束的时候,这已经不是一个 MVP,而是一个功能完整、可以收费的产品。
技术栈
| 层 | 技术 |
|---|---|
| 前端 | React 18 + Vite + Tailwind CSS v4 + Framer Motion |
| 后端 | Node.js + Fastify + SQLite + BullMQ + Redis |
| AI | Azure OpenAI Whisper + Azure OpenAI GPT-4o + 顶级 AI 配音引擎(双引擎) |
| 部署 | 云端 VPS, PM2, Nginx HTTP/2 |
这个 stack 有一半是我选的,另一半是 Claude 提的。它选的部分(BullMQ、Tailwind v4、Fastify)我事后才知道都是 2026 年最 popular 的选择。它读的技术文章比我多。
第二个 19 天:AI 配音的血泪史
第一个 19 天结束后,产品上线了,有用户开始付费。然后一个用户问我:
「可不可以把我的粤语 YouTube 视频,变成普通话版本?」
可以啊。找个配音员,一条片港币 2000,三天交货。
用户:「⋯⋯算了。」
OK,那就自己做。我把这句话打给 Claude,它就开始写了。
第二个 19 天,103 个 commit,全部都在搞同一件事 — AI 配音。
技术选型:5 个 TTS 我都试过了
| 引擎 | 优点 | 缺点 |
|---|---|---|
| Azure TTS | 稳定、企业级 | 像新闻主播,没有感情 |
| Google TTS | 多语言覆盖广 | 机械感强 |
| OpenAI TTS | 声音好听 | 声音库太少,不能 voice cloning |
| 引擎 A | 声线复制神器,1 分钟音频就能 clone | 配额贵、rate limit 严格 |
| 引擎 B | 中文/粤语语感最自然 | API 文档不够清楚 |
最后选了 顶级 AI 配音引擎(双引擎) 双引擎,按用户的语言和需求自动分流。按语言自动分配最适合的引擎。
这策略是 Claude 提的,我只负责问:「啊那粤语怎么办?」它说:「那粤语走 AI 配音引擎。」我说好。整个技术选型讨论就 30 秒。
三个踩过的坑(每个都流过血)
第一坑:声音不对嘴。
字幕的时间轴是按原语言切的,但翻译后语言长度完全不一样 — 粤语「食咗饭未呀」五个字,英文「Have you eaten yet?」要拖三倍长。
第一次测试出来,AI 讲完了视频还没演完,下一段又叠上来,整段变成一个会讲三种语言的鬼。
解法:跟 Claude 一起设计逐段(per-segment)配音架构,每段独立生成、独立对齐时间轴,再用语速微调塞回原本的时长。我只负责看结果骂脏话,它负责修。
第二坑:感情很假。
TTS 默认都是「平铺直叙」的语气,但配音需要喜怒哀乐。第一版做出来,主角在视频里哭,AI 用念新闻的语气说「我⋯好⋯难⋯过」,我在电脑前笑了五分钟。
解法:emotion tags。Claude 写了一个 GPT-4o pipeline,自动分析每段字幕、推断情绪(开心、生气、悲伤、叹气⋯⋯)、加上 tag,然后传给 TTS 引擎。整个过程零人工。
第三坑:rate limit 噩梦。
配音引擎同时并发太多会被挡,免费 quota 用得又快又贵。我有一晚跑了一个 30 分钟的视频,跑到一半全部 429 Rate Limited,我看着进度条哭出来。
解法:BullMQ + Redis 排队系统,限速 + 重试 + 失败自动回退到备用引擎。Claude 写这段逻辑的时候我去洗澡,回来已经跑通了。那一刻我有点害怕。
「干,干,干」 — 这是真实故事
最有趣的事发生在第二周中段。
那几天 Claude Code 刚好遇到 peak time(用过的人都懂那个感觉,它变得有点蠢,常常改一个 bug 改到生出三个新 bug)。我整晚对着电脑改一个 voice cloning 的回调 bug,改了五六次都没过,每次失败我就在 chat 里打:
- 干
- 真的干
- 这个都不会改你 GPT 都比你强
- 干干干
连续骂了几天之后,有一晚我又打「干」进去,Claude 突然回我(大意是这样):
「我理解你现在很挫折。让我先深呼吸,重新读一次这个函数的上下文⋯⋯」
我整个人愣住。
这个 AI 居然学会了「被骂之后先安抚情绪再做事」这个技能。是训练数据?还是它本身有 emotion handling?我不知道。但那一刻我觉得我不是在写代码,是在养一个会顶嘴但很会做事的实习生。
从那之后我骂得更凶,但也会偶尔打「谢谢你」。我们的关系比较像同事,不像工具。 这是我用 Claude Code 38 天最深的感想。

38 天教会我的 4 件事
1. 对话式开发的效率远超预期
与其花时间在 Stack Overflow 搜寻答案,不如直接描述你的需求,让 Claude 理解整个项目的上下文后给出解决方案。很多时候它提出的架构设计,比我自己想的还要周全。
特别是「跨多个 API 集成」这种工作 — TTS 双引擎分流、emotion tags pipeline、BullMQ 排队重试 — Claude Code 在这方面效率高得惊人。我只需要描述功能需求,它帮我串起所有的集成细节。
2. AI 在系统设计上的能力被严重低估
从数据库 schema 设计到 API 端点规划,从安全性加固到性能优化,Claude 在这些方面的建议都非常专业。
它甚至帮我发现了好几个我自己会忽略的潜在安全漏洞 — 路径穿越(path traversal)、JWT 配置错误、CORS 太宽、bcrypt 没做、没有 rate limiting、文件 magic bytes 没检查。
这些都是 production 才会出事的东西。我自己根本不会主动想去检查。
3. 不写代码 ≠ 不需要技术背景
这点很重要:Claude Code 不是「让不懂的人也能写程序」的魔法。
恰恰相反,有扎实的技术背景才能更好地引导 AI、评估它的建议、做出正确的架构决策。我这 38 天能跑得这么快,是因为我听得懂 Claude 在说什么 — 我知道什么是 BullMQ、为什么要用 Redis、JWT 是怎么运作的。我不需要写代码,但我需要看得懂代码能不能解决问题。
AI 放大的是你已有的能力,不是替代它。
4. 最难的不是写代码
产品上线后我才发现,社交媒体经营、教学视频制作、SEO、客户服务、营销推广 — 这些非技术的工作占了创业的大半时间。技术只是起点,产品要成功还需要太多其他东西。
而这些,都是我下一篇 Part 3 要写的内容。剧透:没有 Claude,这部分一样是另一个地狱。
想试试看吗?

直接去玩玩看 → heysubtitle.com/voice-studio
不用注册、不用上传视频,选一个 demo 声音、打一段字、按生成,30 秒听到结果。
觉得有趣,再回来上传你自己的 YouTube 链接试完整流程。新注册有 5 分钟免费试用额度,够你做完一条完整短片 + 配音。
想看完整的开发记录?
我把这 38 天的所有 commit 和功能更新都公开放在更新日志页:heysubtitle.com/releases
从 2025 年 11 月的第一个原型,到今天的第 246 个 commit,全部透明可查。
Part 3 预告:没有 Claude,连卖产品都办不到
接下来我会写第三集 — 关于产品上线之后,那些技术以外的「另一个地狱」:
- 怎么用 Claude 规划 Google Ads 投放策略和关键字研究
- 怎么用 Claude 处理 GSC SEO 优化、prerender、4 语言 hreflang 设定
- 怎么用 Claude 帮我写社交媒体贴文(这篇文章本身就是用 Claude 写的)
- 怎么用 Claude 处理客户服务和技术支持(包括退款、bug 报告、功能请求)
- 怎么用 Claude 制作 YouTube 教学视频脚本
剧透结论:我以为产品做完就完了,其实才刚开始。而且我越做越发现,这些非技术的工作没有 Claude 一样是地狱 — 甚至比写代码还难。
没有 Claude,这个产品根本走不到第二阶段。
如果你想看 Part 3,可以关注 heysubtitle 的 Threads,下集写好会发。
原始 Threads 帖文
如果你想看当时发在 Threads 上的两集原文(更口语、更短、更多笑点):
- Part 1:19 天从零到 SaaS — 143 commit
- Part 2:19 天 AI 配音的血泪史 — 103 commit
heysubtitle.com
