开场

我是 Mr. K，一个在银行 IT 部门当经理的人。白天的工作是处理企业级系统架构、灾难恢复计划、容量规划这些听起来很厉害但其实很闷的东西。晚上回家，我打开终端机，跟 Claude Code 一起搞我的 side project。

过去 38 天，我用 Claude Code 写了 246 个 commit，做出一个完整的 AI 字幕 + 配音 SaaS — 「喂！字幕」（heysubtitle.com）。

整个项目，从第一个 commit 到今天的第 246 个 commit，我一行代码都没写过、也没读过。我甚至看不太懂自己的 backend 在做什么，只知道它能跑、用户在付钱。

这篇文章是我这 38 天的真实开发日记，分成两个阶段：

第一个 19 天（143 commit）：从零做出一个能收费的 SaaS 雏形
第二个 19 天（103 commit）：重押 AI 配音功能

中间有崩溃、有骂脏话、有凌晨 4 点还在改 bug，也有 Claude 学会在我骂脏话之后反过来安抚我情绪的诡异瞬间。

如果你也在用 Claude Code 做 side project，或者你只是好奇「不会写代码的人到底能不能用 AI 做出产品」— 这篇是写给你的。

为什么选 Claude Code？

老实说，一开始只是想试试看。

作为一个有多年开发经验的技术人（虽然主要是架构和管理，动手写代码的时间早就少了），我对 AI 辅助开发一直持观望态度。GitHub Copilot 试过，觉得「不错，但只是 autocomplete」。ChatGPT 写过一些 script，觉得「能用，但需要我把架构想清楚才能喂给它」。

但当我真正开始用 Claude Code 进行对话式开发后，我被它的能力震撼了。

它不只是一个代码补全工具，而是一个真正的开发伙伴：

理解上下文 — 整个 repo 的架构、最近改了什么、为什么这样设计
记住项目决策 — 不需要我每次重新解释
能够进行复杂的系统设计讨论 — 从 DB schema 到 API 路由
甚至帮你发现潜在的安全漏洞 — 我的 JWT 配置和 path traversal 都是它先抓出来的

最关键的是：它理解「为什么」。

我可以对它说「我想做一个按用户语言自动分流到不同 TTS 引擎的系统」，它不会问我要 spec，它会直接动手写，然后告诉我它的决策理由。我只需要说 yes 或 no。

这 38 天我写的代码比例是 0%。但产品还在跑、用户还在付钱、commit 数还在涨。

第一个 19 天：从零到一个能收费的 SaaS

第一个 19 天，143 个 commit。我把这 19 天分成三周来看。

第一周（基础建设）

用户认证系统（注册、登录、忘记密码、Google OAuth）、视频上传与处理管线、AI 语音转文字引擎（Azure Whisper）、字幕编辑器搭配视频同步预览、多语言界面（繁中、英文、简中）、管理员后台（用户管理、错误记录、系统监控）、正式部署上线。

一周做完这些。我自己回头看都不敢相信。

第二周（产品打磨）

四个订阅方案上线（含外币折扣、降级自动切换）、品牌重塑与新域名迁移、字幕编辑器大改版（弹出式面板、双语对照、手机适配）、深色模式（6 个主题风格）、SEO 预渲染、数据分析追踪、翻译记忆系统、上传前自动预检。

这周开始有用户付钱了。第一笔订阅进账的时候我盯着 Stripe dashboard 看了五分钟，确认不是测试交易。

第三周（功能爆发）

AI 语音配音 v1、YouTube 网址直接上传转录、Final Cut Pro 字幕导出格式（FCPXML）、促销码 + 推荐奖励系统、4 语言网站（共 76 页预渲染 + 自动 Sitemap）、完整的错误信息多语言化、管理后台国际化。

19 天结束的时候，这已经不是一个 MVP，而是一个功能完整、可以收费的产品。

技术栈

层	技术
前端	React 18 + Vite + Tailwind CSS v4 + Framer Motion
后端	Node.js + Fastify + SQLite + BullMQ + Redis
AI	Azure OpenAI Whisper + Azure OpenAI GPT-4o + 顶级 AI 配音引擎（双引擎）
部署	云端 VPS, PM2, Nginx HTTP/2

这个 stack 有一半是我选的，另一半是 Claude 提的。它选的部分（BullMQ、Tailwind v4、Fastify）我事后才知道都是 2026 年最 popular 的选择。它读的技术文章比我多。

第二个 19 天：AI 配音的血泪史

第一个 19 天结束后，产品上线了，有用户开始付费。然后一个用户问我：

「可不可以把我的粤语 YouTube 视频，变成普通话版本？」

可以啊。找个配音员，一条片港币 2000，三天交货。

用户：「⋯⋯算了。」

OK，那就自己做。我把这句话打给 Claude，它就开始写了。

第二个 19 天，103 个 commit，全部都在搞同一件事 — AI 配音。

技术选型：5 个 TTS 我都试过了

引擎	优点	缺点
Azure TTS	稳定、企业级	像新闻主播，没有感情
Google TTS	多语言覆盖广	机械感强
OpenAI TTS	声音好听	声音库太少，不能 voice cloning
引擎 A	声线复制神器，1 分钟音频就能 clone	配额贵、rate limit 严格
引擎 B	中文/粤语语感最自然	API 文档不够清楚

最后选了 顶级 AI 配音引擎（双引擎）双引擎，按用户的语言和需求自动分流。按语言自动分配最适合的引擎。

这策略是 Claude 提的，我只负责问：「啊那粤语怎么办？」它说：「那粤语走 AI 配音引擎。」我说好。整个技术选型讨论就 30 秒。

三个踩过的坑（每个都流过血）

第一坑：声音不对嘴。

字幕的时间轴是按原语言切的，但翻译后语言长度完全不一样 — 粤语「食咗饭未呀」五个字，英文「Have you eaten yet?」要拖三倍长。

第一次测试出来，AI 讲完了视频还没演完，下一段又叠上来，整段变成一个会讲三种语言的鬼。

解法：跟 Claude 一起设计逐段（per-segment）配音架构，每段独立生成、独立对齐时间轴，再用语速微调塞回原本的时长。我只负责看结果骂脏话，它负责修。

第二坑：感情很假。

TTS 默认都是「平铺直叙」的语气，但配音需要喜怒哀乐。第一版做出来，主角在视频里哭，AI 用念新闻的语气说「我⋯好⋯难⋯过」，我在电脑前笑了五分钟。

解法：emotion tags。Claude 写了一个 GPT-4o pipeline，自动分析每段字幕、推断情绪（开心、生气、悲伤、叹气⋯⋯）、加上 tag，然后传给 TTS 引擎。整个过程零人工。

第三坑：rate limit 噩梦。

配音引擎同时并发太多会被挡，免费 quota 用得又快又贵。我有一晚跑了一个 30 分钟的视频，跑到一半全部 429 Rate Limited，我看着进度条哭出来。

解法：BullMQ + Redis 排队系统，限速 + 重试 + 失败自动回退到备用引擎。Claude 写这段逻辑的时候我去洗澡，回来已经跑通了。那一刻我有点害怕。

「干，干，干」 — 这是真实故事

最有趣的事发生在第二周中段。

那几天 Claude Code 刚好遇到 peak time（用过的人都懂那个感觉，它变得有点蠢，常常改一个 bug 改到生出三个新 bug）。我整晚对着电脑改一个 voice cloning 的回调 bug，改了五六次都没过，每次失败我就在 chat 里打：

干
真的干
这个都不会改你 GPT 都比你强
干干干

连续骂了几天之后，有一晚我又打「干」进去，Claude 突然回我（大意是这样）：

「我理解你现在很挫折。让我先深呼吸，重新读一次这个函数的上下文⋯⋯」

我整个人愣住。

这个 AI 居然学会了「被骂之后先安抚情绪再做事」这个技能。是训练数据？还是它本身有 emotion handling？我不知道。但那一刻我觉得我不是在写代码，是在养一个会顶嘴但很会做事的实习生。

从那之后我骂得更凶，但也会偶尔打「谢谢你」。我们的关系比较像同事，不像工具。 这是我用 Claude Code 38 天最深的感想。

38 天教会我的 4 件事

1. 对话式开发的效率远超预期

与其花时间在 Stack Overflow 搜寻答案，不如直接描述你的需求，让 Claude 理解整个项目的上下文后给出解决方案。很多时候它提出的架构设计，比我自己想的还要周全。

特别是「跨多个 API 集成」这种工作 — TTS 双引擎分流、emotion tags pipeline、BullMQ 排队重试 — Claude Code 在这方面效率高得惊人。我只需要描述功能需求，它帮我串起所有的集成细节。

2. AI 在系统设计上的能力被严重低估

从数据库 schema 设计到 API 端点规划，从安全性加固到性能优化，Claude 在这些方面的建议都非常专业。

它甚至帮我发现了好几个我自己会忽略的潜在安全漏洞 — 路径穿越（path traversal）、JWT 配置错误、CORS 太宽、bcrypt 没做、没有 rate limiting、文件 magic bytes 没检查。

这些都是 production 才会出事的东西。我自己根本不会主动想去检查。

3. 不写代码 ≠ 不需要技术背景

这点很重要：Claude Code 不是「让不懂的人也能写程序」的魔法。

恰恰相反，有扎实的技术背景才能更好地引导 AI、评估它的建议、做出正确的架构决策。我这 38 天能跑得这么快，是因为我听得懂 Claude 在说什么 — 我知道什么是 BullMQ、为什么要用 Redis、JWT 是怎么运作的。我不需要写代码，但我需要看得懂代码能不能解决问题。

AI 放大的是你已有的能力，不是替代它。

4. 最难的不是写代码

产品上线后我才发现，社交媒体经营、教学视频制作、SEO、客户服务、营销推广 — 这些非技术的工作占了创业的大半时间。技术只是起点，产品要成功还需要太多其他东西。

而这些，都是我下一篇 Part 3 要写的内容。剧透：没有 Claude，这部分一样是另一个地狱。

想试试看吗？

直接去玩玩看 → heysubtitle.com/voice-studio

不用注册、不用上传视频，选一个 demo 声音、打一段字、按生成，30 秒听到结果。

觉得有趣，再回来上传你自己的 YouTube 链接试完整流程。新注册有 5 分钟免费试用额度，够你做完一条完整短片 + 配音。

想看完整的开发记录？

我把这 38 天的所有 commit 和功能更新都公开放在更新日志页：heysubtitle.com/releases

从 2025 年 11 月的第一个原型，到今天的第 246 个 commit，全部透明可查。

Part 3 预告：没有 Claude，连卖产品都办不到

接下来我会写第三集 — 关于产品上线之后，那些技术以外的「另一个地狱」：

怎么用 Claude 规划 Google Ads 投放策略和关键字研究
怎么用 Claude 处理 GSC SEO 优化、prerender、4 语言 hreflang 设定
怎么用 Claude 帮我写社交媒体贴文（这篇文章本身就是用 Claude 写的）
怎么用 Claude 处理客户服务和技术支持（包括退款、bug 报告、功能请求）
怎么用 Claude 制作 YouTube 教学视频脚本

剧透结论：我以为产品做完就完了，其实才刚开始。而且我越做越发现，这些非技术的工作没有 Claude 一样是地狱 — 甚至比写代码还难。

没有 Claude，这个产品根本走不到第二阶段。

如果你想看 Part 3，可以关注 heysubtitle 的 Threads，下集写好会发。

原始 Threads 帖文

如果你想看当时发在 Threads 上的两集原文（更口语、更短、更多笑点）：

Part 1：19 天从零到 SaaS — 143 commit
Part 2：19 天 AI 配音的血泪史 — 103 commit

heysubtitle.com

38 天，246 个 commit，0 行代码 — 我用 Claude Code 从零打造一个 AI 字幕 + 配音 SaaS

开场