干中学·AI 项目实战社群用 AI 做出你的第一个真实项目
导航
2025年8月11日

从截图中抠出代码 CodeOCR的诞生故事

冯超

独立开发者 / 项目作者

CodeOCR

大家好,我是小雨。

最近我试用了一个非常实用的小工具,名字叫 CodeOCR。它能把代码截图直接变成可复制的代码文本,程序员看了都得说一句:“哇,这功能我太需要了!”

冯超,2024年硕士毕业于复旦大学管理学院应用统计专业,是个对 AI 应用充满热情的开发者。他说:“我一直希望能做一些好用的、好玩的产品。”于是有了这个项目的起点。

灵感来源其实很接地气——程序员群里的日常。很多人喜欢截图分享代码,这种方式美观清晰,但最大的问题是:你没法复制!冯超想,既然现在视觉大模型这么强,能不能把代码图片识别出来,变成能复制的文本?这个想法一拍脑门,就开始干。

但事情没那么简单。

一开始他就遇到了全栈技能盲区的挑战。Python 他熟,但前端、部署、后端交互这套流程并不熟悉。怎么办?他的做法非常值得借鉴:

先“扫盲”。快速刷过一遍 TypeScript、Next.js、Docker 等相关技术的官方文档,搞清楚基本概念和组成结构。

然后他找了几个 GitHub 上的开源 SaaS 模板跑通项目,配合 AI 编程助手进行逐步解读。这一过程中,冯超发现——AI 可以写很多代码,但关键时刻还得自己判断和干预。“有时候我得告诉它:你写的这个功能和我的需求不符,咱得改一改。”这时候,前期的基础储备就派上用场了。

最终,他通过 AI 和自己的配合,把 CodeOCR 做成了一个完整可用、可上线的产品。冯超说自己写的代码不多,但每一行都是“踩过坑之后留下的”。

比如,部署时因为把 NEXT_PUBLIC_SITE_URL 写成了 NEXT_PUBLIC_SUTE_URL,结果上线后一直报错。花了好几天都没查出来,最后恍然大悟的那一刻,他说:“真的是顿悟时刻。”

这个项目现在还没有商业化计划,对冯超来说,它更像是一场实战演练。他说:“就像程序员练手做 TODO 应用一样,这是我第一次做一个从 0 到 1 能上线的小工具。”

目前的功能还比较简单,只支持单张图片识别。未来他也想加上多图识别、优化用户体验等等,不过现在已经收获满满——不仅技术上学了不少,更重要的是那种“原来我真的能做出来”的信心。

说起用户群体,他觉得“经常分享代码的程序员”可能最需要这个工具。他也在几个程序员群里小范围分享过,反响不错。

当然,这条路上也离不开社群的帮助。他在群里问过部署相关的问题,也得到了不少热心前辈的指点。但他说,最可靠的“导师”其实是 AI:“啥都懂、随时在线”。

最后,问他这个项目有没有什么“脱颖而出”的功能,他笑了:“现在还不好意思说它有多特别啦,毕竟很多地方还有提升空间。但我希望以后能做出更多让我自豪的项目。”

我特别喜欢冯超在群里分享的这一句:

“干中学,先做出一个垃圾。做出垃圾后,对一些之前觉得很高级的技术就祛魅了。”

这句话太实在了。

如果你也曾因为不会部署、不会前端、不会全栈而犹豫过,不妨参考冯超的路径:先快速扫盲、跑通模板、让 AI 辅助开发、然后一步步调试打磨。很多时候,真正的成长不是靠看完教程,而是从踩坑开始的。

再次附上链接:

👉 在线体验地址:codeocr.fengchao.pro

⭐ 项目源码地址:https://github.com/jeremy-feng/codeocr

如果你觉得这个项目不错,记得去 GitHub 给冯超点个 Star 鼓励一下。

0、可以快速介绍以下自己吗?

我是冯超, 2024 年硕士毕业于复旦管院应用统计专业。我对 AI 应用非常有热情,希望能做一些好用的、好玩的产品~

1、能简单介绍一下你的项目和核心功能吗?

将代码截图转换为可复制的代码文本。

2、这个项目是如何起步的?背后有什么灵感?

在微信群里分享代码、排查错误的时候,有时候会通过截图的形式来分享。这样的好处是美观易读,但并不方便后续直接复制或编辑。借助越来越强大的视觉大模型,希望可以识别图片中的代码并直接复制,无需手敲代码,提高生产力。

3、初期遇到过哪些挑战?是如何解决的?

由于之前的学习和工作经验的缘故,我对 Python 编程比较熟悉,但对前端、前后端的数据交互、部署上线等全栈流程并不了解,这是我最大的挑战。

因此首先需要对各种技术栈有个大概的理解,为此我是这样做的:

  • 首先快速阅读 Typescript、Next.js、Docker 等相关技术栈的入门教程,大部分是看它们的官方文档和知名度非常高的教程(例如阮一峰网站上的教程)。这里只是快速过一遍,大概知道核心概念即可。

  • 同时,我对照一些 GitHub 上的 SaaS 模板,先跑通模板项目,然后让 AI 编程工具带着我理解项目的各个组成部分,以及它们的功能。结合上一点的官方文档和教程,我能大致理解一个全栈项目的项目结构,以及了解一些最佳实践。

然后,开始结合自己的业务逻辑,让 AI 帮我实现功能和修 Bug。这一步中,我真正参与敲键盘写的代码很少,只在 “AI 写的代码不符合我的要求”、“我觉得应该写得更好”的情况下介入。这些介入是有必要的,并且是基于我前期对各个技术栈的初步理解,才能精准高效地写出来的。如果人完全不介入的话,可能会出现一些 Bug,但 AI 也一直无法真正理解我的需求,或者一直修不好,这时就会比较耗时了。

4、你是如何盈利化这个项目的?有哪些方式?

这个项目很简单,目前并没有盈利的计划。我把它作为一次宝贵的学习机会,就像很多程序员通过编写 TODO 应用来练手一样。

5、你的项目面向哪些用户?如何吸引他们?

我想经常需要分享代码的程序员可能比较有用。我在一些程序员较多的圈子里分享过。

6、项目未来的发展方向是什么?

目前的功能还比较简单。未来也许可以从只识别单张图片,变成支持识别多张图片。还有一些 UI 和用户体验上的想法。

7、作为独立开发者,你如何保持动力和创新?

其实脑子里的想法蛮多的。动力部分来自于科技的进步,让我很兴奋地认识到“我原来可以做到这些!”。

8、有哪些独特的功能让你的项目脱颖而出?

有些惭愧,我目前还不好意思说 CodeOCR 脱颖而出了哈哈。希望之后能做出更多让自己自豪的项目!

9、项目发展过程中,社群和合作有多大帮助?

我在群里问过一些部署的问题,得到了一些前辈的指点,帮我少走了一些弯路。帮助我少走最多弯路的当然是 AI 啦,啥都懂、随时在线的导师。

10、在项目中,你有哪些收获或成长?

从 0 到 1 做出一个完整的产品,让我熟悉了整个流程。中途踩过不少坑(之前部署的时候把环境变量 NEXT_PUBLIC_SITE_URL 的 SITE 写成了 SUTE,导致上线后一直报错,折腾了我几天都没明白,发现问题之后那种恍然大悟的 Aha moment,真的是顿悟时刻),这些是我宝贵的成长。

干中学,先做出一个垃圾。做出垃圾后,对一些之前认为很高级的技术也祛魅啦,发现“原来我可以做到”!

这对我今后继续学习和开发产品不仅带来经验,也会带来信心~✊


原文链接:https://mp.weixin.qq.com/s?__biz=MzA3OTIwOTcyMQ==&mid=2247485228&idx=1&sn=4f5f8ecc452fe1116f35755f4b5c69d0&chksm=9fb7b2baa8c03bac40b8f980120d6b219c9f3d82c2ba9991ba94c7b8bc7e4cd848e503fed658

免费社群

加入免费社群

扫码添加我的联系方式,我会拉你进入免费群。这里和知识星球分开,适合先看看日常交流氛围。

独立开发日常交流AI 使用技巧互相分享项目推进中的吐槽和反馈

二维码可以点击放大。微信扫码后,备注「免费社群」会更容易确认。