我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
智能协作当AI成为自己的开发者1
视频
音频
原始脚本
智能写作,当 AI 成为自己的开发者。 第一章,卡壳的棋谱程序与破局的念头。 卢克盯着屏幕上密密麻麻的 OpenCV 代码,指尖悬在键盘上半天没落下。 这已经是他和 Gemini 拉锯的第37天,目标很简单,开发一个能通过摄像头识别围棋棋谱的程序,自动记录落子,生成复盘报告。 可现实却屡屡碰壁,要么是棋盘边缘检测不准,要么是黑白棋子混淆。 更让人崩溃的是,每次修改代码后,他都得手动复制 Gemini 给出的命令,在 Ubuntu 22 04的终端里执行,再把报错信息粘贴回去,等着 AI 给出新的修正方案。 又错了,卢克揉了揉发涩的眼睛,终端里未定义引用,Board detect 的红色报错像一根刺,扎得他心烦。 这30多天里,他大部分时间都在做这种机械重复的工作,复制命令、执行、反馈错误、再复制新命令。 Gemini 的思路很清晰,可落地的每一步都要靠他这个中间人搭桥,效率低的惊人。 更要命的是,他选的开发路径本身就有问题。 一开始执着于用传统图像处理算法,忽略了深度学习模型的适配。 等发现时,前期的代码已经堆了几千行,推倒重来又舍不得。 与其我来当这个传声筒,不如让 AI 自己动手。 一个念头突然在卢克脑海里冒出来。 他想起自己之前设想的 shell agent,那个能自主掌控系统执行命令的小管家。 如果能训练出这样一个 agent,让他来替代自己执行命令、反馈结果,再搭配一个擅长编程的大模型,不就能形成一个自主开发的闭环吗?这个念头一旦生根,就像野草般疯长。 卢克猛地关掉代码编辑器,深吸一口气,不干了,换个玩法。 他决定先从训练那个小管家开始,彻底解放自己。 第二章,Shell Agent 的诞生。 系统的全职管家卢克,给这个即将诞生的 Shell Agent 起了个名字,管家。 他的目标很明确,让管家彻底摸清系统 Ubuntu 22.04系统的底细,成为一个靠谱的系统管理员,既能执行命令,又能守住安全底线。 第一步是给管家植入初始能力,卢克写了一段极简的启动脚本,核心只有两个命令,which 星和 man,管家的第一个任务就是用 which 星便利系统里所有可执行程序,把它们一一记录在本地的文本文件里,形成一份命令清单。 接着,他要逐个调用 man 命令或命令 help 把每个命令的用法、参数、返回值都扒下来,整理成结构化的笔记。 记住,安全第一,卢克在启动脚本里加了一道防火墙。 明确禁止管家执行任何可能修改系统核心配置的命令。 比如,RM杠RF斜杠,KMOD的777斜杠。 凡是涉及系统文件写入权限变更的操作,必须先标记为高危,等待后续授权。 管家的训练过程像一个勤奋的学徒。 他用了整整24小时,把系统里上千个命令都过了一遍。 遇到 LS这样简单的命令,他会记录下杠 L 显示详细信息,杠 A 显示隐藏文件。 遇到 apt 这样的包管理命令,它会把安装、卸载、更新的参数都梳理清楚。 甚至连 lshw 这种查看硬件信息的命令,它都能耐心的把 CPU、内存、硬盘、摄像头的参数一一存档。 卢克偶尔会查看管家的记忆库,里面密密麻麻记满了命令笔记。 还有一份详细的系统资源清单,boon two 二二。 04LTS系 系统,8核 CPU,16G内存,500G硬盘,外接了一个未启用的 USB 摄像头。 已安装 Python 38,GCC 9.4.0,缺少 OpenCV 库和围棋规则相关的 C 加加库。 不错,比我还清楚系统状况。 卢克满意的点点头。 训练到第三天,管家已经能自主判断命令的安全性,遇到可疑操作会自动拦截,还能根据记忆库快速回答系统里有哪些编译工具,如何安装 Python 库这类问题。 一个靠谱的全职管家终于成型了。 第三章,接入开发者,双模型协同的启动。 接下来,卢克要为管家找一个搭档,负责编程的开发者。 他选择了之前合作过的 Gemini,不过这一次,Gemini 不再需要和他打交道,而是直接与管家对话。 卢克手动下载并安装了 Gemini 的本地版本,然后给管家加了一个新功能,文本交互接口。 这个接口很简单,就是让管家能把卢克的任务原封不动的传递给 Gemini,再把 Gemini 的回复接收过来,执行其中的命令,最后把结果反馈回去。 现在我们来启动第一个任务。 卢克对着管家下达指令,请让开发者开发一个带摄像头识别功能的围棋棋谱程序,要求能自动检测棋盘、识别落子、生成复盘报告。 收到,正在向开发者传递任务。 管家的回复很快出现在屏幕上。 几秒钟后,Gemini 的回复来了。 未完成围棋棋谱识别程序开发,需先明确以下信息。 系统是否已安装 OpenCV 库,G 加加编译器,围棋规则 C 加加库。 二,是否具备摄像头权限。 三,请提供开发进度的拷问模板,以便定期汇报。 管家立刻对照自己的记忆库进行回复。 一、未安装 OpenCV 库,围棋规则 C 加加库,已安装 G 加加94.02。 二、系统接入 USB 摄像头,单位启用权限。 三、拷问模板将采用4WEH原则,包含进度查询、问题反馈等内容。 紧接着,管家按照卢克预设的模板向 Gemini 发起了第一次拷问,请提交详细的开发路线图、资源需求清单以及预计的 deadline。 Gemini 很快给出了回应,开发路线图分四阶段,一、安装依赖库,一天。 二、开发棋盘。 检测模块,3天。 3开发棋子识别与落子记录模块,4天。 4开发复盘报告生成模块,2天。 总工期10天。 资源需求,安装 libopencv dev go 杠 rules 杠 cpp 库,启用摄像头权限。 管家评估了这些需求的安全性,确认无误后向卢克发送了一份摘要报告。 开发者已提交开发规划,需安装两个库并启用摄像头权限,是否批准执行?卢克点击批准,他知道一场由 AI 自主完成的开发正式拉开了序幕。
修正脚本
智能写作,当 AI 成为自己的开发者。 第一章,卡壳的棋谱程序与破局的念头。 卢克盯着屏幕上密密麻麻的 OpenCV 代码,指尖悬在键盘上半天没落下。 这已经是他和 Gemini 拉锯的第37天,目标很简单,开发一个能通过摄像头识别围棋棋谱的程序,自动记录落子,生成复盘报告。 可现实却屡屡碰壁,要么是棋盘边缘检测不准,要么是黑白棋子混淆。 更让人崩溃的是,每次修改代码后,他都得手动复制 Gemini 给出的命令,在 Ubuntu 22.04的终端里执行,再把报错信息粘贴回去,等着 AI 给出新的修正方案。 又错了,卢克揉了揉发涩的眼睛,终端里“未定义引用,Board detect”的红色报错像一根刺,扎得他心烦。 这30多天里,他大部分时间都在做这种机械重复的工作,复制命令、执行、反馈错误、再复制新命令。 Gemini 的思路很清晰,可落地的每一步都要靠他这个中间人搭桥,效率低得惊人。 更要命的是,他选的开发路径本身就有问题。 一开始执着于用传统图像处理算法,忽略了深度学习模型的适配。 等发现时,前期的代码已经堆了几千行,推倒重来又舍不得。 与其我来当这个传声筒,不如让 AI 自己动手。 一个念头突然在卢克脑海里冒出来。 他想起自己之前设想的 shell agent,那个能自主掌控系统执行命令的小管家。 如果能训练出这样一个 agent,让他来替代自己执行命令、反馈结果,再搭配一个擅长编程的大模型,不就能形成一个自主开发的闭环吗?这个念头一旦生根,就像野草般疯长。 卢克猛地关掉代码编辑器,深吸一口气,不干了,换个玩法。 他决定先从训练那个小管家开始,彻底解放自己。 第二章,Shell Agent 的诞生。 为给系统配备全职管家,卢克给这个即将诞生的 Shell Agent 起了个名字:管家。 他的目标很明确,让管家彻底摸清Ubuntu 22.04系统的底细,成为一个靠谱的系统管理员,既能执行命令,又能守住安全底线。 第一步是给管家植入初始能力,卢克写了一段极简的启动脚本,核心只有两个命令:which * 和 man,管家的第一个任务就是用 which * 遍历系统里所有可执行程序,把它们一一记录在本地的文本文件里,形成一份命令清单。 接着,他要逐个调用 man 命令或命令 help 把每个命令的用法、参数、返回值都扒下来,整理成结构化的笔记。 记住,安全第一,卢克在启动脚本里加了一道防火墙。 明确禁止管家执行任何可能修改系统核心配置的命令。 比如,rm -rf /,chmod 777 /。 凡是涉及系统文件写入权限变更的操作,必须先标记为高危,等待后续授权。 管家的训练过程像一个勤奋的学徒。 他用了整整24小时,把系统里上千个命令都过了一遍。 遇到 ls 这样简单的命令,他会记录下 -L 显示详细信息,-A 显示隐藏文件。 遇到 apt 这样的包管理命令,它会把安装、卸载、更新的参数都梳理清楚。 甚至连 lshw 这种查看硬件信息的命令,它都能耐心地把 CPU、内存、硬盘、摄像头的参数一一存档。 卢克偶尔会查看管家的记忆库,里面密密麻麻记满了命令笔记。 还有一份详细的系统资源清单:Ubuntu 22.04 LTS系统,8核 CPU,16G内存,500G硬盘,外接了一个未启用的 USB 摄像头。 已安装 Python 3.8,GCC 9.4.0,缺少 OpenCV 库和围棋规则相关的 C++ 库。 不错,比我还清楚系统状况。 卢克满意地点点头。 训练到第三天,管家已经能自主判断命令的安全性,遇到可疑操作会自动拦截,还能根据记忆库快速回答系统里有哪些编译工具,如何安装 Python 库这类问题。 一个靠谱的全职管家终于成型了。 第三章,接入开发者,双模型协同的启动。 接下来,卢克要为管家找一个搭档,负责编程的开发者。 他选择了之前合作过的 Gemini,不过这一次,Gemini 不再需要和他打交道,而是直接与管家对话。 卢克手动下载并安装了 Gemini 的本地版本,然后给管家加了一个新功能,文本交互接口。 这个接口很简单,就是让管家能把卢克的任务原封不动地传递给 Gemini,再把 Gemini 的回复接收过来,执行其中的命令,最后把结果反馈回去。 现在我们来启动第一个任务。 卢克对着管家下达指令,请让开发者开发一个带摄像头识别功能的围棋棋谱程序,要求能自动检测棋盘、识别落子、生成复盘报告。 收到,正在向开发者传递任务。 管家的回复很快出现在屏幕上。 几秒钟后,Gemini 的回复来了。 要完成围棋棋谱识别程序开发,需先明确以下信息。 一、系统是否已安装 OpenCV 库,GCC 编译器,围棋规则 C++ 库。 二、是否具备摄像头权限。 三、请提供开发进度的考问模板,以便定期汇报。 管家立刻对照自己的记忆库进行回复。 一、未安装 OpenCV 库,围棋规则 C++ 库,已安装 GCC 9.4.0。 二、系统接入 USB 摄像头,未启用权限。 三、考问模板将采用4W1H原则,包含进度查询、问题反馈等内容。 紧接着,管家按照卢克预设的模板向 Gemini 发起了第一次考问,请提交详细的开发路线图、资源需求清单以及预计的 deadline。 Gemini 很快给出了回应,开发路线图分四阶段,一、安装依赖库,一天。 二、开发棋盘检测模块,3天。 三、开发棋子识别与落子记录模块,4天。 四、开发复盘报告生成模块,2天。 总工期10天。 资源需求,安装 libopencv-dev-go-rules-cpp 库,启用摄像头权限。 管家评估了这些需求的安全性,确认无误后向卢克发送了一份摘要报告。 开发者已提交开发规划,需安装两个库并启用摄像头权限,是否批准执行?卢克点击批准,他知道一场由 AI 自主完成的开发正式拉开了序幕。
back to top