OpenAI o1不会“消灭”程序员

李南腾讯研究院高级研究员

在当前大模型快速发展中，编程技术成为了许多企业争夺的焦点领域之一,通用大模型的发布往往伴随着诸如HumanEval等测试基准来衡量模型在编程领域的性能。此外，OpenAI CEO 萨姆·奥特曼多次在公开场合强调，最期待的大模型应用场景是如何在代码生成和编程效率提升领域实现真正的质变。这一观点背后不仅是技术专家对编程的深厚兴趣，更深层次地反映了AI商业化潜力、模型在实际应用中的广泛可能性，以及对未来市场格局的战略考量。

o1-mini 与 o1-preview
有望引爆AI 编程技术竞赛

在最新发布的o1-mini和o1-preview版本中，尽管在HumanEval基准测试中的提升仅为2.2%，看似相较于其前代产品GPT-4o并没有显著飞跃，但它们的实际技术进展却不可小觑。此次发布的重要亮点在于引入了Self-play Reinforcement Learning（自我博弈强化学习）和思维链。这一技术创新为大模型在代码生成领域带来了更强的自我学习和错误纠正能力，使模型不仅能够自主解决复杂问题，还能将其分解为更为简单易处理的步骤。这种技术进步不仅提升了理论上的推理和逻辑能力，更为重要的是在实际应用场景中显著提升了代码生成的效率和准确性。o1-mini和o1-preview版本通过模拟Codeforces的编程竞赛，按照实际编程环境中的规则评估其表现。在Codeforces测试中，o1-preview 和 o1的得分分别为1258和1673，远超GPT-4o。这不仅验证了自我博弈强化学习技术的有效性，也表明了o1系列模型在解决实际编程问题时的卓越表现。

新的技术基准有望建立，推动AI编程走向更高的水平。尽管HumanEval等基准测试在评估大模型能力方面提供了重要指标，但随着模型能力的逐渐提升，类似的测试已难以充分反映实际编程中的复杂性和挑战。HumanEval主要测量模型生成代码片段的正确性和质量，但在面对更复杂、更具生产价值的编程任务时，现有的测试已经显得过于基础。o1-mini和o1-preview版本的发布显示，AI编程能力的提升已经超越了传统基准测试的评估范围，未来可能需要更加严苛和更具现实性的benchmark来推动AI编程技术的发展。例如，未来的基准测试可能会更加侧重模型在真实开发环境中的表现，评估其在大型项目中的协作能力、代码复用和维护性，以及在不同编程语言和框架中的适应性。这不仅会对大模型的能力提出更高的要求，也会推动整个行业进一步提升AI编程技术的标准，为开发者提供更加智能和高效的工具。

AI编程技术竞赛加剧，产品完善加速。随着o1-mini和o1-preview的发布，AI编程技术的竞赛将进入一个新的阶段。OpenAI凭借其在模型设计上的创新占据了领先地位，而这一进展也势必引发其他科技巨头和初创企业的迅速跟进。在未来的AI编程技术竞赛中，无论是谷歌、Anthropic、Meta等大模型公司，还是Anysphere、Cognition、Poolside、Magic Augment等AI 编程初创企业，都将加大对AI编程领域的投资和研发力度。此外基础模型的增强会提升专注做代码助手产品化的公司，例如 OpenAI 的最新o1模型现已在Anysphere的Cursor上推出，此外Cognition 也在产品中进行了实验，发现基于o1的devin在内部的测试基准上的性能远超GPT4o。未来，这些企业的共同努力，将进一步完善模型性能和产品，为用户提供更强大的AI编程工具。

AI编程商业化验证已经完成，
具备明确市场增长空间

盈利产品的成功验证了AI编程工具的商业化可行性。作为全球首个大规模商业化的大模型产品之一，GitHub Copilot的付费用户数量在短时间内迅速攀升。据统计，到2023年10月，GitHub Copilot的付费用户已突破100万，年经常性收入（ARR）更是达到1亿美元。这不仅验证了其商业化的可行性，也为其他类似产品的发展提供了重要参考。今年4月，GitHub Copilot的用户数增至180万，半年内增加了80万用户，表明其用户接受度和市场需求的迅速扩展。此外，GitHub Copilot在企业市场中的表现同样引人注目。在2024年7月的季度业绩发布中，微软宣布，已有77,000家机构在使用GitHub Copilot。这些机构用户包括一些行业巨头，如拉丁美洲的电商领军企业Mercado Libre和全球咨询巨头埃森哲。据称，这些公司在使用Copilot后，生产力提高了20-35%。GitHub Copilot的成功标志着AI编程工具商业化的重要里程碑，不仅为AI编程工具的商业化探索奠定了基础，还为未来其他AI编程产品的研发和推广提供了示范效应。

用户需求旺盛，市场空间巨大。根据Evans Data Corporation的全球开发者人口和统计研究，2022年全球共有约2,690万软件开发者，预计到2024年这一数字将增长至2,870万，如此庞大的开发者群体为AI编程工具提供了广阔的市场空间。这些开发者不仅对提高生产力有着强烈需求，也展现出一定的付费意愿，根据CSDN的调查，在中国开发者中，44%的人愿意为AI编程工具支付「0-30元/月」的费用。尽管这一付费意愿相对较低，但随着AI编程工具的不断优化与功能的丰富，用户愿意为更高效的工具支付更多费用的可能性将逐步增加。此外，随着AI技术的普及，越来越多的非专业开发者也开始借助AI编程工具进行简单的程序开发和自动化任务处理。例如，Replit推出的Replit Agent为用户提供了从开发环境搭建到应用部署的一站式解决方案，吸引了大量毫无编程经验的用户。这种工具的简单易用性，使得非开发者群体也能借助自然语言交互实现编程功能，进一步扩大了AI编程工具的潜在市场。此外通用大模型也能支持用户直接代码生成，例如在o1-mini中，用户只需简单提示即可生成如贪吃蛇游戏的代码，并且能获得运行环境配置的详细指导。随着这些工具的功能日益强大，未来将有更多的行业用户和非开发者加入到AI编程工具的使用群体中，为市场带来更多增长动力。

投资机构认可，支持力度较高。除了用户需求的增长，投资机构对AI编程工具的支持力度也在不断增强。许多初创公司通过融资获得了大量资金，以推动AI编程技术的进一步发展。例如，AI编程初创公司Augment最近宣布完成了2.52亿美元的融资，投后估值达到了9.77亿美元。这一轮融资为Augment的发展注入了强大动力，帮助其在竞争日益激烈的市场中占据一席之地。同样，今年8月，开发Cursor的AI编码助手的初创公司Anysphere完成了6000万美元的A轮融资，投后估值达到4亿美元。此外，美国旧金山AI编程初创公司Magic在一轮融资中筹集了3.2亿美元。九月，法国AI编程初创公司Poolside正在商谈近5亿美元的融资，且有望在发布首款产品之前就达到30亿美元的估值。这一系列融资案例表明，资本市场对AI编程工具的未来发展前景充满信心。这些初创公司能够吸引如此大规模的投资，证明了AI编程市场具有巨大的潜力。

编程能力进化即将开启大语言模型
转化为行业生产力的序幕

在数字领域，代码是连接数字空间与物理世界的桥梁，无论是实现一个简单的功能模块，开发一个基础的应用程序，还是构建一个复杂的平台级产品，其背后都依赖于代码的精确编写与执行。近期有一场关于大模型理解能力的讨论引发了广泛关注，当用户询问“大模型，9.8和9.11哪个大”时，许多模型未能正确回答这一简单的数学比较问题，导致公众对其智能水平产生质疑。然而，这一现象的根源在于大模型的输出机制，大型语言模型通过概率分布来生成回答，其训练数据涵盖了广泛的语料，包括日期、目录、文本段落等多种上下文信息。当面对类似“9.8和9.11哪个大”这样的问题时，模型可能会根据上下文误判问题的类型，将其解释为日期或其他非纯数学问题，从而给出错误的回答，即使是OpenAI最新的o1-mini也可能存在回答错误的情况。但是将这个问题转化为编程问题后，几乎所有模型都能给出正确的代码。这种将问题转化为编程问题的能力正是很多行业性场景可以构建应用的支撑。

对很多行业来说，目前大语言模型的应用主要聚焦在文字撰写、文档处理等非核心生产的场景中，即使是基于RAG模式外挂知识库或者微调等方式来进行知识问答、客服等应用的构建，但对企业的生产力提升比较有限。但是伴随着大语言模型在编程领域能力的提升，相信会有更多的行业问题通过编程解决。例如在金融领域，平安银行依托多语言代码生成大模型，基于行内数据微调，打造更契合银行的代码生成Copilot，持续提升全行开发人员效率，工商银行、中信银行等都在探索基于大模型的编程应用。在工业领域，西门子Industrial Copilot能够帮助工程团队为可编程逻辑控制器（PLC）生成基础的虚拟化任务和代码，并自动处理重复性任务，在大幅减少工程团队工作量的同时保证复杂任务的工程设计不易出错，从而缩短开发时间、提高质量和生产率。此外芯片设计、Cam等工业软件厂商都在探索工业代码生成。

AI 编程进入规模化应用阶段
仍需解决诸多技术和产品问题

应用场景需要进一步拓展和丰富。当前AI编程工具的应用场景主要集中在代码生成和代码补全。这些功能解决了开发者在编写常规代码时的效率问题，但其作用相对单一，无法全面满足整个软件开发生命周期的需求。要实现规模化应用，AI编程工具必须向更多关键场景拓展，包括自动化测试、调试、跨平台开发和运维等。通过将AI引入软件开发的每个环节，真正实现开发过程的智能化和自动化，减少开发人员的工作负担，同时提高生产效率。例如，测试和调试占据了开发流程中的大量时间，自动化生成测试用例、识别潜在错误将大幅度提高软件开发的整体效率，不仅能够减少人工干预，还降低了错误率，确保代码质量的同时加速产品交付。在跨平台方面，AI工具需要在不同开发环境下提供一致的性能和功能，满足前端、后端、移动应用等多种开发需求，从而增强工具的适用性。

复杂逻辑处理与业务理解能力需要提升。尽管AI编程工具在语法和代码补全方面已经取得了较大进展，但在处理复杂业务逻辑和深度业务背景时仍然力有不逮。在应对复杂业务场景时，AI的能力远未达到成熟。要实现这一目标，需要通过更深层次的模型训练和算法优化，使AI能够处理多层次的业务逻辑，帮助开发者编写更高效、更灵活的代码。此外，AI难以具备人类开发者在理解业务背景、设计初衷和长期维护性方面的能力，AI编程工具应加强对业务场景的深入学习，不仅能生成符合当前需求的代码，还能理解项目的长期目标和设计哲学。这需要AI具备深度的推理和理解能力，结合项目的历史数据、上下文信息做出更加智能化的判断。

版权和安全问题亟需解决。随着AI编程工具的大规模应用，版权和安全问题逐渐成为焦点。当前AI编程工具，虽然提高了开发效率，但其生成的代码潜在涉及版权问题，可能与现有代码库相似，带来法律风险。同时，安全性问题也逐渐显现，AI生成的代码可能存在潜在的漏洞或隐患，影响软件安全性。为了避免侵犯第三方版权，未来AI编程工具在生成代码时必须对训练数据进行更严格的筛选，确保生成代码的原创性和合法性。此外，还需具备版权风险检测机制，自动判断生成代码是否与现有开源代码或商业代码存在相似性，及时提出警告并给出替代方案。在安全方面，如何整合安全漏洞检测功能也是重点，从而能够在代码生成的同时识别潜在的安全隐患，并为开发者提供自动修复建议，确保开发者在代码生成过程中不仅提升效率，还能保证软件的安全性，防止由于AI生成代码带来的安全漏洞问题。