【测试思维】大语言模型的随机性(非确定性)对传统测试断言体系的冲击
核心观点:大语言模型的内禀随机性不是工程缺陷,而是一种需要被理解、被度量和被工程化的系统特性。它正在从底层颠覆传统测试的核心范式——断言体系,迫使测试思维从“验证确定性结果”向“评估概率性质量”完成范式跃迁。一、问题引入:一个测试工程师的噩梦想象这样一个场景:你写完了一个自动化测试用例,assert result == expected,在本地跑了一遍——通过。推送到CI流水线,再跑一遍——失败。你没改任何代码,没动任何配置,甚至把random seed都固定了,但结果就是不一样。这不是bug,这是大语言模型(LLM)的内禀非确定性。在2025年We Make Future大会上,软件质量咨询公司Nearform的工程师提出了一个直击灵魂的问题:“how do we test something that never behaves the same way twice?”——如何测试一个从来不会以相同方式运行两次的系统?这个问题正在成为整个软件测试行业的“房间里的大象”。根据2025年10月更新的学术论文《Challenges in Testing Large Language Model Based Software: A Faceted Taxonomy》,LLM和Multi-Agent LLM(MALLM)引入的非确定性“unlike traditional or ma