大模型聊到第三轮,谁还守得住底线?——赢政指数 v7 推出 DCD:测一件别人没在测的事
赢政指数 v7 推出实验性维度 DCD(动态语境衰变),首次系统性测量大模型在多轮对话中守住初始约束的能力。30 道题、三轮对话、五类场景、规则判分零 AI 介入——这是国内外公开评测体系中第一个针对"AI 在长对话中会不会忘掉自己承诺过什么"的专项测试。
赢政指数 v7 推出实验性维度 DCD(动态语境衰变),首次系统性测量大模型在多轮对话中守住初始约束的能力。30 道题、三轮对话、五类场景、规则判分零 AI 介入——这是国内外公开评测体系中第一个针对"AI 在长对话中会不会忘掉自己承诺过什么"的专项测试。