系统能力与测试验证总览
面向智能图像系统的持续质量展示,不再按单次报告组织。页面聚合环境部署、迭代测试进度、性能目标、基准/负载/疲劳测试结果和风险处置。
系统展示
能力域 / 部署 / 并发当前展示的是智能图像系统在预投产环境下的整体能力状态,重点看系统由哪些交易能力组成、部署资源如何分配,以及验证阶段的关键健康指标。
能力域
智能图像交易目录环境部署
预投产资源编排基准验证
进度 / 目标 / 基准 / 负载基准验证用于确认交易连通性、响应时间目标和预投产环境的基础处理能力;负载测试作为进入疲劳验证前的能力校验。
测试进度2026年迭代4 · 20260608
今日负载测试 2 支交易,具体见下方负载测试结果。
测试目标TPS 与平均响应时间
预投产基准测试1用户并发 · 连通性
基准测试主要验证连通性、交易是否成功,以及响应时间是否在目标范围内;基准 TPS 仅作参考。
订单汇总交易
营业执照交易
特许许可证交易
银行卡识别交易
电子驾驶证交易
内容识别(鉴黄)交易
预投产负载测试副本 / 并发 / 成功率
身份证识别交易
订单汇总交易
营业执照交易
特许许可证交易
银行卡识别交易
电子驾驶证交易
内容识别(鉴黄)交易
疲劳验证
按时间窗口归档疲劳验证按压测时间窗口归档,同一窗口内统一展示核心指标、失败分布、压测问题和处置风险,便于后续追加新的疲劳轮次。
12小时疲劳测试06-08 17:59 至 06-09 06:00
失败集中在身份证识别、电子驾驶证、银行卡识别和营业执照 4 类交易。
压测问题总结Pod 重启 / 副本掉线
压测过程中出现 Pod/副本重启或掉副本,初步判断为压测日志量过大,导致磁盘或容器临时存储空间被打满,从而触发 Pod 重启。
问题现象
压测开始后怀疑日志打满磁盘;Pod 重启后原日志丢失,后续继续出现副本掉线。排查后确认仍与磁盘空间相关,具体表现为容器临时存储空间不足后触发重启。
核心原因
测试环境 12 小时压测产生约 500G 日志,远超原先约 1G 的预估。日志中打印了 base64 内容,可能包含图片 base64,在高压测流量下极易快速打满磁盘或临时存储。
清理策略问题
当前日志清理方式不适合本次压测量级,需要调整为按大小滚动、缩短保留时间、限制单个日志文件大小和文件数量,并避免继续输出 base64 等大字段。
处理方案
可调整日志清理策略,但需要更新服务或升级版本后生效。临时方案可缩短日志清理时间,同时确认当前服务是否仍会打印图片 base64。
后续动作
关闭或裁剪 base64 日志;设置日志大小滚动、最大文件大小和最大文件数量;升级服务版本;压测前确认临时存储配额和磁盘容量;增加容器临时存储、节点磁盘、日志目录和 Pod 重启次数告警。
最终解决方案
去掉容器内部日志中的 base64 内容,从根本上消除大字段写入导致磁盘打满的风险。该方案已确认可解决压测日志量过大的核心问题。
风险与处置失败交易定位
1. 优先排查 HTTP 503 链路
身份证识别、银行卡识别、营业执照合计 6,377 笔,占全部失败 69.16%。重点副本包括 idcard-4、idcard-2、idcard-20、银行卡识别-0、银行卡识别-3、营业执照-1、营业执照-5。
2. 重点定位电子驾驶证-0
电子驾驶证成功率 98.76%,失败 2,754 笔,返回 HTTP 502,应检查副本健康、网关和上游依赖。
3. 复核 Code 2003 业务返回码
订单汇总负载测试成功率 99.51%,疲劳测试失败 77 笔;特许许可证疲劳测试失败 4 笔,需确认业务码含义并持续观察。
12小时疲劳测试06-11 16:54 至 06-12 04:55
特许许可证报错 1 笔(code 2003,副本 xukezheng-2),内容识别-鉴黄报错 3 笔(HTTP 502,副本 3/4/5)。
本窗口问题特许许可证 / 内容识别
特许许可证 code 2003
报错 1 笔,副本 xukezheng-2,返回 code 2003。成功率 99.99%,属达标范围,需确认业务返回码含义并持续观察。
内容识别-鉴黄 HTTP 502
报错 3 笔,副本 3/4/5,返回 HTTP 502。成功率 99.99%,属达标范围,应检查副本健康和上游依赖。