上午九点,路容洗漱完毕,换上简单的灰色针织衫和黑色长裤。她在厨房烧水泡茶,茶叶在玻璃杯里舒展开,颜色从浅绿渐渐变成琥珀。水蒸气升腾,模糊了她的眼镜片。她摘下眼镜,用衣角擦拭。
手机震动。
周哲发来消息:“会议提前到九点半,方便吗?李总临时要听项目进展汇报,我们需要先内部过一遍。”
路容打字:“可以。”
“好,十分钟后发你链接。”
路容端着茶杯回到书桌前。出租屋很小,书桌紧挨着床,墙上贴着她手绘的数据流程图和项目时间表。桌上除了笔记本电脑,还有一台外接显示器、一个机械键盘、一个变声器设备。变声器的指示灯亮着微弱的绿光,表示设备待机。
她戴上耳机,调整麦克风位置。
然后打开变声器开关。
轻微的电流声在耳机里响起,随即消失。设备开始工作,将她原本的声音实时处理成另一个频率——略高,略带沙哑,符合“若溪”这个身份的声音特征。路容清了清嗓子,测试音效。
“测试,一,二,三。”
耳机里传出的声音陌生而熟悉。
她喝了一口茶,茶水温热,带着淡淡的苦味。
九点二十五分,会议链接发来。
路容点击进入。
视频会议界面展开。周哲已经在线,背景是星耀集团技术部的开放式办公区,能看到他身后有同事走动的模糊身影。他穿着浅蓝色衬衫,头发梳理整齐,但眼睛下方有淡淡的黑眼圈。
“若溪,早上好。”周哲对着摄像头微笑。
“早上好。”路容调整了一下坐姿,确保摄像头只拍到她的上半身和身后的白墙。
“其他同事马上到。”周哲看了看屏幕侧方,“李总要求十点听汇报,我们抓紧时间过一下项目框架。你拿到数据包了吗?”
“拿到了,昨晚下载的。”
“好。这批数据量比较大,加密方式也比之前的边缘日志复杂。”周哲打开共享屏幕,展示技术文档,“AES-256-GCM,密钥每天轮换,解密需要调用公司的密钥管理服务。权限我已经帮你申请了,今天下午应该能批下来。”
路容点头:“我看到文档了。数据清洗流程的设计,我需要先了解现有问题。”
“问题很多。”周哲切换页面,展示一组统计图表,“这是过去三个月‘深蓝’外围数据的可用率趋势。蓝色线是原始数据流入量,红色线是清洗后可用数据量。你看,可用率一直在62%到68%之间波动,离我们目标的80%差很远。”
图表上,红色曲线始终低于蓝色曲线,两条线之间的间隙代表被过滤掉的数据。
“过滤原因分析呢?”路容问。
周哲打开另一张图:“主要三大类:传输过程中产生的重复数据包,占比约18%;加密负载格式错误,无法解密,占比12%;数据字段缺失或格式异常,占比8%。剩下的就是各种零星问题。”
“重复数据包的判定规则是什么?”
“现有的规则很简单:相同device_id、相同timestamp、相同payload哈希值,判定为重复。”周哲说,“但问题在于,传输过程可能产生时间戳微秒级的差异,或者网络抖动导致同一个数据包被重复发送但带有不同的序列号。现有规则会漏掉很多。”
会议界面里又进来三个人。
都是技术部的同事,路容在之前的项目里见过他们的名字,但没直接合作过。他们依次打招呼,周哲简单介绍了路容的角色。
“若溪负责设计新的过滤规则,重点解决重复数据包和格式异常的问题。”周哲说,“我们需要在两周内拿出第一版方案,在测试环境跑通,然后逐步优化。”
一个戴眼镜的男同事开口:“重复数据包的判定,我建议加入时间窗口概念。比如同一个device_id在100毫秒内发送的多个数据包,如果payload相似度超过95%,就判定为重复。”
“相似度计算需要解密payload,计算成本很高。”另一个女同事反驳,“每天流入的数据量是TB级别,实时计算不现实。”
“可以抽样,或者只在可疑情况下触发深度检查……”
讨论持续了二十分钟。
路容大部分时间在听,偶尔提问。她的问题都很精准,直指技术方案的核心矛盾和可行性边界。周哲几次看向她的视频窗口,眼神里有欣赏。