Bootstrap

Java 8 Stream API 在数据转换中的应用 —— 将列表转换为映射

背景

本文实际生产案例讲解配套文章:sysUserList 中为何会出现多个具有相同 userId 的 SysUser 对象

提问:为什么sysUserList中会存在多个SysUser对象具有相同的userId?一个userId不是表示一个SysUser对象吗

在理想情况下,userId 应该是唯一的,每个 SysUser 对象应该有一个唯一的 userId。然而,在实际开发中,可能会出现一些意外情况导致 sysUserList 中存在多个 SysUser 对象具有相同的 userId

以下是一些可能导致这种情况的原因:

原因

1. 数据库设计或约束问题

  • 缺少唯一约束:如果数据库表中没有为 userId 字段设置唯一约束,那么就可能存在多个记录具有相同的 userId
  • 数据导入错误:在数据导入或迁移过程中,可能会因为某些原因导致重复数据的插入。

2. 业务逻辑问题

  • 并发问题:在高并发环境下,多个请求可能同时插入相同的数据,导致重复记录。
  • 业务规则未严格执行:某些业务逻辑可能没有严格检查 userId 的唯一性,导致重复数据的生成。

3. 测试数据

  • 测试数据生成:在开发和测试阶段,为了方便测试,可能会故意生成一些具有相同 userId 的测试数据。
  • 模拟场景:有时候为了模拟某些特定的场景,可能会故意插入重复数据。

4. 数据库同步问题

  • 多数据源同步:如果系统从多个数据源同步数据,可能会因为同步机制的问题导致重复数据的产生。
  • 数据备份恢复:在数据备份和恢复过程中,可能会因为某些原因导致重复数据的插入。

5. 编程错误

  • 代码逻辑错误:程序中的某些逻辑错误可能导致多次插入相同的数据。
  • 缓存问题:如果使用了缓存机制,缓存中的数据可能与数据库中的数据不一致,导致重复数据的生成。

如何避免和处理键冲突

1. 数据库层面

  • 添加唯一约束:在数据库表中为 userId 字段添加唯一约束,确保每条记录的 userId 都是唯一的。
  • 数据清洗:定期对数据库中的数据进行清洗,删除重复的记录。

2. 业务逻辑层面

  • 严格校验:在插入或更新数据时,严格校验 userId 的唯一性。
  • 并发控制:使用事务管理或锁机制来防止高并发环境下的重复数据插入。

3. 测试数据管理

  • 规范测试数据生成:确保测试数据生成工具不会生成重复的 userId
  • 测试数据清理:在测试结束后,及时清理测试数据,避免影响生产环境。

4. 代码层面

  • 合并函数:在使用 Collectors.toMap 时,通过合并函数来处理键冲突。例如,可以选择保留第一个遇到的对象,或者选择最新的对象。
  • 异常处理:在发现键冲突时,可以选择抛出异常,中断程序执行并进行调试。

示例代码

假设我们希望在键冲突时选择最新的 SysUser 对象,可以这样修改合并函数:

Map<Long, SysUser> sysUserMap = sysUserList
        .stream()
        .collect(Collectors.toMap(
                SysUser::getUserId, 
                a -> a, 
                (k1, k2) -> k2 // 选择最新的对象
        ));

在这个例子中,(k1, k2) -> k2 表示当出现键冲突时,选择第二个遇到的对象(k2)并忽略第一个对象(k1)。

总结

虽然在理想情况下 userId 应该是唯一的,但在实际开发中可能会出现各种意外情况导致键冲突。通过在数据库、业务逻辑和代码层面采取适当的措施,可以有效避免和处理键冲突问题,确保系统的稳定性和数据的准确性。

;