正则表达式实战:从身份证号校验码反推,教你写出更精准的验证规则
正则表达式实战从身份证号校验码反推教你写出更精准的验证规则身份证号码验证是开发中常见的需求但大多数开发者只是简单地复制网上的正则表达式却不知道背后的设计逻辑。本文将带你从校验码的计算公式出发逆向推导出完整的身份证号验证规则让你真正掌握正则表达式的设计精髓。1. 身份证号码的结构解析18位身份证号码并非随机组合的数字而是经过精心设计的特征组合码。理解其结构是编写验证规则的基础地址码前6位代表户籍所在地的行政区划代码前两位表示省份如11代表北京31代表上海中间两位表示地级市后两位表示区县出生日期码8位格式为YYYYMMDD年份1900-2099月份01-12日根据月份和闰年情况变化顺序码3位同一地区同一天出生人员的顺序编号奇数分配给男性偶数分配给女性校验码1位根据前17位计算得出可能是0-9或X2. 校验码的计算原理校验码是整个身份证验证系统的核心理解它的计算方式才能设计出精准的正则表达式。2.1 加权因子与计算公式校验码的计算使用了一套固定的加权因子位置i: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Wi: 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2计算步骤计算加权和S Sum(Ai × Wi)计算模Y mod(S, 11)根据Y值查找校验码Y值012345678910校验码10X987654322.2 计算示例以身份证号11010519491231002X为例位置: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 数字:1 1 0 1 0 5 1 9 4 9 1 2 3 1 0 0 2 Wi: 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 计算:1×7 1×9 0×10 1×5 0×8 5×4 1×2 9×1 4×6 9×3 1×7 2×9 3×10 1×5 0×8 0×4 2×2 157 Y 157 % 11 3 校验码 X (与第18位一致)3. 从校验码反推前17位的约束条件理解了校验码的计算方式后我们可以逆向推导出前17位必须满足的条件这些条件将直接转化为正则表达式的各个部分。3.1 地址码的约束地址码必须符合国家行政区划编码规则第一位1-9不能为0前两位有效的省份代码11-91之间的特定值后四位有效的市县代码对应的正则部分^[1-9]\d{5}3.2 出生日期码的约束出生日期是最复杂的部分需要考虑年份范围1900-2099(19|20)\d{2}月份和日期的组合31天的月份01,03,05,07,08,10,12(01|03|05|07|08|10|12)(0[1-9]|[12]\d|3[01])30天的月份04,06,09,11(04|06|09|11)(0[1-9]|[12]\d|30)2月份区分闰年和平年闰年02(0[1-9]|[12]\d)平年02(0[1-9]|1\d|2[0-8])3.3 顺序码和校验码顺序码是3位数字校验码是数字或X\d{3}[\dXx]$4. 构建完整的正则表达式结合上述所有约束条件我们可以构建完整的正则表达式。考虑到闰年判断的复杂性通常需要根据年份动态生成正则表达式。4.1 静态正则表达式区分闰年闰年版本^[1-9]\d{5}(19|20)\d{2}((01|03|05|07|08|10|12)(0[1-9]|[12]\d|3[01])|(04|06|09|11)(0[1-9]|[12]\d|30)|02(0[1-9]|[12]\d))\d{3}[\dXx]$平年版本^[1-9]\d{5}(19|20)\d{2}((01|03|05|07|08|10|12)(0[1-9]|[12]\d|3[01])|(04|06|09|11)(0[1-9]|[12]\d|30)|02(0[1-9]|1\d|2[0-8]))\d{3}[\dXx]$4.2 MySQL中的实现方案在MySQL中我们可以创建一个函数来动态判断闰年并选择相应的正则表达式DELIMITER // CREATE FUNCTION validate_id_card(id_card VARCHAR(18)) RETURNS BOOLEAN DETERMINISTIC BEGIN DECLARE year INT; DECLARE is_leap_year BOOLEAN; DECLARE regex_pattern VARCHAR(300); -- 检查长度 IF LENGTH(id_card) ! 18 THEN RETURN FALSE; END IF; -- 提取年份 SET year SUBSTRING(id_card, 7, 4); -- 判断闰年 SET is_leap_year (year % 400 0) OR (year % 100 ! 0 AND year % 4 0); -- 设置正则表达式 IF is_leap_year THEN SET regex_pattern ^[1-9]\\d{5}(19|20)\\d{2}((01|03|05|07|08|10|12)(0[1-9]|[12]\\d|3[01])|(04|06|09|11)(0[1-9]|[12]\\d|30)|02(0[1-9]|[12]\\d))\\d{3}[\\dXx]$; ELSE SET regex_pattern ^[1-9]\\d{5}(19|20)\\d{2}((01|03|05|07|08|10|12)(0[1-9]|[12]\\d|3[01])|(04|06|09|11)(0[1-9]|[12]\\d|30)|02(0[1-9]|1\\d|2[0-8]))\\d{3}[\\dXx]$; END IF; -- 执行验证 RETURN id_card REGEXP regex_pattern; END // DELIMITER ;5. 验证逻辑的完整实现除了正则表达式验证外完整的身份证验证还应包括校验码验证def validate_check_digit(id_card): if len(id_card) ! 18: return False # 加权因子 weights [7, 9, 10, 5, 8, 4, 2, 1, 6, 3, 7, 9, 10, 5, 8, 4, 2] # 校验码对应关系 check_codes [1, 0, X, 9, 8, 7, 6, 5, 4, 3, 2] # 计算加权和 total 0 for i in range(17): total int(id_card[i]) * weights[i] # 计算校验码 mod total % 11 expected_check check_codes[mod] # 比较校验码 return id_card[-1].upper() expected_check地址码验证def validate_area_code(id_card): province_codes [11, 12, 13, 14, 15, 21, 22, 23, 31, 32, 33, 34, 35, 36, 37, 41, 42, 43, 44, 45, 46, 50, 51, 52, 53, 54, 61, 62, 63, 64, 65, 71, 81, 82, 91] return id_card[:2] in province_codes完整验证流程def validate_id_card(id_card): # 基础检查 if not isinstance(id_card, str) or len(id_card) ! 18: return False # 正则表达式验证 if not re.match(r^[1-9]\d{5}(19|20)\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\d|3[01])\d{3}[\dXx]$, id_card): return False # 校验码验证 if not validate_check_digit(id_card): return False # 地址码验证 if not validate_area_code(id_card): return False return True在实际项目中我发现最常出现问题的环节是校验码计算和闰年判断。特别是在处理大量数据时预先验证地址码可以快速过滤掉大部分无效数据提高验证效率。