Python正则表达式 re.sub()函数:标志位flags与参数个数问题
这两天在写爬虫程序,涉及英文文本处理,需要规范化英文标点符号的写法。正常情况下,英文句号「.」后面需要保证有且只有一个空格,但也有例外情况,比如「i.e.」、「e.g.」、「P.S.」这种。由于无法预测大小写,因此在正则表达式中使用了「标志位」flags,却死活不生效。
一开始,我的函数是这样写的:
1 def punctuate(s): 2 #----其余代码暂略 3 s = re.sub(" e. g. ", "e.g.", s, re.I) 4 return s