从字符串中删除所有特殊字符、标点符号和空格

我需要从字符串中删除所有特殊字符，标点符号和空格，以便我只有字母和数字。

当前回答

TLDR

我计算了提供的答案。

import re
re.sub('\W+','', string)

通常比上一个最快的答案快3倍。

使用此选项时应谨慎。一些特殊字符(如ø)不能使用这种方法进行条纹。

在看到这个之后，我有兴趣通过找出在最少的时间内执行的答案来扩展提供的答案，所以我通过timeit检查了一些建议的答案，并对照两个示例字符串:

string1 = '特殊$#!字符空格888323' '枫糖浆多少钱? '20.99美元吗?这太荒谬了!!”

示例1

'.join(e for e in string if e.isalnum())

string1 - Result: 10.7061979771 string2 - Result: 7.78372597694

示例2

import re
re.sub('[^A-Za-z0-9]+', '', string)

string1 - Result: 7.10785102844 string2 - Result: 4.12814903259

示例3

import re
re.sub('\W+','', string)

string1 - Result: 3.11899876595 string2 - Result: 2.78014397621

以上结果是由以下平均值的最低返回结果的乘积:重复(3,2000000)

例3可以比例1快3倍。

2016-08-06 01:04:37

其他回答

#!/usr/bin/python
import re

strs = "how much for the maple syrup? $20.99? That's ricidulous!!!"
print strs
nstr = re.sub(r'[?|$|.|!]',r'',strs)
print nstr
nestr = re.sub(r'[^a-zA-Z0-9 ]',r'',nstr)
print nestr

你可以添加更多的特殊字符，这将被“意味着什么，即他们将被删除”所取代。

2014-05-25 09:28:49

较短的方法:

import re
cleanString = re.sub('\W+','', string )

如果你想在单词和数字之间有空格，用''代替''

2014-08-07 13:26:24

假设你想要使用正则表达式并且你想要/需要unicode - cognant 2。X代码是2to3-ready:

>>> import re
>>> rx = re.compile(u'[\W_]+', re.UNICODE)
>>> data = u''.join(unichr(i) for i in range(256))
>>> rx.sub(u'', data)
u'0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz\xaa\xb2 [snip] \xfe\xff'
>>>

2011-04-30 21:07:48

对于其他语言，如德语，西班牙语，丹麦语，法语等包含特殊字符(如德语“Umlaute”ü， ä， ö)，只需将这些添加到正则表达式搜索字符串:

例如德语:

re.sub('[^A-ZÜÖÄa-z0-9]+', '', mystring)

2020-06-27 10:00:21

Python 2 . *

我认为只要filter(str。Isalnum，字符串)工作

In [20]: filter(str.isalnum, 'string with special chars like !,#$% etcs.')
Out[20]: 'stringwithspecialcharslikeetcs'

Python 3。*

在Python3中，filter()函数将返回一个可迭代对象(而不是与上面不同的字符串)。从itertable中获取字符串必须返回连接:

''.join(filter(str.isalnum, string))

或者在连接中传递列表(不确定，但可以快一点)

''.join([*filter(str.isalnum, string)])

注意:unpacking in [*args] valid from Python >= 3.5

2016-04-14 09:32:50

从字符串中删除所有特殊字符、标点符号和空格

推荐文章

最新文章

标签