从字符串中删除标点符号的最佳方法

似乎应该有一种比以下更简单的方法：

import string
s = "string. With. Punctuation?" # Sample string 
out = s.translate(string.maketrans("",""), string.punctuation)

有？

当前回答

我喜欢使用这样的函数：

def scrub(abc):
    while abc[-1] is in list(string.punctuation):
        abc=abc[:-1]
    while abc[0] is in list(string.punctuation):
        abc=abc[1:]
    return abc

2013-04-06 17:28:57

其他回答

不一定更简单，但如果你更熟悉re家族的话，就另辟蹊径。

import re, string
s = "string. With. Punctuation?" # Sample string 
out = re.sub('[%s]' % re.escape(string.punctuation), '', s)

2008-11-05 17:39:55

为了方便使用，我总结了Python 2和Python 3中从字符串中删除标点符号的注意事项。有关详细说明，请参阅其他答案。

Python 2

import string

s = "string. With. Punctuation?"
table = string.maketrans("","")
new_s = s.translate(table, string.punctuation)      # Output: string without punctuation

Python 3

import string

s = "string. With. Punctuation?"
table = str.maketrans(dict.fromkeys(string.punctuation))  # OR {key: None for key in string.punctuation}
new_s = s.translate(table)                          # Output: string without punctuation

2016-05-14 01:57:29

字符串标点符号漏掉了现实世界中常用的大量标点符号。一个适用于非ASCII标点符号的解决方案怎么样？

import regex
s = u"string. With. Some・Really Weird、Non？ASCII。 「（Punctuation）」?"
remove = regex.compile(ur'[\p{C}|\p{M}|\p{P}|\p{S}|\p{Z}]+', regex.UNICODE)
remove.sub(u" ", s).strip()

我个人认为，这是在Python中删除字符串标点符号的最佳方法，因为：

它删除所有Unicode标点符号它很容易修改，例如，如果您想删除标点符号，可以删除\｛s｝，但保留像$这样的符号。您可以非常具体地了解要保留的内容和要删除的内容，例如，Pd只会删除破折号。此正则表达式还规范了空白。它将制表符、回车符和其他奇怪的字符映射到漂亮的单个空格。

这使用了Unicode字符财产，您可以在Wikipedia上阅读更多有关该属性的信息。

2016-10-06 16:46:01

在不太严格的情况下，单行线可能会有所帮助：

''.join([c for c in s if c.isalnum() or c.isspace()])

2015-10-17 23:03:59

我喜欢使用这样的函数：

def scrub(abc):
    while abc[-1] is in list(string.punctuation):
        abc=abc[:-1]
    while abc[0] is in list(string.punctuation):
        abc=abc[1:]
    return abc

2013-04-06 17:28:57

从字符串中删除标点符号的最佳方法

推荐文章

最新文章

标签