如何提取两个标记之间的子字符串?

假设我有一个字符串'gfgfdAAA1234ZZZuijjk'，我想提取'1234'部分。

我只知道在AAA之前的几个字符，以及在ZZZ之后的我感兴趣的部分1234。

使用sed，可以对字符串执行如下操作:

echo "$STRING" | sed -e "s|.*AAA\(.*\)ZZZ.*|\1|"

结果是1234。

如何在Python中做同样的事情?

当前回答

以防有人要做和我一样的事。我必须在一行中提取圆括号内的所有内容。例如，如果我有这样一句话，‘美国总统(巴拉克·奥巴马)会见了……，我只想得到“巴拉克·奥巴马”，这是解决方案:

regex = '.*\((.*?)\).*'
matches = re.search(regex, line)
line = matches.group(1) + '\n'

也就是说，你需要用斜杠\符号来阻止括号。尽管这是一个关于更多正则表达式的问题。

此外，在某些情况下，你可能会在正则表达式定义之前看到'r'符号。如果没有r前缀，你需要像在c中那样使用转义字符。这里有更多关于这个的讨论。

2014-01-19 19:29:00

其他回答

这里有一个没有regex的解决方案，它也适用于第一个子字符串包含第二个子字符串的场景。如果第二个标记在第一个标记之后，此函数将只查找子字符串。

def find_substring(string, start, end):
    len_until_end_of_first_match = string.find(start) + len(start)
    after_start = string[len_until_end_of_first_match:]
    return string[string.find(start) + len(start):len_until_end_of_first_match + after_start.find(end)]

2019-02-23 18:26:39

你可以使用re模块:

>>> import re
>>> re.compile(".*AAA(.*)ZZZ.*").match("gfgfdAAA1234ZZZuijjk").groups()
('1234,)

2011-01-12 09:19:21

Python 3.8中保证文本包含子字符串的一行代码:

text[text.find(start:='AAA')+len(start):text.find('ZZZ')]

2021-06-18 19:20:35

>>> s = '/tmp/10508.constantstring'
>>> s.split('/tmp/')[1].split('constantstring')[0].strip('.')

2014-02-08 00:12:43

使用正则表达式-供进一步参考的文档

import re

text = 'gfgfdAAA1234ZZZuijjk'

m = re.search('AAA(.+?)ZZZ', text)
if m:
    found = m.group(1)

# found: 1234

or:

import re

text = 'gfgfdAAA1234ZZZuijjk'

try:
    found = re.search('AAA(.+?)ZZZ', text).group(1)
except AttributeError:
    # AAA, ZZZ not found in the original string
    found = '' # apply your error handling

# found: 1234

2011-01-12 09:18:56

如何提取两个标记之间的子字符串?

推荐文章

最新文章

标签