非贪婪(不情愿)正则匹配sed?

我试图使用sed来清理url行来提取域。

所以从:

http://www.suepearson.co.uk/product/174/71/3816/

我想要:

http://www.suepearson.co.uk/

(不管后面有没有斜杠，都没有关系)

我试过:

 sed 's|\(http:\/\/.*?\/\).*|\1|'

And(转义非贪婪量词)

sed 's|\(http:\/\/.*\?\/\).*|\1|'

但我似乎不能让非贪婪量词(?)工作，所以它总是匹配整个字符串。

当前回答

由于这里也标记了PCRE，我们可以通过在regex中使用非惰性匹配来使用GNU grep。它将匹配与。*相对的第一个最近的匹配(它实际上是贪婪的，直到匹配的最后一次出现)。

grep -oP '^http[s]?:\/\/.*?/' Input_file

解释:此处使用grep的oP选项，其中-P负责启用PCRE正则表达式。在grep的主程序中提到regex，它匹配开始http/https，后面跟着://直到下一次出现/，因为我们已经使用了。*?它将查找first / after (http/https://).它只打印匹配的部分。

其他回答

还没有看到这个答案，所以这里是如何用vi或vim做到这一点:

vi -c '%s/\(http:\/\/.\{-}\/\).*/\1/ge | wq' file &>/dev/null

这将全局运行vi:%s替换(后面的g)，如果没有找到模式，则避免引发错误(e)，然后将结果更改保存到磁盘并退出。&>/dev/null可以防止GUI在屏幕上短暂闪烁，这很烦人。

有时候我喜欢用vi来处理超级复杂的正则表达式，因为(1)perl已经奄奄一息了，(2)vim有一个非常先进的正则表达式引擎，(3)在我日常使用的编辑文档中，我已经非常熟悉vi正则表达式了。

我知道这是一个旧条目，但有人可能会发现它有用。由于完整域名的总长度不超过253个字符，请将。*替换为。\{1,255 \}

Sed不支持“非贪婪”操作符。

你必须使用“[]”操作符来排除“/”匹配。

sed 's,\(http://[^/]*\)/.*,\1,'

附注:不需要反斜杠"/"。

非贪婪的解决方案超过一个字符

这个帖子真的很老了，但我认为人们仍然需要它。让我们假设你想杀死所有直到HELLO第一次出现的东西。你不能说[^HELLO]…

因此，一个很好的解决方案包括两个步骤，假设您可以在输入中留出一个您不期望的惟一单词，例如top_secit。

在这种情况下，我们可以:

s/HELLO/top_sekrit/     #will only replace the very first occurrence
s/.*top_sekrit//        #kill everything till end of the first HELLO

当然，对于一个简单的输入，你可以使用一个更小的单词，甚至可能是一个字符。

HTH!

克利斯朵夫·西格哈特(Christoph Sieghart)著

在sed中获得非贪婪匹配的技巧是匹配除终止匹配的字符外的所有字符。我知道，这很简单，但我在这上面浪费了宝贵的时间，毕竟shell脚本应该是快速而简单的。所以以防别人需要

贪婪匹配

% echo "<b>foo</b>bar" | sed 's/<.*>//g'
bar

非贪婪匹配

% echo "<b>foo</b>bar" | sed 's/<[^>]*>//g'
foobar

推荐文章