在 Python 中从文本中删除 URL

在 Python 中从文本中删除 URL

Remove URLs from Text in Python

使用该re.sub()方法从文本中删除 URL,例如
result = re.sub(r'http\S+', '', my_string)re.sub()方法将通过用空字符串替换它们来从字符串中删除任何 URL。

主程序
import re my_string = """ First https://example.com https://google.com Second Third https://example.com """ result = re.sub(r'http\S+', '', my_string) # First # Second # Third print(result)

我们使用该re.sub()方法从字符串中删除所有 URL。

re.sub方法返回一个新字符串,该字符串是通过用提供的替换替换模式的出现而获得的。

主程序
import re my_str = '1apple, 2apple, 3banana' result = re.sub(r'[0-9]', '_', my_str) print(result) # 👉️ _apple, _apple, _banana

如果未找到模式,则按原样返回字符串。

我们使用空字符串进行替换,因为我们想从字符串中删除所有 URL。
主程序
import re my_string = """ First https://example.com https://google.com Second Third https://example.com """ result = re.sub(r'http\S+', '', my_string) # First # Second # Third print(result)

我们调用该re.sub()方法的第一个参数是一个正则表达式。

正则表达式中的http字符匹配文字字符。

\S匹配任何不是空白字符的字符。请注意,
S是大写的。

加号+与前面的字符(任何非空白字符)匹配 1 次或多次。

就其整体而言,正则表达式匹配以 1 个或多个非空白字符开头的子字符串。 http

如果您担心以 形式匹配字符串,http-something请将您的正则表达式更新为r'https?://\S+'

主程序
import re my_string = """ First https://example.com https://google.com Second Third https://example.com """ result = re.sub(r'https?://\S+', '', my_string) # First # Second # Third print(result)
问号?使正则表达式匹配重复前面的字符。 01

例如,https?将匹配httpsor http

然后我们用冒号和两个正斜杠://来完成协议。

就其整体而言,正则表达式匹配以 1 个或多个非空白字符开头
http://或后跟的子字符串。https://

如果您在阅读或编写正则表达式时需要帮助,请参阅官方文档中的
正则表达式语法
副标题。

该页面包含所有特殊字符的列表以及许多有用的示例。

发表评论