在 Python 中从文本中删除 URL
Remove URLs from Text in Python
使用该re.sub()
方法从文本中删除 URL,例如
result = re.sub(r'http\S+', '', my_string)
。该re.sub()
方法将通过用空字符串替换它们来从字符串中删除任何 URL。
主程序
import re my_string = """ First https://example.com https://google.com Second Third https://example.com """ result = re.sub(r'http\S+', '', my_string) # First # Second # Third print(result)
我们使用该re.sub()
方法从字符串中删除所有 URL。
re.sub方法返回一个新字符串,该字符串是通过用提供的替换替换模式的出现而获得的。
主程序
import re my_str = '1apple, 2apple, 3banana' result = re.sub(r'[0-9]', '_', my_str) print(result) # 👉️ _apple, _apple, _banana
如果未找到模式,则按原样返回字符串。
我们使用空字符串进行替换,因为我们想从字符串中删除所有 URL。
主程序
import re my_string = """ First https://example.com https://google.com Second Third https://example.com """ result = re.sub(r'http\S+', '', my_string) # First # Second # Third print(result)
我们调用该re.sub()
方法的第一个参数是一个正则表达式。
正则表达式中的http
字符匹配文字字符。
\S
匹配任何不是空白字符的字符。请注意,
S
是大写的。
加号+
与前面的字符(任何非空白字符)匹配 1 次或多次。
就其整体而言,正则表达式匹配以 1 个或多个非空白字符开头的子字符串。
http
如果您担心以 形式匹配字符串,http-something
请将您的正则表达式更新为r'https?://\S+'
。
主程序
import re my_string = """ First https://example.com https://google.com Second Third https://example.com """ result = re.sub(r'https?://\S+', '', my_string) # First # Second # Third print(result)
问号
?
使正则表达式匹配或重复前面的字符。 0
1
例如,https?
将匹配https
or http
。
然后我们用冒号和两个正斜杠://
来完成协议。
就其整体而言,正则表达式匹配以 1 个或多个非空白字符开头
http://
或后跟的子字符串。https://
如果您在阅读或编写正则表达式时需要帮助,请参阅官方文档中的
正则表达式语法
副标题。
该页面包含所有特殊字符的列表以及许多有用的示例。