使用 Python 的 urllib.parse 库解析 URL

Python 中的 urllib.parse 模块提供了很多解析和组建 URL 的函数。

解析url

urlparse() 函数可以将 URL 解析成 ParseResult 对象。对象中包含了六个元素，分别为：

协议（scheme）
域名（netloc）
路径（path）
路径参数（params）
查询参数（query）
片段（fragment）

from urllib.parse import urlparse

url=&apos;http://user:pwd@domain:80/path;params?query=queryarg#fragment&apos;

parsed_result=urlparse(url)

print(&apos;parsed_result 包含了&apos;,len(parsed_result),&apos;个元素&apos;)
print(parsed_result)

结果为:

parsed_result 包含了 6 个元素
ParseResult(scheme=&apos;http&apos;, netloc=&apos;user:pwd@domain:80&apos;, path=&apos;/path&apos;, params=&apos;params&apos;, query=&apos;query=queryarg&apos;, fragment=&apos;fragment&apos;)

ParseResult 继承于 namedtuple，因此可以同时通过索引和命名属性来获取 URL 中各部分的值。

为了方便起见， ParseResult 还提供了 username、 password、 hostname、 port 对 netloc 进一步进行拆分。

print(&apos;scheme  :&apos;, parsed_result.scheme)
print(&apos;netloc  :&apos;, parsed_result.netloc)
print(&apos;path    :&apos;, parsed_result.path)
print(&apos;params  :&apos;, parsed_result.params)
print(&apos;query   :&apos;, parsed_result.query)
print(&apos;fragment:&apos;, parsed_result.fragment)
print(&apos;username:&apos;, parsed_result.username)
print(&apos;password:&apos;, parsed_result.password)
print(&apos;hostname:&apos;, parsed_result.hostname)
print(&apos;port    :&apos;, parsed_result.port)

结果为：

scheme  : http
netloc  : user:pwd@domain:80
path    : /path
params  : params
query   : query=queryarg
fragment: fragment
username: user
password: pwd
hostname: domain
port    : 80

除了 urlparse() 之外，还有一个类似的 urlsplit() 函数也能对 URL 进行拆分，所不同的是， urlsplit() 并不会把 路径参数(params) 从 路径(path) 中分离出来。

当 URL 中路径部分包含多个参数时，使用 urlparse() 解析是有问题的：

url=&apos;http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment&apos;

parsed_result=urlparse(url)

print(parsed_result)
print(&apos;parsed.path    :&apos;, parsed_result.path)
print(&apos;parsed.params  :&apos;, parsed_result.params)

结果为：

ParseResult(scheme=&apos;http&apos;, netloc=&apos;user:pwd@domain:80&apos;, path=&apos;/path1;params1/path2&apos;, params=&apos;params2&apos;, query=&apos;query=queryarg&apos;, fragment=&apos;fragment&apos;)
parsed.path    : /path1;params1/path2
parsed.params  : params2

这时可以使用 urlsplit() 来解析：

from urllib.parse import urlsplit
split_result=urlsplit(url)

print(split_result)
print(&apos;split.path    :&apos;, split_result.path)
# SplitResult 没有 params 属性

结果为：

SplitResult(scheme=&apos;http&apos;, netloc=&apos;user:pwd@domain:80&apos;, path=&apos;/path1;params1/path2;params2&apos;, query=&apos;query=queryarg&apos;, fragment=&apos;fragment&apos;)
split.path    : /path1;params1/path2;params2

若只是要将 URL 后的 fragment 标识拆分出来，可以使用 urldefrag() 函数：

from urllib.parse import urldefrag

url = &apos;http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment&apos;

d = urldefrag(url)
print(d)
print(&apos;url     :&apos;, d.url)
print(&apos;fragment:&apos;, d.fragment)

结果为：

DefragResult(url=&apos;http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg&apos;, fragment=&apos;fragment&apos;)
url     : http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg
fragment: fragment

组建URL

ParsedResult 对象和 SplitResult 对象都有一个 geturl() 方法，可以返回一个完整的 URL 字符串。

print(parsed_result.geturl())
print(split_result.geturl())

结果为：

http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment
http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment

但是 geturl() 只在 ParsedResult 和 SplitResult 对象中有，若想将一个普通的元组组成 URL，则需要使用 urlunparse() 函数：

from urllib.parse import urlunparse
url_compos = (&apos;http&apos;, &apos;user:pwd@domain:80&apos;, &apos;/path1;params1/path2&apos;, &apos;params2&apos;, &apos;query=queryarg&apos;, &apos;fragment&apos;)
print(urlunparse(url_compos))

结果为：

http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment

相对路径转换绝对路径

除此之外，urllib.parse 还提供了一个 urljoin() 函数，来将相对路径转换成绝对路径的 URL。

from urllib.parse import urljoin

print(urljoin(&apos;http://www.example.com/path/file.html&apos;, &apos;anotherfile.html&apos;))
print(urljoin(&apos;http://www.example.com/path/&apos;, &apos;anotherfile.html&apos;))
print(urljoin(&apos;http://www.example.com/path/file.html&apos;, &apos;../anotherfile.html&apos;))
print(urljoin(&apos;http://www.example.com/path/file.html&apos;, &apos;/anotherfile.html&apos;))

结果为：

http://www.example.com/path/anotherfile.html
http://www.example.com/path/anotherfile.html
http://www.example.com/anotherfile.html
http://www.example.com/anotherfile.html

查询参数的构造和解析

使用 urlencode() 函数可以将一个 dict 转换成合法的查询参数：

from urllib.parse import urlencode

query_args = {
    &apos;name&apos;: &apos;dark sun&apos;,
    &apos;country&apos;: &apos;中国&apos;
}

query_args = urlencode(query_args)
print(query_args)

结果为：

name=dark+sun&country=%E4%B8%AD%E5%9B%BD

可以看到特殊字符也被正确地转义了。

相对的，可以使用 parse_qs() 来将查询参数解析成 dict。

from urllib.parse import parse_qs
print(parse_qs(query_args))

结果为：

{&apos;name&apos;: [&apos;dark sun&apos;], &apos;country&apos;: [&apos;中国&apos;]}

如果只是希望对特殊字符进行转义，那么可以使用 quote 或 quote_plus 函数，其中 quote_plus 比 quote 更激进一些，会把 :、/ 一类的符号也给转义了。

from urllib.parse import quote, quote_plus, urlencode

url = &apos;http://localhost:1080/~hello!/&apos;
print(&apos;urlencode :&apos;, urlencode({&apos;url&apos;: url}))
print(&apos;quote     :&apos;, quote(url))
print(&apos;quote_plus:&apos;, quote_plus(url))

结果为：

urlencode : url=http%3A%2F%2Flocalhost%3A1080%2F%7Ehello%21%2F
quote     : http%3A//localhost%3A1080/%7Ehello%21/
quote_plus: http%3A%2F%2Flocalhost%3A1080%2F%7Ehello%21%2F

可以看到 urlencode 中应该是调用 quote_plus 来进行转义的。

逆向操作则使用 unquote 或 unquote_plus 函数：

from urllib.parse import unquote, unquote_plus

encoded_url = &apos;http%3A%2F%2Flocalhost%3A1080%2F%7Ehello%21%2F&apos;
print(unquote(encoded_url))
print(unquote_plus(encoded_url))

结果为：

http://localhost:1080/~hello!/
http://localhost:1080/~hello!/

你会发现 unquote 函数居然能正确地将 quote_plus 的结果转换回来。

本文转载来自 Linux 中国: https://github.com/Linux-CN/archive

对这篇文章感觉如何？

太棒了

不错

爱死了

不太好

感觉很糟

Rain

雨落清风。心向阳

使用 Python 的 urllib.parse 库解析 URL

解析url

组建URL

相对路径转换绝对路径

查询参数的构造和解析

对这篇文章感觉如何？

如何使用 Ansible 创建 AWS ec2 密钥

每个系统管理员都要知道的 30 个 Linux 系统监控工具

Leave a reply 取消回复

More in:Linux中国

捐赠 Let's Encrypt，共建安全的互联网

Let's Encrypt 正式发布，已经保护 380 万个域名

关于Linux防火墙iptables的面试问答

Lets Encrypt 已被所有主流浏览器所信任

中文操作系统论坛

关注 LinuxStory

开源学村

编程类开放书籍荟萃

如何杀死 Linux 中的僵尸进程

2022年，从学习Rust开始

使用 Linux 命令行解决Wordle 问题

5本学习 TeX 的最佳免费书籍

Makefile 简介

Linux 内核补丁提交初体验

Linux 的前世今生 – 1

特别关注

更开放的分布式事务 | Fescar 品牌升级，更名为 Seata

HeRM’s – 一个命令食谱管理器

使用 Let's Encrypt 保护你的网站

LinuxStory

加入 LinuxStory 交流群组

投票调查

最热标签

解析url

组建URL

相对路径转换绝对路径

查询参数的构造和解析

分享

对这篇文章感觉如何？

You may also like

Leave a reply 取消回复

More in:Linux中国

中文操作系统论坛

关注 LinuxStory

开源学村

特别关注

最新文章

最热标签