Blame - Lib/urlparse.py - platform/external/python/cpython2

2010-04-17 14:30:53 +0000

[diff] [blame]

3

urlparse module is based upon the following RFC specifications.

4

5

RFC 3986 (STD66): "Uniform Resource Identifiers" by T. Berners-Lee, R. Fielding

6

and L. Masinter, January 2005.

7

8

RFC 2732 : "Format for Literal IPv6 Addresses in URL's by R.Hinden, B.Carpenter

9

and L.Masinter, December 1999.

10

Andrew M. Kuchling

2010-04-30 00:49:09 +0000

[diff] [blame]

11

RFC 2396: "Uniform Resource Identifiers (URI)": Generic Syntax by T.

Senthil Kumaran

2010-04-17 14:30:53 +0000

[diff] [blame]

12

Berners-Lee, R. Fielding, and L. Masinter, August 1998.

13

Andrew M. Kuchling

2010-04-30 00:49:09 +0000

[diff] [blame]

14

RFC 2368: "The mailto URL scheme", by P.Hoffman , L Masinter, J. Zwinski, July 1998.

Senthil Kumaran

2010-04-17 14:30:53 +0000

[diff] [blame]

15

16

RFC 1808: "Relative Uniform Resource Locators", by R. Fielding, UC Irvine, June

17

1995.

18

Andrew M. Kuchling

2010-04-30 00:49:09 +0000

[diff] [blame]

19

RFC 1738: "Uniform Resource Locators (URL)" by T. Berners-Lee, L. Masinter, M.

Senthil Kumaran

2010-04-17 14:30:53 +0000

[diff] [blame]

20

McCahill, December 1994

21

Andrew M. Kuchling

2010-04-30 00:49:09 +0000

[diff] [blame]

22

RFC 3986 is considered the current standard and any future changes to

23

urlparse module should conform with it. The urlparse module is

24

currently not entirely compliant with this RFC due to defacto

25

scenarios for parsing, and for backward compatibility purposes, some

26

parsing quirks from older RFCs are retained. The testcases in

Senthil Kumaran

2010-04-17 14:30:53 +0000

[diff] [blame]

27

test_urlparse.py provides a good indicator of parsing behavior.

28

Guido van Rossum

e7b146f

2000-02-04 15:28:42 +0000

[diff] [blame]

29

"""

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

30

Fred Drake

f606e8d

2002-10-16 21:21:39 +0000

[diff] [blame]

31

__all__ = ["urlparse", "urlunparse", "urljoin", "urldefrag",

Facundo Batista

2008-09-03 22:35:50 +0000

[diff] [blame]

32

"urlsplit", "urlunsplit", "parse_qs", "parse_qsl"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

33

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

34

# A classification of schemes ('' means apply by default)

Raymond Hettinger

156c49a

2004-05-07 05:50:35 +0000

[diff] [blame]

35

uses_relative = ['ftp', 'http', 'gopher', 'nntp', 'imap',

Georg Brandl

89f35ac

2006-01-20 17:24:23 +0000

[diff] [blame]

36

'wais', 'file', 'https', 'shttp', 'mms',

Senthil Kumaran

f432aec

2011-08-03 18:31:59 +0800

[diff] [blame]

37

'prospero', 'rtsp', 'rtspu', '', 'sftp',

Senthil Kumaran

0df24c9

2011-08-03 18:40:18 +0800

[diff] [blame]

38

'svn', 'svn+ssh']

Raymond Hettinger

156c49a

2004-05-07 05:50:35 +0000

[diff] [blame]

39

uses_netloc = ['ftp', 'http', 'gopher', 'nntp', 'telnet',

Georg Brandl

89f35ac

2006-01-20 17:24:23 +0000

[diff] [blame]

40

'imap', 'wais', 'file', 'mms', 'https', 'shttp',

41

'snews', 'prospero', 'rtsp', 'rtspu', 'rsync', '',

Senthil Kumaran

81a0450

2010-05-13 03:25:21 +0000

[diff] [blame]

42

'svn', 'svn+ssh', 'sftp','nfs','git', 'git+ssh']

Raymond Hettinger

156c49a

2004-05-07 05:50:35 +0000

[diff] [blame]

43

uses_params = ['ftp', 'hdl', 'prospero', 'http', 'imap',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

44

'https', 'shttp', 'rtsp', 'rtspu', 'sip', 'sips',

Georg Brandl

89f35ac

2006-01-20 17:24:23 +0000

[diff] [blame]

45

'mms', '', 'sftp']

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

46

47

# Characters valid in scheme names

Guido van Rossum

fad81f0

2000-12-19 16:48:13 +0000

[diff] [blame]

48

scheme_chars = ('abcdefghijklmnopqrstuvwxyz'

49

'ABCDEFGHIJKLMNOPQRSTUVWXYZ'

50

'0123456789'

51

'+-.')

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

52

Guido van Rossum

7449540

1997-07-14 19:08:15 +0000

[diff] [blame]

53

MAX_CACHE_SIZE = 20

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

54

_parse_cache = {}

55

56

def clear_cache():

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

57

"""Clear the parse cache."""

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

58

_parse_cache.clear()

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

59

60

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

61

class ResultMixin(object):

62

"""Shared methods for the parsed result objects."""

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

@property

def username(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

ced4eb0

2008-01-05 01:21:57 +0000

[diff] [blame]

68

userinfo = netloc.rsplit("@", 1)[0]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

69

if ":" in userinfo:

70

userinfo = userinfo.split(":", 1)[0]

return userinfo

return None

@property

def password(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

ced4eb0

2008-01-05 01:21:57 +0000

[diff] [blame]

78

userinfo = netloc.rsplit("@", 1)[0]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

79

if ":" in userinfo:

80

return userinfo.split(":", 1)[1]

return None

@property

def hostname(self):

Senthil Kumaran

2010-04-16 02:46:46 +0000

[diff] [blame]

85

netloc = self.netloc.split('@')[-1]

86

if '[' in netloc and ']' in netloc:

87

return netloc.split(']')[0][1:].lower()

Senthil Kumaran

2010-04-16 02:46:46 +0000

[diff] [blame]

88

elif ':' in netloc:

89

return netloc.split(':')[0].lower()

elif netloc == '':

return None

else:

return netloc.lower()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

94

95

@property

96

def port(self):

Senthil Kumaran

2010-04-16 02:46:46 +0000

[diff] [blame]

97

netloc = self.netloc.split('@')[-1].split(']')[-1]

98

if ':' in netloc:

99

port = netloc.split(':')[1]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

100

return int(port, 10)

Senthil Kumaran

2010-04-16 02:46:46 +0000

[diff] [blame]

101

else:

102

return None

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

103

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

104

from collections import namedtuple

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

105

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

106

class SplitResult(namedtuple('SplitResult', 'scheme netloc path query fragment'), ResultMixin):

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

__slots__ = ()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

110

def geturl(self):

111

return urlunsplit(self)

112

113

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

114

class ParseResult(namedtuple('ParseResult', 'scheme netloc path params query fragment'), ResultMixin):

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

__slots__ = ()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

118

def geturl(self):

119

return urlunparse(self)

120

121

122

def urlparse(url, scheme='', allow_fragments=True):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

123

"""Parse a URL into 6 components:

124

125

Return a 6-tuple: (scheme, netloc, path, params, query, fragment).

126

Note that we don't break the components up in smaller bits

127

(e.g. netloc is a single string) and we don't expand % escapes."""

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

128

tuple = urlsplit(url, scheme, allow_fragments)

129

scheme, netloc, url, query, fragment = tuple

130

if scheme in uses_params and ';' in url:

131

url, params = _splitparams(url)

132

else:

133

params = ''

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

134

return ParseResult(scheme, netloc, url, params, query, fragment)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

135

136

def _splitparams(url):

137

if '/' in url:

138

i = url.find(';', url.rfind('/'))

if i < 0:

return url, ''

else:

i = url.find(';')

return url[:i], url[i+1:]

144

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

145

def _splitnetloc(url, start=0):

Guido van Rossum

c6a04c2

2008-01-05 22:19:06 +0000

[diff] [blame]

146

delim = len(url) # position of end of domain part of url, default is end

147

for c in '/?#': # look for delimiters; the order is NOT important

148

wdelim = url.find(c, start) # find first of this delim

149

if wdelim >= 0: # if found

150

delim = min(delim, wdelim) # use earliest delim position

151

return url[start:delim], url[delim:] # return (domain, rest)

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

152

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

153

def urlsplit(url, scheme='', allow_fragments=True):

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

154

"""Parse a URL into 5 components:

155

156

Return a 5-tuple: (scheme, netloc, path, query, fragment).

157

Note that we don't break the components up in smaller bits

158

(e.g. netloc is a single string) and we don't expand % escapes."""

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

159

allow_fragments = bool(allow_fragments)

Alexandre Vassalotti

2f9ca29

2007-12-13 17:58:23 +0000

[diff] [blame]

160

key = url, scheme, allow_fragments, type(url), type(scheme)

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

161

cached = _parse_cache.get(key, None)

162

if cached:

163

return cached

164

if len(_parse_cache) >= MAX_CACHE_SIZE: # avoid runaway growth

165

clear_cache()

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

166

netloc = query = fragment = ''

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

167

i = url.find(':')

168

if i > 0:

169

if url[:i] == 'http': # optimize the common case

170

scheme = url[:i].lower()

171

url = url[i+1:]

172

if url[:2] == '//':

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

173

netloc, url = _splitnetloc(url, 2)

Senthil Kumaran

3982461

2010-04-22 12:10:13 +0000

[diff] [blame]

174

if (('[' in netloc and ']' not in netloc) or

175

(']' in netloc and '[' not in netloc)):

176

raise ValueError("Invalid IPv6 URL")

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

177

if allow_fragments and '#' in url:

178

url, fragment = url.split('#', 1)

179

if '?' in url:

180

url, query = url.split('?', 1)

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

181

v = SplitResult(scheme, netloc, url, query, fragment)

182

_parse_cache[key] = v

183

return v

Senthil Kumaran

ddaea1c

2011-04-15 18:07:33 +0800

[diff] [blame]

184

for c in url[:i]:

185

if c not in scheme_chars:

186

break

187

else:

Ezio Melotti

6d9c1b1

2012-05-19 17:12:17 +0300

[diff] [blame]

188

# make sure "url" is not actually a port number (in which case

189

# "scheme" is really part of the path)

190

rest = url[i+1:]

191

if not rest or any(c not in '0123456789' for c in rest):

192

# not a port number

193

scheme, url = url[:i].lower(), rest

Senthil Kumaran

4e78de8

2010-02-19 07:32:48 +0000

[diff] [blame]

194

195

if url[:2] == '//':

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

196

netloc, url = _splitnetloc(url, 2)

Senthil Kumaran

3982461

2010-04-22 12:10:13 +0000

[diff] [blame]

197

if (('[' in netloc and ']' not in netloc) or

198

(']' in netloc and '[' not in netloc)):

199

raise ValueError("Invalid IPv6 URL")

Senthil Kumaran

ea24dda

2012-05-19 08:10:40 +0800

[diff] [blame]

200

if allow_fragments and '#' in url:

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

201

url, fragment = url.split('#', 1)

Senthil Kumaran

ea24dda

2012-05-19 08:10:40 +0800

[diff] [blame]

202

if '?' in url:

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

203

url, query = url.split('?', 1)

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

204

v = SplitResult(scheme, netloc, url, query, fragment)

205

_parse_cache[key] = v

206

return v

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

207

Brett Cannon

2008-08-03 00:51:02 +0000

[diff] [blame]

208

def urlunparse(data):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

209

"""Put a parsed URL back together again. This may result in a

210

slightly different, but equivalent URL, if the URL that was parsed

211

originally had redundant delimiters, e.g. a ? with an empty query

212

(the draft states that these are equivalent)."""

Brett Cannon

2008-08-03 00:51:02 +0000

[diff] [blame]

213

scheme, netloc, url, params, query, fragment = data

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

214

if params:

215

url = "%s;%s" % (url, params)

216

return urlunsplit((scheme, netloc, url, query, fragment))

217

Brett Cannon

2008-08-03 00:51:02 +0000

[diff] [blame]

218

def urlunsplit(data):

Senthil Kumaran

5871a8d

2010-06-28 13:56:46 +0000

[diff] [blame]

219

"""Combine the elements of a tuple as returned by urlsplit() into a

220

complete URL as a string. The data argument can be any five-item iterable.

221

This may result in a slightly different, but equivalent URL, if the URL that

222

was parsed originally had unnecessary delimiters (for example, a ? with an

223

empty query; the RFC states that these are equivalent)."""

Brett Cannon

2008-08-03 00:51:02 +0000

[diff] [blame]

224

scheme, netloc, url, query, fragment = data

Guido van Rossum

bbc0568

2002-10-14 19:59:54 +0000

[diff] [blame]

225

if netloc or (scheme and scheme in uses_netloc and url[:2] != '//'):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

226

if url and url[:1] != '/': url = '/' + url

227

url = '//' + (netloc or '') + url

228

if scheme:

229

url = scheme + ':' + url

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

230

if query:

231

url = url + '?' + query

232

if fragment:

233

url = url + '#' + fragment

234

return url

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

235

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

236

def urljoin(base, url, allow_fragments=True):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

237

"""Join a base URL and a possibly relative URL to form an absolute

238

interpretation of the latter."""

if not base:

return url

if not url:

return base

bscheme, bnetloc, bpath, bparams, bquery, bfragment = \

244

urlparse(base, '', allow_fragments)

245

scheme, netloc, path, params, query, fragment = \

246

urlparse(url, bscheme, allow_fragments)

247

if scheme != bscheme or scheme not in uses_relative:

248

return url

249

if scheme in uses_netloc:

250

if netloc:

251

return urlunparse((scheme, netloc, path,

252

params, query, fragment))

253

netloc = bnetloc

254

if path[:1] == '/':

255

return urlunparse((scheme, netloc, path,

256

params, query, fragment))

Senthil Kumaran

5c7fd6e

2010-12-17 04:56:02 +0000

[diff] [blame]

257

if not path and not params:

Facundo Batista

67d1981

2008-08-14 16:51:00 +0000

[diff] [blame]

258

path = bpath

Senthil Kumaran

5c7fd6e

2010-12-17 04:56:02 +0000

[diff] [blame]

259

params = bparams

Facundo Batista

67d1981

2008-08-14 16:51:00 +0000

[diff] [blame]

260

if not query:

261

query = bquery

262

return urlunparse((scheme, netloc, path,

263

params, query, fragment))

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

264

segments = bpath.split('/')[:-1] + path.split('/')

265

# XXX The stuff below is bogus in various ways...

266

if segments[-1] == '.':

267

segments[-1] = ''

268

while '.' in segments:

segments.remove('.')

while 1:

i = 1

n = len(segments) - 1

273

while i < n:

274

if (segments[i] == '..'

275

and segments[i-1] not in ('', '..')):

276

del segments[i-1:i+1]

break

i = i+1

else:

break

if segments == ['', '..']:

282

segments[-1] = ''

283

elif len(segments) >= 2 and segments[-1] == '..':

284

segments[-2:] = ['']

285

return urlunparse((scheme, netloc, '/'.join(segments),

286

params, query, fragment))

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

287

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

288

def urldefrag(url):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

289

"""Removes any existing fragment from URL.

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

290

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

291

Returns a tuple of the defragmented URL and the fragment. If

292

the URL contained no fragments, the second element is the

293

empty string.

294

"""

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

295

if '#' in url:

296

s, n, p, a, q, frag = urlparse(url)

297

defrag = urlunparse((s, n, p, a, q, ''))

298

return defrag, frag

299

else:

300

return url, ''

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

301

Facundo Batista

2008-09-03 22:35:50 +0000

[diff] [blame]

302

# unquote method for parse_qs and parse_qsl

R. David Murray

2010-05-25 15:20:46 +0000

[diff] [blame]

303

# Cannot use directly from urllib as it would create a circular reference

304

# because urllib uses urlparse methods (urljoin). If you update this function,

305

# update it also in urllib. This code duplication does not existin in Python3.

Senthil Kumaran

f3e9b2a

2010-03-18 12:14:15 +0000

[diff] [blame]

306

307

_hexdig = '0123456789ABCDEFabcdef'

R. David Murray

2010-05-25 15:20:46 +0000

[diff] [blame]

308

_hextochr = dict((a+b, chr(int(a+b,16)))

309

for a in _hexdig for b in _hexdig)

Facundo Batista

2008-09-03 22:35:50 +0000

[diff] [blame]

310

311

def unquote(s):

312

"""unquote('abc%20def') -> 'abc def'."""

313

res = s.split('%')

R. David Murray

2010-05-25 15:20:46 +0000

[diff] [blame]

# fastpath

if len(res) == 1:

return s

s = res[0]

for item in res[1:]:

Facundo Batista

2008-09-03 22:35:50 +0000

[diff] [blame]

319

try:

R. David Murray

2010-05-25 15:20:46 +0000

[diff] [blame]

320

s += _hextochr[item[:2]] + item[2:]

Facundo Batista

2008-09-03 22:35:50 +0000

[diff] [blame]

321

except KeyError:

R. David Murray

2010-05-25 15:20:46 +0000

[diff] [blame]

322

s += '%' + item

Facundo Batista

2008-09-03 22:35:50 +0000

[diff] [blame]

323

except UnicodeDecodeError:

R. David Murray

2010-05-25 15:20:46 +0000

[diff] [blame]

324

s += unichr(int(item[:2], 16)) + item[2:]

325

return s

Facundo Batista

2008-09-03 22:35:50 +0000

[diff] [blame]

326

327

def parse_qs(qs, keep_blank_values=0, strict_parsing=0):

328

"""Parse a query given as a string argument.

Arguments:

Senthil Kumaran

2010-08-09 20:18:04 +0000

[diff] [blame]

332

qs: percent-encoded query string to be parsed

Facundo Batista

2008-09-03 22:35:50 +0000

[diff] [blame]

333

334

keep_blank_values: flag indicating whether blank values in

Senthil Kumaran

a5ba05c

2010-08-09 20:18:04 +0000

[diff] [blame]

335

percent-encoded queries should be treated as blank strings.

Facundo Batista

2008-09-03 22:35:50 +0000

[diff] [blame]

336

A true value indicates that blanks should be retained as

337

blank strings. The default false value indicates that

338

blank values are to be ignored and treated as if they were

339

not included.

340

341

strict_parsing: flag indicating what to do with parsing errors.

342

If false (the default), errors are silently ignored.

343

If true, errors raise a ValueError exception.

344

"""

345

dict = {}

346

for name, value in parse_qsl(qs, keep_blank_values, strict_parsing):

347

if name in dict:

348

dict[name].append(value)

else:

dict[name] = [value]

return dict

def parse_qsl(qs, keep_blank_values=0, strict_parsing=0):

354

"""Parse a query given as a string argument.

Arguments:

Senthil Kumaran

2010-08-09 20:18:04 +0000

[diff] [blame]

358

qs: percent-encoded query string to be parsed

Facundo Batista

2008-09-03 22:35:50 +0000

[diff] [blame]

359

360

keep_blank_values: flag indicating whether blank values in

Senthil Kumaran

a5ba05c

2010-08-09 20:18:04 +0000

[diff] [blame]

361

percent-encoded queries should be treated as blank strings. A

Facundo Batista