Blame - Lib/urlparse.py - platform/external/python/cpython2

2010-04-17 14:33:55 +0000

[diff] [blame]

3

urlparse module is based upon the following RFC specifications.

4

5

RFC 3986 (STD66): "Uniform Resource Identifiers" by T. Berners-Lee, R. Fielding

6

and L. Masinter, January 2005.

7

Senthil Kumaran

2010-05-13 03:32:26 +0000

[diff] [blame]

8

RFC 2396: "Uniform Resource Identifiers (URI)": Generic Syntax by T.

Senthil Kumaran

2010-04-17 14:33:55 +0000

[diff] [blame]

9

Berners-Lee, R. Fielding, and L. Masinter, August 1998.

10

Senthil Kumaran

2010-05-13 03:32:26 +0000

[diff] [blame]

11

RFC 2368: "The mailto URL scheme", by P.Hoffman , L Masinter, J. Zwinski, July 1998.

Senthil Kumaran

2010-04-17 14:33:55 +0000

[diff] [blame]

12

13

RFC 1808: "Relative Uniform Resource Locators", by R. Fielding, UC Irvine, June

14

1995.

15

Senthil Kumaran

2010-05-13 03:32:26 +0000

[diff] [blame]

16

RFC 1738: "Uniform Resource Locators (URL)" by T. Berners-Lee, L. Masinter, M.

Senthil Kumaran

2010-04-17 14:33:55 +0000

[diff] [blame]

17

McCahill, December 1994

18

Senthil Kumaran

2010-05-13 03:32:26 +0000

[diff] [blame]

19

RFC 3986 is considered the current standard and any future changes to

20

urlparse module should conform with it. The urlparse module is

21

currently not entirely compliant with this RFC due to defacto

22

scenarios for parsing, and for backward compatibility purposes, some

23

parsing quirks from older RFCs are retained. The testcases in

Senthil Kumaran

2010-04-17 14:33:55 +0000

[diff] [blame]

24

test_urlparse.py provides a good indicator of parsing behavior.

25

Guido van Rossum

e7b146f

2000-02-04 15:28:42 +0000

[diff] [blame]

26

"""

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

27

Fred Drake

f606e8d

2002-10-16 21:21:39 +0000

[diff] [blame]

28

__all__ = ["urlparse", "urlunparse", "urljoin", "urldefrag",

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

29

"urlsplit", "urlunsplit", "parse_qs", "parse_qsl"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

30

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

31

# A classification of schemes ('' means apply by default)

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

32

uses_relative = ['ftp', 'http', 'gopher', 'nntp', 'imap',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

33

'wais', 'file', 'https', 'shttp', 'mms',

34

'prospero', 'rtsp', 'rtspu', '', 'sftp']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

35

uses_netloc = ['ftp', 'http', 'gopher', 'nntp', 'telnet',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

36

'imap', 'wais', 'file', 'mms', 'https', 'shttp',

37

'snews', 'prospero', 'rtsp', 'rtspu', 'rsync', '',

Senthil Kumaran

2010-05-13 03:32:26 +0000

[diff] [blame]

38

'svn', 'svn+ssh', 'sftp','nfs','git', 'git+ssh']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

39

non_hierarchical = ['gopher', 'hdl', 'mailto', 'news',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

40

'telnet', 'wais', 'imap', 'snews', 'sip', 'sips']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

41

uses_params = ['ftp', 'hdl', 'prospero', 'http', 'imap',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

42

'https', 'shttp', 'rtsp', 'rtspu', 'sip', 'sips',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

43

'mms', '', 'sftp']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

44

uses_query = ['http', 'wais', 'imap', 'https', 'shttp', 'mms',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

45

'gopher', 'rtsp', 'rtspu', 'sip', 'sips', '']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

46

uses_fragment = ['ftp', 'hdl', 'http', 'gopher', 'news',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

47

'nntp', 'wais', 'https', 'shttp', 'snews',

48

'file', 'prospero', '']

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

49

50

# Characters valid in scheme names

Guido van Rossum

fad81f0

2000-12-19 16:48:13 +0000

[diff] [blame]

51

scheme_chars = ('abcdefghijklmnopqrstuvwxyz'

52

'ABCDEFGHIJKLMNOPQRSTUVWXYZ'

53

'0123456789'

54

'+-.')

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

55

Guido van Rossum

7449540

1997-07-14 19:08:15 +0000

[diff] [blame]

56

MAX_CACHE_SIZE = 20

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

57

_parse_cache = {}

58

59

def clear_cache():

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

60

"""Clear the parse cache."""

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

61

_parse_cache.clear()

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

62

63

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

64

class ResultMixin(object):

65

"""Shared methods for the parsed result objects."""

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

@property

def username(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

2008-01-05 01:21:57 +0000

[diff] [blame]

71

userinfo = netloc.rsplit("@", 1)[0]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

72

if ":" in userinfo:

73

userinfo = userinfo.split(":", 1)[0]

return userinfo

return None

@property

def password(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

2008-01-05 01:21:57 +0000

[diff] [blame]

81

userinfo = netloc.rsplit("@", 1)[0]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

82

if ":" in userinfo:

83

return userinfo.split(":", 1)[1]

return None

@property

def hostname(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

2008-01-05 01:21:57 +0000

[diff] [blame]

90

netloc = netloc.rsplit("@", 1)[1]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

91

if ":" in netloc:

92

netloc = netloc.split(":", 1)[0]

93

return netloc.lower() or None

@property

def port(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

2008-01-05 01:21:57 +0000

[diff] [blame]

99

netloc = netloc.rsplit("@", 1)[1]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

100

if ":" in netloc:

101

port = netloc.split(":", 1)[1]

return int(port, 10)

return None

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

105

from collections import namedtuple

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

106

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

107

class SplitResult(namedtuple('SplitResult', 'scheme netloc path query fragment'), ResultMixin):

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

__slots__ = ()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

111

def geturl(self):

112

return urlunsplit(self)

113

114

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

115

class ParseResult(namedtuple('ParseResult', 'scheme netloc path params query fragment'), ResultMixin):

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

__slots__ = ()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

119

def geturl(self):

120

return urlunparse(self)

121

122

123

def urlparse(url, scheme='', allow_fragments=True):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

124

"""Parse a URL into 6 components:

125

126

Return a 6-tuple: (scheme, netloc, path, params, query, fragment).

127

Note that we don't break the components up in smaller bits

128

(e.g. netloc is a single string) and we don't expand % escapes."""

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

129

tuple = urlsplit(url, scheme, allow_fragments)

130

scheme, netloc, url, query, fragment = tuple

131

if scheme in uses_params and ';' in url:

132

url, params = _splitparams(url)

133

else:

134

params = ''

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

135

return ParseResult(scheme, netloc, url, params, query, fragment)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

136

137

def _splitparams(url):

138

if '/' in url:

139

i = url.find(';', url.rfind('/'))

if i < 0:

return url, ''

else:

i = url.find(';')

return url[:i], url[i+1:]

145

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

146

def _splitnetloc(url, start=0):

Guido van Rossum

c6a04c2

2008-01-05 22:19:06 +0000

[diff] [blame]

147

delim = len(url) # position of end of domain part of url, default is end

148

for c in '/?#': # look for delimiters; the order is NOT important

149

wdelim = url.find(c, start) # find first of this delim

150

if wdelim >= 0: # if found

151

delim = min(delim, wdelim) # use earliest delim position

152

return url[start:delim], url[delim:] # return (domain, rest)

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

153

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

154

def urlsplit(url, scheme='', allow_fragments=True):

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

155

"""Parse a URL into 5 components:

156

157

Return a 5-tuple: (scheme, netloc, path, query, fragment).

158

Note that we don't break the components up in smaller bits

159

(e.g. netloc is a single string) and we don't expand % escapes."""

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

160

allow_fragments = bool(allow_fragments)

Alexandre Vassalotti

2f9ca29

2007-12-13 17:58:23 +0000

[diff] [blame]

161

key = url, scheme, allow_fragments, type(url), type(scheme)

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

162

cached = _parse_cache.get(key, None)

163

if cached:

164

return cached

165

if len(_parse_cache) >= MAX_CACHE_SIZE: # avoid runaway growth

166

clear_cache()

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

167

netloc = query = fragment = ''

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

168

i = url.find(':')

169

if i > 0:

170

if url[:i] == 'http': # optimize the common case

171

scheme = url[:i].lower()

172

url = url[i+1:]

173

if url[:2] == '//':

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

174

netloc, url = _splitnetloc(url, 2)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

175

if allow_fragments and '#' in url:

176

url, fragment = url.split('#', 1)

177

if '?' in url:

178

url, query = url.split('?', 1)

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

179

v = SplitResult(scheme, netloc, url, query, fragment)

180

_parse_cache[key] = v

181

return v

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

182

for c in url[:i]:

183

if c not in scheme_chars:

184

break

185

else:

186

scheme, url = url[:i].lower(), url[i+1:]

Senthil Kumaran

aaa210e

2010-02-19 07:39:41 +0000

[diff] [blame]

187

188

if url[:2] == '//':

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

189

netloc, url = _splitnetloc(url, 2)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

190

if allow_fragments and scheme in uses_fragment and '#' in url:

191

url, fragment = url.split('#', 1)

192

if scheme in uses_query and '?' in url:

193

url, query = url.split('?', 1)

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

194

v = SplitResult(scheme, netloc, url, query, fragment)

195

_parse_cache[key] = v

196

return v

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

197

Brett Cannon

2008-08-03 00:51:02 +0000

[diff] [blame]

198

def urlunparse(data):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

199

"""Put a parsed URL back together again. This may result in a

200

slightly different, but equivalent URL, if the URL that was parsed

201

originally had redundant delimiters, e.g. a ? with an empty query

202

(the draft states that these are equivalent)."""

Brett Cannon

2008-08-03 00:51:02 +0000

[diff] [blame]

203

scheme, netloc, url, params, query, fragment = data

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

204

if params:

205

url = "%s;%s" % (url, params)

206

return urlunsplit((scheme, netloc, url, query, fragment))

207

Brett Cannon

2008-08-03 00:51:02 +0000

[diff] [blame]

208

def urlunsplit(data):

Senthil Kumaran

6303ec9

2010-06-28 13:59:49 +0000

[diff] [blame]

209

"""Combine the elements of a tuple as returned by urlsplit() into a

210

complete URL as a string. The data argument can be any five-item iterable.

211

This may result in a slightly different, but equivalent URL, if the URL that

212

was parsed originally had unnecessary delimiters (for example, a ? with an

213

empty query; the RFC states that these are equivalent)."""

Brett Cannon

2008-08-03 00:51:02 +0000

[diff] [blame]

214

scheme, netloc, url, query, fragment = data

Guido van Rossum

bbc0568

2002-10-14 19:59:54 +0000

[diff] [blame]

215

if netloc or (scheme and scheme in uses_netloc and url[:2] != '//'):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

216

if url and url[:1] != '/': url = '/' + url

217

url = '//' + (netloc or '') + url

218

if scheme:

219

url = scheme + ':' + url

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

220

if query:

221

url = url + '?' + query

222

if fragment:

223

url = url + '#' + fragment

224

return url

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

225

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

226

def urljoin(base, url, allow_fragments=True):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

227

"""Join a base URL and a possibly relative URL to form an absolute

228

interpretation of the latter."""

if not base:

return url

if not url:

return base

bscheme, bnetloc, bpath, bparams, bquery, bfragment = \

234

urlparse(base, '', allow_fragments)

235

scheme, netloc, path, params, query, fragment = \

236

urlparse(url, bscheme, allow_fragments)

237

if scheme != bscheme or scheme not in uses_relative:

238

return url

239

if scheme in uses_netloc:

240

if netloc:

241

return urlunparse((scheme, netloc, path,

242

params, query, fragment))

243

netloc = bnetloc

244

if path[:1] == '/':

245

return urlunparse((scheme, netloc, path,

246

params, query, fragment))

Facundo Batista

67d1981

2008-08-14 16:51:00 +0000

[diff] [blame]

if not path:

path = bpath

if not params:

params = bparams

else:

path = path[:-1]

return urlunparse((scheme, netloc, path,

254

params, query, fragment))

255

if not query:

256

query = bquery

257

return urlunparse((scheme, netloc, path,

258

params, query, fragment))

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

259

segments = bpath.split('/')[:-1] + path.split('/')

260

# XXX The stuff below is bogus in various ways...

261

if segments[-1] == '.':

262

segments[-1] = ''

263

while '.' in segments:

segments.remove('.')

while 1:

i = 1

n = len(segments) - 1

268

while i < n:

269

if (segments[i] == '..'

270

and segments[i-1] not in ('', '..')):

271

del segments[i-1:i+1]

break

i = i+1

else:

break

if segments == ['', '..']:

277

segments[-1] = ''

278

elif len(segments) >= 2 and segments[-1] == '..':

279

segments[-2:] = ['']

280

return urlunparse((scheme, netloc, '/'.join(segments),

281

params, query, fragment))

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

282

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

283

def urldefrag(url):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

284

"""Removes any existing fragment from URL.

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

285

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

286

Returns a tuple of the defragmented URL and the fragment. If

287

the URL contained no fragments, the second element is the

288

empty string.

289

"""

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

290

if '#' in url:

291

s, n, p, a, q, frag = urlparse(url)

292

defrag = urlunparse((s, n, p, a, q, ''))

293

return defrag, frag

294

else:

295

return url, ''

Guido van Rossum