Blame - Lib/urlparse.py - platform/external/python/cpython3

1994-09-12 10:36:35 +0000

[diff] [blame]

6

Fred Drake

f606e8d

2002-10-16 21:21:39 +0000

[diff] [blame]

7

__all__ = ["urlparse", "urlunparse", "urljoin", "urldefrag",

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

8

"urlsplit", "urlunsplit", "parse_qs", "parse_qsl"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

9

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

10

# A classification of schemes ('' means apply by default)

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

11

uses_relative = ['ftp', 'http', 'gopher', 'nntp', 'imap',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

12

'wais', 'file', 'https', 'shttp', 'mms',

13

'prospero', 'rtsp', 'rtspu', '', 'sftp']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

14

uses_netloc = ['ftp', 'http', 'gopher', 'nntp', 'telnet',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

15

'imap', 'wais', 'file', 'mms', 'https', 'shttp',

16

'snews', 'prospero', 'rtsp', 'rtspu', 'rsync', '',

Senthil Kumaran

5e95e76

2009-03-30 21:51:50 +0000

[diff] [blame]

17

'svn', 'svn+ssh', 'sftp','nfs']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

18

non_hierarchical = ['gopher', 'hdl', 'mailto', 'news',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

19

'telnet', 'wais', 'imap', 'snews', 'sip', 'sips']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

20

uses_params = ['ftp', 'hdl', 'prospero', 'http', 'imap',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

21

'https', 'shttp', 'rtsp', 'rtspu', 'sip', 'sips',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

22

'mms', '', 'sftp']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

23

uses_query = ['http', 'wais', 'imap', 'https', 'shttp', 'mms',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

24

'gopher', 'rtsp', 'rtspu', 'sip', 'sips', '']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

25

uses_fragment = ['ftp', 'hdl', 'http', 'gopher', 'news',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

26

'nntp', 'wais', 'https', 'shttp', 'snews',

27

'file', 'prospero', '']

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

28

29

# Characters valid in scheme names

Guido van Rossum

fad81f0

2000-12-19 16:48:13 +0000

[diff] [blame]

30

scheme_chars = ('abcdefghijklmnopqrstuvwxyz'

31

'ABCDEFGHIJKLMNOPQRSTUVWXYZ'

32

'0123456789'

33

'+-.')

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

34

Guido van Rossum

7449540

1997-07-14 19:08:15 +0000

[diff] [blame]

35

MAX_CACHE_SIZE = 20

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

36

_parse_cache = {}

37

38

def clear_cache():

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

39

"""Clear the parse cache."""

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

40

_parse_cache.clear()

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

41

42

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

43

class ResultMixin(object):

44

"""Shared methods for the parsed result objects."""

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

@property

def username(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

ced4eb0

2008-01-05 01:21:57 +0000

[diff] [blame]

50

userinfo = netloc.rsplit("@", 1)[0]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

51

if ":" in userinfo:

52

userinfo = userinfo.split(":", 1)[0]

return userinfo

return None

@property

def password(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

ced4eb0

2008-01-05 01:21:57 +0000

[diff] [blame]

60

userinfo = netloc.rsplit("@", 1)[0]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

61

if ":" in userinfo:

62

return userinfo.split(":", 1)[1]

return None

@property

def hostname(self):

Senthil Kumaran

2010-04-16 02:46:46 +0000

[diff] [blame^]

67

netloc = self.netloc.split('@')[-1]

68

if '[' in netloc and ']' in netloc:

69

return netloc.split(']')[0][1:].lower()

70

elif '[' in netloc or ']' in netloc:

71

raise ValueError("Invalid IPv6 hostname")

72

elif ':' in netloc:

73

return netloc.split(':')[0].lower()

elif netloc == '':

return None

else:

return netloc.lower()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

78

79

@property

80

def port(self):

Senthil Kumaran

2010-04-16 02:46:46 +0000

[diff] [blame^]

81

netloc = self.netloc.split('@')[-1].split(']')[-1]

82

if ':' in netloc:

83

port = netloc.split(':')[1]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

84

return int(port, 10)

Senthil Kumaran

2010-04-16 02:46:46 +0000

[diff] [blame^]

85

else:

86

return None

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

87

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

88

from collections import namedtuple

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

89

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

90

class SplitResult(namedtuple('SplitResult', 'scheme netloc path query fragment'), ResultMixin):

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

__slots__ = ()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

94

def geturl(self):

95

return urlunsplit(self)

96

97

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

98

class ParseResult(namedtuple('ParseResult', 'scheme netloc path params query fragment'), ResultMixin):

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

__slots__ = ()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

102

def geturl(self):

103

return urlunparse(self)

104

105

106

def urlparse(url, scheme='', allow_fragments=True):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

107

"""Parse a URL into 6 components:

108

109

Return a 6-tuple: (scheme, netloc, path, params, query, fragment).

110

Note that we don't break the components up in smaller bits

111

(e.g. netloc is a single string) and we don't expand % escapes."""

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

112

tuple = urlsplit(url, scheme, allow_fragments)

113

scheme, netloc, url, query, fragment = tuple

114

if scheme in uses_params and ';' in url:

115

url, params = _splitparams(url)

116

else:

117

params = ''

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

118

return ParseResult(scheme, netloc, url, params, query, fragment)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

119

120

def _splitparams(url):

121

if '/' in url:

122

i = url.find(';', url.rfind('/'))

if i < 0:

return url, ''

else:

i = url.find(';')

return url[:i], url[i+1:]

128

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

129

def _splitnetloc(url, start=0):

Guido van Rossum

c6a04c2

2008-01-05 22:19:06 +0000

[diff] [blame]

130

delim = len(url) # position of end of domain part of url, default is end

Senthil Kumaran

2010-04-16 02:46:46 +0000

[diff] [blame^]

131

if '[' in url: # check for invalid IPv6 URL

132

if not ']' in url: raise ValueError("Invalid IPv6 URL")

133

elif ']' in url:

134

if not '[' in url: raise ValueError("Invalid IPv6 URL")

Guido van Rossum

c6a04c2

2008-01-05 22:19:06 +0000

[diff] [blame]

135

for c in '/?#': # look for delimiters; the order is NOT important

136

wdelim = url.find(c, start) # find first of this delim

137

if wdelim >= 0: # if found

138

delim = min(delim, wdelim) # use earliest delim position

139

return url[start:delim], url[delim:] # return (domain, rest)

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

140

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

141

def urlsplit(url, scheme='', allow_fragments=True):

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

142

"""Parse a URL into 5 components:

143

144

Return a 5-tuple: (scheme, netloc, path, query, fragment).

145

Note that we don't break the components up in smaller bits

146

(e.g. netloc is a single string) and we don't expand % escapes."""

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

147

allow_fragments = bool(allow_fragments)

Alexandre Vassalotti

2f9ca29

2007-12-13 17:58:23 +0000

[diff] [blame]

148

key = url, scheme, allow_fragments, type(url), type(scheme)

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

149

cached = _parse_cache.get(key, None)

150

if cached:

151

return cached

152

if len(_parse_cache) >= MAX_CACHE_SIZE: # avoid runaway growth

153

clear_cache()

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

154

netloc = query = fragment = ''

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

155

i = url.find(':')

156

if i > 0:

157

if url[:i] == 'http': # optimize the common case

158

scheme = url[:i].lower()

159

url = url[i+1:]

160

if url[:2] == '//':

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

161

netloc, url = _splitnetloc(url, 2)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

162

if allow_fragments and '#' in url:

163

url, fragment = url.split('#', 1)

164

if '?' in url:

165

url, query = url.split('?', 1)

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

166

v = SplitResult(scheme, netloc, url, query, fragment)

167

_parse_cache[key] = v

168

return v

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

169

for c in url[:i]:

170

if c not in scheme_chars:

171

break

172

else:

173

scheme, url = url[:i].lower(), url[i+1:]

Senthil Kumaran

4e78de8

2010-02-19 07:32:48 +0000

[diff] [blame]

174

175

if url[:2] == '//':

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

176

netloc, url = _splitnetloc(url, 2)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

177

if allow_fragments and scheme in uses_fragment and '#' in url:

178

url, fragment = url.split('#', 1)

179

if scheme in uses_query and '?' in url:

180

url, query = url.split('?', 1)

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

181

v = SplitResult(scheme, netloc, url, query, fragment)

182

_parse_cache[key] = v

183

return v

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

184

Brett Cannon

89318d8

2008-08-03 00:51:02 +0000

[diff] [blame]

185

def urlunparse(data):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

186

"""Put a parsed URL back together again. This may result in a

187

slightly different, but equivalent URL, if the URL that was parsed

188

originally had redundant delimiters, e.g. a ? with an empty query

189

(the draft states that these are equivalent)."""

Brett Cannon

89318d8

2008-08-03 00:51:02 +0000

[diff] [blame]

190

scheme, netloc, url, params, query, fragment = data

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

191

if params:

192

url = "%s;%s" % (url, params)

193

return urlunsplit((scheme, netloc, url, query, fragment))

194

Brett Cannon

89318d8

2008-08-03 00:51:02 +0000

[diff] [blame]

195

def urlunsplit(data):

196

scheme, netloc, url, query, fragment = data

Guido van Rossum

bbc0568

2002-10-14 19:59:54 +0000

[diff] [blame]

197

if netloc or (scheme and scheme in uses_netloc and url[:2] != '//'):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

198

if url and url[:1] != '/': url = '/' + url

199

url = '//' + (netloc or '') + url

200

if scheme:

201

url = scheme + ':' + url

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

202

if query:

203

url = url + '?' + query

204

if fragment:

205

url = url + '#' + fragment

206

return url

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

207

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

208

def urljoin(base, url, allow_fragments=True):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

209

"""Join a base URL and a possibly relative URL to form an absolute

210

interpretation of the latter."""

if not base:

return url

if not url:

return base

bscheme, bnetloc, bpath, bparams, bquery, bfragment = \

216

urlparse(base, '', allow_fragments)

217

scheme, netloc, path, params, query, fragment = \

218

urlparse(url, bscheme, allow_fragments)

219

if scheme != bscheme or scheme not in uses_relative:

220

return url

221

if scheme in uses_netloc:

222

if netloc:

223

return urlunparse((scheme, netloc, path,

224

params, query, fragment))

225

netloc = bnetloc

226

if path[:1] == '/':

227

return urlunparse((scheme, netloc, path,

228

params, query, fragment))

Facundo Batista

67d1981

2008-08-14 16:51:00 +0000

[diff] [blame]

if not path:

path = bpath

if not params:

params = bparams

else:

path = path[:-1]

return urlunparse((scheme, netloc, path,

236

params, query, fragment))

237

if not query:

238

query = bquery

239

return urlunparse((scheme, netloc, path,

240

params, query, fragment))

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

241

segments = bpath.split('/')[:-1] + path.split('/')

242

# XXX The stuff below is bogus in various ways...

243

if segments[-1] == '.':

244

segments[-1] = ''

245

while '.' in segments:

segments.remove('.')

while 1:

i = 1

n = len(segments) - 1

250

while i < n:

251

if (segments[i] == '..'

252

and segments[i-1] not in ('', '..')):

253

del segments[i-1:i+1]

break

i = i+1

else:

break

if segments == ['', '..']:

259

segments[-1] = ''

260

elif len(segments) >= 2 and segments[-1] == '..':

261

segments[-2:] = ['']

262

return urlunparse((scheme, netloc, '/'.join(segments),

263

params, query, fragment))

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

264

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

265

def urldefrag(url):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

266

"""Removes any existing fragment from URL.

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

267

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

268

Returns a tuple of the defragmented URL and the fragment. If

269

the URL contained no fragments, the second element is the

270

empty string.

271

"""

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

272

if '#' in url:

273

s, n, p, a, q, frag = urlparse(url)

274

defrag = urlunparse((s, n, p, a, q, ''))

275

return defrag, frag

276

else:

277

return url, ''

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

278

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

279

# unquote method for parse_qs and parse_qsl

280

# Cannot use directly from urllib as it would create circular reference.

281

# urllib uses urlparse methods ( urljoin)

282

Senthil Kumaran

f3e9b2a

2010-03-18 12:14:15 +0000

[diff] [blame]

283

284

_hexdig = '0123456789ABCDEFabcdef'

285

_hextochr = dict((a+b, chr(int(a+b,16))) for a in _hexdig for b in _hexdig)

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

286

287

def unquote(s):

288

"""unquote('abc%20def') -> 'abc def'."""

289

res = s.split('%')

290

for i in xrange(1, len(res)):

291

item = res[i]

292

try:

293

res[i] = _hextochr[item[:2]] + item[2:]

294

except KeyError:

295

res[i] = '%' + item

296

except UnicodeDecodeError:

297

res[i] = unichr(int(item[:2], 16)) + item[2:]

298

return "".join(res)

299

300

def parse_qs(qs, keep_blank_values=0, strict_parsing=0):

301

"""Parse a query given as a string argument.

Arguments:

qs: URL-encoded query string to be parsed

306

307

keep_blank_values: flag indicating whether blank values in

308

URL encoded queries should be treated as blank strings.

309

A true value indicates that blanks should be retained as

310

blank strings. The default false value indicates that

311

blank values are to be ignored and treated as if they were

312

not included.

313

314

strict_parsing: flag indicating what to do with parsing errors.

315

If false (the default), errors are silently ignored.

316

If true, errors raise a ValueError exception.

317

"""

318

dict = {}

319

for name, value in parse_qsl(qs, keep_blank_values, strict_parsing):

320

if name in dict:

321

dict[name].append(value)

else:

dict[name] = [value]

return dict

def parse_qsl(qs, keep_blank_values=0, strict_parsing=0):

327

"""Parse a query given as a string argument.

Arguments:

qs: URL-encoded query string to be parsed

332

333

keep_blank_values: flag indicating whether blank values in

334

URL encoded queries should be treated as blank strings. A

335

true value indicates that blanks should be retained as blank

336

strings. The default false value indicates that blank values

337

are to be ignored and treated as if they were not included.

338

339

strict_parsing: flag indicating what to do with parsing errors. If

340

false (the default), errors are silently ignored. If true,

341

errors raise a ValueError exception.

342

343

Returns a list, as G-d intended.

344

"""

345

pairs = [s2 for s1 in qs.split('&') for s2 in s1.split(';')]

346

r = []

347

for name_value in pairs:

348

if not name_value and not strict_parsing:

349

continue

350

nv = name_value.split('=', 1)

351

if len(nv) != 2:

352

if strict_parsing:

353

raise ValueError, "bad query field: %r" % (name_value,)

354

# Handle case of a control-name with no equal sign

355

if keep_blank_values:

nv.append('')

else:

continue

if len(nv[1]) or keep_blank_values:

360

name = unquote(nv[0].replace('+', ' '))

361

value = unquote(nv[1].replace('+', ' '))

362

r.append((name, value))

return r

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

366

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

test_input = """

http://a/b/c/d

g:h = <URL:g:h>

http:g = <URL:http://a/b/c/g>

372

http: = <URL:http://a/b/c/d>

373

g = <URL:http://a/b/c/g>

374

./g = <URL:http://a/b/c/g>

375

g/ = <URL:http://a/b/c/g/>

376

/g = <URL:http://a/g>

377

//g = <URL:http://g>

378

?y = <URL:http://a/b/c/d?y>

379

g?y = <URL:http://a/b/c/g?y>

380

g?y/./x = <URL:http://a/b/c/g?y/./x>

381

. = <URL:http://a/b/c/>

382

./ = <URL:http://a/b/c/>

383

.. = <URL:http://a/b/>

384

../ = <URL:http://a/b/>

385

../g = <URL:http://a/b/g>

386

../.. = <URL:http://a/>

387

../../g = <URL:http://a/g>

388

../../../g = <URL:http://a/../g>

389

./../g = <URL:http://a/b/g>

390

./g/. = <URL:http://a/b/c/g/>

391

/./g = <URL:http://a/./g>

392

g/./h = <URL:http://a/b/c/g/h>

393

g/../h = <URL:http://a/b/c/h>

394

http:g = <URL:http://a/b/c/g>

395

http: = <URL:http://a/b/c/d>

Andrew M. Kuchling

5c35520

1999-01-06 22:13:09 +0000

[diff] [blame]

396

http:?y = <URL:http://a/b/c/d?y>

397

http:g?y = <URL:http://a/b/c/g?y>

398

http:g?y/./x = <URL:http://a/b/c/g?y/./x>

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

399

"""

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

400

401

def test():

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

import sys

base = ''

if sys.argv[1:]:

fn = sys.argv[1]

if fn == '-':

fp = sys.stdin

else:

fp = open(fn)

else:

Raymond Hettinger

a617271

2004-12-31 19:15:26 +0000

[diff] [blame]

411

try:

412

from cStringIO import StringIO

413

except ImportError:

414

from StringIO import StringIO

415

fp = StringIO(test_input)

Georg Brandl

1ea8cb4

2008-01-21 17:22:06 +0000

[diff] [blame]

416

for line in fp:

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

words = line.split()

if not words:

continue

url = words[0]

parts = urlparse(url)

422

print '%-10s : %s' % (url, parts)

423

abs = urljoin(base, url)

424

if not base:

425

base = abs

426

wrapped = '<URL:%s>' % abs

427

print '%-10s = %s' % (url, wrapped)

428

if len(words) == 3 and words[1] == '=':

429

if wrapped != words[2]:

430

print 'EXPECTED', words[2], '!!!!!!!!!!'

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

431

432

if __name__ == '__main__':

Tim Peters