Blame - Lib/urlparse.py - platform/external/python/cpython2

1994-09-12 10:36:35 +0000

[diff] [blame]

6

Fred Drake

f606e8d

2002-10-16 21:21:39 +0000

[diff] [blame]

7

__all__ = ["urlparse", "urlunparse", "urljoin", "urldefrag",

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

8

"urlsplit", "urlunsplit", "parse_qs", "parse_qsl"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

9

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

10

# A classification of schemes ('' means apply by default)

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

11

uses_relative = ['ftp', 'http', 'gopher', 'nntp', 'imap',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

12

'wais', 'file', 'https', 'shttp', 'mms',

13

'prospero', 'rtsp', 'rtspu', '', 'sftp']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

14

uses_netloc = ['ftp', 'http', 'gopher', 'nntp', 'telnet',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

15

'imap', 'wais', 'file', 'mms', 'https', 'shttp',

16

'snews', 'prospero', 'rtsp', 'rtspu', 'rsync', '',

Senthil Kumaran

5e95e76

2009-03-30 21:51:50 +0000

[diff] [blame]

17

'svn', 'svn+ssh', 'sftp','nfs']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

18

non_hierarchical = ['gopher', 'hdl', 'mailto', 'news',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

19

'telnet', 'wais', 'imap', 'snews', 'sip', 'sips']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

20

uses_params = ['ftp', 'hdl', 'prospero', 'http', 'imap',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

21

'https', 'shttp', 'rtsp', 'rtspu', 'sip', 'sips',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

22

'mms', '', 'sftp']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

23

uses_query = ['http', 'wais', 'imap', 'https', 'shttp', 'mms',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

24

'gopher', 'rtsp', 'rtspu', 'sip', 'sips', '']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

25

uses_fragment = ['ftp', 'hdl', 'http', 'gopher', 'news',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

26

'nntp', 'wais', 'https', 'shttp', 'snews',

27

'file', 'prospero', '']

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

28

29

# Characters valid in scheme names

Guido van Rossum

fad81f0

2000-12-19 16:48:13 +0000

[diff] [blame]

30

scheme_chars = ('abcdefghijklmnopqrstuvwxyz'

31

'ABCDEFGHIJKLMNOPQRSTUVWXYZ'

32

'0123456789'

33

'+-.')

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

34

Guido van Rossum

7449540

1997-07-14 19:08:15 +0000

[diff] [blame]

35

MAX_CACHE_SIZE = 20

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

36

_parse_cache = {}

37

38

def clear_cache():

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

39

"""Clear the parse cache."""

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

40

_parse_cache.clear()

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

41

42

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

43

class ResultMixin(object):

44

"""Shared methods for the parsed result objects."""

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

@property

def username(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

2008-01-05 01:21:57 +0000

[diff] [blame]

50

userinfo = netloc.rsplit("@", 1)[0]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

51

if ":" in userinfo:

52

userinfo = userinfo.split(":", 1)[0]

return userinfo

return None

@property

def password(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

2008-01-05 01:21:57 +0000

[diff] [blame]

60

userinfo = netloc.rsplit("@", 1)[0]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

61

if ":" in userinfo:

62

return userinfo.split(":", 1)[1]

return None

@property

def hostname(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

2008-01-05 01:21:57 +0000

[diff] [blame]

69

netloc = netloc.rsplit("@", 1)[1]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

70

if ":" in netloc:

71

netloc = netloc.split(":", 1)[0]

72

return netloc.lower() or None

@property

def port(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

2008-01-05 01:21:57 +0000

[diff] [blame]

78

netloc = netloc.rsplit("@", 1)[1]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

79

if ":" in netloc:

80

port = netloc.split(":", 1)[1]

return int(port, 10)

return None

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

84

from collections import namedtuple

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

85

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

86

class SplitResult(namedtuple('SplitResult', 'scheme netloc path query fragment'), ResultMixin):

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

__slots__ = ()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

90

def geturl(self):

91

return urlunsplit(self)

92

93

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

94

class ParseResult(namedtuple('ParseResult', 'scheme netloc path params query fragment'), ResultMixin):

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

__slots__ = ()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

98

def geturl(self):

99

return urlunparse(self)

100

101

102

def urlparse(url, scheme='', allow_fragments=True):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

103

"""Parse a URL into 6 components:

104

105

Return a 6-tuple: (scheme, netloc, path, params, query, fragment).

106

Note that we don't break the components up in smaller bits

107

(e.g. netloc is a single string) and we don't expand % escapes."""

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

108

tuple = urlsplit(url, scheme, allow_fragments)

109

scheme, netloc, url, query, fragment = tuple

110

if scheme in uses_params and ';' in url:

111

url, params = _splitparams(url)

112

else:

113

params = ''

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

114

return ParseResult(scheme, netloc, url, params, query, fragment)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

115

116

def _splitparams(url):

117

if '/' in url:

118

i = url.find(';', url.rfind('/'))

if i < 0:

return url, ''

else:

i = url.find(';')

return url[:i], url[i+1:]

124

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

125

def _splitnetloc(url, start=0):

Guido van Rossum

c6a04c2

2008-01-05 22:19:06 +0000

[diff] [blame]

126

delim = len(url) # position of end of domain part of url, default is end

127

for c in '/?#': # look for delimiters; the order is NOT important

128

wdelim = url.find(c, start) # find first of this delim

129

if wdelim >= 0: # if found

130

delim = min(delim, wdelim) # use earliest delim position

131

return url[start:delim], url[delim:] # return (domain, rest)

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

132

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

133

def urlsplit(url, scheme='', allow_fragments=True):

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

134

"""Parse a URL into 5 components:

135

136

Return a 5-tuple: (scheme, netloc, path, query, fragment).

137

Note that we don't break the components up in smaller bits

138

(e.g. netloc is a single string) and we don't expand % escapes."""

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

139

allow_fragments = bool(allow_fragments)

Alexandre Vassalotti

2f9ca29

2007-12-13 17:58:23 +0000

[diff] [blame]

140

key = url, scheme, allow_fragments, type(url), type(scheme)

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

141

cached = _parse_cache.get(key, None)

142

if cached:

143

return cached

144

if len(_parse_cache) >= MAX_CACHE_SIZE: # avoid runaway growth

145

clear_cache()

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

146

netloc = query = fragment = ''

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

147

i = url.find(':')

148

if i > 0:

149

if url[:i] == 'http': # optimize the common case

150

scheme = url[:i].lower()

151

url = url[i+1:]

152

if url[:2] == '//':

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

153

netloc, url = _splitnetloc(url, 2)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

154

if allow_fragments and '#' in url:

155

url, fragment = url.split('#', 1)

156

if '?' in url:

157

url, query = url.split('?', 1)

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

158

v = SplitResult(scheme, netloc, url, query, fragment)

159

_parse_cache[key] = v

160

return v

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

161

for c in url[:i]:

162

if c not in scheme_chars:

163

break

164

else:

165

scheme, url = url[:i].lower(), url[i+1:]

Senthil Kumaran

4e78de8

2010-02-19 07:32:48 +0000

[diff] [blame]

166

167

if url[:2] == '//':

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

168

netloc, url = _splitnetloc(url, 2)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

169

if allow_fragments and scheme in uses_fragment and '#' in url:

170

url, fragment = url.split('#', 1)

171

if scheme in uses_query and '?' in url:

172

url, query = url.split('?', 1)

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

173

v = SplitResult(scheme, netloc, url, query, fragment)

174

_parse_cache[key] = v

175

return v

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

176

Brett Cannon

89318d8

2008-08-03 00:51:02 +0000

[diff] [blame]

177

def urlunparse(data):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

178

"""Put a parsed URL back together again. This may result in a

179

slightly different, but equivalent URL, if the URL that was parsed

180

originally had redundant delimiters, e.g. a ? with an empty query

181

(the draft states that these are equivalent)."""

Brett Cannon

89318d8

2008-08-03 00:51:02 +0000

[diff] [blame]

182

scheme, netloc, url, params, query, fragment = data

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

183

if params:

184

url = "%s;%s" % (url, params)

185

return urlunsplit((scheme, netloc, url, query, fragment))

186

Brett Cannon

89318d8

2008-08-03 00:51:02 +0000

[diff] [blame]

187

def urlunsplit(data):

188

scheme, netloc, url, query, fragment = data

Guido van Rossum

bbc0568

2002-10-14 19:59:54 +0000

[diff] [blame]

189

if netloc or (scheme and scheme in uses_netloc and url[:2] != '//'):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

190

if url and url[:1] != '/': url = '/' + url

191

url = '//' + (netloc or '') + url

192

if scheme:

193

url = scheme + ':' + url

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

194

if query:

195

url = url + '?' + query

196

if fragment:

197

url = url + '#' + fragment

198

return url

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

199

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

200

def urljoin(base, url, allow_fragments=True):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

201

"""Join a base URL and a possibly relative URL to form an absolute

202

interpretation of the latter."""

if not base:

return url

if not url:

return base

bscheme, bnetloc, bpath, bparams, bquery, bfragment = \

208

urlparse(base, '', allow_fragments)

209

scheme, netloc, path, params, query, fragment = \

210

urlparse(url, bscheme, allow_fragments)

211

if scheme != bscheme or scheme not in uses_relative:

212

return url

213

if scheme in uses_netloc:

214

if netloc:

215

return urlunparse((scheme, netloc, path,

216

params, query, fragment))

217

netloc = bnetloc

218

if path[:1] == '/':

219

return urlunparse((scheme, netloc, path,

220

params, query, fragment))

Facundo Batista

67d1981

2008-08-14 16:51:00 +0000

[diff] [blame]

if not path:

path = bpath

if not params:

params = bparams

else:

path = path[:-1]

return urlunparse((scheme, netloc, path,

228

params, query, fragment))

229

if not query:

230

query = bquery

231

return urlunparse((scheme, netloc, path,

232

params, query, fragment))

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

233

segments = bpath.split('/')[:-1] + path.split('/')

234

# XXX The stuff below is bogus in various ways...

235

if segments[-1] == '.':

236

segments[-1] = ''

237

while '.' in segments:

segments.remove('.')

while 1:

i = 1

n = len(segments) - 1

242

while i < n:

243

if (segments[i] == '..'

244

and segments[i-1] not in ('', '..')):

245

del segments[i-1:i+1]

break

i = i+1

else:

break

if segments == ['', '..']:

251

segments[-1] = ''

252

elif len(segments) >= 2 and segments[-1] == '..':

253

segments[-2:] = ['']

254

return urlunparse((scheme, netloc, '/'.join(segments),

255

params, query, fragment))

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

256

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

257

def urldefrag(url):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

258

"""Removes any existing fragment from URL.

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

259

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

260

Returns a tuple of the defragmented URL and the fragment. If

261

the URL contained no fragments, the second element is the

262

empty string.

263

"""

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

264

if '#' in url:

265

s, n, p, a, q, frag = urlparse(url)

266

defrag = urlunparse((s, n, p, a, q, ''))

267

return defrag, frag

268

else:

269

return url, ''

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

270

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

271

# unquote method for parse_qs and parse_qsl

272

# Cannot use directly from urllib as it would create circular reference.

273

# urllib uses urlparse methods ( urljoin)

274

Senthil Kumaran

f3e9b2a

2010-03-18 12:14:15 +0000

[diff] [blame]

275

276

_hexdig = '0123456789ABCDEFabcdef'

277

_hextochr = dict((a+b, chr(int(a+b,16))) for a in _hexdig for b in _hexdig)

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

278

279

def unquote(s):

280

"""unquote('abc%20def') -> 'abc def'."""

281

res = s.split('%')

282

for i in xrange(1, len(res)):

283

item = res[i]

284

try:

285

res[i] = _hextochr[item[:2]] + item[2:]

286

except KeyError:

287

res[i] = '%' + item

288

except UnicodeDecodeError:

289

res[i] = unichr(int(item[:2], 16)) + item[2:]

290

return "".join(res)

291

292

def parse_qs(qs, keep_blank_values=0, strict_parsing=0):

293

"""Parse a query given as a string argument.

Arguments:

qs: URL-encoded query string to be parsed

298

299

keep_blank_values: flag indicating whether blank values in

300

URL encoded queries should be treated as blank strings.

301

A true value indicates that blanks should be retained as

302

blank strings. The default false value indicates that

303

blank values are to be ignored and treated as if they were

304

not included.

305

306

strict_parsing: flag indicating what to do with parsing errors.

307

If false (the default), errors are silently ignored.

308

If true, errors raise a ValueError exception.

309

"""

310

dict = {}

311

for name, value in parse_qsl(qs, keep_blank_values, strict_parsing):

312

if name in dict:

313

dict[name].append(value)

else:

dict[name] = [value]

return dict

def parse_qsl(qs, keep_blank_values=0, strict_parsing=0):

319

"""Parse a query given as a string argument.

Arguments:

qs: URL-encoded query string to be parsed

324

325

keep_blank_values: flag indicating whether blank values in

326

URL encoded queries should be treated as blank strings. A

327

true value indicates that blanks should be retained as blank

328

strings. The default false value indicates that blank values

329

are to be ignored and treated as if they were not included.

330

331

strict_parsing: flag indicating what to do with parsing errors. If

332

false (the default), errors are silently ignored. If true,

333

errors raise a ValueError exception.

334

335

Returns a list, as G-d intended.

336

"""

337

pairs = [s2 for s1 in qs.split('&') for s2 in s1.split(';')]

338

r = []

339

for name_value in pairs:

340

if not name_value and not strict_parsing:

341

continue

342

nv = name_value.split('=', 1)

343

if len(nv) != 2:

344

if strict_parsing:

345

raise ValueError, "bad query field: %r" % (name_value,)

346

# Handle case of a control-name with no equal sign

347

if keep_blank_values:

nv.append('')

else:

continue

if len(nv[1]) or keep_blank_values:

352

name = unquote(nv[0].replace('+', ' '))

353

value = unquote(nv[1].replace('+', ' '))

354

r.append((name, value))

return r

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

358

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

test_input = """

http://a/b/c/d

g:h = <URL:g:h>

http:g = <URL:http://a/b/c/g>

364

http: = <URL:http://a/b/c/d>

365

g = <URL:http://a/b/c/g>

366

./g = <URL:http://a/b/c/g>

367

g/ = <URL:http://a/b/c/g/>

368

/g = <URL:http://a/g>

369

//g = <URL:http://g>

370

?y = <URL:http://a/b/c/d?y>

371

g?y = <URL:http://a/b/c/g?y>

372

g?y/./x = <URL:http://a/b/c/g?y/./x>

373

. = <URL:http://a/b/c/>

374

./ = <URL:http://a/b/c/>

375

.. = <URL:http://a/b/>

376

../ = <URL:http://a/b/>

377

../g = <URL:http://a/b/g>

378

../.. = <URL:http://a/>

379

../../g = <URL:http://a/g>

380

../../../g = <URL:http://a/../g>

381

./../g = <URL:http://a/b/g>

382

./g/. = <URL:http://a/b/c/g/>

383

/./g = <URL:http://a/./g>

384

g/./h = <URL:http://a/b/c/g/h>

385

g/../h = <URL:http://a/b/c/h>

386

http:g = <URL:http://a/b/c/g>

387

http: = <URL:http://a/b/c/d>

Andrew M. Kuchling

5c35520

1999-01-06 22:13:09 +0000

[diff] [blame]

388

http:?y = <URL:http://a/b/c/d?y>

389

http:g?y = <URL:http://a/b/c/g?y>

390

http:g?y/./x = <URL:http://a/b/c/g?y/./x>

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

391

"""

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

392

393

def test():

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

import sys

base = ''

if sys.argv[1:]:

fn = sys.argv[1]

if fn == '-':

fp = sys.stdin

else:

fp = open(fn)

else:

Raymond Hettinger

a617271

2004-12-31 19:15:26 +0000

[diff] [blame]

403

try:

404

from cStringIO import StringIO

405

except ImportError:

406

from StringIO import StringIO

407

fp = StringIO(test_input)

Georg Brandl

1ea8cb4

2008-01-21 17:22:06 +0000

[diff] [blame]

408

for line in fp:

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

words = line.split()

if not words:

continue

url = words[0]

parts = urlparse(url)

414

print '%-10s : %s' % (url, parts)

415

abs = urljoin(base, url)

416

if not base:

417

base = abs

418

wrapped = '<URL:%s>' % abs

419

print '%-10s = %s' % (url, wrapped)

420

if len(words) == 3 and words[1] == '=':

421

if wrapped != words[2]:

422

print 'EXPECTED', words[2], '!!!!!!!!!!'

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

423

424

if __name__ == '__main__':

Tim Peters