Blame - Lib/urlparse.py - platform/external/python/cpython2

1994-09-12 10:36:35 +0000

[diff] [blame]

26

Fred Drake

f606e8d

2002-10-16 21:21:39 +0000

[diff] [blame]

27

__all__ = ["urlparse", "urlunparse", "urljoin", "urldefrag",

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

28

"urlsplit", "urlunsplit", "parse_qs", "parse_qsl"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

29

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

30

# A classification of schemes ('' means apply by default)

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

31

uses_relative = ['ftp', 'http', 'gopher', 'nntp', 'imap',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

32

'wais', 'file', 'https', 'shttp', 'mms',

33

'prospero', 'rtsp', 'rtspu', '', 'sftp']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

34

uses_netloc = ['ftp', 'http', 'gopher', 'nntp', 'telnet',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

35

'imap', 'wais', 'file', 'mms', 'https', 'shttp',

36

'snews', 'prospero', 'rtsp', 'rtspu', 'rsync', '',

37

'svn', 'svn+ssh', 'sftp']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

38

non_hierarchical = ['gopher', 'hdl', 'mailto', 'news',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

39

'telnet', 'wais', 'imap', 'snews', 'sip', 'sips']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

40

uses_params = ['ftp', 'hdl', 'prospero', 'http', 'imap',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

41

'https', 'shttp', 'rtsp', 'rtspu', 'sip', 'sips',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

42

'mms', '', 'sftp']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

43

uses_query = ['http', 'wais', 'imap', 'https', 'shttp', 'mms',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

44

'gopher', 'rtsp', 'rtspu', 'sip', 'sips', '']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

45

uses_fragment = ['ftp', 'hdl', 'http', 'gopher', 'news',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

46

'nntp', 'wais', 'https', 'shttp', 'snews',

47

'file', 'prospero', '']

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

48

49

# Characters valid in scheme names

Guido van Rossum

fad81f0

2000-12-19 16:48:13 +0000

[diff] [blame]

50

scheme_chars = ('abcdefghijklmnopqrstuvwxyz'

51

'ABCDEFGHIJKLMNOPQRSTUVWXYZ'

52

'0123456789'

53

'+-.')

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

54

Guido van Rossum

7449540

1997-07-14 19:08:15 +0000

[diff] [blame]

55

MAX_CACHE_SIZE = 20

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

56

_parse_cache = {}

57

58

def clear_cache():

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

59

"""Clear the parse cache."""

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

60

_parse_cache.clear()

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

61

62

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

63

class ResultMixin(object):

64

"""Shared methods for the parsed result objects."""

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

@property

def username(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

2008-01-05 01:21:57 +0000

[diff] [blame]

70

userinfo = netloc.rsplit("@", 1)[0]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

71

if ":" in userinfo:

72

userinfo = userinfo.split(":", 1)[0]

return userinfo

return None

@property

def password(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

2008-01-05 01:21:57 +0000

[diff] [blame]

80

userinfo = netloc.rsplit("@", 1)[0]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

81

if ":" in userinfo:

82

return userinfo.split(":", 1)[1]

return None

@property

def hostname(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

2008-01-05 01:21:57 +0000

[diff] [blame]

89

netloc = netloc.rsplit("@", 1)[1]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

90

if ":" in netloc:

91

netloc = netloc.split(":", 1)[0]

92

return netloc.lower() or None

@property

def port(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

2008-01-05 01:21:57 +0000

[diff] [blame]

98

netloc = netloc.rsplit("@", 1)[1]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

99

if ":" in netloc:

100

port = netloc.split(":", 1)[1]

return int(port, 10)

return None

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

104

from collections import namedtuple

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

105

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

106

class SplitResult(namedtuple('SplitResult', 'scheme netloc path query fragment'), ResultMixin):

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

__slots__ = ()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

110

def geturl(self):

111

return urlunsplit(self)

112

113

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

114

class ParseResult(namedtuple('ParseResult', 'scheme netloc path params query fragment'), ResultMixin):

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

__slots__ = ()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

118

def geturl(self):

119

return urlunparse(self)

120

121

122

def urlparse(url, scheme='', allow_fragments=True):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

123

"""Parse a URL into 6 components:

124

125

Return a 6-tuple: (scheme, netloc, path, params, query, fragment).

126

Note that we don't break the components up in smaller bits

127

(e.g. netloc is a single string) and we don't expand % escapes."""

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

128

tuple = urlsplit(url, scheme, allow_fragments)

129

scheme, netloc, url, query, fragment = tuple

130

if scheme in uses_params and ';' in url:

131

url, params = _splitparams(url)

132

else:

133

params = ''

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

134

return ParseResult(scheme, netloc, url, params, query, fragment)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

135

136

def _splitparams(url):

137

if '/' in url:

138

i = url.find(';', url.rfind('/'))

if i < 0:

return url, ''

else:

i = url.find(';')

return url[:i], url[i+1:]

144

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

145

def _splitnetloc(url, start=0):

Guido van Rossum

c6a04c2

2008-01-05 22:19:06 +0000

[diff] [blame]

146

delim = len(url) # position of end of domain part of url, default is end

147

for c in '/?#': # look for delimiters; the order is NOT important

148

wdelim = url.find(c, start) # find first of this delim

149

if wdelim >= 0: # if found

150

delim = min(delim, wdelim) # use earliest delim position

151

return url[start:delim], url[delim:] # return (domain, rest)

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

152

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

153

def urlsplit(url, scheme='', allow_fragments=True):

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

154

"""Parse a URL into 5 components:

155

156

Return a 5-tuple: (scheme, netloc, path, query, fragment).

157

Note that we don't break the components up in smaller bits

158

(e.g. netloc is a single string) and we don't expand % escapes."""

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

159

allow_fragments = bool(allow_fragments)

Alexandre Vassalotti

2f9ca29

2007-12-13 17:58:23 +0000

[diff] [blame]

160

key = url, scheme, allow_fragments, type(url), type(scheme)

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

161

cached = _parse_cache.get(key, None)

162

if cached:

163

return cached

164

if len(_parse_cache) >= MAX_CACHE_SIZE: # avoid runaway growth

165

clear_cache()

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

166

netloc = query = fragment = ''

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

167

i = url.find(':')

168

if i > 0:

169

if url[:i] == 'http': # optimize the common case

170

scheme = url[:i].lower()

171

url = url[i+1:]

172

if url[:2] == '//':

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

173

netloc, url = _splitnetloc(url, 2)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

174

if allow_fragments and '#' in url:

175

url, fragment = url.split('#', 1)

176

if '?' in url:

177

url, query = url.split('?', 1)

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

178

v = SplitResult(scheme, netloc, url, query, fragment)

179

_parse_cache[key] = v

180

return v

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

181

for c in url[:i]:

182

if c not in scheme_chars:

183

break

184

else:

185

scheme, url = url[:i].lower(), url[i+1:]

Senthil Kumaran

aaa210e

2010-02-19 07:39:41 +0000

[diff] [blame]

186

187

if url[:2] == '//':

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

188

netloc, url = _splitnetloc(url, 2)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

189

if allow_fragments and scheme in uses_fragment and '#' in url:

190

url, fragment = url.split('#', 1)

191

if scheme in uses_query and '?' in url:

192

url, query = url.split('?', 1)

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

193

v = SplitResult(scheme, netloc, url, query, fragment)

194

_parse_cache[key] = v

195

return v

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

196

Brett Cannon

89318d8

2008-08-03 00:51:02 +0000

[diff] [blame]

197

def urlunparse(data):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

198

"""Put a parsed URL back together again. This may result in a

199

slightly different, but equivalent URL, if the URL that was parsed

200

originally had redundant delimiters, e.g. a ? with an empty query

201

(the draft states that these are equivalent)."""

Brett Cannon

89318d8

2008-08-03 00:51:02 +0000

[diff] [blame]

202

scheme, netloc, url, params, query, fragment = data

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

203

if params:

204

url = "%s;%s" % (url, params)

205

return urlunsplit((scheme, netloc, url, query, fragment))

206

Brett Cannon

89318d8

2008-08-03 00:51:02 +0000

[diff] [blame]

207

def urlunsplit(data):

208

scheme, netloc, url, query, fragment = data

Guido van Rossum

bbc0568

2002-10-14 19:59:54 +0000

[diff] [blame]

209

if netloc or (scheme and scheme in uses_netloc and url[:2] != '//'):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

210

if url and url[:1] != '/': url = '/' + url

211

url = '//' + (netloc or '') + url

212

if scheme:

213

url = scheme + ':' + url

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

214

if query:

215

url = url + '?' + query

216

if fragment:

217

url = url + '#' + fragment

218

return url

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

219

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

220

def urljoin(base, url, allow_fragments=True):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

221

"""Join a base URL and a possibly relative URL to form an absolute

222

interpretation of the latter."""

if not base:

return url

if not url:

return base

bscheme, bnetloc, bpath, bparams, bquery, bfragment = \

228

urlparse(base, '', allow_fragments)

229

scheme, netloc, path, params, query, fragment = \

230

urlparse(url, bscheme, allow_fragments)

231

if scheme != bscheme or scheme not in uses_relative:

232

return url

233

if scheme in uses_netloc:

234

if netloc:

235

return urlunparse((scheme, netloc, path,

236

params, query, fragment))

237

netloc = bnetloc

238

if path[:1] == '/':

239

return urlunparse((scheme, netloc, path,

240

params, query, fragment))

Facundo Batista

67d1981

2008-08-14 16:51:00 +0000

[diff] [blame]

if not path:

path = bpath

if not params:

params = bparams

else:

path = path[:-1]

return urlunparse((scheme, netloc, path,

248

params, query, fragment))

249

if not query:

250

query = bquery

251

return urlunparse((scheme, netloc, path,

252

params, query, fragment))

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

253

segments = bpath.split('/')[:-1] + path.split('/')

254

# XXX The stuff below is bogus in various ways...

255

if segments[-1] == '.':

256

segments[-1] = ''

257

while '.' in segments:

segments.remove('.')

while 1:

i = 1

n = len(segments) - 1

262

while i < n:

263

if (segments[i] == '..'

264

and segments[i-1] not in ('', '..')):

265

del segments[i-1:i+1]

break

i = i+1

else:

break

if segments == ['', '..']:

271

segments[-1] = ''

272

elif len(segments) >= 2 and segments[-1] == '..':

273

segments[-2:] = ['']

274

return urlunparse((scheme, netloc, '/'.join(segments),

275

params, query, fragment))

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

276

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

277

def urldefrag(url):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

278

"""Removes any existing fragment from URL.

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

279

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

280

Returns a tuple of the defragmented URL and the fragment. If

281

the URL contained no fragments, the second element is the

282

empty string.

283

"""

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

284

if '#' in url:

285

s, n, p, a, q, frag = urlparse(url)

286

defrag = urlunparse((s, n, p, a, q, ''))

287

return defrag, frag

288

else:

289

return url, ''

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

290

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

291

# unquote method for parse_qs and parse_qsl

292

# Cannot use directly from urllib as it would create circular reference.

293

# urllib uses urlparse methods ( urljoin)

294

Senthil Kumaran

34f9277

2010-03-29 19:30:44 +0000

[diff] [blame]

295

296

_hexdig = '0123456789ABCDEFabcdef'

297

_hextochr = dict((a+b, chr(int(a+b,16))) for a in _hexdig for b in _hexdig)

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

298

299

def unquote(s):

300

"""unquote('abc%20def') -> 'abc def'."""

301

res = s.split('%')

302

for i in xrange(1, len(res)):

303

item = res[i]

304

try:

305

res[i] = _hextochr[item[:2]] + item[2:]

306

except KeyError:

307

res[i] = '%' + item

308

except UnicodeDecodeError:

309

res[i] = unichr(int(item[:2], 16)) + item[2:]

310

return "".join(res)

311

312

def parse_qs(qs, keep_blank_values=0, strict_parsing=0):

313

"""Parse a query given as a string argument.

Arguments:

qs: URL-encoded query string to be parsed

318

319

keep_blank_values: flag indicating whether blank values in

320

URL encoded queries should be treated as blank strings.

321

A true value indicates that blanks should be retained as

322

blank strings. The default false value indicates that

323

blank values are to be ignored and treated as if they were

324

not included.

325

326

strict_parsing: flag indicating what to do with parsing errors.

327

If false (the default), errors are silently ignored.

328

If true, errors raise a ValueError exception.

329

"""

330

dict = {}

331

for name, value in parse_qsl(qs, keep_blank_values, strict_parsing):

332

if name in dict:

333

dict[name].append(value)

else:

dict[name] = [value]

return dict

def parse_qsl(qs, keep_blank_values=0, strict_parsing=0):

339

"""Parse a query given as a string argument.

Arguments:

qs: URL-encoded query string to be parsed

344

345

keep_blank_values: flag indicating whether blank values in

346

URL encoded queries should be treated as blank strings. A

347

true value indicates that blanks should be retained as blank

348

strings. The default false value indicates that blank values

349

are to be ignored and treated as if they were not included.

350

351

strict_parsing: flag indicating what to do with parsing errors. If

352

false (the default), errors are silently ignored. If true,

353

errors raise a ValueError exception.

354

355

Returns a list, as G-d intended.

356

"""

357

pairs = [s2 for s1 in qs.split('&') for s2 in s1.split(';')]

358

r = []

359

for name_value in pairs:

360

if not name_value and not strict_parsing:

361

continue

362

nv = name_value.split('=', 1)

363

if len(nv) != 2:

364

if strict_parsing:

365

raise ValueError, "bad query field: %r" % (name_value,)

366

# Handle case of a control-name with no equal sign

367

if keep_blank_values:

nv.append('')

else:

continue

if len(nv[1]) or keep_blank_values:

372

name = unquote(nv[0].replace('+', ' '))

373

value = unquote(nv[1].replace('+', ' '))

374

r.append((name, value))

return r

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

378

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

test_input = """

http://a/b/c/d

g:h = <URL:g:h>

http:g = <URL:http://a/b/c/g>

384

http: = <URL:http://a/b/c/d>

385

g = <URL:http://a/b/c/g>

386

./g = <URL:http://a/b/c/g>

387

g/ = <URL:http://a/b/c/g/>

388

/g = <URL:http://a/g>

389

//g = <URL:http://g>

390

?y = <URL:http://a/b/c/d?y>

391

g?y = <URL:http://a/b/c/g?y>

392

g?y/./x = <URL:http://a/b/c/g?y/./x>

393

. = <URL:http://a/b/c/>

394

./ = <URL:http://a/b/c/>

395

.. = <URL:http://a/b/>

396

../ = <URL:http://a/b/>

397

../g = <URL:http://a/b/g>

398

../.. = <URL:http://a/>

399

../../g = <URL:http://a/g>

400

../../../g = <URL:http://a/../g>

401

./../g = <URL:http://a/b/g>

402

./g/. = <URL:http://a/b/c/g/>

403

/./g = <URL:http://a/./g>

404

g/./h = <URL:http://a/b/c/g/h>

405

g/../h = <URL:http://a/b/c/h>

406

http:g = <URL:http://a/b/c/g>

407

http: = <URL:http://a/b/c/d>

Andrew M. Kuchling

5c35520

1999-01-06 22:13:09 +0000

[diff] [blame]

408

http:?y = <URL:http://a/b/c/d?y>

409

http:g?y = <URL:http://a/b/c/g?y>

410

http:g?y/./x = <URL:http://a/b/c/g?y/./x>

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

411

"""

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

412

413

def test():

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

import sys

base = ''

if sys.argv[1:]:

fn = sys.argv[1]

if fn == '-':

fp = sys.stdin

else:

fp = open(fn)

else:

Raymond Hettinger

a617271

2004-12-31 19:15:26 +0000

[diff] [blame]

423

try:

424

from cStringIO import StringIO

425

except ImportError:

426

from StringIO import StringIO

427

fp = StringIO(test_input)

Georg Brandl

1ea8cb4

2008-01-21 17:22:06 +0000

[diff] [blame]

428

for line in fp:

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

words = line.split()

if not words:

continue

url = words[0]

parts = urlparse(url)

434

print '%-10s : %s' % (url, parts)

435

abs = urljoin(base, url)

436

if not base:

437

base = abs

438

wrapped = '<URL:%s>' % abs

439

print '%-10s = %s' % (url, wrapped)

440

if len(words) == 3 and words[1] == '=':

441

if wrapped != words[2]:

442

print 'EXPECTED', words[2], '!!!!!!!!!!'

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

443

444

if __name__ == '__main__':

Tim Peters