Blame - Lib/urlparse.py - platform/external/python/cpython2

1994-09-12 10:36:35 +0000

[diff] [blame]

29

Fred Drake

f606e8d

2002-10-16 21:21:39 +0000

[diff] [blame]

30

__all__ = ["urlparse", "urlunparse", "urljoin", "urldefrag",

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

31

"urlsplit", "urlunsplit", "parse_qs", "parse_qsl"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

32

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

33

# A classification of schemes ('' means apply by default)

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

34

uses_relative = ['ftp', 'http', 'gopher', 'nntp', 'imap',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

35

'wais', 'file', 'https', 'shttp', 'mms',

36

'prospero', 'rtsp', 'rtspu', '', 'sftp']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

37

uses_netloc = ['ftp', 'http', 'gopher', 'nntp', 'telnet',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

38

'imap', 'wais', 'file', 'mms', 'https', 'shttp',

39

'snews', 'prospero', 'rtsp', 'rtspu', 'rsync', '',

Senthil Kumaran

5e95e76

2009-03-30 21:51:50 +0000

[diff] [blame]

40

'svn', 'svn+ssh', 'sftp','nfs']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

41

non_hierarchical = ['gopher', 'hdl', 'mailto', 'news',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

42

'telnet', 'wais', 'imap', 'snews', 'sip', 'sips']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

43

uses_params = ['ftp', 'hdl', 'prospero', 'http', 'imap',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

44

'https', 'shttp', 'rtsp', 'rtspu', 'sip', 'sips',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

45

'mms', '', 'sftp']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

46

uses_query = ['http', 'wais', 'imap', 'https', 'shttp', 'mms',

Fred Drake

23fd3d4

2006-04-01 06:11:07 +0000

[diff] [blame]

47

'gopher', 'rtsp', 'rtspu', 'sip', 'sips', '']

Raymond Hettinger

2004-05-07 05:50:35 +0000

[diff] [blame]

48

uses_fragment = ['ftp', 'hdl', 'http', 'gopher', 'news',

Georg Brandl

2006-01-20 17:24:23 +0000

[diff] [blame]

49

'nntp', 'wais', 'https', 'shttp', 'snews',

50

'file', 'prospero', '']

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

51

52

# Characters valid in scheme names

Guido van Rossum

fad81f0

2000-12-19 16:48:13 +0000

[diff] [blame]

53

scheme_chars = ('abcdefghijklmnopqrstuvwxyz'

54

'ABCDEFGHIJKLMNOPQRSTUVWXYZ'

55

'0123456789'

56

'+-.')

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

57

Guido van Rossum

7449540

1997-07-14 19:08:15 +0000

[diff] [blame]

58

MAX_CACHE_SIZE = 20

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

59

_parse_cache = {}

60

61

def clear_cache():

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

62

"""Clear the parse cache."""

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

63

_parse_cache.clear()

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

64

65

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

66

class ResultMixin(object):

67

"""Shared methods for the parsed result objects."""

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

@property

def username(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

ced4eb0

2008-01-05 01:21:57 +0000

[diff] [blame]

73

userinfo = netloc.rsplit("@", 1)[0]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

74

if ":" in userinfo:

75

userinfo = userinfo.split(":", 1)[0]

return userinfo

return None

@property

def password(self):

netloc = self.netloc

if "@" in netloc:

Guido van Rossum

ced4eb0

2008-01-05 01:21:57 +0000

[diff] [blame]

83

userinfo = netloc.rsplit("@", 1)[0]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

84

if ":" in userinfo:

85

return userinfo.split(":", 1)[1]

return None

@property

def hostname(self):

Senthil Kumaran

2010-04-16 02:46:46 +0000

[diff] [blame]

90

netloc = self.netloc.split('@')[-1]

91

if '[' in netloc and ']' in netloc:

92

return netloc.split(']')[0][1:].lower()

93

elif '[' in netloc or ']' in netloc:

94

raise ValueError("Invalid IPv6 hostname")

95

elif ':' in netloc:

96

return netloc.split(':')[0].lower()

elif netloc == '':

return None

else:

return netloc.lower()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

101

102

@property

103

def port(self):

Senthil Kumaran

2010-04-16 02:46:46 +0000

[diff] [blame]

104

netloc = self.netloc.split('@')[-1].split(']')[-1]

105

if ':' in netloc:

106

port = netloc.split(':')[1]

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

107

return int(port, 10)

Senthil Kumaran

2010-04-16 02:46:46 +0000

[diff] [blame]

108

else:

109

return None

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

110

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

111

from collections import namedtuple

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

112

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

113

class SplitResult(namedtuple('SplitResult', 'scheme netloc path query fragment'), ResultMixin):

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

__slots__ = ()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

117

def geturl(self):

118

return urlunsplit(self)

119

120

Raymond Hettinger

2008-01-11 18:04:55 +0000

[diff] [blame]

121

class ParseResult(namedtuple('ParseResult', 'scheme netloc path params query fragment'), ResultMixin):

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

__slots__ = ()

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

125

def geturl(self):

126

return urlunparse(self)

127

128

129

def urlparse(url, scheme='', allow_fragments=True):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

130

"""Parse a URL into 6 components:

131

132

Return a 6-tuple: (scheme, netloc, path, params, query, fragment).

133

Note that we don't break the components up in smaller bits

134

(e.g. netloc is a single string) and we don't expand % escapes."""

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

135

tuple = urlsplit(url, scheme, allow_fragments)

136

scheme, netloc, url, query, fragment = tuple

137

if scheme in uses_params and ';' in url:

138

url, params = _splitparams(url)

139

else:

140

params = ''

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

141

return ParseResult(scheme, netloc, url, params, query, fragment)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

142

143

def _splitparams(url):

144

if '/' in url:

145

i = url.find(';', url.rfind('/'))

if i < 0:

return url, ''

else:

i = url.find(';')

return url[:i], url[i+1:]

151

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

152

def _splitnetloc(url, start=0):

Guido van Rossum

c6a04c2

2008-01-05 22:19:06 +0000

[diff] [blame]

153

delim = len(url) # position of end of domain part of url, default is end

Senthil Kumaran

2010-04-16 02:46:46 +0000

[diff] [blame]

154

if '[' in url: # check for invalid IPv6 URL

155

if not ']' in url: raise ValueError("Invalid IPv6 URL")

156

elif ']' in url:

157

if not '[' in url: raise ValueError("Invalid IPv6 URL")

Guido van Rossum

c6a04c2

2008-01-05 22:19:06 +0000

[diff] [blame]

158

for c in '/?#': # look for delimiters; the order is NOT important

159

wdelim = url.find(c, start) # find first of this delim

160

if wdelim >= 0: # if found

161

delim = min(delim, wdelim) # use earliest delim position

162

return url[start:delim], url[delim:] # return (domain, rest)

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

163

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

164

def urlsplit(url, scheme='', allow_fragments=True):

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

165

"""Parse a URL into 5 components:

166

167

Return a 5-tuple: (scheme, netloc, path, query, fragment).

168

Note that we don't break the components up in smaller bits

169

(e.g. netloc is a single string) and we don't expand % escapes."""

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

170

allow_fragments = bool(allow_fragments)

Alexandre Vassalotti

2f9ca29

2007-12-13 17:58:23 +0000

[diff] [blame]

171

key = url, scheme, allow_fragments, type(url), type(scheme)

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

172

cached = _parse_cache.get(key, None)

173

if cached:

174

return cached

175

if len(_parse_cache) >= MAX_CACHE_SIZE: # avoid runaway growth

176

clear_cache()

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

177

netloc = query = fragment = ''

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

178

i = url.find(':')

179

if i > 0:

180

if url[:i] == 'http': # optimize the common case

181

scheme = url[:i].lower()

182

url = url[i+1:]

183

if url[:2] == '//':

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

184

netloc, url = _splitnetloc(url, 2)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

185

if allow_fragments and '#' in url:

186

url, fragment = url.split('#', 1)

187

if '?' in url:

188

url, query = url.split('?', 1)

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

189

v = SplitResult(scheme, netloc, url, query, fragment)

190

_parse_cache[key] = v

191

return v

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

192

for c in url[:i]:

193

if c not in scheme_chars:

194

break

195

else:

196

scheme, url = url[:i].lower(), url[i+1:]

Senthil Kumaran

4e78de8

2010-02-19 07:32:48 +0000

[diff] [blame]

197

198

if url[:2] == '//':

Johannes Gijsbers

2005-01-09 15:29:10 +0000

[diff] [blame]

199

netloc, url = _splitnetloc(url, 2)

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

200

if allow_fragments and scheme in uses_fragment and '#' in url:

201

url, fragment = url.split('#', 1)

202

if scheme in uses_query and '?' in url:

203

url, query = url.split('?', 1)

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

204

v = SplitResult(scheme, netloc, url, query, fragment)

205

_parse_cache[key] = v

206

return v

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

207

Brett Cannon

89318d8

2008-08-03 00:51:02 +0000

[diff] [blame]

208

def urlunparse(data):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

209

"""Put a parsed URL back together again. This may result in a

210

slightly different, but equivalent URL, if the URL that was parsed

211

originally had redundant delimiters, e.g. a ? with an empty query

212

(the draft states that these are equivalent)."""

Brett Cannon

89318d8

2008-08-03 00:51:02 +0000

[diff] [blame]

213

scheme, netloc, url, params, query, fragment = data

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

214

if params:

215

url = "%s;%s" % (url, params)

216

return urlunsplit((scheme, netloc, url, query, fragment))

217

Brett Cannon

89318d8

2008-08-03 00:51:02 +0000

[diff] [blame]

218

def urlunsplit(data):

219

scheme, netloc, url, query, fragment = data

Guido van Rossum

bbc0568

2002-10-14 19:59:54 +0000

[diff] [blame]

220

if netloc or (scheme and scheme in uses_netloc and url[:2] != '//'):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

221

if url and url[:1] != '/': url = '/' + url

222

url = '//' + (netloc or '') + url

223

if scheme:

224

url = scheme + ':' + url

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

225

if query:

226

url = url + '?' + query

227

if fragment:

228

url = url + '#' + fragment

229

return url

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

230

Fred Drake

2006-04-01 22:14:43 +0000

[diff] [blame]

231

def urljoin(base, url, allow_fragments=True):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

232

"""Join a base URL and a possibly relative URL to form an absolute

233

interpretation of the latter."""

if not base:

return url

if not url:

return base

bscheme, bnetloc, bpath, bparams, bquery, bfragment = \

239

urlparse(base, '', allow_fragments)

240

scheme, netloc, path, params, query, fragment = \

241

urlparse(url, bscheme, allow_fragments)

242

if scheme != bscheme or scheme not in uses_relative:

243

return url

244

if scheme in uses_netloc:

245

if netloc:

246

return urlunparse((scheme, netloc, path,

247

params, query, fragment))

248

netloc = bnetloc

249

if path[:1] == '/':

250

return urlunparse((scheme, netloc, path,

251

params, query, fragment))

Facundo Batista

67d1981

2008-08-14 16:51:00 +0000

[diff] [blame]

if not path:

path = bpath

if not params:

params = bparams

else:

path = path[:-1]

return urlunparse((scheme, netloc, path,

259

params, query, fragment))

260

if not query:

261

query = bquery

262

return urlunparse((scheme, netloc, path,

263

params, query, fragment))

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

264

segments = bpath.split('/')[:-1] + path.split('/')

265

# XXX The stuff below is bogus in various ways...

266

if segments[-1] == '.':

267

segments[-1] = ''

268

while '.' in segments:

segments.remove('.')

while 1:

i = 1

n = len(segments) - 1

273

while i < n:

274

if (segments[i] == '..'

275

and segments[i-1] not in ('', '..')):

276

del segments[i-1:i+1]

break

i = i+1

else:

break

if segments == ['', '..']:

282

segments[-1] = ''

283

elif len(segments) >= 2 and segments[-1] == '..':

284

segments[-2:] = ['']

285

return urlunparse((scheme, netloc, '/'.join(segments),

286

params, query, fragment))

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

287

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

288

def urldefrag(url):

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

289

"""Removes any existing fragment from URL.

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

290

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

291

Returns a tuple of the defragmented URL and the fragment. If

292

the URL contained no fragments, the second element is the

293

empty string.

294

"""

Fred Drake

2001-11-16 02:52:57 +0000

[diff] [blame]

295

if '#' in url:

296

s, n, p, a, q, frag = urlparse(url)

297

defrag = urlunparse((s, n, p, a, q, ''))

298

return defrag, frag

299

else:

300

return url, ''

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

301

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

302

# unquote method for parse_qs and parse_qsl

303

# Cannot use directly from urllib as it would create circular reference.

304

# urllib uses urlparse methods ( urljoin)

305

Senthil Kumaran

f3e9b2a

2010-03-18 12:14:15 +0000

[diff] [blame]

306

307

_hexdig = '0123456789ABCDEFabcdef'

308

_hextochr = dict((a+b, chr(int(a+b,16))) for a in _hexdig for b in _hexdig)

Facundo Batista

c585df9

2008-09-03 22:35:50 +0000

[diff] [blame]

309

310

def unquote(s):

311

"""unquote('abc%20def') -> 'abc def'."""

312

res = s.split('%')

313

for i in xrange(1, len(res)):

314

item = res[i]

315

try:

316

res[i] = _hextochr[item[:2]] + item[2:]

317

except KeyError:

318

res[i] = '%' + item

319

except UnicodeDecodeError:

320

res[i] = unichr(int(item[:2], 16)) + item[2:]

321

return "".join(res)

322

323

def parse_qs(qs, keep_blank_values=0, strict_parsing=0):

324

"""Parse a query given as a string argument.

Arguments:

qs: URL-encoded query string to be parsed

329

330

keep_blank_values: flag indicating whether blank values in

331

URL encoded queries should be treated as blank strings.

332

A true value indicates that blanks should be retained as

333

blank strings. The default false value indicates that

334

blank values are to be ignored and treated as if they were

335

not included.

336

337

strict_parsing: flag indicating what to do with parsing errors.

338

If false (the default), errors are silently ignored.

339

If true, errors raise a ValueError exception.

340

"""

341

dict = {}

342

for name, value in parse_qsl(qs, keep_blank_values, strict_parsing):

343

if name in dict:

344

dict[name].append(value)

else:

dict[name] = [value]

return dict

def parse_qsl(qs, keep_blank_values=0, strict_parsing=0):

350

"""Parse a query given as a string argument.

Arguments:

qs: URL-encoded query string to be parsed

355

356

keep_blank_values: flag indicating whether blank values in

357

URL encoded queries should be treated as blank strings. A

358

true value indicates that blanks should be retained as blank

359

strings. The default false value indicates that blank values

360

are to be ignored and treated as if they were not included.

361

362

strict_parsing: flag indicating what to do with parsing errors. If

363

false (the default), errors are silently ignored. If true,

364

errors raise a ValueError exception.

365

366

Returns a list, as G-d intended.

367

"""

368

pairs = [s2 for s1 in qs.split('&') for s2 in s1.split(';')]

369

r = []

370

for name_value in pairs:

371

if not name_value and not strict_parsing:

372

continue

373

nv = name_value.split('=', 1)

374

if len(nv) != 2:

375

if strict_parsing:

376

raise ValueError, "bad query field: %r" % (name_value,)

377

# Handle case of a control-name with no equal sign

378

if keep_blank_values:

nv.append('')

else:

continue

if len(nv[1]) or keep_blank_values:

383

name = unquote(nv[0].replace('+', ' '))

384

value = unquote(nv[1].replace('+', ' '))

385

r.append((name, value))

return r

Guido van Rossum

1996-05-28 23:54:24 +0000

[diff] [blame]

389

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

test_input = """

http://a/b/c/d

g:h = <URL:g:h>

http:g = <URL:http://a/b/c/g>

395

http: = <URL:http://a/b/c/d>

396

g = <URL:http://a/b/c/g>

397

./g = <URL:http://a/b/c/g>

398

g/ = <URL:http://a/b/c/g/>

399

/g = <URL:http://a/g>

400

//g = <URL:http://g>

401

?y = <URL:http://a/b/c/d?y>

402

g?y = <URL:http://a/b/c/g?y>

403

g?y/./x = <URL:http://a/b/c/g?y/./x>

404

. = <URL:http://a/b/c/>

405

./ = <URL:http://a/b/c/>

406

.. = <URL:http://a/b/>

407

../ = <URL:http://a/b/>

408

../g = <URL:http://a/b/g>

409

../.. = <URL:http://a/>

410

../../g = <URL:http://a/g>

411

../../../g = <URL:http://a/../g>

412

./../g = <URL:http://a/b/g>

413

./g/. = <URL:http://a/b/c/g/>

414

/./g = <URL:http://a/./g>

415

g/./h = <URL:http://a/b/c/g/h>

416

g/../h = <URL:http://a/b/c/h>

417

http:g = <URL:http://a/b/c/g>

418

http: = <URL:http://a/b/c/d>

Andrew M. Kuchling

5c35520

1999-01-06 22:13:09 +0000

[diff] [blame]

419

http:?y = <URL:http://a/b/c/d?y>

420

http:g?y = <URL:http://a/b/c/g?y>

421

http:g?y/./x = <URL:http://a/b/c/g?y/./x>

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

422

"""

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

423

424

def test():

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

import sys

base = ''

if sys.argv[1:]:

fn = sys.argv[1]

if fn == '-':

fp = sys.stdin

else:

fp = open(fn)

else:

Raymond Hettinger

a617271

2004-12-31 19:15:26 +0000

[diff] [blame]

434

try:

435

from cStringIO import StringIO

436

except ImportError:

437

from StringIO import StringIO

438

fp = StringIO(test_input)

Georg Brandl

1ea8cb4

2008-01-21 17:22:06 +0000

[diff] [blame]

439

for line in fp:

Tim Peters

2001-01-15 03:34:38 +0000

[diff] [blame]

words = line.split()

if not words:

continue

url = words[0]

parts = urlparse(url)

445

print '%-10s : %s' % (url, parts)

446

abs = urljoin(base, url)

447

if not base:

448

base = abs

449

wrapped = '<URL:%s>' % abs

450

print '%-10s = %s' % (url, wrapped)

451

if len(words) == 3 and words[1] == '=':

452

if wrapped != words[2]:

453

print 'EXPECTED', words[2], '!!!!!!!!!!'

Guido van Rossum

1994-09-12 10:36:35 +0000

[diff] [blame]

454

455

if __name__ == '__main__':

Tim Peters