Blame - Lib/html/parser.py - platform/external/python/cpython3

2001-08-03 19:50:59 +0000

[diff] [blame]

1

"""A parser for HTML and XHTML."""

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

2

3

# This file is based on sgmllib.py, but the API is slightly different.

4

5

# XXX There should be a way to distinguish between PCDATA (parsed

6

# character data -- the normal case), RCDATA (replaceable character

7

# data -- only char and entity references and end tags are special)

8

# and CDATA (character data -- only end tags are special).

9

10

11

import re

Ezio Melotti

2012-06-23 15:27:51 +0200

[diff] [blame]

12

import warnings

Ezio Melotti

4a9ee26

2013-11-19 20:28:45 +0200

[diff] [blame]

13

import _markupbase

14

15

from html import unescape

16

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

17

Ezio Melotti

1698bab

2013-05-01 16:09:34 +0300

[diff] [blame]

18

__all__ = ['HTMLParser']

19

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

20

# Regular expressions used for parsing

21

22

interesting_normal = re.compile('[&<]')

Fred Drake

2001-09-04 15:10:16 +0000

[diff] [blame]

23

incomplete = re.compile('&[a-zA-Z#]')

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

24

25

entityref = re.compile('&([a-zA-Z][-.a-zA-Z0-9]*)[^a-zA-Z0-9]')

Fred Drake

2001-08-03 19:50:59 +0000

[diff] [blame]

26

charref = re.compile('&#(?:[0-9]+|[xX][0-9a-fA-F]+)[^0-9a-fA-F]')

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

27

28

starttagopen = re.compile('<[a-zA-Z]')

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

29

piclose = re.compile('>')

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

30

commentclose = re.compile(r'--\s*>')

Ezio Melotti

2012-02-21 09:25:00 +0200

[diff] [blame]

31

# Note:

32

# 1) the strict attrfind isn't really strict, but we can't make it

33

# correctly strict without breaking backward compatibility;

Ezio Melotti

2013-11-07 18:33:24 +0200

[diff] [blame]

34

# 2) if you change tagfind/attrfind remember to update locatestarttagend too;

35

# 3) if you change tagfind/attrfind and/or locatestarttagend the parser will

Ezio Melotti

2012-02-21 09:25:00 +0200

[diff] [blame]

36

# explode, so don't do it.

Ezio Melotti

2013-11-07 18:33:24 +0200

[diff] [blame]

37

tagfind = re.compile('([a-zA-Z][-.a-zA-Z0-9:_]*)(?:\s|/(?!>))*')

38

# see http://www.w3.org/TR/html5/tokenization.html#tag-open-state

39

# and http://www.w3.org/TR/html5/tokenization.html#tag-name-state

40

tagfind_tolerant = re.compile('([a-zA-Z][^\t\n\r\f />\x00]*)(?:\s|/(?!>))*')

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

41

attrfind = re.compile(

42

r'\s*([a-zA-Z_][-.:a-zA-Z_0-9]*)(\s*=\s*'

Ezio Melotti

2e3607c

2011-04-07 22:03:31 +0300

[diff] [blame]

43

r'(\'[^\']*\'|"[^"]*"|[^\s"\'=<>`]*))?')

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

44

attrfind_tolerant = re.compile(

Ezio Melotti

0780b6b

2012-04-18 19:18:22 -0600

[diff] [blame]

45

r'((?<=[\'"\s/])[^\s/>][^\s/=>]*)(\s*=+\s*'

Ezio Melotti

2012-02-21 09:25:00 +0200

[diff] [blame]

46

r'(\'[^\']*\'|"[^"]*"|(?![\'"])[^>\s]*))?(?:\s|/(?!>))*')

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

47

locatestarttagend = re.compile(r"""

48

<[a-zA-Z][-.a-zA-Z0-9:_]* # tag name

49

(?:\s+ # whitespace before attribute name

50

(?:[a-zA-Z_][-.:a-zA-Z0-9_]* # attribute name

51

(?:\s*=\s* # value indicator

52

(?:'[^']*' # LITA-enclosed value

53

|\"[^\"]*\" # LIT-enclosed value

54

|[^'\">\s]+ # bare value

Georg Brandl

cd3c26a

2005-09-01 06:25:34 +0000

[diff] [blame]

55

)

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

)?

)

)*

\s* # trailing whitespace

60

""", re.VERBOSE)

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

61

locatestarttagend_tolerant = re.compile(r"""

Ezio Melotti

2013-11-07 18:33:24 +0200

[diff] [blame]

62

<[a-zA-Z][^\t\n\r\f />\x00]* # tag name

Ezio Melotti

2012-02-21 09:25:00 +0200

[diff] [blame]

63

(?:[\s/]* # optional whitespace before attribute name

64

(?:(?<=['"\s/])[^\s/>][^\s/=>]* # attribute name

Ezio Melotti

2011-11-14 18:53:33 +0200

[diff] [blame]

65

(?:\s*=+\s* # value indicator

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

66

(?:'[^']*' # LITA-enclosed value

Ezio Melotti

2011-11-14 18:53:33 +0200

[diff] [blame]

67

|"[^"]*" # LIT-enclosed value

68

|(?!['"])[^>\s]* # bare value

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

69

)

70

(?:\s*,)* # possibly followed by a comma

Ezio Melotti

2012-02-21 09:25:00 +0200

[diff] [blame]

71

)?(?:\s|/(?!>))*

Ezio Melotti

2011-11-14 18:53:33 +0200

[diff] [blame]

72

)*

73

)?

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

74

\s* # trailing whitespace

75

""", re.VERBOSE)

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

76

endendtag = re.compile('>')

Ezio Melotti

2011-11-01 14:12:22 +0200

[diff] [blame]

77

# the HTML 5 spec, section 8.1.2.2, doesn't allow spaces between

78

# </ and the tag name, so maybe this should be fixed

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

79

endtagfind = re.compile('</\s*([a-zA-Z][-.a-zA-Z0-9:_]*)\s*>')

80

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

81

82

class HTMLParseError(Exception):

83

"""Exception raised for all parse errors."""

84

85

def __init__(self, msg, position=(None, None)):

86

assert msg

87

self.msg = msg

88

self.lineno = position[0]

89

self.offset = position[1]

def __str__(self):

result = self.msg

if self.lineno is not None:

94

result = result + ", at line %d" % self.lineno

95

if self.offset is not None:

96

result = result + ", column %d" % (self.offset + 1)

return result

Ezio Melotti

2013-11-23 19:52:05 +0200

[diff] [blame]

100

_default_sentinel = object()

Ezio Melotti

2013-11-02 17:08:24 +0200

[diff] [blame]

101

Fred Drake

cb5c80f

2007-12-07 11:10:11 +0000

[diff] [blame]

102

class HTMLParser(_markupbase.ParserBase):

Fred Drake

2001-08-03 19:50:59 +0000

[diff] [blame]

103

"""Find tags and other markup and call handler functions.

Usage:

p = HTMLParser()

p.feed(data)

...

p.close()

Start tags are handled by calling self.handle_starttag() or

112

self.handle_startendtag(); end tags by self.handle_endtag(). The

113

data between tags is passed from the parser to the derived class

114

by calling self.handle_data() with the data as argument (the data

Ezio Melotti

2013-11-23 19:52:05 +0200

[diff] [blame]

115

may be split up in arbitrary chunks). If convert_charrefs is

116

True the character references are converted automatically to the

117

corresponding Unicode character (and self.handle_data() is no

118

longer split in chunks), otherwise they are passed by calling

119

self.handle_entityref() or self.handle_charref() with the string

120

containing respectively the named or numeric reference as the

121

argument.

Fred Drake

2001-08-03 19:50:59 +0000

[diff] [blame]

122

"""

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

123

124

CDATA_CONTENT_ELEMENTS = ("script", "style")

125

Ezio Melotti

2013-11-23 19:52:05 +0200

[diff] [blame]

126

def __init__(self, strict=_default_sentinel, *,

127

convert_charrefs=_default_sentinel):

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

128

"""Initialize and reset this instance.

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

129

Ezio Melotti

2013-11-23 19:52:05 +0200

[diff] [blame]

130

If convert_charrefs is True (default: False), all character references

131

are automatically converted to the corresponding Unicode characters.

Ezio Melotti

2012-06-23 15:27:51 +0200

[diff] [blame]

132

If strict is set to False (the default) the parser will parse invalid

133

markup, otherwise it will raise an error. Note that the strict mode

Ezio Melotti

2013-11-02 17:08:24 +0200

[diff] [blame]

134

and argument are deprecated.

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

135

"""

Ezio Melotti

2013-11-23 19:52:05 +0200

[diff] [blame]

136

if strict is not _default_sentinel:

Ezio Melotti

2013-11-02 17:08:24 +0200

[diff] [blame]

137

warnings.warn("The strict argument and mode are deprecated.",

Ezio Melotti

2012-06-23 15:27:51 +0200

[diff] [blame]

138

DeprecationWarning, stacklevel=2)

Ezio Melotti

2013-11-02 17:08:24 +0200

[diff] [blame]

139

else:

140

strict = False # default

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

141

self.strict = strict

Ezio Melotti

2013-11-23 19:52:05 +0200

[diff] [blame]

142

if convert_charrefs is _default_sentinel:

143

convert_charrefs = False # default

144

warnings.warn("The value of convert_charrefs will become True in "

145

"3.5. You are encouraged to set the value explicitly.",

146

DeprecationWarning, stacklevel=2)

147

self.convert_charrefs = convert_charrefs

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

148

self.reset()

149

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

150

def reset(self):

Fred Drake

2001-08-03 19:50:59 +0000

[diff] [blame]

151

"""Reset this instance. Loses all unprocessed data."""

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

152

self.rawdata = ''

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

153

self.lasttag = '???'

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

154

self.interesting = interesting_normal

Ezio Melotti

2011-11-01 14:12:22 +0200

[diff] [blame]

155

self.cdata_elem = None

Fred Drake

cb5c80f

2007-12-07 11:10:11 +0000

[diff] [blame]

156

_markupbase.ParserBase.reset(self)

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

157

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

158

def feed(self, data):

Éric Araujo

39f180b

2011-05-04 15:55:47 +0200

[diff] [blame]

159

r"""Feed data to the parser.

Fred Drake

2001-08-03 19:50:59 +0000

[diff] [blame]

160

161

Call this as often as you want, with as little or as much text

162

as you want (may include '\n').

163

"""

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

164

self.rawdata = self.rawdata + data

165

self.goahead(0)

166

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

167

def close(self):

Fred Drake

2001-08-03 19:50:59 +0000

[diff] [blame]

168

"""Handle any buffered data."""

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

169

self.goahead(1)

170

Fred Drake

2001-09-24 20:10:28 +0000

[diff] [blame]

171

def error(self, message):

Ezio Melotti

2013-11-02 17:08:24 +0200

[diff] [blame]

172

warnings.warn("The 'error' method is deprecated.",

173

DeprecationWarning, stacklevel=2)

Fred Drake

2001-09-24 20:10:28 +0000

[diff] [blame]

174

raise HTMLParseError(message, self.getpos())

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

175

176

__starttag_text = None

177

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

178

def get_starttag_text(self):

Fred Drake

2001-08-03 19:50:59 +0000

[diff] [blame]

179

"""Return full source of start tag: '<...>'."""

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

180

return self.__starttag_text

181

Ezio Melotti

2011-11-01 14:12:22 +0200

[diff] [blame]

182

def set_cdata_mode(self, elem):

Ezio Melotti

2011-11-01 14:12:22 +0200

[diff] [blame]

183

self.cdata_elem = elem.lower()

Ezio Melotti

15cb489

2011-11-18 18:01:49 +0200

[diff] [blame]

184

self.interesting = re.compile(r'</\s*%s\s*>' % self.cdata_elem, re.I)

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

185

186

def clear_cdata_mode(self):

187

self.interesting = interesting_normal

Ezio Melotti

2011-11-01 14:12:22 +0200

[diff] [blame]

188

self.cdata_elem = None

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

189

190

# Internal -- handle data as far as reasonable. May leave state

191

# and data to be processed by a subsequent call. If 'end' is

192

# true, force handling all data as if followed by EOF marker.

193

def goahead(self, end):

194

rawdata = self.rawdata

195

i = 0

196

n = len(rawdata)

197

while i < n:

Ezio Melotti

2013-11-23 19:52:05 +0200

[diff] [blame]

198

if self.convert_charrefs and not self.cdata_elem:

199

j = rawdata.find('<', i)

200

if j < 0:

201

if not end:

202

break # wait till we get all the text

203

j = n

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

204

else:

Ezio Melotti

2013-11-23 19:52:05 +0200

[diff] [blame]

205

match = self.interesting.search(rawdata, i) # < or &

if match:

j = match.start()

else:

if self.cdata_elem:

break

j = n

if i < j:

if self.convert_charrefs and not self.cdata_elem:

214

self.handle_data(unescape(rawdata[i:j]))

215

else:

216

self.handle_data(rawdata[i:j])

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

217

i = self.updatepos(i, j)

218

if i == n: break

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

219

startswith = rawdata.startswith

220

if startswith('<', i):

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

221

if starttagopen.match(rawdata, i): # < + letter

222

k = self.parse_starttag(i)

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

223

elif startswith("</", i):

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

224

k = self.parse_endtag(i)

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

225

elif startswith("<!--", i):

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

226

k = self.parse_comment(i)

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

227

elif startswith("<?", i):

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

228

k = self.parse_pi(i)

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

229

elif startswith("<!", i):

Ezio Melotti

fa3702d

2012-02-10 10:45:44 +0200

[diff] [blame]

230

if self.strict:

231

k = self.parse_declaration(i)

232

else:

Ezio Melotti

2012-02-13 15:50:37 +0200

[diff] [blame]

233

k = self.parse_html_declaration(i)

Fred Drake

2001-09-04 15:10:16 +0000

[diff] [blame]

234

elif (i + 1) < n:

Fred Drake

2001-08-20 21:24:19 +0000

[diff] [blame]

235

self.handle_data("<")

236

k = i + 1

Fred Drake

2001-09-04 15:10:16 +0000

[diff] [blame]

237

else:

238

break

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

239

if k < 0:

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

240

if not end:

241

break

242

if self.strict:

Fred Drake

2001-09-24 20:10:28 +0000

[diff] [blame]

243

self.error("EOF in middle of construct")

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

244

k = rawdata.find('>', i + 1)

245

if k < 0:

246

k = rawdata.find('<', i + 1)

if k < 0:

k = i + 1

else:

k += 1

Ezio Melotti

2013-11-23 19:52:05 +0200

[diff] [blame]

251

if self.convert_charrefs and not self.cdata_elem:

252

self.handle_data(unescape(rawdata[i:k]))

253

else:

254

self.handle_data(rawdata[i:k])

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

255

i = self.updatepos(i, k)

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

256

elif startswith("&#", i):

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

257

match = charref.match(rawdata, i)

258

if match:

Fred Drake

2001-08-03 19:50:59 +0000

[diff] [blame]

259

name = match.group()[2:-1]

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

260

self.handle_charref(name)

261

k = match.end()

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

262

if not startswith(';', k-1):

Fred Drake

2001-08-20 21:24:19 +0000

[diff] [blame]

263

k = k - 1

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

264

i = self.updatepos(i, k)

265

continue

Fred Drake

2001-09-04 15:10:16 +0000

[diff] [blame]

266

else:

Victor Stinner

e021f4b

2010-05-24 21:46:25 +0000

[diff] [blame]

267

if ";" in rawdata[i:]: #bail by consuming &#

268

self.handle_data(rawdata[0:2])

269

i = self.updatepos(i, 2)

Fred Drake

2001-09-04 15:10:16 +0000

[diff] [blame]

270

break

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

271

elif startswith('&', i):

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

272

match = entityref.match(rawdata, i)

273

if match:

274

name = match.group(1)

275

self.handle_entityref(name)

276

k = match.end()

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

277

if not startswith(';', k-1):

Fred Drake

2001-08-20 21:24:19 +0000

[diff] [blame]

278

k = k - 1

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

279

i = self.updatepos(i, k)

280

continue

Fred Drake

2001-08-20 21:24:19 +0000

[diff] [blame]

281

match = incomplete.match(rawdata, i)

282

if match:

Fred Drake

2001-09-04 15:10:16 +0000

[diff] [blame]

283

# match.group() will contain at least 2 chars

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

284

if end and match.group() == rawdata[i:]:

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

285

if self.strict:

286

self.error("EOF in middle of entity or char ref")

287

else:

Ezio Melotti

8e596a7

2013-05-01 16:18:25 +0300

[diff] [blame]

288

k = match.end()

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

289

if k <= i:

290

k = n

291

i = self.updatepos(i, i + 1)

Fred Drake

2001-09-04 15:10:16 +0000

[diff] [blame]

# incomplete

break

elif (i + 1) < n:

# not the end of the buffer, and can't be confused

296

# with some other construct

297

self.handle_data("&")

298

i = self.updatepos(i, i + 1)

299

else:

300

break

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

301

else:

302

assert 0, "interesting.search() lied"

303

# end while

Ezio Melotti

15cb489

2011-11-18 18:01:49 +0200

[diff] [blame]

304

if end and i < n and not self.cdata_elem:

Ezio Melotti

2013-11-23 19:52:05 +0200

[diff] [blame]

305

if self.convert_charrefs and not self.cdata_elem:

306

self.handle_data(unescape(rawdata[i:n]))

307

else:

308

self.handle_data(rawdata[i:n])

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

309

i = self.updatepos(i, n)

310

self.rawdata = rawdata[i:]

311

Ezio Melotti

2012-02-13 15:50:37 +0200

[diff] [blame]

312

# Internal -- parse html declarations, return length or -1 if not terminated

313

# See w3.org/TR/html5/tokenization.html#markup-declaration-open-state

314

# See also parse_declaration in _markupbase

315

def parse_html_declaration(self, i):

316

rawdata = self.rawdata

Ezio Melotti

2012-06-23 15:27:51 +0200

[diff] [blame]

317

assert rawdata[i:i+2] == '<!', ('unexpected call to '

318

'parse_html_declaration()')

Ezio Melotti

2012-02-13 15:50:37 +0200

[diff] [blame]

319

if rawdata[i:i+4] == '<!--':

Ezio Melotti

e31dded

2012-02-13 20:20:00 +0200

[diff] [blame]

320

# this case is actually already handled in goahead()

Ezio Melotti

2012-02-13 15:50:37 +0200

[diff] [blame]

321

return self.parse_comment(i)

322

elif rawdata[i:i+3] == '<![':

323

return self.parse_marked_section(i)

324

elif rawdata[i:i+9].lower() == '<!doctype':

325

# find the closing >

Ezio Melotti

e31dded

2012-02-13 20:20:00 +0200

[diff] [blame]

326

gtpos = rawdata.find('>', i+9)

Ezio Melotti

2012-02-13 15:50:37 +0200

[diff] [blame]

327

if gtpos == -1:

328

return -1

329

self.handle_decl(rawdata[i+2:gtpos])

330

return gtpos+1

331

else:

332

return self.parse_bogus_comment(i)

333

Ezio Melotti

fa3702d

2012-02-10 10:45:44 +0200

[diff] [blame]

334

# Internal -- parse bogus comment, return length or -1 if not terminated

335

# see http://www.w3.org/TR/html5/tokenization.html#bogus-comment-state

336

def parse_bogus_comment(self, i, report=1):

337

rawdata = self.rawdata

Ezio Melotti

2012-06-23 15:27:51 +0200

[diff] [blame]

338

assert rawdata[i:i+2] in ('<!', '</'), ('unexpected call to '

339

'parse_comment()')

Ezio Melotti

fa3702d

2012-02-10 10:45:44 +0200

[diff] [blame]

340

pos = rawdata.find('>', i+2)

if pos == -1:

return -1

if report:

self.handle_comment(rawdata[i+2:pos])

345

return pos + 1

346

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

347

# Internal -- parse processing instr, return end or -1 if not terminated

348

def parse_pi(self, i):

349

rawdata = self.rawdata

350

assert rawdata[i:i+2] == '<?', 'unexpected call to parse_pi()'

351

match = piclose.search(rawdata, i+2) # >

if not match:

return -1

j = match.start()

self.handle_pi(rawdata[i+2: j])

j = match.end()

return j

# Internal -- handle starttag, return end or -1 if not terminated

360

def parse_starttag(self, i):

361

self.__starttag_text = None

362

endpos = self.check_for_whole_start_tag(i)

363

if endpos < 0:

364

return endpos

365

rawdata = self.rawdata

366

self.__starttag_text = rawdata[i:endpos]

367

368

# Now parse the data between i+1 and j into a tag and attrs

369

attrs = []

Ezio Melotti

2013-11-07 18:33:24 +0200

[diff] [blame]

370

if self.strict:

371

match = tagfind.match(rawdata, i+1)

372

else:

373

match = tagfind_tolerant.match(rawdata, i+1)

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

374

assert match, 'unexpected call to parse_starttag()'

375

k = match.end()

Ezio Melotti

0780b6b

2012-04-18 19:18:22 -0600

[diff] [blame]

376

self.lasttag = tag = match.group(1).lower()

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

377

while k < endpos:

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

378

if self.strict:

379

m = attrfind.match(rawdata, k)

380

else:

Ezio Melotti

f50ffa9

2011-10-28 13:21:09 +0300

[diff] [blame]

381

m = attrfind_tolerant.match(rawdata, k)

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

382

if not m:

383

break

384

attrname, rest, attrvalue = m.group(1, 2, 3)

385

if not rest:

386

attrvalue = None

387

elif attrvalue[:1] == '\'' == attrvalue[-1:] or \

388

attrvalue[:1] == '"' == attrvalue[-1:]:

389

attrvalue = attrvalue[1:-1]

Ezio Melotti

2011-11-14 18:53:33 +0200

[diff] [blame]

390

if attrvalue:

Ezio Melotti

4a9ee26

2013-11-19 20:28:45 +0200

[diff] [blame]

391

attrvalue = unescape(attrvalue)

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

392

attrs.append((attrname.lower(), attrvalue))

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

393

k = m.end()

394

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

395

end = rawdata[k:endpos].strip()

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

396

if end not in (">", "/>"):

397

lineno, offset = self.getpos()

398

if "\n" in self.__starttag_text:

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

399

lineno = lineno + self.__starttag_text.count("\n")

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

400

offset = len(self.__starttag_text) \

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

401

- self.__starttag_text.rfind("\n")

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

402

else:

403

offset = offset + len(self.__starttag_text)

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

404

if self.strict:

405

self.error("junk characters in start tag: %r"

406

% (rawdata[k:endpos][:20],))

407

self.handle_data(rawdata[i:endpos])

408

return endpos

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

409

if end.endswith('/>'):

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

410

# XHTML-style empty tag: <span attr="value" />

411

self.handle_startendtag(tag, attrs)

412

else:

413

self.handle_starttag(tag, attrs)

414

if tag in self.CDATA_CONTENT_ELEMENTS:

Ezio Melotti

2011-11-01 14:12:22 +0200

[diff] [blame]

415

self.set_cdata_mode(tag)

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

416

return endpos

417

418

# Internal -- check to see if we have a complete starttag; return end

419

# or -1 if incomplete.

420

def check_for_whole_start_tag(self, i):

421

rawdata = self.rawdata

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

422

if self.strict:

423

m = locatestarttagend.match(rawdata, i)

424

else:

425

m = locatestarttagend_tolerant.match(rawdata, i)

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

426

if m:

427

j = m.end()

428

next = rawdata[j:j+1]

429

if next == ">":

430

return j + 1

431

if next == "/":

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

432

if rawdata.startswith("/>", j):

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

433

return j + 2

Fred Drake

2001-12-03 17:09:50 +0000

[diff] [blame]

434

if rawdata.startswith("/", j):

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

435

# buffer boundary

436

return -1

437

# else bogus input

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

438

if self.strict:

439

self.updatepos(i, j + 1)

440

self.error("malformed empty start tag")

if j > i:

return j

else:

return i + 1

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

if next == "":

# end of input

return -1

if next in ("abcdefghijklmnopqrstuvwxyz=/"

449

"ABCDEFGHIJKLMNOPQRSTUVWXYZ"):

450

# end of input in or before attribute value, or we have the

451

# '/' from a '/>' ending

452

return -1

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

453

if self.strict:

454

self.updatepos(i, j)

455

self.error("malformed start tag")

if j > i:

return j

else:

return i + 1

Fred Drake

2001-09-24 20:10:28 +0000

[diff] [blame]

460

raise AssertionError("we should not get here!")

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

461

462

# Internal -- parse endtag, return end or -1 if incomplete

463

def parse_endtag(self, i):

464

rawdata = self.rawdata

465

assert rawdata[i:i+2] == "</", "unexpected call to parse_endtag"

466

match = endendtag.search(rawdata, i+1) # >

467

if not match:

468

return -1

Ezio Melotti

2012-02-13 11:24:50 +0200

[diff] [blame]

469

gtpos = match.end()

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

470

match = endtagfind.match(rawdata, i) # </ + tag + >

471

if not match:

Ezio Melotti

2011-11-01 14:12:22 +0200

[diff] [blame]

472

if self.cdata_elem is not None:

Ezio Melotti

2012-02-13 11:24:50 +0200

[diff] [blame]

473

self.handle_data(rawdata[i:gtpos])

474

return gtpos

R. David Murray

2010-12-03 04:06:39 +0000

[diff] [blame]

475

if self.strict:

Ezio Melotti

2012-02-13 11:24:50 +0200

[diff] [blame]

476

self.error("bad end tag: %r" % (rawdata[i:gtpos],))

477

# find the name: w3.org/TR/html5/tokenization.html#tag-name-state

478

namematch = tagfind_tolerant.match(rawdata, i+2)

479

if not namematch:

480

# w3.org/TR/html5/tokenization.html#end-tag-open-state

481

if rawdata[i:i+3] == '</>':

482

return i+3

483

else:

484

return self.parse_bogus_comment(i)

Ezio Melotti

2013-11-07 18:33:24 +0200

[diff] [blame]

485

tagname = namematch.group(1).lower()

Ezio Melotti

2012-02-13 11:24:50 +0200

[diff] [blame]

486

# consume and ignore other stuff between the name and the >

487

# Note: this is not 100% correct, since we might have things like

488

# </tag attr=">">, but looking for > after tha name should cover

489

# most of the cases and is much simpler

490

gtpos = rawdata.find('>', namematch.end())

491

self.handle_endtag(tagname)

492

return gtpos+1

Ezio Melotti

2011-11-01 14:12:22 +0200

[diff] [blame]

493

494

elem = match.group(1).lower() # script or style

495

if self.cdata_elem is not None:

496

if elem != self.cdata_elem:

Ezio Melotti

2012-02-13 11:24:50 +0200

[diff] [blame]

497

self.handle_data(rawdata[i:gtpos])

498

return gtpos

Ezio Melotti

2011-11-01 14:12:22 +0200

[diff] [blame]

499

500

self.handle_endtag(elem.lower())

Fred Drake

30d59ba

2002-05-14 15:50:11 +0000

[diff] [blame]

501

self.clear_cdata_mode()

Ezio Melotti

2012-02-13 11:24:50 +0200

[diff] [blame]

502

return gtpos

Guido van Rossum

2001-05-18 14:50:52 +0000

[diff] [blame]

503

504

# Overridable -- finish processing of start+end tag: <tag.../>

505

def handle_startendtag(self, tag, attrs):

506

self.handle_starttag(tag, attrs)

507

self.handle_endtag(tag)

508

509

# Overridable -- handle start tag

510

def handle_starttag(self, tag, attrs):

511

pass

512

513

# Overridable -- handle end tag

514

def handle_endtag(self, tag):

515

pass

516

517

# Overridable -- handle character reference

518

def handle_charref(self, name):

519

pass

520

521

# Overridable -- handle entity reference

522

def handle_entityref(self, name):

523

pass

524

525

# Overridable -- handle data

526

def handle_data(self, data):

527

pass

528

529

# Overridable -- handle comment

530

def handle_comment(self, data):

531

pass

532

533

# Overridable -- handle declaration

534

def handle_decl(self, decl):

535

pass

536

537

# Overridable -- handle processing instruction

538

def handle_pi(self, data):

539

pass

540

Fred Drake

2001-09-24 20:10:28 +0000

[diff] [blame]

541

def unknown_decl(self, data):

R. David Murray