Blame - jinja2/lexer.py - platform/external/python/jinja

2007-02-26 22:17:32 +0100

[diff] [blame]

1

# -*- coding: utf-8 -*-

2

"""

Armin Ronacher

2008-03-31 14:18:49 +0200

[diff] [blame]

3

jinja2.lexer

4

~~~~~~~~~~~~

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

5

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

6

This module implements a Jinja / Python combination lexer. The

7

`Lexer` class provided by this module is used to do some preprocessing

8

for Jinja.

9

10

On the one hand it filters out invalid operators like the bitshift

11

operators we don't allow in templates. On the other hand it separates

12

template code and python code in expressions.

13

Armin Ronacher

2008-03-25 14:34:45 +0100

[diff] [blame]

14

:copyright: 2007-2008 by Armin Ronacher.

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

15

:license: BSD, see LICENSE for more details.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

16

"""

17

import re

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

18

import unicodedata

Armin Ronacher

82b3f3d

2008-03-31 20:01:08 +0200

[diff] [blame]

19

from jinja2.datastructure import TokenStream, Token

20

from jinja2.exceptions import TemplateSyntaxError

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

21

from weakref import WeakValueDictionary

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

22

23

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

24

# cache for the lexers. Exists in order to be able to have multiple

25

# environments with the same lexer

26

_lexer_cache = WeakValueDictionary()

27

28

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

29

# static regular expressions

Armin Ronacher

0949e4d

2007-10-07 18:53:29 +0200

[diff] [blame]

30

whitespace_re = re.compile(r'\s+(?um)')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

31

string_re = re.compile(r"('([^'\\]*(?:\\.[^'\\]*)*)'"

32

r'|"([^"\\]*(?:\\.[^"\\]*)*)")(?ms)')

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

33

integer_re = re.compile(r'\d+')

Armin Ronacher

2008-04-07 18:39:54 +0200

[diff] [blame]

34

name_re = re.compile(r'\b[a-zA-Z_][a-zA-Z0-9_]*\b')

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

35

float_re = re.compile(r'\d+\.\d+')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

36

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

37

Armin Ronacher

9baa5ba

2007-03-21 18:05:32 +0100

[diff] [blame]

38

# set of used keywords

Armin Ronacher

2008-04-07 18:39:54 +0200

[diff] [blame]

39

keywords = set(['and', 'block', 'elif', 'else', 'endblock', 'print',

Armin Ronacher

9baa5ba

2007-03-21 18:05:32 +0100

[diff] [blame]

40

'endfilter', 'endfor', 'endif', 'endmacro', 'endraw',

Armin Ronacher

2008-04-22 10:40:26 +0200

[diff] [blame]

41

'extends', 'filter', 'for', 'if', 'in', 'include',

Armin Ronacher

2b60fe5

2008-04-21 08:23:59 +0200

[diff] [blame]

42

'is', 'macro', 'not', 'or', 'raw', 'call', 'endcall'])

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

43

44

# bind operators to token types

operators = {

'+': 'add',

'-': 'sub',

'/': 'div',

'//': 'floordiv',

'*': 'mul',

'%': 'mod',

'**': 'pow',

'~': 'tilde',

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

'[': 'lbracket',

']': 'rbracket',

'(': 'lparen',

')': 'rparen',

'{': 'lbrace',

'}': 'rbrace',

'==': 'eq',

'!=': 'ne',

'>': 'gt',

'>=': 'gteq',

'<': 'lt',

'<=': 'lteq',

'=': 'assign',

'.': 'dot',

':': 'colon',

'|': 'pipe',

Armin Ronacher

2008-03-31 14:18:49 +0200

[diff] [blame]

70

',': 'comma',

71

';': 'semicolon'

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

72

}

73

74

reverse_operators = dict([(v, k) for k, v in operators.iteritems()])

75

assert len(operators) == len(reverse_operators), 'operators dropped'

Armin Ronacher

2008-04-07 18:39:54 +0200

[diff] [blame]

76

operator_re = re.compile('(%s)' % '|'.join(re.escape(x) for x in

77

sorted(operators, key=lambda x: -len(x))))

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

78

Armin Ronacher

2008-03-25 14:34:45 +0100

[diff] [blame]

simple_escapes = {

'a': '\a',

'n': '\n',

'r': '\r',

'f': '\f',

't': '\t',

'v': '\v',

'\\': '\\',

'"': '"',

"'": "'",

'0': '\x00'

}

unicode_escapes = {

'x': 2,

'u': 4,

'U': 8

}

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

97

98

def unescape_string(lineno, filename, s):

99

r"""

100

Unescape a string. Supported escapes:

101

\a, \n, \r\, \f, \v, \\, \", \', \0

102

103

\x00, \u0000, \U00000000, \N{...}

104

105

Not supported are \101 because imho redundant.

106

"""

107

result = []

108

write = result.append

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

109

chariter = iter(s)

110

next_char = chariter.next

111

Armin Ronacher

2008-03-25 14:34:45 +0100

[diff] [blame]

112

# faster lookup

113

sescapes = simple_escapes

114

uescapes = unicode_escapes

115

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

116

try:

117

for char in chariter:

118

if char == '\\':

119

char = next_char()

Armin Ronacher

2008-03-25 14:34:45 +0100

[diff] [blame]

120

if char in sescapes:

121

write(sescapes[char])

122

elif char in uescapes:

123

seq = [next_char() for x in xrange(uescapes[char])]

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

124

try:

125

write(unichr(int(''.join(seq), 16)))

126

except ValueError:

127

raise TemplateSyntaxError('invalid unicode codepoint',

128

lineno, filename)

129

elif char == 'N':

130

if next_char() != '{':

131

raise TemplateSyntaxError('no name for codepoint',

132

lineno, filename)

133

seq = []

Armin Ronacher

2008-03-25 14:34:45 +0100

[diff] [blame]

134

while 1:

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

char = next_char()

if char == '}':

break

seq.append(char)

try:

write(unicodedata.lookup(u''.join(seq)))

141

except KeyError:

142

raise TemplateSyntaxError('unknown character name',

lineno, filename)

else:

write('\\' + char)

else:

write(char)

except StopIteration:

149

raise TemplateSyntaxError('invalid string escape', lineno, filename)

150

return u''.join(result)

151

152

153

def unescape_regex(s):

154

"""

155

Unescape rules for regular expressions.

156

"""

157

buffer = []

158

write = buffer.append

in_escape = False

for char in s:

if in_escape:

in_escape = False

if char not in safe_chars:

write('\\' + char)

continue

write(char)

return u''.join(buffer)

Armin Ronacher

2894f22

2007-03-19 22:39:55 +0100

[diff] [blame]

168

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

169

170

class Failure(object):

171

"""

172

Class that raises a `TemplateSyntaxError` if called.

173

Used by the `Lexer` to specify known errors.

174

"""

175

176

def __init__(self, message, cls=TemplateSyntaxError):

177

self.message = message

178

self.error_class = cls

179

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

180

def __call__(self, lineno, filename):

181

raise self.error_class(self.message, lineno, filename)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

182

183

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

184

class LexerMeta(type):

185

"""

186

Metaclass for the lexer that caches instances for

187

the same configuration in a weak value dictionary.

188

"""

189

190

def __call__(cls, environment):

191

key = hash((environment.block_start_string,

192

environment.block_end_string,

193

environment.variable_start_string,

194

environment.variable_end_string,

195

environment.comment_start_string,

196

environment.comment_end_string,

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

197

environment.line_statement_prefix,

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

198

environment.trim_blocks))

199

200

# use the cached lexer if possible

201

if key in _lexer_cache:

202

return _lexer_cache[key]

203

204

# create a new lexer and cache it

205

lexer = type.__call__(cls, environment)

206

_lexer_cache[key] = lexer

return lexer

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

210

class Lexer(object):

211

"""

212

Class that implements a lexer for a given environment. Automatically

213

created by the environment class, usually you don't have to do that.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

214

215

Note that the lexer is not automatically bound to an environment.

216

Multiple environments can share the same lexer.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

217

"""

218

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

219

__metaclass__ = LexerMeta

220

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

221

def __init__(self, environment):

222

# shortcuts

223

c = lambda x: re.compile(x, re.M | re.S)

224

e = re.escape

225

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

226

# lexing rules for tags

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

227

tag_rules = [

228

(whitespace_re, None, None),

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

229

(float_re, 'float', None),

230

(integer_re, 'integer', None),

Armin Ronacher

2008-04-07 18:39:54 +0200

[diff] [blame]

231

(c(r'\b(?:%s)\b' % '|'.join(sorted(keywords, key=lambda x: -len(x)))),

Armin Ronacher

2008-03-31 14:18:49 +0200

[diff] [blame]

232

'keyword', None),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

233

(name_re, 'name', None),

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

234

(string_re, 'string', None),

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

235

(operator_re, 'operator', None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

236

]

237

Armin Ronacher

2007-02-27 20:51:59 +0100

[diff] [blame]

238

# assamble the root lexing rule. because "|" is ungreedy

239

# we have to sort by length so that the lexer continues working

240

# as expected when we have parsing rules like <% for block and

241

# <%= for variables. (if someone wants asp like syntax)

Armin Ronacher

33d528a

2007-05-14 18:21:44 +0200

[diff] [blame]

242

# variables are just part of the rules if variable processing

243

# is required.

Armin Ronacher

2007-02-27 20:51:59 +0100

[diff] [blame]

244

root_tag_rules = [

245

('comment', environment.comment_start_string),

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

246

('block', environment.block_start_string),

247

('variable', environment.variable_start_string)

Armin Ronacher

2007-02-27 20:51:59 +0100

[diff] [blame]

248

]

Armin Ronacher

2008-04-22 10:40:26 +0200

[diff] [blame]

249

root_tag_rules.sort(key=lambda x: -len(x[1]))

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

250

251

# now escape the rules. This is done here so that the escape

252

# signs don't count for the lengths of the tags.

253

root_tag_rules = [(a, e(b)) for a, b in root_tag_rules]

254

255

# if we have a line statement prefix we need an extra rule for

256

# that. We add this rule *after* all the others.

257

if environment.line_statement_prefix is not None:

258

prefix = e(environment.line_statement_prefix)

259

root_tag_rules.insert(0, ('linestatement', '^\s*' + prefix))

Armin Ronacher

2007-02-27 20:51:59 +0100

[diff] [blame]

260

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

261

# block suffix if trimming is enabled

262

block_suffix_re = environment.trim_blocks and '\\n?' or ''

263

264

# global lexing rules

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

265

self.rules = {

266

'root': [

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

267

# directives

268

(c('(.*?)(?:%s)' % '|'.join(

269

['(?P<raw_begin>(?:\s*%s\-|%s)\s*raw\s*%s)' % (

270

e(environment.block_start_string),

271

e(environment.block_start_string),

272

e(environment.block_end_string)

273

)] + [

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

274

'(?P<%s_begin>\s*%s\-|%s)' % (n, r, r)

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

275

for n, r in root_tag_rules

276

])), ('data', '#bygroup'), '#bygroup'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

277

# data

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

278

(c('.+'), 'data', None)

279

],

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

280

# comments

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

281

'comment_begin': [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

282

(c(r'(.*?)((?:\-%s\s*|%s)%s)' % (

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

283

e(environment.comment_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

284

e(environment.comment_end_string),

285

block_suffix_re

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

286

)), ('comment', 'comment_end'), '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

287

(c('(.)'), (Failure('Missing end of comment tag'),), None)

288

],

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

289

# blocks

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

290

'block_begin': [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

291

(c('(?:\-%s\s*|%s)%s' % (

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

292

e(environment.block_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

293

e(environment.block_end_string),

294

block_suffix_re

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

295

)), 'block_end', '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

296

] + tag_rules,

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

# variables

'variable_begin': [

(c('\-%s\s*|%s' % (

e(environment.variable_end_string),

301

e(environment.variable_end_string)

302

)), 'variable_end', '#pop')

303

] + tag_rules,

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

304

# raw block

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

305

'raw_begin': [

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

306

(c('(.*?)((?:\s*%s\-|%s)\s*endraw\s*(?:\-%s\s*|%s%s))' % (

307

e(environment.block_start_string),

308

e(environment.block_start_string),

309

e(environment.block_end_string),

310

e(environment.block_end_string),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

311

block_suffix_re

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

312

)), ('data', 'raw_end'), '#pop'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

313

(c('(.)'), (Failure('Missing end of raw directive'),), None)

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

314

],

315

# line statements

316

'linestatement_begin': [

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

317

(c(r'\s*(\n|$)'), 'linestatement_end', '#pop')

318

] + tag_rules

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

319

}

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

320

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

321

def tokenize(self, source, filename=None):

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

322

"""Works like `tokeniter` but returns a tokenstream of tokens and not

Armin Ronacher

2008-04-22 10:40:26 +0200

[diff] [blame]

323

a generator or token tuples. Additionally all token values are already

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

324

converted into types and postprocessed. For example keywords are

325

already keyword tokens, not named tokens, comments are removed,

326

integers and floats converted, strings unescaped etc.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

327

"""

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

328

source = unicode(source)

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

329

def generate():

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

330

for lineno, token, value in self.tokeniter(source, filename):

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

331

if token in ('comment_begin', 'comment', 'comment_end'):

332

continue

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

333

elif token == 'linestatement_begin':

334

token = 'block_begin'

335

elif token == 'linestatement_end':

336

token = 'block_end'

Armin Ronacher

2008-04-22 10:40:26 +0200

[diff] [blame]

337

# we are not interested in those tokens in the parser

338

elif token in ('raw_begin', 'raw_end'):

339

continue

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

340

elif token == 'data':

try:

value = str(value)

except UnicodeError:

pass

Armin Ronacher

2008-03-31 14:18:49 +0200

[diff] [blame]

345

elif token == 'keyword':

Armin Ronacher

82b3f3d

2008-03-31 20:01:08 +0200

[diff] [blame]

346

token = value

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

347

elif token == 'name':

348

value = str(value)

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

349

elif token == 'string':

350

value = unescape_string(lineno, filename, value[1:-1])

try:

value = str(value)

except UnicodeError:

pass

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

355

elif token == 'integer':

356

value = int(value)

357

elif token == 'float':

358

value = float(value)

359

elif token == 'operator':

360

token = operators[value]

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

361

yield Token(lineno, token, value)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

362

return TokenStream(generate(), filename)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

363

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

364

def tokeniter(self, source, filename=None):

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

365

"""

366

This method tokenizes the text and returns the tokens in a generator.

Armin Ronacher

f626c8e

2007-03-23 16:13:10 +0100

[diff] [blame]

367

Use this method if you just want to tokenize a template. The output

368

you get is not compatible with the input the jinja parser wants. The

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

369

parser uses the `tokenize` function with returns a `TokenStream` and

370

keywords instead of just names.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

371

"""

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

372

source = '\n'.join(source.splitlines())

Armin Ronacher

7977e5c

2007-03-12 07:22:17 +0100

[diff] [blame]

373

pos = 0

374

lineno = 1

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

375

stack = ['root']

376

statetokens = self.rules['root']

377

source_length = len(source)

378

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

379

balancing_stack = []

380

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

381

while 1:

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

382

# tokenizer loop

383

for regex, tokens, new_state in statetokens:

384

m = regex.match(source, pos)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

385

# if no match we try again with the next rule

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

386

if m is None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

387

continue

388

389

# we only match blocks and variables if brances / parentheses

390

# are balanced. continue parsing with the lower rule which

391

# is the operator rule. do this only if the end tags look

392

# like operators

393

if balancing_stack and \

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

394

tokens in ('variable_end', 'block_end',

395

'linestatement_end'):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

396

continue

397

398

# tuples support more options

399

if isinstance(tokens, tuple):

400

for idx, token in enumerate(tokens):

# hidden group

if token is None:

g = m.group(idx)

if g:

lineno += g.count('\n')

406

continue

407

# failure group

Armin Ronacher

ecc051b

2007-06-01 18:25:28 +0200

[diff] [blame]

408

elif token.__class__ is Failure:

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

409

raise token(lineno, filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

410

# bygroup is a bit more complex, in that case we

411

# yield for the current token the first named

412

# group that matched

413

elif token == '#bygroup':

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

414

for key, value in m.groupdict().iteritems():

415

if value is not None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

416

yield lineno, key, value

417

lineno += value.count('\n')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

418

break

419

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

420

raise RuntimeError('%r wanted to resolve '

421

'the token dynamically'

422

' but no group matched'

423

% regex)

424

# normal group

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

425

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

426

data = m.group(idx + 1)

427

if data:

428

yield lineno, token, data

429

lineno += data.count('\n')

430

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

431

# strings as token just are yielded as it.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

432

else:

433

data = m.group()

434

# update brace/parentheses balance

435

if tokens == 'operator':

436

if data == '{':

437

balancing_stack.append('}')

438

elif data == '(':

439

balancing_stack.append(')')

440

elif data == '[':

441

balancing_stack.append(']')

442

elif data in ('}', ')', ']'):

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

443

if not balancing_stack:

444

raise TemplateSyntaxError('unexpected "%s"' %

445

data, lineno,

446

filename)

447

expected_op = balancing_stack.pop()

448

if expected_op != data:

449

raise TemplateSyntaxError('unexpected "%s", '

450

'expected "%s"' %

451

(data, expected_op),

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

452

lineno, filename)

453

# yield items

454

if tokens is not None:

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

455

yield lineno, tokens, data

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

456

lineno += data.count('\n')

457

458

# fetch new position into new variable so that we can check

459

# if there is a internal parsing error which would result

460

# in an infinite loop

461

pos2 = m.end()

462

463

# handle state changes

464

if new_state is not None:

465

# remove the uppermost state

466

if new_state == '#pop':

467

stack.pop()

468

# resolve the new state by group checking

469

elif new_state == '#bygroup':

470

for key, value in m.groupdict().iteritems():

471

if value is not None:

stack.append(key)

break

else:

raise RuntimeError('%r wanted to resolve the '

476

'new state dynamically but'

477

' no group matched' %

478

regex)

479

# direct state name given

480

else:

481

stack.append(new_state)

482

statetokens = self.rules[stack[-1]]

483

# we are still at the same position and no stack change.

484

# this means a loop without break condition, avoid that and

485

# raise error

486

elif pos2 == pos:

487

raise RuntimeError('%r yielded empty string without '

488

'stack change' % regex)

489

# publish new function and start again

490

pos = pos2

491

break

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

492

# if loop terminated without break we havn't found a single match

493

# either we are at the end of the file or we have a problem

494

else:

495

# end of text

496

if pos >= source_length:

497

return

498

# something went wrong

499

raise TemplateSyntaxError('unexpected char %r at %d' %

Armin Ronacher