Blame - jinja2/lexer.py - platform/external/python/jinja

2007-02-26 22:17:32 +0100

[diff] [blame]

1

# -*- coding: utf-8 -*-

2

"""

Armin Ronacher

07bc684

2008-03-31 14:18:49 +0200

[diff] [blame]

3

jinja2.lexer

4

~~~~~~~~~~~~

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

5

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

6

This module implements a Jinja / Python combination lexer. The

7

`Lexer` class provided by this module is used to do some preprocessing

8

for Jinja.

9

10

On the one hand it filters out invalid operators like the bitshift

11

operators we don't allow in templates. On the other hand it separates

12

template code and python code in expressions.

13

Armin Ronacher

62ccd1b

2009-01-04 14:26:19 +0100

[diff] [blame]

14

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

15

:license: BSD, see LICENSE for more details.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

16

"""

17

import re

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

18

from operator import itemgetter

19

from collections import deque

Armin Ronacher

82b3f3d

2008-03-31 20:01:08 +0200

[diff] [blame]

20

from jinja2.exceptions import TemplateSyntaxError

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

21

from jinja2.utils import LRUCache

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

22

23

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

24

# cache for the lexers. Exists in order to be able to have multiple

25

# environments with the same lexer

Armin Ronacher

187bde1

2008-05-01 18:19:16 +0200

[diff] [blame]

26

_lexer_cache = LRUCache(50)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

27

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

28

# static regular expressions

Armin Ronacher

9a0078d

2008-08-13 18:24:17 +0200

[diff] [blame]

29

whitespace_re = re.compile(r'\s+', re.U)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

30

string_re = re.compile(r"('([^'\\]*(?:\\.[^'\\]*)*)'"

Armin Ronacher

9a0078d

2008-08-13 18:24:17 +0200

[diff] [blame]

31

r'|"([^"\\]*(?:\\.[^"\\]*)*)")', re.S)

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

32

integer_re = re.compile(r'\d+')

Armin Ronacher

d1ff858

2008-05-11 00:30:43 +0200

[diff] [blame]

33

name_re = re.compile(r'\b[a-zA-Z_][a-zA-Z0-9_]*\b')

Armin Ronacher

cb1b97f

2008-09-10 14:03:53 +0200

[diff] [blame]

34

float_re = re.compile(r'(?<!\.)\d+\.\d+')

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

35

newline_re = re.compile(r'(\r\n|\r|\n)')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

36

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

37

# internal the tokens and keep references to them

38

TOKEN_ADD = intern('add')

39

TOKEN_ASSIGN = intern('assign')

40

TOKEN_COLON = intern('colon')

41

TOKEN_COMMA = intern('comma')

42

TOKEN_DIV = intern('div')

43

TOKEN_DOT = intern('dot')

44

TOKEN_EQ = intern('eq')

45

TOKEN_FLOORDIV = intern('floordiv')

46

TOKEN_GT = intern('gt')

47

TOKEN_GTEQ = intern('gteq')

48

TOKEN_LBRACE = intern('lbrace')

49

TOKEN_LBRACKET = intern('lbracket')

50

TOKEN_LPAREN = intern('lparen')

51

TOKEN_LT = intern('lt')

52

TOKEN_LTEQ = intern('lteq')

53

TOKEN_MOD = intern('mod')

54

TOKEN_MUL = intern('mul')

55

TOKEN_NE = intern('ne')

56

TOKEN_PIPE = intern('pipe')

57

TOKEN_POW = intern('pow')

58

TOKEN_RBRACE = intern('rbrace')

59

TOKEN_RBRACKET = intern('rbracket')

60

TOKEN_RPAREN = intern('rparen')

61

TOKEN_SEMICOLON = intern('semicolon')

62

TOKEN_SUB = intern('sub')

63

TOKEN_TILDE = intern('tilde')

64

TOKEN_WHITESPACE = intern('whitespace')

65

TOKEN_FLOAT = intern('float')

66

TOKEN_INTEGER = intern('integer')

67

TOKEN_NAME = intern('name')

68

TOKEN_STRING = intern('string')

69

TOKEN_OPERATOR = intern('operator')

70

TOKEN_BLOCK_BEGIN = intern('block_begin')

71

TOKEN_BLOCK_END = intern('block_end')

72

TOKEN_VARIABLE_BEGIN = intern('variable_begin')

73

TOKEN_VARIABLE_END = intern('variable_end')

74

TOKEN_RAW_BEGIN = intern('raw_begin')

75

TOKEN_RAW_END = intern('raw_end')

76

TOKEN_COMMENT_BEGIN = intern('comment_begin')

77

TOKEN_COMMENT_END = intern('comment_end')

78

TOKEN_COMMENT = intern('comment')

79

TOKEN_LINESTATEMENT_BEGIN = intern('linestatement_begin')

80

TOKEN_LINESTATEMENT_END = intern('linestatement_end')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame^]

81

TOKEN_LINECOMMENT_BEGIN = intern('linecomment_begin')

82

TOKEN_LINECOMMENT_END = intern('linecomment_end')

83

TOKEN_LINECOMMENT = intern('linecomment')

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

84

TOKEN_DATA = intern('data')

85

TOKEN_INITIAL = intern('initial')

86

TOKEN_EOF = intern('eof')

87

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

88

# bind operators to token types

89

operators = {

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

'+': TOKEN_ADD,

'-': TOKEN_SUB,

'/': TOKEN_DIV,

'//': TOKEN_FLOORDIV,

'*': TOKEN_MUL,

'%': TOKEN_MOD,

'**': TOKEN_POW,

'~': TOKEN_TILDE,

'[': TOKEN_LBRACKET,

']': TOKEN_RBRACKET,

'(': TOKEN_LPAREN,

')': TOKEN_RPAREN,

'{': TOKEN_LBRACE,

'}': TOKEN_RBRACE,

'==': TOKEN_EQ,

'!=': TOKEN_NE,

'>': TOKEN_GT,

'>=': TOKEN_GTEQ,

'<': TOKEN_LT,

'<=': TOKEN_LTEQ,

'=': TOKEN_ASSIGN,

'.': TOKEN_DOT,

':': TOKEN_COLON,

'|': TOKEN_PIPE,

',': TOKEN_COMMA,

';': TOKEN_SEMICOLON

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

116

}

117

118

reverse_operators = dict([(v, k) for k, v in operators.iteritems()])

119

assert len(operators) == len(reverse_operators), 'operators dropped'

Armin Ronacher

e791c2a

2008-04-07 18:39:54 +0200

[diff] [blame]

120

operator_re = re.compile('(%s)' % '|'.join(re.escape(x) for x in

121

sorted(operators, key=lambda x: -len(x))))

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

122

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame^]

123

ignored_tokens = frozenset([TOKEN_COMMENT_BEGIN, TOKEN_COMMENT,

124

TOKEN_COMMENT_END, TOKEN_WHITESPACE,

125

TOKEN_WHITESPACE, TOKEN_LINECOMMENT_BEGIN,

126

TOKEN_LINECOMMENT_END, TOKEN_LINECOMMENT])

127

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

128

Armin Ronacher

d02fc7d

2008-06-14 14:19:47 +0200

[diff] [blame]

129

def count_newlines(value):

130

"""Count the number of newline characters in the string. This is

131

useful for extensions that filter a stream.

132

"""

133

return len(newline_re.findall(value))

134

135

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame^]

136

def compile_rules(environment):

137

"""Compiles all the rules from the environment into a list of rules."""

138

e = re.escape

139

rules = [

140

(len(environment.comment_start_string), 'comment',

141

e(environment.comment_start_string)),

142

(len(environment.block_start_string), 'block',

143

e(environment.block_start_string)),

144

(len(environment.variable_start_string), 'variable',

145

e(environment.variable_start_string)),

146

]

147

148

if environment.line_statement_prefix is not None:

149

rules.append((len(environment.line_statement_prefix), 'linestatement',

150

'^\\s*' + e(environment.line_statement_prefix)))

151

if environment.line_comment_prefix is not None:

152

rules.append((len(environment.line_comment_prefix), 'linecomment',

153

'\\s*' + e(environment.line_comment_prefix)))

154

155

return [x[1:] for x in sorted(rules, reverse=True)]

156

157

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

158

class Failure(object):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

159

"""Class that raises a `TemplateSyntaxError` if called.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

160

Used by the `Lexer` to specify known errors.

161

"""

162

163

def __init__(self, message, cls=TemplateSyntaxError):

164

self.message = message

165

self.error_class = cls

166

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

167

def __call__(self, lineno, filename):

168

raise self.error_class(self.message, lineno, filename)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

169

170

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

class Token(tuple):

"""Token class."""

__slots__ = ()

lineno, type, value = (property(itemgetter(x)) for x in range(3))

175

176

def __new__(cls, lineno, type, value):

177

return tuple.__new__(cls, (lineno, intern(str(type)), value))

178

179

def __str__(self):

Armin Ronacher

8a1d27f

2008-05-19 08:37:19 +0200

[diff] [blame]

180

if self.type in reverse_operators:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

181

return reverse_operators[self.type]

Ali Afshar

272ca2a

2009-01-05 12:14:14 +0100

[diff] [blame]

182

elif self.type == 'name':

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return self.value

return self.type

def test(self, expr):

187

"""Test a token against a token expression. This can either be a

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

188

token type or ``'token_type:token_value'``. This can only test

189

against string values and types.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

190

"""

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

191

# here we do a regular string equality check as test_any is usually

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

192

# passed an iterable of not interned strings.

193

if self.type == expr:

194

return True

195

elif ':' in expr:

196

return expr.split(':', 1) == [self.type, self.value]

197

return False

198

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

199

def test_any(self, *iterable):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

200

"""Test against multiple token expressions."""

201

for expr in iterable:

if self.test(expr):

return True

return False

def __repr__(self):

return 'Token(%r, %r, %r)' % (

self.lineno,

self.type,

self.value

)

class TokenStreamIterator(object):

215

"""The iterator for tokenstreams. Iterate over the stream

216

until the eof token is reached.

217

"""

218

219

def __init__(self, stream):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

220

self.stream = stream

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

def __iter__(self):

return self

def next(self):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

226

token = self.stream.current

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

227

if token.type is TOKEN_EOF:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

228

self.stream.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

229

raise StopIteration()

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

230

self.stream.next()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return token

class TokenStream(object):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

235

"""A token stream is an iterable that yields :class:`Token`\s. The

236

parser however does not iterate over it but calls :meth:`next` to go

237

one token ahead. The current active token is stored as :attr:`current`.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

238

"""

239

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

240

def __init__(self, generator, name, filename):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

241

self._next = iter(generator).next

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

242

self._pushed = deque()

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

243

self.name = name

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

244

self.filename = filename

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

245

self.closed = False

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

246

self.current = Token(1, TOKEN_INITIAL, '')

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

self.next()

def __iter__(self):

return TokenStreamIterator(self)

251

252

def __nonzero__(self):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

253

"""Are we at the end of the stream?"""

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

254

return bool(self._pushed) or self.current.type is not TOKEN_EOF

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

255

256

eos = property(lambda x: not x.__nonzero__(), doc=__nonzero__.__doc__)

257

258

def push(self, token):

259

"""Push a token back to the stream."""

260

self._pushed.append(token)

261

262

def look(self):

263

"""Look at the next token."""

264

old_token = self.next()

265

result = self.current

266

self.push(result)

267

self.current = old_token

268

return result

269

Armin Ronacher

ea847c5

2008-05-02 20:04:32 +0200

[diff] [blame]

270

def skip(self, n=1):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

271

"""Got n tokens ahead."""

for x in xrange(n):

self.next()

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

275

def next_if(self, expr):

276

"""Perform the token test and return the token if it matched.

277

Otherwise the return value is `None`.

278

"""

279

if self.current.test(expr):

280

return self.next()

281

282

def skip_if(self, expr):

Armin Ronacher

9cf9591

2008-05-24 19:54:43 +0200

[diff] [blame]

283

"""Like :meth:`next_if` but only returns `True` or `False`."""

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

284

return self.next_if(expr) is not None

285

286

def next(self):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

287

"""Go one token ahead and return the old one"""

288

rv = self.current

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

289

if self._pushed:

290

self.current = self._pushed.popleft()

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

291

elif self.current.type is not TOKEN_EOF:

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

292

try:

293

self.current = self._next()

294

except StopIteration:

295

self.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return rv

def close(self):

"""Close the stream."""

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

300

self.current = Token(self.current.lineno, TOKEN_EOF, '')

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

301

self._next = None

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

302

self.closed = True

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

303

304

def expect(self, expr):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

305

"""Expect a given token type and return it. This accepts the same

306

argument as :meth:`jinja2.lexer.Token.test`.

307

"""

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

308

if not self.current.test(expr):

309

if ':' in expr:

310

expr = expr.split(':')[1]

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

311

if self.current.type is TOKEN_EOF:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

312

raise TemplateSyntaxError('unexpected end of template, '

313

'expected %r.' % expr,

314

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

315

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

316

raise TemplateSyntaxError("expected token %r, got %r" %

317

(expr, str(self.current)),

318

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

319

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

try:

return self.current

finally:

self.next()

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

326

def get_lexer(environment):

327

"""Return a lexer which is probably cached."""

328

key = (environment.block_start_string,

329

environment.block_end_string,

330

environment.variable_start_string,

331

environment.variable_end_string,

332

environment.comment_start_string,

333

environment.comment_end_string,

334

environment.line_statement_prefix,

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame^]

335

environment.line_comment_prefix,

Armin Ronacher

9a0078d

2008-08-13 18:24:17 +0200

[diff] [blame]

336

environment.trim_blocks,

337

environment.newline_sequence)

338

lexer = _lexer_cache.get(key)

339

if lexer is None:

340

lexer = Lexer(environment)

341

_lexer_cache[key] = lexer

342

return lexer

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

343

344

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

345

class Lexer(object):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

346

"""Class that implements a lexer for a given environment. Automatically

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

347

created by the environment class, usually you don't have to do that.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

348

349

Note that the lexer is not automatically bound to an environment.

350

Multiple environments can share the same lexer.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

351

"""

352

353

def __init__(self, environment):

354

# shortcuts

355

c = lambda x: re.compile(x, re.M | re.S)

356

e = re.escape

357

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

358

# lexing rules for tags

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

359

tag_rules = [

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

360

(whitespace_re, TOKEN_WHITESPACE, None),

361

(float_re, TOKEN_FLOAT, None),

362

(integer_re, TOKEN_INTEGER, None),

363

(name_re, TOKEN_NAME, None),

364

(string_re, TOKEN_STRING, None),

365

(operator_re, TOKEN_OPERATOR, None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

366

]

367

Armin Ronacher

d874fbe

2007-02-27 20:51:59 +0100

[diff] [blame]

368

# assamble the root lexing rule. because "|" is ungreedy

369

# we have to sort by length so that the lexer continues working

370

# as expected when we have parsing rules like <% for block and

371

# <%= for variables. (if someone wants asp like syntax)

Armin Ronacher

33d528a

2007-05-14 18:21:44 +0200

[diff] [blame]

372

# variables are just part of the rules if variable processing

373

# is required.

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame^]

374

root_tag_rules = compile_rules(environment)

Armin Ronacher

d874fbe

2007-02-27 20:51:59 +0100

[diff] [blame]

375

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

376

# block suffix if trimming is enabled

377

block_suffix_re = environment.trim_blocks and '\\n?' or ''

378

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

379

self.newline_sequence = environment.newline_sequence

380

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

381

# global lexing rules

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

382

self.rules = {

383

'root': [

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

384

# directives

385

(c('(.*?)(?:%s)' % '|'.join(

386

['(?P<raw_begin>(?:\s*%s\-|%s)\s*raw\s*%s)' % (

387

e(environment.block_start_string),

388

e(environment.block_start_string),

389

e(environment.block_end_string)

390

)] + [

Armin Ronacher

bf7c4ad

2008-04-12 12:02:36 +0200

[diff] [blame]

391

'(?P<%s_begin>\s*%s\-|%s)' % (n, r, r)

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

392

for n, r in root_tag_rules

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

393

])), (TOKEN_DATA, '#bygroup'), '#bygroup'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

394

# data

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

395

(c('.+'), 'data', None)

396

],

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

397

# comments

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

398

TOKEN_COMMENT_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

399

(c(r'(.*?)((?:\-%s\s*|%s)%s)' % (

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

400

e(environment.comment_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

401

e(environment.comment_end_string),

402

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

403

)), (TOKEN_COMMENT, TOKEN_COMMENT_END), '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

404

(c('(.)'), (Failure('Missing end of comment tag'),), None)

405

],

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

406

# blocks

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

407

TOKEN_BLOCK_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

408

(c('(?:\-%s\s*|%s)%s' % (

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

409

e(environment.block_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

410

e(environment.block_end_string),

411

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

412

)), TOKEN_BLOCK_END, '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

413

] + tag_rules,

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

414

# variables

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

415

TOKEN_VARIABLE_BEGIN: [

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

416

(c('\-%s\s*|%s' % (

417

e(environment.variable_end_string),

418

e(environment.variable_end_string)

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

419

)), TOKEN_VARIABLE_END, '#pop')

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

420

] + tag_rules,

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

421

# raw block

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

422

TOKEN_RAW_BEGIN: [

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

423

(c('(.*?)((?:\s*%s\-|%s)\s*endraw\s*(?:\-%s\s*|%s%s))' % (

424

e(environment.block_start_string),

425

e(environment.block_start_string),

426

e(environment.block_end_string),

427

e(environment.block_end_string),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

428

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

429

)), (TOKEN_DATA, TOKEN_RAW_END), '#pop'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

430

(c('(.)'), (Failure('Missing end of raw directive'),), None)

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

431

],

432

# line statements

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

433

TOKEN_LINESTATEMENT_BEGIN: [

434

(c(r'\s*(\n|$)'), TOKEN_LINESTATEMENT_END, '#pop')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame^]

435

] + tag_rules,

436

# line comments

437

TOKEN_LINECOMMENT_BEGIN: [

438

(c(r'.*?(?=\n|$)'), TOKEN_LINECOMMENT_END, '#pop')

439

]

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

440

}

Armin Ronacher

bf7c4ad

2008-04-12 12:02:36 +0200

[diff] [blame]

441

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

442

def _normalize_newlines(self, value):

443

"""Called for strings and template data to normlize it to unicode."""

444

return newline_re.sub(self.newline_sequence, value)

445

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

446

def tokenize(self, source, name=None, filename=None, state=None):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

447

"""Calls tokeniter + tokenize and wraps it in a token stream.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

448

"""

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

449

stream = self.tokeniter(source, name, filename, state)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

450

return TokenStream(self.wrap(stream, name, filename), name, filename)

451

452

def wrap(self, stream, name=None, filename=None):

453

"""This is called with the stream as returned by `tokenize` and wraps

454

every token in a :class:`Token` and converts the value.

455

"""

456

for lineno, token, value in stream:

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame^]

457

if token in ignored_tokens:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

458

continue

459

elif token == 'linestatement_begin':

460

token = 'block_begin'

461

elif token == 'linestatement_end':

462

token = 'block_end'

463

# we are not interested in those tokens in the parser

464

elif token in ('raw_begin', 'raw_end'):

465

continue

466

elif token == 'data':

467

value = self._normalize_newlines(value)

468

elif token == 'keyword':

469

token = value

470

elif token == 'name':

471

value = str(value)

472

elif token == 'string':

473

# try to unescape string

474

try:

475

value = self._normalize_newlines(value[1:-1]) \

476

.encode('ascii', 'backslashreplace') \

477

.decode('unicode-escape')

478

except Exception, e:

479

msg = str(e).split(':')[-1].strip()

480

raise TemplateSyntaxError(msg, lineno, name, filename)

481

# if we can express it as bytestring (ascii only)

482

# we do that for support of semi broken APIs

483

# as datetime.datetime.strftime

484

try:

Armin Ronacher

d1ff858

2008-05-11 00:30:43 +0200

[diff] [blame]

485

value = str(value)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

486

except UnicodeError:

487

pass

488

elif token == 'integer':

489

value = int(value)

490

elif token == 'float':

491

value = float(value)

492

elif token == 'operator':

493

token = operators[value]

494

yield Token(lineno, token, value)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

495

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

496

def tokeniter(self, source, name, filename=None, state=None):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

497

"""This method tokenizes the text and returns the tokens in a

498

generator. Use this method if you just want to tokenize a template.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

499

"""

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

500

source = '\n'.join(unicode(source).splitlines())

Armin Ronacher

7977e5c

2007-03-12 07:22:17 +0100

[diff] [blame]

501

pos = 0

502

lineno = 1

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

503

stack = ['root']

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

504

if state is not None and state != 'root':

505

assert state in ('variable', 'block'), 'invalid state'

506

stack.append(state + '_begin')

507

else:

508

state = 'root'

509

statetokens = self.rules[stack[-1]]

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

510

source_length = len(source)

511

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

512

balancing_stack = []

513

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

514

while 1:

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

515

# tokenizer loop

516

for regex, tokens, new_state in statetokens:

517

m = regex.match(source, pos)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

518

# if no match we try again with the next rule

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

519

if m is None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

520

continue

521

522

# we only match blocks and variables if brances / parentheses

523

# are balanced. continue parsing with the lower rule which

524

# is the operator rule. do this only if the end tags look

525

# like operators

526

if balancing_stack and \

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

527

tokens in ('variable_end', 'block_end',

528

'linestatement_end'):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

529

continue

530

531

# tuples support more options

532

if isinstance(tokens, tuple):

533

for idx, token in enumerate(tokens):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

534

# failure group

Armin Ronacher

d8b8c3e

2008-05-22 21:28:32 +0200

[diff] [blame]

535

if token.__class__ is Failure:

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

536

raise token(lineno, filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

537

# bygroup is a bit more complex, in that case we

538

# yield for the current token the first named

539

# group that matched

540

elif token == '#bygroup':

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

541

for key, value in m.groupdict().iteritems():

542

if value is not None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

543

yield lineno, key, value

544

lineno += value.count('\n')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

545

break

546

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

547

raise RuntimeError('%r wanted to resolve '

548

'the token dynamically'

549

' but no group matched'

550

% regex)

551

# normal group

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

552

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

553

data = m.group(idx + 1)

554

if data:

555

yield lineno, token, data

556

lineno += data.count('\n')

557

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

558

# strings as token just are yielded as it.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

559

else:

560

data = m.group()

561

# update brace/parentheses balance

562

if tokens == 'operator':

563

if data == '{':

564

balancing_stack.append('}')

565

elif data == '(':

566

balancing_stack.append(')')

567

elif data == '[':

568

balancing_stack.append(']')

569

elif data in ('}', ')', ']'):

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

570

if not balancing_stack:

571

raise TemplateSyntaxError('unexpected "%s"' %

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

572

data, lineno, name,

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

573

filename)

574

expected_op = balancing_stack.pop()

575

if expected_op != data:

576

raise TemplateSyntaxError('unexpected "%s", '

577

'expected "%s"' %

578

(data, expected_op),

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

579

lineno, name,

580

filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

581

# yield items

Armin Ronacher

d8b8c3e

2008-05-22 21:28:32 +0200

[diff] [blame]

582

yield lineno, tokens, data

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

583

lineno += data.count('\n')

584

585

# fetch new position into new variable so that we can check

586

# if there is a internal parsing error which would result

587

# in an infinite loop

588

pos2 = m.end()

589

590

# handle state changes

591

if new_state is not None:

592

# remove the uppermost state

593

if new_state == '#pop':

594

stack.pop()

595

# resolve the new state by group checking

596

elif new_state == '#bygroup':

597

for key, value in m.groupdict().iteritems():

598

if value is not None:

stack.append(key)

break

else:

raise RuntimeError('%r wanted to resolve the '

603

'new state dynamically but'

604

' no group matched' %

605

regex)

606

# direct state name given

607

else:

608

stack.append(new_state)

609

statetokens = self.rules[stack[-1]]

610

# we are still at the same position and no stack change.

611

# this means a loop without break condition, avoid that and

612

# raise error

613

elif pos2 == pos:

614

raise RuntimeError('%r yielded empty string without '

615

'stack change' % regex)

616

# publish new function and start again

617

pos = pos2

618

break

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

619

# if loop terminated without break we havn't found a single match

620

# either we are at the end of the file or we have a problem

621

else:

622

# end of text

623

if pos >= source_length:

624

return

625

# something went wrong

626

raise TemplateSyntaxError('unexpected char %r at %d' %

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

627

(source[pos], pos), lineno,

Armin Ronacher