Blame - jinja2/lexer.py - platform/external/python/jinja

2007-02-26 22:17:32 +0100

[diff] [blame]

1

# -*- coding: utf-8 -*-

2

"""

Armin Ronacher

07bc684

2008-03-31 14:18:49 +0200

[diff] [blame]

3

jinja2.lexer

4

~~~~~~~~~~~~

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

5

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

6

This module implements a Jinja / Python combination lexer. The

7

`Lexer` class provided by this module is used to do some preprocessing

8

for Jinja.

9

10

On the one hand it filters out invalid operators like the bitshift

11

operators we don't allow in templates. On the other hand it separates

12

template code and python code in expressions.

13

Armin Ronacher

62ccd1b

2009-01-04 14:26:19 +0100

[diff] [blame]

14

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

15

:license: BSD, see LICENSE for more details.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

16

"""

17

import re

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

18

from operator import itemgetter

19

from collections import deque

Armin Ronacher

82b3f3d

2008-03-31 20:01:08 +0200

[diff] [blame]

20

from jinja2.exceptions import TemplateSyntaxError

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

21

from jinja2.utils import LRUCache

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

22

23

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

24

# cache for the lexers. Exists in order to be able to have multiple

25

# environments with the same lexer

Armin Ronacher

187bde1

2008-05-01 18:19:16 +0200

[diff] [blame]

26

_lexer_cache = LRUCache(50)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

27

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

28

# static regular expressions

Armin Ronacher

9a0078d

2008-08-13 18:24:17 +0200

[diff] [blame]

29

whitespace_re = re.compile(r'\s+', re.U)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

30

string_re = re.compile(r"('([^'\\]*(?:\\.[^'\\]*)*)'"

Armin Ronacher

9a0078d

2008-08-13 18:24:17 +0200

[diff] [blame]

31

r'|"([^"\\]*(?:\\.[^"\\]*)*)")', re.S)

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

32

integer_re = re.compile(r'\d+')

Armin Ronacher

d1ff858

2008-05-11 00:30:43 +0200

[diff] [blame]

33

name_re = re.compile(r'\b[a-zA-Z_][a-zA-Z0-9_]*\b')

Armin Ronacher

cb1b97f

2008-09-10 14:03:53 +0200

[diff] [blame]

34

float_re = re.compile(r'(?<!\.)\d+\.\d+')

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

35

newline_re = re.compile(r'(\r\n|\r|\n)')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

36

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

37

# internal the tokens and keep references to them

38

TOKEN_ADD = intern('add')

39

TOKEN_ASSIGN = intern('assign')

40

TOKEN_COLON = intern('colon')

41

TOKEN_COMMA = intern('comma')

42

TOKEN_DIV = intern('div')

43

TOKEN_DOT = intern('dot')

44

TOKEN_EQ = intern('eq')

45

TOKEN_FLOORDIV = intern('floordiv')

46

TOKEN_GT = intern('gt')

47

TOKEN_GTEQ = intern('gteq')

48

TOKEN_LBRACE = intern('lbrace')

49

TOKEN_LBRACKET = intern('lbracket')

50

TOKEN_LPAREN = intern('lparen')

51

TOKEN_LT = intern('lt')

52

TOKEN_LTEQ = intern('lteq')

53

TOKEN_MOD = intern('mod')

54

TOKEN_MUL = intern('mul')

55

TOKEN_NE = intern('ne')

56

TOKEN_PIPE = intern('pipe')

57

TOKEN_POW = intern('pow')

58

TOKEN_RBRACE = intern('rbrace')

59

TOKEN_RBRACKET = intern('rbracket')

60

TOKEN_RPAREN = intern('rparen')

61

TOKEN_SEMICOLON = intern('semicolon')

62

TOKEN_SUB = intern('sub')

63

TOKEN_TILDE = intern('tilde')

64

TOKEN_WHITESPACE = intern('whitespace')

65

TOKEN_FLOAT = intern('float')

66

TOKEN_INTEGER = intern('integer')

67

TOKEN_NAME = intern('name')

68

TOKEN_STRING = intern('string')

69

TOKEN_OPERATOR = intern('operator')

70

TOKEN_BLOCK_BEGIN = intern('block_begin')

71

TOKEN_BLOCK_END = intern('block_end')

72

TOKEN_VARIABLE_BEGIN = intern('variable_begin')

73

TOKEN_VARIABLE_END = intern('variable_end')

74

TOKEN_RAW_BEGIN = intern('raw_begin')

75

TOKEN_RAW_END = intern('raw_end')

76

TOKEN_COMMENT_BEGIN = intern('comment_begin')

77

TOKEN_COMMENT_END = intern('comment_end')

78

TOKEN_COMMENT = intern('comment')

79

TOKEN_LINESTATEMENT_BEGIN = intern('linestatement_begin')

80

TOKEN_LINESTATEMENT_END = intern('linestatement_end')

81

TOKEN_DATA = intern('data')

82

TOKEN_INITIAL = intern('initial')

83

TOKEN_EOF = intern('eof')

84

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

85

# bind operators to token types

86

operators = {

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

'+': TOKEN_ADD,

'-': TOKEN_SUB,

'/': TOKEN_DIV,

'//': TOKEN_FLOORDIV,

'*': TOKEN_MUL,

'%': TOKEN_MOD,

'**': TOKEN_POW,

'~': TOKEN_TILDE,

'[': TOKEN_LBRACKET,

']': TOKEN_RBRACKET,

'(': TOKEN_LPAREN,

')': TOKEN_RPAREN,

'{': TOKEN_LBRACE,

'}': TOKEN_RBRACE,

'==': TOKEN_EQ,

'!=': TOKEN_NE,

'>': TOKEN_GT,

'>=': TOKEN_GTEQ,

'<': TOKEN_LT,

'<=': TOKEN_LTEQ,

'=': TOKEN_ASSIGN,

'.': TOKEN_DOT,

':': TOKEN_COLON,

'|': TOKEN_PIPE,

',': TOKEN_COMMA,

';': TOKEN_SEMICOLON

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

113

}

114

115

reverse_operators = dict([(v, k) for k, v in operators.iteritems()])

116

assert len(operators) == len(reverse_operators), 'operators dropped'

Armin Ronacher

e791c2a

2008-04-07 18:39:54 +0200

[diff] [blame]

117

operator_re = re.compile('(%s)' % '|'.join(re.escape(x) for x in

118

sorted(operators, key=lambda x: -len(x))))

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

119

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

120

Armin Ronacher

d02fc7d

2008-06-14 14:19:47 +0200

[diff] [blame]

121

def count_newlines(value):

122

"""Count the number of newline characters in the string. This is

123

useful for extensions that filter a stream.

124

"""

125

return len(newline_re.findall(value))

126

127

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

128

class Failure(object):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

129

"""Class that raises a `TemplateSyntaxError` if called.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

130

Used by the `Lexer` to specify known errors.

131

"""

132

133

def __init__(self, message, cls=TemplateSyntaxError):

134

self.message = message

135

self.error_class = cls

136

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

137

def __call__(self, lineno, filename):

138

raise self.error_class(self.message, lineno, filename)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

139

140

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

class Token(tuple):

"""Token class."""

__slots__ = ()

lineno, type, value = (property(itemgetter(x)) for x in range(3))

145

146

def __new__(cls, lineno, type, value):

147

return tuple.__new__(cls, (lineno, intern(str(type)), value))

148

149

def __str__(self):

Armin Ronacher

8a1d27f

2008-05-19 08:37:19 +0200

[diff] [blame]

150

if self.type in reverse_operators:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

151

return reverse_operators[self.type]

Ali Afshar

272ca2a

2009-01-05 12:14:14 +0100

[diff] [blame]

152

elif self.type == 'name':

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return self.value

return self.type

def test(self, expr):

157

"""Test a token against a token expression. This can either be a

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

158

token type or ``'token_type:token_value'``. This can only test

159

against string values and types.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

160

"""

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

161

# here we do a regular string equality check as test_any is usually

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

162

# passed an iterable of not interned strings.

163

if self.type == expr:

164

return True

165

elif ':' in expr:

166

return expr.split(':', 1) == [self.type, self.value]

167

return False

168

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

169

def test_any(self, *iterable):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

170

"""Test against multiple token expressions."""

171

for expr in iterable:

if self.test(expr):

return True

return False

def __repr__(self):

return 'Token(%r, %r, %r)' % (

self.lineno,

self.type,

self.value

)

class TokenStreamIterator(object):

185

"""The iterator for tokenstreams. Iterate over the stream

186

until the eof token is reached.

187

"""

188

189

def __init__(self, stream):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

190

self.stream = stream

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

def __iter__(self):

return self

def next(self):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

196

token = self.stream.current

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

197

if token.type is TOKEN_EOF:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

198

self.stream.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

199

raise StopIteration()

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

200

self.stream.next()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return token

class TokenStream(object):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

205

"""A token stream is an iterable that yields :class:`Token`\s. The

206

parser however does not iterate over it but calls :meth:`next` to go

207

one token ahead. The current active token is stored as :attr:`current`.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

208

"""

209

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

210

def __init__(self, generator, name, filename):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

211

self._next = iter(generator).next

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

212

self._pushed = deque()

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

213

self.name = name

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

214

self.filename = filename

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

215

self.closed = False

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

216

self.current = Token(1, TOKEN_INITIAL, '')

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

self.next()

def __iter__(self):

return TokenStreamIterator(self)

221

222

def __nonzero__(self):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

223

"""Are we at the end of the stream?"""

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

224

return bool(self._pushed) or self.current.type is not TOKEN_EOF

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

225

226

eos = property(lambda x: not x.__nonzero__(), doc=__nonzero__.__doc__)

227

228

def push(self, token):

229

"""Push a token back to the stream."""

230

self._pushed.append(token)

231

232

def look(self):

233

"""Look at the next token."""

234

old_token = self.next()

235

result = self.current

236

self.push(result)

237

self.current = old_token

238

return result

239

Armin Ronacher

ea847c5

2008-05-02 20:04:32 +0200

[diff] [blame]

240

def skip(self, n=1):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

241

"""Got n tokens ahead."""

for x in xrange(n):

self.next()

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

245

def next_if(self, expr):

246

"""Perform the token test and return the token if it matched.

247

Otherwise the return value is `None`.

248

"""

249

if self.current.test(expr):

250

return self.next()

251

252

def skip_if(self, expr):

Armin Ronacher

9cf9591

2008-05-24 19:54:43 +0200

[diff] [blame]

253

"""Like :meth:`next_if` but only returns `True` or `False`."""

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

254

return self.next_if(expr) is not None

255

256

def next(self):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

257

"""Go one token ahead and return the old one"""

258

rv = self.current

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

259

if self._pushed:

260

self.current = self._pushed.popleft()

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

261

elif self.current.type is not TOKEN_EOF:

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

262

try:

263

self.current = self._next()

264

except StopIteration:

265

self.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return rv

def close(self):

"""Close the stream."""

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

270

self.current = Token(self.current.lineno, TOKEN_EOF, '')

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

271

self._next = None

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

272

self.closed = True

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

273

274

def expect(self, expr):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

275

"""Expect a given token type and return it. This accepts the same

276

argument as :meth:`jinja2.lexer.Token.test`.

277

"""

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

278

if not self.current.test(expr):

279

if ':' in expr:

280

expr = expr.split(':')[1]

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

281

if self.current.type is TOKEN_EOF:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

282

raise TemplateSyntaxError('unexpected end of template, '

283

'expected %r.' % expr,

284

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

285

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

286

raise TemplateSyntaxError("expected token %r, got %r" %

287

(expr, str(self.current)),

288

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

289

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

try:

return self.current

finally:

self.next()

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

296

def get_lexer(environment):

297

"""Return a lexer which is probably cached."""

298

key = (environment.block_start_string,

299

environment.block_end_string,

300

environment.variable_start_string,

301

environment.variable_end_string,

302

environment.comment_start_string,

303

environment.comment_end_string,

304

environment.line_statement_prefix,

305

environment.trim_blocks,

306

environment.newline_sequence)

307

lexer = _lexer_cache.get(key)

308

if lexer is None:

309

lexer = Lexer(environment)

310

_lexer_cache[key] = lexer

311

return lexer

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

312

313

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

314

class Lexer(object):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

315

"""Class that implements a lexer for a given environment. Automatically

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

316

created by the environment class, usually you don't have to do that.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

317

318

Note that the lexer is not automatically bound to an environment.

319

Multiple environments can share the same lexer.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

320

"""

321

322

def __init__(self, environment):

323

# shortcuts

324

c = lambda x: re.compile(x, re.M | re.S)

325

e = re.escape

326

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

327

# lexing rules for tags

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

328

tag_rules = [

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

329

(whitespace_re, TOKEN_WHITESPACE, None),

330

(float_re, TOKEN_FLOAT, None),

331

(integer_re, TOKEN_INTEGER, None),

332

(name_re, TOKEN_NAME, None),

333

(string_re, TOKEN_STRING, None),

334

(operator_re, TOKEN_OPERATOR, None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

335

]

336

Armin Ronacher

2007-02-27 20:51:59 +0100

[diff] [blame]

337

# assamble the root lexing rule. because "|" is ungreedy

338

# we have to sort by length so that the lexer continues working

339

# as expected when we have parsing rules like <% for block and

340

# <%= for variables. (if someone wants asp like syntax)

Armin Ronacher

33d528a

2007-05-14 18:21:44 +0200

[diff] [blame]

341

# variables are just part of the rules if variable processing

342

# is required.

Armin Ronacher

2007-02-27 20:51:59 +0100

[diff] [blame]

343

root_tag_rules = [

344

('comment', environment.comment_start_string),

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

345

('block', environment.block_start_string),

346

('variable', environment.variable_start_string)

Armin Ronacher

2007-02-27 20:51:59 +0100

[diff] [blame]

347

]

Armin Ronacher

4f7d2d5

2008-04-22 10:40:26 +0200

[diff] [blame]

348

root_tag_rules.sort(key=lambda x: -len(x[1]))

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

349

350

# now escape the rules. This is done here so that the escape

351

# signs don't count for the lengths of the tags.

352

root_tag_rules = [(a, e(b)) for a, b in root_tag_rules]

353

354

# if we have a line statement prefix we need an extra rule for

355

# that. We add this rule *after* all the others.

356

if environment.line_statement_prefix is not None:

357

prefix = e(environment.line_statement_prefix)

358

root_tag_rules.insert(0, ('linestatement', '^\s*' + prefix))

Armin Ronacher

2007-02-27 20:51:59 +0100

[diff] [blame]

359

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

360

# block suffix if trimming is enabled

361

block_suffix_re = environment.trim_blocks and '\\n?' or ''

362

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

363

self.newline_sequence = environment.newline_sequence

364

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

365

# global lexing rules

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

366

self.rules = {

367

'root': [

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

368

# directives

369

(c('(.*?)(?:%s)' % '|'.join(

370

['(?P<raw_begin>(?:\s*%s\-|%s)\s*raw\s*%s)' % (

371

e(environment.block_start_string),

372

e(environment.block_start_string),

373

e(environment.block_end_string)

374

)] + [

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

375

'(?P<%s_begin>\s*%s\-|%s)' % (n, r, r)

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

376

for n, r in root_tag_rules

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

377

])), (TOKEN_DATA, '#bygroup'), '#bygroup'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

378

# data

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

379

(c('.+'), 'data', None)

380

],

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

381

# comments

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

382

TOKEN_COMMENT_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

383

(c(r'(.*?)((?:\-%s\s*|%s)%s)' % (

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

384

e(environment.comment_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

385

e(environment.comment_end_string),

386

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

387

)), (TOKEN_COMMENT, TOKEN_COMMENT_END), '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

388

(c('(.)'), (Failure('Missing end of comment tag'),), None)

389

],

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

390

# blocks

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

391

TOKEN_BLOCK_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

392

(c('(?:\-%s\s*|%s)%s' % (

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

393

e(environment.block_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

394

e(environment.block_end_string),

395

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

396

)), TOKEN_BLOCK_END, '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

397

] + tag_rules,

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

398

# variables

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

399

TOKEN_VARIABLE_BEGIN: [

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

400

(c('\-%s\s*|%s' % (

401

e(environment.variable_end_string),

402

e(environment.variable_end_string)

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

403

)), TOKEN_VARIABLE_END, '#pop')

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

404

] + tag_rules,

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

405

# raw block

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

406

TOKEN_RAW_BEGIN: [

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

407

(c('(.*?)((?:\s*%s\-|%s)\s*endraw\s*(?:\-%s\s*|%s%s))' % (

408

e(environment.block_start_string),

409

e(environment.block_start_string),

410

e(environment.block_end_string),

411

e(environment.block_end_string),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

412

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

413

)), (TOKEN_DATA, TOKEN_RAW_END), '#pop'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

414

(c('(.)'), (Failure('Missing end of raw directive'),), None)

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

415

],

416

# line statements

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame^]

417

TOKEN_LINESTATEMENT_BEGIN: [

418

(c(r'\s*(\n|$)'), TOKEN_LINESTATEMENT_END, '#pop')

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

419

] + tag_rules

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

420

}

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

421

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

422

def _normalize_newlines(self, value):

423

"""Called for strings and template data to normlize it to unicode."""

424

return newline_re.sub(self.newline_sequence, value)

425

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

426

def tokenize(self, source, name=None, filename=None, state=None):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

427

"""Calls tokeniter + tokenize and wraps it in a token stream.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

428

"""

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

429

stream = self.tokeniter(source, name, filename, state)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

430

return TokenStream(self.wrap(stream, name, filename), name, filename)

431

432

def wrap(self, stream, name=None, filename=None):

433

"""This is called with the stream as returned by `tokenize` and wraps

434

every token in a :class:`Token` and converts the value.

435

"""

436

for lineno, token, value in stream:

437

if token in ('comment_begin', 'comment', 'comment_end',

438

'whitespace'):

439

continue

440

elif token == 'linestatement_begin':

441

token = 'block_begin'

442

elif token == 'linestatement_end':

443

token = 'block_end'

444

# we are not interested in those tokens in the parser

445

elif token in ('raw_begin', 'raw_end'):

446

continue

447

elif token == 'data':

448

value = self._normalize_newlines(value)

449

elif token == 'keyword':

450

token = value

451

elif token == 'name':

452

value = str(value)

453

elif token == 'string':

454

# try to unescape string

455

try:

456

value = self._normalize_newlines(value[1:-1]) \

457

.encode('ascii', 'backslashreplace') \

458

.decode('unicode-escape')

459

except Exception, e:

460

msg = str(e).split(':')[-1].strip()

461

raise TemplateSyntaxError(msg, lineno, name, filename)

462

# if we can express it as bytestring (ascii only)

463

# we do that for support of semi broken APIs

464

# as datetime.datetime.strftime

465

try:

Armin Ronacher

d1ff858

2008-05-11 00:30:43 +0200

[diff] [blame]

466

value = str(value)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

467

except UnicodeError:

468

pass

469

elif token == 'integer':

470

value = int(value)

471

elif token == 'float':

472

value = float(value)

473

elif token == 'operator':

474

token = operators[value]

475

yield Token(lineno, token, value)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

476

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

477

def tokeniter(self, source, name, filename=None, state=None):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

478

"""This method tokenizes the text and returns the tokens in a

479

generator. Use this method if you just want to tokenize a template.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

480

"""

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

481

source = '\n'.join(unicode(source).splitlines())

Armin Ronacher

7977e5c

2007-03-12 07:22:17 +0100

[diff] [blame]

482

pos = 0

483

lineno = 1

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

484

stack = ['root']

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

485

if state is not None and state != 'root':

486

assert state in ('variable', 'block'), 'invalid state'

487

stack.append(state + '_begin')

488

else:

489

state = 'root'

490

statetokens = self.rules[stack[-1]]

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

491

source_length = len(source)

492

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

493

balancing_stack = []

494

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

495

while 1:

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

496

# tokenizer loop

497

for regex, tokens, new_state in statetokens:

498

m = regex.match(source, pos)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

499

# if no match we try again with the next rule

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

500

if m is None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

501

continue

502

503

# we only match blocks and variables if brances / parentheses

504

# are balanced. continue parsing with the lower rule which

505

# is the operator rule. do this only if the end tags look

506

# like operators

507

if balancing_stack and \

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

508

tokens in ('variable_end', 'block_end',

509

'linestatement_end'):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

510

continue

511

512

# tuples support more options

513

if isinstance(tokens, tuple):

514

for idx, token in enumerate(tokens):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

515

# failure group

Armin Ronacher

d8b8c3e

2008-05-22 21:28:32 +0200

[diff] [blame]

516

if token.__class__ is Failure:

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

517

raise token(lineno, filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

518

# bygroup is a bit more complex, in that case we

519

# yield for the current token the first named

520

# group that matched

521

elif token == '#bygroup':

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

522

for key, value in m.groupdict().iteritems():

523

if value is not None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

524

yield lineno, key, value

525

lineno += value.count('\n')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

526

break

527

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

528

raise RuntimeError('%r wanted to resolve '

529

'the token dynamically'

530

' but no group matched'

531

% regex)

532

# normal group

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

533

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

534

data = m.group(idx + 1)

535

if data:

536

yield lineno, token, data

537

lineno += data.count('\n')

538

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

539

# strings as token just are yielded as it.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

540

else:

541

data = m.group()

542

# update brace/parentheses balance

543

if tokens == 'operator':

544

if data == '{':

545

balancing_stack.append('}')

546

elif data == '(':

547

balancing_stack.append(')')

548

elif data == '[':

549

balancing_stack.append(']')

550

elif data in ('}', ')', ']'):

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

551

if not balancing_stack:

552

raise TemplateSyntaxError('unexpected "%s"' %

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

553

data, lineno, name,

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

554

filename)

555

expected_op = balancing_stack.pop()

556

if expected_op != data:

557

raise TemplateSyntaxError('unexpected "%s", '

558

'expected "%s"' %

559

(data, expected_op),

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

560

lineno, name,

561

filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

562

# yield items

Armin Ronacher

d8b8c3e

2008-05-22 21:28:32 +0200

[diff] [blame]

563

yield lineno, tokens, data

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

564

lineno += data.count('\n')

565

566

# fetch new position into new variable so that we can check

567

# if there is a internal parsing error which would result

568

# in an infinite loop

569

pos2 = m.end()

570

571

# handle state changes

572

if new_state is not None:

573

# remove the uppermost state

574

if new_state == '#pop':

575

stack.pop()

576

# resolve the new state by group checking

577

elif new_state == '#bygroup':

578

for key, value in m.groupdict().iteritems():

579

if value is not None:

stack.append(key)

break

else:

raise RuntimeError('%r wanted to resolve the '

584

'new state dynamically but'

585

' no group matched' %

586

regex)

587

# direct state name given

588

else:

589

stack.append(new_state)

590

statetokens = self.rules[stack[-1]]

591

# we are still at the same position and no stack change.

592

# this means a loop without break condition, avoid that and

593

# raise error

594

elif pos2 == pos:

595

raise RuntimeError('%r yielded empty string without '

596

'stack change' % regex)

597

# publish new function and start again

598

pos = pos2

599

break

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

600

# if loop terminated without break we havn't found a single match

601

# either we are at the end of the file or we have a problem

602

else:

603

# end of text

604

if pos >= source_length:

605

return

606

# something went wrong

607

raise TemplateSyntaxError('unexpected char %r at %d' %

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

608

(source[pos], pos), lineno,

Armin Ronacher