Blame - jinja2/lexer.py - platform/external/python/jinja

2007-02-26 22:17:32 +0100

[diff] [blame]

1

# -*- coding: utf-8 -*-

2

"""

Armin Ronacher

07bc684

2008-03-31 14:18:49 +0200

[diff] [blame]

3

jinja2.lexer

4

~~~~~~~~~~~~

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

5

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

6

This module implements a Jinja / Python combination lexer. The

7

`Lexer` class provided by this module is used to do some preprocessing

8

for Jinja.

9

10

On the one hand it filters out invalid operators like the bitshift

11

operators we don't allow in templates. On the other hand it separates

12

template code and python code in expressions.

13

Armin Ronacher

62ccd1b

2009-01-04 14:26:19 +0100

[diff] [blame]

14

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

15

:license: BSD, see LICENSE for more details.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

16

"""

17

import re

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

18

from operator import itemgetter

19

from collections import deque

Armin Ronacher

82b3f3d

2008-03-31 20:01:08 +0200

[diff] [blame]

20

from jinja2.exceptions import TemplateSyntaxError

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

21

from jinja2.utils import LRUCache

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

22

23

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

24

# cache for the lexers. Exists in order to be able to have multiple

25

# environments with the same lexer

Armin Ronacher

187bde1

2008-05-01 18:19:16 +0200

[diff] [blame]

26

_lexer_cache = LRUCache(50)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

27

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

28

# static regular expressions

Armin Ronacher

9a0078d

2008-08-13 18:24:17 +0200

[diff] [blame]

29

whitespace_re = re.compile(r'\s+', re.U)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

30

string_re = re.compile(r"('([^'\\]*(?:\\.[^'\\]*)*)'"

Armin Ronacher

9a0078d

2008-08-13 18:24:17 +0200

[diff] [blame]

31

r'|"([^"\\]*(?:\\.[^"\\]*)*)")', re.S)

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

32

integer_re = re.compile(r'\d+')

Armin Ronacher

d1ff858

2008-05-11 00:30:43 +0200

[diff] [blame]

33

name_re = re.compile(r'\b[a-zA-Z_][a-zA-Z0-9_]*\b')

Armin Ronacher

cb1b97f

2008-09-10 14:03:53 +0200

[diff] [blame]

34

float_re = re.compile(r'(?<!\.)\d+\.\d+')

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

35

newline_re = re.compile(r'(\r\n|\r|\n)')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

36

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

37

# internal the tokens and keep references to them

38

TOKEN_ADD = intern('add')

39

TOKEN_ASSIGN = intern('assign')

40

TOKEN_COLON = intern('colon')

41

TOKEN_COMMA = intern('comma')

42

TOKEN_DIV = intern('div')

43

TOKEN_DOT = intern('dot')

44

TOKEN_EQ = intern('eq')

45

TOKEN_FLOORDIV = intern('floordiv')

46

TOKEN_GT = intern('gt')

47

TOKEN_GTEQ = intern('gteq')

48

TOKEN_LBRACE = intern('lbrace')

49

TOKEN_LBRACKET = intern('lbracket')

50

TOKEN_LPAREN = intern('lparen')

51

TOKEN_LT = intern('lt')

52

TOKEN_LTEQ = intern('lteq')

53

TOKEN_MOD = intern('mod')

54

TOKEN_MUL = intern('mul')

55

TOKEN_NE = intern('ne')

56

TOKEN_PIPE = intern('pipe')

57

TOKEN_POW = intern('pow')

58

TOKEN_RBRACE = intern('rbrace')

59

TOKEN_RBRACKET = intern('rbracket')

60

TOKEN_RPAREN = intern('rparen')

61

TOKEN_SEMICOLON = intern('semicolon')

62

TOKEN_SUB = intern('sub')

63

TOKEN_TILDE = intern('tilde')

64

TOKEN_WHITESPACE = intern('whitespace')

65

TOKEN_FLOAT = intern('float')

66

TOKEN_INTEGER = intern('integer')

67

TOKEN_NAME = intern('name')

68

TOKEN_STRING = intern('string')

69

TOKEN_OPERATOR = intern('operator')

70

TOKEN_BLOCK_BEGIN = intern('block_begin')

71

TOKEN_BLOCK_END = intern('block_end')

72

TOKEN_VARIABLE_BEGIN = intern('variable_begin')

73

TOKEN_VARIABLE_END = intern('variable_end')

74

TOKEN_RAW_BEGIN = intern('raw_begin')

75

TOKEN_RAW_END = intern('raw_end')

76

TOKEN_COMMENT_BEGIN = intern('comment_begin')

77

TOKEN_COMMENT_END = intern('comment_end')

78

TOKEN_COMMENT = intern('comment')

79

TOKEN_LINESTATEMENT_BEGIN = intern('linestatement_begin')

80

TOKEN_LINESTATEMENT_END = intern('linestatement_end')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

81

TOKEN_LINECOMMENT_BEGIN = intern('linecomment_begin')

82

TOKEN_LINECOMMENT_END = intern('linecomment_end')

83

TOKEN_LINECOMMENT = intern('linecomment')

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

84

TOKEN_DATA = intern('data')

85

TOKEN_INITIAL = intern('initial')

86

TOKEN_EOF = intern('eof')

87

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

88

# bind operators to token types

89

operators = {

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

'+': TOKEN_ADD,

'-': TOKEN_SUB,

'/': TOKEN_DIV,

'//': TOKEN_FLOORDIV,

'*': TOKEN_MUL,

'%': TOKEN_MOD,

'**': TOKEN_POW,

'~': TOKEN_TILDE,

'[': TOKEN_LBRACKET,

']': TOKEN_RBRACKET,

'(': TOKEN_LPAREN,

')': TOKEN_RPAREN,

'{': TOKEN_LBRACE,

'}': TOKEN_RBRACE,

'==': TOKEN_EQ,

'!=': TOKEN_NE,

'>': TOKEN_GT,

'>=': TOKEN_GTEQ,

'<': TOKEN_LT,

'<=': TOKEN_LTEQ,

'=': TOKEN_ASSIGN,

'.': TOKEN_DOT,

':': TOKEN_COLON,

'|': TOKEN_PIPE,

',': TOKEN_COMMA,

';': TOKEN_SEMICOLON

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

116

}

117

118

reverse_operators = dict([(v, k) for k, v in operators.iteritems()])

119

assert len(operators) == len(reverse_operators), 'operators dropped'

Armin Ronacher

e791c2a

2008-04-07 18:39:54 +0200

[diff] [blame]

120

operator_re = re.compile('(%s)' % '|'.join(re.escape(x) for x in

121

sorted(operators, key=lambda x: -len(x))))

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

122

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

123

ignored_tokens = frozenset([TOKEN_COMMENT_BEGIN, TOKEN_COMMENT,

124

TOKEN_COMMENT_END, TOKEN_WHITESPACE,

125

TOKEN_WHITESPACE, TOKEN_LINECOMMENT_BEGIN,

126

TOKEN_LINECOMMENT_END, TOKEN_LINECOMMENT])

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

127

ignore_if_empty = frozenset([TOKEN_WHITESPACE, TOKEN_DATA,

128

TOKEN_COMMENT, TOKEN_LINECOMMENT])

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

129

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

130

Armin Ronacher

d02fc7d

2008-06-14 14:19:47 +0200

[diff] [blame]

131

def count_newlines(value):

132

"""Count the number of newline characters in the string. This is

133

useful for extensions that filter a stream.

134

"""

135

return len(newline_re.findall(value))

136

137

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

138

def compile_rules(environment):

139

"""Compiles all the rules from the environment into a list of rules."""

140

e = re.escape

141

rules = [

142

(len(environment.comment_start_string), 'comment',

143

e(environment.comment_start_string)),

144

(len(environment.block_start_string), 'block',

145

e(environment.block_start_string)),

146

(len(environment.variable_start_string), 'variable',

Armin Ronacher

1bb3ab7

2009-04-01 19:16:25 +0200

[diff] [blame^]

147

e(environment.variable_start_string))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

148

]

149

150

if environment.line_statement_prefix is not None:

151

rules.append((len(environment.line_statement_prefix), 'linestatement',

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

152

r'^\s*' + e(environment.line_statement_prefix)))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

153

if environment.line_comment_prefix is not None:

154

rules.append((len(environment.line_comment_prefix), 'linecomment',

Armin Ronacher

1bb3ab7

2009-04-01 19:16:25 +0200

[diff] [blame^]

155

r'(?:^|(?<=\S))[^\S\r\n]*' + e(environment.line_comment_prefix)))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

156

157

return [x[1:] for x in sorted(rules, reverse=True)]

158

159

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

160

class Failure(object):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

161

"""Class that raises a `TemplateSyntaxError` if called.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

162

Used by the `Lexer` to specify known errors.

163

"""

164

165

def __init__(self, message, cls=TemplateSyntaxError):

166

self.message = message

167

self.error_class = cls

168

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

169

def __call__(self, lineno, filename):

170

raise self.error_class(self.message, lineno, filename)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

171

172

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

class Token(tuple):

"""Token class."""

__slots__ = ()

lineno, type, value = (property(itemgetter(x)) for x in range(3))

177

178

def __new__(cls, lineno, type, value):

179

return tuple.__new__(cls, (lineno, intern(str(type)), value))

180

181

def __str__(self):

Armin Ronacher

8a1d27f

2008-05-19 08:37:19 +0200

[diff] [blame]

182

if self.type in reverse_operators:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

183

return reverse_operators[self.type]

Ali Afshar

272ca2a

2009-01-05 12:14:14 +0100

[diff] [blame]

184

elif self.type == 'name':

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return self.value

return self.type

def test(self, expr):

189

"""Test a token against a token expression. This can either be a

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

190

token type or ``'token_type:token_value'``. This can only test

191

against string values and types.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

192

"""

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

193

# here we do a regular string equality check as test_any is usually

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

194

# passed an iterable of not interned strings.

195

if self.type == expr:

196

return True

197

elif ':' in expr:

198

return expr.split(':', 1) == [self.type, self.value]

199

return False

200

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

201

def test_any(self, *iterable):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

202

"""Test against multiple token expressions."""

203

for expr in iterable:

if self.test(expr):

return True

return False

def __repr__(self):

return 'Token(%r, %r, %r)' % (

self.lineno,

self.type,

self.value

)

class TokenStreamIterator(object):

217

"""The iterator for tokenstreams. Iterate over the stream

218

until the eof token is reached.

219

"""

220

221

def __init__(self, stream):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

222

self.stream = stream

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

def __iter__(self):

return self

def next(self):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

228

token = self.stream.current

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

229

if token.type is TOKEN_EOF:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

230

self.stream.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

231

raise StopIteration()

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

232

self.stream.next()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return token

class TokenStream(object):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

237

"""A token stream is an iterable that yields :class:`Token`\s. The

238

parser however does not iterate over it but calls :meth:`next` to go

239

one token ahead. The current active token is stored as :attr:`current`.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

240

"""

241

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

242

def __init__(self, generator, name, filename):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

243

self._next = iter(generator).next

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

244

self._pushed = deque()

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

245

self.name = name

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

246

self.filename = filename

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

247

self.closed = False

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

248

self.current = Token(1, TOKEN_INITIAL, '')

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

self.next()

def __iter__(self):

return TokenStreamIterator(self)

253

254

def __nonzero__(self):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

255

"""Are we at the end of the stream?"""

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

256

return bool(self._pushed) or self.current.type is not TOKEN_EOF

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

257

258

eos = property(lambda x: not x.__nonzero__(), doc=__nonzero__.__doc__)

259

260

def push(self, token):

261

"""Push a token back to the stream."""

262

self._pushed.append(token)

263

264

def look(self):

265

"""Look at the next token."""

266

old_token = self.next()

267

result = self.current

268

self.push(result)

269

self.current = old_token

270

return result

271

Armin Ronacher

ea847c5

2008-05-02 20:04:32 +0200

[diff] [blame]

272

def skip(self, n=1):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

273

"""Got n tokens ahead."""

for x in xrange(n):

self.next()

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

277

def next_if(self, expr):

278

"""Perform the token test and return the token if it matched.

279

Otherwise the return value is `None`.

280

"""

281

if self.current.test(expr):

282

return self.next()

283

284

def skip_if(self, expr):

Armin Ronacher

9cf9591

2008-05-24 19:54:43 +0200

[diff] [blame]

285

"""Like :meth:`next_if` but only returns `True` or `False`."""

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

286

return self.next_if(expr) is not None

287

288

def next(self):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

289

"""Go one token ahead and return the old one"""

290

rv = self.current

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

291

if self._pushed:

292

self.current = self._pushed.popleft()

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

293

elif self.current.type is not TOKEN_EOF:

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

294

try:

295

self.current = self._next()

296

except StopIteration:

297

self.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return rv

def close(self):

"""Close the stream."""

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

302

self.current = Token(self.current.lineno, TOKEN_EOF, '')

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

303

self._next = None

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

304

self.closed = True

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

305

306

def expect(self, expr):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

307

"""Expect a given token type and return it. This accepts the same

308

argument as :meth:`jinja2.lexer.Token.test`.

309

"""

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

310

if not self.current.test(expr):

311

if ':' in expr:

312

expr = expr.split(':')[1]

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

313

if self.current.type is TOKEN_EOF:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

314

raise TemplateSyntaxError('unexpected end of template, '

315

'expected %r.' % expr,

316

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

317

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

318

raise TemplateSyntaxError("expected token %r, got %r" %

319

(expr, str(self.current)),

320

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

321

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

try:

return self.current

finally:

self.next()

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

328

def get_lexer(environment):

329

"""Return a lexer which is probably cached."""

330

key = (environment.block_start_string,

331

environment.block_end_string,

332

environment.variable_start_string,

333

environment.variable_end_string,

334

environment.comment_start_string,

335

environment.comment_end_string,

336

environment.line_statement_prefix,

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

337

environment.line_comment_prefix,

Armin Ronacher

9a0078d

2008-08-13 18:24:17 +0200

[diff] [blame]

338

environment.trim_blocks,

339

environment.newline_sequence)

340

lexer = _lexer_cache.get(key)

341

if lexer is None:

342

lexer = Lexer(environment)

343

_lexer_cache[key] = lexer

344

return lexer

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

345

346

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

347

class Lexer(object):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

348

"""Class that implements a lexer for a given environment. Automatically

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

349

created by the environment class, usually you don't have to do that.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

350

351

Note that the lexer is not automatically bound to an environment.

352

Multiple environments can share the same lexer.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

353

"""

354

355

def __init__(self, environment):

356

# shortcuts

357

c = lambda x: re.compile(x, re.M | re.S)

358

e = re.escape

359

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

360

# lexing rules for tags

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

361

tag_rules = [

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

362

(whitespace_re, TOKEN_WHITESPACE, None),

363

(float_re, TOKEN_FLOAT, None),

364

(integer_re, TOKEN_INTEGER, None),

365

(name_re, TOKEN_NAME, None),

366

(string_re, TOKEN_STRING, None),

367

(operator_re, TOKEN_OPERATOR, None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

368

]

369

Armin Ronacher

d874fbe

2007-02-27 20:51:59 +0100

[diff] [blame]

370

# assamble the root lexing rule. because "|" is ungreedy

371

# we have to sort by length so that the lexer continues working

372

# as expected when we have parsing rules like <% for block and

373

# <%= for variables. (if someone wants asp like syntax)

Armin Ronacher

33d528a

2007-05-14 18:21:44 +0200

[diff] [blame]

374

# variables are just part of the rules if variable processing

375

# is required.

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

376

root_tag_rules = compile_rules(environment)

Armin Ronacher

d874fbe

2007-02-27 20:51:59 +0100

[diff] [blame]

377

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

378

# block suffix if trimming is enabled

379

block_suffix_re = environment.trim_blocks and '\\n?' or ''

380

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

381

self.newline_sequence = environment.newline_sequence

382

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

383

# global lexing rules

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

384

self.rules = {

385

'root': [

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

386

# directives

387

(c('(.*?)(?:%s)' % '|'.join(

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

388

[r'(?P<raw_begin>(?:\s*%s\-|%s)\s*raw\s*%s)' % (

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

389

e(environment.block_start_string),

390

e(environment.block_start_string),

391

e(environment.block_end_string)

392

)] + [

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

393

r'(?P<%s_begin>\s*%s\-|%s)' % (n, r, r)

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

394

for n, r in root_tag_rules

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

395

])), (TOKEN_DATA, '#bygroup'), '#bygroup'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

396

# data

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

397

(c('.+'), TOKEN_DATA, None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

398

],

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

399

# comments

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

400

TOKEN_COMMENT_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

401

(c(r'(.*?)((?:\-%s\s*|%s)%s)' % (

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

402

e(environment.comment_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

403

e(environment.comment_end_string),

404

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

405

)), (TOKEN_COMMENT, TOKEN_COMMENT_END), '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

406

(c('(.)'), (Failure('Missing end of comment tag'),), None)

407

],

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

408

# blocks

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

409

TOKEN_BLOCK_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

410

(c('(?:\-%s\s*|%s)%s' % (

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

411

e(environment.block_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

412

e(environment.block_end_string),

413

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

414

)), TOKEN_BLOCK_END, '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

415

] + tag_rules,

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

416

# variables

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

417

TOKEN_VARIABLE_BEGIN: [

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

418

(c('\-%s\s*|%s' % (

419

e(environment.variable_end_string),

420

e(environment.variable_end_string)

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

421

)), TOKEN_VARIABLE_END, '#pop')

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

422

] + tag_rules,

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

423

# raw block

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

424

TOKEN_RAW_BEGIN: [

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

425

(c('(.*?)((?:\s*%s\-|%s)\s*endraw\s*(?:\-%s\s*|%s%s))' % (

426

e(environment.block_start_string),

427

e(environment.block_start_string),

428

e(environment.block_end_string),

429

e(environment.block_end_string),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

430

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

431

)), (TOKEN_DATA, TOKEN_RAW_END), '#pop'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

432

(c('(.)'), (Failure('Missing end of raw directive'),), None)

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

433

],

434

# line statements

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

435

TOKEN_LINESTATEMENT_BEGIN: [

436

(c(r'\s*(\n|$)'), TOKEN_LINESTATEMENT_END, '#pop')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

437

] + tag_rules,

438

# line comments

439

TOKEN_LINECOMMENT_BEGIN: [

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

440

(c(r'(.*?)()(?=\n|$)'), (TOKEN_LINECOMMENT,

441

TOKEN_LINECOMMENT_END), '#pop')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

442

]

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

443

}

Armin Ronacher

bf7c4ad

2008-04-12 12:02:36 +0200

[diff] [blame]

444

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

445

def _normalize_newlines(self, value):

446

"""Called for strings and template data to normlize it to unicode."""

447

return newline_re.sub(self.newline_sequence, value)

448

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

449

def tokenize(self, source, name=None, filename=None, state=None):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

450

"""Calls tokeniter + tokenize and wraps it in a token stream.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

451

"""

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

452

stream = self.tokeniter(source, name, filename, state)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

453

return TokenStream(self.wrap(stream, name, filename), name, filename)

454

455

def wrap(self, stream, name=None, filename=None):

456

"""This is called with the stream as returned by `tokenize` and wraps

457

every token in a :class:`Token` and converts the value.

458

"""

459

for lineno, token, value in stream:

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

460

if token in ignored_tokens:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

461

continue

462

elif token == 'linestatement_begin':

463

token = 'block_begin'

464

elif token == 'linestatement_end':

465

token = 'block_end'

466

# we are not interested in those tokens in the parser

467

elif token in ('raw_begin', 'raw_end'):

468

continue

469

elif token == 'data':

470

value = self._normalize_newlines(value)

471

elif token == 'keyword':

472

token = value

473

elif token == 'name':

474

value = str(value)

475

elif token == 'string':

476

# try to unescape string

477

try:

478

value = self._normalize_newlines(value[1:-1]) \

479

.encode('ascii', 'backslashreplace') \

480

.decode('unicode-escape')

481

except Exception, e:

482

msg = str(e).split(':')[-1].strip()

483

raise TemplateSyntaxError(msg, lineno, name, filename)

484

# if we can express it as bytestring (ascii only)

485

# we do that for support of semi broken APIs

486

# as datetime.datetime.strftime

487

try:

Armin Ronacher

d1ff858

2008-05-11 00:30:43 +0200

[diff] [blame]

488

value = str(value)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

489

except UnicodeError:

490

pass

491

elif token == 'integer':

492

value = int(value)

493

elif token == 'float':

494

value = float(value)

495

elif token == 'operator':

496

token = operators[value]

497

yield Token(lineno, token, value)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

498

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

499

def tokeniter(self, source, name, filename=None, state=None):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

500

"""This method tokenizes the text and returns the tokens in a

501

generator. Use this method if you just want to tokenize a template.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

502

"""

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

503

source = '\n'.join(unicode(source).splitlines())

Armin Ronacher

7977e5c

2007-03-12 07:22:17 +0100

[diff] [blame]

504

pos = 0

505

lineno = 1

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

506

stack = ['root']

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

507

if state is not None and state != 'root':

508

assert state in ('variable', 'block'), 'invalid state'

509

stack.append(state + '_begin')

510

else:

511

state = 'root'

512

statetokens = self.rules[stack[-1]]

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

513

source_length = len(source)

514

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

515

balancing_stack = []

516

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

517

while 1:

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

518

# tokenizer loop

519

for regex, tokens, new_state in statetokens:

520

m = regex.match(source, pos)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

521

# if no match we try again with the next rule

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

522

if m is None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

523

continue

524

525

# we only match blocks and variables if brances / parentheses

526

# are balanced. continue parsing with the lower rule which

527

# is the operator rule. do this only if the end tags look

528

# like operators

529

if balancing_stack and \

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

530

tokens in ('variable_end', 'block_end',

531

'linestatement_end'):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

532

continue

533

534

# tuples support more options

535

if isinstance(tokens, tuple):

536

for idx, token in enumerate(tokens):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

537

# failure group

Armin Ronacher

d8b8c3e

2008-05-22 21:28:32 +0200

[diff] [blame]

538

if token.__class__ is Failure:

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

539

raise token(lineno, filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

540

# bygroup is a bit more complex, in that case we

541

# yield for the current token the first named

542

# group that matched

543

elif token == '#bygroup':

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

544

for key, value in m.groupdict().iteritems():

545

if value is not None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

546

yield lineno, key, value

547

lineno += value.count('\n')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

548

break

549

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

550

raise RuntimeError('%r wanted to resolve '

551

'the token dynamically'

552

' but no group matched'

553

% regex)

554

# normal group

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

555

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

556

data = m.group(idx + 1)

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

557

if data or token not in ignore_if_empty:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

558

yield lineno, token, data

559

lineno += data.count('\n')

560

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

561

# strings as token just are yielded as it.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

562

else:

563

data = m.group()

564

# update brace/parentheses balance

565

if tokens == 'operator':

566

if data == '{':

567

balancing_stack.append('}')

568

elif data == '(':

569

balancing_stack.append(')')

570

elif data == '[':

571

balancing_stack.append(']')

572

elif data in ('}', ')', ']'):

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

573

if not balancing_stack:

574

raise TemplateSyntaxError('unexpected "%s"' %

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

575

data, lineno, name,

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

576

filename)

577

expected_op = balancing_stack.pop()

578

if expected_op != data:

579

raise TemplateSyntaxError('unexpected "%s", '

580

'expected "%s"' %

581

(data, expected_op),

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

582

lineno, name,

583

filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

584

# yield items

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

585

if data or tokens not in ignore_if_empty:

586

yield lineno, tokens, data

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

587

lineno += data.count('\n')

588

589

# fetch new position into new variable so that we can check

590

# if there is a internal parsing error which would result

591

# in an infinite loop

592

pos2 = m.end()

593

594

# handle state changes

595

if new_state is not None:

596

# remove the uppermost state

597

if new_state == '#pop':

598

stack.pop()

599

# resolve the new state by group checking

600

elif new_state == '#bygroup':

601

for key, value in m.groupdict().iteritems():

602

if value is not None:

stack.append(key)

break

else:

raise RuntimeError('%r wanted to resolve the '

607

'new state dynamically but'

608

' no group matched' %

609

regex)

610

# direct state name given

611

else:

612

stack.append(new_state)

613

statetokens = self.rules[stack[-1]]

614

# we are still at the same position and no stack change.

615

# this means a loop without break condition, avoid that and

616

# raise error

617

elif pos2 == pos:

618

raise RuntimeError('%r yielded empty string without '

619

'stack change' % regex)

620

# publish new function and start again

621

pos = pos2

622

break

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

623

# if loop terminated without break we havn't found a single match

624

# either we are at the end of the file or we have a problem

625

else:

626

# end of text

627

if pos >= source_length:

628

return

629

# something went wrong

630

raise TemplateSyntaxError('unexpected char %r at %d' %

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

631

(source[pos], pos), lineno,

Armin Ronacher