Blame - jinja2/lexer.py - platform/external/python/jinja

2007-02-26 22:17:32 +0100

[diff] [blame]

1

# -*- coding: utf-8 -*-

2

"""

Armin Ronacher

07bc684

2008-03-31 14:18:49 +0200

[diff] [blame]

3

jinja2.lexer

4

~~~~~~~~~~~~

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

5

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

6

This module implements a Jinja / Python combination lexer. The

7

`Lexer` class provided by this module is used to do some preprocessing

8

for Jinja.

9

10

On the one hand it filters out invalid operators like the bitshift

11

operators we don't allow in templates. On the other hand it separates

12

template code and python code in expressions.

13

Armin Ronacher

62ccd1b

2009-01-04 14:26:19 +0100

[diff] [blame]

14

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

15

:license: BSD, see LICENSE for more details.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

16

"""

17

import re

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

18

from operator import itemgetter

19

from collections import deque

Armin Ronacher

82b3f3d

2008-03-31 20:01:08 +0200

[diff] [blame]

20

from jinja2.exceptions import TemplateSyntaxError

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

21

from jinja2.utils import LRUCache

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

22

23

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

24

# cache for the lexers. Exists in order to be able to have multiple

25

# environments with the same lexer

Armin Ronacher

187bde1

2008-05-01 18:19:16 +0200

[diff] [blame]

26

_lexer_cache = LRUCache(50)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

27

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

28

# static regular expressions

Armin Ronacher

9a0078d

2008-08-13 18:24:17 +0200

[diff] [blame]

29

whitespace_re = re.compile(r'\s+', re.U)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

30

string_re = re.compile(r"('([^'\\]*(?:\\.[^'\\]*)*)'"

Armin Ronacher

9a0078d

2008-08-13 18:24:17 +0200

[diff] [blame]

31

r'|"([^"\\]*(?:\\.[^"\\]*)*)")', re.S)

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

32

integer_re = re.compile(r'\d+')

Armin Ronacher

d1ff858

2008-05-11 00:30:43 +0200

[diff] [blame]

33

name_re = re.compile(r'\b[a-zA-Z_][a-zA-Z0-9_]*\b')

Armin Ronacher

cb1b97f

2008-09-10 14:03:53 +0200

[diff] [blame]

34

float_re = re.compile(r'(?<!\.)\d+\.\d+')

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

35

newline_re = re.compile(r'(\r\n|\r|\n)')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

36

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

37

# internal the tokens and keep references to them

38

TOKEN_ADD = intern('add')

39

TOKEN_ASSIGN = intern('assign')

40

TOKEN_COLON = intern('colon')

41

TOKEN_COMMA = intern('comma')

42

TOKEN_DIV = intern('div')

43

TOKEN_DOT = intern('dot')

44

TOKEN_EQ = intern('eq')

45

TOKEN_FLOORDIV = intern('floordiv')

46

TOKEN_GT = intern('gt')

47

TOKEN_GTEQ = intern('gteq')

48

TOKEN_LBRACE = intern('lbrace')

49

TOKEN_LBRACKET = intern('lbracket')

50

TOKEN_LPAREN = intern('lparen')

51

TOKEN_LT = intern('lt')

52

TOKEN_LTEQ = intern('lteq')

53

TOKEN_MOD = intern('mod')

54

TOKEN_MUL = intern('mul')

55

TOKEN_NE = intern('ne')

56

TOKEN_PIPE = intern('pipe')

57

TOKEN_POW = intern('pow')

58

TOKEN_RBRACE = intern('rbrace')

59

TOKEN_RBRACKET = intern('rbracket')

60

TOKEN_RPAREN = intern('rparen')

61

TOKEN_SEMICOLON = intern('semicolon')

62

TOKEN_SUB = intern('sub')

63

TOKEN_TILDE = intern('tilde')

64

TOKEN_WHITESPACE = intern('whitespace')

65

TOKEN_FLOAT = intern('float')

66

TOKEN_INTEGER = intern('integer')

67

TOKEN_NAME = intern('name')

68

TOKEN_STRING = intern('string')

69

TOKEN_OPERATOR = intern('operator')

70

TOKEN_BLOCK_BEGIN = intern('block_begin')

71

TOKEN_BLOCK_END = intern('block_end')

72

TOKEN_VARIABLE_BEGIN = intern('variable_begin')

73

TOKEN_VARIABLE_END = intern('variable_end')

74

TOKEN_RAW_BEGIN = intern('raw_begin')

75

TOKEN_RAW_END = intern('raw_end')

76

TOKEN_COMMENT_BEGIN = intern('comment_begin')

77

TOKEN_COMMENT_END = intern('comment_end')

78

TOKEN_COMMENT = intern('comment')

79

TOKEN_LINESTATEMENT_BEGIN = intern('linestatement_begin')

80

TOKEN_LINESTATEMENT_END = intern('linestatement_end')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

81

TOKEN_LINECOMMENT_BEGIN = intern('linecomment_begin')

82

TOKEN_LINECOMMENT_END = intern('linecomment_end')

83

TOKEN_LINECOMMENT = intern('linecomment')

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

84

TOKEN_DATA = intern('data')

85

TOKEN_INITIAL = intern('initial')

86

TOKEN_EOF = intern('eof')

87

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

88

# bind operators to token types

89

operators = {

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

'+': TOKEN_ADD,

'-': TOKEN_SUB,

'/': TOKEN_DIV,

'//': TOKEN_FLOORDIV,

'*': TOKEN_MUL,

'%': TOKEN_MOD,

'**': TOKEN_POW,

'~': TOKEN_TILDE,

'[': TOKEN_LBRACKET,

']': TOKEN_RBRACKET,

'(': TOKEN_LPAREN,

')': TOKEN_RPAREN,

'{': TOKEN_LBRACE,

'}': TOKEN_RBRACE,

'==': TOKEN_EQ,

'!=': TOKEN_NE,

'>': TOKEN_GT,

'>=': TOKEN_GTEQ,

'<': TOKEN_LT,

'<=': TOKEN_LTEQ,

'=': TOKEN_ASSIGN,

'.': TOKEN_DOT,

':': TOKEN_COLON,

'|': TOKEN_PIPE,

',': TOKEN_COMMA,

';': TOKEN_SEMICOLON

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

116

}

117

118

reverse_operators = dict([(v, k) for k, v in operators.iteritems()])

119

assert len(operators) == len(reverse_operators), 'operators dropped'

Armin Ronacher

e791c2a

2008-04-07 18:39:54 +0200

[diff] [blame]

120

operator_re = re.compile('(%s)' % '|'.join(re.escape(x) for x in

121

sorted(operators, key=lambda x: -len(x))))

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

122

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

123

ignored_tokens = frozenset([TOKEN_COMMENT_BEGIN, TOKEN_COMMENT,

124

TOKEN_COMMENT_END, TOKEN_WHITESPACE,

125

TOKEN_WHITESPACE, TOKEN_LINECOMMENT_BEGIN,

126

TOKEN_LINECOMMENT_END, TOKEN_LINECOMMENT])

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

127

ignore_if_empty = frozenset([TOKEN_WHITESPACE, TOKEN_DATA,

128

TOKEN_COMMENT, TOKEN_LINECOMMENT])

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

129

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

130

Armin Ronacher

d02fc7d

2008-06-14 14:19:47 +0200

[diff] [blame]

131

def count_newlines(value):

132

"""Count the number of newline characters in the string. This is

133

useful for extensions that filter a stream.

134

"""

135

return len(newline_re.findall(value))

136

137

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

138

def compile_rules(environment):

139

"""Compiles all the rules from the environment into a list of rules."""

140

e = re.escape

141

rules = [

142

(len(environment.comment_start_string), 'comment',

143

e(environment.comment_start_string)),

144

(len(environment.block_start_string), 'block',

145

e(environment.block_start_string)),

146

(len(environment.variable_start_string), 'variable',

Armin Ronacher

1bb3ab7

2009-04-01 19:16:25 +0200

[diff] [blame]

147

e(environment.variable_start_string))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

148

]

149

150

if environment.line_statement_prefix is not None:

151

rules.append((len(environment.line_statement_prefix), 'linestatement',

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

152

r'^\s*' + e(environment.line_statement_prefix)))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

153

if environment.line_comment_prefix is not None:

154

rules.append((len(environment.line_comment_prefix), 'linecomment',

Armin Ronacher

a0727a6

2009-04-02 14:14:30 +0200

[diff] [blame]

155

r'(?:^|(?<=\S))[^\S\r\n]*' +

156

e(environment.line_comment_prefix)))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

157

158

return [x[1:] for x in sorted(rules, reverse=True)]

159

160

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

161

class Failure(object):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

162

"""Class that raises a `TemplateSyntaxError` if called.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

163

Used by the `Lexer` to specify known errors.

164

"""

165

166

def __init__(self, message, cls=TemplateSyntaxError):

167

self.message = message

168

self.error_class = cls

169

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

170

def __call__(self, lineno, filename):

171

raise self.error_class(self.message, lineno, filename)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

172

173

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

class Token(tuple):

"""Token class."""

__slots__ = ()

lineno, type, value = (property(itemgetter(x)) for x in range(3))

178

179

def __new__(cls, lineno, type, value):

180

return tuple.__new__(cls, (lineno, intern(str(type)), value))

181

182

def __str__(self):

Armin Ronacher

8a1d27f

2008-05-19 08:37:19 +0200

[diff] [blame]

183

if self.type in reverse_operators:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

184

return reverse_operators[self.type]

Ali Afshar

272ca2a

2009-01-05 12:14:14 +0100

[diff] [blame]

185

elif self.type == 'name':

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return self.value

return self.type

def test(self, expr):

190

"""Test a token against a token expression. This can either be a

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

191

token type or ``'token_type:token_value'``. This can only test

192

against string values and types.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

193

"""

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

194

# here we do a regular string equality check as test_any is usually

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

195

# passed an iterable of not interned strings.

196

if self.type == expr:

197

return True

198

elif ':' in expr:

199

return expr.split(':', 1) == [self.type, self.value]

200

return False

201

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

202

def test_any(self, *iterable):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

203

"""Test against multiple token expressions."""

204

for expr in iterable:

if self.test(expr):

return True

return False

def __repr__(self):

return 'Token(%r, %r, %r)' % (

self.lineno,

self.type,

self.value

)

class TokenStreamIterator(object):

218

"""The iterator for tokenstreams. Iterate over the stream

219

until the eof token is reached.

220

"""

221

222

def __init__(self, stream):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

223

self.stream = stream

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

def __iter__(self):

return self

def next(self):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

229

token = self.stream.current

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

230

if token.type is TOKEN_EOF:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

231

self.stream.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

232

raise StopIteration()

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

233

self.stream.next()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return token

class TokenStream(object):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

238

"""A token stream is an iterable that yields :class:`Token`\s. The

239

parser however does not iterate over it but calls :meth:`next` to go

240

one token ahead. The current active token is stored as :attr:`current`.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

241

"""

242

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

243

def __init__(self, generator, name, filename):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

244

self._next = iter(generator).next

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

245

self._pushed = deque()

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

246

self.name = name

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

247

self.filename = filename

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

248

self.closed = False

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

249

self.current = Token(1, TOKEN_INITIAL, '')

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

self.next()

def __iter__(self):

return TokenStreamIterator(self)

254

255

def __nonzero__(self):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

256

"""Are we at the end of the stream?"""

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

257

return bool(self._pushed) or self.current.type is not TOKEN_EOF

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

258

259

eos = property(lambda x: not x.__nonzero__(), doc=__nonzero__.__doc__)

260

261

def push(self, token):

262

"""Push a token back to the stream."""

263

self._pushed.append(token)

264

265

def look(self):

266

"""Look at the next token."""

267

old_token = self.next()

268

result = self.current

269

self.push(result)

270

self.current = old_token

271

return result

272

Armin Ronacher

ea847c5

2008-05-02 20:04:32 +0200

[diff] [blame]

273

def skip(self, n=1):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

274

"""Got n tokens ahead."""

for x in xrange(n):

self.next()

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

278

def next_if(self, expr):

279

"""Perform the token test and return the token if it matched.

280

Otherwise the return value is `None`.

281

"""

282

if self.current.test(expr):

283

return self.next()

284

285

def skip_if(self, expr):

Armin Ronacher

9cf9591

2008-05-24 19:54:43 +0200

[diff] [blame]

286

"""Like :meth:`next_if` but only returns `True` or `False`."""

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

287

return self.next_if(expr) is not None

288

289

def next(self):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

290

"""Go one token ahead and return the old one"""

291

rv = self.current

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

292

if self._pushed:

293

self.current = self._pushed.popleft()

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

294

elif self.current.type is not TOKEN_EOF:

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

295

try:

296

self.current = self._next()

297

except StopIteration:

298

self.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return rv

def close(self):

"""Close the stream."""

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

303

self.current = Token(self.current.lineno, TOKEN_EOF, '')

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

304

self._next = None

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

305

self.closed = True

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

306

307

def expect(self, expr):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

308

"""Expect a given token type and return it. This accepts the same

309

argument as :meth:`jinja2.lexer.Token.test`.

310

"""

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

311

if not self.current.test(expr):

312

if ':' in expr:

313

expr = expr.split(':')[1]

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

314

if self.current.type is TOKEN_EOF:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

315

raise TemplateSyntaxError('unexpected end of template, '

316

'expected %r.' % expr,

317

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

318

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

319

raise TemplateSyntaxError("expected token %r, got %r" %

320

(expr, str(self.current)),

321

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

322

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

try:

return self.current

finally:

self.next()

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

329

def get_lexer(environment):

330

"""Return a lexer which is probably cached."""

331

key = (environment.block_start_string,

332

environment.block_end_string,

333

environment.variable_start_string,

334

environment.variable_end_string,

335

environment.comment_start_string,

336

environment.comment_end_string,

337

environment.line_statement_prefix,

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

338

environment.line_comment_prefix,

Armin Ronacher

9a0078d

2008-08-13 18:24:17 +0200

[diff] [blame]

339

environment.trim_blocks,

340

environment.newline_sequence)

341

lexer = _lexer_cache.get(key)

342

if lexer is None:

343

lexer = Lexer(environment)

344

_lexer_cache[key] = lexer

345

return lexer

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

346

347

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

348

class Lexer(object):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

349

"""Class that implements a lexer for a given environment. Automatically

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

350

created by the environment class, usually you don't have to do that.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

351

352

Note that the lexer is not automatically bound to an environment.

353

Multiple environments can share the same lexer.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

354

"""

355

356

def __init__(self, environment):

357

# shortcuts

358

c = lambda x: re.compile(x, re.M | re.S)

359

e = re.escape

360

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

361

# lexing rules for tags

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

362

tag_rules = [

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

363

(whitespace_re, TOKEN_WHITESPACE, None),

364

(float_re, TOKEN_FLOAT, None),

365

(integer_re, TOKEN_INTEGER, None),

366

(name_re, TOKEN_NAME, None),

367

(string_re, TOKEN_STRING, None),

368

(operator_re, TOKEN_OPERATOR, None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

369

]

370

Armin Ronacher

d874fbe

2007-02-27 20:51:59 +0100

[diff] [blame]

371

# assamble the root lexing rule. because "|" is ungreedy

372

# we have to sort by length so that the lexer continues working

373

# as expected when we have parsing rules like <% for block and

374

# <%= for variables. (if someone wants asp like syntax)

Armin Ronacher

33d528a

2007-05-14 18:21:44 +0200

[diff] [blame]

375

# variables are just part of the rules if variable processing

376

# is required.

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

377

root_tag_rules = compile_rules(environment)

Armin Ronacher

d874fbe

2007-02-27 20:51:59 +0100

[diff] [blame]

378

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

379

# block suffix if trimming is enabled

380

block_suffix_re = environment.trim_blocks and '\\n?' or ''

381

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

382

self.newline_sequence = environment.newline_sequence

383

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

384

# global lexing rules

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

385

self.rules = {

386

'root': [

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

387

# directives

388

(c('(.*?)(?:%s)' % '|'.join(

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

389

[r'(?P<raw_begin>(?:\s*%s\-|%s)\s*raw\s*%s)' % (

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

390

e(environment.block_start_string),

391

e(environment.block_start_string),

392

e(environment.block_end_string)

393

)] + [

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

394

r'(?P<%s_begin>\s*%s\-|%s)' % (n, r, r)

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

395

for n, r in root_tag_rules

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

396

])), (TOKEN_DATA, '#bygroup'), '#bygroup'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

397

# data

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

398

(c('.+'), TOKEN_DATA, None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

399

],

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

400

# comments

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

401

TOKEN_COMMENT_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

402

(c(r'(.*?)((?:\-%s\s*|%s)%s)' % (

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

403

e(environment.comment_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

404

e(environment.comment_end_string),

405

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

406

)), (TOKEN_COMMENT, TOKEN_COMMENT_END), '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

407

(c('(.)'), (Failure('Missing end of comment tag'),), None)

408

],

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

409

# blocks

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

410

TOKEN_BLOCK_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

411

(c('(?:\-%s\s*|%s)%s' % (

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

412

e(environment.block_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

413

e(environment.block_end_string),

414

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

415

)), TOKEN_BLOCK_END, '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

416

] + tag_rules,

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

417

# variables

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

418

TOKEN_VARIABLE_BEGIN: [

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

419

(c('\-%s\s*|%s' % (

420

e(environment.variable_end_string),

421

e(environment.variable_end_string)

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

422

)), TOKEN_VARIABLE_END, '#pop')

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

423

] + tag_rules,

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

424

# raw block

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

425

TOKEN_RAW_BEGIN: [

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

426

(c('(.*?)((?:\s*%s\-|%s)\s*endraw\s*(?:\-%s\s*|%s%s))' % (

427

e(environment.block_start_string),

428

e(environment.block_start_string),

429

e(environment.block_end_string),

430

e(environment.block_end_string),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

431

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

432

)), (TOKEN_DATA, TOKEN_RAW_END), '#pop'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

433

(c('(.)'), (Failure('Missing end of raw directive'),), None)

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

434

],

435

# line statements

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

436

TOKEN_LINESTATEMENT_BEGIN: [

437

(c(r'\s*(\n|$)'), TOKEN_LINESTATEMENT_END, '#pop')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

438

] + tag_rules,

439

# line comments

440

TOKEN_LINECOMMENT_BEGIN: [

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

441

(c(r'(.*?)()(?=\n|$)'), (TOKEN_LINECOMMENT,

442

TOKEN_LINECOMMENT_END), '#pop')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

443

]

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

444

}

Armin Ronacher

bf7c4ad

2008-04-12 12:02:36 +0200

[diff] [blame]

445

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

446

def _normalize_newlines(self, value):

447

"""Called for strings and template data to normlize it to unicode."""

448

return newline_re.sub(self.newline_sequence, value)

449

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

450

def tokenize(self, source, name=None, filename=None, state=None):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

451

"""Calls tokeniter + tokenize and wraps it in a token stream.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

452

"""

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

453

stream = self.tokeniter(source, name, filename, state)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

454

return TokenStream(self.wrap(stream, name, filename), name, filename)

455

456

def wrap(self, stream, name=None, filename=None):

457

"""This is called with the stream as returned by `tokenize` and wraps

458

every token in a :class:`Token` and converts the value.

459

"""

460

for lineno, token, value in stream:

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

461

if token in ignored_tokens:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

462

continue

463

elif token == 'linestatement_begin':

464

token = 'block_begin'

465

elif token == 'linestatement_end':

466

token = 'block_end'

467

# we are not interested in those tokens in the parser

468

elif token in ('raw_begin', 'raw_end'):

469

continue

470

elif token == 'data':

471

value = self._normalize_newlines(value)

472

elif token == 'keyword':

473

token = value

474

elif token == 'name':

475

value = str(value)

476

elif token == 'string':

477

# try to unescape string

478

try:

479

value = self._normalize_newlines(value[1:-1]) \

480

.encode('ascii', 'backslashreplace') \

481

.decode('unicode-escape')

482

except Exception, e:

483

msg = str(e).split(':')[-1].strip()

484

raise TemplateSyntaxError(msg, lineno, name, filename)

485

# if we can express it as bytestring (ascii only)

486

# we do that for support of semi broken APIs

487

# as datetime.datetime.strftime

488

try:

Armin Ronacher

d1ff858

2008-05-11 00:30:43 +0200

[diff] [blame]

489

value = str(value)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

490

except UnicodeError:

491

pass

492

elif token == 'integer':

493

value = int(value)

494

elif token == 'float':

495

value = float(value)

496

elif token == 'operator':

497

token = operators[value]

498

yield Token(lineno, token, value)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

499

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

500

def tokeniter(self, source, name, filename=None, state=None):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

501

"""This method tokenizes the text and returns the tokens in a

502

generator. Use this method if you just want to tokenize a template.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

503

"""

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

504

source = '\n'.join(unicode(source).splitlines())

Armin Ronacher

7977e5c

2007-03-12 07:22:17 +0100

[diff] [blame]

505

pos = 0

506

lineno = 1

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

507

stack = ['root']

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

508

if state is not None and state != 'root':

509

assert state in ('variable', 'block'), 'invalid state'

510

stack.append(state + '_begin')

511

else:

512

state = 'root'

513

statetokens = self.rules[stack[-1]]

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

514

source_length = len(source)

515

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

516

balancing_stack = []

517

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

518

while 1:

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

519

# tokenizer loop

520

for regex, tokens, new_state in statetokens:

521

m = regex.match(source, pos)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

522

# if no match we try again with the next rule

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

523

if m is None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

524

continue

525

526

# we only match blocks and variables if brances / parentheses

527

# are balanced. continue parsing with the lower rule which

528

# is the operator rule. do this only if the end tags look

529

# like operators

530

if balancing_stack and \

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

531

tokens in ('variable_end', 'block_end',

532

'linestatement_end'):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

533

continue

534

535

# tuples support more options

536

if isinstance(tokens, tuple):

537

for idx, token in enumerate(tokens):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

538

# failure group

Armin Ronacher

d8b8c3e

2008-05-22 21:28:32 +0200

[diff] [blame]

539

if token.__class__ is Failure:

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

540

raise token(lineno, filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

541

# bygroup is a bit more complex, in that case we

542

# yield for the current token the first named

543

# group that matched

544

elif token == '#bygroup':

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

545

for key, value in m.groupdict().iteritems():

546

if value is not None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

547

yield lineno, key, value

548

lineno += value.count('\n')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

549

break

550

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

551

raise RuntimeError('%r wanted to resolve '

552

'the token dynamically'

553

' but no group matched'

554

% regex)

555

# normal group

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

556

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

557

data = m.group(idx + 1)

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

558

if data or token not in ignore_if_empty:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

559

yield lineno, token, data

560

lineno += data.count('\n')

561

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

562

# strings as token just are yielded as it.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

563

else:

564

data = m.group()

565

# update brace/parentheses balance

566

if tokens == 'operator':

567

if data == '{':

568

balancing_stack.append('}')

569

elif data == '(':

570

balancing_stack.append(')')

571

elif data == '[':

572

balancing_stack.append(']')

573

elif data in ('}', ')', ']'):

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

574

if not balancing_stack:

575

raise TemplateSyntaxError('unexpected "%s"' %

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

576

data, lineno, name,

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

577

filename)

578

expected_op = balancing_stack.pop()

579

if expected_op != data:

580

raise TemplateSyntaxError('unexpected "%s", '

581

'expected "%s"' %

582

(data, expected_op),

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

583

lineno, name,

584

filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

585

# yield items

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

586

if data or tokens not in ignore_if_empty:

587

yield lineno, tokens, data

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

588

lineno += data.count('\n')

589

590

# fetch new position into new variable so that we can check

591

# if there is a internal parsing error which would result

592

# in an infinite loop

593

pos2 = m.end()

594

595

# handle state changes

596

if new_state is not None:

597

# remove the uppermost state

598

if new_state == '#pop':

599

stack.pop()

600

# resolve the new state by group checking

601

elif new_state == '#bygroup':

602

for key, value in m.groupdict().iteritems():

603

if value is not None:

stack.append(key)

break

else:

raise RuntimeError('%r wanted to resolve the '

608

'new state dynamically but'

609

' no group matched' %

610

regex)

611

# direct state name given

612

else:

613

stack.append(new_state)

614

statetokens = self.rules[stack[-1]]

615

# we are still at the same position and no stack change.

616

# this means a loop without break condition, avoid that and

617

# raise error

618

elif pos2 == pos:

619

raise RuntimeError('%r yielded empty string without '

620

'stack change' % regex)

621

# publish new function and start again

622

pos = pos2

623

break

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

624

# if loop terminated without break we havn't found a single match

625

# either we are at the end of the file or we have a problem

626

else:

627

# end of text

628

if pos >= source_length:

629

return

630

# something went wrong

631

raise TemplateSyntaxError('unexpected char %r at %d' %

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

632

(source[pos], pos), lineno,

Armin Ronacher