Blame - jinja2/lexer.py - platform/external/python/jinja

2007-02-26 22:17:32 +0100

[diff] [blame]

1

# -*- coding: utf-8 -*-

2

"""

Armin Ronacher

07bc684

2008-03-31 14:18:49 +0200

[diff] [blame]

3

jinja2.lexer

4

~~~~~~~~~~~~

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

5

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

6

This module implements a Jinja / Python combination lexer. The

7

`Lexer` class provided by this module is used to do some preprocessing

8

for Jinja.

9

10

On the one hand it filters out invalid operators like the bitshift

11

operators we don't allow in templates. On the other hand it separates

12

template code and python code in expressions.

13

Armin Ronacher

55494e4

2010-01-22 09:41:48 +0100

[diff] [blame^]

14

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

15

:license: BSD, see LICENSE for more details.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

16

"""

17

import re

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

18

from operator import itemgetter

19

from collections import deque

Armin Ronacher

82b3f3d

2008-03-31 20:01:08 +0200

[diff] [blame]

20

from jinja2.exceptions import TemplateSyntaxError

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

21

from jinja2.utils import LRUCache, next

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

22

23

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

24

# cache for the lexers. Exists in order to be able to have multiple

25

# environments with the same lexer

Armin Ronacher

187bde1

2008-05-01 18:19:16 +0200

[diff] [blame]

26

_lexer_cache = LRUCache(50)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

27

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

28

# static regular expressions

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

29

whitespace_re = re.compile(r'\s+', re.U)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

30

string_re = re.compile(r"('([^'\\]*(?:\\.[^'\\]*)*)'"

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

31

r'|"([^"\\]*(?:\\.[^"\\]*)*)")', re.S)

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

32

integer_re = re.compile(r'\d+')

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

33

34

# we use the unicode identifier rule if this python version is able

35

# to handle unicode identifiers, otherwise the standard ASCII one.

36

try:

37

compile('föö', '<unknown>', 'eval')

38

except SyntaxError:

39

name_re = re.compile(r'\b[a-zA-Z_][a-zA-Z0-9_]*\b')

40

else:

41

from jinja2 import _stringdefs

42

name_re = re.compile(r'[%s][%s]*' % (_stringdefs.xid_start,

43

_stringdefs.xid_continue))

44

Armin Ronacher

cb1b97f

2008-09-10 14:03:53 +0200

[diff] [blame]

45

float_re = re.compile(r'(?<!\.)\d+\.\d+')

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

46

newline_re = re.compile(r'(\r\n|\r|\n)')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

47

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

48

# internal the tokens and keep references to them

49

TOKEN_ADD = intern('add')

50

TOKEN_ASSIGN = intern('assign')

51

TOKEN_COLON = intern('colon')

52

TOKEN_COMMA = intern('comma')

53

TOKEN_DIV = intern('div')

54

TOKEN_DOT = intern('dot')

55

TOKEN_EQ = intern('eq')

56

TOKEN_FLOORDIV = intern('floordiv')

57

TOKEN_GT = intern('gt')

58

TOKEN_GTEQ = intern('gteq')

59

TOKEN_LBRACE = intern('lbrace')

60

TOKEN_LBRACKET = intern('lbracket')

61

TOKEN_LPAREN = intern('lparen')

62

TOKEN_LT = intern('lt')

63

TOKEN_LTEQ = intern('lteq')

64

TOKEN_MOD = intern('mod')

65

TOKEN_MUL = intern('mul')

66

TOKEN_NE = intern('ne')

67

TOKEN_PIPE = intern('pipe')

68

TOKEN_POW = intern('pow')

69

TOKEN_RBRACE = intern('rbrace')

70

TOKEN_RBRACKET = intern('rbracket')

71

TOKEN_RPAREN = intern('rparen')

72

TOKEN_SEMICOLON = intern('semicolon')

73

TOKEN_SUB = intern('sub')

74

TOKEN_TILDE = intern('tilde')

75

TOKEN_WHITESPACE = intern('whitespace')

76

TOKEN_FLOAT = intern('float')

77

TOKEN_INTEGER = intern('integer')

78

TOKEN_NAME = intern('name')

79

TOKEN_STRING = intern('string')

80

TOKEN_OPERATOR = intern('operator')

81

TOKEN_BLOCK_BEGIN = intern('block_begin')

82

TOKEN_BLOCK_END = intern('block_end')

83

TOKEN_VARIABLE_BEGIN = intern('variable_begin')

84

TOKEN_VARIABLE_END = intern('variable_end')

85

TOKEN_RAW_BEGIN = intern('raw_begin')

86

TOKEN_RAW_END = intern('raw_end')

87

TOKEN_COMMENT_BEGIN = intern('comment_begin')

88

TOKEN_COMMENT_END = intern('comment_end')

89

TOKEN_COMMENT = intern('comment')

90

TOKEN_LINESTATEMENT_BEGIN = intern('linestatement_begin')

91

TOKEN_LINESTATEMENT_END = intern('linestatement_end')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

92

TOKEN_LINECOMMENT_BEGIN = intern('linecomment_begin')

93

TOKEN_LINECOMMENT_END = intern('linecomment_end')

94

TOKEN_LINECOMMENT = intern('linecomment')

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

95

TOKEN_DATA = intern('data')

96

TOKEN_INITIAL = intern('initial')

97

TOKEN_EOF = intern('eof')

98

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

99

# bind operators to token types

100

operators = {

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

'+': TOKEN_ADD,

'-': TOKEN_SUB,

'/': TOKEN_DIV,

'//': TOKEN_FLOORDIV,

'*': TOKEN_MUL,

'%': TOKEN_MOD,

'**': TOKEN_POW,

'~': TOKEN_TILDE,

'[': TOKEN_LBRACKET,

']': TOKEN_RBRACKET,

'(': TOKEN_LPAREN,

')': TOKEN_RPAREN,

'{': TOKEN_LBRACE,

'}': TOKEN_RBRACE,

'==': TOKEN_EQ,

'!=': TOKEN_NE,

'>': TOKEN_GT,

'>=': TOKEN_GTEQ,

'<': TOKEN_LT,

'<=': TOKEN_LTEQ,

'=': TOKEN_ASSIGN,

'.': TOKEN_DOT,

':': TOKEN_COLON,

'|': TOKEN_PIPE,

',': TOKEN_COMMA,

';': TOKEN_SEMICOLON

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

127

}

128

129

reverse_operators = dict([(v, k) for k, v in operators.iteritems()])

130

assert len(operators) == len(reverse_operators), 'operators dropped'

Armin Ronacher

e791c2a

2008-04-07 18:39:54 +0200

[diff] [blame]

131

operator_re = re.compile('(%s)' % '|'.join(re.escape(x) for x in

132

sorted(operators, key=lambda x: -len(x))))

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

133

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

134

ignored_tokens = frozenset([TOKEN_COMMENT_BEGIN, TOKEN_COMMENT,

135

TOKEN_COMMENT_END, TOKEN_WHITESPACE,

136

TOKEN_WHITESPACE, TOKEN_LINECOMMENT_BEGIN,

137

TOKEN_LINECOMMENT_END, TOKEN_LINECOMMENT])

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

138

ignore_if_empty = frozenset([TOKEN_WHITESPACE, TOKEN_DATA,

139

TOKEN_COMMENT, TOKEN_LINECOMMENT])

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

140

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

141

Armin Ronacher

d02fc7d

2008-06-14 14:19:47 +0200

[diff] [blame]

142

def count_newlines(value):

143

"""Count the number of newline characters in the string. This is

144

useful for extensions that filter a stream.

145

"""

146

return len(newline_re.findall(value))

147

148

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

149

def compile_rules(environment):

150

"""Compiles all the rules from the environment into a list of rules."""

151

e = re.escape

152

rules = [

153

(len(environment.comment_start_string), 'comment',

154

e(environment.comment_start_string)),

155

(len(environment.block_start_string), 'block',

156

e(environment.block_start_string)),

157

(len(environment.variable_start_string), 'variable',

Armin Ronacher

1bb3ab7

2009-04-01 19:16:25 +0200

[diff] [blame]

158

e(environment.variable_start_string))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

159

]

160

161

if environment.line_statement_prefix is not None:

162

rules.append((len(environment.line_statement_prefix), 'linestatement',

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

163

r'^\s*' + e(environment.line_statement_prefix)))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

164

if environment.line_comment_prefix is not None:

165

rules.append((len(environment.line_comment_prefix), 'linecomment',

Armin Ronacher

a0727a6

2009-04-02 14:14:30 +0200

[diff] [blame]

166

r'(?:^|(?<=\S))[^\S\r\n]*' +

167

e(environment.line_comment_prefix)))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

168

169

return [x[1:] for x in sorted(rules, reverse=True)]

170

171

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

172

class Failure(object):

Armin Ronacher

b5124e6

2008-04-25 00:36:14 +0200

[diff] [blame]

173

"""Class that raises a `TemplateSyntaxError` if called.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

174

Used by the `Lexer` to specify known errors.

175

"""

176

177

def __init__(self, message, cls=TemplateSyntaxError):

178

self.message = message

179

self.error_class = cls

180

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

181

def __call__(self, lineno, filename):

182

raise self.error_class(self.message, lineno, filename)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

183

184

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

class Token(tuple):

"""Token class."""

__slots__ = ()

lineno, type, value = (property(itemgetter(x)) for x in range(3))

189

190

def __new__(cls, lineno, type, value):

191

return tuple.__new__(cls, (lineno, intern(str(type)), value))

192

193

def __str__(self):

Armin Ronacher

8a1d27f

2008-05-19 08:37:19 +0200

[diff] [blame]

194

if self.type in reverse_operators:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

195

return reverse_operators[self.type]

Ali Afshar

272ca2a

2009-01-05 12:14:14 +0100

[diff] [blame]

196

elif self.type == 'name':

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return self.value

return self.type

def test(self, expr):

201

"""Test a token against a token expression. This can either be a

Armin Ronacher

023b5e9

2008-05-08 11:03:10 +0200

[diff] [blame]

202

token type or ``'token_type:token_value'``. This can only test

203

against string values and types.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

204

"""

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

205

# here we do a regular string equality check as test_any is usually

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

206

# passed an iterable of not interned strings.

207

if self.type == expr:

208

return True

209

elif ':' in expr:

210

return expr.split(':', 1) == [self.type, self.value]

211

return False

212

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

213

def test_any(self, *iterable):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

214

"""Test against multiple token expressions."""

215

for expr in iterable:

if self.test(expr):

return True

return False

def __repr__(self):

return 'Token(%r, %r, %r)' % (

self.lineno,

self.type,

self.value

)

class TokenStreamIterator(object):

229

"""The iterator for tokenstreams. Iterate over the stream

230

until the eof token is reached.

231

"""

232

233

def __init__(self, stream):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

234

self.stream = stream

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

def __iter__(self):

return self

def next(self):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

240

token = self.stream.current

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

241

if token.type is TOKEN_EOF:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

242

self.stream.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

243

raise StopIteration()

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

244

next(self.stream)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return token

class TokenStream(object):

Armin Ronacher

023b5e9

2008-05-08 11:03:10 +0200

[diff] [blame]

249

"""A token stream is an iterable that yields :class:`Token`\s. The

250

parser however does not iterate over it but calls :meth:`next` to go

251

one token ahead. The current active token is stored as :attr:`current`.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

252

"""

253

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

254

def __init__(self, generator, name, filename):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

255

self._next = iter(generator).next

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

256

self._pushed = deque()

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

257

self.name = name

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

258

self.filename = filename

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

259

self.closed = False

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

260

self.current = Token(1, TOKEN_INITIAL, '')

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

261

next(self)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

262

263

def __iter__(self):

264

return TokenStreamIterator(self)

265

266

def __nonzero__(self):

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

267

return bool(self._pushed) or self.current.type is not TOKEN_EOF

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

268

Armin Ronacher

42a1988

2009-08-05 18:45:39 +0200

[diff] [blame]

269

eos = property(lambda x: not x, doc="Are we at the end of the stream?")

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

270

271

def push(self, token):

272

"""Push a token back to the stream."""

273

self._pushed.append(token)

274

275

def look(self):

276

"""Look at the next token."""

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

277

old_token = next(self)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

278

result = self.current

279

self.push(result)

280

self.current = old_token

281

return result

282

Armin Ronacher

ea847c5

2008-05-02 20:04:32 +0200

[diff] [blame]

283

def skip(self, n=1):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

284

"""Got n tokens ahead."""

285

for x in xrange(n):

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

286

next(self)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

287

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

288

def next_if(self, expr):

289

"""Perform the token test and return the token if it matched.

290

Otherwise the return value is `None`.

291

"""

292

if self.current.test(expr):

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

293

return next(self)

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

294

295

def skip_if(self, expr):

Armin Ronacher

9cf9591

2008-05-24 19:54:43 +0200

[diff] [blame]

296

"""Like :meth:`next_if` but only returns `True` or `False`."""

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

297

return self.next_if(expr) is not None

298

299

def next(self):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

300

"""Go one token ahead and return the old one"""

301

rv = self.current

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

302

if self._pushed:

303

self.current = self._pushed.popleft()

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

304

elif self.current.type is not TOKEN_EOF:

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

305

try:

306

self.current = self._next()

307

except StopIteration:

308

self.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return rv

def close(self):

"""Close the stream."""

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

313

self.current = Token(self.current.lineno, TOKEN_EOF, '')

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

314

self._next = None

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

315

self.closed = True

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

316

317

def expect(self, expr):

Armin Ronacher

023b5e9

2008-05-08 11:03:10 +0200

[diff] [blame]

318

"""Expect a given token type and return it. This accepts the same

319

argument as :meth:`jinja2.lexer.Token.test`.

320

"""

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

321

if not self.current.test(expr):

322

if ':' in expr:

323

expr = expr.split(':')[1]

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

324

if self.current.type is TOKEN_EOF:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

325

raise TemplateSyntaxError('unexpected end of template, '

326

'expected %r.' % expr,

327

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

328

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

329

raise TemplateSyntaxError("expected token %r, got %r" %

330

(expr, str(self.current)),

331

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

332

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

333

try:

334

return self.current

335

finally:

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

336

next(self)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

337

338

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

339

def get_lexer(environment):

340

"""Return a lexer which is probably cached."""

341

key = (environment.block_start_string,

342

environment.block_end_string,

343

environment.variable_start_string,

344

environment.variable_end_string,

345

environment.comment_start_string,

346

environment.comment_end_string,

347

environment.line_statement_prefix,

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

348

environment.line_comment_prefix,

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

349

environment.trim_blocks,

350

environment.newline_sequence)

351

lexer = _lexer_cache.get(key)

352

if lexer is None:

353

lexer = Lexer(environment)

354

_lexer_cache[key] = lexer

355

return lexer

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

356

357

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

358

class Lexer(object):

Armin Ronacher

b5124e6

2008-04-25 00:36:14 +0200

[diff] [blame]

359

"""Class that implements a lexer for a given environment. Automatically

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

360

created by the environment class, usually you don't have to do that.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

361

362

Note that the lexer is not automatically bound to an environment.

363

Multiple environments can share the same lexer.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

364

"""

365

366

def __init__(self, environment):

367

# shortcuts

368

c = lambda x: re.compile(x, re.M | re.S)

369

e = re.escape

370

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

371

# lexing rules for tags

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

372

tag_rules = [

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

373

(whitespace_re, TOKEN_WHITESPACE, None),

374

(float_re, TOKEN_FLOAT, None),

375

(integer_re, TOKEN_INTEGER, None),

376

(name_re, TOKEN_NAME, None),

377

(string_re, TOKEN_STRING, None),

378

(operator_re, TOKEN_OPERATOR, None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

379

]

380

Armin Ronacher

d874fbe

2007-02-27 20:51:59 +0100

[diff] [blame]

381

# assamble the root lexing rule. because "|" is ungreedy

382

# we have to sort by length so that the lexer continues working

383

# as expected when we have parsing rules like <% for block and

384

# <%= for variables. (if someone wants asp like syntax)

Armin Ronacher

33d528a

2007-05-14 18:21:44 +0200

[diff] [blame]

385

# variables are just part of the rules if variable processing

386

# is required.

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

387

root_tag_rules = compile_rules(environment)

Armin Ronacher

d874fbe

2007-02-27 20:51:59 +0100

[diff] [blame]

388

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

389

# block suffix if trimming is enabled

390

block_suffix_re = environment.trim_blocks and '\\n?' or ''

391

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

392

self.newline_sequence = environment.newline_sequence

393

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

394

# global lexing rules

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

395

self.rules = {

396

'root': [

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

397

# directives

398

(c('(.*?)(?:%s)' % '|'.join(

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

399

[r'(?P<raw_begin>(?:\s*%s\-|%s)\s*raw\s*%s)' % (

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

400

e(environment.block_start_string),

401

e(environment.block_start_string),

402

e(environment.block_end_string)

403

)] + [

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

404

r'(?P<%s_begin>\s*%s\-|%s)' % (n, r, r)

Armin Ronacher

523bf4c

2007-11-17 23:45:04 +0100

[diff] [blame]

405

for n, r in root_tag_rules

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

406

])), (TOKEN_DATA, '#bygroup'), '#bygroup'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

407

# data

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

408

(c('.+'), TOKEN_DATA, None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

409

],

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

410

# comments

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

411

TOKEN_COMMENT_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

412

(c(r'(.*?)((?:\-%s\s*|%s)%s)' % (

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

413

e(environment.comment_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

414

e(environment.comment_end_string),

415

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

416

)), (TOKEN_COMMENT, TOKEN_COMMENT_END), '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

417

(c('(.)'), (Failure('Missing end of comment tag'),), None)

418

],

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

419

# blocks

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

420

TOKEN_BLOCK_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

421

(c('(?:\-%s\s*|%s)%s' % (

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

422

e(environment.block_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

423

e(environment.block_end_string),

424

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

425

)), TOKEN_BLOCK_END, '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

426

] + tag_rules,

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

427

# variables

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

428

TOKEN_VARIABLE_BEGIN: [

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

429

(c('\-%s\s*|%s' % (

430

e(environment.variable_end_string),

431

e(environment.variable_end_string)

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

432

)), TOKEN_VARIABLE_END, '#pop')

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

433

] + tag_rules,

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

434

# raw block

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

435

TOKEN_RAW_BEGIN: [

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

436

(c('(.*?)((?:\s*%s\-|%s)\s*endraw\s*(?:\-%s\s*|%s%s))' % (

437

e(environment.block_start_string),

438

e(environment.block_start_string),

439

e(environment.block_end_string),

440

e(environment.block_end_string),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

441

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

442

)), (TOKEN_DATA, TOKEN_RAW_END), '#pop'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

443

(c('(.)'), (Failure('Missing end of raw directive'),), None)

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

444

],

445

# line statements

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

446

TOKEN_LINESTATEMENT_BEGIN: [

447

(c(r'\s*(\n|$)'), TOKEN_LINESTATEMENT_END, '#pop')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

448

] + tag_rules,

449

# line comments

450

TOKEN_LINECOMMENT_BEGIN: [

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

451

(c(r'(.*?)()(?=\n|$)'), (TOKEN_LINECOMMENT,

452

TOKEN_LINECOMMENT_END), '#pop')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

453

]

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

454

}

Armin Ronacher

bf7c4ad

2008-04-12 12:02:36 +0200

[diff] [blame]

455

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

456

def _normalize_newlines(self, value):

457

"""Called for strings and template data to normlize it to unicode."""

458

return newline_re.sub(self.newline_sequence, value)

459

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

460

def tokenize(self, source, name=None, filename=None, state=None):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

461

"""Calls tokeniter + tokenize and wraps it in a token stream.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

462

"""

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

463

stream = self.tokeniter(source, name, filename, state)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

464

return TokenStream(self.wrap(stream, name, filename), name, filename)

465

466

def wrap(self, stream, name=None, filename=None):

467

"""This is called with the stream as returned by `tokenize` and wraps

468

every token in a :class:`Token` and converts the value.

469

"""

470

for lineno, token, value in stream:

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

471

if token in ignored_tokens:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

472

continue

473

elif token == 'linestatement_begin':

474

token = 'block_begin'

475

elif token == 'linestatement_end':

476

token = 'block_end'

477

# we are not interested in those tokens in the parser

478

elif token in ('raw_begin', 'raw_end'):

479

continue

480

elif token == 'data':

481

value = self._normalize_newlines(value)

482

elif token == 'keyword':

483

token = value

484

elif token == 'name':

485

value = str(value)

486

elif token == 'string':

487

# try to unescape string

488

try:

489

value = self._normalize_newlines(value[1:-1]) \

490

.encode('ascii', 'backslashreplace') \

491

.decode('unicode-escape')

492

except Exception, e:

493

msg = str(e).split(':')[-1].strip()

494

raise TemplateSyntaxError(msg, lineno, name, filename)

495

# if we can express it as bytestring (ascii only)

496

# we do that for support of semi broken APIs

497

# as datetime.datetime.strftime

498

try:

Armin Ronacher

d1ff858

2008-05-11 00:30:43 +0200

[diff] [blame]

499

value = str(value)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

500

except UnicodeError:

501

pass

502

elif token == 'integer':

503

value = int(value)

504

elif token == 'float':

505

value = float(value)

506

elif token == 'operator':

507

token = operators[value]

508

yield Token(lineno, token, value)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

509

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

510

def tokeniter(self, source, name, filename=None, state=None):

Armin Ronacher

b5124e6

2008-04-25 00:36:14 +0200

[diff] [blame]

511

"""This method tokenizes the text and returns the tokens in a

512

generator. Use this method if you just want to tokenize a template.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

513

"""

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

514

source = '\n'.join(unicode(source).splitlines())

Armin Ronacher

7977e5c

2007-03-12 07:22:17 +0100

[diff] [blame]

515

pos = 0

516

lineno = 1

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

517

stack = ['root']

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

518

if state is not None and state != 'root':

519

assert state in ('variable', 'block'), 'invalid state'

520

stack.append(state + '_begin')

521

else:

522

state = 'root'

523

statetokens = self.rules[stack[-1]]

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

524

source_length = len(source)

525

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

526

balancing_stack = []

527

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

528

while 1:

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

529

# tokenizer loop

530

for regex, tokens, new_state in statetokens:

531

m = regex.match(source, pos)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

532

# if no match we try again with the next rule

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

533

if m is None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

534

continue

535

536

# we only match blocks and variables if brances / parentheses

537

# are balanced. continue parsing with the lower rule which

538

# is the operator rule. do this only if the end tags look

539

# like operators

540

if balancing_stack and \

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

541

tokens in ('variable_end', 'block_end',

542

'linestatement_end'):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

543

continue

544

545

# tuples support more options

546

if isinstance(tokens, tuple):

547

for idx, token in enumerate(tokens):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

548

# failure group

Armin Ronacher

d8b8c3e

2008-05-22 21:28:32 +0200

[diff] [blame]

549

if token.__class__ is Failure:

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

550

raise token(lineno, filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

551

# bygroup is a bit more complex, in that case we

552

# yield for the current token the first named

553

# group that matched

554

elif token == '#bygroup':

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

555

for key, value in m.groupdict().iteritems():

556

if value is not None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

557

yield lineno, key, value

558

lineno += value.count('\n')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

559

break

560

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

561

raise RuntimeError('%r wanted to resolve '

562

'the token dynamically'

563

' but no group matched'

564

% regex)

565

# normal group

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

566

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

567

data = m.group(idx + 1)

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

568

if data or token not in ignore_if_empty:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

569

yield lineno, token, data

570

lineno += data.count('\n')

571

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

572

# strings as token just are yielded as it.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

573

else:

574

data = m.group()

575

# update brace/parentheses balance

576

if tokens == 'operator':

577

if data == '{':

578

balancing_stack.append('}')

579

elif data == '(':

580

balancing_stack.append(')')

581

elif data == '[':

582

balancing_stack.append(']')

583

elif data in ('}', ')', ']'):

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

584

if not balancing_stack:

585

raise TemplateSyntaxError('unexpected "%s"' %

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

586

data, lineno, name,

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

587

filename)

588

expected_op = balancing_stack.pop()

589

if expected_op != data:

590

raise TemplateSyntaxError('unexpected "%s", '

591

'expected "%s"' %

592

(data, expected_op),

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

593

lineno, name,

594

filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

595

# yield items

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

596

if data or tokens not in ignore_if_empty:

597

yield lineno, tokens, data

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

598

lineno += data.count('\n')

599

600

# fetch new position into new variable so that we can check

601

# if there is a internal parsing error which would result

602

# in an infinite loop

603

pos2 = m.end()

604

605

# handle state changes

606

if new_state is not None:

607

# remove the uppermost state

608

if new_state == '#pop':

609

stack.pop()

610

# resolve the new state by group checking

611

elif new_state == '#bygroup':

612

for key, value in m.groupdict().iteritems():

613

if value is not None:

stack.append(key)

break

else:

raise RuntimeError('%r wanted to resolve the '

618

'new state dynamically but'

619

' no group matched' %

620

regex)

621

# direct state name given

622

else:

623

stack.append(new_state)

624

statetokens = self.rules[stack[-1]]

625

# we are still at the same position and no stack change.

626

# this means a loop without break condition, avoid that and

627

# raise error

628

elif pos2 == pos:

629

raise RuntimeError('%r yielded empty string without '

630

'stack change' % regex)

631

# publish new function and start again

632

pos = pos2

633

break

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

634

# if loop terminated without break we havn't found a single match

635

# either we are at the end of the file or we have a problem

636

else:

637

# end of text

638

if pos >= source_length:

639

return

640

# something went wrong

641

raise TemplateSyntaxError('unexpected char %r at %d' %

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

642

(source[pos], pos), lineno,

Armin Ronacher