Blame - jinja2/lexer.py - platform/external/python/jinja

2007-02-26 22:17:32 +0100

[diff] [blame]

1

# -*- coding: utf-8 -*-

2

"""

Armin Ronacher

07bc684

2008-03-31 14:18:49 +0200

[diff] [blame]

3

jinja2.lexer

4

~~~~~~~~~~~~

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

5

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

6

This module implements a Jinja / Python combination lexer. The

7

`Lexer` class provided by this module is used to do some preprocessing

8

for Jinja.

9

10

On the one hand it filters out invalid operators like the bitshift

11

operators we don't allow in templates. On the other hand it separates

12

template code and python code in expressions.

13

Armin Ronacher

55494e4

2010-01-22 09:41:48 +0100

[diff] [blame]

14

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

15

:license: BSD, see LICENSE for more details.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

16

"""

17

import re

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

18

from operator import itemgetter

19

from collections import deque

Armin Ronacher

82b3f3d

2008-03-31 20:01:08 +0200

[diff] [blame]

20

from jinja2.exceptions import TemplateSyntaxError

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

21

from jinja2.utils import LRUCache

Thomas Waldmann

2013-05-17 23:52:14 +0200

[diff] [blame]

22

import six

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

23

24

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

25

# cache for the lexers. Exists in order to be able to have multiple

26

# environments with the same lexer

Armin Ronacher

187bde1

2008-05-01 18:19:16 +0200

[diff] [blame]

27

_lexer_cache = LRUCache(50)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

28

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

29

# static regular expressions

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

30

whitespace_re = re.compile(r'\s+', re.U)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

31

string_re = re.compile(r"('([^'\\]*(?:\\.[^'\\]*)*)'"

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

32

r'|"([^"\\]*(?:\\.[^"\\]*)*)")', re.S)

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

33

integer_re = re.compile(r'\d+')

Armin Ronacher

bd35772

2009-08-05 20:25:06 +0200

[diff] [blame]

34

35

# we use the unicode identifier rule if this python version is able

36

# to handle unicode identifiers, otherwise the standard ASCII one.

37

try:

38

compile('föö', '<unknown>', 'eval')

39

except SyntaxError:

40

name_re = re.compile(r'\b[a-zA-Z_][a-zA-Z0-9_]*\b')

41

else:

42

from jinja2 import _stringdefs

43

name_re = re.compile(r'[%s][%s]*' % (_stringdefs.xid_start,

44

_stringdefs.xid_continue))

45

Armin Ronacher

cb1b97f

2008-09-10 14:03:53 +0200

[diff] [blame]

46

float_re = re.compile(r'(?<!\.)\d+\.\d+')

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

47

newline_re = re.compile(r'(\r\n|\r|\n)')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

48

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

49

try:

50

intern = intern # py2

51

except NameError:

52

import sys

53

intern = sys.intern # py3

54

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

55

# internal the tokens and keep references to them

56

TOKEN_ADD = intern('add')

57

TOKEN_ASSIGN = intern('assign')

58

TOKEN_COLON = intern('colon')

59

TOKEN_COMMA = intern('comma')

60

TOKEN_DIV = intern('div')

61

TOKEN_DOT = intern('dot')

62

TOKEN_EQ = intern('eq')

63

TOKEN_FLOORDIV = intern('floordiv')

64

TOKEN_GT = intern('gt')

65

TOKEN_GTEQ = intern('gteq')

66

TOKEN_LBRACE = intern('lbrace')

67

TOKEN_LBRACKET = intern('lbracket')

68

TOKEN_LPAREN = intern('lparen')

69

TOKEN_LT = intern('lt')

70

TOKEN_LTEQ = intern('lteq')

71

TOKEN_MOD = intern('mod')

72

TOKEN_MUL = intern('mul')

73

TOKEN_NE = intern('ne')

74

TOKEN_PIPE = intern('pipe')

75

TOKEN_POW = intern('pow')

76

TOKEN_RBRACE = intern('rbrace')

77

TOKEN_RBRACKET = intern('rbracket')

78

TOKEN_RPAREN = intern('rparen')

79

TOKEN_SEMICOLON = intern('semicolon')

80

TOKEN_SUB = intern('sub')

81

TOKEN_TILDE = intern('tilde')

82

TOKEN_WHITESPACE = intern('whitespace')

83

TOKEN_FLOAT = intern('float')

84

TOKEN_INTEGER = intern('integer')

85

TOKEN_NAME = intern('name')

86

TOKEN_STRING = intern('string')

87

TOKEN_OPERATOR = intern('operator')

88

TOKEN_BLOCK_BEGIN = intern('block_begin')

89

TOKEN_BLOCK_END = intern('block_end')

90

TOKEN_VARIABLE_BEGIN = intern('variable_begin')

91

TOKEN_VARIABLE_END = intern('variable_end')

92

TOKEN_RAW_BEGIN = intern('raw_begin')

93

TOKEN_RAW_END = intern('raw_end')

94

TOKEN_COMMENT_BEGIN = intern('comment_begin')

95

TOKEN_COMMENT_END = intern('comment_end')

96

TOKEN_COMMENT = intern('comment')

97

TOKEN_LINESTATEMENT_BEGIN = intern('linestatement_begin')

98

TOKEN_LINESTATEMENT_END = intern('linestatement_end')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

99

TOKEN_LINECOMMENT_BEGIN = intern('linecomment_begin')

100

TOKEN_LINECOMMENT_END = intern('linecomment_end')

101

TOKEN_LINECOMMENT = intern('linecomment')

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

102

TOKEN_DATA = intern('data')

103

TOKEN_INITIAL = intern('initial')

104

TOKEN_EOF = intern('eof')

105

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

106

# bind operators to token types

107

operators = {

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

'+': TOKEN_ADD,

'-': TOKEN_SUB,

'/': TOKEN_DIV,

'//': TOKEN_FLOORDIV,

'*': TOKEN_MUL,

'%': TOKEN_MOD,

'**': TOKEN_POW,

'~': TOKEN_TILDE,

'[': TOKEN_LBRACKET,

']': TOKEN_RBRACKET,

'(': TOKEN_LPAREN,

')': TOKEN_RPAREN,

'{': TOKEN_LBRACE,

'}': TOKEN_RBRACE,

'==': TOKEN_EQ,

'!=': TOKEN_NE,

'>': TOKEN_GT,

'>=': TOKEN_GTEQ,

'<': TOKEN_LT,

'<=': TOKEN_LTEQ,

'=': TOKEN_ASSIGN,

'.': TOKEN_DOT,

':': TOKEN_COLON,

'|': TOKEN_PIPE,

',': TOKEN_COMMA,

';': TOKEN_SEMICOLON

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

134

}

135

Thomas Waldmann

2013-05-17 23:52:14 +0200

[diff] [blame]

136

reverse_operators = dict([(v, k) for k, v in six.iteritems(operators)])

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

137

assert len(operators) == len(reverse_operators), 'operators dropped'

Armin Ronacher

e791c2a

2008-04-07 18:39:54 +0200

[diff] [blame]

138

operator_re = re.compile('(%s)' % '|'.join(re.escape(x) for x in

139

sorted(operators, key=lambda x: -len(x))))

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

140

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

141

ignored_tokens = frozenset([TOKEN_COMMENT_BEGIN, TOKEN_COMMENT,

142

TOKEN_COMMENT_END, TOKEN_WHITESPACE,

143

TOKEN_WHITESPACE, TOKEN_LINECOMMENT_BEGIN,

144

TOKEN_LINECOMMENT_END, TOKEN_LINECOMMENT])

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

145

ignore_if_empty = frozenset([TOKEN_WHITESPACE, TOKEN_DATA,

146

TOKEN_COMMENT, TOKEN_LINECOMMENT])

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

147

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

148

Armin Ronacher

2010-02-06 14:01:26 +0100

[diff] [blame]

149

def _describe_token_type(token_type):

150

if token_type in reverse_operators:

151

return reverse_operators[token_type]

152

return {

153

TOKEN_COMMENT_BEGIN: 'begin of comment',

154

TOKEN_COMMENT_END: 'end of comment',

155

TOKEN_COMMENT: 'comment',

156

TOKEN_LINECOMMENT: 'comment',

157

TOKEN_BLOCK_BEGIN: 'begin of statement block',

158

TOKEN_BLOCK_END: 'end of statement block',

159

TOKEN_VARIABLE_BEGIN: 'begin of print statement',

160

TOKEN_VARIABLE_END: 'end of print statement',

161

TOKEN_LINESTATEMENT_BEGIN: 'begin of line statement',

162

TOKEN_LINESTATEMENT_END: 'end of line statement',

163

TOKEN_DATA: 'template data / text',

164

TOKEN_EOF: 'end of template'

165

}.get(token_type, token_type)

166

167

168

def describe_token(token):

169

"""Returns a description of the token."""

170

if token.type == 'name':

171

return token.value

172

return _describe_token_type(token.type)

173

174

175

def describe_token_expr(expr):

176

"""Like `describe_token` but for token expressions."""

177

if ':' in expr:

178

type, value = expr.split(':', 1)

if type == 'name':

return value

else:

type = expr

return _describe_token_type(type)

184

185

Armin Ronacher

d02fc7d

2008-06-14 14:19:47 +0200

[diff] [blame]

186

def count_newlines(value):

187

"""Count the number of newline characters in the string. This is

188

useful for extensions that filter a stream.

189

"""

190

return len(newline_re.findall(value))

191

192

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

193

def compile_rules(environment):

194

"""Compiles all the rules from the environment into a list of rules."""

195

e = re.escape

196

rules = [

197

(len(environment.comment_start_string), 'comment',

198

e(environment.comment_start_string)),

199

(len(environment.block_start_string), 'block',

200

e(environment.block_start_string)),

201

(len(environment.variable_start_string), 'variable',

Armin Ronacher

1bb3ab7

2009-04-01 19:16:25 +0200

[diff] [blame]

202

e(environment.variable_start_string))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

203

]

204

205

if environment.line_statement_prefix is not None:

206

rules.append((len(environment.line_statement_prefix), 'linestatement',

Adam Spiers

08f38a8

2013-05-01 18:42:55 +0100

[diff] [blame]

207

r'^[ \t\v]*' + e(environment.line_statement_prefix)))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

208

if environment.line_comment_prefix is not None:

209

rules.append((len(environment.line_comment_prefix), 'linecomment',

Armin Ronacher

a0727a6

2009-04-02 14:14:30 +0200

[diff] [blame]

210

r'(?:^|(?<=\S))[^\S\r\n]*' +

211

e(environment.line_comment_prefix)))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

212

213

return [x[1:] for x in sorted(rules, reverse=True)]

214

215

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

216

class Failure(object):

Armin Ronacher

b5124e6

2008-04-25 00:36:14 +0200

[diff] [blame]

217

"""Class that raises a `TemplateSyntaxError` if called.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

218

Used by the `Lexer` to specify known errors.

219

"""

220

221

def __init__(self, message, cls=TemplateSyntaxError):

222

self.message = message

223

self.error_class = cls

224

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

225

def __call__(self, lineno, filename):

226

raise self.error_class(self.message, lineno, filename)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

227

228

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

class Token(tuple):

"""Token class."""

__slots__ = ()

lineno, type, value = (property(itemgetter(x)) for x in range(3))

233

234

def __new__(cls, lineno, type, value):

235

return tuple.__new__(cls, (lineno, intern(str(type)), value))

236

237

def __str__(self):

Armin Ronacher

8a1d27f

2008-05-19 08:37:19 +0200

[diff] [blame]

238

if self.type in reverse_operators:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

239

return reverse_operators[self.type]

Ali Afshar

272ca2a

2009-01-05 12:14:14 +0100

[diff] [blame]

240

elif self.type == 'name':

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return self.value

return self.type

def test(self, expr):

245

"""Test a token against a token expression. This can either be a

Armin Ronacher

023b5e9

2008-05-08 11:03:10 +0200

[diff] [blame]

246

token type or ``'token_type:token_value'``. This can only test

247

against string values and types.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

248

"""

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

249

# here we do a regular string equality check as test_any is usually

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

250

# passed an iterable of not interned strings.

251

if self.type == expr:

252

return True

253

elif ':' in expr:

254

return expr.split(':', 1) == [self.type, self.value]

255

return False

256

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

257

def test_any(self, *iterable):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

258

"""Test against multiple token expressions."""

259

for expr in iterable:

if self.test(expr):

return True

return False

def __repr__(self):

return 'Token(%r, %r, %r)' % (

self.lineno,

self.type,

self.value

)

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

272

class TokenStreamIterator(six.Iterator):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

273

"""The iterator for tokenstreams. Iterate over the stream

274

until the eof token is reached.

275

"""

276

277

def __init__(self, stream):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

278

self.stream = stream

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

def __iter__(self):

return self

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

283

def __next__(self):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

284

token = self.stream.current

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

285

if token.type is TOKEN_EOF:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

286

self.stream.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

287

raise StopIteration()

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

288

six.advance_iterator(self.stream)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return token

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

292

class TokenStream(six.Iterator):

Armin Ronacher

023b5e9

2008-05-08 11:03:10 +0200

[diff] [blame]

293

"""A token stream is an iterable that yields :class:`Token`\s. The

294

parser however does not iterate over it but calls :meth:`next` to go

295

one token ahead. The current active token is stored as :attr:`current`.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

296

"""

297

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

298

def __init__(self, generator, name, filename):

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

299

self._iter = iter(generator)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

300

self._pushed = deque()

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

301

self.name = name

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

302

self.filename = filename

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

303

self.closed = False

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

304

self.current = Token(1, TOKEN_INITIAL, '')

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

305

six.advance_iterator(self)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

306

307

def __iter__(self):

308

return TokenStreamIterator(self)

309

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

310

def __bool__(self):

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

311

return bool(self._pushed) or self.current.type is not TOKEN_EOF

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

312

__nonzero__ = __bool__ # py2

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

313

Armin Ronacher

42a1988

2009-08-05 18:45:39 +0200

[diff] [blame]

314

eos = property(lambda x: not x, doc="Are we at the end of the stream?")

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

315

316

def push(self, token):

317

"""Push a token back to the stream."""

318

self._pushed.append(token)

319

320

def look(self):

321

"""Look at the next token."""

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

322

old_token = six.advance_iterator(self)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

323

result = self.current

324

self.push(result)

325

self.current = old_token

326

return result

327

Armin Ronacher

ea847c5

2008-05-02 20:04:32 +0200

[diff] [blame]

328

def skip(self, n=1):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

329

"""Got n tokens ahead."""

Thomas Waldmann

2013-05-17 23:52:14 +0200

[diff] [blame]

330

for x in range(n):

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

331

six.advance_iterator(self)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

332

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

333

def next_if(self, expr):

334

"""Perform the token test and return the token if it matched.

335

Otherwise the return value is `None`.

336

"""

337

if self.current.test(expr):

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

338

return six.advance_iterator(self)

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

339

340

def skip_if(self, expr):

Armin Ronacher

9cf9591

2008-05-24 19:54:43 +0200

[diff] [blame]

341

"""Like :meth:`next_if` but only returns `True` or `False`."""

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

342

return self.next_if(expr) is not None

343

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

344

def __next__(self):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

345

"""Go one token ahead and return the old one"""

346

rv = self.current

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

347

if self._pushed:

348

self.current = self._pushed.popleft()

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

349

elif self.current.type is not TOKEN_EOF:

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

350

try:

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

351

self.current = six.advance_iterator(self._iter)

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

352

except StopIteration:

353

self.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return rv

def close(self):

"""Close the stream."""

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

358

self.current = Token(self.current.lineno, TOKEN_EOF, '')

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

359

self._iter = None

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

360

self.closed = True

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

361

362

def expect(self, expr):

Armin Ronacher

023b5e9

2008-05-08 11:03:10 +0200

[diff] [blame]

363

"""Expect a given token type and return it. This accepts the same

364

argument as :meth:`jinja2.lexer.Token.test`.

365

"""

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

366

if not self.current.test(expr):

Armin Ronacher

2010-02-06 14:01:26 +0100

[diff] [blame]

367

expr = describe_token_expr(expr)

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

368

if self.current.type is TOKEN_EOF:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

369

raise TemplateSyntaxError('unexpected end of template, '

370

'expected %r.' % expr,

371

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

372

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

373

raise TemplateSyntaxError("expected token %r, got %r" %

Armin Ronacher

2010-02-06 14:01:26 +0100

[diff] [blame]

374

(expr, describe_token(self.current)),

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

375

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

376

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

377

try:

378

return self.current

379

finally:

Thomas Waldmann

2013-05-18 00:06:22 +0200

[diff] [blame]

380

six.advance_iterator(self)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

381

382

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

383

def get_lexer(environment):

384

"""Return a lexer which is probably cached."""

385

key = (environment.block_start_string,

386

environment.block_end_string,

387

environment.variable_start_string,

388

environment.variable_end_string,

389

environment.comment_start_string,

390

environment.comment_end_string,

391

environment.line_statement_prefix,

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

392

environment.line_comment_prefix,

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

393

environment.trim_blocks,

W. Trevor King

7e912c6

2013-01-11 08:23:24 -0500

[diff] [blame]

394

environment.newline_sequence,

395

environment.keep_trailing_newline)

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

396

lexer = _lexer_cache.get(key)

397

if lexer is None:

398

lexer = Lexer(environment)

399

_lexer_cache[key] = lexer

400

return lexer

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

401

402

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

403

class Lexer(object):

Armin Ronacher

b5124e6

2008-04-25 00:36:14 +0200

[diff] [blame]

404

"""Class that implements a lexer for a given environment. Automatically

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

405

created by the environment class, usually you don't have to do that.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

406

407

Note that the lexer is not automatically bound to an environment.

408

Multiple environments can share the same lexer.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

409

"""

410

411

def __init__(self, environment):

412

# shortcuts

413

c = lambda x: re.compile(x, re.M | re.S)

414

e = re.escape

415

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

416

# lexing rules for tags

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

417

tag_rules = [

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

418

(whitespace_re, TOKEN_WHITESPACE, None),

419

(float_re, TOKEN_FLOAT, None),

420

(integer_re, TOKEN_INTEGER, None),

421

(name_re, TOKEN_NAME, None),

422

(string_re, TOKEN_STRING, None),

423

(operator_re, TOKEN_OPERATOR, None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

424

]

425

Dmitry Jemerov

2011-09-26 19:04:29 +0200

[diff] [blame]

426

# assemble the root lexing rule. because "|" is ungreedy

Armin Ronacher

d874fbe

2007-02-27 20:51:59 +0100

[diff] [blame]

427

# we have to sort by length so that the lexer continues working

428

# as expected when we have parsing rules like <% for block and

429

# <%= for variables. (if someone wants asp like syntax)

Armin Ronacher

33d528a

2007-05-14 18:21:44 +0200

[diff] [blame]

430

# variables are just part of the rules if variable processing

431

# is required.

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

432

root_tag_rules = compile_rules(environment)

Armin Ronacher

d874fbe

2007-02-27 20:51:59 +0100

[diff] [blame]

433

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

434

# block suffix if trimming is enabled

435

block_suffix_re = environment.trim_blocks and '\\n?' or ''

436

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

437

self.newline_sequence = environment.newline_sequence

W. Trevor King

7e912c6

2013-01-11 08:23:24 -0500

[diff] [blame]

438

self.keep_trailing_newline = environment.keep_trailing_newline

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

439

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

440

# global lexing rules

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

441

self.rules = {

442

'root': [

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

443

# directives

444

(c('(.*?)(?:%s)' % '|'.join(

Armin Ronacher

ac0c0d0

2010-06-05 14:37:32 +0200

[diff] [blame]

445

[r'(?P<raw_begin>(?:\s*%s\-|%s)\s*raw\s*(?:\-%s\s*|%s))' % (

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

446

e(environment.block_start_string),

447

e(environment.block_start_string),

Armin Ronacher

ac0c0d0

2010-06-05 14:37:32 +0200

[diff] [blame]

448

e(environment.block_end_string),

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

449

e(environment.block_end_string)

450

)] + [

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

451

r'(?P<%s_begin>\s*%s\-|%s)' % (n, r, r)

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

452

for n, r in root_tag_rules

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

453

])), (TOKEN_DATA, '#bygroup'), '#bygroup'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

454

# data

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

455

(c('.+'), TOKEN_DATA, None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

456

],

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

457

# comments

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

458

TOKEN_COMMENT_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

459

(c(r'(.*?)((?:\-%s\s*|%s)%s)' % (

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

460

e(environment.comment_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

461

e(environment.comment_end_string),

462

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

463

)), (TOKEN_COMMENT, TOKEN_COMMENT_END), '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

464

(c('(.)'), (Failure('Missing end of comment tag'),), None)

465

],

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

466

# blocks

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

467

TOKEN_BLOCK_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

468

(c('(?:\-%s\s*|%s)%s' % (

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

469

e(environment.block_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

470

e(environment.block_end_string),

471

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

472

)), TOKEN_BLOCK_END, '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

473

] + tag_rules,

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

474

# variables

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

475

TOKEN_VARIABLE_BEGIN: [

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

476

(c('\-%s\s*|%s' % (

477

e(environment.variable_end_string),

478

e(environment.variable_end_string)

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

479

)), TOKEN_VARIABLE_END, '#pop')

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

480

] + tag_rules,

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

481

# raw block

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

482

TOKEN_RAW_BEGIN: [

Armin Ronacher

1151fbc

2007-03-28 21:44:04 +0200

[diff] [blame]

483

(c('(.*?)((?:\s*%s\-|%s)\s*endraw\s*(?:\-%s\s*|%s%s))' % (

484

e(environment.block_start_string),

485

e(environment.block_start_string),

486

e(environment.block_end_string),

487

e(environment.block_end_string),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

488

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

489

)), (TOKEN_DATA, TOKEN_RAW_END), '#pop'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

490

(c('(.)'), (Failure('Missing end of raw directive'),), None)

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

491

],

492

# line statements

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

493

TOKEN_LINESTATEMENT_BEGIN: [

494

(c(r'\s*(\n|$)'), TOKEN_LINESTATEMENT_END, '#pop')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

495

] + tag_rules,

496

# line comments

497

TOKEN_LINECOMMENT_BEGIN: [

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

498

(c(r'(.*?)()(?=\n|$)'), (TOKEN_LINECOMMENT,

499

TOKEN_LINECOMMENT_END), '#pop')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

500

]

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

501

}

Armin Ronacher

bf7c4ad

2008-04-12 12:02:36 +0200

[diff] [blame]

502

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

503

def _normalize_newlines(self, value):

Dmitry Jemerov

2011-09-26 19:04:29 +0200

[diff] [blame]

504

"""Called for strings and template data to normalize it to unicode."""

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

505

return newline_re.sub(self.newline_sequence, value)

506

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

507

def tokenize(self, source, name=None, filename=None, state=None):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

508

"""Calls tokeniter + tokenize and wraps it in a token stream.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

509

"""

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

510

stream = self.tokeniter(source, name, filename, state)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

511

return TokenStream(self.wrap(stream, name, filename), name, filename)

512

513

def wrap(self, stream, name=None, filename=None):

514

"""This is called with the stream as returned by `tokenize` and wraps

515

every token in a :class:`Token` and converts the value.

516

"""

517

for lineno, token, value in stream:

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

518

if token in ignored_tokens:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

519

continue

520

elif token == 'linestatement_begin':

521

token = 'block_begin'

522

elif token == 'linestatement_end':

523

token = 'block_end'

524

# we are not interested in those tokens in the parser

525

elif token in ('raw_begin', 'raw_end'):

526

continue

527

elif token == 'data':

528

value = self._normalize_newlines(value)

529

elif token == 'keyword':

530

token = value

531

elif token == 'name':

532

value = str(value)

533

elif token == 'string':

534

# try to unescape string

535

try:

536

value = self._normalize_newlines(value[1:-1]) \

537

.encode('ascii', 'backslashreplace') \

538

.decode('unicode-escape')

Thomas Waldmann

2013-05-17 23:52:14 +0200

[diff] [blame]

539

except Exception as e:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

540

msg = str(e).split(':')[-1].strip()

541

raise TemplateSyntaxError(msg, lineno, name, filename)

542

# if we can express it as bytestring (ascii only)

543

# we do that for support of semi broken APIs

Armin Ronacher

0d242be

2010-02-10 01:35:13 +0100

[diff] [blame]

544

# as datetime.datetime.strftime. On python 3 this

545

# call becomes a noop thanks to 2to3

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

546

try:

Armin Ronacher

d1ff858

2008-05-11 00:30:43 +0200

[diff] [blame]

547

value = str(value)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

548

except UnicodeError:

549

pass

550

elif token == 'integer':

551

value = int(value)

552

elif token == 'float':

553

value = float(value)

554

elif token == 'operator':

555

token = operators[value]

556

yield Token(lineno, token, value)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

557

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

558

def tokeniter(self, source, name, filename=None, state=None):

Armin Ronacher

b5124e6

2008-04-25 00:36:14 +0200

[diff] [blame]

559

"""This method tokenizes the text and returns the tokens in a

560

generator. Use this method if you just want to tokenize a template.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

561

"""

Armin Ronacher

f3acf0b

2013-05-19 11:09:19 +0100

[diff] [blame^]

562

source = six.text_type(source)

W. Trevor King

7e912c6

2013-01-11 08:23:24 -0500

[diff] [blame]

563

lines = source.splitlines()

564

if self.keep_trailing_newline and source:

565

for newline in ('\r\n', '\r', '\n'):

566

if source.endswith(newline):

567

lines.append('')

568

break

569

source = '\n'.join(lines)

Armin Ronacher

7977e5c

2007-03-12 07:22:17 +0100

[diff] [blame]

570

pos = 0

571

lineno = 1

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

572

stack = ['root']

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

573

if state is not None and state != 'root':

574

assert state in ('variable', 'block'), 'invalid state'

575

stack.append(state + '_begin')

576

else:

577

state = 'root'

578

statetokens = self.rules[stack[-1]]

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

579

source_length = len(source)

580

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

581

balancing_stack = []

582

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

583

while 1:

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

584

# tokenizer loop

585

for regex, tokens, new_state in statetokens:

586

m = regex.match(source, pos)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

587

# if no match we try again with the next rule

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

588

if m is None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

589

continue

590

Dmitry Jemerov

2011-09-26 19:04:29 +0200

[diff] [blame]

591

# we only match blocks and variables if braces / parentheses

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

592

# are balanced. continue parsing with the lower rule which

593

# is the operator rule. do this only if the end tags look

594

# like operators

595

if balancing_stack and \

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

596

tokens in ('variable_end', 'block_end',

597

'linestatement_end'):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

598

continue

599

600

# tuples support more options

601

if isinstance(tokens, tuple):

602

for idx, token in enumerate(tokens):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

603

# failure group

Armin Ronacher

d8b8c3e

2008-05-22 21:28:32 +0200

[diff] [blame]

604

if token.__class__ is Failure:

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

605

raise token(lineno, filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

606

# bygroup is a bit more complex, in that case we

607

# yield for the current token the first named

608

# group that matched

609

elif token == '#bygroup':

Thomas Waldmann

2013-05-17 23:52:14 +0200

[diff] [blame]

610

for key, value in six.iteritems(m.groupdict()):

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

611

if value is not None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

612

yield lineno, key, value

613

lineno += value.count('\n')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

614

break

615

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

616

raise RuntimeError('%r wanted to resolve '

617

'the token dynamically'

618

' but no group matched'

619

% regex)

620

# normal group

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

621

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

622

data = m.group(idx + 1)

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

623

if data or token not in ignore_if_empty:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

624

yield lineno, token, data

625

lineno += data.count('\n')

626

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

627

# strings as token just are yielded as it.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

628

else:

629

data = m.group()

630

# update brace/parentheses balance

631

if tokens == 'operator':

632

if data == '{':

633

balancing_stack.append('}')

634

elif data == '(':

635

balancing_stack.append(')')

636

elif data == '[':

637

balancing_stack.append(']')

638

elif data in ('}', ')', ']'):

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

639

if not balancing_stack:

Armin Ronacher

2010-02-06 14:01:26 +0100

[diff] [blame]

640

raise TemplateSyntaxError('unexpected \'%s\'' %

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

641

data, lineno, name,

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

642

filename)

643

expected_op = balancing_stack.pop()

644

if expected_op != data:

Armin Ronacher

2010-02-06 14:01:26 +0100

[diff] [blame]

645

raise TemplateSyntaxError('unexpected \'%s\', '

646

'expected \'%s\'' %

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

647

(data, expected_op),

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

648

lineno, name,

649

filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

650

# yield items

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

651

if data or tokens not in ignore_if_empty:

652

yield lineno, tokens, data

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

653

lineno += data.count('\n')

654

655

# fetch new position into new variable so that we can check

656

# if there is a internal parsing error which would result

657

# in an infinite loop

658

pos2 = m.end()

659

660

# handle state changes

661

if new_state is not None:

662

# remove the uppermost state

663

if new_state == '#pop':

664

stack.pop()

665

# resolve the new state by group checking

666

elif new_state == '#bygroup':

Thomas Waldmann

2013-05-17 23:52:14 +0200

[diff] [blame]

667

for key, value in six.iteritems(m.groupdict()):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

668

if value is not None:

stack.append(key)

break

else:

raise RuntimeError('%r wanted to resolve the '

673

'new state dynamically but'

674

' no group matched' %

675

regex)

676

# direct state name given

677

else:

678

stack.append(new_state)

679

statetokens = self.rules[stack[-1]]

680

# we are still at the same position and no stack change.

681

# this means a loop without break condition, avoid that and

682

# raise error

683

elif pos2 == pos:

684

raise RuntimeError('%r yielded empty string without '

685

'stack change' % regex)

686

# publish new function and start again

687

pos = pos2

688

break

Dmitry Jemerov

2011-09-26 19:04:29 +0200

[diff] [blame]

689

# if loop terminated without break we haven't found a single match

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

690

# either we are at the end of the file or we have a problem

691

else:

692

# end of text

693

if pos >= source_length:

694

return

695

# something went wrong

696

raise TemplateSyntaxError('unexpected char %r at %d' %

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

697

(source[pos], pos), lineno,

Armin Ronacher