Blame - jinja2/lexer.py - platform/external/python/jinja

2007-02-26 22:17:32 +0100

[diff] [blame]

1

# -*- coding: utf-8 -*-

2

"""

Armin Ronacher

07bc684

2008-03-31 14:18:49 +0200

[diff] [blame]

3

jinja2.lexer

4

~~~~~~~~~~~~

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

5

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

6

This module implements a Jinja / Python combination lexer. The

7

`Lexer` class provided by this module is used to do some preprocessing

8

for Jinja.

9

10

On the one hand it filters out invalid operators like the bitshift

11

operators we don't allow in templates. On the other hand it separates

12

template code and python code in expressions.

13

Armin Ronacher

55494e4

2010-01-22 09:41:48 +0100

[diff] [blame]

14

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

15

:license: BSD, see LICENSE for more details.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

16

"""

17

import re

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

18

from operator import itemgetter

19

from collections import deque

Armin Ronacher

82b3f3d

2008-03-31 20:01:08 +0200

[diff] [blame]

20

from jinja2.exceptions import TemplateSyntaxError

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

21

from jinja2.utils import LRUCache, next

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

22

23

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

24

# cache for the lexers. Exists in order to be able to have multiple

25

# environments with the same lexer

Armin Ronacher

187bde1

2008-05-01 18:19:16 +0200

[diff] [blame]

26

_lexer_cache = LRUCache(50)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

27

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

28

# static regular expressions

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

29

whitespace_re = re.compile(r'\s+', re.U)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

30

string_re = re.compile(r"('([^'\\]*(?:\\.[^'\\]*)*)'"

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

31

r'|"([^"\\]*(?:\\.[^"\\]*)*)")', re.S)

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

32

integer_re = re.compile(r'\d+')

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

33

34

# we use the unicode identifier rule if this python version is able

35

# to handle unicode identifiers, otherwise the standard ASCII one.

36

try:

37

compile('föö', '<unknown>', 'eval')

38

except SyntaxError:

39

name_re = re.compile(r'\b[a-zA-Z_][a-zA-Z0-9_]*\b')

40

else:

41

from jinja2 import _stringdefs

42

name_re = re.compile(r'[%s][%s]*' % (_stringdefs.xid_start,

43

_stringdefs.xid_continue))

44

Armin Ronacher

cb1b97f

2008-09-10 14:03:53 +0200

[diff] [blame]

45

float_re = re.compile(r'(?<!\.)\d+\.\d+')

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

46

newline_re = re.compile(r'(\r\n|\r|\n)')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

47

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

48

# internal the tokens and keep references to them

49

TOKEN_ADD = intern('add')

50

TOKEN_ASSIGN = intern('assign')

51

TOKEN_COLON = intern('colon')

52

TOKEN_COMMA = intern('comma')

53

TOKEN_DIV = intern('div')

54

TOKEN_DOT = intern('dot')

55

TOKEN_EQ = intern('eq')

56

TOKEN_FLOORDIV = intern('floordiv')

57

TOKEN_GT = intern('gt')

58

TOKEN_GTEQ = intern('gteq')

59

TOKEN_LBRACE = intern('lbrace')

60

TOKEN_LBRACKET = intern('lbracket')

61

TOKEN_LPAREN = intern('lparen')

62

TOKEN_LT = intern('lt')

63

TOKEN_LTEQ = intern('lteq')

64

TOKEN_MOD = intern('mod')

65

TOKEN_MUL = intern('mul')

66

TOKEN_NE = intern('ne')

67

TOKEN_PIPE = intern('pipe')

68

TOKEN_POW = intern('pow')

69

TOKEN_RBRACE = intern('rbrace')

70

TOKEN_RBRACKET = intern('rbracket')

71

TOKEN_RPAREN = intern('rparen')

72

TOKEN_SEMICOLON = intern('semicolon')

73

TOKEN_SUB = intern('sub')

74

TOKEN_TILDE = intern('tilde')

75

TOKEN_WHITESPACE = intern('whitespace')

76

TOKEN_FLOAT = intern('float')

77

TOKEN_INTEGER = intern('integer')

78

TOKEN_NAME = intern('name')

79

TOKEN_STRING = intern('string')

80

TOKEN_OPERATOR = intern('operator')

81

TOKEN_BLOCK_BEGIN = intern('block_begin')

82

TOKEN_BLOCK_END = intern('block_end')

83

TOKEN_VARIABLE_BEGIN = intern('variable_begin')

84

TOKEN_VARIABLE_END = intern('variable_end')

85

TOKEN_RAW_BEGIN = intern('raw_begin')

86

TOKEN_RAW_END = intern('raw_end')

87

TOKEN_COMMENT_BEGIN = intern('comment_begin')

88

TOKEN_COMMENT_END = intern('comment_end')

89

TOKEN_COMMENT = intern('comment')

90

TOKEN_LINESTATEMENT_BEGIN = intern('linestatement_begin')

91

TOKEN_LINESTATEMENT_END = intern('linestatement_end')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

92

TOKEN_LINECOMMENT_BEGIN = intern('linecomment_begin')

93

TOKEN_LINECOMMENT_END = intern('linecomment_end')

94

TOKEN_LINECOMMENT = intern('linecomment')

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

95

TOKEN_DATA = intern('data')

96

TOKEN_INITIAL = intern('initial')

97

TOKEN_EOF = intern('eof')

98

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

99

# bind operators to token types

100

operators = {

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

'+': TOKEN_ADD,

'-': TOKEN_SUB,

'/': TOKEN_DIV,

'//': TOKEN_FLOORDIV,

'*': TOKEN_MUL,

'%': TOKEN_MOD,

'**': TOKEN_POW,

'~': TOKEN_TILDE,

'[': TOKEN_LBRACKET,

']': TOKEN_RBRACKET,

'(': TOKEN_LPAREN,

')': TOKEN_RPAREN,

'{': TOKEN_LBRACE,

'}': TOKEN_RBRACE,

'==': TOKEN_EQ,

'!=': TOKEN_NE,

'>': TOKEN_GT,

'>=': TOKEN_GTEQ,

'<': TOKEN_LT,

'<=': TOKEN_LTEQ,

'=': TOKEN_ASSIGN,

'.': TOKEN_DOT,

':': TOKEN_COLON,

'|': TOKEN_PIPE,

',': TOKEN_COMMA,

';': TOKEN_SEMICOLON

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

127

}

128

129

reverse_operators = dict([(v, k) for k, v in operators.iteritems()])

130

assert len(operators) == len(reverse_operators), 'operators dropped'

Armin Ronacher

e791c2a

2008-04-07 18:39:54 +0200

[diff] [blame]

131

operator_re = re.compile('(%s)' % '|'.join(re.escape(x) for x in

132

sorted(operators, key=lambda x: -len(x))))

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

133

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

134

ignored_tokens = frozenset([TOKEN_COMMENT_BEGIN, TOKEN_COMMENT,

135

TOKEN_COMMENT_END, TOKEN_WHITESPACE,

136

TOKEN_WHITESPACE, TOKEN_LINECOMMENT_BEGIN,

137

TOKEN_LINECOMMENT_END, TOKEN_LINECOMMENT])

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

138

ignore_if_empty = frozenset([TOKEN_WHITESPACE, TOKEN_DATA,

139

TOKEN_COMMENT, TOKEN_LINECOMMENT])

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

140

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

141

Armin Ronacher

2010-02-06 14:01:26 +0100

[diff] [blame]

142

def _describe_token_type(token_type):

143

if token_type in reverse_operators:

144

return reverse_operators[token_type]

145

return {

146

TOKEN_COMMENT_BEGIN: 'begin of comment',

147

TOKEN_COMMENT_END: 'end of comment',

148

TOKEN_COMMENT: 'comment',

149

TOKEN_LINECOMMENT: 'comment',

150

TOKEN_BLOCK_BEGIN: 'begin of statement block',

151

TOKEN_BLOCK_END: 'end of statement block',

152

TOKEN_VARIABLE_BEGIN: 'begin of print statement',

153

TOKEN_VARIABLE_END: 'end of print statement',

154

TOKEN_LINESTATEMENT_BEGIN: 'begin of line statement',

155

TOKEN_LINESTATEMENT_END: 'end of line statement',

156

TOKEN_DATA: 'template data / text',

157

TOKEN_EOF: 'end of template'

158

}.get(token_type, token_type)

159

160

161

def describe_token(token):

162

"""Returns a description of the token."""

163

if token.type == 'name':

164

return token.value

165

return _describe_token_type(token.type)

166

167

168

def describe_token_expr(expr):

169

"""Like `describe_token` but for token expressions."""

170

if ':' in expr:

171

type, value = expr.split(':', 1)

if type == 'name':

return value

else:

type = expr

return _describe_token_type(type)

177

178

Armin Ronacher

d02fc7d

2008-06-14 14:19:47 +0200

[diff] [blame]

179

def count_newlines(value):

180

"""Count the number of newline characters in the string. This is

181

useful for extensions that filter a stream.

182

"""

183

return len(newline_re.findall(value))

184

185

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

186

def compile_rules(environment):

187

"""Compiles all the rules from the environment into a list of rules."""

188

e = re.escape

189

rules = [

190

(len(environment.comment_start_string), 'comment',

191

e(environment.comment_start_string)),

192

(len(environment.block_start_string), 'block',

193

e(environment.block_start_string)),

194

(len(environment.variable_start_string), 'variable',

Armin Ronacher

1bb3ab7

2009-04-01 19:16:25 +0200

[diff] [blame]

195

e(environment.variable_start_string))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

196

]

197

198

if environment.line_statement_prefix is not None:

199

rules.append((len(environment.line_statement_prefix), 'linestatement',

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

200

r'^\s*' + e(environment.line_statement_prefix)))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

201

if environment.line_comment_prefix is not None:

202

rules.append((len(environment.line_comment_prefix), 'linecomment',

Armin Ronacher

a0727a6

2009-04-02 14:14:30 +0200

[diff] [blame]

203

r'(?:^|(?<=\S))[^\S\r\n]*' +

204

e(environment.line_comment_prefix)))

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

205

206

return [x[1:] for x in sorted(rules, reverse=True)]

207

208

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

209

class Failure(object):

Armin Ronacher

b5124e6

2008-04-25 00:36:14 +0200

[diff] [blame]

210

"""Class that raises a `TemplateSyntaxError` if called.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

211

Used by the `Lexer` to specify known errors.

212

"""

213

214

def __init__(self, message, cls=TemplateSyntaxError):

215

self.message = message

216

self.error_class = cls

217

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

218

def __call__(self, lineno, filename):

219

raise self.error_class(self.message, lineno, filename)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

220

221

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

class Token(tuple):

"""Token class."""

__slots__ = ()

lineno, type, value = (property(itemgetter(x)) for x in range(3))

226

227

def __new__(cls, lineno, type, value):

228

return tuple.__new__(cls, (lineno, intern(str(type)), value))

229

230

def __str__(self):

Armin Ronacher

8a1d27f

2008-05-19 08:37:19 +0200

[diff] [blame]

231

if self.type in reverse_operators:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

232

return reverse_operators[self.type]

Ali Afshar

272ca2a

2009-01-05 12:14:14 +0100

[diff] [blame]

233

elif self.type == 'name':

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return self.value

return self.type

def test(self, expr):

238

"""Test a token against a token expression. This can either be a

Armin Ronacher

023b5e9

2008-05-08 11:03:10 +0200

[diff] [blame]

239

token type or ``'token_type:token_value'``. This can only test

240

against string values and types.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

241

"""

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

242

# here we do a regular string equality check as test_any is usually

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

243

# passed an iterable of not interned strings.

244

if self.type == expr:

245

return True

246

elif ':' in expr:

247

return expr.split(':', 1) == [self.type, self.value]

248

return False

249

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

250

def test_any(self, *iterable):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

251

"""Test against multiple token expressions."""

252

for expr in iterable:

if self.test(expr):

return True

return False

def __repr__(self):

return 'Token(%r, %r, %r)' % (

self.lineno,

self.type,

self.value

)

class TokenStreamIterator(object):

266

"""The iterator for tokenstreams. Iterate over the stream

267

until the eof token is reached.

268

"""

269

270

def __init__(self, stream):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

271

self.stream = stream

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

def __iter__(self):

return self

def next(self):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

277

token = self.stream.current

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

278

if token.type is TOKEN_EOF:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

279

self.stream.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

280

raise StopIteration()

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

281

next(self.stream)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return token

class TokenStream(object):

Armin Ronacher

023b5e9

2008-05-08 11:03:10 +0200

[diff] [blame]

286

"""A token stream is an iterable that yields :class:`Token`\s. The

287

parser however does not iterate over it but calls :meth:`next` to go

288

one token ahead. The current active token is stored as :attr:`current`.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

289

"""

290

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

291

def __init__(self, generator, name, filename):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

292

self._next = iter(generator).next

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

293

self._pushed = deque()

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

294

self.name = name

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

295

self.filename = filename

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

296

self.closed = False

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

297

self.current = Token(1, TOKEN_INITIAL, '')

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

298

next(self)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

299

300

def __iter__(self):

301

return TokenStreamIterator(self)

302

303

def __nonzero__(self):

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

304

return bool(self._pushed) or self.current.type is not TOKEN_EOF

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

305

Armin Ronacher

42a1988

2009-08-05 18:45:39 +0200

[diff] [blame]

306

eos = property(lambda x: not x, doc="Are we at the end of the stream?")

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

307

308

def push(self, token):

309

"""Push a token back to the stream."""

310

self._pushed.append(token)

311

312

def look(self):

313

"""Look at the next token."""

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

314

old_token = next(self)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

315

result = self.current

316

self.push(result)

317

self.current = old_token

318

return result

319

Armin Ronacher

ea847c5

2008-05-02 20:04:32 +0200

[diff] [blame]

320

def skip(self, n=1):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

321

"""Got n tokens ahead."""

322

for x in xrange(n):

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

323

next(self)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

324

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

325

def next_if(self, expr):

326

"""Perform the token test and return the token if it matched.

327

Otherwise the return value is `None`.

328

"""

329

if self.current.test(expr):

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

330

return next(self)

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

331

332

def skip_if(self, expr):

Armin Ronacher

9cf9591

2008-05-24 19:54:43 +0200

[diff] [blame]

333

"""Like :meth:`next_if` but only returns `True` or `False`."""

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

334

return self.next_if(expr) is not None

335

336

def next(self):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

337

"""Go one token ahead and return the old one"""

338

rv = self.current

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

339

if self._pushed:

340

self.current = self._pushed.popleft()

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

341

elif self.current.type is not TOKEN_EOF:

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

342

try:

343

self.current = self._next()

344

except StopIteration:

345

self.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return rv

def close(self):

"""Close the stream."""

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

350

self.current = Token(self.current.lineno, TOKEN_EOF, '')

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

351

self._next = None

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

352

self.closed = True

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

353

354

def expect(self, expr):

Armin Ronacher

023b5e9

2008-05-08 11:03:10 +0200

[diff] [blame]

355

"""Expect a given token type and return it. This accepts the same

356

argument as :meth:`jinja2.lexer.Token.test`.

357

"""

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

358

if not self.current.test(expr):

Armin Ronacher

2010-02-06 14:01:26 +0100

[diff] [blame]

359

expr = describe_token_expr(expr)

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

360

if self.current.type is TOKEN_EOF:

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

361

raise TemplateSyntaxError('unexpected end of template, '

362

'expected %r.' % expr,

363

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

364

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

365

raise TemplateSyntaxError("expected token %r, got %r" %

Armin Ronacher

2010-02-06 14:01:26 +0100

[diff] [blame]

366

(expr, describe_token(self.current)),

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

367

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

368

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

369

try:

370

return self.current

371

finally:

Armin Ronacher

2009-08-05 20:25:06 +0200

[diff] [blame]

372

next(self)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

373

374

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

375

def get_lexer(environment):

376

"""Return a lexer which is probably cached."""

377

key = (environment.block_start_string,

378

environment.block_end_string,

379

environment.variable_start_string,

380

environment.variable_end_string,

381

environment.comment_start_string,

382

environment.comment_end_string,

383

environment.line_statement_prefix,

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

384

environment.line_comment_prefix,

Armin Ronacher

2008-08-13 18:24:17 +0200

[diff] [blame]

385

environment.trim_blocks,

386

environment.newline_sequence)

387

lexer = _lexer_cache.get(key)

388

if lexer is None:

389

lexer = Lexer(environment)

390

_lexer_cache[key] = lexer

391

return lexer

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

392

393

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

394

class Lexer(object):

Armin Ronacher

b5124e6

2008-04-25 00:36:14 +0200

[diff] [blame]

395

"""Class that implements a lexer for a given environment. Automatically

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

396

created by the environment class, usually you don't have to do that.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

397

398

Note that the lexer is not automatically bound to an environment.

399

Multiple environments can share the same lexer.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

400

"""

401

402

def __init__(self, environment):

403

# shortcuts

404

c = lambda x: re.compile(x, re.M | re.S)

405

e = re.escape

406

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

407

# lexing rules for tags

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

408

tag_rules = [

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

409

(whitespace_re, TOKEN_WHITESPACE, None),

410

(float_re, TOKEN_FLOAT, None),

411

(integer_re, TOKEN_INTEGER, None),

412

(name_re, TOKEN_NAME, None),

413

(string_re, TOKEN_STRING, None),

414

(operator_re, TOKEN_OPERATOR, None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

415

]

416

Dmitry Jemerov

2011-09-26 19:04:29 +0200

[diff] [blame]

417

# assemble the root lexing rule. because "|" is ungreedy

Armin Ronacher

d874fbe

2007-02-27 20:51:59 +0100

[diff] [blame]

418

# we have to sort by length so that the lexer continues working

419

# as expected when we have parsing rules like <% for block and

420

# <%= for variables. (if someone wants asp like syntax)

Armin Ronacher

33d528a

2007-05-14 18:21:44 +0200

[diff] [blame]

421

# variables are just part of the rules if variable processing

422

# is required.

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

423

root_tag_rules = compile_rules(environment)

Armin Ronacher

d874fbe

2007-02-27 20:51:59 +0100

[diff] [blame]

424

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

425

# block suffix if trimming is enabled

426

block_suffix_re = environment.trim_blocks and '\\n?' or ''

Kristi Tsukida

2012-07-10 17:13:50 -0700

[diff] [blame^]

427

# strip leading spaces if lstrip_blocks is enabled

428

block_prefix_re = environment.lstrip_blocks and r'^[ \t]*' or ''

429

430

print 'block_prefix_re = %s' % block_prefix_re

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

431

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

432

self.newline_sequence = environment.newline_sequence

433

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

434

# global lexing rules

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

435

self.rules = {

436

'root': [

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

437

# directives

438

(c('(.*?)(?:%s)' % '|'.join(

Kristi Tsukida

2012-07-10 17:13:50 -0700

[diff] [blame^]

439

[r'(?P<raw_begin>(?:\s*%s\-|%s%s|%s)\s*raw\s*(?:\-%s\s*|%s))' % (

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

440

e(environment.block_start_string),

Kristi Tsukida

15605a8

2012-07-10 13:25:38 -0700

[diff] [blame]

441

block_prefix_re,

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

442

e(environment.block_start_string),

Kristi Tsukida

2012-07-10 17:13:50 -0700

[diff] [blame^]

443

e(environment.block_start_string),

Armin Ronacher

ac0c0d0

2010-06-05 14:37:32 +0200

[diff] [blame]

444

e(environment.block_end_string),

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

445

e(environment.block_end_string)

446

)] + [

Kristi Tsukida

2012-07-10 17:13:50 -0700

[diff] [blame^]

447

r'(?P<%s_begin>\s*%s\-|%s)' % (n, r, r if n != "block" else '%s%s|%s' % (block_prefix_re, r, r) )

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

448

for n, r in root_tag_rules

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

449

])), (TOKEN_DATA, '#bygroup'), '#bygroup'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

450

# data

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

451

(c('.+'), TOKEN_DATA, None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

452

],

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

453

# comments

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

454

TOKEN_COMMENT_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

455

(c(r'(.*?)((?:\-%s\s*|%s)%s)' % (

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

456

e(environment.comment_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

457

e(environment.comment_end_string),

458

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

459

)), (TOKEN_COMMENT, TOKEN_COMMENT_END), '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

460

(c('(.)'), (Failure('Missing end of comment tag'),), None)

461

],

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

462

# blocks

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

463

TOKEN_BLOCK_BEGIN: [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

464

(c('(?:\-%s\s*|%s)%s' % (

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

465

e(environment.block_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

466

e(environment.block_end_string),

467

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

468

)), TOKEN_BLOCK_END, '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

469

] + tag_rules,

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

470

# variables

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

471

TOKEN_VARIABLE_BEGIN: [

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

472

(c('\-%s\s*|%s' % (

473

e(environment.variable_end_string),

474

e(environment.variable_end_string)

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

475

)), TOKEN_VARIABLE_END, '#pop')

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

476

] + tag_rules,

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

477

# raw block

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

478

TOKEN_RAW_BEGIN: [

Kristi Tsukida

2012-07-10 17:13:50 -0700

[diff] [blame^]

479

(c('(.*?)((?:\s*%s\-|%s%s|%s)\s*endraw\s*(?:\-%s\s*|%s%s))' % (

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

480

e(environment.block_start_string),

Kristi Tsukida

15605a8

2012-07-10 13:25:38 -0700

[diff] [blame]

481

block_prefix_re,

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

482

e(environment.block_start_string),

Kristi Tsukida

2012-07-10 17:13:50 -0700

[diff] [blame^]

483

e(environment.block_start_string),

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

484

e(environment.block_end_string),

485

e(environment.block_end_string),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

486

block_suffix_re

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

487

)), (TOKEN_DATA, TOKEN_RAW_END), '#pop'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

488

(c('(.)'), (Failure('Missing end of raw directive'),), None)

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

489

],

490

# line statements

Armin Ronacher

2009-02-04 19:33:58 +0100

[diff] [blame]

491

TOKEN_LINESTATEMENT_BEGIN: [

492

(c(r'\s*(\n|$)'), TOKEN_LINESTATEMENT_END, '#pop')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

493

] + tag_rules,

494

# line comments

495

TOKEN_LINECOMMENT_BEGIN: [

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

496

(c(r'(.*?)()(?=\n|$)'), (TOKEN_LINECOMMENT,

497

TOKEN_LINECOMMENT_END), '#pop')

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

498

]

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

499

}

Armin Ronacher

bf7c4ad

2008-04-12 12:02:36 +0200

[diff] [blame]

500

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

501

def _normalize_newlines(self, value):

Dmitry Jemerov

2011-09-26 19:04:29 +0200

[diff] [blame]

502

"""Called for strings and template data to normalize it to unicode."""

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

503

return newline_re.sub(self.newline_sequence, value)

504

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

505

def tokenize(self, source, name=None, filename=None, state=None):

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

506

"""Calls tokeniter + tokenize and wraps it in a token stream.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

507

"""

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

508

stream = self.tokeniter(source, name, filename, state)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

509

return TokenStream(self.wrap(stream, name, filename), name, filename)

510

511

def wrap(self, stream, name=None, filename=None):

512

"""This is called with the stream as returned by `tokenize` and wraps

513

every token in a :class:`Token` and converts the value.

514

"""

515

for lineno, token, value in stream:

Armin Ronacher

2009-03-30 21:00:16 +0200

[diff] [blame]

516

if token in ignored_tokens:

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

517

continue

518

elif token == 'linestatement_begin':

519

token = 'block_begin'

520

elif token == 'linestatement_end':

521

token = 'block_end'

522

# we are not interested in those tokens in the parser

523

elif token in ('raw_begin', 'raw_end'):

524

continue

525

elif token == 'data':

526

value = self._normalize_newlines(value)

527

elif token == 'keyword':

528

token = value

529

elif token == 'name':

530

value = str(value)

531

elif token == 'string':

532

# try to unescape string

533

try:

534

value = self._normalize_newlines(value[1:-1]) \

535

.encode('ascii', 'backslashreplace') \

536

.decode('unicode-escape')

537

except Exception, e:

538

msg = str(e).split(':')[-1].strip()

539

raise TemplateSyntaxError(msg, lineno, name, filename)

540

# if we can express it as bytestring (ascii only)

541

# we do that for support of semi broken APIs

Armin Ronacher

0d242be

2010-02-10 01:35:13 +0100

[diff] [blame]

542

# as datetime.datetime.strftime. On python 3 this

543

# call becomes a noop thanks to 2to3

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

544

try:

Armin Ronacher

d1ff858

2008-05-11 00:30:43 +0200

[diff] [blame]

545

value = str(value)

Armin Ronacher

2008-06-13 22:44:01 +0200

[diff] [blame]

546

except UnicodeError:

547

pass

548

elif token == 'integer':

549

value = int(value)

550

elif token == 'float':

551

value = float(value)

552

elif token == 'operator':

553

token = operators[value]

554

yield Token(lineno, token, value)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

555

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

556

def tokeniter(self, source, name, filename=None, state=None):

Armin Ronacher

b5124e6

2008-04-25 00:36:14 +0200

[diff] [blame]

557

"""This method tokenizes the text and returns the tokens in a

558

generator. Use this method if you just want to tokenize a template.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

559

"""

Armin Ronacher

2008-05-23 23:18:14 +0200

[diff] [blame]

560

source = '\n'.join(unicode(source).splitlines())

Armin Ronacher

7977e5c

2007-03-12 07:22:17 +0100

[diff] [blame]

561

pos = 0

562

lineno = 1

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

563

stack = ['root']

Armin Ronacher

2008-11-02 15:58:14 +0100

[diff] [blame]

564

if state is not None and state != 'root':

565

assert state in ('variable', 'block'), 'invalid state'

566

stack.append(state + '_begin')

567

else:

568

state = 'root'

569

statetokens = self.rules[stack[-1]]

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

570

source_length = len(source)

571

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

572

balancing_stack = []

573

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

574

while 1:

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

575

# tokenizer loop

576

for regex, tokens, new_state in statetokens:

577

m = regex.match(source, pos)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

578

# if no match we try again with the next rule

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

579

if m is None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

580

continue

581

Dmitry Jemerov

2011-09-26 19:04:29 +0200

[diff] [blame]

582

# we only match blocks and variables if braces / parentheses

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

583

# are balanced. continue parsing with the lower rule which

584

# is the operator rule. do this only if the end tags look

585

# like operators

586

if balancing_stack and \

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

587

tokens in ('variable_end', 'block_end',

588

'linestatement_end'):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

589

continue

590

591

# tuples support more options

592

if isinstance(tokens, tuple):

593

for idx, token in enumerate(tokens):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

594

# failure group

Armin Ronacher

d8b8c3e

2008-05-22 21:28:32 +0200

[diff] [blame]

595

if token.__class__ is Failure:

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

596

raise token(lineno, filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

597

# bygroup is a bit more complex, in that case we

598

# yield for the current token the first named

599

# group that matched

600

elif token == '#bygroup':

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

601

for key, value in m.groupdict().iteritems():

602

if value is not None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

603

yield lineno, key, value

604

lineno += value.count('\n')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

605

break

606

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

607

raise RuntimeError('%r wanted to resolve '

608

'the token dynamically'

609

' but no group matched'

610

% regex)

611

# normal group

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

612

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

613

data = m.group(idx + 1)

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

614

if data or token not in ignore_if_empty:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

615

yield lineno, token, data

616

lineno += data.count('\n')

617

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

618

# strings as token just are yielded as it.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

619

else:

620

data = m.group()

621

# update brace/parentheses balance

622

if tokens == 'operator':

623

if data == '{':

624

balancing_stack.append('}')

625

elif data == '(':

626

balancing_stack.append(')')

627

elif data == '[':

628

balancing_stack.append(']')

629

elif data in ('}', ')', ']'):

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

630

if not balancing_stack:

Armin Ronacher

2010-02-06 14:01:26 +0100

[diff] [blame]

631

raise TemplateSyntaxError('unexpected \'%s\'' %

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

632

data, lineno, name,

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

633

filename)

634

expected_op = balancing_stack.pop()

635

if expected_op != data:

Armin Ronacher

2010-02-06 14:01:26 +0100

[diff] [blame]

636

raise TemplateSyntaxError('unexpected \'%s\', '

637

'expected \'%s\'' %

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

638

(data, expected_op),

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

639

lineno, name,

640

filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

641

# yield items

Armin Ronacher

2009-03-31 23:51:56 +0200

[diff] [blame]

642

if data or tokens not in ignore_if_empty:

643

yield lineno, tokens, data

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

644

lineno += data.count('\n')

645

646

# fetch new position into new variable so that we can check

647

# if there is a internal parsing error which would result

648

# in an infinite loop

649

pos2 = m.end()

650

651

# handle state changes

652

if new_state is not None:

653

# remove the uppermost state

654

if new_state == '#pop':

655

stack.pop()

656

# resolve the new state by group checking

657

elif new_state == '#bygroup':

658

for key, value in m.groupdict().iteritems():

659

if value is not None:

stack.append(key)

break

else:

raise RuntimeError('%r wanted to resolve the '

664

'new state dynamically but'

665

' no group matched' %

666

regex)

667

# direct state name given

668

else:

669

stack.append(new_state)

670

statetokens = self.rules[stack[-1]]

671

# we are still at the same position and no stack change.

672

# this means a loop without break condition, avoid that and

673

# raise error

674

elif pos2 == pos:

675

raise RuntimeError('%r yielded empty string without '

676

'stack change' % regex)

677

# publish new function and start again

678

pos = pos2

679

break

Dmitry Jemerov

2011-09-26 19:04:29 +0200

[diff] [blame]

680

# if loop terminated without break we haven't found a single match

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

681

# either we are at the end of the file or we have a problem

682

else:

683

# end of text

684

if pos >= source_length:

685

return

686

# something went wrong

687

raise TemplateSyntaxError('unexpected char %r at %d' %

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

688

(source[pos], pos), lineno,

Armin Ronacher