Blame - jinja2/lexer.py - platform/external/python/jinja

2007-02-26 22:17:32 +0100

[diff] [blame]

1

# -*- coding: utf-8 -*-

2

"""

Armin Ronacher

07bc684

2008-03-31 14:18:49 +0200

[diff] [blame]

3

jinja2.lexer

4

~~~~~~~~~~~~

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

5

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

6

This module implements a Jinja / Python combination lexer. The

7

`Lexer` class provided by this module is used to do some preprocessing

8

for Jinja.

9

10

On the one hand it filters out invalid operators like the bitshift

11

operators we don't allow in templates. On the other hand it separates

12

template code and python code in expressions.

13

Armin Ronacher

1d51f63

2008-03-25 14:34:45 +0100

[diff] [blame]

14

:copyright: 2007-2008 by Armin Ronacher.

Armin Ronacher

3b65b8a

2007-02-27 20:21:45 +0100

[diff] [blame]

15

:license: BSD, see LICENSE for more details.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

16

"""

17

import re

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

18

import unicodedata

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

19

from operator import itemgetter

20

from collections import deque

Armin Ronacher

82b3f3d

2008-03-31 20:01:08 +0200

[diff] [blame]

21

from jinja2.exceptions import TemplateSyntaxError

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

22

from jinja2.utils import LRUCache

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

23

24

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

25

# cache for the lexers. Exists in order to be able to have multiple

26

# environments with the same lexer

Armin Ronacher

187bde1

2008-05-01 18:19:16 +0200

[diff] [blame]

27

_lexer_cache = LRUCache(50)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

28

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

29

# static regular expressions

Armin Ronacher

0949e4d

2007-10-07 18:53:29 +0200

[diff] [blame]

30

whitespace_re = re.compile(r'\s+(?um)')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

31

string_re = re.compile(r"('([^'\\]*(?:\\.[^'\\]*)*)'"

32

r'|"([^"\\]*(?:\\.[^"\\]*)*)")(?ms)')

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

33

integer_re = re.compile(r'\d+')

Armin Ronacher

2008-05-11 00:30:43 +0200

[diff] [blame]

34

name_re = re.compile(r'\b[a-zA-Z_][a-zA-Z0-9_]*\b')

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

35

float_re = re.compile(r'\d+\.\d+')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

36

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

37

# bind operators to token types

operators = {

'+': 'add',

'-': 'sub',

'/': 'div',

'//': 'floordiv',

'*': 'mul',

'%': 'mod',

'**': 'pow',

'~': 'tilde',

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

'[': 'lbracket',

']': 'rbracket',

'(': 'lparen',

')': 'rparen',

'{': 'lbrace',

'}': 'rbrace',

'==': 'eq',

'!=': 'ne',

'>': 'gt',

'>=': 'gteq',

'<': 'lt',

'<=': 'lteq',

'=': 'assign',

'.': 'dot',

':': 'colon',

'|': 'pipe',

Armin Ronacher

07bc684

2008-03-31 14:18:49 +0200

[diff] [blame]

63

',': 'comma',

64

';': 'semicolon'

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

65

}

66

67

reverse_operators = dict([(v, k) for k, v in operators.iteritems()])

68

assert len(operators) == len(reverse_operators), 'operators dropped'

Armin Ronacher

e791c2a

2008-04-07 18:39:54 +0200

[diff] [blame]

69

operator_re = re.compile('(%s)' % '|'.join(re.escape(x) for x in

70

sorted(operators, key=lambda x: -len(x))))

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

71

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

72

73

class Failure(object):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

74

"""Class that raises a `TemplateSyntaxError` if called.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

75

Used by the `Lexer` to specify known errors.

76

"""

77

78

def __init__(self, message, cls=TemplateSyntaxError):

79

self.message = message

80

self.error_class = cls

81

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

82

def __call__(self, lineno, filename):

83

raise self.error_class(self.message, lineno, filename)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

84

85

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

class Token(tuple):

"""Token class."""

__slots__ = ()

lineno, type, value = (property(itemgetter(x)) for x in range(3))

90

91

def __new__(cls, lineno, type, value):

92

return tuple.__new__(cls, (lineno, intern(str(type)), value))

93

94

def __str__(self):

95

from jinja.lexer import keywords, reverse_operators

96

if self.type in keywords:

97

return self.type

98

elif self.type in reverse_operators:

99

return reverse_operators[self.type]

100

elif self.type is 'name':

return self.value

return self.type

def test(self, expr):

105

"""Test a token against a token expression. This can either be a

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

106

token type or ``'token_type:token_value'``. This can only test

107

against string values and types.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

108

"""

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

109

# here we do a regular string equality check as test_any is usually

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

110

# passed an iterable of not interned strings.

111

if self.type == expr:

112

return True

113

elif ':' in expr:

114

return expr.split(':', 1) == [self.type, self.value]

115

return False

116

Armin Ronacher

cda43df

2008-05-03 17:10:05 +0200

[diff] [blame]

117

def test_any(self, *iterable):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

118

"""Test against multiple token expressions."""

119

for expr in iterable:

if self.test(expr):

return True

return False

def __repr__(self):

return 'Token(%r, %r, %r)' % (

self.lineno,

self.type,

self.value

)

class TokenStreamIterator(object):

133

"""The iterator for tokenstreams. Iterate over the stream

134

until the eof token is reached.

135

"""

136

137

def __init__(self, stream):

138

self._stream = stream

def __iter__(self):

return self

def next(self):

token = self._stream.current

145

if token.type == 'eof':

146

self._stream.close()

147

raise StopIteration()

148

self._stream.next(False)

return token

class TokenStream(object):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

153

"""A token stream is an iterable that yields :class:`Token`\s. The

154

parser however does not iterate over it but calls :meth:`next` to go

155

one token ahead. The current active token is stored as :attr:`current`.

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

156

"""

157

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

158

def __init__(self, generator, name, filename):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

159

self._next = generator.next

160

self._pushed = deque()

161

self.current = Token(1, 'initial', '')

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

162

self.name = name

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

163

self.filename = filename

self.next()

def __iter__(self):

return TokenStreamIterator(self)

168

169

def __nonzero__(self):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

170

"""Are we at the end of the stream?"""

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

171

return bool(self._pushed) or self.current.type != 'eof'

172

173

eos = property(lambda x: not x.__nonzero__(), doc=__nonzero__.__doc__)

174

175

def push(self, token):

176

"""Push a token back to the stream."""

177

self._pushed.append(token)

178

179

def look(self):

180

"""Look at the next token."""

181

old_token = self.next()

182

result = self.current

183

self.push(result)

184

self.current = old_token

185

return result

186

Armin Ronacher

ea847c5

2008-05-02 20:04:32 +0200

[diff] [blame]

187

def skip(self, n=1):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

188

"""Got n tokens ahead."""

for x in xrange(n):

self.next()

Armin Ronacher

2008-05-11 22:20:51 +0200

[diff] [blame]

192

def next_if(self, expr):

193

"""Perform the token test and return the token if it matched.

194

Otherwise the return value is `None`.

195

"""

196

if self.current.test(expr):

197

return self.next()

198

199

def skip_if(self, expr):

200

"""Like `next_if` but only returns `True` or `False`."""

201

return self.next_if(expr) is not None

202

203

def next(self):

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

204

"""Go one token ahead and return the old one"""

205

rv = self.current

Armin Ronacher

fdf9530

2008-05-11 22:20:51 +0200

[diff] [blame]

206

if self._pushed:

207

self.current = self._pushed.popleft()

208

elif self.current.type is not 'eof':

209

try:

210

self.current = self._next()

211

except StopIteration:

212

self.close()

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

return rv

def close(self):

"""Close the stream."""

217

self.current = Token(self.current.lineno, 'eof', '')

218

self._next = None

219

220

def expect(self, expr):

Armin Ronacher

2008-05-08 11:03:10 +0200

[diff] [blame]

221

"""Expect a given token type and return it. This accepts the same

222

argument as :meth:`jinja2.lexer.Token.test`.

223

"""

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

224

if not self.current.test(expr):

225

if ':' in expr:

226

expr = expr.split(':')[1]

227

if self.current.type is 'eof':

228

raise TemplateSyntaxError('unexpected end of template, '

229

'expected %r.' % expr,

230

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

231

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

232

raise TemplateSyntaxError("expected token %r, got %r" %

233

(expr, str(self.current)),

234

self.current.lineno,

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

235

self.name, self.filename)

Armin Ronacher

2008-05-01 22:59:47 +0200

[diff] [blame]

try:

return self.current

finally:

self.next()

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

242

class LexerMeta(type):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

243

"""Metaclass for the lexer that caches instances for

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

244

the same configuration in a weak value dictionary.

245

"""

246

247

def __call__(cls, environment):

Armin Ronacher

203bfcb

2008-04-24 21:54:44 +0200

[diff] [blame]

248

key = (environment.block_start_string,

249

environment.block_end_string,

250

environment.variable_start_string,

251

environment.variable_end_string,

252

environment.comment_start_string,

253

environment.comment_end_string,

254

environment.line_statement_prefix,

255

environment.trim_blocks)

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

256

lexer = _lexer_cache.get(key)

257

if lexer is None:

258

lexer = type.__call__(cls, environment)

259

_lexer_cache[key] = lexer

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

return lexer

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

263

class Lexer(object):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

264

"""Class that implements a lexer for a given environment. Automatically

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

265

created by the environment class, usually you don't have to do that.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

266

267

Note that the lexer is not automatically bound to an environment.

268

Multiple environments can share the same lexer.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

269

"""

270

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

271

__metaclass__ = LexerMeta

272

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

273

def __init__(self, environment):

274

# shortcuts

275

c = lambda x: re.compile(x, re.M | re.S)

276

e = re.escape

277

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

278

# lexing rules for tags

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

279

tag_rules = [

280

(whitespace_re, None, None),

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

281

(float_re, 'float', None),

282

(integer_re, 'integer', None),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

283

(name_re, 'name', None),

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

284

(string_re, 'string', None),

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

285

(operator_re, 'operator', None)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

286

]

287

Armin Ronacher

2007-02-27 20:51:59 +0100

[diff] [blame]

288

# assamble the root lexing rule. because "|" is ungreedy

289

# we have to sort by length so that the lexer continues working

290

# as expected when we have parsing rules like <% for block and

291

# <%= for variables. (if someone wants asp like syntax)

Armin Ronacher

33d528a

2007-05-14 18:21:44 +0200

[diff] [blame]

292

# variables are just part of the rules if variable processing

293

# is required.

Armin Ronacher

2007-02-27 20:51:59 +0100

[diff] [blame]

294

root_tag_rules = [

295

('comment', environment.comment_start_string),

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

296

('block', environment.block_start_string),

297

('variable', environment.variable_start_string)

Armin Ronacher

2007-02-27 20:51:59 +0100

[diff] [blame]

298

]

Armin Ronacher

4f7d2d5

2008-04-22 10:40:26 +0200

[diff] [blame]

299

root_tag_rules.sort(key=lambda x: -len(x[1]))

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

300

301

# now escape the rules. This is done here so that the escape

302

# signs don't count for the lengths of the tags.

303

root_tag_rules = [(a, e(b)) for a, b in root_tag_rules]

304

305

# if we have a line statement prefix we need an extra rule for

306

# that. We add this rule *after* all the others.

307

if environment.line_statement_prefix is not None:

308

prefix = e(environment.line_statement_prefix)

309

root_tag_rules.insert(0, ('linestatement', '^\s*' + prefix))

Armin Ronacher

2007-02-27 20:51:59 +0100

[diff] [blame]

310

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

311

# block suffix if trimming is enabled

312

block_suffix_re = environment.trim_blocks and '\\n?' or ''

313

314

# global lexing rules

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

315

self.rules = {

316

'root': [

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

317

# directives

318

(c('(.*?)(?:%s)' % '|'.join(

319

['(?P<raw_begin>(?:\s*%s\-|%s)\s*raw\s*%s)' % (

320

e(environment.block_start_string),

321

e(environment.block_start_string),

322

e(environment.block_end_string)

323

)] + [

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

324

'(?P<%s_begin>\s*%s\-|%s)' % (n, r, r)

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

325

for n, r in root_tag_rules

326

])), ('data', '#bygroup'), '#bygroup'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

327

# data

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

328

(c('.+'), 'data', None)

329

],

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

330

# comments

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

331

'comment_begin': [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

332

(c(r'(.*?)((?:\-%s\s*|%s)%s)' % (

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

333

e(environment.comment_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

334

e(environment.comment_end_string),

335

block_suffix_re

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

336

)), ('comment', 'comment_end'), '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

337

(c('(.)'), (Failure('Missing end of comment tag'),), None)

338

],

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

339

# blocks

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

340

'block_begin': [

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

341

(c('(?:\-%s\s*|%s)%s' % (

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

342

e(environment.block_end_string),

Armin Ronacher

2007-03-31 20:40:38 +0200

[diff] [blame]

343

e(environment.block_end_string),

344

block_suffix_re

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

345

)), 'block_end', '#pop'),

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

346

] + tag_rules,

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

# variables

'variable_begin': [

(c('\-%s\s*|%s' % (

e(environment.variable_end_string),

351

e(environment.variable_end_string)

352

)), 'variable_end', '#pop')

353

] + tag_rules,

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

354

# raw block

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

355

'raw_begin': [

Armin Ronacher

2007-03-28 21:44:04 +0200

[diff] [blame]

356

(c('(.*?)((?:\s*%s\-|%s)\s*endraw\s*(?:\-%s\s*|%s%s))' % (

357

e(environment.block_start_string),

358

e(environment.block_start_string),

359

e(environment.block_end_string),

360

e(environment.block_end_string),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

361

block_suffix_re

Armin Ronacher

2007-11-17 23:45:04 +0100

[diff] [blame]

362

)), ('data', 'raw_end'), '#pop'),

Armin Ronacher

2007-03-27 22:51:51 +0200

[diff] [blame]

363

(c('(.)'), (Failure('Missing end of raw directive'),), None)

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

364

],

365

# line statements

366

'linestatement_begin': [

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

367

(c(r'\s*(\n|$)'), 'linestatement_end', '#pop')

368

] + tag_rules

Armin Ronacher

2008-04-16 14:21:57 +0200

[diff] [blame]

369

}

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

370

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

371

def tokenize(self, source, name=None, filename=None):

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

372

"""Works like `tokeniter` but returns a tokenstream of tokens and not

Armin Ronacher

4f7d2d5

2008-04-22 10:40:26 +0200

[diff] [blame]

373

a generator or token tuples. Additionally all token values are already

Armin Ronacher

115de2e

2008-05-01 22:20:05 +0200

[diff] [blame]

374

converted into types and postprocessed. For example comments are removed,

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

375

integers and floats converted, strings unescaped etc.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

376

"""

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

377

source = unicode(source)

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

378

def generate():

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

379

for lineno, token, value in self.tokeniter(source, name, filename):

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

380

if token in ('comment_begin', 'comment', 'comment_end'):

381

continue

Armin Ronacher

2008-04-12 12:02:36 +0200

[diff] [blame]

382

elif token == 'linestatement_begin':

383

token = 'block_begin'

384

elif token == 'linestatement_end':

385

token = 'block_end'

Armin Ronacher

4f7d2d5

2008-04-22 10:40:26 +0200

[diff] [blame]

386

# we are not interested in those tokens in the parser

387

elif token in ('raw_begin', 'raw_end'):

388

continue

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

389

elif token == 'data':

Armin Ronacher

2008-05-11 00:30:43 +0200

[diff] [blame]

try:

value = str(value)

except UnicodeError:

pass

Armin Ronacher

07bc684

2008-03-31 14:18:49 +0200

[diff] [blame]

394

elif token == 'keyword':

Armin Ronacher

82b3f3d

2008-03-31 20:01:08 +0200

[diff] [blame]

395

token = value

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

396

elif token == 'name':

Armin Ronacher

2008-05-11 00:30:43 +0200

[diff] [blame]

397

value = str(value)

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

398

elif token == 'string':

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

399

# try to unescape string

400

try:

401

value = value[1:-1] \

402

.encode('ascii', 'backslashreplace') \

403

.decode('unicode-escape')

404

except Exception, e:

405

msg = str(e).split(':')[-1].strip()

406

raise TemplateSyntaxError(msg, lineno, name, filename)

407

# if we can express it as bytestring (ascii only)

408

# we do that for support of semi broken APIs

409

# as datetime.datetime.strftime

Armin Ronacher

2008-05-11 00:30:43 +0200

[diff] [blame]

try:

value = str(value)

except UnicodeError:

pass

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

414

elif token == 'integer':

415

value = int(value)

416

elif token == 'float':

417

value = float(value)

418

elif token == 'operator':

419

token = operators[value]

Armin Ronacher

2007-09-07 17:52:41 +0200

[diff] [blame]

420

yield Token(lineno, token, value)

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

421

return TokenStream(generate(), name, filename)

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

422

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

423

def tokeniter(self, source, name, filename=None):

Armin Ronacher

2008-04-25 00:36:14 +0200

[diff] [blame]

424

"""This method tokenizes the text and returns the tokens in a

425

generator. Use this method if you just want to tokenize a template.

426

The output you get is not compatible with the input the jinja parser

427

wants. The parser uses the `tokenize` function with returns a

428

`TokenStream` and postprocessed tokens.

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

429

"""

Armin Ronacher

5a8e497

2007-04-05 11:21:38 +0200

[diff] [blame]

430

source = '\n'.join(source.splitlines())

Armin Ronacher

7977e5c

2007-03-12 07:22:17 +0100

[diff] [blame]

431

pos = 0

432

lineno = 1

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

433

stack = ['root']

434

statetokens = self.rules['root']

435

source_length = len(source)

436

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

437

balancing_stack = []

438

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

439

while 1:

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

440

# tokenizer loop

441

for regex, tokens, new_state in statetokens:

442

m = regex.match(source, pos)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

443

# if no match we try again with the next rule

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

444

if m is None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

445

continue

446

447

# we only match blocks and variables if brances / parentheses

448

# are balanced. continue parsing with the lower rule which

449

# is the operator rule. do this only if the end tags look

450

# like operators

451

if balancing_stack and \

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

452

tokens in ('variable_end', 'block_end',

453

'linestatement_end'):

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

454

continue

455

456

# tuples support more options

457

if isinstance(tokens, tuple):

458

for idx, token in enumerate(tokens):

# hidden group

if token is None:

g = m.group(idx)

if g:

lineno += g.count('\n')

464

continue

465

# failure group

Armin Ronacher

ecc051b

2007-06-01 18:25:28 +0200

[diff] [blame]

466

elif token.__class__ is Failure:

Armin Ronacher

720e55b

2007-05-30 00:57:49 +0200

[diff] [blame]

467

raise token(lineno, filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

468

# bygroup is a bit more complex, in that case we

469

# yield for the current token the first named

470

# group that matched

471

elif token == '#bygroup':

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

472

for key, value in m.groupdict().iteritems():

473

if value is not None:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

474

yield lineno, key, value

475

lineno += value.count('\n')

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

476

break

477

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

478

raise RuntimeError('%r wanted to resolve '

479

'the token dynamically'

480

' but no group matched'

481

% regex)

482

# normal group

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

483

else:

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

484

data = m.group(idx + 1)

485

if data:

486

yield lineno, token, data

487

lineno += data.count('\n')

488

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

489

# strings as token just are yielded as it.

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

490

else:

491

data = m.group()

492

# update brace/parentheses balance

493

if tokens == 'operator':

494

if data == '{':

495

balancing_stack.append('}')

496

elif data == '(':

497

balancing_stack.append(')')

498

elif data == '[':

499

balancing_stack.append(']')

500

elif data in ('}', ')', ']'):

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

501

if not balancing_stack:

502

raise TemplateSyntaxError('unexpected "%s"' %

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

503

data, lineno, name,

Armin Ronacher

f750daa

2007-05-29 23:22:38 +0200

[diff] [blame]

504

filename)

505

expected_op = balancing_stack.pop()

506

if expected_op != data:

507

raise TemplateSyntaxError('unexpected "%s", '

508

'expected "%s"' %

509

(data, expected_op),

Armin Ronacher

2008-05-16 09:11:39 +0200

[diff] [blame]

510

lineno, name,

511

filename)

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

512

# yield items

513

if tokens is not None:

Armin Ronacher

2008-04-12 14:19:36 +0200

[diff] [blame]

514

yield lineno, tokens, data

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

515

lineno += data.count('\n')

516

517

# fetch new position into new variable so that we can check

518

# if there is a internal parsing error which would result

519

# in an infinite loop

520

pos2 = m.end()

521

522

# handle state changes

523

if new_state is not None:

524

# remove the uppermost state

525

if new_state == '#pop':

526

stack.pop()

527

# resolve the new state by group checking

528

elif new_state == '#bygroup':

529

for key, value in m.groupdict().iteritems():

530

if value is not None:

stack.append(key)

break

else:

raise RuntimeError('%r wanted to resolve the '

535

'new state dynamically but'

536

' no group matched' %

537

regex)

538

# direct state name given

539

else:

540

stack.append(new_state)

541

statetokens = self.rules[stack[-1]]

542

# we are still at the same position and no stack change.

543

# this means a loop without break condition, avoid that and

544

# raise error

545

elif pos2 == pos:

546

raise RuntimeError('%r yielded empty string without '

547

'stack change' % regex)

548

# publish new function and start again

549

pos = pos2

550

break

Armin Ronacher

2007-02-26 22:17:32 +0100

[diff] [blame]

551

# if loop terminated without break we havn't found a single match

552

# either we are at the end of the file or we have a problem

553

else:

554

# end of text

555

if pos >= source_length:

556

return

557

# something went wrong

558

raise TemplateSyntaxError('unexpected char %r at %d' %

Armin Ronacher

2007-04-17 17:13:10 +0200

[diff] [blame]

559

(source[pos], pos), lineno,

Armin Ronacher