Blame - Lib/tokenize.py - platform/external/python/cpython2

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

3

tokenize(readline) is a generator that breaks a stream of

4

bytes into Python tokens. It decodes the bytes according to

5

PEP-0263 for determining source file encoding.

6

7

It accepts a readline-like method which is called

8

repeatedly to get the next line of input (or b"" for EOF). It generates

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

9

5-tuples with these members:

10

11

the token type (see token.py)

12

the token (a string)

13

the starting (row, column) indices of the token (a 2-tuple of ints)

14

the ending (row, column) indices of the token (a 2-tuple of ints)

15

the original line (string)

16

17

It is designed to match the working of the Python tokenizer exactly, except

18

that it produces COMMENT tokens for comments and gives type OP for all

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

19

operators. Aditionally, all token lists start with an ENCODING token

20

which tells you which encoding was used to decode the bytes stream."""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

21

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

22

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

23

__credits__ = ('GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, '

24

'Skip Montanaro, Raymond Hettinger, Trent Nelson, '

25

'Michael Foord')

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

26

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

27

import re, string, sys

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

28

from token import *

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

29

from codecs import lookup

30

from itertools import chain, repeat

31

cookie_re = re.compile("coding[:=]\s*([-\w.]+)")

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

32

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

33

import token

Raymond Hettinger

78a7aee

2002-11-05 06:06:02 +0000

[diff] [blame]

34

__all__ = [x for x in dir(token) if x[0] != '_'] + ["COMMENT", "tokenize",

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

35

"detect_encoding", "NL", "untokenize", "ENCODING"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

36

del token

37

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

38

COMMENT = N_TOKENS

39

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

40

NL = N_TOKENS + 1

41

tok_name[NL] = 'NL'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

42

ENCODING = N_TOKENS + 2

43

tok_name[ENCODING] = 'ENCODING'

44

N_TOKENS += 3

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

45

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

46

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

47

def any(*choices): return group(*choices) + '*'

48

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

49

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

50

Whitespace = r'[ \f\t]*'

51

Comment = r'#[^\r\n]*'

52

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

53

Name = r'[a-zA-Z_]\w*'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

54

Georg Brandl

fceab5a

2008-01-19 20:08:23 +0000

[diff] [blame]

55

Hexnumber = r'0[xX][\da-fA-F]+'

56

Binnumber = r'0[bB][01]+'

57

Octnumber = r'0[oO][0-7]+'

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame]

58

Decnumber = r'(?:0+|[1-9]\d*)'

59

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

60

Exponent = r'[eE][-+]?\d+'

61

Pointfloat = group(r'\d+\.\d*', r'\.\d+') + maybe(Exponent)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

62

Expfloat = r'\d+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

63

Floatnumber = group(Pointfloat, Expfloat)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

64

Imagnumber = group(r'\d+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

65

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

66

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

67

# Tail end of ' string.

68

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

69

# Tail end of " string.

70

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

71

# Tail end of ''' string.

72

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

73

# Tail end of """ string.

74

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

75

Triple = group("[bB]?[rR]?'''", '[bB]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

76

# Single-line ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

77

String = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

78

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

79

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

80

# Because of leftmost-then-longest match semantics, be sure to put the

81

# longest operators first (e.g., if = came before ==, == would get

82

# recognized as two instances of =).

Guido van Rossum

b053cd8

2006-08-24 03:53:23 +0000

[diff] [blame]

83

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"!=",

Neal Norwitz

c150536

2006-12-28 06:47:50 +0000

[diff] [blame]

84

r"//=?", r"->",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

85

r"[+\-*/%&|^=<>]=?",

86

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

87

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

88

Bracket = '[][(){}]'

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

89

Special = group(r'\r?\n', r'\.\.\.', r'[:;.,@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

90

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

91

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

92

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

93

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

94

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

95

# First (or only) line of ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

96

ContStr = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

97

group("'", r'\\\r?\n'),

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

98

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

99

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

100

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

101

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

102

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

103

tokenprog, pseudoprog, single3prog, double3prog = map(

104

re.compile, (Token, PseudoToken, Single3, Double3))

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

105

endprogs = {"'": re.compile(Single), '"': re.compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

106

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

107

"r'''": single3prog, 'r"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

108

"b'''": single3prog, 'b"""': double3prog,

109

"br'''": single3prog, 'br"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

110

"R'''": single3prog, 'R"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

111

"B'''": single3prog, 'B"""': double3prog,

112

"bR'''": single3prog, 'bR"""': double3prog,

113

"Br'''": single3prog, 'Br"""': double3prog,

114

"BR'''": single3prog, 'BR"""': double3prog,

115

'r': None, 'R': None, 'b': None, 'B': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

116

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

117

triple_quoted = {}

118

for t in ("'''", '"""',

119

"r'''", 'r"""', "R'''", 'R"""',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

120

"b'''", 'b"""', "B'''", 'B"""',

121

"br'''", 'br"""', "Br'''", 'Br"""',

122

"bR'''", 'bR"""', "BR'''", 'BR"""'):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

127

"b'", 'b"', "B'", 'B"',

128

"br'", 'br"', "Br'", 'Br"',

129

"bR'", 'bR"', "BR'", 'BR"' ):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

130

single_quoted[t] = t

131

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

132

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

133

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

134

class TokenError(Exception): pass

135

136

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

137

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

138

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

145

self.encoding = None

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

146

147

def add_whitespace(self, start):

148

row, col = start

149

assert row <= self.prev_row

150

col_offset = col - self.prev_col

151

if col_offset:

152

self.tokens.append(" " * col_offset)

153

154

def untokenize(self, iterable):

155

for t in iterable:

156

if len(t) == 2:

157

self.compat(t, iterable)

158

break

159

tok_type, token, start, end, line = t

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

160

if tok_type == ENCODING:

161

self.encoding = token

162

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

163

self.add_whitespace(start)

164

self.tokens.append(token)

165

self.prev_row, self.prev_col = end

166

if tok_type in (NEWLINE, NL):

167

self.prev_row += 1

168

self.prev_col = 0

169

return "".join(self.tokens)

170

171

def compat(self, token, iterable):

172

startline = False

173

indents = []

174

toks_append = self.tokens.append

175

toknum, tokval = token

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

176

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

177

if toknum in (NAME, NUMBER):

178

tokval += ' '

179

if toknum in (NEWLINE, NL):

180

startline = True

181

for tok in iterable:

182

toknum, tokval = tok[:2]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

183

if toknum == ENCODING:

184

self.encoding = tokval

185

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

186

187

if toknum in (NAME, NUMBER):

tokval += ' '

if toknum == INDENT:

indents.append(tokval)

192

continue

193

elif toknum == DEDENT:

194

indents.pop()

195

continue

196

elif toknum in (NEWLINE, NL):

197

startline = True

198

elif startline and indents:

199

toks_append(indents[-1])

200

startline = False

201

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

202

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

203

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

204

def untokenize(iterable):

205

"""Transform tokens back into Python source code.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

206

It returns a bytes object, encoded using the ENCODING

207

token, which is the first token sequence output by tokenize.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

208

209

Each element returned by the iterable must be a token sequence

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

210

with at least two elements, a token number and token value. If

211

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

212

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

213

Round-trip invariant for full input:

214

Untokenized source will match input source exactly

215

216

Round-trip invariant for limited intput:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

217

# Output bytes will tokenize the back to the input

218

t1 = [tok[:2] for tok in tokenize(f.readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

219

newcode = untokenize(t1)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

220

readline = BytesIO(newcode).readline

221

t2 = [tok[:2] for tok in tokenize(readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

222

assert t1 == t2

223

"""

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

224

ut = Untokenizer()

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

225

out = ut.untokenize(iterable)

226

if ut.encoding is not None:

227

out = out.encode(ut.encoding)

228

return out

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

229

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

230

231

def detect_encoding(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

232

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

233

The detect_encoding() function is used to detect the encoding that should

234

be used to decode a Python source file. It requires one argment, readline,

235

in the same way as the tokenize() generator.

236

237

It will call readline a maximum of twice, and return the encoding used

238

(as a string) and a list of any lines (left as bytes) it has read

239

in.

240

241

It detects the encoding from the presence of a utf-8 bom or an encoding

242

cookie as specified in pep-0263. If both a bom and a cookie are present,

243

but disagree, a SyntaxError will be raised.

244

245

If no encoding is specified, then the default of 'utf-8' will be returned.

246

"""

247

utf8_bom = b'\xef\xbb\xbf'

bom_found = False

encoding = None

def read_or_stop():

try:

return readline()

except StopIteration:

254

return b''

255

256

def find_cookie(line):

257

try:

258

line_string = line.decode('ascii')

259

except UnicodeDecodeError:

260

pass

261

else:

262

matches = cookie_re.findall(line_string)

263

if matches:

264

encoding = matches[0]

265

if bom_found and lookup(encoding).name != 'utf-8':

266

# This behaviour mimics the Python interpreter

267

raise SyntaxError('encoding problem: utf-8')

268

return encoding

269

270

first = read_or_stop()

271

if first.startswith(utf8_bom):

bom_found = True

first = first[3:]

if not first:

return 'utf-8', []

encoding = find_cookie(first)

278

if encoding:

279

return encoding, [first]

280

281

second = read_or_stop()

282

if not second:

283

return 'utf-8', [first]

284

285

encoding = find_cookie(second)

286

if encoding:

287

return encoding, [first, second]

288

289

return 'utf-8', [first, second]

290

291

292

def tokenize(readline):

293

"""

294

The tokenize() generator requires one argment, readline, which

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

295

must be a callable object which provides the same interface as the

296

readline() method of built-in file objects. Each call to the function

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

297

should return one line of input as bytes. Alternately, readline

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

298

can be a callable function terminating with StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

299

readline = open(myfile, 'rb').__next__ # Example of alternate readline

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

300

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

301

The generator produces 5-tuples with these members: the token type; the

302

token string; a 2-tuple (srow, scol) of ints specifying the row and

303

column where the token begins in the source; a 2-tuple (erow, ecol) of

304

ints specifying the row and column where the token ends in the source;

305

and the line on which the token was found. The line passed is the

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

306

logical line; continuation lines are included.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

307

308

The first token sequence will always be an ENCODING token

309

which tells you which encoding was used to decode the bytes stream.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

310

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

311

encoding, consumed = detect_encoding(readline)

312

def readline_generator():

while True:

try:

yield readline()

except StopIteration:

317

return

318

chained = chain(consumed, readline_generator())

319

return _tokenize(chained.__next__, encoding)

320

321

322

def _tokenize(readline, encoding):

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

323

lnum = parenlev = continued = 0

Fred Drake

79e75e1

2001-07-20 19:05:50 +0000

[diff] [blame]

324

namechars, numchars = string.ascii_letters + '_', '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

325

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

326

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

327

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

328

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

329

if encoding is not None:

330

yield (ENCODING, encoding, (0, 0), (0, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

331

while 1: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

332

try:

333

line = readline()

334

except StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

335

line = b''

336

337

if encoding is not None:

338

line = line.decode(encoding)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

339

lnum = lnum + 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

340

pos, max = 0, len(line)

341

342

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

343

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

344

raise TokenError("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

345

endmatch = endprog.match(line)

346

if endmatch:

347

pos = end = endmatch.end(0)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

348

yield (STRING, contstr + line[:end],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

349

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

350

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

351

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

352

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

353

yield (ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

354

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

355

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

356

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

357

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

358

else:

359

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

360

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

361

continue

362

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

363

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

364

if not line: break

365

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

366

while pos < max: # measure leading whitespace

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

367

if line[pos] == ' ': column = column + 1

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

368

elif line[pos] == '\t': column = (column/tabsize + 1)*tabsize

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

369

elif line[pos] == '\f': column = 0

370

else: break

371

pos = pos + 1

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

372

if pos == max: break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

373

374

if line[pos] in '#\r\n': # skip comments or blank lines

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

375

if line[pos] == '#':

376

comment_token = line[pos:].rstrip('\r\n')

377

nl_pos = pos + len(comment_token)

378

yield (COMMENT, comment_token,

379

(lnum, pos), (lnum, pos + len(comment_token)), line)

380

yield (NL, line[nl_pos:],

381

(lnum, nl_pos), (lnum, len(line)), line)

382

else:

383

yield ((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

384

(lnum, pos), (lnum, len(line)), line)

385

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

386

387

if column > indents[-1]: # count indents or dedents

388

indents.append(column)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

389

yield (INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

390

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

391

if column not in indents:

392

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame]

393

"unindent does not match any outer indentation level",

394

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

395

indents = indents[:-1]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

396

yield (DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

397

398

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

399

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

400

raise TokenError("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

401

continued = 0

402

403

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

404

pseudomatch = pseudoprog.match(line, pos)

405

if pseudomatch: # scan for tokens

406

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

407

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

408

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

409

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

410

if (initial in numchars or # ordinary number

411

(initial == '.' and token != '.' and token != '...')):

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

412

yield (NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

413

elif initial in '\r\n':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

414

yield (NL if parenlev > 0 else NEWLINE,

415

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

416

elif initial == '#':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

417

assert not token.endswith("\n")

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

418

yield (COMMENT, token, spos, epos, line)

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

419

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

420

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

421

endmatch = endprog.match(line, pos)

422

if endmatch: # all on one line

423

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

424

token = line[start:pos]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

425

yield (STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

426

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

427

strstart = (lnum, start) # multiple lines

428

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

429

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

430

break

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

431

elif initial in single_quoted or \

432

token[:2] in single_quoted or \

433

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

434

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

435

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

436

endprog = (endprogs[initial] or endprogs[token[1]] or

437

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

438

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

439

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

440

break

441

else: # ordinary string

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

442

yield (STRING, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

443

elif initial in namechars: # ordinary name

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

444

yield (NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

445

elif initial == '\\': # continued stmt

446

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

447

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

448

if initial in '([{': parenlev = parenlev + 1

449

elif initial in ')]}': parenlev = parenlev - 1

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

450

yield (OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

451

else:

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

452

yield (ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

453

(lnum, pos), (lnum, pos+1), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

454

pos = pos + 1

455

456

for indent in indents[1:]: # pop remaining indent levels

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

457

yield (DEDENT, '', (lnum, 0), (lnum, 0), '')

458

yield (ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

459

Trent Nelson