Blame - Lib/tokenize.py - platform/external/python/cpython3

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

3

tokenize(readline) is a generator that breaks a stream of

4

bytes into Python tokens. It decodes the bytes according to

5

PEP-0263 for determining source file encoding.

6

7

It accepts a readline-like method which is called

8

repeatedly to get the next line of input (or b"" for EOF). It generates

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

9

5-tuples with these members:

10

11

the token type (see token.py)

12

the token (a string)

13

the starting (row, column) indices of the token (a 2-tuple of ints)

14

the ending (row, column) indices of the token (a 2-tuple of ints)

15

the original line (string)

16

17

It is designed to match the working of the Python tokenizer exactly, except

18

that it produces COMMENT tokens for comments and gives type OP for all

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

19

operators. Aditionally, all token lists start with an ENCODING token

20

which tells you which encoding was used to decode the bytes stream."""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

21

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

22

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

23

__credits__ = ('GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, '

24

'Skip Montanaro, Raymond Hettinger, Trent Nelson, '

25

'Michael Foord')

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

26

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

27

import re, string, sys

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

28

from token import *

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

29

from codecs import lookup

30

from itertools import chain, repeat

31

cookie_re = re.compile("coding[:=]\s*([-\w.]+)")

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

32

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

33

import token

Raymond Hettinger

78a7aee

2002-11-05 06:06:02 +0000

[diff] [blame]

34

__all__ = [x for x in dir(token) if x[0] != '_'] + ["COMMENT", "tokenize",

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

35

"detect_encoding", "NL", "untokenize", "ENCODING"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

36

del token

37

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

38

COMMENT = N_TOKENS

39

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

40

NL = N_TOKENS + 1

41

tok_name[NL] = 'NL'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

42

ENCODING = N_TOKENS + 2

43

tok_name[ENCODING] = 'ENCODING'

44

N_TOKENS += 3

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

45

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

46

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

47

def any(*choices): return group(*choices) + '*'

48

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

49

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

50

Whitespace = r'[ \f\t]*'

51

Comment = r'#[^\r\n]*'

52

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

53

Name = r'[a-zA-Z_]\w*'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

54

Georg Brandl

fceab5a

2008-01-19 20:08:23 +0000

[diff] [blame]

55

Hexnumber = r'0[xX][\da-fA-F]+'

56

Binnumber = r'0[bB][01]+'

57

Octnumber = r'0[oO][0-7]+'

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame]

58

Decnumber = r'(?:0+|[1-9]\d*)'

59

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

60

Exponent = r'[eE][-+]?\d+'

61

Pointfloat = group(r'\d+\.\d*', r'\.\d+') + maybe(Exponent)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

62

Expfloat = r'\d+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

63

Floatnumber = group(Pointfloat, Expfloat)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

64

Imagnumber = group(r'\d+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

65

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

66

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

67

# Tail end of ' string.

68

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

69

# Tail end of " string.

70

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

71

# Tail end of ''' string.

72

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

73

# Tail end of """ string.

74

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

75

Triple = group("[bB]?[rR]?'''", '[bB]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

76

# Single-line ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

77

String = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

78

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

79

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

80

# Because of leftmost-then-longest match semantics, be sure to put the

81

# longest operators first (e.g., if = came before ==, == would get

82

# recognized as two instances of =).

Guido van Rossum

b053cd8

2006-08-24 03:53:23 +0000

[diff] [blame]

83

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"!=",

Neal Norwitz

c150536

2006-12-28 06:47:50 +0000

[diff] [blame]

84

r"//=?", r"->",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

85

r"[+\-*/%&|^=<>]=?",

86

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

87

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

88

Bracket = '[][(){}]'

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

89

Special = group(r'\r?\n', r'\.\.\.', r'[:;.,@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

90

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

91

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

92

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

93

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

94

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

95

# First (or only) line of ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

96

ContStr = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

97

group("'", r'\\\r?\n'),

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

98

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

99

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

100

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

101

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

102

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

103

tokenprog, pseudoprog, single3prog, double3prog = map(

104

re.compile, (Token, PseudoToken, Single3, Double3))

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

105

endprogs = {"'": re.compile(Single), '"': re.compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

106

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

107

"r'''": single3prog, 'r"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

108

"b'''": single3prog, 'b"""': double3prog,

109

"br'''": single3prog, 'br"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

110

"R'''": single3prog, 'R"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

111

"B'''": single3prog, 'B"""': double3prog,

112

"bR'''": single3prog, 'bR"""': double3prog,

113

"Br'''": single3prog, 'Br"""': double3prog,

114

"BR'''": single3prog, 'BR"""': double3prog,

115

'r': None, 'R': None, 'b': None, 'B': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

116

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

117

triple_quoted = {}

118

for t in ("'''", '"""',

119

"r'''", 'r"""', "R'''", 'R"""',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

120

"b'''", 'b"""', "B'''", 'B"""',

121

"br'''", 'br"""', "Br'''", 'Br"""',

122

"bR'''", 'bR"""', "BR'''", 'BR"""'):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

127

"b'", 'b"', "B'", 'B"',

128

"br'", 'br"', "Br'", 'Br"',

129

"bR'", 'bR"', "BR'", 'BR"' ):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

130

single_quoted[t] = t

131

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

132

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

133

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

134

class TokenError(Exception): pass

135

136

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

137

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

138

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

145

self.encoding = None

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

146

147

def add_whitespace(self, start):

148

row, col = start

149

assert row <= self.prev_row

150

col_offset = col - self.prev_col

151

if col_offset:

152

self.tokens.append(" " * col_offset)

153

154

def untokenize(self, iterable):

155

for t in iterable:

156

if len(t) == 2:

157

self.compat(t, iterable)

158

break

159

tok_type, token, start, end, line = t

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

160

if tok_type == ENCODING:

161

self.encoding = token

162

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

163

self.add_whitespace(start)

164

self.tokens.append(token)

165

self.prev_row, self.prev_col = end

166

if tok_type in (NEWLINE, NL):

167

self.prev_row += 1

168

self.prev_col = 0

169

return "".join(self.tokens)

170

171

def compat(self, token, iterable):

172

startline = False

173

indents = []

174

toks_append = self.tokens.append

175

toknum, tokval = token

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

176

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

177

if toknum in (NAME, NUMBER):

178

tokval += ' '

179

if toknum in (NEWLINE, NL):

180

startline = True

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

181

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

182

for tok in iterable:

183

toknum, tokval = tok[:2]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

184

if toknum == ENCODING:

185

self.encoding = tokval

186

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

187

188

if toknum in (NAME, NUMBER):

189

tokval += ' '

190

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

191

# Insert a space between two consecutive strings

192

if toknum == STRING:

193

if prevstring:

194

tokval = ' ' + tokval

prevstring = True

else:

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

199

if toknum == INDENT:

200

indents.append(tokval)

201

continue

202

elif toknum == DEDENT:

203

indents.pop()

204

continue

205

elif toknum in (NEWLINE, NL):

206

startline = True

207

elif startline and indents:

208

toks_append(indents[-1])

209

startline = False

210

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

211

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

212

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

213

def untokenize(iterable):

214

"""Transform tokens back into Python source code.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

215

It returns a bytes object, encoded using the ENCODING

216

token, which is the first token sequence output by tokenize.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

217

218

Each element returned by the iterable must be a token sequence

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

219

with at least two elements, a token number and token value. If

220

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

221

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

222

Round-trip invariant for full input:

223

Untokenized source will match input source exactly

224

225

Round-trip invariant for limited intput:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

226

# Output bytes will tokenize the back to the input

227

t1 = [tok[:2] for tok in tokenize(f.readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

228

newcode = untokenize(t1)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

229

readline = BytesIO(newcode).readline

230

t2 = [tok[:2] for tok in tokenize(readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

231

assert t1 == t2

232

"""

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

233

ut = Untokenizer()

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

234

out = ut.untokenize(iterable)

235

if ut.encoding is not None:

236

out = out.encode(ut.encoding)

237

return out

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

238

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

239

240

def detect_encoding(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

241

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

242

The detect_encoding() function is used to detect the encoding that should

243

be used to decode a Python source file. It requires one argment, readline,

244

in the same way as the tokenize() generator.

245

246

It will call readline a maximum of twice, and return the encoding used

247

(as a string) and a list of any lines (left as bytes) it has read

248

in.

249

250

It detects the encoding from the presence of a utf-8 bom or an encoding

251

cookie as specified in pep-0263. If both a bom and a cookie are present,

252

but disagree, a SyntaxError will be raised.

253

254

If no encoding is specified, then the default of 'utf-8' will be returned.

255

"""

256

utf8_bom = b'\xef\xbb\xbf'

bom_found = False

encoding = None

def read_or_stop():

try:

return readline()

except StopIteration:

263

return b''

264

265

def find_cookie(line):

266

try:

267

line_string = line.decode('ascii')

268

except UnicodeDecodeError:

269

pass

270

else:

271

matches = cookie_re.findall(line_string)

272

if matches:

273

encoding = matches[0]

274

if bom_found and lookup(encoding).name != 'utf-8':

275

# This behaviour mimics the Python interpreter

276

raise SyntaxError('encoding problem: utf-8')

277

return encoding

278

279

first = read_or_stop()

280

if first.startswith(utf8_bom):

bom_found = True

first = first[3:]

if not first:

return 'utf-8', []

encoding = find_cookie(first)

287

if encoding:

288

return encoding, [first]

289

290

second = read_or_stop()

291

if not second:

292

return 'utf-8', [first]

293

294

encoding = find_cookie(second)

295

if encoding:

296

return encoding, [first, second]

297

298

return 'utf-8', [first, second]

299

300

301

def tokenize(readline):

302

"""

303

The tokenize() generator requires one argment, readline, which

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

304

must be a callable object which provides the same interface as the

305

readline() method of built-in file objects. Each call to the function

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

306

should return one line of input as bytes. Alternately, readline

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

307

can be a callable function terminating with StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

308

readline = open(myfile, 'rb').__next__ # Example of alternate readline

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

309

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

310

The generator produces 5-tuples with these members: the token type; the

311

token string; a 2-tuple (srow, scol) of ints specifying the row and

312

column where the token begins in the source; a 2-tuple (erow, ecol) of

313

ints specifying the row and column where the token ends in the source;

314

and the line on which the token was found. The line passed is the

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

315

logical line; continuation lines are included.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

316

317

The first token sequence will always be an ENCODING token

318

which tells you which encoding was used to decode the bytes stream.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

319

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

320

encoding, consumed = detect_encoding(readline)

321

def readline_generator():

while True:

try:

yield readline()

except StopIteration:

326

return

327

chained = chain(consumed, readline_generator())

328

return _tokenize(chained.__next__, encoding)

329

330

331

def _tokenize(readline, encoding):

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

332

lnum = parenlev = continued = 0

Fred Drake

79e75e1

2001-07-20 19:05:50 +0000

[diff] [blame]

333

namechars, numchars = string.ascii_letters + '_', '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

334

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

335

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

336

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

337

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

338

if encoding is not None:

339

yield (ENCODING, encoding, (0, 0), (0, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

340

while 1: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

341

try:

342

line = readline()

343

except StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

344

line = b''

345

346

if encoding is not None:

347

line = line.decode(encoding)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

348

lnum = lnum + 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

349

pos, max = 0, len(line)

350

351

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

352

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

353

raise TokenError("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

354

endmatch = endprog.match(line)

355

if endmatch:

356

pos = end = endmatch.end(0)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

357

yield (STRING, contstr + line[:end],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

358

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

359

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

360

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

361

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

362

yield (ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

363

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

364

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

365

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

366

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

367

else:

368

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

369

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

370

continue

371

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

372

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

373

if not line: break

374

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

375

while pos < max: # measure leading whitespace

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

376

if line[pos] == ' ': column = column + 1

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

377

elif line[pos] == '\t': column = (column/tabsize + 1)*tabsize

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

378

elif line[pos] == '\f': column = 0

379

else: break

380

pos = pos + 1

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

381

if pos == max: break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

382

383

if line[pos] in '#\r\n': # skip comments or blank lines

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

384

if line[pos] == '#':

385

comment_token = line[pos:].rstrip('\r\n')

386

nl_pos = pos + len(comment_token)

387

yield (COMMENT, comment_token,

388

(lnum, pos), (lnum, pos + len(comment_token)), line)

389

yield (NL, line[nl_pos:],

390

(lnum, nl_pos), (lnum, len(line)), line)

391

else:

392

yield ((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

393

(lnum, pos), (lnum, len(line)), line)

394

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

395

396

if column > indents[-1]: # count indents or dedents

397

indents.append(column)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

398

yield (INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

399

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

400

if column not in indents:

401

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame]

402

"unindent does not match any outer indentation level",

403

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

404

indents = indents[:-1]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

405

yield (DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

406

407

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

408

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

409

raise TokenError("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

410

continued = 0

411

412

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

413

pseudomatch = pseudoprog.match(line, pos)

414

if pseudomatch: # scan for tokens

415

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

416

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

417

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

418

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

419

if (initial in numchars or # ordinary number

420

(initial == '.' and token != '.' and token != '...')):

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

421

yield (NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

422

elif initial in '\r\n':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

423

yield (NL if parenlev > 0 else NEWLINE,

424

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

425

elif initial == '#':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

426

assert not token.endswith("\n")

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

427

yield (COMMENT, token, spos, epos, line)

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

428

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

429

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

430

endmatch = endprog.match(line, pos)

431

if endmatch: # all on one line

432

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

433

token = line[start:pos]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

434

yield (STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

435

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

436

strstart = (lnum, start) # multiple lines

437

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

438

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

439

break

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

440

elif initial in single_quoted or \

441

token[:2] in single_quoted or \

442

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

443

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

444

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

445

endprog = (endprogs[initial] or endprogs[token[1]] or

446

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

447

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

448

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

449

break

450

else: # ordinary string

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

451

yield (STRING, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

452

elif initial in namechars: # ordinary name

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

453

yield (NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

454

elif initial == '\\': # continued stmt

455

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

456

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

457

if initial in '([{': parenlev = parenlev + 1

458

elif initial in ')]}': parenlev = parenlev - 1

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

459

yield (OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

460

else:

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

461

yield (ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

462

(lnum, pos), (lnum, pos+1), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

463

pos = pos + 1

464

465

for indent in indents[1:]: # pop remaining indent levels

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

466

yield (DEDENT, '', (lnum, 0), (lnum, 0), '')

467

yield (ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

468

Trent Nelson