Blame - Lib/tokenize.py - platform/external/python/cpython3

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

3

tokenize(readline) is a generator that breaks a stream of

4

bytes into Python tokens. It decodes the bytes according to

5

PEP-0263 for determining source file encoding.

6

7

It accepts a readline-like method which is called

8

repeatedly to get the next line of input (or b"" for EOF). It generates

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

9

5-tuples with these members:

10

11

the token type (see token.py)

12

the token (a string)

13

the starting (row, column) indices of the token (a 2-tuple of ints)

14

the ending (row, column) indices of the token (a 2-tuple of ints)

15

the original line (string)

16

17

It is designed to match the working of the Python tokenizer exactly, except

18

that it produces COMMENT tokens for comments and gives type OP for all

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

19

operators. Aditionally, all token lists start with an ENCODING token

20

which tells you which encoding was used to decode the bytes stream."""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

21

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

22

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

23

__credits__ = ('GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, '

24

'Skip Montanaro, Raymond Hettinger, Trent Nelson, '

25

'Michael Foord')

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

26

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

27

import re, string, sys

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

28

from token import *

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

29

from codecs import lookup

30

from itertools import chain, repeat

31

cookie_re = re.compile("coding[:=]\s*([-\w.]+)")

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

32

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

33

import token

Raymond Hettinger

78a7aee

2002-11-05 06:06:02 +0000

[diff] [blame]

34

__all__ = [x for x in dir(token) if x[0] != '_'] + ["COMMENT", "tokenize",

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

35

"detect_encoding", "NL", "untokenize", "ENCODING"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

36

del token

37

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

38

COMMENT = N_TOKENS

39

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

40

NL = N_TOKENS + 1

41

tok_name[NL] = 'NL'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

42

ENCODING = N_TOKENS + 2

43

tok_name[ENCODING] = 'ENCODING'

44

N_TOKENS += 3

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

45

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

46

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

47

def any(*choices): return group(*choices) + '*'

48

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

49

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

50

# Note: we use unicode matching for names ("\w") but ascii matching for

51

# number literals.

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

52

Whitespace = r'[ \f\t]*'

53

Comment = r'#[^\r\n]*'

54

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

55

Name = r'[a-zA-Z_]\w*'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

56

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

57

Hexnumber = r'0[xX][0-9a-fA-F]+'

Georg Brandl

fceab5a

2008-01-19 20:08:23 +0000

[diff] [blame]

58

Binnumber = r'0[bB][01]+'

59

Octnumber = r'0[oO][0-7]+'

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

60

Decnumber = r'(?:0+|[1-9][0-9]*)'

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame]

61

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

62

Exponent = r'[eE][-+]?[0-9]+'

63

Pointfloat = group(r'[0-9]+\.[0-9]*', r'\.[0-9]+') + maybe(Exponent)

64

Expfloat = r'[0-9]+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

65

Floatnumber = group(Pointfloat, Expfloat)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

66

Imagnumber = group(r'[0-9]+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

67

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

68

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

69

# Tail end of ' string.

70

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

71

# Tail end of " string.

72

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

73

# Tail end of ''' string.

74

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

75

# Tail end of """ string.

76

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

77

Triple = group("[bB]?[rR]?'''", '[bB]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

78

# Single-line ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

79

String = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

80

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

81

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

82

# Because of leftmost-then-longest match semantics, be sure to put the

83

# longest operators first (e.g., if = came before ==, == would get

84

# recognized as two instances of =).

Guido van Rossum

b053cd8

2006-08-24 03:53:23 +0000

[diff] [blame]

85

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"!=",

Neal Norwitz

c150536

2006-12-28 06:47:50 +0000

[diff] [blame]

86

r"//=?", r"->",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

87

r"[+\-*/%&|^=<>]=?",

88

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

89

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

90

Bracket = '[][(){}]'

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

91

Special = group(r'\r?\n', r'\.\.\.', r'[:;.,@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

92

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

93

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

94

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

95

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

96

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

97

# First (or only) line of ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

98

ContStr = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

99

group("'", r'\\\r?\n'),

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

100

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

101

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

102

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

103

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

104

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

105

tokenprog, pseudoprog, single3prog, double3prog = map(

106

re.compile, (Token, PseudoToken, Single3, Double3))

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

107

endprogs = {"'": re.compile(Single), '"': re.compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

108

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

109

"r'''": single3prog, 'r"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

110

"b'''": single3prog, 'b"""': double3prog,

111

"br'''": single3prog, 'br"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

112

"R'''": single3prog, 'R"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

113

"B'''": single3prog, 'B"""': double3prog,

114

"bR'''": single3prog, 'bR"""': double3prog,

115

"Br'''": single3prog, 'Br"""': double3prog,

116

"BR'''": single3prog, 'BR"""': double3prog,

117

'r': None, 'R': None, 'b': None, 'B': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

118

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

119

triple_quoted = {}

120

for t in ("'''", '"""',

121

"r'''", 'r"""', "R'''", 'R"""',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

122

"b'''", 'b"""', "B'''", 'B"""',

123

"br'''", 'br"""', "Br'''", 'Br"""',

124

"bR'''", 'bR"""', "BR'''", 'BR"""'):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

129

"b'", 'b"', "B'", 'B"',

130

"br'", 'br"', "Br'", 'Br"',

131

"bR'", 'bR"', "BR'", 'BR"' ):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

132

single_quoted[t] = t

133

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

134

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

135

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

136

class TokenError(Exception): pass

137

138

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

139

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

140

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

147

self.encoding = None

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

148

149

def add_whitespace(self, start):

150

row, col = start

151

assert row <= self.prev_row

152

col_offset = col - self.prev_col

153

if col_offset:

154

self.tokens.append(" " * col_offset)

155

156

def untokenize(self, iterable):

157

for t in iterable:

158

if len(t) == 2:

159

self.compat(t, iterable)

160

break

161

tok_type, token, start, end, line = t

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

162

if tok_type == ENCODING:

163

self.encoding = token

164

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

165

self.add_whitespace(start)

166

self.tokens.append(token)

167

self.prev_row, self.prev_col = end

168

if tok_type in (NEWLINE, NL):

169

self.prev_row += 1

170

self.prev_col = 0

171

return "".join(self.tokens)

172

173

def compat(self, token, iterable):

174

startline = False

175

indents = []

176

toks_append = self.tokens.append

177

toknum, tokval = token

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

178

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

179

if toknum in (NAME, NUMBER):

180

tokval += ' '

181

if toknum in (NEWLINE, NL):

182

startline = True

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

183

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

184

for tok in iterable:

185

toknum, tokval = tok[:2]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

186

if toknum == ENCODING:

187

self.encoding = tokval

188

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

189

190

if toknum in (NAME, NUMBER):

191

tokval += ' '

192

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

193

# Insert a space between two consecutive strings

194

if toknum == STRING:

195

if prevstring:

196

tokval = ' ' + tokval

prevstring = True

else:

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

201

if toknum == INDENT:

202

indents.append(tokval)

203

continue

204

elif toknum == DEDENT:

205

indents.pop()

206

continue

207

elif toknum in (NEWLINE, NL):

208

startline = True

209

elif startline and indents:

210

toks_append(indents[-1])

211

startline = False

212

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

213

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

214

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

215

def untokenize(iterable):

216

"""Transform tokens back into Python source code.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

217

It returns a bytes object, encoded using the ENCODING

218

token, which is the first token sequence output by tokenize.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

219

220

Each element returned by the iterable must be a token sequence

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

221

with at least two elements, a token number and token value. If

222

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

223

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

224

Round-trip invariant for full input:

225

Untokenized source will match input source exactly

226

227

Round-trip invariant for limited intput:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

228

# Output bytes will tokenize the back to the input

229

t1 = [tok[:2] for tok in tokenize(f.readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

230

newcode = untokenize(t1)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

231

readline = BytesIO(newcode).readline

232

t2 = [tok[:2] for tok in tokenize(readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

233

assert t1 == t2

234

"""

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

235

ut = Untokenizer()

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

236

out = ut.untokenize(iterable)

237

if ut.encoding is not None:

238

out = out.encode(ut.encoding)

239

return out

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

240

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

241

242

def detect_encoding(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

243

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

244

The detect_encoding() function is used to detect the encoding that should

245

be used to decode a Python source file. It requires one argment, readline,

246

in the same way as the tokenize() generator.

247

248

It will call readline a maximum of twice, and return the encoding used

249

(as a string) and a list of any lines (left as bytes) it has read

250

in.

251

252

It detects the encoding from the presence of a utf-8 bom or an encoding

253

cookie as specified in pep-0263. If both a bom and a cookie are present,

254

but disagree, a SyntaxError will be raised.

255

256

If no encoding is specified, then the default of 'utf-8' will be returned.

257

"""

258

utf8_bom = b'\xef\xbb\xbf'

bom_found = False

encoding = None

def read_or_stop():

try:

return readline()

except StopIteration:

265

return b''

266

267

def find_cookie(line):

268

try:

269

line_string = line.decode('ascii')

270

except UnicodeDecodeError:

271

pass

272

else:

273

matches = cookie_re.findall(line_string)

274

if matches:

275

encoding = matches[0]

276

if bom_found and lookup(encoding).name != 'utf-8':

277

# This behaviour mimics the Python interpreter

278

raise SyntaxError('encoding problem: utf-8')

279

return encoding

280

281

first = read_or_stop()

282

if first.startswith(utf8_bom):

bom_found = True

first = first[3:]

if not first:

return 'utf-8', []

encoding = find_cookie(first)

289

if encoding:

290

return encoding, [first]

291

292

second = read_or_stop()

293

if not second:

294

return 'utf-8', [first]

295

296

encoding = find_cookie(second)

297

if encoding:

298

return encoding, [first, second]

299

300

return 'utf-8', [first, second]

301

302

303

def tokenize(readline):

304

"""

305

The tokenize() generator requires one argment, readline, which

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

306

must be a callable object which provides the same interface as the

307

readline() method of built-in file objects. Each call to the function

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

308

should return one line of input as bytes. Alternately, readline

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

309

can be a callable function terminating with StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

310

readline = open(myfile, 'rb').__next__ # Example of alternate readline

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

311

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

312

The generator produces 5-tuples with these members: the token type; the

313

token string; a 2-tuple (srow, scol) of ints specifying the row and

314

column where the token begins in the source; a 2-tuple (erow, ecol) of

315

ints specifying the row and column where the token ends in the source;

316

and the line on which the token was found. The line passed is the

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

317

logical line; continuation lines are included.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

318

319

The first token sequence will always be an ENCODING token

320

which tells you which encoding was used to decode the bytes stream.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

321

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

322

encoding, consumed = detect_encoding(readline)

323

def readline_generator():

while True:

try:

yield readline()

except StopIteration:

328

return

329

chained = chain(consumed, readline_generator())

330

return _tokenize(chained.__next__, encoding)

331

332

333

def _tokenize(readline, encoding):

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

334

lnum = parenlev = continued = 0

Fred Drake

79e75e1

2001-07-20 19:05:50 +0000

[diff] [blame]

335

namechars, numchars = string.ascii_letters + '_', '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

336

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

337

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

338

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

339

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

340

if encoding is not None:

341

yield (ENCODING, encoding, (0, 0), (0, 0), '')

Benjamin Peterson

0fe1438

2008-06-05 23:07:42 +0000

[diff] [blame]

342

while True: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

343

try:

344

line = readline()

345

except StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

346

line = b''

347

348

if encoding is not None:

349

line = line.decode(encoding)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

350

lnum = lnum + 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

351

pos, max = 0, len(line)

352

353

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

354

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

355

raise TokenError("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

356

endmatch = endprog.match(line)

357

if endmatch:

358

pos = end = endmatch.end(0)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

359

yield (STRING, contstr + line[:end],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

360

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

361

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

362

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

363

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

364

yield (ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

365

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

366

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

367

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

368

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

369

else:

370

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

371

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

372

continue

373

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

374

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

375

if not line: break

376

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

377

while pos < max: # measure leading whitespace

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

378

if line[pos] == ' ': column = column + 1

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

379

elif line[pos] == '\t': column = (column/tabsize + 1)*tabsize

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

380

elif line[pos] == '\f': column = 0

381

else: break

382

pos = pos + 1

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

383

if pos == max: break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

384

385

if line[pos] in '#\r\n': # skip comments or blank lines

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

386

if line[pos] == '#':

387

comment_token = line[pos:].rstrip('\r\n')

388

nl_pos = pos + len(comment_token)

389

yield (COMMENT, comment_token,

390

(lnum, pos), (lnum, pos + len(comment_token)), line)

391

yield (NL, line[nl_pos:],

392

(lnum, nl_pos), (lnum, len(line)), line)

393

else:

394

yield ((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

395

(lnum, pos), (lnum, len(line)), line)

396

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

397

398

if column > indents[-1]: # count indents or dedents

399

indents.append(column)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

400

yield (INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

401

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

402

if column not in indents:

403

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame]

404

"unindent does not match any outer indentation level",

405

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

406

indents = indents[:-1]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

407

yield (DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

408

409

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

410

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

411

raise TokenError("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

412

continued = 0

413

414

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

415

pseudomatch = pseudoprog.match(line, pos)

416

if pseudomatch: # scan for tokens

417

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

418

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

419

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

420

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

421

if (initial in numchars or # ordinary number

422

(initial == '.' and token != '.' and token != '...')):

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

423

yield (NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

424

elif initial in '\r\n':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

425

yield (NL if parenlev > 0 else NEWLINE,

426

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

427

elif initial == '#':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

428

assert not token.endswith("\n")

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

429

yield (COMMENT, token, spos, epos, line)

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

430

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

431

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

432

endmatch = endprog.match(line, pos)

433

if endmatch: # all on one line

434

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

435

token = line[start:pos]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

436

yield (STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

437

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

438

strstart = (lnum, start) # multiple lines

439

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

440

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

441

break

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

442

elif initial in single_quoted or \

443

token[:2] in single_quoted or \

444

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

445

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

446

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

447

endprog = (endprogs[initial] or endprogs[token[1]] or

448

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

449

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

450

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

451

break

452

else: # ordinary string

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

453

yield (STRING, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

454

elif initial in namechars: # ordinary name

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

455

yield (NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

456

elif initial == '\\': # continued stmt

457

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

458

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

459

if initial in '([{': parenlev = parenlev + 1

460

elif initial in ')]}': parenlev = parenlev - 1

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

461

yield (OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

462

else:

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

463

yield (ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

464

(lnum, pos), (lnum, pos+1), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

465

pos = pos + 1

466

467

for indent in indents[1:]: # pop remaining indent levels

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

468

yield (DEDENT, '', (lnum, 0), (lnum, 0), '')

469

yield (ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

470

Trent Nelson