Blame - Lib/tokenize.py - platform/external/python/cpython3

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

3

generate_tokens(readline) is a generator that breaks a stream of

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

4

text into Python tokens. It accepts a readline-like method which is called

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

5

repeatedly to get the next line of input (or "" for EOF). It generates

6

5-tuples with these members:

7

8

the token type (see token.py)

9

the token (a string)

10

the starting (row, column) indices of the token (a 2-tuple of ints)

11

the ending (row, column) indices of the token (a 2-tuple of ints)

12

the original line (string)

13

14

It is designed to match the working of the Python tokenizer exactly, except

15

that it produces COMMENT tokens for comments and gives type OP for all

operators

Older entry points

tokenize_loop(readline, tokeneater)

20

tokenize(readline, tokeneater=printtoken)

21

are the same, except instead of generating tokens, tokeneater is a callback

22

function to which the 5 fields described above are passed as 5 arguments,

23

each time a new token is found."""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

24

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

25

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Ka-Ping Yee

4f64c13

2001-03-01 17:11:17 +0000

[diff] [blame]

26

__credits__ = \

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

27

'GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, Skip Montanaro, Raymond Hettinger'

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

28

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

29

import string, re

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

30

from token import *

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

31

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

32

import token

Raymond Hettinger

78a7aee

2002-11-05 06:06:02 +0000

[diff] [blame]

33

__all__ = [x for x in dir(token) if x[0] != '_'] + ["COMMENT", "tokenize",

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

34

"generate_tokens", "NL", "untokenize"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

35

del token

36

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

37

COMMENT = N_TOKENS

38

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

39

NL = N_TOKENS + 1

40

tok_name[NL] = 'NL'

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

41

N_TOKENS += 2

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

42

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

43

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

44

def any(*choices): return group(*choices) + '*'

45

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

46

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

47

Whitespace = r'[ \f\t]*'

48

Comment = r'#[^\r\n]*'

49

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

50

Name = r'[a-zA-Z_]\w*'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

51

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame^]

52

Hexnumber = r'0[xX][\da-fA-F]*'

53

Binnumber = r'0[bB][01]*'

54

Octnumber = r'0[oO][0-7]*'

55

Decnumber = r'(?:0+|[1-9]\d*)'

56

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

57

Exponent = r'[eE][-+]?\d+'

58

Pointfloat = group(r'\d+\.\d*', r'\.\d+') + maybe(Exponent)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

59

Expfloat = r'\d+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

60

Floatnumber = group(Pointfloat, Expfloat)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

61

Imagnumber = group(r'\d+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

62

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

63

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

64

# Tail end of ' string.

65

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

66

# Tail end of " string.

67

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

68

# Tail end of ''' string.

69

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

70

# Tail end of """ string.

71

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

72

Triple = group("[uU]?[rR]?'''", '[uU]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

73

# Single-line ' or " string.

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

74

String = group(r"[uU]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

75

r'[uU]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

76

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

77

# Because of leftmost-then-longest match semantics, be sure to put the

78

# longest operators first (e.g., if = came before ==, == would get

79

# recognized as two instances of =).

Guido van Rossum

b053cd8

2006-08-24 03:53:23 +0000

[diff] [blame]

80

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"!=",

Neal Norwitz

c150536

2006-12-28 06:47:50 +0000

[diff] [blame]

81

r"//=?", r"->",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

82

r"[+\-*/%&|^=<>]=?",

83

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

84

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

85

Bracket = '[][(){}]'

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

86

Special = group(r'\r?\n', r'\.\.\.', r'[:;.,@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

87

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

88

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

89

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

90

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

91

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

92

# First (or only) line of ' or " string.

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

93

ContStr = group(r"[uU]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

94

group("'", r'\\\r?\n'),

95

r'[uU]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

96

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

97

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

98

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

99

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

100

tokenprog, pseudoprog, single3prog, double3prog = map(

101

re.compile, (Token, PseudoToken, Single3, Double3))

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

102

endprogs = {"'": re.compile(Single), '"': re.compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

103

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

104

"r'''": single3prog, 'r"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

105

"u'''": single3prog, 'u"""': double3prog,

106

"ur'''": single3prog, 'ur"""': double3prog,

107

"R'''": single3prog, 'R"""': double3prog,

108

"U'''": single3prog, 'U"""': double3prog,

109

"uR'''": single3prog, 'uR"""': double3prog,

110

"Ur'''": single3prog, 'Ur"""': double3prog,

111

"UR'''": single3prog, 'UR"""': double3prog,

112

'r': None, 'R': None, 'u': None, 'U': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

113

Guido van Rossum

9d6897a

2002-08-24 06:54:19 +0000

[diff] [blame]

114

triple_quoted = {}

115

for t in ("'''", '"""',

116

"r'''", 'r"""', "R'''", 'R"""',

117

"u'''", 'u"""', "U'''", 'U"""',

118

"ur'''", 'ur"""', "Ur'''", 'Ur"""',

119

"uR'''", 'uR"""', "UR'''", 'UR"""'):

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

124

"u'", 'u"', "U'", 'U"',

125

"ur'", 'ur"', "Ur'", 'Ur"',

126

"uR'", 'uR"', "UR'", 'UR"' ):

127

single_quoted[t] = t

128

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

129

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

130

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

131

class TokenError(Exception): pass

132

133

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

134

Guido van Rossum

1bc535d

2007-05-15 18:46:22 +0000

[diff] [blame]

135

def printtoken(type, token, startrowcol, endrowcol, line): # for testing

136

(srow, scol), (erow, ecol) = startrowcol, endrowcol

Guido van Rossum

be19ed7

2007-02-09 05:37:30 +0000

[diff] [blame]

137

print("%d,%d-%d,%d:\t%s\t%s" % \

138

(srow, scol, erow, ecol, tok_name[type], repr(token)))

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

139

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

140

def tokenize(readline, tokeneater=printtoken):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

141

"""

142

The tokenize() function accepts two parameters: one representing the

143

input stream, and one providing an output mechanism for tokenize().

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

144

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

145

The first parameter, readline, must be a callable object which provides

146

the same interface as the readline() method of built-in file objects.

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

147

Each call to the function should return one line of input as a string.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

148

149

The second parameter, tokeneater, must also be a callable object. It is

150

called once for each token, with five arguments, corresponding to the

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

151

tuples generated by generate_tokens().

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

152

"""

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

153

try:

154

tokenize_loop(readline, tokeneater)

155

except StopTokenizing:

156

pass

157

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

158

# backwards compatible interface

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

159

def tokenize_loop(readline, tokeneater):

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

160

for token_info in generate_tokens(readline):

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

161

tokeneater(*token_info)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

162

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

def add_whitespace(self, start):

171

row, col = start

172

assert row <= self.prev_row

173

col_offset = col - self.prev_col

174

if col_offset:

175

self.tokens.append(" " * col_offset)

176

177

def untokenize(self, iterable):

178

for t in iterable:

179

if len(t) == 2:

180

self.compat(t, iterable)

181

break

182

tok_type, token, start, end, line = t

183

self.add_whitespace(start)

184

self.tokens.append(token)

185

self.prev_row, self.prev_col = end

186

if tok_type in (NEWLINE, NL):

187

self.prev_row += 1

188

self.prev_col = 0

189

return "".join(self.tokens)

190

191

def compat(self, token, iterable):

192

startline = False

193

indents = []

194

toks_append = self.tokens.append

195

toknum, tokval = token

196

if toknum in (NAME, NUMBER):

197

tokval += ' '

198

if toknum in (NEWLINE, NL):

199

startline = True

200

for tok in iterable:

201

toknum, tokval = tok[:2]

202

203

if toknum in (NAME, NUMBER):

tokval += ' '

if toknum == INDENT:

indents.append(tokval)

208

continue

209

elif toknum == DEDENT:

210

indents.pop()

211

continue

212

elif toknum in (NEWLINE, NL):

213

startline = True

214

elif startline and indents:

215

toks_append(indents[-1])

216

startline = False

217

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

218

219

def untokenize(iterable):

220

"""Transform tokens back into Python source code.

221

222

Each element returned by the iterable must be a token sequence

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

223

with at least two elements, a token number and token value. If

224

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

225

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

226

Round-trip invariant for full input:

227

Untokenized source will match input source exactly

228

229

Round-trip invariant for limited intput:

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

230

# Output text will tokenize the back to the input

231

t1 = [tok[:2] for tok in generate_tokens(f.readline)]

232

newcode = untokenize(t1)

Georg Brandl

a18af4e

2007-04-21 15:47:16 +0000

[diff] [blame]

233

readline = iter(newcode.splitlines(1)).__next__

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

234

t2 = [tok[:2] for tokin generate_tokens(readline)]

235

assert t1 == t2

236

"""

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

237

ut = Untokenizer()

238

return ut.untokenize(iterable)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

239

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

240

def generate_tokens(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

241

"""

242

The generate_tokens() generator requires one argment, readline, which

243

must be a callable object which provides the same interface as the

244

readline() method of built-in file objects. Each call to the function

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

245

should return one line of input as a string. Alternately, readline

246

can be a callable function terminating with StopIteration:

Georg Brandl

a18af4e

2007-04-21 15:47:16 +0000

[diff] [blame]

247

readline = open(myfile).__next__ # Example of alternate readline

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

248

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

249

The generator produces 5-tuples with these members: the token type; the

250

token string; a 2-tuple (srow, scol) of ints specifying the row and

251

column where the token begins in the source; a 2-tuple (erow, ecol) of

252

ints specifying the row and column where the token ends in the source;

253

and the line on which the token was found. The line passed is the

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

254

logical line; continuation lines are included.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

255

"""

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

256

lnum = parenlev = continued = 0

Fred Drake

79e75e1

2001-07-20 19:05:50 +0000

[diff] [blame]

257

namechars, numchars = string.ascii_letters + '_', '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

258

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

259

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

260

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

261

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

262

while 1: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

263

try:

264

line = readline()

265

except StopIteration:

266

line = ''

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

267

lnum = lnum + 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

268

pos, max = 0, len(line)

269

270

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

271

if not line:

272

raise TokenError, ("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

273

endmatch = endprog.match(line)

274

if endmatch:

275

pos = end = endmatch.end(0)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

276

yield (STRING, contstr + line[:end],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

277

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

278

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

279

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

280

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

281

yield (ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

282

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

283

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

284

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

285

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

286

else:

287

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

288

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

289

continue

290

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

291

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

292

if not line: break

293

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

294

while pos < max: # measure leading whitespace

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

295

if line[pos] == ' ': column = column + 1

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

296

elif line[pos] == '\t': column = (column/tabsize + 1)*tabsize

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

297

elif line[pos] == '\f': column = 0

298

else: break

299

pos = pos + 1

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

300

if pos == max: break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

301

302

if line[pos] in '#\r\n': # skip comments or blank lines

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

303

if line[pos] == '#':

304

comment_token = line[pos:].rstrip('\r\n')

305

nl_pos = pos + len(comment_token)

306

yield (COMMENT, comment_token,

307

(lnum, pos), (lnum, pos + len(comment_token)), line)

308

yield (NL, line[nl_pos:],

309

(lnum, nl_pos), (lnum, len(line)), line)

310

else:

311

yield ((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

312

(lnum, pos), (lnum, len(line)), line)

313

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

314

315

if column > indents[-1]: # count indents or dedents

316

indents.append(column)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

317

yield (INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

318

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

319

if column not in indents:

320

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame]

321

"unindent does not match any outer indentation level",

322

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

323

indents = indents[:-1]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

324

yield (DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

325

326

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

327

if not line:

328

raise TokenError, ("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

329

continued = 0

330

331

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

332

pseudomatch = pseudoprog.match(line, pos)

333

if pseudomatch: # scan for tokens

334

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

335

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

336

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

337

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

338

if (initial in numchars or # ordinary number

339

(initial == '.' and token != '.' and token != '...')):

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

340

yield (NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

341

elif initial in '\r\n':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

342

yield (NL if parenlev > 0 else NEWLINE,

343

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

344

elif initial == '#':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

345

assert not token.endswith("\n")

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

346

yield (COMMENT, token, spos, epos, line)

Guido van Rossum

9d6897a

2002-08-24 06:54:19 +0000

[diff] [blame]

347

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

348

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

349

endmatch = endprog.match(line, pos)

350

if endmatch: # all on one line

351

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

352

token = line[start:pos]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

353

yield (STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

354

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

355

strstart = (lnum, start) # multiple lines

356

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

357

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

358

break

Guido van Rossum

9d6897a

2002-08-24 06:54:19 +0000

[diff] [blame]

359

elif initial in single_quoted or \

360

token[:2] in single_quoted or \

361

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

362

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

363

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

364

endprog = (endprogs[initial] or endprogs[token[1]] or

365

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

366

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

367

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

368

break

369

else: # ordinary string

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

370

yield (STRING, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

371

elif initial in namechars: # ordinary name

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

372

yield (NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

373

elif initial == '\\': # continued stmt

374

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

375

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

376

if initial in '([{': parenlev = parenlev + 1

377

elif initial in ')]}': parenlev = parenlev - 1

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

378

yield (OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

379

else:

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

380

yield (ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

381

(lnum, pos), (lnum, pos+1), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

382

pos = pos + 1

383

384

for indent in indents[1:]: # pop remaining indent levels

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

385

yield (DEDENT, '', (lnum, 0), (lnum, 0), '')

386

yield (ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

387

388

if __name__ == '__main__': # testing

389

import sys

Guido van Rossum