Blame - Lib/tokenize.py - platform/external/python/cpython2

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

3

generate_tokens(readline) is a generator that breaks a stream of

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

4

text into Python tokens. It accepts a readline-like method which is called

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

5

repeatedly to get the next line of input (or "" for EOF). It generates

6

5-tuples with these members:

7

8

the token type (see token.py)

9

the token (a string)

10

the starting (row, column) indices of the token (a 2-tuple of ints)

11

the ending (row, column) indices of the token (a 2-tuple of ints)

12

the original line (string)

13

14

It is designed to match the working of the Python tokenizer exactly, except

15

that it produces COMMENT tokens for comments and gives type OP for all

operators

Older entry points

tokenize_loop(readline, tokeneater)

20

tokenize(readline, tokeneater=printtoken)

21

are the same, except instead of generating tokens, tokeneater is a callback

22

function to which the 5 fields described above are passed as 5 arguments,

23

each time a new token is found."""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

24

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

25

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Benjamin Peterson

2009-10-15 03:05:39 +0000

[diff] [blame]

26

__credits__ = ('GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, '

27

'Skip Montanaro, Raymond Hettinger')

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

28

Terry Jan Reedy

2014-02-17 23:12:07 -0500

[diff] [blame]

29

from itertools import chain

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

30

import string, re

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

31

from token import *

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

32

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

33

import token

Benjamin Peterson

2009-10-15 03:05:39 +0000

[diff] [blame]

34

__all__ = [x for x in dir(token) if not x.startswith("_")]

35

__all__ += ["COMMENT", "tokenize", "generate_tokens", "NL", "untokenize"]

Neal Norwitz

e98d16e

2002-03-26 16:20:26 +0000

[diff] [blame]

36

del x

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

37

del token

38

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

39

COMMENT = N_TOKENS

40

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

41

NL = N_TOKENS + 1

42

tok_name[NL] = 'NL'

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

43

N_TOKENS += 2

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

44

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

45

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

46

def any(*choices): return group(*choices) + '*'

47

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

48

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

49

Whitespace = r'[ \f\t]*'

50

Comment = r'#[^\r\n]*'

51

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

52

Name = r'[a-zA-Z_]\w*'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

53

Georg Brandl

14404b6

2008-01-19 19:27:05 +0000

[diff] [blame]

54

Hexnumber = r'0[xX][\da-fA-F]+[lL]?'

Eric Smith

0aed07a

2008-03-17 19:43:40 +0000

[diff] [blame]

55

Octnumber = r'(0[oO][0-7]+)|(0[0-7]*)[lL]?'

56

Binnumber = r'0[bB][01]+[lL]?'

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

57

Decnumber = r'[1-9]\d*[lL]?'

Eric Smith

0aed07a

2008-03-17 19:43:40 +0000

[diff] [blame]

58

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

59

Exponent = r'[eE][-+]?\d+'

60

Pointfloat = group(r'\d+\.\d*', r'\.\d+') + maybe(Exponent)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

61

Expfloat = r'\d+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

62

Floatnumber = group(Pointfloat, Expfloat)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

63

Imagnumber = group(r'\d+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

64

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

65

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

66

# Tail end of ' string.

67

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

68

# Tail end of " string.

69

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

70

# Tail end of ''' string.

71

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

72

# Tail end of """ string.

73

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Meador Inge

2012-06-16 21:05:50 -0500

[diff] [blame]

74

Triple = group("[uUbB]?[rR]?'''", '[uUbB]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

75

# Single-line ' or " string.

Meador Inge

2012-06-16 21:05:50 -0500

[diff] [blame]

76

String = group(r"[uUbB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

77

r'[uUbB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

78

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

79

# Because of leftmost-then-longest match semantics, be sure to put the

80

# longest operators first (e.g., if = came before ==, == would get

81

# recognized as two instances of =).

82

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"<>", r"!=",

Guido van Rossum

96204f5

2001-08-08 05:04:07 +0000

[diff] [blame]

83

r"//=?",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

84

r"[+\-*/%&|^=<>]=?",

85

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

86

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

87

Bracket = '[][(){}]'

Anthony Baxter

c2a5a63

2004-08-02 06:10:11 +0000

[diff] [blame]

88

Special = group(r'\r?\n', r'[:;.,`@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

89

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

90

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

91

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

92

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

93

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

94

# First (or only) line of ' or " string.

Meador Inge

2012-06-16 21:05:50 -0500

[diff] [blame]

95

ContStr = group(r"[uUbB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

96

group("'", r'\\\r?\n'),

Meador Inge

2012-06-16 21:05:50 -0500

[diff] [blame]

97

r'[uUbB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

98

group('"', r'\\\r?\n'))

Ezio Melotti

7d24b16

2012-11-03 17:30:51 +0200

[diff] [blame]

99

PseudoExtras = group(r'\\\r?\n|\Z', Comment, Triple)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

100

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

101

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

102

tokenprog, pseudoprog, single3prog, double3prog = map(

103

re.compile, (Token, PseudoToken, Single3, Double3))

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

104

endprogs = {"'": re.compile(Single), '"': re.compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

105

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

106

"r'''": single3prog, 'r"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

107

"u'''": single3prog, 'u"""': double3prog,

108

"ur'''": single3prog, 'ur"""': double3prog,

109

"R'''": single3prog, 'R"""': double3prog,

110

"U'''": single3prog, 'U"""': double3prog,

111

"uR'''": single3prog, 'uR"""': double3prog,

112

"Ur'''": single3prog, 'Ur"""': double3prog,

113

"UR'''": single3prog, 'UR"""': double3prog,

Christian Heimes

288e89a

2008-01-18 18:24:07 +0000

[diff] [blame]

114

"b'''": single3prog, 'b"""': double3prog,

115

"br'''": single3prog, 'br"""': double3prog,

116

"B'''": single3prog, 'B"""': double3prog,

117

"bR'''": single3prog, 'bR"""': double3prog,

118

"Br'''": single3prog, 'Br"""': double3prog,

119

"BR'''": single3prog, 'BR"""': double3prog,

120

'r': None, 'R': None, 'u': None, 'U': None,

121

'b': None, 'B': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

122

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

123

triple_quoted = {}

124

for t in ("'''", '"""',

125

"r'''", 'r"""', "R'''", 'R"""',

126

"u'''", 'u"""', "U'''", 'U"""',

127

"ur'''", 'ur"""', "Ur'''", 'Ur"""',

Christian Heimes

288e89a

2008-01-18 18:24:07 +0000

[diff] [blame]

128

"uR'''", 'uR"""', "UR'''", 'UR"""',

129

"b'''", 'b"""', "B'''", 'B"""',

130

"br'''", 'br"""', "Br'''", 'Br"""',

131

"bR'''", 'bR"""', "BR'''", 'BR"""'):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

136

"u'", 'u"', "U'", 'U"',

137

"ur'", 'ur"', "Ur'", 'Ur"',

Christian Heimes

288e89a

2008-01-18 18:24:07 +0000

[diff] [blame]

138

"uR'", 'uR"', "UR'", 'UR"',

139

"b'", 'b"', "B'", 'B"',

140

"br'", 'br"', "Br'", 'Br"',

141

"bR'", 'bR"', "BR'", 'BR"' ):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

142

single_quoted[t] = t

143

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

144

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

145

Ka-Ping Yee

2001-03-23 05:22:49 +0000

[diff] [blame]

146

class TokenError(Exception): pass

147

148

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

149

Brett Cannon

50bb7e1

2008-08-02 03:15:20 +0000

[diff] [blame]

150

def printtoken(type, token, srow_scol, erow_ecol, line): # for testing

151

srow, scol = srow_scol

152

erow, ecol = erow_ecol

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

153

print "%d,%d-%d,%d:\t%s\t%s" % \

154

(srow, scol, erow, ecol, tok_name[type], repr(token))

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

155

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

156

def tokenize(readline, tokeneater=printtoken):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

157

"""

158

The tokenize() function accepts two parameters: one representing the

159

input stream, and one providing an output mechanism for tokenize().

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

160

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

161

The first parameter, readline, must be a callable object which provides

162

the same interface as the readline() method of built-in file objects.

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

163

Each call to the function should return one line of input as a string.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

164

165

The second parameter, tokeneater, must also be a callable object. It is

166

called once for each token, with five arguments, corresponding to the

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

167

tuples generated by generate_tokens().

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

168

"""

Ka-Ping Yee

2001-03-23 05:22:49 +0000

[diff] [blame]

169

try:

170

tokenize_loop(readline, tokeneater)

171

except StopTokenizing:

172

pass

173

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

174

# backwards compatible interface

Ka-Ping Yee

2001-03-23 05:22:49 +0000

[diff] [blame]

175

def tokenize_loop(readline, tokeneater):

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

176

for token_info in generate_tokens(readline):

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

177

tokeneater(*token_info)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

178

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

def add_whitespace(self, start):

187

row, col = start

Terry Jan Reedy

7751a34

2014-02-17 16:45:38 -0500

[diff] [blame]

188

if row < self.prev_row or row == self.prev_row and col < self.prev_col:

189

raise ValueError("start ({},{}) precedes previous end ({},{})"

190

.format(row, col, self.prev_row, self.prev_col))

Terry Jan Reedy

bd7cf3a

2014-02-23 23:32:59 -0500

[diff] [blame]

191

row_offset = row - self.prev_row

192

if row_offset:

193

self.tokens.append("\\\n" * row_offset)

194

self.prev_col = 0

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

195

col_offset = col - self.prev_col

196

if col_offset:

197

self.tokens.append(" " * col_offset)

198

199

def untokenize(self, iterable):

Terry Jan Reedy

2014-02-17 23:12:07 -0500

[diff] [blame]

200

it = iter(iterable)

Jason R. Coombs

eabfe8c

2015-06-28 13:05:19 -0400

[diff] [blame]

201

indents = []

202

startline = False

Terry Jan Reedy

2014-02-17 23:12:07 -0500

[diff] [blame]

203

for t in it:

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

204

if len(t) == 2:

Terry Jan Reedy

2014-02-17 23:12:07 -0500

[diff] [blame]

205

self.compat(t, it)

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

206

break

207

tok_type, token, start, end, line = t

Terry Jan Reedy

bd7cf3a

2014-02-23 23:32:59 -0500

[diff] [blame]

208

if tok_type == ENDMARKER:

209

break

Jason R. Coombs

eabfe8c

2015-06-28 13:05:19 -0400

[diff] [blame]

210

if tok_type == INDENT:

211

indents.append(token)

212

continue

213

elif tok_type == DEDENT:

214

indents.pop()

215

self.prev_row, self.prev_col = end

216

continue

217

elif tok_type in (NEWLINE, NL):

218

startline = True

219

elif startline and indents:

220

indent = indents[-1]

221

if start[1] >= len(indent):

222

self.tokens.append(indent)

223

self.prev_col = len(indent)

224

startline = False

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

225

self.add_whitespace(start)

226

self.tokens.append(token)

227

self.prev_row, self.prev_col = end

228

if tok_type in (NEWLINE, NL):

229

self.prev_row += 1

230

self.prev_col = 0

231

return "".join(self.tokens)

232

233

def compat(self, token, iterable):

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

234

indents = []

235

toks_append = self.tokens.append

Terry Jan Reedy

2014-02-17 23:12:07 -0500

[diff] [blame]

236

startline = token[0] in (NEWLINE, NL)

Amaury Forgeot d'Arc

da0c025

2008-03-27 23:23:54 +0000

[diff] [blame]

237

prevstring = False

Terry Jan Reedy

8ab7cba

2014-02-17 23:16:26 -0500

[diff] [blame]

238

Terry Jan Reedy

2014-02-17 23:12:07 -0500

[diff] [blame]

239

for tok in chain([token], iterable):

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

240

toknum, tokval = tok[:2]

241

242

if toknum in (NAME, NUMBER):

243

tokval += ' '

244

Amaury Forgeot d'Arc

da0c025

2008-03-27 23:23:54 +0000

[diff] [blame]

245

# Insert a space between two consecutive strings

246

if toknum == STRING:

247

if prevstring:

248

tokval = ' ' + tokval

prevstring = True

else:

prevstring = False

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

253

if toknum == INDENT:

254

indents.append(tokval)

255

continue

256

elif toknum == DEDENT:

257

indents.pop()

258

continue

259

elif toknum in (NEWLINE, NL):

260

startline = True

261

elif startline and indents:

262

toks_append(indents[-1])

263

startline = False

264

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

265

266

def untokenize(iterable):

267

"""Transform tokens back into Python source code.

268

269

Each element returned by the iterable must be a token sequence

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

270

with at least two elements, a token number and token value. If

271

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

272

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

273

Round-trip invariant for full input:

274

Untokenized source will match input source exactly

275

276

Round-trip invariant for limited intput:

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

277

# Output text will tokenize the back to the input

278

t1 = [tok[:2] for tok in generate_tokens(f.readline)]

279

newcode = untokenize(t1)

280

readline = iter(newcode.splitlines(1)).next

Amaury Forgeot d'Arc

da0c025

2008-03-27 23:23:54 +0000

[diff] [blame]

281

t2 = [tok[:2] for tok in generate_tokens(readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

282

assert t1 == t2

283

"""

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

284

ut = Untokenizer()

285

return ut.untokenize(iterable)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

286

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

287

def generate_tokens(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

288

"""

Ezio Melotti

2612679

2013-11-25 05:14:51 +0200

[diff] [blame]

289

The generate_tokens() generator requires one argument, readline, which

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

290

must be a callable object which provides the same interface as the

291

readline() method of built-in file objects. Each call to the function

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

292

should return one line of input as a string. Alternately, readline

293

can be a callable function terminating with StopIteration:

294

readline = open(myfile).next # Example of alternate readline

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

295

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

296

The generator produces 5-tuples with these members: the token type; the

297

token string; a 2-tuple (srow, scol) of ints specifying the row and

298

column where the token begins in the source; a 2-tuple (erow, ecol) of

299

ints specifying the row and column where the token ends in the source;

300

and the line on which the token was found. The line passed is the

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

301

logical line; continuation lines are included.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

302

"""

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

303

lnum = parenlev = continued = 0

Fred Drake

79e75e1

2001-07-20 19:05:50 +0000

[diff] [blame]

304

namechars, numchars = string.ascii_letters + '_', '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

305

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

306

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

307

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

308

Ammar Askar

7829bba

2018-07-06 06:23:13 -0400

[diff] [blame]

309

last_line = b''

310

line = b''

Benjamin Peterson

8456f64

2008-06-05 23:02:33 +0000

[diff] [blame]

311

while 1: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

312

try:

Ammar Askar

7829bba

2018-07-06 06:23:13 -0400

[diff] [blame]

313

# We capture the value of the line variable here because

314

# readline uses the empty string '' to signal end of input,

315

# hence `line` itself will always be overwritten at the end

316

# of this loop.

317

last_line = line

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

318

line = readline()

319

except StopIteration:

320

line = ''

Benjamin Peterson

2009-10-15 03:05:39 +0000

[diff] [blame]

321

lnum += 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

322

pos, max = 0, len(line)

323

324

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

325

if not line:

326

raise TokenError, ("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

327

endmatch = endprog.match(line)

328

if endmatch:

329

pos = end = endmatch.end(0)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

330

yield (STRING, contstr + line[:end],

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

331

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

332

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

333

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

334

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

335

yield (ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

336

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

337

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

338

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

339

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

340

else:

341

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

342

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

343

continue

344

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

345

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

346

if not line: break

347

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

348

while pos < max: # measure leading whitespace

Benjamin Peterson

2009-10-15 01:47:28 +0000

[diff] [blame]

349

if line[pos] == ' ':

Benjamin Peterson

2009-10-15 03:05:39 +0000

[diff] [blame]

350

column += 1

Benjamin Peterson

2009-10-15 01:47:28 +0000

[diff] [blame]

351

elif line[pos] == '\t':

Benjamin Peterson

447dc15

2009-10-15 01:49:37 +0000

[diff] [blame]

352

column = (column//tabsize + 1)*tabsize

Benjamin Peterson

2009-10-15 01:47:28 +0000

[diff] [blame]

353

elif line[pos] == '\f':

354

column = 0

355

else:

356

break

Benjamin Peterson

2009-10-15 03:05:39 +0000

[diff] [blame]

357

pos += 1

Benjamin Peterson

2009-10-15 01:47:28 +0000

[diff] [blame]

358

if pos == max:

359

break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

360

361

if line[pos] in '#\r\n': # skip comments or blank lines

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

362

if line[pos] == '#':

363

comment_token = line[pos:].rstrip('\r\n')

364

nl_pos = pos + len(comment_token)

365

yield (COMMENT, comment_token,

366

(lnum, pos), (lnum, pos + len(comment_token)), line)

367

yield (NL, line[nl_pos:],

368

(lnum, nl_pos), (lnum, len(line)), line)

369

else:

370

yield ((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

371

(lnum, pos), (lnum, len(line)), line)

372

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

373

374

if column > indents[-1]: # count indents or dedents

375

indents.append(column)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

376

yield (INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

377

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

378

if column not in indents:

379

raise IndentationError(

Georg Brandl

2463f8f

2006-08-14 21:34:08 +0000

[diff] [blame]

380

"unindent does not match any outer indentation level",

381

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

382

indents = indents[:-1]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

383

yield (DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

384

385

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

386

if not line:

387

raise TokenError, ("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

388

continued = 0

389

390

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

391

pseudomatch = pseudoprog.match(line, pos)

392

if pseudomatch: # scan for tokens

393

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

394

spos, epos, pos = (lnum, start), (lnum, end), end

Ezio Melotti

7d24b16

2012-11-03 17:30:51 +0200

[diff] [blame]

395

if start == end:

396

continue

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

397

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

398

Ka-Ping Yee

2001-03-23 05:22:49 +0000

[diff] [blame]

399

if initial in numchars or \

400

(initial == '.' and token != '.'): # ordinary number

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

401

yield (NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

402

elif initial in '\r\n':

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

403

yield (NL if parenlev > 0 else NEWLINE,

404

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

405

elif initial == '#':

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

406

assert not token.endswith("\n")

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

407

yield (COMMENT, token, spos, epos, line)

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

408

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

409

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

410

endmatch = endprog.match(line, pos)

411

if endmatch: # all on one line

412

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

413

token = line[start:pos]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

414

yield (STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

415

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

416

strstart = (lnum, start) # multiple lines

417

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

418

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

419

break

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

420

elif initial in single_quoted or \

421

token[:2] in single_quoted or \

422

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

423

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

424

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

425

endprog = (endprogs[initial] or endprogs[token[1]] or

426

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

427

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

428

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

429

break

430

else: # ordinary string

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

431

yield (STRING, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

432

elif initial in namechars: # ordinary name

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

433

yield (NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

434

elif initial == '\\': # continued stmt

435

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

436

else:

Benjamin Peterson

2009-10-15 01:47:28 +0000

[diff] [blame]

437

if initial in '([{':

Benjamin Peterson

2009-10-15 03:05:39 +0000

[diff] [blame]

438

parenlev += 1

Benjamin Peterson

2009-10-15 01:47:28 +0000

[diff] [blame]

439

elif initial in ')]}':

Benjamin Peterson

2009-10-15 03:05:39 +0000

[diff] [blame]

440

parenlev -= 1

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

441

yield (OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

442

else:

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

443

yield (ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

444

(lnum, pos), (lnum, pos+1), line)

Benjamin Peterson

2009-10-15 03:05:39 +0000

[diff] [blame]

445

pos += 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

446

Ammar Askar

7829bba

2018-07-06 06:23:13 -0400

[diff] [blame]

447

# Add an implicit NEWLINE if the input doesn't end in one

448

if last_line and last_line[-1] not in '\r\n':

449

yield (NEWLINE, '', (lnum - 1, len(last_line)), (lnum - 1, len(last_line) + 1), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

450

for indent in indents[1:]: # pop remaining indent levels

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

451

yield (DEDENT, '', (lnum, 0), (lnum, 0), '')

452

yield (ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

453

454

if __name__ == '__main__': # testing

455

import sys

Benjamin Peterson