Blame - Lib/tokenize.py - platform/external/python/cpython2

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

3

generate_tokens(readline) is a generator that breaks a stream of

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

4

text into Python tokens. It accepts a readline-like method which is called

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

5

repeatedly to get the next line of input (or "" for EOF). It generates

6

5-tuples with these members:

7

8

the token type (see token.py)

9

the token (a string)

10

the starting (row, column) indices of the token (a 2-tuple of ints)

11

the ending (row, column) indices of the token (a 2-tuple of ints)

12

the original line (string)

13

14

It is designed to match the working of the Python tokenizer exactly, except

15

that it produces COMMENT tokens for comments and gives type OP for all

operators

Older entry points

tokenize_loop(readline, tokeneater)

20

tokenize(readline, tokeneater=printtoken)

21

are the same, except instead of generating tokens, tokeneater is a callback

22

function to which the 5 fields described above are passed as 5 arguments,

23

each time a new token is found."""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

24

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

25

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Ka-Ping Yee

4f64c13

2001-03-01 17:11:17 +0000

[diff] [blame]

26

__credits__ = \

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

27

'GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, Skip Montanaro, Raymond Hettinger'

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

28

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

29

import string, re

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

30

from token import *

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

31

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

32

import token

Raymond Hettinger

78a7aee

2002-11-05 06:06:02 +0000

[diff] [blame]

33

__all__ = [x for x in dir(token) if x[0] != '_'] + ["COMMENT", "tokenize",

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

34

"generate_tokens", "NL", "untokenize"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

35

del token

36

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

37

COMMENT = N_TOKENS

38

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

39

NL = N_TOKENS + 1

40

tok_name[NL] = 'NL'

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

41

N_TOKENS += 2

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

42

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

43

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

44

def any(*choices): return group(*choices) + '*'

45

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

46

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

47

Whitespace = r'[ \f\t]*'

48

Comment = r'#[^\r\n]*'

49

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

50

Name = r'[a-zA-Z_]\w*'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

51

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

52

Hexnumber = r'0[xX][\da-fA-F]*[lL]?'

53

Octnumber = r'0[0-7]*[lL]?'

54

Decnumber = r'[1-9]\d*[lL]?'

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

55

Intnumber = group(Hexnumber, Octnumber, Decnumber)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

56

Exponent = r'[eE][-+]?\d+'

57

Pointfloat = group(r'\d+\.\d*', r'\.\d+') + maybe(Exponent)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

58

Expfloat = r'\d+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

59

Floatnumber = group(Pointfloat, Expfloat)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

60

Imagnumber = group(r'\d+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

61

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

62

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

63

# Tail end of ' string.

64

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

65

# Tail end of " string.

66

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

67

# Tail end of ''' string.

68

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

69

# Tail end of """ string.

70

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

71

Triple = group("[uU]?[rR]?'''", '[uU]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

72

# Single-line ' or " string.

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

73

String = group(r"[uU]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

74

r'[uU]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

75

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

76

# Because of leftmost-then-longest match semantics, be sure to put the

77

# longest operators first (e.g., if = came before ==, == would get

78

# recognized as two instances of =).

Guido van Rossum

b053cd8

2006-08-24 03:53:23 +0000

[diff] [blame]

79

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"!=",

Neal Norwitz

c150536

2006-12-28 06:47:50 +0000

[diff] [blame]

80

r"//=?", r"->",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

81

r"[+\-*/%&|^=<>]=?",

82

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

83

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

84

Bracket = '[][(){}]'

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

85

Special = group(r'\r?\n', r'\.\.\.', r'[:;.,@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

86

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

87

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

88

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

89

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

90

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

91

# First (or only) line of ' or " string.

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

92

ContStr = group(r"[uU]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

93

group("'", r'\\\r?\n'),

94

r'[uU]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

95

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

96

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

97

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

98

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

99

tokenprog, pseudoprog, single3prog, double3prog = map(

100

re.compile, (Token, PseudoToken, Single3, Double3))

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

101

endprogs = {"'": re.compile(Single), '"': re.compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

102

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

103

"r'''": single3prog, 'r"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

104

"u'''": single3prog, 'u"""': double3prog,

105

"ur'''": single3prog, 'ur"""': double3prog,

106

"R'''": single3prog, 'R"""': double3prog,

107

"U'''": single3prog, 'U"""': double3prog,

108

"uR'''": single3prog, 'uR"""': double3prog,

109

"Ur'''": single3prog, 'Ur"""': double3prog,

110

"UR'''": single3prog, 'UR"""': double3prog,

111

'r': None, 'R': None, 'u': None, 'U': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

112

Guido van Rossum

9d6897a

2002-08-24 06:54:19 +0000

[diff] [blame]

113

triple_quoted = {}

114

for t in ("'''", '"""',

115

"r'''", 'r"""', "R'''", 'R"""',

116

"u'''", 'u"""', "U'''", 'U"""',

117

"ur'''", 'ur"""', "Ur'''", 'Ur"""',

118

"uR'''", 'uR"""', "UR'''", 'UR"""'):

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

123

"u'", 'u"', "U'", 'U"',

124

"ur'", 'ur"', "Ur'", 'Ur"',

125

"uR'", 'uR"', "UR'", 'UR"' ):

126

single_quoted[t] = t

127

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

128

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

129

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

130

class TokenError(Exception): pass

131

132

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

133

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

134

def printtoken(type, token, (srow, scol), (erow, ecol), line): # for testing

Guido van Rossum

be19ed7

2007-02-09 05:37:30 +0000

[diff] [blame]

135

print("%d,%d-%d,%d:\t%s\t%s" % \

136

(srow, scol, erow, ecol, tok_name[type], repr(token)))

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

137

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

138

def tokenize(readline, tokeneater=printtoken):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

139

"""

140

The tokenize() function accepts two parameters: one representing the

141

input stream, and one providing an output mechanism for tokenize().

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

142

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

143

The first parameter, readline, must be a callable object which provides

144

the same interface as the readline() method of built-in file objects.

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

145

Each call to the function should return one line of input as a string.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

146

147

The second parameter, tokeneater, must also be a callable object. It is

148

called once for each token, with five arguments, corresponding to the

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

149

tuples generated by generate_tokens().

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

150

"""

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

151

try:

152

tokenize_loop(readline, tokeneater)

153

except StopTokenizing:

154

pass

155

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

156

# backwards compatible interface

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

157

def tokenize_loop(readline, tokeneater):

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

158

for token_info in generate_tokens(readline):

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

159

tokeneater(*token_info)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

160

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

def add_whitespace(self, start):

169

row, col = start

170

assert row <= self.prev_row

171

col_offset = col - self.prev_col

172

if col_offset:

173

self.tokens.append(" " * col_offset)

174

175

def untokenize(self, iterable):

176

for t in iterable:

177

if len(t) == 2:

178

self.compat(t, iterable)

179

break

180

tok_type, token, start, end, line = t

181

self.add_whitespace(start)

182

self.tokens.append(token)

183

self.prev_row, self.prev_col = end

184

if tok_type in (NEWLINE, NL):

185

self.prev_row += 1

186

self.prev_col = 0

187

return "".join(self.tokens)

188

189

def compat(self, token, iterable):

190

startline = False

191

indents = []

192

toks_append = self.tokens.append

193

toknum, tokval = token

194

if toknum in (NAME, NUMBER):

195

tokval += ' '

196

if toknum in (NEWLINE, NL):

197

startline = True

198

for tok in iterable:

199

toknum, tokval = tok[:2]

200

201

if toknum in (NAME, NUMBER):

tokval += ' '

if toknum == INDENT:

indents.append(tokval)

206

continue

207

elif toknum == DEDENT:

208

indents.pop()

209

continue

210

elif toknum in (NEWLINE, NL):

211

startline = True

212

elif startline and indents:

213

toks_append(indents[-1])

214

startline = False

215

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

216

217

def untokenize(iterable):

218

"""Transform tokens back into Python source code.

219

220

Each element returned by the iterable must be a token sequence

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

221

with at least two elements, a token number and token value. If

222

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

223

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

224

Round-trip invariant for full input:

225

Untokenized source will match input source exactly

226

227

Round-trip invariant for limited intput:

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

228

# Output text will tokenize the back to the input

229

t1 = [tok[:2] for tok in generate_tokens(f.readline)]

230

newcode = untokenize(t1)

Georg Brandl

a18af4e

2007-04-21 15:47:16 +0000

[diff] [blame^]

231

readline = iter(newcode.splitlines(1)).__next__

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

232

t2 = [tok[:2] for tokin generate_tokens(readline)]

233

assert t1 == t2

234

"""

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

235

ut = Untokenizer()

236

return ut.untokenize(iterable)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

237

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

238

def generate_tokens(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

239

"""

240

The generate_tokens() generator requires one argment, readline, which

241

must be a callable object which provides the same interface as the

242

readline() method of built-in file objects. Each call to the function

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

243

should return one line of input as a string. Alternately, readline

244

can be a callable function terminating with StopIteration:

Georg Brandl

a18af4e

2007-04-21 15:47:16 +0000

[diff] [blame^]

245

readline = open(myfile).__next__ # Example of alternate readline

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

246

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

247

The generator produces 5-tuples with these members: the token type; the

248

token string; a 2-tuple (srow, scol) of ints specifying the row and

249

column where the token begins in the source; a 2-tuple (erow, ecol) of

250

ints specifying the row and column where the token ends in the source;

251

and the line on which the token was found. The line passed is the

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

252

logical line; continuation lines are included.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

253

"""

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

254

lnum = parenlev = continued = 0

Fred Drake

79e75e1

2001-07-20 19:05:50 +0000

[diff] [blame]

255

namechars, numchars = string.ascii_letters + '_', '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

256

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

257

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

258

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

259

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

260

while 1: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

261

try:

262

line = readline()

263

except StopIteration:

264

line = ''

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

265

lnum = lnum + 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

266

pos, max = 0, len(line)

267

268

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

269

if not line:

270

raise TokenError, ("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

271

endmatch = endprog.match(line)

272

if endmatch:

273

pos = end = endmatch.end(0)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

274

yield (STRING, contstr + line[:end],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

275

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

276

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

277

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

278

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

279

yield (ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

280

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

281

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

282

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

283

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

284

else:

285

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

286

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

287

continue

288

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

289

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

290

if not line: break

291

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

292

while pos < max: # measure leading whitespace

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

293

if line[pos] == ' ': column = column + 1

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

294

elif line[pos] == '\t': column = (column/tabsize + 1)*tabsize

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

295

elif line[pos] == '\f': column = 0

296

else: break

297

pos = pos + 1

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

298

if pos == max: break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

299

300

if line[pos] in '#\r\n': # skip comments or blank lines

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

301

if line[pos] == '#':

302

comment_token = line[pos:].rstrip('\r\n')

303

nl_pos = pos + len(comment_token)

304

yield (COMMENT, comment_token,

305

(lnum, pos), (lnum, pos + len(comment_token)), line)

306

yield (NL, line[nl_pos:],

307

(lnum, nl_pos), (lnum, len(line)), line)

308

else:

309

yield ((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

310

(lnum, pos), (lnum, len(line)), line)

311

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

312

313

if column > indents[-1]: # count indents or dedents

314

indents.append(column)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

315

yield (INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

316

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

317

if column not in indents:

318

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame]

319

"unindent does not match any outer indentation level",

320

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

321

indents = indents[:-1]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

322

yield (DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

323

324

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

325

if not line:

326

raise TokenError, ("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

327

continued = 0

328

329

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

330

pseudomatch = pseudoprog.match(line, pos)

331

if pseudomatch: # scan for tokens

332

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

333

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

334

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

335

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

336

if (initial in numchars or # ordinary number

337

(initial == '.' and token != '.' and token != '...')):

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

338

yield (NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

339

elif initial in '\r\n':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

340

yield (NL if parenlev > 0 else NEWLINE,

341

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

342

elif initial == '#':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

343

assert not token.endswith("\n")

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

344

yield (COMMENT, token, spos, epos, line)

Guido van Rossum

9d6897a

2002-08-24 06:54:19 +0000

[diff] [blame]

345

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

346

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

347

endmatch = endprog.match(line, pos)

348

if endmatch: # all on one line

349

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

350

token = line[start:pos]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

351

yield (STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

352

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

353

strstart = (lnum, start) # multiple lines

354

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

355

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

356

break

Guido van Rossum

9d6897a

2002-08-24 06:54:19 +0000

[diff] [blame]

357

elif initial in single_quoted or \

358

token[:2] in single_quoted or \

359

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

360

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

361

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

362

endprog = (endprogs[initial] or endprogs[token[1]] or

363

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

364

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

365

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

366

break

367

else: # ordinary string

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

368

yield (STRING, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

369

elif initial in namechars: # ordinary name

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

370

yield (NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

371

elif initial == '\\': # continued stmt

372

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

373

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

374

if initial in '([{': parenlev = parenlev + 1

375

elif initial in ')]}': parenlev = parenlev - 1

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

376

yield (OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

377

else:

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

378

yield (ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

379

(lnum, pos), (lnum, pos+1), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

380

pos = pos + 1

381

382

for indent in indents[1:]: # pop remaining indent levels

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

383

yield (DEDENT, '', (lnum, 0), (lnum, 0), '')

384

yield (ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

385

386

if __name__ == '__main__': # testing

387

import sys

Guido van Rossum