Blame - Lib/tokenize.py - platform/external/python/cpython2

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

3

generate_tokens(readline) is a generator that breaks a stream of

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

4

text into Python tokens. It accepts a readline-like method which is called

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

5

repeatedly to get the next line of input (or "" for EOF). It generates

6

5-tuples with these members:

7

8

the token type (see token.py)

9

the token (a string)

10

the starting (row, column) indices of the token (a 2-tuple of ints)

11

the ending (row, column) indices of the token (a 2-tuple of ints)

12

the original line (string)

13

14

It is designed to match the working of the Python tokenizer exactly, except

15

that it produces COMMENT tokens for comments and gives type OP for all

operators

Older entry points

tokenize_loop(readline, tokeneater)

20

tokenize(readline, tokeneater=printtoken)

21

are the same, except instead of generating tokens, tokeneater is a callback

22

function to which the 5 fields described above are passed as 5 arguments,

23

each time a new token is found."""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

24

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

25

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Ka-Ping Yee

4f64c13

2001-03-01 17:11:17 +0000

[diff] [blame]

26

__credits__ = \

Raymond Hettinger

8a7e76b

2006-12-02 02:00:39 +0000

[diff] [blame]

27

'GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, Skip Montanaro, Raymond Hettinger'

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

28

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

29

import string, re

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

30

from token import *

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

31

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

32

import token

Raymond Hettinger

78a7aee

2002-11-05 06:06:02 +0000

[diff] [blame]

33

__all__ = [x for x in dir(token) if x[0] != '_'] + ["COMMENT", "tokenize",

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

34

"generate_tokens", "NL", "untokenize"]

Neal Norwitz

e98d16e

2002-03-26 16:20:26 +0000

[diff] [blame]

35

del x

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

36

del token

37

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

38

COMMENT = N_TOKENS

39

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

40

NL = N_TOKENS + 1

41

tok_name[NL] = 'NL'

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

42

N_TOKENS += 2

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

43

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

44

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

45

def any(*choices): return group(*choices) + '*'

46

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

47

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

48

Whitespace = r'[ \f\t]*'

49

Comment = r'#[^\r\n]*'

50

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

51

Name = r'[a-zA-Z_]\w*'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

52

Georg Brandl

14404b6

2008-01-19 19:27:05 +0000

[diff] [blame]

53

Hexnumber = r'0[xX][\da-fA-F]+[lL]?'

Eric Smith

0aed07a

2008-03-17 19:43:40 +0000

[diff] [blame]

54

Octnumber = r'(0[oO][0-7]+)|(0[0-7]*)[lL]?'

55

Binnumber = r'0[bB][01]+[lL]?'

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

56

Decnumber = r'[1-9]\d*[lL]?'

Eric Smith

0aed07a

2008-03-17 19:43:40 +0000

[diff] [blame]

57

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

58

Exponent = r'[eE][-+]?\d+'

59

Pointfloat = group(r'\d+\.\d*', r'\.\d+') + maybe(Exponent)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

60

Expfloat = r'\d+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

61

Floatnumber = group(Pointfloat, Expfloat)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

62

Imagnumber = group(r'\d+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

63

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

64

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

65

# Tail end of ' string.

66

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

67

# Tail end of " string.

68

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

69

# Tail end of ''' string.

70

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

71

# Tail end of """ string.

72

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

73

Triple = group("[uU]?[rR]?'''", '[uU]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

74

# Single-line ' or " string.

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

75

String = group(r"[uU]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

76

r'[uU]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

77

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

78

# Because of leftmost-then-longest match semantics, be sure to put the

79

# longest operators first (e.g., if = came before ==, == would get

80

# recognized as two instances of =).

81

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"<>", r"!=",

Guido van Rossum

96204f5

2001-08-08 05:04:07 +0000

[diff] [blame]

82

r"//=?",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

83

r"[+\-*/%&|^=<>]=?",

84

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

85

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

86

Bracket = '[][(){}]'

Anthony Baxter

c2a5a63

2004-08-02 06:10:11 +0000

[diff] [blame]

87

Special = group(r'\r?\n', r'[:;.,`@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

88

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

89

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

90

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

91

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

92

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

93

# First (or only) line of ' or " string.

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

94

ContStr = group(r"[uU]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

95

group("'", r'\\\r?\n'),

96

r'[uU]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

97

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

98

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

99

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

100

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

101

tokenprog, pseudoprog, single3prog, double3prog = map(

102

re.compile, (Token, PseudoToken, Single3, Double3))

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

103

endprogs = {"'": re.compile(Single), '"': re.compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

104

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

105

"r'''": single3prog, 'r"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

106

"u'''": single3prog, 'u"""': double3prog,

107

"ur'''": single3prog, 'ur"""': double3prog,

108

"R'''": single3prog, 'R"""': double3prog,

109

"U'''": single3prog, 'U"""': double3prog,

110

"uR'''": single3prog, 'uR"""': double3prog,

111

"Ur'''": single3prog, 'Ur"""': double3prog,

112

"UR'''": single3prog, 'UR"""': double3prog,

Christian Heimes

288e89a

2008-01-18 18:24:07 +0000

[diff] [blame]

113

"b'''": single3prog, 'b"""': double3prog,

114

"br'''": single3prog, 'br"""': double3prog,

115

"B'''": single3prog, 'B"""': double3prog,

116

"bR'''": single3prog, 'bR"""': double3prog,

117

"Br'''": single3prog, 'Br"""': double3prog,

118

"BR'''": single3prog, 'BR"""': double3prog,

119

'r': None, 'R': None, 'u': None, 'U': None,

120

'b': None, 'B': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

121

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

122

triple_quoted = {}

123

for t in ("'''", '"""',

124

"r'''", 'r"""', "R'''", 'R"""',

125

"u'''", 'u"""', "U'''", 'U"""',

126

"ur'''", 'ur"""', "Ur'''", 'Ur"""',

Christian Heimes

288e89a

2008-01-18 18:24:07 +0000

[diff] [blame]

127

"uR'''", 'uR"""', "UR'''", 'UR"""',

128

"b'''", 'b"""', "B'''", 'B"""',

129

"br'''", 'br"""', "Br'''", 'Br"""',

130

"bR'''", 'bR"""', "BR'''", 'BR"""'):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

135

"u'", 'u"', "U'", 'U"',

136

"ur'", 'ur"', "Ur'", 'Ur"',

Christian Heimes

288e89a

2008-01-18 18:24:07 +0000

[diff] [blame]

137

"uR'", 'uR"', "UR'", 'UR"',

138

"b'", 'b"', "B'", 'B"',

139

"br'", 'br"', "Br'", 'Br"',

140

"bR'", 'bR"', "BR'", 'BR"' ):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

141

single_quoted[t] = t

142

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

143

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

144

Ka-Ping Yee

2001-03-23 05:22:49 +0000

[diff] [blame]

145

class TokenError(Exception): pass

146

147

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

148

Brett Cannon

50bb7e1

2008-08-02 03:15:20 +0000

[diff] [blame^]

149

def printtoken(type, token, srow_scol, erow_ecol, line): # for testing

150

srow, scol = srow_scol

151

erow, ecol = erow_ecol

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

152

print "%d,%d-%d,%d:\t%s\t%s" % \

153

(srow, scol, erow, ecol, tok_name[type], repr(token))

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

154

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

155

def tokenize(readline, tokeneater=printtoken):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

156

"""

157

The tokenize() function accepts two parameters: one representing the

158

input stream, and one providing an output mechanism for tokenize().

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

159

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

160

The first parameter, readline, must be a callable object which provides

161

the same interface as the readline() method of built-in file objects.

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

162

Each call to the function should return one line of input as a string.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

163

164

The second parameter, tokeneater, must also be a callable object. It is

165

called once for each token, with five arguments, corresponding to the

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

166

tuples generated by generate_tokens().

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

167

"""

Ka-Ping Yee

2001-03-23 05:22:49 +0000

[diff] [blame]

168

try:

169

tokenize_loop(readline, tokeneater)

170

except StopTokenizing:

171

pass

172

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

173

# backwards compatible interface

Ka-Ping Yee

2001-03-23 05:22:49 +0000

[diff] [blame]

174

def tokenize_loop(readline, tokeneater):

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

175

for token_info in generate_tokens(readline):

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

176

tokeneater(*token_info)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

177

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

def add_whitespace(self, start):

186

row, col = start

Jeremy Hylton

39c532c

2006-08-23 21:26:46 +0000

[diff] [blame]

187

assert row <= self.prev_row

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

188

col_offset = col - self.prev_col

189

if col_offset:

190

self.tokens.append(" " * col_offset)

191

192

def untokenize(self, iterable):

193

for t in iterable:

194

if len(t) == 2:

195

self.compat(t, iterable)

196

break

197

tok_type, token, start, end, line = t

198

self.add_whitespace(start)

199

self.tokens.append(token)

200

self.prev_row, self.prev_col = end

201

if tok_type in (NEWLINE, NL):

202

self.prev_row += 1

203

self.prev_col = 0

204

return "".join(self.tokens)

205

206

def compat(self, token, iterable):

207

startline = False

208

indents = []

209

toks_append = self.tokens.append

210

toknum, tokval = token

211

if toknum in (NAME, NUMBER):

212

tokval += ' '

213

if toknum in (NEWLINE, NL):

214

startline = True

Amaury Forgeot d'Arc

da0c025

2008-03-27 23:23:54 +0000

[diff] [blame]

215

prevstring = False

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

216

for tok in iterable:

217

toknum, tokval = tok[:2]

218

219

if toknum in (NAME, NUMBER):

220

tokval += ' '

221

Amaury Forgeot d'Arc

da0c025

2008-03-27 23:23:54 +0000

[diff] [blame]

222

# Insert a space between two consecutive strings

223

if toknum == STRING:

224

if prevstring:

225

tokval = ' ' + tokval

prevstring = True

else:

prevstring = False

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

230

if toknum == INDENT:

231

indents.append(tokval)

232

continue

233

elif toknum == DEDENT:

234

indents.pop()

235

continue

236

elif toknum in (NEWLINE, NL):

237

startline = True

238

elif startline and indents:

239

toks_append(indents[-1])

240

startline = False

241

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

242

243

def untokenize(iterable):

244

"""Transform tokens back into Python source code.

245

246

Each element returned by the iterable must be a token sequence

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

247

with at least two elements, a token number and token value. If

248

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

249

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

250

Round-trip invariant for full input:

251

Untokenized source will match input source exactly

252

253

Round-trip invariant for limited intput:

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

254

# Output text will tokenize the back to the input

255

t1 = [tok[:2] for tok in generate_tokens(f.readline)]

256

newcode = untokenize(t1)

257

readline = iter(newcode.splitlines(1)).next

Amaury Forgeot d'Arc

da0c025

2008-03-27 23:23:54 +0000

[diff] [blame]

258

t2 = [tok[:2] for tok in generate_tokens(readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

259

assert t1 == t2

260

"""

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

261

ut = Untokenizer()

262

return ut.untokenize(iterable)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

263

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

264

def generate_tokens(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

265

"""

266

The generate_tokens() generator requires one argment, readline, which

267

must be a callable object which provides the same interface as the

268

readline() method of built-in file objects. Each call to the function

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

269

should return one line of input as a string. Alternately, readline

270

can be a callable function terminating with StopIteration:

271

readline = open(myfile).next # Example of alternate readline

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

272

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

273

The generator produces 5-tuples with these members: the token type; the

274

token string; a 2-tuple (srow, scol) of ints specifying the row and

275

column where the token begins in the source; a 2-tuple (erow, ecol) of

276

ints specifying the row and column where the token ends in the source;

277

and the line on which the token was found. The line passed is the

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

278

logical line; continuation lines are included.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

279

"""

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

280

lnum = parenlev = continued = 0

Fred Drake

79e75e1

2001-07-20 19:05:50 +0000

[diff] [blame]

281

namechars, numchars = string.ascii_letters + '_', '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

282

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

283

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

284

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

285

Benjamin Peterson

8456f64

2008-06-05 23:02:33 +0000

[diff] [blame]

286

while 1: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

287

try:

288

line = readline()

289

except StopIteration:

290

line = ''

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

291

lnum = lnum + 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

292

pos, max = 0, len(line)

293

294

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

295

if not line:

296

raise TokenError, ("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

297

endmatch = endprog.match(line)

298

if endmatch:

299

pos = end = endmatch.end(0)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

300

yield (STRING, contstr + line[:end],

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

301

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

302

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

303

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

304

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

305

yield (ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

306

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

307

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

308

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

309

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

310

else:

311

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

312

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

313

continue

314

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

315

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

316

if not line: break

317

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

318

while pos < max: # measure leading whitespace

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

319

if line[pos] == ' ': column = column + 1

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

320

elif line[pos] == '\t': column = (column/tabsize + 1)*tabsize

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

321

elif line[pos] == '\f': column = 0

322

else: break

323

pos = pos + 1

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

324

if pos == max: break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

325

326

if line[pos] in '#\r\n': # skip comments or blank lines

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

327

if line[pos] == '#':

328

comment_token = line[pos:].rstrip('\r\n')

329

nl_pos = pos + len(comment_token)

330

yield (COMMENT, comment_token,

331

(lnum, pos), (lnum, pos + len(comment_token)), line)

332

yield (NL, line[nl_pos:],

333

(lnum, nl_pos), (lnum, len(line)), line)

334

else:

335

yield ((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

336

(lnum, pos), (lnum, len(line)), line)

337

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

338

339

if column > indents[-1]: # count indents or dedents

340

indents.append(column)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

341

yield (INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

342

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

343

if column not in indents:

344

raise IndentationError(

Georg Brandl

2463f8f

2006-08-14 21:34:08 +0000

[diff] [blame]

345

"unindent does not match any outer indentation level",

346

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

347

indents = indents[:-1]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

348

yield (DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

349

350

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

351

if not line:

352

raise TokenError, ("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

353

continued = 0

354

355

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

356

pseudomatch = pseudoprog.match(line, pos)

357

if pseudomatch: # scan for tokens

358

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

359

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

360

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

361

Ka-Ping Yee

2001-03-23 05:22:49 +0000

[diff] [blame]

362

if initial in numchars or \

363

(initial == '.' and token != '.'): # ordinary number

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

364

yield (NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

365

elif initial in '\r\n':

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

366

yield (NL if parenlev > 0 else NEWLINE,

367

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

368

elif initial == '#':

Jeremy Hylton

2006-08-23 21:14:03 +0000

[diff] [blame]

369

assert not token.endswith("\n")

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

370

yield (COMMENT, token, spos, epos, line)

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

371

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

372

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

373

endmatch = endprog.match(line, pos)

374

if endmatch: # all on one line

375

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

376

token = line[start:pos]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

377

yield (STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

378

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

379

strstart = (lnum, start) # multiple lines

380

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

381

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

382

break

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

383

elif initial in single_quoted or \

384

token[:2] in single_quoted or \

385

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

386

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

387

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

388

endprog = (endprogs[initial] or endprogs[token[1]] or

389

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

390

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

391

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

392

break

393

else: # ordinary string

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

394

yield (STRING, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

395

elif initial in namechars: # ordinary name

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

396

yield (NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

397

elif initial == '\\': # continued stmt

398

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

399

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

400

if initial in '([{': parenlev = parenlev + 1

401

elif initial in ')]}': parenlev = parenlev - 1

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

402

yield (OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

403

else:

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

404

yield (ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

405

(lnum, pos), (lnum, pos+1), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

406

pos = pos + 1

407

408

for indent in indents[1:]: # pop remaining indent levels

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

409

yield (DEDENT, '', (lnum, 0), (lnum, 0), '')

410

yield (ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

411

412

if __name__ == '__main__': # testing

413

import sys

Guido van Rossum