Blame - Lib/tokenize.py - platform/external/python/cpython3

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

3

generate_tokens(readline) is a generator that breaks a stream of

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

4

text into Python tokens. It accepts a readline-like method which is called

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

5

repeatedly to get the next line of input (or "" for EOF). It generates

6

5-tuples with these members:

7

8

the token type (see token.py)

9

the token (a string)

10

the starting (row, column) indices of the token (a 2-tuple of ints)

11

the ending (row, column) indices of the token (a 2-tuple of ints)

12

the original line (string)

13

14

It is designed to match the working of the Python tokenizer exactly, except

15

that it produces COMMENT tokens for comments and gives type OP for all

operators

Older entry points

tokenize_loop(readline, tokeneater)

20

tokenize(readline, tokeneater=printtoken)

21

are the same, except instead of generating tokens, tokeneater is a callback

22

function to which the 5 fields described above are passed as 5 arguments,

23

each time a new token is found."""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

24

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

25

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Ka-Ping Yee

4f64c13

2001-03-01 17:11:17 +0000

[diff] [blame]

26

__credits__ = \

27

'GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, Skip Montanaro'

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

28

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

29

import string, re

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

30

from token import *

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

31

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

32

import token

Raymond Hettinger

78a7aee

2002-11-05 06:06:02 +0000

[diff] [blame]

33

__all__ = [x for x in dir(token) if x[0] != '_'] + ["COMMENT", "tokenize",

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

34

"generate_tokens", "NL", "untokenize"]

Neal Norwitz

e98d16e

2002-03-26 16:20:26 +0000

[diff] [blame]

35

del x

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

36

del token

37

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

38

COMMENT = N_TOKENS

39

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

40

NL = N_TOKENS + 1

41

tok_name[NL] = 'NL'

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

42

N_TOKENS += 2

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

43

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

44

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

45

def any(*choices): return group(*choices) + '*'

46

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

47

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

48

Whitespace = r'[ \f\t]*'

49

Comment = r'#[^\r\n]*'

50

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

51

Name = r'[a-zA-Z_]\w*'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

52

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

53

Hexnumber = r'0[xX][\da-fA-F]*[lL]?'

54

Octnumber = r'0[0-7]*[lL]?'

55

Decnumber = r'[1-9]\d*[lL]?'

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

56

Intnumber = group(Hexnumber, Octnumber, Decnumber)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

57

Exponent = r'[eE][-+]?\d+'

58

Pointfloat = group(r'\d+\.\d*', r'\.\d+') + maybe(Exponent)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

59

Expfloat = r'\d+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

60

Floatnumber = group(Pointfloat, Expfloat)

Tim Peters

d507dab

2001-08-30 20:51:59 +0000

[diff] [blame]

61

Imagnumber = group(r'\d+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

62

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

63

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

64

# Tail end of ' string.

65

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

66

# Tail end of " string.

67

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

68

# Tail end of ''' string.

69

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

70

# Tail end of """ string.

71

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

72

Triple = group("[uU]?[rR]?'''", '[uU]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

73

# Single-line ' or " string.

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

74

String = group(r"[uU]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

75

r'[uU]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

76

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

77

# Because of leftmost-then-longest match semantics, be sure to put the

78

# longest operators first (e.g., if = came before ==, == would get

79

# recognized as two instances of =).

80

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"<>", r"!=",

Guido van Rossum

96204f5

2001-08-08 05:04:07 +0000

[diff] [blame]

81

r"//=?",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

82

r"[+\-*/%&|^=<>]=?",

83

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

84

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

85

Bracket = '[][(){}]'

Anthony Baxter

c2a5a63

2004-08-02 06:10:11 +0000

[diff] [blame]

86

Special = group(r'\r?\n', r'[:;.,`@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

87

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

88

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

89

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

90

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

91

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

92

# First (or only) line of ' or " string.

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

93

ContStr = group(r"[uU]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

94

group("'", r'\\\r?\n'),

95

r'[uU]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

96

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

97

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

98

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

99

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

100

tokenprog, pseudoprog, single3prog, double3prog = map(

101

re.compile, (Token, PseudoToken, Single3, Double3))

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

102

endprogs = {"'": re.compile(Single), '"': re.compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

103

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

104

"r'''": single3prog, 'r"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

105

"u'''": single3prog, 'u"""': double3prog,

106

"ur'''": single3prog, 'ur"""': double3prog,

107

"R'''": single3prog, 'R"""': double3prog,

108

"U'''": single3prog, 'U"""': double3prog,

109

"uR'''": single3prog, 'uR"""': double3prog,

110

"Ur'''": single3prog, 'Ur"""': double3prog,

111

"UR'''": single3prog, 'UR"""': double3prog,

112

'r': None, 'R': None, 'u': None, 'U': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

113

Guido van Rossum

9d6897a

2002-08-24 06:54:19 +0000

[diff] [blame]

114

triple_quoted = {}

115

for t in ("'''", '"""',

116

"r'''", 'r"""', "R'''", 'R"""',

117

"u'''", 'u"""', "U'''", 'U"""',

118

"ur'''", 'ur"""', "Ur'''", 'Ur"""',

119

"uR'''", 'uR"""', "UR'''", 'UR"""'):

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

124

"u'", 'u"', "U'", 'U"',

125

"ur'", 'ur"', "Ur'", 'Ur"',

126

"uR'", 'uR"', "UR'", 'UR"' ):

127

single_quoted[t] = t

128

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

129

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

130

Ka-Ping Yee

2001-03-23 05:22:49 +0000

[diff] [blame]

131

class TokenError(Exception): pass

132

133

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

134

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

135

def printtoken(type, token, (srow, scol), (erow, ecol), line): # for testing

136

print "%d,%d-%d,%d:\t%s\t%s" % \

137

(srow, scol, erow, ecol, tok_name[type], repr(token))

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

138

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

139

def tokenize(readline, tokeneater=printtoken):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

140

"""

141

The tokenize() function accepts two parameters: one representing the

142

input stream, and one providing an output mechanism for tokenize().

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

143

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

144

The first parameter, readline, must be a callable object which provides

145

the same interface as the readline() method of built-in file objects.

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

146

Each call to the function should return one line of input as a string.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

147

148

The second parameter, tokeneater, must also be a callable object. It is

149

called once for each token, with five arguments, corresponding to the

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

150

tuples generated by generate_tokens().

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

151

"""

Ka-Ping Yee

2001-03-23 05:22:49 +0000

[diff] [blame]

152

try:

153

tokenize_loop(readline, tokeneater)

154

except StopTokenizing:

155

pass

156

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

157

# backwards compatible interface

Ka-Ping Yee

2001-03-23 05:22:49 +0000

[diff] [blame]

158

def tokenize_loop(readline, tokeneater):

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

159

for token_info in generate_tokens(readline):

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

160

tokeneater(*token_info)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

161

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

162

163

def untokenize(iterable):

164

"""Transform tokens back into Python source code.

165

166

Each element returned by the iterable must be a token sequence

167

with at least two elements, a token number and token value.

168

169

Round-trip invariant:

170

# Output text will tokenize the back to the input

171

t1 = [tok[:2] for tok in generate_tokens(f.readline)]

172

newcode = untokenize(t1)

173

readline = iter(newcode.splitlines(1)).next

174

t2 = [tok[:2] for tokin generate_tokens(readline)]

assert t1 == t2

"""

startline = False

indents = []

toks = []

toks_append = toks.append

182

for tok in iterable:

183

toknum, tokval = tok[:2]

184

Thomas Wouters

49fd7fa

2006-04-21 10:40:58 +0000

[diff] [blame]

185

if toknum in (NAME, NUMBER):

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

tokval += ' '

if toknum == INDENT:

indents.append(tokval)

190

continue

191

elif toknum == DEDENT:

192

indents.pop()

193

continue

194

elif toknum in (NEWLINE, COMMENT, NL):

195

startline = True

196

elif startline and indents:

197

toks_append(indents[-1])

startline = False

toks_append(tokval)

return ''.join(toks)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

203

def generate_tokens(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

204

"""

205

The generate_tokens() generator requires one argment, readline, which

206

must be a callable object which provides the same interface as the

207

readline() method of built-in file objects. Each call to the function

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

208

should return one line of input as a string. Alternately, readline

209

can be a callable function terminating with StopIteration:

210

readline = open(myfile).next # Example of alternate readline

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

211

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

212

The generator produces 5-tuples with these members: the token type; the

213

token string; a 2-tuple (srow, scol) of ints specifying the row and

214

column where the token begins in the source; a 2-tuple (erow, ecol) of

215

ints specifying the row and column where the token ends in the source;

216

and the line on which the token was found. The line passed is the

Tim Peters

2002-05-23 15:15:30 +0000

[diff] [blame]

217

logical line; continuation lines are included.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

218

"""

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

219

lnum = parenlev = continued = 0

Fred Drake

79e75e1

2001-07-20 19:05:50 +0000

[diff] [blame]

220

namechars, numchars = string.ascii_letters + '_', '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

221

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

222

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

223

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

224

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

225

while 1: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

226

try:

227

line = readline()

228

except StopIteration:

229

line = ''

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

230

lnum = lnum + 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

231

pos, max = 0, len(line)

232

233

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

234

if not line:

235

raise TokenError, ("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

236

endmatch = endprog.match(line)

237

if endmatch:

238

pos = end = endmatch.end(0)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

239

yield (STRING, contstr + line[:end],

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

240

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

241

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

242

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

243

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

244

yield (ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

245

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

246

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

247

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

248

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

249

else:

250

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

251

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

252

continue

253

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

254

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

255

if not line: break

256

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

257

while pos < max: # measure leading whitespace

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

258

if line[pos] == ' ': column = column + 1

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

259

elif line[pos] == '\t': column = (column/tabsize + 1)*tabsize

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

260

elif line[pos] == '\f': column = 0

261

else: break

262

pos = pos + 1

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

263

if pos == max: break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

264

265

if line[pos] in '#\r\n': # skip comments or blank lines

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

266

yield ((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

267

(lnum, pos), (lnum, len(line)), line)

268

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

269

270

if column > indents[-1]: # count indents or dedents

271

indents.append(column)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

272

yield (INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

273

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

274

if column not in indents:

275

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame^]

276

"unindent does not match any outer indentation level",

277

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

278

indents = indents[:-1]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

279

yield (DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

280

281

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

282

if not line:

283

raise TokenError, ("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

284

continued = 0

285

286

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

287

pseudomatch = pseudoprog.match(line, pos)

288

if pseudomatch: # scan for tokens

289

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

290

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

291

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

292

Ka-Ping Yee

2001-03-23 05:22:49 +0000

[diff] [blame]

293

if initial in numchars or \

294

(initial == '.' and token != '.'): # ordinary number

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

295

yield (NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

296

elif initial in '\r\n':

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

297

yield (parenlev > 0 and NL or NEWLINE,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

298

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

299

elif initial == '#':

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

300

yield (COMMENT, token, spos, epos, line)

Guido van Rossum

9d6897a

2002-08-24 06:54:19 +0000

[diff] [blame]

301

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

302

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

303

endmatch = endprog.match(line, pos)

304

if endmatch: # all on one line

305

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

306

token = line[start:pos]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

307

yield (STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

308

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

309

strstart = (lnum, start) # multiple lines

310

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

311

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

312

break

Guido van Rossum

9d6897a

2002-08-24 06:54:19 +0000

[diff] [blame]

313

elif initial in single_quoted or \

314

token[:2] in single_quoted or \

315

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

316

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

317

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

318

endprog = (endprogs[initial] or endprogs[token[1]] or

319

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

320

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

321

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

322

break

323

else: # ordinary string

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

324

yield (STRING, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

325

elif initial in namechars: # ordinary name

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

326

yield (NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

327

elif initial == '\\': # continued stmt

328

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

329

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

330

if initial in '([{': parenlev = parenlev + 1

331

elif initial in ')]}': parenlev = parenlev - 1

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

332

yield (OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

333

else:

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

334

yield (ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

335

(lnum, pos), (lnum, pos+1), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

336

pos = pos + 1

337

338

for indent in indents[1:]: # pop remaining indent levels

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

339

yield (DEDENT, '', (lnum, 0), (lnum, 0), '')

340

yield (ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

341

342

if __name__ == '__main__': # testing

343

import sys

Guido van Rossum