Blame - Lib/tokenize.py - platform/external/python/cpython3

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

3

tokenize(readline) is a generator that breaks a stream of

4

bytes into Python tokens. It decodes the bytes according to

5

PEP-0263 for determining source file encoding.

6

7

It accepts a readline-like method which is called

8

repeatedly to get the next line of input (or b"" for EOF). It generates

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

9

5-tuples with these members:

10

11

the token type (see token.py)

12

the token (a string)

13

the starting (row, column) indices of the token (a 2-tuple of ints)

14

the ending (row, column) indices of the token (a 2-tuple of ints)

15

the original line (string)

16

17

It is designed to match the working of the Python tokenizer exactly, except

18

that it produces COMMENT tokens for comments and gives type OP for all

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

19

operators. Aditionally, all token lists start with an ENCODING token

20

which tells you which encoding was used to decode the bytes stream."""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

21

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

22

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

23

__credits__ = ('GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, '

24

'Skip Montanaro, Raymond Hettinger, Trent Nelson, '

25

'Michael Foord')

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

26

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

27

import re, string, sys

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

28

from token import *

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

29

from codecs import lookup, BOM_UTF8

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

30

from itertools import chain, repeat

31

cookie_re = re.compile("coding[:=]\s*([-\w.]+)")

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

32

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

33

import token

Raymond Hettinger

78a7aee

2002-11-05 06:06:02 +0000

[diff] [blame]

34

__all__ = [x for x in dir(token) if x[0] != '_'] + ["COMMENT", "tokenize",

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

35

"detect_encoding", "NL", "untokenize", "ENCODING"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

36

del token

37

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

38

COMMENT = N_TOKENS

39

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

40

NL = N_TOKENS + 1

41

tok_name[NL] = 'NL'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

42

ENCODING = N_TOKENS + 2

43

tok_name[ENCODING] = 'ENCODING'

44

N_TOKENS += 3

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

45

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

46

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

47

def any(*choices): return group(*choices) + '*'

48

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

49

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

50

# Note: we use unicode matching for names ("\w") but ascii matching for

51

# number literals.

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

52

Whitespace = r'[ \f\t]*'

53

Comment = r'#[^\r\n]*'

54

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

55

Name = r'[a-zA-Z_]\w*'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

56

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

57

Hexnumber = r'0[xX][0-9a-fA-F]+'

Georg Brandl

fceab5a

2008-01-19 20:08:23 +0000

[diff] [blame]

58

Binnumber = r'0[bB][01]+'

59

Octnumber = r'0[oO][0-7]+'

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

60

Decnumber = r'(?:0+|[1-9][0-9]*)'

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame]

61

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

62

Exponent = r'[eE][-+]?[0-9]+'

63

Pointfloat = group(r'[0-9]+\.[0-9]*', r'\.[0-9]+') + maybe(Exponent)

64

Expfloat = r'[0-9]+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

65

Floatnumber = group(Pointfloat, Expfloat)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

66

Imagnumber = group(r'[0-9]+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

67

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

68

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

69

# Tail end of ' string.

70

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

71

# Tail end of " string.

72

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

73

# Tail end of ''' string.

74

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

75

# Tail end of """ string.

76

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

77

Triple = group("[bB]?[rR]?'''", '[bB]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

78

# Single-line ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

79

String = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

80

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

81

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

82

# Because of leftmost-then-longest match semantics, be sure to put the

83

# longest operators first (e.g., if = came before ==, == would get

84

# recognized as two instances of =).

Guido van Rossum

b053cd8

2006-08-24 03:53:23 +0000

[diff] [blame]

85

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"!=",

Neal Norwitz

c150536

2006-12-28 06:47:50 +0000

[diff] [blame]

86

r"//=?", r"->",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

87

r"[+\-*/%&|^=<>]=?",

88

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

89

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

90

Bracket = '[][(){}]'

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

91

Special = group(r'\r?\n', r'\.\.\.', r'[:;.,@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

92

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

93

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

94

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

95

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

96

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

97

# First (or only) line of ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

98

ContStr = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

99

group("'", r'\\\r?\n'),

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

100

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

101

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

102

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

103

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

104

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

105

tokenprog, pseudoprog, single3prog, double3prog = map(

106

re.compile, (Token, PseudoToken, Single3, Double3))

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

107

endprogs = {"'": re.compile(Single), '"': re.compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

108

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

109

"r'''": single3prog, 'r"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

110

"b'''": single3prog, 'b"""': double3prog,

111

"br'''": single3prog, 'br"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

112

"R'''": single3prog, 'R"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

113

"B'''": single3prog, 'B"""': double3prog,

114

"bR'''": single3prog, 'bR"""': double3prog,

115

"Br'''": single3prog, 'Br"""': double3prog,

116

"BR'''": single3prog, 'BR"""': double3prog,

117

'r': None, 'R': None, 'b': None, 'B': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

118

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

119

triple_quoted = {}

120

for t in ("'''", '"""',

121

"r'''", 'r"""', "R'''", 'R"""',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

122

"b'''", 'b"""', "B'''", 'B"""',

123

"br'''", 'br"""', "Br'''", 'Br"""',

124

"bR'''", 'bR"""', "BR'''", 'BR"""'):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

129

"b'", 'b"', "B'", 'B"',

130

"br'", 'br"', "Br'", 'Br"',

131

"bR'", 'bR"', "BR'", 'BR"' ):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

132

single_quoted[t] = t

133

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

134

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

135

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

136

class TokenError(Exception): pass

137

138

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

139

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

140

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

147

self.encoding = None

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

148

149

def add_whitespace(self, start):

150

row, col = start

151

assert row <= self.prev_row

152

col_offset = col - self.prev_col

153

if col_offset:

154

self.tokens.append(" " * col_offset)

155

156

def untokenize(self, iterable):

157

for t in iterable:

158

if len(t) == 2:

159

self.compat(t, iterable)

160

break

161

tok_type, token, start, end, line = t

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

162

if tok_type == ENCODING:

163

self.encoding = token

164

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

165

self.add_whitespace(start)

166

self.tokens.append(token)

167

self.prev_row, self.prev_col = end

168

if tok_type in (NEWLINE, NL):

169

self.prev_row += 1

170

self.prev_col = 0

171

return "".join(self.tokens)

172

173

def compat(self, token, iterable):

174

startline = False

175

indents = []

176

toks_append = self.tokens.append

177

toknum, tokval = token

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

178

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

179

if toknum in (NAME, NUMBER):

180

tokval += ' '

181

if toknum in (NEWLINE, NL):

182

startline = True

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

183

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

184

for tok in iterable:

185

toknum, tokval = tok[:2]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

186

if toknum == ENCODING:

187

self.encoding = tokval

188

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

189

190

if toknum in (NAME, NUMBER):

191

tokval += ' '

192

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

193

# Insert a space between two consecutive strings

194

if toknum == STRING:

195

if prevstring:

196

tokval = ' ' + tokval

prevstring = True

else:

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

201

if toknum == INDENT:

202

indents.append(tokval)

203

continue

204

elif toknum == DEDENT:

205

indents.pop()

206

continue

207

elif toknum in (NEWLINE, NL):

208

startline = True

209

elif startline and indents:

210

toks_append(indents[-1])

211

startline = False

212

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

213

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

214

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

215

def untokenize(iterable):

216

"""Transform tokens back into Python source code.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

217

It returns a bytes object, encoded using the ENCODING

218

token, which is the first token sequence output by tokenize.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

219

220

Each element returned by the iterable must be a token sequence

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

221

with at least two elements, a token number and token value. If

222

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

223

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

224

Round-trip invariant for full input:

225

Untokenized source will match input source exactly

226

227

Round-trip invariant for limited intput:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

228

# Output bytes will tokenize the back to the input

229

t1 = [tok[:2] for tok in tokenize(f.readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

230

newcode = untokenize(t1)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

231

readline = BytesIO(newcode).readline

232

t2 = [tok[:2] for tok in tokenize(readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

233

assert t1 == t2

234

"""

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

235

ut = Untokenizer()

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

236

out = ut.untokenize(iterable)

237

if ut.encoding is not None:

238

out = out.encode(ut.encoding)

239

return out

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

240

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

241

242

def detect_encoding(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

243

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

244

The detect_encoding() function is used to detect the encoding that should

245

be used to decode a Python source file. It requires one argment, readline,

246

in the same way as the tokenize() generator.

247

248

It will call readline a maximum of twice, and return the encoding used

249

(as a string) and a list of any lines (left as bytes) it has read

250

in.

251

252

It detects the encoding from the presence of a utf-8 bom or an encoding

253

cookie as specified in pep-0263. If both a bom and a cookie are present,

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

254

but disagree, a SyntaxError will be raised. If the encoding cookie is an

255

invalid charset, raise a SyntaxError.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

256

257

If no encoding is specified, then the default of 'utf-8' will be returned.

258

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

bom_found = False

encoding = None

def read_or_stop():

try:

return readline()

except StopIteration:

265

return b''

266

267

def find_cookie(line):

268

try:

269

line_string = line.decode('ascii')

270

except UnicodeDecodeError:

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

271

return None

272

273

matches = cookie_re.findall(line_string)

274

if not matches:

275

return None

276

encoding = matches[0]

277

try:

278

codec = lookup(encoding)

279

except LookupError:

280

# This behaviour mimics the Python interpreter

281

raise SyntaxError("unknown encoding: " + encoding)

282

283

if bom_found and codec.name != 'utf-8':

284

# This behaviour mimics the Python interpreter

285

raise SyntaxError('encoding problem: utf-8')

286

return encoding

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

287

288

first = read_or_stop()

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

289

if first.startswith(BOM_UTF8):

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

bom_found = True

first = first[3:]

if not first:

return 'utf-8', []

encoding = find_cookie(first)

296

if encoding:

297

return encoding, [first]

298

299

second = read_or_stop()

300

if not second:

301

return 'utf-8', [first]

302

303

encoding = find_cookie(second)

304

if encoding:

305

return encoding, [first, second]

306

307

return 'utf-8', [first, second]

308

309

310

def tokenize(readline):

311

"""

312

The tokenize() generator requires one argment, readline, which

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

313

must be a callable object which provides the same interface as the

314

readline() method of built-in file objects. Each call to the function

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

315

should return one line of input as bytes. Alternately, readline

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

316

can be a callable function terminating with StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

317

readline = open(myfile, 'rb').__next__ # Example of alternate readline

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

318

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

319

The generator produces 5-tuples with these members: the token type; the

320

token string; a 2-tuple (srow, scol) of ints specifying the row and

321

column where the token begins in the source; a 2-tuple (erow, ecol) of

322

ints specifying the row and column where the token ends in the source;

323

and the line on which the token was found. The line passed is the

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

324

logical line; continuation lines are included.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

325

326

The first token sequence will always be an ENCODING token

327

which tells you which encoding was used to decode the bytes stream.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

328

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

329

encoding, consumed = detect_encoding(readline)

330

def readline_generator():

while True:

try:

yield readline()

except StopIteration:

335

return

336

chained = chain(consumed, readline_generator())

337

return _tokenize(chained.__next__, encoding)

338

339

340

def _tokenize(readline, encoding):

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

341

lnum = parenlev = continued = 0

Fred Drake

79e75e1

2001-07-20 19:05:50 +0000

[diff] [blame]

342

namechars, numchars = string.ascii_letters + '_', '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

343

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

344

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

345

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

346

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

347

if encoding is not None:

348

yield (ENCODING, encoding, (0, 0), (0, 0), '')

Benjamin Peterson

0fe1438

2008-06-05 23:07:42 +0000

[diff] [blame]

349

while True: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

350

try:

351

line = readline()

352

except StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

353

line = b''

354

355

if encoding is not None:

356

line = line.decode(encoding)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

357

lnum = lnum + 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

358

pos, max = 0, len(line)

359

360

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

361

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

362

raise TokenError("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

363

endmatch = endprog.match(line)

364

if endmatch:

365

pos = end = endmatch.end(0)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

366

yield (STRING, contstr + line[:end],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

367

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

368

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

369

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

370

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

371

yield (ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

372

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

373

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

374

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

375

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

376

else:

377

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

378

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

379

continue

380

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

381

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

382

if not line: break

383

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

384

while pos < max: # measure leading whitespace

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

385

if line[pos] == ' ': column = column + 1

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

386

elif line[pos] == '\t': column = (column/tabsize + 1)*tabsize

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

387

elif line[pos] == '\f': column = 0

388

else: break

389

pos = pos + 1

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

390

if pos == max: break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

391

392

if line[pos] in '#\r\n': # skip comments or blank lines

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

393

if line[pos] == '#':

394

comment_token = line[pos:].rstrip('\r\n')

395

nl_pos = pos + len(comment_token)

396

yield (COMMENT, comment_token,

397

(lnum, pos), (lnum, pos + len(comment_token)), line)

398

yield (NL, line[nl_pos:],

399

(lnum, nl_pos), (lnum, len(line)), line)

400

else:

401

yield ((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

402

(lnum, pos), (lnum, len(line)), line)

403

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

404

405

if column > indents[-1]: # count indents or dedents

406

indents.append(column)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

407

yield (INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

408

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

409

if column not in indents:

410

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame]

411

"unindent does not match any outer indentation level",

412

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

413

indents = indents[:-1]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

414

yield (DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

415

416

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

417

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

418

raise TokenError("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

419

continued = 0

420

421

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

422

pseudomatch = pseudoprog.match(line, pos)

423

if pseudomatch: # scan for tokens

424

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

425

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

426

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

427

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

428

if (initial in numchars or # ordinary number

429

(initial == '.' and token != '.' and token != '...')):

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

430

yield (NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

431

elif initial in '\r\n':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

432

yield (NL if parenlev > 0 else NEWLINE,

433

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

434

elif initial == '#':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

435

assert not token.endswith("\n")

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

436

yield (COMMENT, token, spos, epos, line)

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

437

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

438

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

439

endmatch = endprog.match(line, pos)

440

if endmatch: # all on one line

441

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

442

token = line[start:pos]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

443

yield (STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

444

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

445

strstart = (lnum, start) # multiple lines

446

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

447

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

448

break

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

449

elif initial in single_quoted or \

450

token[:2] in single_quoted or \

451

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

452

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

453

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

454

endprog = (endprogs[initial] or endprogs[token[1]] or

455

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

456

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

457

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

458

break

459

else: # ordinary string

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

460

yield (STRING, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

461

elif initial in namechars: # ordinary name

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

462

yield (NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

463

elif initial == '\\': # continued stmt

464

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

465

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

466

if initial in '([{': parenlev = parenlev + 1

467

elif initial in ')]}': parenlev = parenlev - 1

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

468

yield (OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

469

else:

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

470

yield (ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

471

(lnum, pos), (lnum, pos+1), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

472

pos = pos + 1

473

474

for indent in indents[1:]: # pop remaining indent levels

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

475

yield (DEDENT, '', (lnum, 0), (lnum, 0), '')

476

yield (ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

477

Trent Nelson