Blame - Lib/tokenize.py - platform/external/python/cpython2

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

3

tokenize(readline) is a generator that breaks a stream of

4

bytes into Python tokens. It decodes the bytes according to

5

PEP-0263 for determining source file encoding.

6

7

It accepts a readline-like method which is called

8

repeatedly to get the next line of input (or b"" for EOF). It generates

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

9

5-tuples with these members:

10

11

the token type (see token.py)

12

the token (a string)

13

the starting (row, column) indices of the token (a 2-tuple of ints)

14

the ending (row, column) indices of the token (a 2-tuple of ints)

15

the original line (string)

16

17

It is designed to match the working of the Python tokenizer exactly, except

18

that it produces COMMENT tokens for comments and gives type OP for all

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

19

operators. Aditionally, all token lists start with an ENCODING token

20

which tells you which encoding was used to decode the bytes stream."""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

21

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

22

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

23

__credits__ = ('GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, '

24

'Skip Montanaro, Raymond Hettinger, Trent Nelson, '

25

'Michael Foord')

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

26

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

27

import re, string, sys

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

28

from token import *

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

29

from codecs import lookup, BOM_UTF8

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

30

cookie_re = re.compile("coding[:=]\s*([-\w.]+)")

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

31

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

32

import token

Raymond Hettinger

78a7aee

2002-11-05 06:06:02 +0000

[diff] [blame]

33

__all__ = [x for x in dir(token) if x[0] != '_'] + ["COMMENT", "tokenize",

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

34

"detect_encoding", "NL", "untokenize", "ENCODING"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

35

del token

36

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

37

COMMENT = N_TOKENS

38

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

39

NL = N_TOKENS + 1

40

tok_name[NL] = 'NL'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

41

ENCODING = N_TOKENS + 2

42

tok_name[ENCODING] = 'ENCODING'

43

N_TOKENS += 3

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

44

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

45

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

46

def any(*choices): return group(*choices) + '*'

47

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

48

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

49

# Note: we use unicode matching for names ("\w") but ascii matching for

50

# number literals.

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

51

Whitespace = r'[ \f\t]*'

52

Comment = r'#[^\r\n]*'

53

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

54

Name = r'[a-zA-Z_]\w*'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

55

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

56

Hexnumber = r'0[xX][0-9a-fA-F]+'

Georg Brandl

fceab5a

2008-01-19 20:08:23 +0000

[diff] [blame]

57

Binnumber = r'0[bB][01]+'

58

Octnumber = r'0[oO][0-7]+'

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

59

Decnumber = r'(?:0+|[1-9][0-9]*)'

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame]

60

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

61

Exponent = r'[eE][-+]?[0-9]+'

62

Pointfloat = group(r'[0-9]+\.[0-9]*', r'\.[0-9]+') + maybe(Exponent)

63

Expfloat = r'[0-9]+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

64

Floatnumber = group(Pointfloat, Expfloat)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

65

Imagnumber = group(r'[0-9]+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

66

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

67

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

68

# Tail end of ' string.

69

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

70

# Tail end of " string.

71

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

72

# Tail end of ''' string.

73

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

74

# Tail end of """ string.

75

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

76

Triple = group("[bB]?[rR]?'''", '[bB]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

77

# Single-line ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

78

String = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

79

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

80

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

81

# Because of leftmost-then-longest match semantics, be sure to put the

82

# longest operators first (e.g., if = came before ==, == would get

83

# recognized as two instances of =).

Guido van Rossum

b053cd8

2006-08-24 03:53:23 +0000

[diff] [blame]

84

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"!=",

Neal Norwitz

c150536

2006-12-28 06:47:50 +0000

[diff] [blame]

85

r"//=?", r"->",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

86

r"[+\-*/%&|^=<>]=?",

87

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

88

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

89

Bracket = '[][(){}]'

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

90

Special = group(r'\r?\n', r'\.\.\.', r'[:;.,@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

91

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

92

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

93

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

94

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

95

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

96

# First (or only) line of ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

97

ContStr = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

98

group("'", r'\\\r?\n'),

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

99

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

100

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

101

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

102

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

103

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

104

tokenprog, pseudoprog, single3prog, double3prog = map(

105

re.compile, (Token, PseudoToken, Single3, Double3))

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

106

endprogs = {"'": re.compile(Single), '"': re.compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

107

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

108

"r'''": single3prog, 'r"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

109

"b'''": single3prog, 'b"""': double3prog,

110

"br'''": single3prog, 'br"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

111

"R'''": single3prog, 'R"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

112

"B'''": single3prog, 'B"""': double3prog,

113

"bR'''": single3prog, 'bR"""': double3prog,

114

"Br'''": single3prog, 'Br"""': double3prog,

115

"BR'''": single3prog, 'BR"""': double3prog,

116

'r': None, 'R': None, 'b': None, 'B': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

117

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

118

triple_quoted = {}

119

for t in ("'''", '"""',

120

"r'''", 'r"""', "R'''", 'R"""',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

121

"b'''", 'b"""', "B'''", 'B"""',

122

"br'''", 'br"""', "Br'''", 'Br"""',

123

"bR'''", 'bR"""', "BR'''", 'BR"""'):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

128

"b'", 'b"', "B'", 'B"',

129

"br'", 'br"', "Br'", 'Br"',

130

"bR'", 'bR"', "BR'", 'BR"' ):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

131

single_quoted[t] = t

132

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

133

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

134

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

135

class TokenError(Exception): pass

136

137

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

138

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

139

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

146

self.encoding = None

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

147

148

def add_whitespace(self, start):

149

row, col = start

150

assert row <= self.prev_row

151

col_offset = col - self.prev_col

152

if col_offset:

153

self.tokens.append(" " * col_offset)

154

155

def untokenize(self, iterable):

156

for t in iterable:

157

if len(t) == 2:

158

self.compat(t, iterable)

159

break

160

tok_type, token, start, end, line = t

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

161

if tok_type == ENCODING:

162

self.encoding = token

163

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

164

self.add_whitespace(start)

165

self.tokens.append(token)

166

self.prev_row, self.prev_col = end

167

if tok_type in (NEWLINE, NL):

168

self.prev_row += 1

169

self.prev_col = 0

170

return "".join(self.tokens)

171

172

def compat(self, token, iterable):

173

startline = False

174

indents = []

175

toks_append = self.tokens.append

176

toknum, tokval = token

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

177

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

178

if toknum in (NAME, NUMBER):

179

tokval += ' '

180

if toknum in (NEWLINE, NL):

181

startline = True

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

182

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

183

for tok in iterable:

184

toknum, tokval = tok[:2]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

185

if toknum == ENCODING:

186

self.encoding = tokval

187

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

188

189

if toknum in (NAME, NUMBER):

190

tokval += ' '

191

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

192

# Insert a space between two consecutive strings

193

if toknum == STRING:

194

if prevstring:

195

tokval = ' ' + tokval

prevstring = True

else:

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

200

if toknum == INDENT:

201

indents.append(tokval)

202

continue

203

elif toknum == DEDENT:

204

indents.pop()

205

continue

206

elif toknum in (NEWLINE, NL):

207

startline = True

208

elif startline and indents:

209

toks_append(indents[-1])

210

startline = False

211

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

212

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

213

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

214

def untokenize(iterable):

215

"""Transform tokens back into Python source code.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

216

It returns a bytes object, encoded using the ENCODING

217

token, which is the first token sequence output by tokenize.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

218

219

Each element returned by the iterable must be a token sequence

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

220

with at least two elements, a token number and token value. If

221

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

222

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

223

Round-trip invariant for full input:

224

Untokenized source will match input source exactly

225

226

Round-trip invariant for limited intput:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

227

# Output bytes will tokenize the back to the input

228

t1 = [tok[:2] for tok in tokenize(f.readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

229

newcode = untokenize(t1)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

230

readline = BytesIO(newcode).readline

231

t2 = [tok[:2] for tok in tokenize(readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

232

assert t1 == t2

233

"""

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

234

ut = Untokenizer()

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

235

out = ut.untokenize(iterable)

236

if ut.encoding is not None:

237

out = out.encode(ut.encoding)

238

return out

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

239

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

240

241

def detect_encoding(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

242

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

243

The detect_encoding() function is used to detect the encoding that should

244

be used to decode a Python source file. It requires one argment, readline,

245

in the same way as the tokenize() generator.

246

247

It will call readline a maximum of twice, and return the encoding used

248

(as a string) and a list of any lines (left as bytes) it has read

249

in.

250

251

It detects the encoding from the presence of a utf-8 bom or an encoding

252

cookie as specified in pep-0263. If both a bom and a cookie are present,

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

253

but disagree, a SyntaxError will be raised. If the encoding cookie is an

254

invalid charset, raise a SyntaxError.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

255

256

If no encoding is specified, then the default of 'utf-8' will be returned.

257

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

bom_found = False

encoding = None

def read_or_stop():

try:

return readline()

except StopIteration:

264

return b''

265

266

def find_cookie(line):

267

try:

268

line_string = line.decode('ascii')

269

except UnicodeDecodeError:

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

270

return None

271

272

matches = cookie_re.findall(line_string)

273

if not matches:

274

return None

275

encoding = matches[0]

276

try:

277

codec = lookup(encoding)

278

except LookupError:

279

# This behaviour mimics the Python interpreter

280

raise SyntaxError("unknown encoding: " + encoding)

281

282

if bom_found and codec.name != 'utf-8':

283

# This behaviour mimics the Python interpreter

284

raise SyntaxError('encoding problem: utf-8')

285

return encoding

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

286

287

first = read_or_stop()

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

288

if first.startswith(BOM_UTF8):

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

bom_found = True

first = first[3:]

if not first:

return 'utf-8', []

encoding = find_cookie(first)

295

if encoding:

296

return encoding, [first]

297

298

second = read_or_stop()

299

if not second:

300

return 'utf-8', [first]

301

302

encoding = find_cookie(second)

303

if encoding:

304

return encoding, [first, second]

305

306

return 'utf-8', [first, second]

307

308

309

def tokenize(readline):

310

"""

311

The tokenize() generator requires one argment, readline, which

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

312

must be a callable object which provides the same interface as the

313

readline() method of built-in file objects. Each call to the function

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

314

should return one line of input as bytes. Alternately, readline

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

315

can be a callable function terminating with StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

316

readline = open(myfile, 'rb').__next__ # Example of alternate readline

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

317

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

318

The generator produces 5-tuples with these members: the token type; the

319

token string; a 2-tuple (srow, scol) of ints specifying the row and

320

column where the token begins in the source; a 2-tuple (erow, ecol) of

321

ints specifying the row and column where the token ends in the source;

322

and the line on which the token was found. The line passed is the

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

323

logical line; continuation lines are included.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

324

325

The first token sequence will always be an ENCODING token

326

which tells you which encoding was used to decode the bytes stream.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

327

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

328

encoding, consumed = detect_encoding(readline)

Benjamin Peterson

9b8d24b

2009-03-24 22:30:15 +0000

[diff] [blame]

329

def readline_generator(consumed):

330

for line in consumed:

331

yield line

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

while True:

try:

yield readline()

except StopIteration:

336

return

Benjamin Peterson

9b8d24b

2009-03-24 22:30:15 +0000

[diff] [blame]

337

chained = readline_generator(consumed)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

338

return _tokenize(chained.__next__, encoding)

339

340

341

def _tokenize(readline, encoding):

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

342

lnum = parenlev = continued = 0

Fred Drake

79e75e1

2001-07-20 19:05:50 +0000

[diff] [blame]

343

namechars, numchars = string.ascii_letters + '_', '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

344

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

345

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

346

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

347

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

348

if encoding is not None:

349

yield (ENCODING, encoding, (0, 0), (0, 0), '')

Benjamin Peterson

0fe1438

2008-06-05 23:07:42 +0000

[diff] [blame]

350

while True: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

351

try:

352

line = readline()

353

except StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

354

line = b''

355

356

if encoding is not None:

357

line = line.decode(encoding)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

358

lnum = lnum + 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

359

pos, max = 0, len(line)

360

361

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

362

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

363

raise TokenError("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

364

endmatch = endprog.match(line)

365

if endmatch:

366

pos = end = endmatch.end(0)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

367

yield (STRING, contstr + line[:end],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

368

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

369

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

370

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

371

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

372

yield (ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

373

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

374

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

375

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

376

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

377

else:

378

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

379

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

380

continue

381

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

382

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

383

if not line: break

384

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

385

while pos < max: # measure leading whitespace

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

386

if line[pos] == ' ': column = column + 1

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

387

elif line[pos] == '\t': column = (column/tabsize + 1)*tabsize

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

388

elif line[pos] == '\f': column = 0

389

else: break

390

pos = pos + 1

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

391

if pos == max: break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

392

393

if line[pos] in '#\r\n': # skip comments or blank lines

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

394

if line[pos] == '#':

395

comment_token = line[pos:].rstrip('\r\n')

396

nl_pos = pos + len(comment_token)

397

yield (COMMENT, comment_token,

398

(lnum, pos), (lnum, pos + len(comment_token)), line)

399

yield (NL, line[nl_pos:],

400

(lnum, nl_pos), (lnum, len(line)), line)

401

else:

402

yield ((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

403

(lnum, pos), (lnum, len(line)), line)

404

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

405

406

if column > indents[-1]: # count indents or dedents

407

indents.append(column)

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

408

yield (INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

409

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

410

if column not in indents:

411

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame]

412

"unindent does not match any outer indentation level",

413

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

414

indents = indents[:-1]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

415

yield (DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

416

417

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

418

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

419

raise TokenError("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

420

continued = 0

421

422

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

423

pseudomatch = pseudoprog.match(line, pos)

424

if pseudomatch: # scan for tokens

425

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

426

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

427

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

428

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

429

if (initial in numchars or # ordinary number

430

(initial == '.' and token != '.' and token != '...')):

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

431

yield (NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

432

elif initial in '\r\n':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

433

yield (NL if parenlev > 0 else NEWLINE,

434

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

435

elif initial == '#':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

436

assert not token.endswith("\n")

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

437

yield (COMMENT, token, spos, epos, line)

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

438

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

439

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

440

endmatch = endprog.match(line, pos)

441

if endmatch: # all on one line

442

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

443

token = line[start:pos]

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

444

yield (STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

445

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

446

strstart = (lnum, start) # multiple lines

447

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

448

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

449

break

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

450

elif initial in single_quoted or \

451

token[:2] in single_quoted or \

452

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

453

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

454

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

455

endprog = (endprogs[initial] or endprogs[token[1]] or

456

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

457

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

458

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

459

break

460

else: # ordinary string

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

461

yield (STRING, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

462

elif initial in namechars: # ordinary name

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

463

yield (NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

464

elif initial == '\\': # continued stmt

465

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

466

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

467

if initial in '([{': parenlev = parenlev + 1

468

elif initial in ')]}': parenlev = parenlev - 1

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

469

yield (OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

470

else:

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

471

yield (ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

472

(lnum, pos), (lnum, pos+1), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

473

pos = pos + 1

474

475

for indent in indents[1:]: # pop remaining indent levels

Tim Peters

2001-06-18 22:08:13 +0000

[diff] [blame]

476

yield (DEDENT, '', (lnum, 0), (lnum, 0), '')

477

yield (ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

478

Trent Nelson