Blame - Lib/tokenize.py - platform/external/python/cpython3

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

3

tokenize(readline) is a generator that breaks a stream of

4

bytes into Python tokens. It decodes the bytes according to

5

PEP-0263 for determining source file encoding.

6

7

It accepts a readline-like method which is called

8

repeatedly to get the next line of input (or b"" for EOF). It generates

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

9

5-tuples with these members:

10

11

the token type (see token.py)

12

the token (a string)

13

the starting (row, column) indices of the token (a 2-tuple of ints)

14

the ending (row, column) indices of the token (a 2-tuple of ints)

15

the original line (string)

16

17

It is designed to match the working of the Python tokenizer exactly, except

18

that it produces COMMENT tokens for comments and gives type OP for all

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

19

operators. Aditionally, all token lists start with an ENCODING token

20

which tells you which encoding was used to decode the bytes stream."""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

21

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

22

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

23

__credits__ = ('GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, '

24

'Skip Montanaro, Raymond Hettinger, Trent Nelson, '

25

'Michael Foord')

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

26

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

27

import collections

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

28

import re, string, sys

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

29

from token import *

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

30

from codecs import lookup, BOM_UTF8

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

31

cookie_re = re.compile("coding[:=]\s*([-\w.]+)")

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

32

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

33

import token

Raymond Hettinger

78a7aee

2002-11-05 06:06:02 +0000

[diff] [blame]

34

__all__ = [x for x in dir(token) if x[0] != '_'] + ["COMMENT", "tokenize",

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

35

"detect_encoding", "NL", "untokenize", "ENCODING", "Tokenize"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

36

del token

37

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

38

COMMENT = N_TOKENS

39

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

40

NL = N_TOKENS + 1

41

tok_name[NL] = 'NL'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

42

ENCODING = N_TOKENS + 2

43

tok_name[ENCODING] = 'ENCODING'

44

N_TOKENS += 3

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

45

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

46

TokenInfo = collections.namedtuple('TokenInfo', 'type string start end line')

47

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

48

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

49

def any(*choices): return group(*choices) + '*'

50

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

51

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

52

# Note: we use unicode matching for names ("\w") but ascii matching for

53

# number literals.

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

54

Whitespace = r'[ \f\t]*'

55

Comment = r'#[^\r\n]*'

56

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

57

Name = r'[a-zA-Z_]\w*'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

58

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

59

Hexnumber = r'0[xX][0-9a-fA-F]+'

Georg Brandl

fceab5a

2008-01-19 20:08:23 +0000

[diff] [blame]

60

Binnumber = r'0[bB][01]+'

61

Octnumber = r'0[oO][0-7]+'

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

62

Decnumber = r'(?:0+|[1-9][0-9]*)'

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame]

63

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

64

Exponent = r'[eE][-+]?[0-9]+'

65

Pointfloat = group(r'[0-9]+\.[0-9]*', r'\.[0-9]+') + maybe(Exponent)

66

Expfloat = r'[0-9]+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

67

Floatnumber = group(Pointfloat, Expfloat)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

68

Imagnumber = group(r'[0-9]+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

69

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

70

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

71

# Tail end of ' string.

72

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

73

# Tail end of " string.

74

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

75

# Tail end of ''' string.

76

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

77

# Tail end of """ string.

78

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

79

Triple = group("[bB]?[rR]?'''", '[bB]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

80

# Single-line ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

81

String = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

82

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

83

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

84

# Because of leftmost-then-longest match semantics, be sure to put the

85

# longest operators first (e.g., if = came before ==, == would get

86

# recognized as two instances of =).

Guido van Rossum

b053cd8

2006-08-24 03:53:23 +0000

[diff] [blame]

87

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"!=",

Neal Norwitz

c150536

2006-12-28 06:47:50 +0000

[diff] [blame]

88

r"//=?", r"->",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

89

r"[+\-*/%&|^=<>]=?",

90

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

91

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

92

Bracket = '[][(){}]'

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

93

Special = group(r'\r?\n', r'\.\.\.', r'[:;.,@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

94

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

95

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

96

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

97

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

98

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

99

# First (or only) line of ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

100

ContStr = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

101

group("'", r'\\\r?\n'),

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

102

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

103

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

104

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

105

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

106

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

107

tokenprog, pseudoprog, single3prog, double3prog = map(

108

re.compile, (Token, PseudoToken, Single3, Double3))

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

109

endprogs = {"'": re.compile(Single), '"': re.compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

110

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

111

"r'''": single3prog, 'r"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

112

"b'''": single3prog, 'b"""': double3prog,

113

"br'''": single3prog, 'br"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

114

"R'''": single3prog, 'R"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

115

"B'''": single3prog, 'B"""': double3prog,

116

"bR'''": single3prog, 'bR"""': double3prog,

117

"Br'''": single3prog, 'Br"""': double3prog,

118

"BR'''": single3prog, 'BR"""': double3prog,

119

'r': None, 'R': None, 'b': None, 'B': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

120

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

121

triple_quoted = {}

122

for t in ("'''", '"""',

123

"r'''", 'r"""', "R'''", 'R"""',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

124

"b'''", 'b"""', "B'''", 'B"""',

125

"br'''", 'br"""', "Br'''", 'Br"""',

126

"bR'''", 'bR"""', "BR'''", 'BR"""'):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

131

"b'", 'b"', "B'", 'B"',

132

"br'", 'br"', "Br'", 'Br"',

133

"bR'", 'bR"', "BR'", 'BR"' ):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

134

single_quoted[t] = t

135

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

136

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

137

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

138

class TokenError(Exception): pass

139

140

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

141

Tim Peters

5ca576e

2001-06-18 22:08:13 +0000

[diff] [blame]

142

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

149

self.encoding = None

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

150

151

def add_whitespace(self, start):

152

row, col = start

153

assert row <= self.prev_row

154

col_offset = col - self.prev_col

155

if col_offset:

156

self.tokens.append(" " * col_offset)

157

158

def untokenize(self, iterable):

159

for t in iterable:

160

if len(t) == 2:

161

self.compat(t, iterable)

162

break

163

tok_type, token, start, end, line = t

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

164

if tok_type == ENCODING:

165

self.encoding = token

166

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

167

self.add_whitespace(start)

168

self.tokens.append(token)

169

self.prev_row, self.prev_col = end

170

if tok_type in (NEWLINE, NL):

171

self.prev_row += 1

172

self.prev_col = 0

173

return "".join(self.tokens)

174

175

def compat(self, token, iterable):

176

startline = False

177

indents = []

178

toks_append = self.tokens.append

179

toknum, tokval = token

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

180

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

181

if toknum in (NAME, NUMBER):

182

tokval += ' '

183

if toknum in (NEWLINE, NL):

184

startline = True

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

185

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

186

for tok in iterable:

187

toknum, tokval = tok[:2]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

188

if toknum == ENCODING:

189

self.encoding = tokval

190

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

191

192

if toknum in (NAME, NUMBER):

193

tokval += ' '

194

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

195

# Insert a space between two consecutive strings

196

if toknum == STRING:

197

if prevstring:

198

tokval = ' ' + tokval

prevstring = True

else:

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

203

if toknum == INDENT:

204

indents.append(tokval)

205

continue

206

elif toknum == DEDENT:

207

indents.pop()

208

continue

209

elif toknum in (NEWLINE, NL):

210

startline = True

211

elif startline and indents:

212

toks_append(indents[-1])

213

startline = False

214

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

215

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

216

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

217

def untokenize(iterable):

218

"""Transform tokens back into Python source code.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

219

It returns a bytes object, encoded using the ENCODING

220

token, which is the first token sequence output by tokenize.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

221

222

Each element returned by the iterable must be a token sequence

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

223

with at least two elements, a token number and token value. If

224

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

225

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

226

Round-trip invariant for full input:

227

Untokenized source will match input source exactly

228

229

Round-trip invariant for limited intput:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

230

# Output bytes will tokenize the back to the input

231

t1 = [tok[:2] for tok in tokenize(f.readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

232

newcode = untokenize(t1)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

233

readline = BytesIO(newcode).readline

234

t2 = [tok[:2] for tok in tokenize(readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

235

assert t1 == t2

236

"""

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

237

ut = Untokenizer()

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

238

out = ut.untokenize(iterable)

239

if ut.encoding is not None:

240

out = out.encode(ut.encoding)

241

return out

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

242

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

243

244

def detect_encoding(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

245

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

246

The detect_encoding() function is used to detect the encoding that should

247

be used to decode a Python source file. It requires one argment, readline,

248

in the same way as the tokenize() generator.

249

250

It will call readline a maximum of twice, and return the encoding used

251

(as a string) and a list of any lines (left as bytes) it has read

252

in.

253

254

It detects the encoding from the presence of a utf-8 bom or an encoding

255

cookie as specified in pep-0263. If both a bom and a cookie are present,

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

256

but disagree, a SyntaxError will be raised. If the encoding cookie is an

257

invalid charset, raise a SyntaxError.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

258

259

If no encoding is specified, then the default of 'utf-8' will be returned.

260

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

bom_found = False

encoding = None

def read_or_stop():

try:

return readline()

except StopIteration:

267

return b''

268

269

def find_cookie(line):

270

try:

271

line_string = line.decode('ascii')

272

except UnicodeDecodeError:

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

273

return None

274

275

matches = cookie_re.findall(line_string)

276

if not matches:

277

return None

278

encoding = matches[0]

279

try:

280

codec = lookup(encoding)

281

except LookupError:

282

# This behaviour mimics the Python interpreter

283

raise SyntaxError("unknown encoding: " + encoding)

284

285

if bom_found and codec.name != 'utf-8':

286

# This behaviour mimics the Python interpreter

287

raise SyntaxError('encoding problem: utf-8')

288

return encoding

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

289

290

first = read_or_stop()

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

291

if first.startswith(BOM_UTF8):

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

bom_found = True

first = first[3:]

if not first:

return 'utf-8', []

encoding = find_cookie(first)

298

if encoding:

299

return encoding, [first]

300

301

second = read_or_stop()

302

if not second:

303

return 'utf-8', [first]

304

305

encoding = find_cookie(second)

306

if encoding:

307

return encoding, [first, second]

308

309

return 'utf-8', [first, second]

310

311

312

def tokenize(readline):

313

"""

314

The tokenize() generator requires one argment, readline, which

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

315

must be a callable object which provides the same interface as the

316

readline() method of built-in file objects. Each call to the function

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

317

should return one line of input as bytes. Alternately, readline

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

318

can be a callable function terminating with StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

319

readline = open(myfile, 'rb').__next__ # Example of alternate readline

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

320

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

321

The generator produces 5-tuples with these members: the token type; the

322

token string; a 2-tuple (srow, scol) of ints specifying the row and

323

column where the token begins in the source; a 2-tuple (erow, ecol) of

324

ints specifying the row and column where the token ends in the source;

325

and the line on which the token was found. The line passed is the

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

326

logical line; continuation lines are included.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

327

328

The first token sequence will always be an ENCODING token

329

which tells you which encoding was used to decode the bytes stream.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

330

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

331

encoding, consumed = detect_encoding(readline)

Benjamin Peterson

9b8d24b

2009-03-24 22:30:15 +0000

[diff] [blame]

332

def readline_generator(consumed):

333

for line in consumed:

334

yield line

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

while True:

try:

yield readline()

except StopIteration:

339

return

Benjamin Peterson

9b8d24b

2009-03-24 22:30:15 +0000

[diff] [blame]

340

chained = readline_generator(consumed)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

341

return _tokenize(chained.__next__, encoding)

342

343

344

def _tokenize(readline, encoding):

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

345

lnum = parenlev = continued = 0

Fred Drake

79e75e1

2001-07-20 19:05:50 +0000

[diff] [blame]

346

namechars, numchars = string.ascii_letters + '_', '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

347

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

348

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

349

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

350

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

351

if encoding is not None:

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

352

yield TokenInfo(ENCODING, encoding, (0, 0), (0, 0), '')

Benjamin Peterson

0fe1438

2008-06-05 23:07:42 +0000

[diff] [blame]

353

while True: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

354

try:

355

line = readline()

356

except StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

357

line = b''

358

359

if encoding is not None:

360

line = line.decode(encoding)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

361

lnum = lnum + 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

362

pos, max = 0, len(line)

363

364

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

365

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

366

raise TokenError("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

367

endmatch = endprog.match(line)

368

if endmatch:

369

pos = end = endmatch.end(0)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

370

yield TokenInfo(STRING, contstr + line[:end],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

371

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

372

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

373

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

374

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

375

yield TokenInfo(ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

376

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

377

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

378

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

379

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

380

else:

381

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

382

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

383

continue

384

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

385

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

386

if not line: break

387

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

388

while pos < max: # measure leading whitespace

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

389

if line[pos] == ' ': column = column + 1

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

390

elif line[pos] == '\t': column = (column/tabsize + 1)*tabsize

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

391

elif line[pos] == '\f': column = 0

392

else: break

393

pos = pos + 1

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

394

if pos == max: break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

395

396

if line[pos] in '#\r\n': # skip comments or blank lines

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

397

if line[pos] == '#':

398

comment_token = line[pos:].rstrip('\r\n')

399

nl_pos = pos + len(comment_token)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

400

yield TokenInfo(COMMENT, comment_token,

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

401

(lnum, pos), (lnum, pos + len(comment_token)), line)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

402

yield TokenInfo(NL, line[nl_pos:],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

403

(lnum, nl_pos), (lnum, len(line)), line)

404

else:

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

405

yield TokenInfo((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

406

(lnum, pos), (lnum, len(line)), line)

407

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

408

409

if column > indents[-1]: # count indents or dedents

410

indents.append(column)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

411

yield TokenInfo(INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

412

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

413

if column not in indents:

414

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame]

415

"unindent does not match any outer indentation level",

416

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

417

indents = indents[:-1]

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

418

yield TokenInfo(DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

419

420

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

421

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

422

raise TokenError("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

423

continued = 0

424

425

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

426

pseudomatch = pseudoprog.match(line, pos)

427

if pseudomatch: # scan for tokens

428

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

429

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

430

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

431

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

432

if (initial in numchars or # ordinary number

433

(initial == '.' and token != '.' and token != '...')):

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

434

yield TokenInfo(NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

435

elif initial in '\r\n':

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

436

yield TokenInfo(NL if parenlev > 0 else NEWLINE,

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

437

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

438

elif initial == '#':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

439

assert not token.endswith("\n")

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

440

yield TokenInfo(COMMENT, token, spos, epos, line)

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

441

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

442

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

443

endmatch = endprog.match(line, pos)

444

if endmatch: # all on one line

445

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

446

token = line[start:pos]

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

447

yield TokenInfo(STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

448

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

449

strstart = (lnum, start) # multiple lines

450

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

451

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

452

break

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

453

elif initial in single_quoted or \

454

token[:2] in single_quoted or \

455

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

456

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

457

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

458

endprog = (endprogs[initial] or endprogs[token[1]] or

459

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

460

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

461

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

462

break

463

else: # ordinary string

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

464

yield TokenInfo(STRING, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

465

elif initial in namechars: # ordinary name

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

466

yield TokenInfo(NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

467

elif initial == '\\': # continued stmt

468

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

469

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

470

if initial in '([{': parenlev = parenlev + 1

471

elif initial in ')]}': parenlev = parenlev - 1

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

472

yield TokenInfo(OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

473

else:

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

474

yield TokenInfo(ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

475

(lnum, pos), (lnum, pos+1), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

476

pos = pos + 1

477

478

for indent in indents[1:]: # pop remaining indent levels

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame^]

479

yield TokenInfo(DEDENT, '', (lnum, 0), (lnum, 0), '')

480

yield TokenInfo(ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

481

Trent Nelson