Blame - Lib/tokenize.py - platform/external/python/cpython3

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

3

tokenize(readline) is a generator that breaks a stream of

4

bytes into Python tokens. It decodes the bytes according to

5

PEP-0263 for determining source file encoding.

6

7

It accepts a readline-like method which is called

8

repeatedly to get the next line of input (or b"" for EOF). It generates

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

9

5-tuples with these members:

10

11

the token type (see token.py)

12

the token (a string)

13

the starting (row, column) indices of the token (a 2-tuple of ints)

14

the ending (row, column) indices of the token (a 2-tuple of ints)

15

the original line (string)

16

17

It is designed to match the working of the Python tokenizer exactly, except

18

that it produces COMMENT tokens for comments and gives type OP for all

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

19

operators. Aditionally, all token lists start with an ENCODING token

20

which tells you which encoding was used to decode the bytes stream."""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

21

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

22

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

23

__credits__ = ('GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, '

24

'Skip Montanaro, Raymond Hettinger, Trent Nelson, '

25

'Michael Foord')

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

26

import re, string, sys

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

27

from token import *

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

28

from codecs import lookup, BOM_UTF8

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

29

cookie_re = re.compile("coding[:=]\s*([-\w.]+)")

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

30

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

31

import token

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

32

__all__ = [x for x in dir(token) if not x.startswith("_")]

33

__all__.extend(["COMMENT", "tokenize", "detect_encoding", "NL", "untokenize",

34

"ENCODING", "TokenInfo"])

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

35

del token

36

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

37

COMMENT = N_TOKENS

38

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

39

NL = N_TOKENS + 1

40

tok_name[NL] = 'NL'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

41

ENCODING = N_TOKENS + 2

42

tok_name[ENCODING] = 'ENCODING'

43

N_TOKENS += 3

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

44

Raymond Hettinger

aa17a7f

2009-04-29 14:21:25 +0000

[diff] [blame]

45

class TokenInfo(tuple):

46

'TokenInfo(type, string, start, end, line)'

__slots__ = ()

_fields = ('type', 'string', 'start', 'end', 'line')

51

52

def __new__(cls, type, string, start, end, line):

53

return tuple.__new__(cls, (type, string, start, end, line))

54

55

@classmethod

56

def _make(cls, iterable, new=tuple.__new__, len=len):

57

'Make a new TokenInfo object from a sequence or iterable'

58

result = new(cls, iterable)

59

if len(result) != 5:

60

raise TypeError('Expected 5 arguments, got %d' % len(result))

return result

def __repr__(self):

return 'TokenInfo(type=%r, string=%r, start=%r, end=%r, line=%r)' % self

65

66

def _asdict(self):

67

'Return a new dict which maps field names to their values'

68

return dict(zip(self._fields, self))

69

70

def _replace(self, **kwds):

71

'Return a new TokenInfo object replacing specified fields with new values'

72

result = self._make(map(kwds.pop, ('type', 'string', 'start', 'end', 'line'), self))

73

if kwds:

74

raise ValueError('Got unexpected field names: %r' % kwds.keys())

75

return result

76

77

def __getnewargs__(self):

78

return tuple(self)

79

80

type = property(lambda t: t[0])

81

string = property(lambda t: t[1])

82

start = property(lambda t: t[2])

83

end = property(lambda t: t[3])

84

line = property(lambda t: t[4])

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

85

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

86

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

87

def any(*choices): return group(*choices) + '*'

88

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

89

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

90

# Note: we use unicode matching for names ("\w") but ascii matching for

91

# number literals.

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

92

Whitespace = r'[ \f\t]*'

93

Comment = r'#[^\r\n]*'

94

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame^]

95

Name = r'\w+'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

96

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

97

Hexnumber = r'0[xX][0-9a-fA-F]+'

Georg Brandl

fceab5a

2008-01-19 20:08:23 +0000

[diff] [blame]

98

Binnumber = r'0[bB][01]+'

99

Octnumber = r'0[oO][0-7]+'

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

100

Decnumber = r'(?:0+|[1-9][0-9]*)'

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame]

101

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

102

Exponent = r'[eE][-+]?[0-9]+'

103

Pointfloat = group(r'[0-9]+\.[0-9]*', r'\.[0-9]+') + maybe(Exponent)

104

Expfloat = r'[0-9]+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

105

Floatnumber = group(Pointfloat, Expfloat)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

106

Imagnumber = group(r'[0-9]+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

107

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

108

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

109

# Tail end of ' string.

110

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

111

# Tail end of " string.

112

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

113

# Tail end of ''' string.

114

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

115

# Tail end of """ string.

116

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

117

Triple = group("[bB]?[rR]?'''", '[bB]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

118

# Single-line ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

119

String = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

120

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

121

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

122

# Because of leftmost-then-longest match semantics, be sure to put the

123

# longest operators first (e.g., if = came before ==, == would get

124

# recognized as two instances of =).

Guido van Rossum

b053cd8

2006-08-24 03:53:23 +0000

[diff] [blame]

125

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"!=",

Neal Norwitz

c150536

2006-12-28 06:47:50 +0000

[diff] [blame]

126

r"//=?", r"->",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

127

r"[+\-*/%&|^=<>]=?",

128

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

129

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

130

Bracket = '[][(){}]'

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

131

Special = group(r'\r?\n', r'\.\.\.', r'[:;.,@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

132

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

133

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

134

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

135

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

136

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

137

# First (or only) line of ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

138

ContStr = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

139

group("'", r'\\\r?\n'),

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

140

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

141

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

142

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

143

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

144

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame^]

145

def _compile(expr):

146

return re.compile(expr, re.UNICODE)

147

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

148

tokenprog, pseudoprog, single3prog, double3prog = map(

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame^]

149

_compile, (Token, PseudoToken, Single3, Double3))

150

endprogs = {"'": _compile(Single), '"': _compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

151

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

152

"r'''": single3prog, 'r"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

153

"b'''": single3prog, 'b"""': double3prog,

154

"br'''": single3prog, 'br"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

155

"R'''": single3prog, 'R"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

156

"B'''": single3prog, 'B"""': double3prog,

157

"bR'''": single3prog, 'bR"""': double3prog,

158

"Br'''": single3prog, 'Br"""': double3prog,

159

"BR'''": single3prog, 'BR"""': double3prog,

160

'r': None, 'R': None, 'b': None, 'B': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

161

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

162

triple_quoted = {}

163

for t in ("'''", '"""',

164

"r'''", 'r"""', "R'''", 'R"""',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

165

"b'''", 'b"""', "B'''", 'B"""',

166

"br'''", 'br"""', "Br'''", 'Br"""',

167

"bR'''", 'bR"""', "BR'''", 'BR"""'):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

172

"b'", 'b"', "B'", 'B"',

173

"br'", 'br"', "Br'", 'Br"',

174

"bR'", 'bR"', "BR'", 'BR"' ):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

175

single_quoted[t] = t

176

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame^]

177

del _compile

178

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

179

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

180

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

181

class TokenError(Exception): pass

182

183

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

184

Tim Peters

5ca576e

2001-06-18 22:08:13 +0000

[diff] [blame]

185

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

192

self.encoding = None

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

193

194

def add_whitespace(self, start):

195

row, col = start

196

assert row <= self.prev_row

197

col_offset = col - self.prev_col

198

if col_offset:

199

self.tokens.append(" " * col_offset)

200

201

def untokenize(self, iterable):

202

for t in iterable:

203

if len(t) == 2:

204

self.compat(t, iterable)

205

break

206

tok_type, token, start, end, line = t

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

207

if tok_type == ENCODING:

208

self.encoding = token

209

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

210

self.add_whitespace(start)

211

self.tokens.append(token)

212

self.prev_row, self.prev_col = end

213

if tok_type in (NEWLINE, NL):

214

self.prev_row += 1

215

self.prev_col = 0

216

return "".join(self.tokens)

217

218

def compat(self, token, iterable):

219

startline = False

220

indents = []

221

toks_append = self.tokens.append

222

toknum, tokval = token

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

223

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

224

if toknum in (NAME, NUMBER):

225

tokval += ' '

226

if toknum in (NEWLINE, NL):

227

startline = True

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

228

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

229

for tok in iterable:

230

toknum, tokval = tok[:2]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

231

if toknum == ENCODING:

232

self.encoding = tokval

233

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

234

235

if toknum in (NAME, NUMBER):

236

tokval += ' '

237

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

238

# Insert a space between two consecutive strings

239

if toknum == STRING:

240

if prevstring:

241

tokval = ' ' + tokval

prevstring = True

else:

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

246

if toknum == INDENT:

247

indents.append(tokval)

248

continue

249

elif toknum == DEDENT:

250

indents.pop()

251

continue

252

elif toknum in (NEWLINE, NL):

253

startline = True

254

elif startline and indents:

255

toks_append(indents[-1])

256

startline = False

257

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

258

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

259

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

260

def untokenize(iterable):

261

"""Transform tokens back into Python source code.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

262

It returns a bytes object, encoded using the ENCODING

263

token, which is the first token sequence output by tokenize.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

264

265

Each element returned by the iterable must be a token sequence

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

266

with at least two elements, a token number and token value. If

267

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

268

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

269

Round-trip invariant for full input:

270

Untokenized source will match input source exactly

271

272

Round-trip invariant for limited intput:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

273

# Output bytes will tokenize the back to the input

274

t1 = [tok[:2] for tok in tokenize(f.readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

275

newcode = untokenize(t1)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

276

readline = BytesIO(newcode).readline

277

t2 = [tok[:2] for tok in tokenize(readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

278

assert t1 == t2

279

"""

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

280

ut = Untokenizer()

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

281

out = ut.untokenize(iterable)

282

if ut.encoding is not None:

283

out = out.encode(ut.encoding)

284

return out

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

285

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

286

Benjamin Peterson

d3afada

2009-10-09 21:43:09 +0000

[diff] [blame]

287

def _get_normal_name(orig_enc):

288

"""Imitates get_normal_name in tokenizer.c."""

289

# Only care about the first 12 characters.

290

enc = orig_enc[:12].lower().replace("_", "-")

291

if enc == "utf-8" or enc.startswith("utf-8-"):

292

return "utf-8"

293

if enc in ("latin-1", "iso-8859-1", "iso-latin-1") or \

294

enc.startswith(("latin-1-", "iso-8859-1-", "iso-latin-1-")):

return "iso-8859-1"

return orig_enc

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

298

def detect_encoding(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

299

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

300

The detect_encoding() function is used to detect the encoding that should

301

be used to decode a Python source file. It requires one argment, readline,

302

in the same way as the tokenize() generator.

303

304

It will call readline a maximum of twice, and return the encoding used

305

(as a string) and a list of any lines (left as bytes) it has read

306

in.

307

308

It detects the encoding from the presence of a utf-8 bom or an encoding

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

309

cookie as specified in pep-0263. If both a bom and a cookie are present, but

310

disagree, a SyntaxError will be raised. If the encoding cookie is an invalid

311

charset, raise a SyntaxError. Note that if a utf-8 bom is found,

312

'utf-8-sig' is returned.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

313

314

If no encoding is specified, then the default of 'utf-8' will be returned.

315

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

316

bom_found = False

317

encoding = None

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

318

default = 'utf-8'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

def read_or_stop():

try:

return readline()

except StopIteration:

323

return b''

324

325

def find_cookie(line):

326

try:

327

line_string = line.decode('ascii')

328

except UnicodeDecodeError:

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

329

return None

330

331

matches = cookie_re.findall(line_string)

332

if not matches:

333

return None

Benjamin Peterson

d3afada

2009-10-09 21:43:09 +0000

[diff] [blame]

334

encoding = _get_normal_name(matches[0])

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

335

try:

336

codec = lookup(encoding)

337

except LookupError:

338

# This behaviour mimics the Python interpreter

339

raise SyntaxError("unknown encoding: " + encoding)

340

Benjamin Peterson

1613ed8

2010-03-18 22:34:15 +0000

[diff] [blame]

341

if bom_found:

342

if codec.name != 'utf-8':

343

# This behaviour mimics the Python interpreter

344

raise SyntaxError('encoding problem: utf-8')

345

encoding += '-sig'

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

346

return encoding

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

347

348

first = read_or_stop()

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

349

if first.startswith(BOM_UTF8):

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

350

bom_found = True

351

first = first[3:]

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

352

default = 'utf-8-sig'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

353

if not first:

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

354

return default, []

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

355

356

encoding = find_cookie(first)

357

if encoding:

358

return encoding, [first]

359

360

second = read_or_stop()

361

if not second:

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

362

return default, [first]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

363

364

encoding = find_cookie(second)

365

if encoding:

366

return encoding, [first, second]

367

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

368

return default, [first, second]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

369

370

371

def tokenize(readline):

372

"""

373

The tokenize() generator requires one argment, readline, which

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

374

must be a callable object which provides the same interface as the

375

readline() method of built-in file objects. Each call to the function

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

376

should return one line of input as bytes. Alternately, readline

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

377

can be a callable function terminating with StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

378

readline = open(myfile, 'rb').__next__ # Example of alternate readline

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

379

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

380

The generator produces 5-tuples with these members: the token type; the

381

token string; a 2-tuple (srow, scol) of ints specifying the row and

382

column where the token begins in the source; a 2-tuple (erow, ecol) of

383

ints specifying the row and column where the token ends in the source;

384

and the line on which the token was found. The line passed is the

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

385

logical line; continuation lines are included.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

386

387

The first token sequence will always be an ENCODING token

388

which tells you which encoding was used to decode the bytes stream.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

389

"""

Benjamin Peterson

21db77e

2009-11-14 16:27:26 +0000

[diff] [blame]

390

# This import is here to avoid problems when the itertools module is not

391

# built yet and tokenize is imported.

Benjamin Peterson

81dd8b9

2009-11-14 18:09:17 +0000

[diff] [blame]

392

from itertools import chain, repeat

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

393

encoding, consumed = detect_encoding(readline)

Benjamin Peterson

81dd8b9

2009-11-14 18:09:17 +0000

[diff] [blame]

394

rl_gen = iter(readline, b"")

395

empty = repeat(b"")

396

return _tokenize(chain(consumed, rl_gen, empty).__next__, encoding)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

397

398

399

def _tokenize(readline, encoding):

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

400

lnum = parenlev = continued = 0

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame^]

401

numchars = '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

402

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

403

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

404

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

405

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

406

if encoding is not None:

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

407

if encoding == "utf-8-sig":

408

# BOM will already have been stripped.

409

encoding = "utf-8"

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

410

yield TokenInfo(ENCODING, encoding, (0, 0), (0, 0), '')

Benjamin Peterson

0fe1438

2008-06-05 23:07:42 +0000

[diff] [blame]

411

while True: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

412

try:

413

line = readline()

414

except StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

415

line = b''

416

417

if encoding is not None:

418

line = line.decode(encoding)

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

419

lnum += 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

420

pos, max = 0, len(line)

421

422

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

423

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

424

raise TokenError("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

425

endmatch = endprog.match(line)

426

if endmatch:

427

pos = end = endmatch.end(0)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

428

yield TokenInfo(STRING, contstr + line[:end],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

429

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

430

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

431

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

432

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

433

yield TokenInfo(ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

434

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

435

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

436

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

437

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

438

else:

439

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

440

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

441

continue

442

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

443

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

444

if not line: break

445

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

446

while pos < max: # measure leading whitespace

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

447

if line[pos] == ' ':

448

column += 1

449

elif line[pos] == '\t':

450

column = (column//tabsize + 1)*tabsize

451

elif line[pos] == '\f':

column = 0

else:

break

pos += 1

if pos == max:

break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

458

459

if line[pos] in '#\r\n': # skip comments or blank lines

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

460

if line[pos] == '#':

461

comment_token = line[pos:].rstrip('\r\n')

462

nl_pos = pos + len(comment_token)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

463

yield TokenInfo(COMMENT, comment_token,

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

464

(lnum, pos), (lnum, pos + len(comment_token)), line)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

465

yield TokenInfo(NL, line[nl_pos:],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

466

(lnum, nl_pos), (lnum, len(line)), line)

467

else:

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

468

yield TokenInfo((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

469

(lnum, pos), (lnum, len(line)), line)

470

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

471

472

if column > indents[-1]: # count indents or dedents

473

indents.append(column)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

474

yield TokenInfo(INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

475

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

476

if column not in indents:

477

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame]

478

"unindent does not match any outer indentation level",

479

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

480

indents = indents[:-1]

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

481

yield TokenInfo(DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

482

483

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

484

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

485

raise TokenError("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

486

continued = 0

487

488

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

489

pseudomatch = pseudoprog.match(line, pos)

490

if pseudomatch: # scan for tokens

491

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

492

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

493

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

494

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

495

if (initial in numchars or # ordinary number

496

(initial == '.' and token != '.' and token != '...')):

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

497

yield TokenInfo(NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

498

elif initial in '\r\n':

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

499

yield TokenInfo(NL if parenlev > 0 else NEWLINE,

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

500

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

501

elif initial == '#':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

502

assert not token.endswith("\n")

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

503

yield TokenInfo(COMMENT, token, spos, epos, line)

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

504

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

505

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

506

endmatch = endprog.match(line, pos)

507

if endmatch: # all on one line

508

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

509

token = line[start:pos]

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

510

yield TokenInfo(STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

511

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

512

strstart = (lnum, start) # multiple lines

513

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

514

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

515

break

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

516

elif initial in single_quoted or \

517

token[:2] in single_quoted or \

518

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

519

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

520

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

521

endprog = (endprogs[initial] or endprogs[token[1]] or

522

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

523

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

524

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

525

break

526

else: # ordinary string

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

527

yield TokenInfo(STRING, token, spos, epos, line)

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame^]

528

elif initial.isidentifier(): # ordinary name

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

529

yield TokenInfo(NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

530

elif initial == '\\': # continued stmt

531

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

532

else:

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

533

if initial in '([{':

534

parenlev += 1

535

elif initial in ')]}':

536

parenlev -= 1

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

537

yield TokenInfo(OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

538

else:

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

539

yield TokenInfo(ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

540

(lnum, pos), (lnum, pos+1), line)

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

541

pos += 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

542

543

for indent in indents[1:]: # pop remaining indent levels

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

544

yield TokenInfo(DEDENT, '', (lnum, 0), (lnum, 0), '')

545

yield TokenInfo(ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

546

Trent Nelson