Blame - Lib/tokenize.py - platform/external/python/cpython3

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame^]

3

tokenize(readline) is a generator that breaks a stream of bytes into

4

Python tokens. It decodes the bytes according to PEP-0263 for

5

determining source file encoding.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

6

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame^]

7

It accepts a readline-like method which is called repeatedly to get the

8

next line of input (or b"" for EOF). It generates 5-tuples with these

9

members:

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

10

11

the token type (see token.py)

12

the token (a string)

13

the starting (row, column) indices of the token (a 2-tuple of ints)

14

the ending (row, column) indices of the token (a 2-tuple of ints)

15

the original line (string)

16

17

It is designed to match the working of the Python tokenizer exactly, except

18

that it produces COMMENT tokens for comments and gives type OP for all

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame^]

19

operators. Additionally, all token lists start with an ENCODING token

20

which tells you which encoding was used to decode the bytes stream.

21

"""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

22

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

23

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

24

__credits__ = ('GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, '

25

'Skip Montanaro, Raymond Hettinger, Trent Nelson, '

26

'Michael Foord')

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame^]

27

import re

28

import sys

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

29

from token import *

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

30

from codecs import lookup, BOM_UTF8

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

31

cookie_re = re.compile("coding[:=]\s*([-\w.]+)")

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

32

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

33

import token

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

34

__all__ = [x for x in dir(token) if not x.startswith("_")]

35

__all__.extend(["COMMENT", "tokenize", "detect_encoding", "NL", "untokenize",

36

"ENCODING", "TokenInfo"])

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

37

del token

38

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

39

COMMENT = N_TOKENS

40

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

41

NL = N_TOKENS + 1

42

tok_name[NL] = 'NL'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

43

ENCODING = N_TOKENS + 2

44

tok_name[ENCODING] = 'ENCODING'

45

N_TOKENS += 3

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

46

Raymond Hettinger

aa17a7f

2009-04-29 14:21:25 +0000

[diff] [blame]

47

class TokenInfo(tuple):

48

'TokenInfo(type, string, start, end, line)'

__slots__ = ()

_fields = ('type', 'string', 'start', 'end', 'line')

53

54

def __new__(cls, type, string, start, end, line):

55

return tuple.__new__(cls, (type, string, start, end, line))

56

57

@classmethod

58

def _make(cls, iterable, new=tuple.__new__, len=len):

59

'Make a new TokenInfo object from a sequence or iterable'

60

result = new(cls, iterable)

61

if len(result) != 5:

62

raise TypeError('Expected 5 arguments, got %d' % len(result))

return result

def __repr__(self):

return 'TokenInfo(type=%r, string=%r, start=%r, end=%r, line=%r)' % self

67

68

def _asdict(self):

69

'Return a new dict which maps field names to their values'

70

return dict(zip(self._fields, self))

71

72

def _replace(self, **kwds):

73

'Return a new TokenInfo object replacing specified fields with new values'

74

result = self._make(map(kwds.pop, ('type', 'string', 'start', 'end', 'line'), self))

75

if kwds:

76

raise ValueError('Got unexpected field names: %r' % kwds.keys())

77

return result

78

79

def __getnewargs__(self):

80

return tuple(self)

81

82

type = property(lambda t: t[0])

83

string = property(lambda t: t[1])

84

start = property(lambda t: t[2])

85

end = property(lambda t: t[3])

86

line = property(lambda t: t[4])

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

87

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

88

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

89

def any(*choices): return group(*choices) + '*'

90

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

91

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

92

# Note: we use unicode matching for names ("\w") but ascii matching for

93

# number literals.

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

94

Whitespace = r'[ \f\t]*'

95

Comment = r'#[^\r\n]*'

96

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

97

Name = r'\w+'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

98

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

99

Hexnumber = r'0[xX][0-9a-fA-F]+'

Georg Brandl

fceab5a

2008-01-19 20:08:23 +0000

[diff] [blame]

100

Binnumber = r'0[bB][01]+'

101

Octnumber = r'0[oO][0-7]+'

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

102

Decnumber = r'(?:0+|[1-9][0-9]*)'

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame]

103

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

104

Exponent = r'[eE][-+]?[0-9]+'

105

Pointfloat = group(r'[0-9]+\.[0-9]*', r'\.[0-9]+') + maybe(Exponent)

106

Expfloat = r'[0-9]+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

107

Floatnumber = group(Pointfloat, Expfloat)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

108

Imagnumber = group(r'[0-9]+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

109

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

110

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

111

# Tail end of ' string.

112

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

113

# Tail end of " string.

114

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

115

# Tail end of ''' string.

116

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

117

# Tail end of """ string.

118

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

119

Triple = group("[bB]?[rR]?'''", '[bB]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

120

# Single-line ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

121

String = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

122

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

123

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

124

# Because of leftmost-then-longest match semantics, be sure to put the

125

# longest operators first (e.g., if = came before ==, == would get

126

# recognized as two instances of =).

Guido van Rossum

b053cd8

2006-08-24 03:53:23 +0000

[diff] [blame]

127

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"!=",

Neal Norwitz

c150536

2006-12-28 06:47:50 +0000

[diff] [blame]

128

r"//=?", r"->",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

129

r"[+\-*/%&|^=<>]=?",

130

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

131

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

132

Bracket = '[][(){}]'

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

133

Special = group(r'\r?\n', r'\.\.\.', r'[:;.,@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

134

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

135

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

136

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

137

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

138

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

139

# First (or only) line of ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

140

ContStr = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

141

group("'", r'\\\r?\n'),

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

142

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

143

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

144

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

145

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

146

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

147

def _compile(expr):

148

return re.compile(expr, re.UNICODE)

149

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

150

tokenprog, pseudoprog, single3prog, double3prog = map(

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

151

_compile, (Token, PseudoToken, Single3, Double3))

152

endprogs = {"'": _compile(Single), '"': _compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

153

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

154

"r'''": single3prog, 'r"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

155

"b'''": single3prog, 'b"""': double3prog,

156

"br'''": single3prog, 'br"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

157

"R'''": single3prog, 'R"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

158

"B'''": single3prog, 'B"""': double3prog,

159

"bR'''": single3prog, 'bR"""': double3prog,

160

"Br'''": single3prog, 'Br"""': double3prog,

161

"BR'''": single3prog, 'BR"""': double3prog,

162

'r': None, 'R': None, 'b': None, 'B': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

163

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

164

triple_quoted = {}

165

for t in ("'''", '"""',

166

"r'''", 'r"""', "R'''", 'R"""',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

167

"b'''", 'b"""', "B'''", 'B"""',

168

"br'''", 'br"""', "Br'''", 'Br"""',

169

"bR'''", 'bR"""', "BR'''", 'BR"""'):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

174

"b'", 'b"', "B'", 'B"',

175

"br'", 'br"', "Br'", 'Br"',

176

"bR'", 'bR"', "BR'", 'BR"' ):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

177

single_quoted[t] = t

178

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

179

del _compile

180

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

181

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

182

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

183

class TokenError(Exception): pass

184

185

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

186

Tim Peters

5ca576e

2001-06-18 22:08:13 +0000

[diff] [blame]

187

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

194

self.encoding = None

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

195

196

def add_whitespace(self, start):

197

row, col = start

198

assert row <= self.prev_row

199

col_offset = col - self.prev_col

200

if col_offset:

201

self.tokens.append(" " * col_offset)

202

203

def untokenize(self, iterable):

204

for t in iterable:

205

if len(t) == 2:

206

self.compat(t, iterable)

207

break

208

tok_type, token, start, end, line = t

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

209

if tok_type == ENCODING:

210

self.encoding = token

211

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

212

self.add_whitespace(start)

213

self.tokens.append(token)

214

self.prev_row, self.prev_col = end

215

if tok_type in (NEWLINE, NL):

216

self.prev_row += 1

217

self.prev_col = 0

218

return "".join(self.tokens)

219

220

def compat(self, token, iterable):

221

startline = False

222

indents = []

223

toks_append = self.tokens.append

224

toknum, tokval = token

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

225

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

226

if toknum in (NAME, NUMBER):

227

tokval += ' '

228

if toknum in (NEWLINE, NL):

229

startline = True

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

230

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

231

for tok in iterable:

232

toknum, tokval = tok[:2]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

233

if toknum == ENCODING:

234

self.encoding = tokval

235

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

236

237

if toknum in (NAME, NUMBER):

238

tokval += ' '

239

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

240

# Insert a space between two consecutive strings

241

if toknum == STRING:

242

if prevstring:

243

tokval = ' ' + tokval

prevstring = True

else:

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

248

if toknum == INDENT:

249

indents.append(tokval)

250

continue

251

elif toknum == DEDENT:

252

indents.pop()

253

continue

254

elif toknum in (NEWLINE, NL):

255

startline = True

256

elif startline and indents:

257

toks_append(indents[-1])

258

startline = False

259

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

260

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

261

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

262

def untokenize(iterable):

263

"""Transform tokens back into Python source code.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

264

It returns a bytes object, encoded using the ENCODING

265

token, which is the first token sequence output by tokenize.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

266

267

Each element returned by the iterable must be a token sequence

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

268

with at least two elements, a token number and token value. If

269

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

270

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

271

Round-trip invariant for full input:

272

Untokenized source will match input source exactly

273

274

Round-trip invariant for limited intput:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

275

# Output bytes will tokenize the back to the input

276

t1 = [tok[:2] for tok in tokenize(f.readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

277

newcode = untokenize(t1)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

278

readline = BytesIO(newcode).readline

279

t2 = [tok[:2] for tok in tokenize(readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

280

assert t1 == t2

281

"""

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

282

ut = Untokenizer()

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

283

out = ut.untokenize(iterable)

284

if ut.encoding is not None:

285

out = out.encode(ut.encoding)

286

return out

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

287

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

288

Benjamin Peterson

d3afada

2009-10-09 21:43:09 +0000

[diff] [blame]

289

def _get_normal_name(orig_enc):

290

"""Imitates get_normal_name in tokenizer.c."""

291

# Only care about the first 12 characters.

292

enc = orig_enc[:12].lower().replace("_", "-")

293

if enc == "utf-8" or enc.startswith("utf-8-"):

294

return "utf-8"

295

if enc in ("latin-1", "iso-8859-1", "iso-latin-1") or \

296

enc.startswith(("latin-1-", "iso-8859-1-", "iso-latin-1-")):

return "iso-8859-1"

return orig_enc

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

300

def detect_encoding(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

301

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

302

The detect_encoding() function is used to detect the encoding that should

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame^]

303

be used to decode a Python source file. It requires one argment, readline,

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

304

in the same way as the tokenize() generator.

305

306

It will call readline a maximum of twice, and return the encoding used

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame^]

307

(as a string) and a list of any lines (left as bytes) it has read in.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

308

309

It detects the encoding from the presence of a utf-8 bom or an encoding

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame^]

310

cookie as specified in pep-0263. If both a bom and a cookie are present,

311

but disagree, a SyntaxError will be raised. If the encoding cookie is an

312

invalid charset, raise a SyntaxError. Note that if a utf-8 bom is found,

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

313

'utf-8-sig' is returned.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

314

315

If no encoding is specified, then the default of 'utf-8' will be returned.

316

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

317

bom_found = False

318

encoding = None

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

319

default = 'utf-8'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

def read_or_stop():

try:

return readline()

except StopIteration:

324

return b''

325

326

def find_cookie(line):

327

try:

328

line_string = line.decode('ascii')

329

except UnicodeDecodeError:

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

330

return None

331

332

matches = cookie_re.findall(line_string)

333

if not matches:

334

return None

Benjamin Peterson

d3afada

2009-10-09 21:43:09 +0000

[diff] [blame]

335

encoding = _get_normal_name(matches[0])

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

336

try:

337

codec = lookup(encoding)

338

except LookupError:

339

# This behaviour mimics the Python interpreter

340

raise SyntaxError("unknown encoding: " + encoding)

341

Benjamin Peterson

1613ed8

2010-03-18 22:34:15 +0000

[diff] [blame]

342

if bom_found:

343

if codec.name != 'utf-8':

344

# This behaviour mimics the Python interpreter

345

raise SyntaxError('encoding problem: utf-8')

346

encoding += '-sig'

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

347

return encoding

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

348

349

first = read_or_stop()

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

350

if first.startswith(BOM_UTF8):

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

351

bom_found = True

352

first = first[3:]

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

353

default = 'utf-8-sig'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

354

if not first:

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

355

return default, []

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

356

357

encoding = find_cookie(first)

358

if encoding:

359

return encoding, [first]

360

361

second = read_or_stop()

362

if not second:

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

363

return default, [first]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

364

365

encoding = find_cookie(second)

366

if encoding:

367

return encoding, [first, second]

368

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

369

return default, [first, second]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

370

371

372

def tokenize(readline):

373

"""

374

The tokenize() generator requires one argment, readline, which

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

375

must be a callable object which provides the same interface as the

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame^]

376

readline() method of built-in file objects. Each call to the function

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

377

should return one line of input as bytes. Alternately, readline

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

378

can be a callable function terminating with StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

379

readline = open(myfile, 'rb').__next__ # Example of alternate readline

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

380

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

381

The generator produces 5-tuples with these members: the token type; the

382

token string; a 2-tuple (srow, scol) of ints specifying the row and

383

column where the token begins in the source; a 2-tuple (erow, ecol) of

384

ints specifying the row and column where the token ends in the source;

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame^]

385

and the line on which the token was found. The line passed is the

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

386

logical line; continuation lines are included.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

387

388

The first token sequence will always be an ENCODING token

389

which tells you which encoding was used to decode the bytes stream.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

390

"""

Benjamin Peterson

21db77e

2009-11-14 16:27:26 +0000

[diff] [blame]

391

# This import is here to avoid problems when the itertools module is not

392

# built yet and tokenize is imported.

Benjamin Peterson

81dd8b9

2009-11-14 18:09:17 +0000

[diff] [blame]

393

from itertools import chain, repeat

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

394

encoding, consumed = detect_encoding(readline)

Benjamin Peterson

81dd8b9

2009-11-14 18:09:17 +0000

[diff] [blame]

395

rl_gen = iter(readline, b"")

396

empty = repeat(b"")

397

return _tokenize(chain(consumed, rl_gen, empty).__next__, encoding)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

398

399

400

def _tokenize(readline, encoding):

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

401

lnum = parenlev = continued = 0

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

402

numchars = '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

403

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

404

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

405

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

406

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

407

if encoding is not None:

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

408

if encoding == "utf-8-sig":

409

# BOM will already have been stripped.

410

encoding = "utf-8"

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

411

yield TokenInfo(ENCODING, encoding, (0, 0), (0, 0), '')

Benjamin Peterson

0fe1438

2008-06-05 23:07:42 +0000

[diff] [blame]

412

while True: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

413

try:

414

line = readline()

415

except StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

416

line = b''

417

418

if encoding is not None:

419

line = line.decode(encoding)

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

420

lnum += 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

421

pos, max = 0, len(line)

422

423

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

424

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

425

raise TokenError("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

426

endmatch = endprog.match(line)

427

if endmatch:

428

pos = end = endmatch.end(0)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

429

yield TokenInfo(STRING, contstr + line[:end],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

430

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

431

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

432

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

433

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

434

yield TokenInfo(ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

435

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

436

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

437

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

438

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

439

else:

440

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

441

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

442

continue

443

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

444

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

445

if not line: break

446

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

447

while pos < max: # measure leading whitespace

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

448

if line[pos] == ' ':

449

column += 1

450

elif line[pos] == '\t':

451

column = (column//tabsize + 1)*tabsize

452

elif line[pos] == '\f':

column = 0

else:

break

pos += 1

if pos == max:

break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

459

460

if line[pos] in '#\r\n': # skip comments or blank lines

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

461

if line[pos] == '#':

462

comment_token = line[pos:].rstrip('\r\n')

463

nl_pos = pos + len(comment_token)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

464

yield TokenInfo(COMMENT, comment_token,

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

465

(lnum, pos), (lnum, pos + len(comment_token)), line)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

466

yield TokenInfo(NL, line[nl_pos:],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

467

(lnum, nl_pos), (lnum, len(line)), line)

468

else:

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

469

yield TokenInfo((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

470

(lnum, pos), (lnum, len(line)), line)

471

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

472

473

if column > indents[-1]: # count indents or dedents

474

indents.append(column)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

475

yield TokenInfo(INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

476

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

477

if column not in indents:

478

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame]

479

"unindent does not match any outer indentation level",

480

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

481

indents = indents[:-1]

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

482

yield TokenInfo(DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

483

484

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

485

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

486

raise TokenError("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

487

continued = 0

488

489

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

490

pseudomatch = pseudoprog.match(line, pos)

491

if pseudomatch: # scan for tokens

492

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

493

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

494

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

495

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

496

if (initial in numchars or # ordinary number

497

(initial == '.' and token != '.' and token != '...')):

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

498

yield TokenInfo(NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

499

elif initial in '\r\n':

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

500

yield TokenInfo(NL if parenlev > 0 else NEWLINE,

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

501

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

502

elif initial == '#':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

503

assert not token.endswith("\n")

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

504

yield TokenInfo(COMMENT, token, spos, epos, line)

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

505

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

506

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

507

endmatch = endprog.match(line, pos)

508

if endmatch: # all on one line

509

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

510

token = line[start:pos]

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

511

yield TokenInfo(STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

512

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

513

strstart = (lnum, start) # multiple lines

514

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

515

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

516

break

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

517

elif initial in single_quoted or \

518

token[:2] in single_quoted or \

519

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

520

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

521

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

522

endprog = (endprogs[initial] or endprogs[token[1]] or

523

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

524

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

525

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

526

break

527

else: # ordinary string

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

528

yield TokenInfo(STRING, token, spos, epos, line)

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

529

elif initial.isidentifier(): # ordinary name

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

530

yield TokenInfo(NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

531

elif initial == '\\': # continued stmt

532

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

533

else:

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

534

if initial in '([{':

535

parenlev += 1

536

elif initial in ')]}':

537

parenlev -= 1

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

538

yield TokenInfo(OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

539

else:

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

540

yield TokenInfo(ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

541

(lnum, pos), (lnum, pos+1), line)

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

542

pos += 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

543

544

for indent in indents[1:]: # pop remaining indent levels

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

545

yield TokenInfo(DEDENT, '', (lnum, 0), (lnum, 0), '')

546

yield TokenInfo(ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

547

Trent Nelson