Blame - Lib/tokenize.py - platform/external/python/cpython3

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

3

tokenize(readline) is a generator that breaks a stream of bytes into

4

Python tokens. It decodes the bytes according to PEP-0263 for

5

determining source file encoding.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

6

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

7

It accepts a readline-like method which is called repeatedly to get the

8

next line of input (or b"" for EOF). It generates 5-tuples with these

9

members:

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

10

11

the token type (see token.py)

12

the token (a string)

13

the starting (row, column) indices of the token (a 2-tuple of ints)

14

the ending (row, column) indices of the token (a 2-tuple of ints)

15

the original line (string)

16

17

It is designed to match the working of the Python tokenizer exactly, except

18

that it produces COMMENT tokens for comments and gives type OP for all

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

19

operators. Additionally, all token lists start with an ENCODING token

20

which tells you which encoding was used to decode the bytes stream.

21

"""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

22

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

23

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

24

__credits__ = ('GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, '

25

'Skip Montanaro, Raymond Hettinger, Trent Nelson, '

26

'Michael Foord')

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

27

import re

28

import sys

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

29

from token import *

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

30

from codecs import lookup, BOM_UTF8

Raymond Hettinger

3fb79c7

2010-09-09 07:15:18 +0000

[diff] [blame]

31

import collections

Victor Stinner

58c0752

2010-11-09 01:08:59 +0000

[diff] [blame]

32

from io import TextIOWrapper

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

33

cookie_re = re.compile("coding[:=]\s*([-\w.]+)")

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

34

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

35

import token

Alexander Belopolsky

b9d10d0

2010-11-11 14:07:41 +0000

[diff] [blame]

36

__all__ = token.__all__ + ["COMMENT", "tokenize", "detect_encoding",

37

"NL", "untokenize", "ENCODING", "TokenInfo"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

38

del token

39

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

40

COMMENT = N_TOKENS

41

tok_name[COMMENT] = 'COMMENT'

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

42

NL = N_TOKENS + 1

43

tok_name[NL] = 'NL'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

44

ENCODING = N_TOKENS + 2

45

tok_name[ENCODING] = 'ENCODING'

46

N_TOKENS += 3

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

47

Raymond Hettinger

3fb79c7

2010-09-09 07:15:18 +0000

[diff] [blame]

48

class TokenInfo(collections.namedtuple('TokenInfo', 'type string start end line')):

Raymond Hettinger

aa17a7f

2009-04-29 14:21:25 +0000

[diff] [blame]

49

def __repr__(self):

Raymond Hettinger

a0e7940

2010-09-09 08:29:05 +0000

[diff] [blame]

50

annotated_type = '%d (%s)' % (self.type, tok_name[self.type])

51

return ('TokenInfo(type=%s, string=%r, start=%r, end=%r, line=%r)' %

52

self._replace(type=annotated_type))

Raymond Hettinger

aa17a7f

2009-04-29 14:21:25 +0000

[diff] [blame]

53

Eric S. Raymond

b08b2d3

2001-02-09 11:10:16 +0000

[diff] [blame]

54

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

55

def any(*choices): return group(*choices) + '*'

56

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

57

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

58

# Note: we use unicode matching for names ("\w") but ascii matching for

59

# number literals.

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

60

Whitespace = r'[ \f\t]*'

61

Comment = r'#[^\r\n]*'

62

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

63

Name = r'\w+'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

64

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

65

Hexnumber = r'0[xX][0-9a-fA-F]+'

Georg Brandl

fceab5a

2008-01-19 20:08:23 +0000

[diff] [blame]

66

Binnumber = r'0[bB][01]+'

67

Octnumber = r'0[oO][0-7]+'

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

68

Decnumber = r'(?:0+|[1-9][0-9]*)'

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame]

69

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

70

Exponent = r'[eE][-+]?[0-9]+'

71

Pointfloat = group(r'[0-9]+\.[0-9]*', r'\.[0-9]+') + maybe(Exponent)

72

Expfloat = r'[0-9]+' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

73

Floatnumber = group(Pointfloat, Expfloat)

Antoine Pitrou

2008-08-19 17:56:33 +0000

[diff] [blame]

74

Imagnumber = group(r'[0-9]+[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

75

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

76

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

77

# Tail end of ' string.

78

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

79

# Tail end of " string.

80

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

81

# Tail end of ''' string.

82

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

83

# Tail end of """ string.

84

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

85

Triple = group("[bB]?[rR]?'''", '[bB]?[rR]?"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

86

# Single-line ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

87

String = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

88

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

89

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

90

# Because of leftmost-then-longest match semantics, be sure to put the

91

# longest operators first (e.g., if = came before ==, == would get

92

# recognized as two instances of =).

Guido van Rossum

b053cd8

2006-08-24 03:53:23 +0000

[diff] [blame]

93

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"!=",

Neal Norwitz

c150536

2006-12-28 06:47:50 +0000

[diff] [blame]

94

r"//=?", r"->",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

95

r"[+\-*/%&|^=<>]=?",

96

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

97

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

98

Bracket = '[][(){}]'

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

99

Special = group(r'\r?\n', r'\.\.\.', r'[:;.,@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

100

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

101

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

102

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

103

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

104

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

105

# First (or only) line of ' or " string.

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

106

ContStr = group(r"[bB]?[rR]?'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

107

group("'", r'\\\r?\n'),

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

108

r'[bB]?[rR]?"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

109

group('"', r'\\\r?\n'))

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

110

PseudoExtras = group(r'\\\r?\n', Comment, Triple)

111

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

112

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

113

def _compile(expr):

114

return re.compile(expr, re.UNICODE)

115

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

116

tokenprog, pseudoprog, single3prog, double3prog = map(

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

117

_compile, (Token, PseudoToken, Single3, Double3))

118

endprogs = {"'": _compile(Single), '"': _compile(Double),

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

119

"'''": single3prog, '"""': double3prog,

Guido van Rossum

fefc922

1997-10-27 21:17:24 +0000

[diff] [blame]

120

"r'''": single3prog, 'r"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

121

"b'''": single3prog, 'b"""': double3prog,

122

"br'''": single3prog, 'br"""': double3prog,

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

123

"R'''": single3prog, 'R"""': double3prog,

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

124

"B'''": single3prog, 'B"""': double3prog,

125

"bR'''": single3prog, 'bR"""': double3prog,

126

"Br'''": single3prog, 'Br"""': double3prog,

127

"BR'''": single3prog, 'BR"""': double3prog,

128

'r': None, 'R': None, 'b': None, 'B': None}

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

129

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

130

triple_quoted = {}

131

for t in ("'''", '"""',

132

"r'''", 'r"""', "R'''", 'R"""',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

133

"b'''", 'b"""', "B'''", 'B"""',

134

"br'''", 'br"""', "Br'''", 'Br"""',

135

"bR'''", 'bR"""', "BR'''", 'BR"""'):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

triple_quoted[t] = t

single_quoted = {}

for t in ("'", '"',

"r'", 'r"', "R'", 'R"',

Guido van Rossum

2007-11-12 17:40:10 +0000

[diff] [blame]

140

"b'", 'b"', "B'", 'B"',

141

"br'", 'br"', "Br'", 'Br"',

142

"bR'", 'bR"', "BR'", 'BR"' ):

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

143

single_quoted[t] = t

144

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

145

del _compile

146

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

147

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

148

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

149

class TokenError(Exception): pass

150

151

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

152

Tim Peters

5ca576e

2001-06-18 22:08:13 +0000

[diff] [blame]

153

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

160

self.encoding = None

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

161

162

def add_whitespace(self, start):

163

row, col = start

164

assert row <= self.prev_row

165

col_offset = col - self.prev_col

166

if col_offset:

167

self.tokens.append(" " * col_offset)

168

169

def untokenize(self, iterable):

170

for t in iterable:

171

if len(t) == 2:

172

self.compat(t, iterable)

173

break

174

tok_type, token, start, end, line = t

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

175

if tok_type == ENCODING:

176

self.encoding = token

177

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

178

self.add_whitespace(start)

179

self.tokens.append(token)

180

self.prev_row, self.prev_col = end

181

if tok_type in (NEWLINE, NL):

182

self.prev_row += 1

183

self.prev_col = 0

184

return "".join(self.tokens)

185

186

def compat(self, token, iterable):

187

startline = False

188

indents = []

189

toks_append = self.tokens.append

190

toknum, tokval = token

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

191

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

192

if toknum in (NAME, NUMBER):

193

tokval += ' '

194

if toknum in (NEWLINE, NL):

195

startline = True

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

196

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

197

for tok in iterable:

198

toknum, tokval = tok[:2]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

199

if toknum == ENCODING:

200

self.encoding = tokval

201

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

202

203

if toknum in (NAME, NUMBER):

204

tokval += ' '

205

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

206

# Insert a space between two consecutive strings

207

if toknum == STRING:

208

if prevstring:

209

tokval = ' ' + tokval

prevstring = True

else:

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

214

if toknum == INDENT:

215

indents.append(tokval)

216

continue

217

elif toknum == DEDENT:

218

indents.pop()

219

continue

220

elif toknum in (NEWLINE, NL):

221

startline = True

222

elif startline and indents:

223

toks_append(indents[-1])

224

startline = False

225

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

226

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

227

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

228

def untokenize(iterable):

229

"""Transform tokens back into Python source code.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

230

It returns a bytes object, encoded using the ENCODING

231

token, which is the first token sequence output by tokenize.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

232

233

Each element returned by the iterable must be a token sequence

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

234

with at least two elements, a token number and token value. If

235

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

236

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

237

Round-trip invariant for full input:

238

Untokenized source will match input source exactly

239

240

Round-trip invariant for limited intput:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

241

# Output bytes will tokenize the back to the input

242

t1 = [tok[:2] for tok in tokenize(f.readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

243

newcode = untokenize(t1)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

244

readline = BytesIO(newcode).readline

245

t2 = [tok[:2] for tok in tokenize(readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

246

assert t1 == t2

247

"""

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

248

ut = Untokenizer()

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

249

out = ut.untokenize(iterable)

250

if ut.encoding is not None:

251

out = out.encode(ut.encoding)

252

return out

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

253

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

254

Benjamin Peterson

d3afada

2009-10-09 21:43:09 +0000

[diff] [blame]

255

def _get_normal_name(orig_enc):

256

"""Imitates get_normal_name in tokenizer.c."""

257

# Only care about the first 12 characters.

258

enc = orig_enc[:12].lower().replace("_", "-")

259

if enc == "utf-8" or enc.startswith("utf-8-"):

260

return "utf-8"

261

if enc in ("latin-1", "iso-8859-1", "iso-latin-1") or \

262

enc.startswith(("latin-1-", "iso-8859-1-", "iso-latin-1-")):

return "iso-8859-1"

return orig_enc

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

266

def detect_encoding(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

267

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

268

The detect_encoding() function is used to detect the encoding that should

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

269

be used to decode a Python source file. It requires one argment, readline,

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

270

in the same way as the tokenize() generator.

271

272

It will call readline a maximum of twice, and return the encoding used

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

273

(as a string) and a list of any lines (left as bytes) it has read in.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

274

275

It detects the encoding from the presence of a utf-8 bom or an encoding

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

276

cookie as specified in pep-0263. If both a bom and a cookie are present,

277

but disagree, a SyntaxError will be raised. If the encoding cookie is an

278

invalid charset, raise a SyntaxError. Note that if a utf-8 bom is found,

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

279

'utf-8-sig' is returned.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

280

281

If no encoding is specified, then the default of 'utf-8' will be returned.

282

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

283

bom_found = False

284

encoding = None

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

285

default = 'utf-8'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

def read_or_stop():

try:

return readline()

except StopIteration:

290

return b''

291

292

def find_cookie(line):

293

try:

294

line_string = line.decode('ascii')

295

except UnicodeDecodeError:

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

296

return None

297

298

matches = cookie_re.findall(line_string)

299

if not matches:

300

return None

Benjamin Peterson

d3afada

2009-10-09 21:43:09 +0000

[diff] [blame]

301

encoding = _get_normal_name(matches[0])

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

302

try:

303

codec = lookup(encoding)

304

except LookupError:

305

# This behaviour mimics the Python interpreter

306

raise SyntaxError("unknown encoding: " + encoding)

307

Benjamin Peterson

1613ed8

2010-03-18 22:34:15 +0000

[diff] [blame]

308

if bom_found:

309

if codec.name != 'utf-8':

310

# This behaviour mimics the Python interpreter

311

raise SyntaxError('encoding problem: utf-8')

312

encoding += '-sig'

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

313

return encoding

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

314

315

first = read_or_stop()

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

316

if first.startswith(BOM_UTF8):

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

317

bom_found = True

318

first = first[3:]

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

319

default = 'utf-8-sig'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

320

if not first:

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

321

return default, []

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

322

323

encoding = find_cookie(first)

324

if encoding:

325

return encoding, [first]

326

327

second = read_or_stop()

328

if not second:

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

329

return default, [first]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

330

331

encoding = find_cookie(second)

332

if encoding:

333

return encoding, [first, second]

334

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

335

return default, [first, second]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

336

337

Victor Stinner

58c0752

2010-11-09 01:08:59 +0000

[diff] [blame]

_builtin_open = open

def open(filename):

"""Open a file in read only mode using the encoding detected by

342

detect_encoding().

343

"""

344

buffer = _builtin_open(filename, 'rb')

345

encoding, lines = detect_encoding(buffer.readline)

346

buffer.seek(0)

347

text = TextIOWrapper(buffer, encoding, line_buffering=True)

text.mode = 'r'

return text

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

352

def tokenize(readline):

353

"""

354

The tokenize() generator requires one argment, readline, which

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

355

must be a callable object which provides the same interface as the

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

356

readline() method of built-in file objects. Each call to the function

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

357

should return one line of input as bytes. Alternately, readline

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

358

can be a callable function terminating with StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

359

readline = open(myfile, 'rb').__next__ # Example of alternate readline

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

360

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

361

The generator produces 5-tuples with these members: the token type; the

362

token string; a 2-tuple (srow, scol) of ints specifying the row and

363

column where the token begins in the source; a 2-tuple (erow, ecol) of

364

ints specifying the row and column where the token ends in the source;

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

365

and the line on which the token was found. The line passed is the

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

366

logical line; continuation lines are included.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

367

368

The first token sequence will always be an ENCODING token

369

which tells you which encoding was used to decode the bytes stream.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

370

"""

Benjamin Peterson

21db77e

2009-11-14 16:27:26 +0000

[diff] [blame]

371

# This import is here to avoid problems when the itertools module is not

372

# built yet and tokenize is imported.

Benjamin Peterson

81dd8b9

2009-11-14 18:09:17 +0000

[diff] [blame]

373

from itertools import chain, repeat

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

374

encoding, consumed = detect_encoding(readline)

Benjamin Peterson

81dd8b9

2009-11-14 18:09:17 +0000

[diff] [blame]

375

rl_gen = iter(readline, b"")

376

empty = repeat(b"")

377

return _tokenize(chain(consumed, rl_gen, empty).__next__, encoding)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

378

379

380

def _tokenize(readline, encoding):

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

381

lnum = parenlev = continued = 0

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

382

numchars = '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

383

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

384

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

385

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

386

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

387

if encoding is not None:

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

388

if encoding == "utf-8-sig":

389

# BOM will already have been stripped.

390

encoding = "utf-8"

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

391

yield TokenInfo(ENCODING, encoding, (0, 0), (0, 0), '')

Benjamin Peterson

0fe1438

2008-06-05 23:07:42 +0000

[diff] [blame]

392

while True: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

393

try:

394

line = readline()

395

except StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

396

line = b''

397

398

if encoding is not None:

399

line = line.decode(encoding)

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

400

lnum += 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

401

pos, max = 0, len(line)

402

403

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

404

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

405

raise TokenError("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

406

endmatch = endprog.match(line)

407

if endmatch:

408

pos = end = endmatch.end(0)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

409

yield TokenInfo(STRING, contstr + line[:end],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

410

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

411

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

412

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

413

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

414

yield TokenInfo(ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

415

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

416

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

417

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

418

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

419

else:

420

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

421

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

422

continue

423

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

424

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

425

if not line: break

426

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

427

while pos < max: # measure leading whitespace

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

428

if line[pos] == ' ':

429

column += 1

430

elif line[pos] == '\t':

431

column = (column//tabsize + 1)*tabsize

432

elif line[pos] == '\f':

column = 0

else:

break

pos += 1

if pos == max:

break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

439

440

if line[pos] in '#\r\n': # skip comments or blank lines

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

441

if line[pos] == '#':

442

comment_token = line[pos:].rstrip('\r\n')

443

nl_pos = pos + len(comment_token)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

444

yield TokenInfo(COMMENT, comment_token,

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

445

(lnum, pos), (lnum, pos + len(comment_token)), line)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

446

yield TokenInfo(NL, line[nl_pos:],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

447

(lnum, nl_pos), (lnum, len(line)), line)

448

else:

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

449

yield TokenInfo((NL, COMMENT)[line[pos] == '#'], line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

450

(lnum, pos), (lnum, len(line)), line)

451

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

452

453

if column > indents[-1]: # count indents or dedents

454

indents.append(column)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

455

yield TokenInfo(INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

456

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

457

if column not in indents:

458

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame]

459

"unindent does not match any outer indentation level",

460

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

461

indents = indents[:-1]

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

462

yield TokenInfo(DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

463

464

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

465

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

466

raise TokenError("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

467

continued = 0

468

469

while pos < max:

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

470

pseudomatch = pseudoprog.match(line, pos)

471

if pseudomatch: # scan for tokens

472

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

473

spos, epos, pos = (lnum, start), (lnum, end), end

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

474

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

475

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

476

if (initial in numchars or # ordinary number

477

(initial == '.' and token != '.' and token != '...')):

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

478

yield TokenInfo(NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

479

elif initial in '\r\n':

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

480

yield TokenInfo(NL if parenlev > 0 else NEWLINE,

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

481

token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

482

elif initial == '#':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

483

assert not token.endswith("\n")

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

484

yield TokenInfo(COMMENT, token, spos, epos, line)

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

485

elif token in triple_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

486

endprog = endprogs[token]

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

487

endmatch = endprog.match(line, pos)

488

if endmatch: # all on one line

489

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

490

token = line[start:pos]

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

491

yield TokenInfo(STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

492

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

493

strstart = (lnum, start) # multiple lines

494

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

495

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

496

break

Guido van Rossum

2002-08-24 06:54:19 +0000

[diff] [blame]

497

elif initial in single_quoted or \

498

token[:2] in single_quoted or \

499

token[:3] in single_quoted:

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

500

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

501

strstart = (lnum, start)

Ka-Ping Yee

2001-01-15 22:04:30 +0000

[diff] [blame]

502

endprog = (endprogs[initial] or endprogs[token[1]] or

503

endprogs[token[2]])

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

504

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

505

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

506

break

507

else: # ordinary string

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

508

yield TokenInfo(STRING, token, spos, epos, line)

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

509

elif initial.isidentifier(): # ordinary name

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

510

yield TokenInfo(NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

511

elif initial == '\\': # continued stmt

512

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

513

else:

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

514

if initial in '([{':

515

parenlev += 1

516

elif initial in ')]}':

517

parenlev -= 1

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

518

yield TokenInfo(OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

519

else:

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

520

yield TokenInfo(ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

521

(lnum, pos), (lnum, pos+1), line)

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

522

pos += 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

523

524

for indent in indents[1:]: # pop remaining indent levels

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

525

yield TokenInfo(DEDENT, '', (lnum, 0), (lnum, 0), '')

526

yield TokenInfo(ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

527

Trent Nelson