Blame - Lib/tokenize.py - platform/external/python/cpython3

1992-01-01 19:34:47 +0000

[diff] [blame]

2

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

3

tokenize(readline) is a generator that breaks a stream of bytes into

4

Python tokens. It decodes the bytes according to PEP-0263 for

5

determining source file encoding.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

6

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

7

It accepts a readline-like method which is called repeatedly to get the

8

next line of input (or b"" for EOF). It generates 5-tuples with these

9

members:

Tim Peters

4efb6e9

2001-06-29 23:51:08 +0000

[diff] [blame]

10

11

the token type (see token.py)

12

the token (a string)

13

the starting (row, column) indices of the token (a 2-tuple of ints)

14

the ending (row, column) indices of the token (a 2-tuple of ints)

15

the original line (string)

16

17

It is designed to match the working of the Python tokenizer exactly, except

18

that it produces COMMENT tokens for comments and gives type OP for all

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

19

operators. Additionally, all token lists start with an ENCODING token

20

which tells you which encoding was used to decode the bytes stream.

21

"""

Guido van Rossum

b51eaa1

1997-03-07 00:21:55 +0000

[diff] [blame]

22

Ka-Ping Yee

244c593

2001-03-01 13:56:40 +0000

[diff] [blame]

23

__author__ = 'Ka-Ping Yee <ping@lfw.org>'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

24

__credits__ = ('GvR, ESR, Tim Peters, Thomas Wouters, Fred Drake, '

25

'Skip Montanaro, Raymond Hettinger, Trent Nelson, '

26

'Michael Foord')

Serhiy Storchaka

cf4a2f2

2015-03-11 17:18:03 +0200

[diff] [blame]

27

from builtins import open as _builtin_open

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

28

from codecs import lookup, BOM_UTF8

Raymond Hettinger

3fb79c7

2010-09-09 07:15:18 +0000

[diff] [blame]

29

import collections

Victor Stinner

58c0752

2010-11-09 01:08:59 +0000

[diff] [blame]

30

from io import TextIOWrapper

Eric V. Smith

2015-10-26 04:37:55 -0400

[diff] [blame]

31

import itertools as _itertools

Terry Jan Reedy

2014-02-17 23:12:16 -0500

[diff] [blame]

import re

import sys

from token import *

Serhiy Storchaka

2016-03-20 23:36:29 +0200

[diff] [blame]

36

cookie_re = re.compile(r'^[ \t\f]*#.*?coding[:=][ \t]*([-\w.]+)', re.ASCII)

Serhiy Storchaka

768c16c

2014-01-09 18:36:09 +0200

[diff] [blame]

37

blank_re = re.compile(br'^[ \t\f]*(?:[#\r\n]|$)', re.ASCII)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

38

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

39

import token

Thomas Kluyver

c56b17b

2018-06-05 19:26:39 +0200

[diff] [blame]

40

__all__ = token.__all__ + ["tokenize", "generate_tokens", "detect_encoding",

Albert-Jan Nijburg

fc354f0

2017-05-31 15:00:21 +0100

[diff] [blame]

41

"untokenize", "TokenInfo"]

Skip Montanaro

40fc160

2001-03-01 04:27:19 +0000

[diff] [blame]

42

del token

43

Meador Inge

2012-01-19 00:44:45 -0600

[diff] [blame]

44

EXACT_TOKEN_TYPES = {

'(': LPAR,

')': RPAR,

'[': LSQB,

']': RSQB,

':': COLON,

',': COMMA,

';': SEMI,

'+': PLUS,

'-': MINUS,

'*': STAR,

'/': SLASH,

'|': VBAR,

'&': AMPER,

'<': LESS,

'>': GREATER,

'=': EQUAL,

'.': DOT,

'%': PERCENT,

'{': LBRACE,

'}': RBRACE,

'==': EQEQUAL,

'!=': NOTEQUAL,

'<=': LESSEQUAL,

'>=': GREATEREQUAL,

'~': TILDE,

'^': CIRCUMFLEX,

'<<': LEFTSHIFT,

'>>': RIGHTSHIFT,

'**': DOUBLESTAR,

'+=': PLUSEQUAL,

'-=': MINEQUAL,

'*=': STAREQUAL,

'/=': SLASHEQUAL,

'%=': PERCENTEQUAL,

'&=': AMPEREQUAL,

'|=': VBAREQUAL,

Jim Fasarakis-Hilliard

d4914e9

2017-03-14 22:16:15 +0200

[diff] [blame]

81

'^=': CIRCUMFLEXEQUAL,

Meador Inge

2012-01-19 00:44:45 -0600

[diff] [blame]

82

'<<=': LEFTSHIFTEQUAL,

83

'>>=': RIGHTSHIFTEQUAL,

84

'**=': DOUBLESTAREQUAL,

85

'//': DOUBLESLASH,

86

'//=': DOUBLESLASHEQUAL,

Jim Fasarakis-Hilliard

d4914e9

2017-03-14 22:16:15 +0200

[diff] [blame]

87

'...': ELLIPSIS,

88

'->': RARROW,

Benjamin Peterson

d51374e

2014-04-09 23:55:56 -0400

[diff] [blame]

89

'@': AT,

90

'@=': ATEQUAL,

Meador Inge

2012-01-19 00:44:45 -0600

[diff] [blame]

91

}

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

92

Raymond Hettinger

3fb79c7

2010-09-09 07:15:18 +0000

[diff] [blame]

93

class TokenInfo(collections.namedtuple('TokenInfo', 'type string start end line')):

Raymond Hettinger

aa17a7f

2009-04-29 14:21:25 +0000

[diff] [blame]

94

def __repr__(self):

Raymond Hettinger

a0e7940

2010-09-09 08:29:05 +0000

[diff] [blame]

95

annotated_type = '%d (%s)' % (self.type, tok_name[self.type])

96

return ('TokenInfo(type=%s, string=%r, start=%r, end=%r, line=%r)' %

97

self._replace(type=annotated_type))

Raymond Hettinger

aa17a7f

2009-04-29 14:21:25 +0000

[diff] [blame]

98

Meador Inge

2012-01-19 00:44:45 -0600

[diff] [blame]

99

@property

100

def exact_type(self):

101

if self.type == OP and self.string in EXACT_TOKEN_TYPES:

102

return EXACT_TOKEN_TYPES[self.string]

else:

return self.type

Eric S. Raymond

2001-02-09 11:10:16 +0000

[diff] [blame]

106

def group(*choices): return '(' + '|'.join(choices) + ')'

Guido van Rossum

68468eb

2003-02-27 20:14:51 +0000

[diff] [blame]

107

def any(*choices): return group(*choices) + '*'

108

def maybe(*choices): return group(*choices) + '?'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

109

Antoine Pitrou

fd03645

2008-08-19 17:56:33 +0000

[diff] [blame]

110

# Note: we use unicode matching for names ("\w") but ascii matching for

111

# number literals.

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

112

Whitespace = r'[ \f\t]*'

113

Comment = r'#[^\r\n]*'

114

Ignore = Whitespace + any(r'\\\r?\n' + Whitespace) + maybe(Comment)

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

115

Name = r'\w+'

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

116

Brett Cannon

a721aba

2016-09-09 14:57:09 -0700

[diff] [blame]

117

Hexnumber = r'0[xX](?:_?[0-9a-fA-F])+'

118

Binnumber = r'0[bB](?:_?[01])+'

119

Octnumber = r'0[oO](?:_?[0-7])+'

120

Decnumber = r'(?:0(?:_?0)*|[1-9](?:_?[0-9])*)'

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame]

121

Intnumber = group(Hexnumber, Binnumber, Octnumber, Decnumber)

Brett Cannon

a721aba

2016-09-09 14:57:09 -0700

[diff] [blame]

122

Exponent = r'[eE][-+]?[0-9](?:_?[0-9])*'

123

Pointfloat = group(r'[0-9](?:_?[0-9])*\.(?:[0-9](?:_?[0-9])*)?',

124

r'\.[0-9](?:_?[0-9])*') + maybe(Exponent)

125

Expfloat = r'[0-9](?:_?[0-9])*' + Exponent

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

126

Floatnumber = group(Pointfloat, Expfloat)

Brett Cannon

a721aba

2016-09-09 14:57:09 -0700

[diff] [blame]

127

Imagnumber = group(r'[0-9](?:_?[0-9])*[jJ]', Floatnumber + r'[jJ]')

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

128

Number = group(Imagnumber, Floatnumber, Intnumber)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

129

Eric V. Smith

2015-10-26 04:37:55 -0400

[diff] [blame]

130

# Return the empty string, plus all of the valid string prefixes.

131

def _all_string_prefixes():

132

# The valid string prefixes. Only contain the lower case versions,

133

# and don't contain any permuations (include 'fr', but not

134

# 'rf'). The various permutations will be generated.

135

_valid_string_prefixes = ['b', 'r', 'u', 'f', 'br', 'fr']

136

# if we add binary f-strings, add: ['fb', 'fbr']

Jon Dufresne

3972628

2017-05-18 07:35:54 -0700

[diff] [blame]

137

result = {''}

Eric V. Smith

2015-10-26 04:37:55 -0400

[diff] [blame]

138

for prefix in _valid_string_prefixes:

139

for t in _itertools.permutations(prefix):

140

# create a list with upper and lower versions of each

141

# character

142

for u in _itertools.product(*[(c, c.upper()) for c in t]):

143

result.add(''.join(u))

return result

def _compile(expr):

return re.compile(expr, re.UNICODE)

148

149

# Note that since _all_string_prefixes includes the empty string,

150

# StringPrefix can be the empty string (making it optional).

151

StringPrefix = group(*_all_string_prefixes())

Armin Ronacher

2012-03-04 13:07:57 +0000

[diff] [blame]

152

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

153

# Tail end of ' string.

154

Single = r"[^'\\]*(?:\\.[^'\\]*)*'"

155

# Tail end of " string.

156

Double = r'[^"\\]*(?:\\.[^"\\]*)*"'

157

# Tail end of ''' string.

158

Single3 = r"[^'\\]*(?:(?:\\.|'(?!''))[^'\\]*)*'''"

159

# Tail end of """ string.

160

Double3 = r'[^"\\]*(?:(?:\\.|"(?!""))[^"\\]*)*"""'

Armin Ronacher

2012-03-04 13:07:57 +0000

[diff] [blame]

161

Triple = group(StringPrefix + "'''", StringPrefix + '"""')

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

162

# Single-line ' or " string.

Armin Ronacher

2012-03-04 13:07:57 +0000

[diff] [blame]

163

String = group(StringPrefix + r"'[^\n'\\]*(?:\\.[^\n'\\]*)*'",

164

StringPrefix + r'"[^\n"\\]*(?:\\.[^\n"\\]*)*"')

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

165

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

166

# Because of leftmost-then-longest match semantics, be sure to put the

167

# longest operators first (e.g., if = came before ==, == would get

168

# recognized as two instances of =).

Guido van Rossum

b053cd8

2006-08-24 03:53:23 +0000

[diff] [blame]

169

Operator = group(r"\*\*=?", r">>=?", r"<<=?", r"!=",

Neal Norwitz

c150536

2006-12-28 06:47:50 +0000

[diff] [blame]

170

r"//=?", r"->",

Benjamin Peterson

d51374e

2014-04-09 23:55:56 -0400

[diff] [blame]

171

r"[+\-*/%&@|^=<>]=?",

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

172

r"~")

Thomas Wouters

e1519a1

2000-08-24 21:44:52 +0000

[diff] [blame]

173

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

174

Bracket = '[][(){}]'

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

175

Special = group(r'\r?\n', r'\.\.\.', r'[:;.,@]')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

176

Funny = group(Operator, Bracket, Special)

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

177

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

178

PlainToken = group(Number, Funny, String, Name)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

179

Token = Ignore + PlainToken

Guido van Rossum

1992-01-01 19:34:47 +0000

[diff] [blame]

180

Tim Peters

2000-10-07 05:09:39 +0000

[diff] [blame]

181

# First (or only) line of ' or " string.

Armin Ronacher

2012-03-04 13:07:57 +0000

[diff] [blame]

182

ContStr = group(StringPrefix + r"'[^\n'\\]*(?:\\.[^\n'\\]*)*" +

Ka-Ping Yee

1ff08b1

2001-01-15 22:04:30 +0000

[diff] [blame]

183

group("'", r'\\\r?\n'),

Armin Ronacher

2012-03-04 13:07:57 +0000

[diff] [blame]

184

StringPrefix + r'"[^\n"\\]*(?:\\.[^\n"\\]*)*' +

Ka-Ping Yee

1ff08b1

2001-01-15 22:04:30 +0000

[diff] [blame]

185

group('"', r'\\\r?\n'))

Ezio Melotti

2cc3b4b

2012-11-03 17:38:43 +0200

[diff] [blame]

186

PseudoExtras = group(r'\\\r?\n|\Z', Comment, Triple)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

187

PseudoToken = Whitespace + group(PseudoExtras, Number, Funny, ContStr, Name)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

188

Eric V. Smith

2015-10-26 04:37:55 -0400

[diff] [blame]

189

# For a given string prefix plus quotes, endpats maps it to a regex

190

# to match the remainder of that string. _prefix can be empty, for

191

# a normal single or triple quoted string (with no prefix).

192

endpats = {}

193

for _prefix in _all_string_prefixes():

194

endpats[_prefix + "'"] = Single

195

endpats[_prefix + '"'] = Double

196

endpats[_prefix + "'''"] = Single3

197

endpats[_prefix + '"""'] = Double3

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

198

Eric V. Smith

2015-10-26 04:37:55 -0400

[diff] [blame]

199

# A set of all of the single and triple quoted string prefixes,

200

# including the opening quotes.

201

single_quoted = set()

202

triple_quoted = set()

203

for t in _all_string_prefixes():

204

for u in (t + '"', t + "'"):

205

single_quoted.add(u)

206

for u in (t + '"""', t + "'''"):

207

triple_quoted.add(u)

Guido van Rossum

9d6897a

2002-08-24 06:54:19 +0000

[diff] [blame]

208

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

209

tabsize = 8

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

210

Ka-Ping Yee

28c62bb

2001-03-23 05:22:49 +0000

[diff] [blame]

211

class TokenError(Exception): pass

212

213

class StopTokenizing(Exception): pass

Fred Drake

9b8d801

2000-08-17 04:45:13 +0000

[diff] [blame]

214

Tim Peters

5ca576e

2001-06-18 22:08:13 +0000

[diff] [blame]

215

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

class Untokenizer:

def __init__(self):

self.tokens = []

self.prev_row = 1

self.prev_col = 0

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

222

self.encoding = None

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

223

224

def add_whitespace(self, start):

225

row, col = start

Terry Jan Reedy

5e6db31

2014-02-17 16:45:48 -0500

[diff] [blame]

226

if row < self.prev_row or row == self.prev_row and col < self.prev_col:

227

raise ValueError("start ({},{}) precedes previous end ({},{})"

228

.format(row, col, self.prev_row, self.prev_col))

Terry Jan Reedy

9dc3a36

2014-02-23 23:33:08 -0500

[diff] [blame]

229

row_offset = row - self.prev_row

Terry Jan Reedy

f106f8f

2014-02-23 23:39:57 -0500

[diff] [blame]

230

if row_offset:

Terry Jan Reedy

9dc3a36

2014-02-23 23:33:08 -0500

[diff] [blame]

231

self.tokens.append("\\\n" * row_offset)

232

self.prev_col = 0

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

233

col_offset = col - self.prev_col

234

if col_offset:

235

self.tokens.append(" " * col_offset)

236

237

def untokenize(self, iterable):

Terry Jan Reedy

2014-02-17 23:12:16 -0500

[diff] [blame]

238

it = iter(iterable)

Dingyuan Wang

e411b66

2015-06-22 10:01:12 +0800

[diff] [blame]

239

indents = []

240

startline = False

Terry Jan Reedy

2014-02-17 23:12:16 -0500

[diff] [blame]

241

for t in it:

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

242

if len(t) == 2:

Terry Jan Reedy

2014-02-17 23:12:16 -0500

[diff] [blame]

243

self.compat(t, it)

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

244

break

245

tok_type, token, start, end, line = t

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

246

if tok_type == ENCODING:

247

self.encoding = token

248

continue

Terry Jan Reedy

9dc3a36

2014-02-23 23:33:08 -0500

[diff] [blame]

249

if tok_type == ENDMARKER:

250

break

Dingyuan Wang

e411b66

2015-06-22 10:01:12 +0800

[diff] [blame]

251

if tok_type == INDENT:

252

indents.append(token)

253

continue

254

elif tok_type == DEDENT:

255

indents.pop()

256

self.prev_row, self.prev_col = end

257

continue

258

elif tok_type in (NEWLINE, NL):

259

startline = True

260

elif startline and indents:

261

indent = indents[-1]

262

if start[1] >= len(indent):

263

self.tokens.append(indent)

264

self.prev_col = len(indent)

265

startline = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

266

self.add_whitespace(start)

267

self.tokens.append(token)

268

self.prev_row, self.prev_col = end

269

if tok_type in (NEWLINE, NL):

270

self.prev_row += 1

271

self.prev_col = 0

272

return "".join(self.tokens)

273

274

def compat(self, token, iterable):

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

275

indents = []

276

toks_append = self.tokens.append

Terry Jan Reedy

2014-02-17 23:12:16 -0500

[diff] [blame]

277

startline = token[0] in (NEWLINE, NL)

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

278

prevstring = False

Terry Jan Reedy

2014-02-17 23:12:16 -0500

[diff] [blame]

279

Łukasz Langa

2018-04-23 01:07:11 -0700

[diff] [blame]

280

for tok in _itertools.chain([token], iterable):

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

281

toknum, tokval = tok[:2]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

282

if toknum == ENCODING:

283

self.encoding = tokval

284

continue

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

285

Serhiy Storchaka

d08972f

2018-04-11 19:15:51 +0300

[diff] [blame]

286

if toknum in (NAME, NUMBER):

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

287

tokval += ' '

288

Christian Heimes

ba4af49

2008-03-28 00:55:15 +0000

[diff] [blame]

289

# Insert a space between two consecutive strings

290

if toknum == STRING:

291

if prevstring:

292

tokval = ' ' + tokval

prevstring = True

else:

prevstring = False

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

297

if toknum == INDENT:

298

indents.append(tokval)

299

continue

300

elif toknum == DEDENT:

301

indents.pop()

302

continue

303

elif toknum in (NEWLINE, NL):

304

startline = True

305

elif startline and indents:

306

toks_append(indents[-1])

307

startline = False

308

toks_append(tokval)

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

309

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

310

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

311

def untokenize(iterable):

312

"""Transform tokens back into Python source code.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

313

It returns a bytes object, encoded using the ENCODING

314

token, which is the first token sequence output by tokenize.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

315

316

Each element returned by the iterable must be a token sequence

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

317

with at least two elements, a token number and token value. If

318

only two tokens are passed, the resulting output is poor.

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

319

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

320

Round-trip invariant for full input:

321

Untokenized source will match input source exactly

322

Berker Peksag

ff8d087

2015-12-30 01:41:58 +0200

[diff] [blame]

323

Round-trip invariant for limited input:

324

# Output bytes will tokenize back to the input

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

325

t1 = [tok[:2] for tok in tokenize(f.readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

326

newcode = untokenize(t1)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

327

readline = BytesIO(newcode).readline

328

t2 = [tok[:2] for tok in tokenize(readline)]

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

329

assert t1 == t2

330

"""

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

331

ut = Untokenizer()

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

332

out = ut.untokenize(iterable)

333

if ut.encoding is not None:

334

out = out.encode(ut.encoding)

335

return out

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

336

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

337

Benjamin Peterson

d3afada

2009-10-09 21:43:09 +0000

[diff] [blame]

338

def _get_normal_name(orig_enc):

339

"""Imitates get_normal_name in tokenizer.c."""

340

# Only care about the first 12 characters.

341

enc = orig_enc[:12].lower().replace("_", "-")

342

if enc == "utf-8" or enc.startswith("utf-8-"):

343

return "utf-8"

344

if enc in ("latin-1", "iso-8859-1", "iso-latin-1") or \

345

enc.startswith(("latin-1-", "iso-8859-1-", "iso-latin-1-")):

return "iso-8859-1"

return orig_enc

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

349

def detect_encoding(readline):

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

350

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

351

The detect_encoding() function is used to detect the encoding that should

Ezio Melotti

4bcc796

2013-11-25 05:14:51 +0200

[diff] [blame]

352

be used to decode a Python source file. It requires one argument, readline,

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

353

in the same way as the tokenize() generator.

354

355

It will call readline a maximum of twice, and return the encoding used

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

356

(as a string) and a list of any lines (left as bytes) it has read in.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

357

358

It detects the encoding from the presence of a utf-8 bom or an encoding

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

359

cookie as specified in pep-0263. If both a bom and a cookie are present,

360

but disagree, a SyntaxError will be raised. If the encoding cookie is an

361

invalid charset, raise a SyntaxError. Note that if a utf-8 bom is found,

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

362

'utf-8-sig' is returned.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

363

364

If no encoding is specified, then the default of 'utf-8' will be returned.

365

"""

Brett Cannon

2012-04-20 13:23:54 -0400

[diff] [blame]

366

try:

367

filename = readline.__self__.name

368

except AttributeError:

369

filename = None

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

370

bom_found = False

371

encoding = None

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

372

default = 'utf-8'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

def read_or_stop():

try:

return readline()

except StopIteration:

377

return b''

378

379

def find_cookie(line):

380

try:

Martin v. Löwis

63674f4

2012-04-20 14:36:47 +0200

[diff] [blame]

381

# Decode as UTF-8. Either the line is an encoding declaration,

382

# in which case it should be pure ASCII, or it must be UTF-8

383

# per default encoding.

384

line_string = line.decode('utf-8')

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

385

except UnicodeDecodeError:

Brett Cannon

2012-04-20 13:23:54 -0400

[diff] [blame]

386

msg = "invalid or missing encoding declaration"

387

if filename is not None:

388

msg = '{} for {!r}'.format(msg, filename)

389

raise SyntaxError(msg)

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

390

Serhiy Storchaka

dafea85

2013-09-16 23:51:56 +0300

[diff] [blame]

391

match = cookie_re.match(line_string)

392

if not match:

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

393

return None

Serhiy Storchaka

dafea85

2013-09-16 23:51:56 +0300

[diff] [blame]

394

encoding = _get_normal_name(match.group(1))

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

395

try:

396

codec = lookup(encoding)

397

except LookupError:

398

# This behaviour mimics the Python interpreter

Brett Cannon

2012-04-20 13:23:54 -0400

[diff] [blame]

399

if filename is None:

400

msg = "unknown encoding: " + encoding

401

else:

402

msg = "unknown encoding for {!r}: {}".format(filename,

403

encoding)

404

raise SyntaxError(msg)

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

405

Benjamin Peterson

1613ed8

2010-03-18 22:34:15 +0000

[diff] [blame]

406

if bom_found:

Florent Xicluna

11f0b41

2012-07-07 12:13:35 +0200

[diff] [blame]

407

if encoding != 'utf-8':

Benjamin Peterson

1613ed8

2010-03-18 22:34:15 +0000

[diff] [blame]

408

# This behaviour mimics the Python interpreter

Brett Cannon

2012-04-20 13:23:54 -0400

[diff] [blame]

409

if filename is None:

410

msg = 'encoding problem: utf-8'

411

else:

412

msg = 'encoding problem for {!r}: utf-8'.format(filename)

413

raise SyntaxError(msg)

Benjamin Peterson

1613ed8

2010-03-18 22:34:15 +0000

[diff] [blame]

414

encoding += '-sig'

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

415

return encoding

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

416

417

first = read_or_stop()

Benjamin Peterson

2008-12-12 01:25:05 +0000

[diff] [blame]

418

if first.startswith(BOM_UTF8):

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

419

bom_found = True

420

first = first[3:]

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

421

default = 'utf-8-sig'

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

422

if not first:

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

423

return default, []

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

424

425

encoding = find_cookie(first)

426

if encoding:

427

return encoding, [first]

Serhiy Storchaka

768c16c

2014-01-09 18:36:09 +0200

[diff] [blame]

428

if not blank_re.match(first):

429

return default, [first]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

430

431

second = read_or_stop()

432

if not second:

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

433

return default, [first]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

434

435

encoding = find_cookie(second)

436

if encoding:

437

return encoding, [first, second]

438

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

439

return default, [first, second]

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

440

441

Victor Stinner

58c0752

2010-11-09 01:08:59 +0000

[diff] [blame]

442

def open(filename):

443

"""Open a file in read only mode using the encoding detected by

444

detect_encoding().

445

"""

Victor Stinner

9691750

2014-12-05 10:17:10 +0100

[diff] [blame]

446

buffer = _builtin_open(filename, 'rb')

Victor Stinner

387729e

2015-05-26 00:43:58 +0200

[diff] [blame]

447

try:

448

encoding, lines = detect_encoding(buffer.readline)

449

buffer.seek(0)

450

text = TextIOWrapper(buffer, encoding, line_buffering=True)

text.mode = 'r'

return text

except:

buffer.close()

raise

Victor Stinner

58c0752

2010-11-09 01:08:59 +0000

[diff] [blame]

456

457

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

458

def tokenize(readline):

459

"""

Berker Peksag

ff8d087

2015-12-30 01:41:58 +0200

[diff] [blame]

460

The tokenize() generator requires one argument, readline, which

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

461

must be a callable object which provides the same interface as the

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

462

readline() method of built-in file objects. Each call to the function

Berker Peksag

ff8d087

2015-12-30 01:41:58 +0200

[diff] [blame]

463

should return one line of input as bytes. Alternatively, readline

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

464

can be a callable function terminating with StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

465

readline = open(myfile, 'rb').__next__ # Example of alternate readline

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

466

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

467

The generator produces 5-tuples with these members: the token type; the

468

token string; a 2-tuple (srow, scol) of ints specifying the row and

469

column where the token begins in the source; a 2-tuple (erow, ecol) of

470

ints specifying the row and column where the token ends in the source;

Florent Xicluna

2010-09-03 19:54:02 +0000

[diff] [blame]

471

and the line on which the token was found. The line passed is the

Tim Peters

8ac1495

2002-05-23 15:15:30 +0000

[diff] [blame]

472

logical line; continuation lines are included.

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

473

474

The first token sequence will always be an ENCODING token

475

which tells you which encoding was used to decode the bytes stream.

Raymond Hettinger

2002-05-15 02:56:03 +0000

[diff] [blame]

476

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

477

encoding, consumed = detect_encoding(readline)

Łukasz Langa

2018-04-23 01:07:11 -0700

[diff] [blame]

478

empty = _itertools.repeat(b"")

479

rl_gen = _itertools.chain(consumed, iter(readline, b""), empty)

480

return _tokenize(rl_gen.__next__, encoding)

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

481

482

483

def _tokenize(readline, encoding):

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

484

lnum = parenlev = continued = 0

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

485

numchars = '0123456789'

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

486

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

487

contline = None

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

488

indents = [0]

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

489

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

490

if encoding is not None:

Benjamin Peterson

2010-03-18 22:29:52 +0000

[diff] [blame]

491

if encoding == "utf-8-sig":

492

# BOM will already have been stripped.

493

encoding = "utf-8"

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

494

yield TokenInfo(ENCODING, encoding, (0, 0), (0, 0), '')

Ammar Askar

c4ef489

2018-07-06 03:19:08 -0400

[diff] [blame^]

495

last_line = b''

496

line = b''

Łukasz Langa

2018-04-23 01:07:11 -0700

[diff] [blame]

497

while True: # loop over lines in stream

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

498

try:

Ammar Askar

c4ef489

2018-07-06 03:19:08 -0400

[diff] [blame^]

499

# We capture the value of the line variable here because

500

# readline uses the empty string '' to signal end of input,

501

# hence `line` itself will always be overwritten at the end

502

# of this loop.

503

last_line = line

Raymond Hettinger

2005-06-10 11:05:19 +0000

[diff] [blame]

504

line = readline()

505

except StopIteration:

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

506

line = b''

507

508

if encoding is not None:

509

line = line.decode(encoding)

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

510

lnum += 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

511

pos, max = 0, len(line)

512

513

if contstr: # continued string

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

514

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

515

raise TokenError("EOF in multi-line string", strstart)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

516

endmatch = endprog.match(line)

517

if endmatch:

518

pos = end = endmatch.end(0)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

519

yield TokenInfo(STRING, contstr + line[:end],

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

520

strstart, (lnum, end), contline + line)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

521

contstr, needcont = '', 0

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

522

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

523

elif needcont and line[-2:] != '\\\n' and line[-3:] != '\\\r\n':

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

524

yield TokenInfo(ERRORTOKEN, contstr + line,

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

525

strstart, (lnum, len(line)), contline)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

526

contstr = ''

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

527

contline = None

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

528

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

529

else:

530

contstr = contstr + line

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

531

contline = contline + line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

532

continue

533

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

534

elif parenlev == 0 and not continued: # new statement

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

535

if not line: break

536

column = 0

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

537

while pos < max: # measure leading whitespace

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

538

if line[pos] == ' ':

539

column += 1

540

elif line[pos] == '\t':

541

column = (column//tabsize + 1)*tabsize

542

elif line[pos] == '\f':

column = 0

else:

break

pos += 1

if pos == max:

break

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

549

550

if line[pos] in '#\r\n': # skip comments or blank lines

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

551

if line[pos] == '#':

552

comment_token = line[pos:].rstrip('\r\n')

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

553

yield TokenInfo(COMMENT, comment_token,

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

554

(lnum, pos), (lnum, pos + len(comment_token)), line)

Albert-Jan Nijburg

c471ca4

2017-05-24 12:31:57 +0100

[diff] [blame]

555

pos += len(comment_token)

556

557

yield TokenInfo(NL, line[pos:],

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

558

(lnum, pos), (lnum, len(line)), line)

559

continue

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

560

561

if column > indents[-1]: # count indents or dedents

562

indents.append(column)

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

563

yield TokenInfo(INDENT, line[:pos], (lnum, 0), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

564

while column < indents[-1]:

Raymond Hettinger

da99d1c

2005-06-21 07:43:58 +0000

[diff] [blame]

565

if column not in indents:

566

raise IndentationError(

Thomas Wouters

00ee7ba

2006-08-21 19:07:27 +0000

[diff] [blame]

567

"unindent does not match any outer indentation level",

568

("<tokenize>", lnum, pos, line))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

569

indents = indents[:-1]

Yury Selivanov

7544508

2015-05-11 22:57:16 -0400

[diff] [blame]

570

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

571

yield TokenInfo(DEDENT, '', (lnum, pos), (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

572

573

else: # continued statement

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

574

if not line:

Collin Winter

ce36ad8

2007-08-30 01:19:48 +0000

[diff] [blame]

575

raise TokenError("EOF in multi-line statement", (lnum, 0))

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

576

continued = 0

577

578

while pos < max:

Antoine Pitrou

10a99b0

2011-10-11 15:45:56 +0200

[diff] [blame]

579

pseudomatch = _compile(PseudoToken).match(line, pos)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

580

if pseudomatch: # scan for tokens

581

start, end = pseudomatch.span(1)

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

582

spos, epos, pos = (lnum, start), (lnum, end), end

Ezio Melotti

2cc3b4b

2012-11-03 17:38:43 +0200

[diff] [blame]

583

if start == end:

584

continue

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

585

token, initial = line[start:end], line[start]

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

586

Łukasz Langa

2018-04-23 01:07:11 -0700

[diff] [blame]

587

if (initial in numchars or # ordinary number

Georg Brandl

dde0028

2007-03-18 19:01:53 +0000

[diff] [blame]

588

(initial == '.' and token != '.' and token != '...')):

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

589

yield TokenInfo(NUMBER, token, spos, epos, line)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

590

elif initial in '\r\n':

Yury Selivanov

96ec934

2015-07-23 15:01:58 +0300

[diff] [blame]

591

if parenlev > 0:

592

yield TokenInfo(NL, token, spos, epos, line)

593

else:

594

yield TokenInfo(NEWLINE, token, spos, epos, line)

Yury Selivanov

96ec934

2015-07-23 15:01:58 +0300

[diff] [blame]

595

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

596

elif initial == '#':

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

597

assert not token.endswith("\n")

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

598

yield TokenInfo(COMMENT, token, spos, epos, line)

Eric V. Smith

2015-10-26 04:37:55 -0400

[diff] [blame]

599

Guido van Rossum

9d6897a

2002-08-24 06:54:19 +0000

[diff] [blame]

600

elif token in triple_quoted:

Antoine Pitrou

10a99b0

2011-10-11 15:45:56 +0200

[diff] [blame]

601

endprog = _compile(endpats[token])

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

602

endmatch = endprog.match(line, pos)

603

if endmatch: # all on one line

604

pos = endmatch.end(0)

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

605

token = line[start:pos]

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

606

yield TokenInfo(STRING, token, spos, (lnum, pos), line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

607

else:

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

608

strstart = (lnum, start) # multiple lines

609

contstr = line[start:]

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

610

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

611

break

Eric V. Smith

2015-10-26 04:37:55 -0400

[diff] [blame]

612

613

# Check up to the first 3 chars of the token to see if

614

# they're in the single_quoted set. If so, they start

615

# a string.

616

# We're using the first 3, because we're looking for

617

# "rb'" (for example) at the start of the token. If

618

# we switch to longer prefixes, this needs to be

619

# adjusted.

620

# Note that initial == token[:1].

Berker Peksag

a7161e7

2015-12-30 01:42:43 +0200

[diff] [blame]

621

# Also note that single quote checking must come after

Eric V. Smith

2015-10-26 04:37:55 -0400

[diff] [blame]

622

# triple quote checking (above).

623

elif (initial in single_quoted or

624

token[:2] in single_quoted or

625

token[:3] in single_quoted):

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

626

if token[-1] == '\n': # continued string

Guido van Rossum

1997-04-08 14:24:39 +0000

[diff] [blame]

627

strstart = (lnum, start)

Eric V. Smith

2015-10-26 04:37:55 -0400

[diff] [blame]

628

# Again, using the first 3 chars of the

629

# token. This is looking for the matching end

630

# regex for the correct type of quote

631

# character. So it's really looking for

632

# endpats["'"] or endpats['"'], by trying to

633

# skip string prefix characters, if any.

634

endprog = _compile(endpats.get(initial) or

635

endpats.get(token[1]) or

636

endpats.get(token[2]))

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

637

contstr, needcont = line[start:], 1

Guido van Rossum

1998-04-03 16:05:38 +0000

[diff] [blame]

638

contline = line

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

639

break

640

else: # ordinary string

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

641

yield TokenInfo(STRING, token, spos, epos, line)

Eric V. Smith

2015-10-26 04:37:55 -0400

[diff] [blame]

642

Benjamin Peterson

2010-08-30 14:41:20 +0000

[diff] [blame]

643

elif initial.isidentifier(): # ordinary name

Jelle Zijlstra

ac31770

2017-10-05 20:24:46 -0700

[diff] [blame]

644

yield TokenInfo(NAME, token, spos, epos, line)

Guido van Rossum

1997-10-27 20:44:15 +0000

[diff] [blame]

645

elif initial == '\\': # continued stmt

646

continued = 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

647

else:

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

648

if initial in '([{':

649

parenlev += 1

650

elif initial in ')]}':

651

parenlev -= 1

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

652

yield TokenInfo(OP, token, spos, epos, line)

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

653

else:

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

654

yield TokenInfo(ERRORTOKEN, line[pos],

Guido van Rossum

1997-04-09 17:15:54 +0000

[diff] [blame]

655

(lnum, pos), (lnum, pos+1), line)

Benjamin Peterson

2009-11-13 02:25:08 +0000

[diff] [blame]

656

pos += 1

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

657

Ammar Askar

c4ef489

2018-07-06 03:19:08 -0400

[diff] [blame^]

658

# Add an implicit NEWLINE if the input doesn't end in one

659

if last_line and last_line[-1] not in '\r\n':

660

yield TokenInfo(NEWLINE, '', (lnum - 1, len(last_line)), (lnum - 1, len(last_line) + 1), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

661

for indent in indents[1:]: # pop remaining indent levels

Raymond Hettinger

2009-04-29 00:34:27 +0000

[diff] [blame]

662

yield TokenInfo(DEDENT, '', (lnum, 0), (lnum, 0), '')

663

yield TokenInfo(ENDMARKER, '', (lnum, 0), (lnum, 0), '')

Guido van Rossum

1997-03-07 00:21:12 +0000

[diff] [blame]

664

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

665

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

666

def generate_tokens(readline):

Thomas Kluyver

c56b17b

2018-06-05 19:26:39 +0200

[diff] [blame]

667

"""Tokenize a source reading Python code as unicode strings.

668

669

This has the same API as tokenize(), except that it expects the *readline*

670

callable to return str objects instead of bytes.

671

"""

Trent Nelson

2008-03-18 22:41:35 +0000

[diff] [blame]

672

return _tokenize(readline, None)

Raymond Hettinger

6c60d09

2010-09-09 04:32:39 +0000

[diff] [blame]

673

Meador Inge

2011-10-07 08:53:38 -0500

[diff] [blame]

def main():

import argparse

# Helper error handling routines

678

def perror(message):

Łukasz Langa

2018-04-23 01:07:11 -0700

[diff] [blame]

679

sys.stderr.write(message)

680

sys.stderr.write('\n')

Meador Inge

2011-10-07 08:53:38 -0500

[diff] [blame]

681

682

def error(message, filename=None, location=None):

683

if location:

684

args = (filename,) + location + (message,)

685

perror("%s:%d:%d: error: %s" % args)

686

elif filename:

687

perror("%s: error: %s" % (filename, message))

688

else:

689

perror("error: %s" % message)

690

sys.exit(1)

691

692

# Parse the arguments and options

693

parser = argparse.ArgumentParser(prog='python -m tokenize')

694

parser.add_argument(dest='filename', nargs='?',

695

metavar='filename.py',

696

help='the file to tokenize; defaults to stdin')

Meador Inge

2012-01-19 00:44:45 -0600

[diff] [blame]

697

parser.add_argument('-e', '--exact', dest='exact', action='store_true',

698

help='display token names using the exact type')

Meador Inge

2011-10-07 08:53:38 -0500

[diff] [blame]

699

args = parser.parse_args()

try:

# Tokenize the input

if args.filename:

filename = args.filename

Victor Stinner

9691750

2014-12-05 10:17:10 +0100

[diff] [blame]

705

with _builtin_open(filename, 'rb') as f:

Meador Inge

2011-10-07 08:53:38 -0500

[diff] [blame]

706

tokens = list(tokenize(f.readline))

707

else:

708

filename = "<stdin>"

709

tokens = _tokenize(sys.stdin.readline, None)

710

711

# Output the tokenization

712

for token in tokens:

Meador Inge

2012-01-19 00:44:45 -0600

[diff] [blame]

713

token_type = token.type

714

if args.exact:

715

token_type = token.exact_type

Meador Inge

2011-10-07 08:53:38 -0500

[diff] [blame]

716

token_range = "%d,%d-%d,%d:" % (token.start + token.end)

717

print("%-20s%-15s%-15r" %

Meador Inge

2012-01-19 00:44:45 -0600

[diff] [blame]

718

(token_range, tok_name[token_type], token.string))

Meador Inge

2011-10-07 08:53:38 -0500

[diff] [blame]

719

except IndentationError as err:

720

line, column = err.args[1][1:3]

721

error(err.args[0], filename, (line, column))

722

except TokenError as err:

723

line, column = err.args[1]

724

error(err.args[0], filename, (line, column))

725

except SyntaxError as err:

726

error(err, filename)

Andrew Svetlov

f7a17b4

2012-12-25 16:47:37 +0200

[diff] [blame]

727

except OSError as err:

Meador Inge

2011-10-07 08:53:38 -0500

[diff] [blame]

728

error(err)

729

except KeyboardInterrupt:

730

print("interrupted\n")

731

except Exception as err:

732

perror("unexpected error: %s" % err)

733

raise

734

Raymond Hettinger

6c60d09

2010-09-09 04:32:39 +0000

[diff] [blame]

735

if __name__ == "__main__":

Meador Inge