Blame - Lib/test/test_codecs.py - platform/external/python/cpython3

2011-05-27 16:50:40 +0200

[diff] [blame]

1

import codecs

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2

import contextlib

Victor Stinner

2011-11-15 22:44:05 +0100

[diff] [blame]

3

import io

Antoine Pitrou

cf9d3c0

2011-07-24 02:27:04 +0200

[diff] [blame]

4

import locale

Victor Stinner

2011-11-15 22:44:05 +0100

[diff] [blame]

5

import sys

6

import unittest

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

7

import encodings

Victor Stinner

91106cd

2017-12-13 12:29:09 +0100

[diff] [blame]

8

from unittest import mock

Victor Stinner

2011-11-15 22:44:05 +0100

[diff] [blame]

9

10

from test import support

Victor Stinner

2011-09-29 19:53:55 +0200

[diff] [blame]

11

Antoine Pitrou

00b2c86

2011-10-05 13:01:41 +0200

[diff] [blame]

12

try:

Victor Stinner

2018-08-29 22:21:32 +0200

[diff] [blame]

13

import _testcapi

14

except ImportError as exc:

15

_testcapi = None

16

17

try:

Antoine Pitrou

00b2c86

2011-10-05 13:01:41 +0200

[diff] [blame]

import ctypes

except ImportError:

ctypes = None

SIZEOF_WCHAR_T = -1

else:

SIZEOF_WCHAR_T = ctypes.sizeof(ctypes.c_wchar)

Marc-André Lemburg

2001-06-19 20:09:28 +0000

[diff] [blame]

24

Serhiy Storchaka

2013-01-29 10:20:44 +0200

[diff] [blame]

25

def coding_checker(self, coder):

26

def check(input, expect):

27

self.assertEqual(coder(input), (expect, len(input)))

28

return check

29

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

30

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

31

class Queue(object):

32

"""

33

queue: write bytes at one end, read bytes from the other end

34

"""

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

35

def __init__(self, buffer):

36

self._buffer = buffer

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

37

38

def write(self, chars):

39

self._buffer += chars

40

41

def read(self, size=-1):

42

if size<0:

43

s = self._buffer

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

44

self._buffer = self._buffer[:0] # make empty

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

45

return s

46

else:

47

s = self._buffer[:size]

48

self._buffer = self._buffer[size:]

49

return s

50

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

51

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

52

class MixInCheckStateHandling:

53

def check_state_handling_decode(self, encoding, u, s):

Guido van Rossum

2007-05-07 22:24:25 +0000

[diff] [blame]

54

for i in range(len(s)+1):

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

55

d = codecs.getincrementaldecoder(encoding)()

56

part1 = d.decode(s[:i])

57

state = d.getstate()

Ezio Melotti

e961593

2010-01-24 19:26:24 +0000

[diff] [blame]

58

self.assertIsInstance(state[1], int)

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

59

# Check that the condition stated in the documentation for

60

# IncrementalDecoder.getstate() holds

61

if not state[1]:

62

# reset decoder to the default state without anything buffered

63

d.setstate((state[0][:0], 0))

64

# Feeding the previous input may not produce any output

Benjamin Peterson

2009-06-30 23:06:06 +0000

[diff] [blame]

65

self.assertTrue(not d.decode(state[0]))

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

66

# The decoder must return to the same state

67

self.assertEqual(state, d.getstate())

68

# Create a new decoder and set it to the state

69

# we extracted from the old one

70

d = codecs.getincrementaldecoder(encoding)()

71

d.setstate(state)

72

part2 = d.decode(s[i:], True)

73

self.assertEqual(u, part1+part2)

74

75

def check_state_handling_encode(self, encoding, u, s):

Guido van Rossum

2007-05-07 22:24:25 +0000

[diff] [blame]

76

for i in range(len(u)+1):

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

77

d = codecs.getincrementalencoder(encoding)()

78

part1 = d.encode(u[:i])

79

state = d.getstate()

80

d = codecs.getincrementalencoder(encoding)()

81

d.setstate(state)

82

part2 = d.encode(u[i:], True)

83

self.assertEqual(s, part1+part2)

84

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

85

Ezio Melotti

2013-01-11 06:02:07 +0200

[diff] [blame]

86

class ReadTest(MixInCheckStateHandling):

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

87

def check_partial(self, input, partialresults):

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

88

# get a StreamReader for the encoding and feed the bytestring version

Guido van Rossum

2007-11-19 18:03:44 +0000

[diff] [blame]

89

# of input to the reader byte by byte. Read everything available from

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

90

# the StreamReader and check that the results equal the appropriate

91

# entries from partialresults.

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

92

q = Queue(b"")

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

93

r = codecs.getreader(self.encoding)(q)

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

94

result = ""

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

95

for (c, partialresult) in zip(input.encode(self.encoding), partialresults):

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

96

q.write(bytes([c]))

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

97

result += r.read()

98

self.assertEqual(result, partialresult)

99

# check that there's nothing left in the buffers

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

100

self.assertEqual(r.read(), "")

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

101

self.assertEqual(r.bytebuffer, b"")

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

102

Martin Panter

7462b649

2015-11-02 03:37:02 +0000

[diff] [blame]

103

# do the check again, this time using an incremental decoder

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

104

d = codecs.getincrementaldecoder(self.encoding)()

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

105

result = ""

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

106

for (c, partialresult) in zip(input.encode(self.encoding), partialresults):

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

107

result += d.decode(bytes([c]))

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

108

self.assertEqual(result, partialresult)

109

# check that there's nothing left in the buffers

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

110

self.assertEqual(d.decode(b"", True), "")

111

self.assertEqual(d.buffer, b"")

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

112

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

113

# Check whether the reset method works properly

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

114

d.reset()

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

115

result = ""

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

116

for (c, partialresult) in zip(input.encode(self.encoding), partialresults):

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

117

result += d.decode(bytes([c]))

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

118

self.assertEqual(result, partialresult)

119

# check that there's nothing left in the buffers

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

120

self.assertEqual(d.decode(b"", True), "")

121

self.assertEqual(d.buffer, b"")

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

122

123

# check iterdecode()

124

encoded = input.encode(self.encoding)

125

self.assertEqual(

126

input,

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

127

"".join(codecs.iterdecode([bytes([c]) for c in encoded], self.encoding))

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

128

)

129

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

130

def test_readline(self):

131

def getreader(input):

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

132

stream = io.BytesIO(input.encode(self.encoding))

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

133

return codecs.getreader(self.encoding)(stream)

134

Walter Dörwald

2006-03-06 22:39:12 +0000

[diff] [blame]

135

def readalllines(input, keepends=True, size=None):

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

136

reader = getreader(input)

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

137

lines = []

138

while True:

Walter Dörwald

2006-03-06 22:39:12 +0000

[diff] [blame]

139

line = reader.readline(size=size, keepends=keepends)

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

140

if not line:

141

break

142

lines.append(line)

Walter Dörwald

2006-03-06 22:39:12 +0000

[diff] [blame]

143

return "|".join(lines)

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

144

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

145

s = "foo\nbar\r\nbaz\rspam\u2028eggs"

146

sexpected = "foo\n|bar\r\n|baz\r|spam\u2028|eggs"

147

sexpectednoends = "foo|bar|baz|spam|eggs"

Walter Dörwald

2006-03-06 22:39:12 +0000

[diff] [blame]

148

self.assertEqual(readalllines(s, True), sexpected)

149

self.assertEqual(readalllines(s, False), sexpectednoends)

150

self.assertEqual(readalllines(s, True, 10), sexpected)

151

self.assertEqual(readalllines(s, False, 10), sexpectednoends)

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

152

Serhiy Storchaka

2014-02-06 09:26:56 +0200

[diff] [blame]

153

lineends = ("\n", "\r\n", "\r", "\u2028")

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

154

# Test long lines (multiple calls to read() in readline())

155

vw = []

156

vwo = []

Serhiy Storchaka

2014-02-06 09:26:56 +0200

[diff] [blame]

157

for (i, lineend) in enumerate(lineends):

158

vw.append((i*200+200)*"\u3042" + lineend)

159

vwo.append((i*200+200)*"\u3042")

160

self.assertEqual(readalllines("".join(vw), True), "|".join(vw))

161

self.assertEqual(readalllines("".join(vw), False), "|".join(vwo))

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

162

163

# Test lines where the first read might end with \r, so the

164

# reader has to look ahead whether this is a lone \r or a \r\n

Guido van Rossum

2007-05-07 22:24:25 +0000

[diff] [blame]

165

for size in range(80):

Serhiy Storchaka

2014-02-06 09:26:56 +0200

[diff] [blame]

166

for lineend in lineends:

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

167

s = 10*(size*"a" + lineend + "xxx\n")

Walter Dörwald

2005-04-04 21:38:47 +0000

[diff] [blame]

168

reader = getreader(s)

Guido van Rossum

2007-05-07 22:24:25 +0000

[diff] [blame]

169

for i in range(10):

Walter Dörwald

2005-04-04 21:38:47 +0000

[diff] [blame]

170

self.assertEqual(

171

reader.readline(keepends=True),

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

172

size*"a" + lineend,

Walter Dörwald

2005-04-04 21:38:47 +0000

[diff] [blame]

173

)

Serhiy Storchaka

2014-02-06 09:26:56 +0200

[diff] [blame]

174

self.assertEqual(

175

reader.readline(keepends=True),

176

"xxx\n",

177

)

Walter Dörwald

2005-04-04 21:38:47 +0000

[diff] [blame]

178

reader = getreader(s)

Guido van Rossum

2007-05-07 22:24:25 +0000

[diff] [blame]

179

for i in range(10):

Walter Dörwald

2005-04-04 21:38:47 +0000

[diff] [blame]

180

self.assertEqual(

181

reader.readline(keepends=False),

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

182

size*"a",

Walter Dörwald

2005-04-04 21:38:47 +0000

[diff] [blame]

183

)

Serhiy Storchaka

2014-02-06 09:26:56 +0200

[diff] [blame]

184

self.assertEqual(

185

reader.readline(keepends=False),

186

"xxx",

187

)

Walter Dörwald

2005-04-04 21:38:47 +0000

[diff] [blame]

188

Serhiy Storchaka

2014-01-26 19:27:56 +0200

[diff] [blame]

189

def test_mixed_readline_and_read(self):

190

lines = ["Humpty Dumpty sat on a wall,\n",

191

"Humpty Dumpty had a great fall.\r\n",

192

"All the king's horses and all the king's men\r",

193

"Couldn't put Humpty together again."]

194

data = ''.join(lines)

195

def getreader():

196

stream = io.BytesIO(data.encode(self.encoding))

197

return codecs.getreader(self.encoding)(stream)

198

199

# Issue #8260: Test readline() followed by read()

200

f = getreader()

201

self.assertEqual(f.readline(), lines[0])

202

self.assertEqual(f.read(), ''.join(lines[1:]))

203

self.assertEqual(f.read(), '')

204

Serhiy Storchaka

219c2de

2017-11-29 01:30:00 +0200

[diff] [blame]

205

# Issue #32110: Test readline() followed by read(n)

206

f = getreader()

207

self.assertEqual(f.readline(), lines[0])

208

self.assertEqual(f.read(1), lines[1][0])

209

self.assertEqual(f.read(0), '')

210

self.assertEqual(f.read(100), data[len(lines[0]) + 1:][:100])

211

Serhiy Storchaka

2014-01-26 19:27:56 +0200

[diff] [blame]

212

# Issue #16636: Test readline() followed by readlines()

213

f = getreader()

214

self.assertEqual(f.readline(), lines[0])

215

self.assertEqual(f.readlines(), lines[1:])

216

self.assertEqual(f.read(), '')

217

Serhiy Storchaka

219c2de

2017-11-29 01:30:00 +0200

[diff] [blame]

218

# Test read(n) followed by read()

Serhiy Storchaka

2014-01-26 19:27:56 +0200

[diff] [blame]

219

f = getreader()

220

self.assertEqual(f.read(size=40, chars=5), data[:5])

221

self.assertEqual(f.read(), data[5:])

222

self.assertEqual(f.read(), '')

223

Serhiy Storchaka

219c2de

2017-11-29 01:30:00 +0200

[diff] [blame]

224

# Issue #32110: Test read(n) followed by read(n)

225

f = getreader()

226

self.assertEqual(f.read(size=40, chars=5), data[:5])

227

self.assertEqual(f.read(1), data[5])

228

self.assertEqual(f.read(0), '')

229

self.assertEqual(f.read(100), data[6:106])

230

231

# Issue #12446: Test read(n) followed by readlines()

Serhiy Storchaka

2014-01-26 19:27:56 +0200

[diff] [blame]

232

f = getreader()

233

self.assertEqual(f.read(size=40, chars=5), data[:5])

234

self.assertEqual(f.readlines(), [lines[0][5:]] + lines[1:])

235

self.assertEqual(f.read(), '')

236

Walter Dörwald

2005-04-04 21:38:47 +0000

[diff] [blame]

237

def test_bug1175396(self):

238

s = [

239

'<%!--===================================================\r\n',

240

' BLOG index page: show recent articles,\r\n',

241

' today\'s articles, or articles of a specific date.\r\n',

242

'========================================================--%>\r\n',

243

'<%@inputencoding="ISO-8859-1"%>\r\n',

244

'<%@pagetemplate=TEMPLATE.y%>\r\n',

245

'<%@import=import frog.util, frog%>\r\n',

246

'<%@import=import frog.objects%>\r\n',

247

'<%@import=from frog.storageerrors import StorageError%>\r\n',

248

'<%\r\n',

249

'\r\n',

250

'import logging\r\n',

251

'log=logging.getLogger("Snakelets.logger")\r\n',

252

'\r\n',

253

'\r\n',

254

'user=self.SessionCtx.user\r\n',

255

'storageEngine=self.SessionCtx.storageEngine\r\n',

256

'\r\n',

257

'\r\n',

258

'def readArticlesFromDate(date, count=None):\r\n',

259

' entryids=storageEngine.listBlogEntries(date)\r\n',

260

' entryids.reverse() # descending\r\n',

261

' if count:\r\n',

262

' entryids=entryids[:count]\r\n',

263

' try:\r\n',

264

' return [ frog.objects.BlogEntry.load(storageEngine, date, Id) for Id in entryids ]\r\n',

265

' except StorageError,x:\r\n',

266

' log.error("Error loading articles: "+str(x))\r\n',

267

' self.abort("cannot load articles")\r\n',

'\r\n',

'showdate=None\r\n',

'\r\n',

'arg=self.Request.getArg()\r\n',

272

'if arg=="today":\r\n',

273

' #-------------------- TODAY\'S ARTICLES\r\n',

274

' self.write("<h2>Today\'s articles</h2>")\r\n',

275

' showdate = frog.util.isodatestr() \r\n',

276

' entries = readArticlesFromDate(showdate)\r\n',

277

'elif arg=="active":\r\n',

278

' #-------------------- ACTIVE ARTICLES redirect\r\n',

279

' self.Yredirect("active.y")\r\n',

280

'elif arg=="login":\r\n',

281

' #-------------------- LOGIN PAGE redirect\r\n',

282

' self.Yredirect("login.y")\r\n',

283

'elif arg=="date":\r\n',

284

' #-------------------- ARTICLES OF A SPECIFIC DATE\r\n',

285

' showdate = self.Request.getParameter("date")\r\n',

286

' self.write("<h2>Articles written on %s</h2>"% frog.util.mediumdatestr(showdate))\r\n',

287

' entries = readArticlesFromDate(showdate)\r\n',

288

'else:\r\n',

289

' #-------------------- RECENT ARTICLES\r\n',

290

' self.write("<h2>Recent articles</h2>")\r\n',

291

' dates=storageEngine.listBlogEntryDates()\r\n',

292

' if dates:\r\n',

293

' entries=[]\r\n',

294

' SHOWAMOUNT=10\r\n',

295

' for showdate in dates:\r\n',

296

' entries.extend( readArticlesFromDate(showdate, SHOWAMOUNT-len(entries)) )\r\n',

297

' if len(entries)>=SHOWAMOUNT:\r\n',

298

' break\r\n',

299

' \r\n',

300

]

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

301

stream = io.BytesIO("".join(s).encode(self.encoding))

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

302

reader = codecs.getreader(self.encoding)(stream)

Walter Dörwald

2005-04-04 21:38:47 +0000

[diff] [blame]

303

for (i, line) in enumerate(reader):

304

self.assertEqual(line, s[i])

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

305

306

def test_readlinequeue(self):

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

307

q = Queue(b"")

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

308

writer = codecs.getwriter(self.encoding)(q)

309

reader = codecs.getreader(self.encoding)(q)

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

310

311

# No lineends

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

312

writer.write("foo\r")

313

self.assertEqual(reader.readline(keepends=False), "foo")

314

writer.write("\nbar\r")

315

self.assertEqual(reader.readline(keepends=False), "")

316

self.assertEqual(reader.readline(keepends=False), "bar")

317

writer.write("baz")

318

self.assertEqual(reader.readline(keepends=False), "baz")

319

self.assertEqual(reader.readline(keepends=False), "")

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

320

321

# Lineends

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

322

writer.write("foo\r")

323

self.assertEqual(reader.readline(keepends=True), "foo\r")

324

writer.write("\nbar\r")

325

self.assertEqual(reader.readline(keepends=True), "\n")

326

self.assertEqual(reader.readline(keepends=True), "bar\r")

327

writer.write("baz")

328

self.assertEqual(reader.readline(keepends=True), "baz")

329

self.assertEqual(reader.readline(keepends=True), "")

330

writer.write("foo\r\n")

331

self.assertEqual(reader.readline(keepends=True), "foo\r\n")

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

332

Walter Dörwald

2005-01-10 12:01:39 +0000

[diff] [blame]

333

def test_bug1098990_a(self):

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

334

s1 = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx yyyyyyyyyyyyyyyyyyyyyyyyyyyyyyy\r\n"

335

s2 = "offending line: ladfj askldfj klasdj fskla dfzaskdj fasklfj laskd fjasklfzzzzaa%whereisthis!!!\r\n"

336

s3 = "next line.\r\n"

Walter Dörwald

2005-01-10 12:01:39 +0000

[diff] [blame]

337

338

s = (s1+s2+s3).encode(self.encoding)

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

339

stream = io.BytesIO(s)

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

340

reader = codecs.getreader(self.encoding)(stream)

Walter Dörwald

2005-01-10 12:01:39 +0000

[diff] [blame]

341

self.assertEqual(reader.readline(), s1)

342

self.assertEqual(reader.readline(), s2)

343

self.assertEqual(reader.readline(), s3)

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

344

self.assertEqual(reader.readline(), "")

Walter Dörwald

2005-01-10 12:01:39 +0000

[diff] [blame]

345

346

def test_bug1098990_b(self):

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

347

s1 = "aaaaaaaaaaaaaaaaaaaaaaaa\r\n"

348

s2 = "bbbbbbbbbbbbbbbbbbbbbbbb\r\n"

349

s3 = "stillokay:bbbbxx\r\n"

350

s4 = "broken!!!!badbad\r\n"

351

s5 = "againokay.\r\n"

Walter Dörwald

2005-01-10 12:01:39 +0000

[diff] [blame]

352

353

s = (s1+s2+s3+s4+s5).encode(self.encoding)

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

354

stream = io.BytesIO(s)

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

355

reader = codecs.getreader(self.encoding)(stream)

Walter Dörwald

2005-01-10 12:01:39 +0000

[diff] [blame]

356

self.assertEqual(reader.readline(), s1)

357

self.assertEqual(reader.readline(), s2)

358

self.assertEqual(reader.readline(), s3)

359

self.assertEqual(reader.readline(), s4)

360

self.assertEqual(reader.readline(), s5)

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

361

self.assertEqual(reader.readline(), "")

Walter Dörwald

2005-01-10 12:01:39 +0000

[diff] [blame]

362

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

363

ill_formed_sequence_replace = "\ufffd"

364

365

def test_lone_surrogates(self):

366

self.assertRaises(UnicodeEncodeError, "\ud800".encode, self.encoding)

367

self.assertEqual("[\uDC80]".encode(self.encoding, "backslashreplace"),

368

"[\\udc80]".encode(self.encoding))

Serhiy Storchaka

166ebc4

2014-11-25 13:57:17 +0200

[diff] [blame]

369

self.assertEqual("[\uDC80]".encode(self.encoding, "namereplace"),

370

"[\\udc80]".encode(self.encoding))

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

371

self.assertEqual("[\uDC80]".encode(self.encoding, "xmlcharrefreplace"),

372

"[&#56448;]".encode(self.encoding))

373

self.assertEqual("[\uDC80]".encode(self.encoding, "ignore"),

374

"[]".encode(self.encoding))

375

self.assertEqual("[\uDC80]".encode(self.encoding, "replace"),

376

"[?]".encode(self.encoding))

377

Victor Stinner

2015-10-01 21:54:51 +0200

[diff] [blame]

378

# sequential surrogate characters

379

self.assertEqual("[\uD800\uDC80]".encode(self.encoding, "ignore"),

380

"[]".encode(self.encoding))

381

self.assertEqual("[\uD800\uDC80]".encode(self.encoding, "replace"),

382

"[??]".encode(self.encoding))

383

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

384

bom = "".encode(self.encoding)

385

for before, after in [("\U00010fff", "A"), ("[", "]"),

386

("A", "\U00010fff")]:

387

before_sequence = before.encode(self.encoding)[len(bom):]

388

after_sequence = after.encode(self.encoding)[len(bom):]

389

test_string = before + "\uDC80" + after

390

test_sequence = (bom + before_sequence +

391

self.ill_formed_sequence + after_sequence)

392

self.assertRaises(UnicodeDecodeError, test_sequence.decode,

393

self.encoding)

394

self.assertEqual(test_string.encode(self.encoding,

395

"surrogatepass"),

396

test_sequence)

397

self.assertEqual(test_sequence.decode(self.encoding,

398

"surrogatepass"),

399

test_string)

400

self.assertEqual(test_sequence.decode(self.encoding, "ignore"),

401

before + after)

402

self.assertEqual(test_sequence.decode(self.encoding, "replace"),

403

before + self.ill_formed_sequence_replace + after)

Serhiy Storchaka

2015-01-25 22:56:57 +0200

[diff] [blame]

404

backslashreplace = ''.join('\\x%02x' % b

405

for b in self.ill_formed_sequence)

406

self.assertEqual(test_sequence.decode(self.encoding, "backslashreplace"),

407

before + backslashreplace + after)

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

408

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

409

Ezio Melotti

2013-01-11 06:02:07 +0200

[diff] [blame]

410

class UTF32Test(ReadTest, unittest.TestCase):

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

411

encoding = "utf-32"

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

412

if sys.byteorder == 'little':

413

ill_formed_sequence = b"\x80\xdc\x00\x00"

414

else:

415

ill_formed_sequence = b"\x00\x00\xdc\x80"

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

416

417

spamle = (b'\xff\xfe\x00\x00'

418

b's\x00\x00\x00p\x00\x00\x00a\x00\x00\x00m\x00\x00\x00'

419

b's\x00\x00\x00p\x00\x00\x00a\x00\x00\x00m\x00\x00\x00')

420

spambe = (b'\x00\x00\xfe\xff'

421

b'\x00\x00\x00s\x00\x00\x00p\x00\x00\x00a\x00\x00\x00m'

422

b'\x00\x00\x00s\x00\x00\x00p\x00\x00\x00a\x00\x00\x00m')

423

424

def test_only_one_bom(self):

425

_,_,reader,writer = codecs.lookup(self.encoding)

426

# encode some stream

427

s = io.BytesIO()

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

428

f = writer(s)

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

f.write("spam")

f.write("spam")

d = s.getvalue()

# check whether there is exactly one BOM in it

Benjamin Peterson

2009-06-30 23:06:06 +0000

[diff] [blame]

433

self.assertTrue(d == self.spamle or d == self.spambe)

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

434

# try to read it back

435

s = io.BytesIO(d)

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

436

f = reader(s)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

437

self.assertEqual(f.read(), "spamspam")

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

438

439

def test_badbom(self):

440

s = io.BytesIO(4*b"\xff")

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

441

f = codecs.getreader(self.encoding)(s)

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

442

self.assertRaises(UnicodeError, f.read)

443

444

s = io.BytesIO(8*b"\xff")

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

445

f = codecs.getreader(self.encoding)(s)

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

446

self.assertRaises(UnicodeError, f.read)

447

448

def test_partial(self):

449

self.check_partial(

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

450

"\x00\xff\u0100\uffff\U00010000",

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

451

[

452

"", # first byte of BOM read

453

"", # second byte of BOM read

454

"", # third byte of BOM read

455

"", # fourth byte of BOM read => byteorder known

"",

"",

"",

"\x00",

"\x00",

"\x00",

"\x00",

"\x00\xff",

"\x00\xff",

"\x00\xff",

"\x00\xff",

"\x00\xff\u0100",

"\x00\xff\u0100",

"\x00\xff\u0100",

"\x00\xff\u0100",

"\x00\xff\u0100\uffff",

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

472

"\x00\xff\u0100\uffff",

473

"\x00\xff\u0100\uffff",

474

"\x00\xff\u0100\uffff",

475

"\x00\xff\u0100\uffff\U00010000",

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

]

)

Georg Brandl

2009-09-17 11:41:24 +0000

[diff] [blame]

479

def test_handlers(self):

480

self.assertEqual(('\ufffd', 1),

481

codecs.utf_32_decode(b'\x01', 'replace', True))

482

self.assertEqual(('', 1),

483

codecs.utf_32_decode(b'\x01', 'ignore', True))

484

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

485

def test_errors(self):

486

self.assertRaises(UnicodeDecodeError, codecs.utf_32_decode,

487

b"\xff", "strict", True)

488

489

def test_decoder_state(self):

490

self.check_state_handling_decode(self.encoding,

491

"spamspam", self.spamle)

492

self.check_state_handling_decode(self.encoding,

493

"spamspam", self.spambe)

494

Antoine Pitrou

cc0cfd3

2010-06-11 21:46:32 +0000

[diff] [blame]

495

def test_issue8941(self):

496

# Issue #8941: insufficient result allocation when decoding into

497

# surrogate pairs on UCS-2 builds.

498

encoded_le = b'\xff\xfe\x00\x00' + b'\x00\x00\x01\x00' * 1024

499

self.assertEqual('\U00010000' * 1024,

500

codecs.utf_32_decode(encoded_le)[0])

501

encoded_be = b'\x00\x00\xfe\xff' + b'\x00\x01\x00\x00' * 1024

502

self.assertEqual('\U00010000' * 1024,

503

codecs.utf_32_decode(encoded_be)[0])

504

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

505

Ezio Melotti

2013-01-11 06:02:07 +0200

[diff] [blame]

506

class UTF32LETest(ReadTest, unittest.TestCase):

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

507

encoding = "utf-32-le"

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

508

ill_formed_sequence = b"\x80\xdc\x00\x00"

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

509

510

def test_partial(self):

511

self.check_partial(

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

512

"\x00\xff\u0100\uffff\U00010000",

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

[

"",

"",

"",

"\x00",

"\x00",

"\x00",

"\x00",

"\x00\xff",

"\x00\xff",

"\x00\xff",

"\x00\xff",

"\x00\xff\u0100",

"\x00\xff\u0100",

"\x00\xff\u0100",

"\x00\xff\u0100",

"\x00\xff\u0100\uffff",

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

530

"\x00\xff\u0100\uffff",

531

"\x00\xff\u0100\uffff",

532

"\x00\xff\u0100\uffff",

533

"\x00\xff\u0100\uffff\U00010000",

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

]

)

def test_simple(self):

538

self.assertEqual("\U00010203".encode(self.encoding), b"\x03\x02\x01\x00")

539

540

def test_errors(self):

541

self.assertRaises(UnicodeDecodeError, codecs.utf_32_le_decode,

542

b"\xff", "strict", True)

543

Antoine Pitrou

cc0cfd3

2010-06-11 21:46:32 +0000

[diff] [blame]

544

def test_issue8941(self):

545

# Issue #8941: insufficient result allocation when decoding into

546

# surrogate pairs on UCS-2 builds.

547

encoded = b'\x00\x00\x01\x00' * 1024

548

self.assertEqual('\U00010000' * 1024,

549

codecs.utf_32_le_decode(encoded)[0])

550

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

551

Ezio Melotti

2013-01-11 06:02:07 +0200

[diff] [blame]

552

class UTF32BETest(ReadTest, unittest.TestCase):

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

553

encoding = "utf-32-be"

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

554

ill_formed_sequence = b"\x00\x00\xdc\x80"

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

555

556

def test_partial(self):

557

self.check_partial(

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

558

"\x00\xff\u0100\uffff\U00010000",

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

[

"",

"",

"",

"\x00",

"\x00",

"\x00",

"\x00",

"\x00\xff",

"\x00\xff",

"\x00\xff",

"\x00\xff",

"\x00\xff\u0100",

"\x00\xff\u0100",

"\x00\xff\u0100",

"\x00\xff\u0100",

"\x00\xff\u0100\uffff",

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

576

"\x00\xff\u0100\uffff",

577

"\x00\xff\u0100\uffff",

578

"\x00\xff\u0100\uffff",

579

"\x00\xff\u0100\uffff\U00010000",

Walter Dörwald

2007-08-16 21:55:45 +0000

[diff] [blame]

]

)

def test_simple(self):

584

self.assertEqual("\U00010203".encode(self.encoding), b"\x00\x01\x02\x03")

585

586

def test_errors(self):

587

self.assertRaises(UnicodeDecodeError, codecs.utf_32_be_decode,

588

b"\xff", "strict", True)

589

Antoine Pitrou

cc0cfd3

2010-06-11 21:46:32 +0000

[diff] [blame]

590

def test_issue8941(self):

591

# Issue #8941: insufficient result allocation when decoding into

592

# surrogate pairs on UCS-2 builds.

593

encoded = b'\x00\x01\x00\x00' * 1024

594

self.assertEqual('\U00010000' * 1024,

595

codecs.utf_32_be_decode(encoded)[0])

596

597

Ezio Melotti

2013-01-11 06:02:07 +0200

[diff] [blame]

598

class UTF16Test(ReadTest, unittest.TestCase):

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

599

encoding = "utf-16"

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

600

if sys.byteorder == 'little':

601

ill_formed_sequence = b"\x80\xdc"

602

else:

603

ill_formed_sequence = b"\xdc\x80"

Marc-André Lemburg

2001-06-19 20:09:28 +0000

[diff] [blame]

604

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

605

spamle = b'\xff\xfes\x00p\x00a\x00m\x00s\x00p\x00a\x00m\x00'

606

spambe = b'\xfe\xff\x00s\x00p\x00a\x00m\x00s\x00p\x00a\x00m'

Marc-André Lemburg

2001-06-19 20:09:28 +0000

[diff] [blame]

607

608

def test_only_one_bom(self):

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

609

_,_,reader,writer = codecs.lookup(self.encoding)

Marc-André Lemburg

2001-06-19 20:09:28 +0000

[diff] [blame]

610

# encode some stream

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

611

s = io.BytesIO()

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

612

f = writer(s)

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

613

f.write("spam")

614

f.write("spam")

Marc-André Lemburg

2001-06-19 20:09:28 +0000

[diff] [blame]

615

d = s.getvalue()

616

# check whether there is exactly one BOM in it

Benjamin Peterson

2009-06-30 23:06:06 +0000

[diff] [blame]

617

self.assertTrue(d == self.spamle or d == self.spambe)

Marc-André Lemburg

2001-06-19 20:09:28 +0000

[diff] [blame]

618

# try to read it back

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

619

s = io.BytesIO(d)

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

620

f = reader(s)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

621

self.assertEqual(f.read(), "spamspam")

Marc-André Lemburg

2001-06-19 20:09:28 +0000

[diff] [blame]

622

Walter Dörwald

1f1d252

2005-02-04 14:15:34 +0000

[diff] [blame]

623

def test_badbom(self):

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

624

s = io.BytesIO(b"\xff\xff")

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

625

f = codecs.getreader(self.encoding)(s)

Walter Dörwald

1f1d252

2005-02-04 14:15:34 +0000

[diff] [blame]

626

self.assertRaises(UnicodeError, f.read)

627

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

628

s = io.BytesIO(b"\xff\xff\xff\xff")

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

629

f = codecs.getreader(self.encoding)(s)

Walter Dörwald

1f1d252

2005-02-04 14:15:34 +0000

[diff] [blame]

630

self.assertRaises(UnicodeError, f.read)

631

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

632

def test_partial(self):

633

self.check_partial(

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

634

"\x00\xff\u0100\uffff\U00010000",

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

635

[

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

636

"", # first byte of BOM read

637

"", # second byte of BOM read => byteorder known

"",

"\x00",

"\x00",

"\x00\xff",

"\x00\xff",

"\x00\xff\u0100",

"\x00\xff\u0100",

"\x00\xff\u0100\uffff",

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

646

"\x00\xff\u0100\uffff",

647

"\x00\xff\u0100\uffff",

648

"\x00\xff\u0100\uffff",

649

"\x00\xff\u0100\uffff\U00010000",

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

]

)

Georg Brandl

2009-09-17 11:41:24 +0000

[diff] [blame]

653

def test_handlers(self):

654

self.assertEqual(('\ufffd', 1),

655

codecs.utf_16_decode(b'\x01', 'replace', True))

656

self.assertEqual(('', 1),

657

codecs.utf_16_decode(b'\x01', 'ignore', True))

658

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

659

def test_errors(self):

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

660

self.assertRaises(UnicodeDecodeError, codecs.utf_16_decode,

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

661

b"\xff", "strict", True)

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

662

663

def test_decoder_state(self):

664

self.check_state_handling_decode(self.encoding,

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

665

"spamspam", self.spamle)

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

666

self.check_state_handling_decode(self.encoding,

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

667

"spamspam", self.spambe)

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

668

Florent Xicluna

c1c415f

2010-02-26 11:12:33 +0000

[diff] [blame]

669

def test_bug691291(self):

670

# Files are always opened in binary mode, even if no binary mode was

671

# specified. This means that no automatic conversion of '\n' is done

672

# on reading and writing.

673

s1 = 'Hello\r\nworld\r\n'

674

675

s = s1.encode(self.encoding)

Victor Stinner

2cca057

2011-05-23 14:51:42 +0200

[diff] [blame]

676

self.addCleanup(support.unlink, support.TESTFN)

677

with open(support.TESTFN, 'wb') as fp:

678

fp.write(s)

Serhiy Storchaka

2480c2e

2013-11-24 23:13:26 +0200

[diff] [blame]

679

with support.check_warnings(('', DeprecationWarning)):

680

reader = codecs.open(support.TESTFN, 'U', encoding=self.encoding)

681

with reader:

Victor Stinner

2cca057

2011-05-23 14:51:42 +0200

[diff] [blame]

682

self.assertEqual(reader.read(), s1)

Florent Xicluna

c1c415f

2010-02-26 11:12:33 +0000

[diff] [blame]

683

Ezio Melotti

2013-01-11 06:02:07 +0200

[diff] [blame]

684

class UTF16LETest(ReadTest, unittest.TestCase):

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

685

encoding = "utf-16-le"

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

686

ill_formed_sequence = b"\x80\xdc"

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

687

688

def test_partial(self):

689

self.check_partial(

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

690

"\x00\xff\u0100\uffff\U00010000",

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

691

[

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

"",

"\x00",

"\x00",

"\x00\xff",

"\x00\xff",

"\x00\xff\u0100",

"\x00\xff\u0100",

"\x00\xff\u0100\uffff",

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

700

"\x00\xff\u0100\uffff",

701

"\x00\xff\u0100\uffff",

702

"\x00\xff\u0100\uffff",

703

"\x00\xff\u0100\uffff\U00010000",

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

]

)

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

707

def test_errors(self):

Antoine Pitrou

b4bbee2

2012-07-21 00:45:14 +0200

[diff] [blame]

708

tests = [

709

(b'\xff', '\ufffd'),

710

(b'A\x00Z', 'A\ufffd'),

711

(b'A\x00B\x00C\x00D\x00Z', 'ABCD\ufffd'),

712

(b'\x00\xd8', '\ufffd'),

713

(b'\x00\xd8A', '\ufffd'),

714

(b'\x00\xd8A\x00', '\ufffdA'),

715

(b'\x00\xdcA\x00', '\ufffdA'),

716

]

717

for raw, expected in tests:

718

self.assertRaises(UnicodeDecodeError, codecs.utf_16_le_decode,

719

raw, 'strict', True)

720

self.assertEqual(raw.decode('utf-16le', 'replace'), expected)

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

721

Victor Stinner

53a9dd7

2010-12-08 22:25:45 +0000

[diff] [blame]

722

def test_nonbmp(self):

723

self.assertEqual("\U00010203".encode(self.encoding),

724

b'\x00\xd8\x03\xde')

725

self.assertEqual(b'\x00\xd8\x03\xde'.decode(self.encoding),

726

"\U00010203")

727

Ezio Melotti

2013-01-11 06:02:07 +0200

[diff] [blame]

728

class UTF16BETest(ReadTest, unittest.TestCase):

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

729

encoding = "utf-16-be"

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

730

ill_formed_sequence = b"\xdc\x80"

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

731

732

def test_partial(self):

733

self.check_partial(

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

734

"\x00\xff\u0100\uffff\U00010000",

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

735

[

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

"",

"\x00",

"\x00",

"\x00\xff",

"\x00\xff",

"\x00\xff\u0100",

"\x00\xff\u0100",

"\x00\xff\u0100\uffff",

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

744

"\x00\xff\u0100\uffff",

745

"\x00\xff\u0100\uffff",

746

"\x00\xff\u0100\uffff",

747

"\x00\xff\u0100\uffff\U00010000",

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

]

)

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

751

def test_errors(self):

Antoine Pitrou

b4bbee2

2012-07-21 00:45:14 +0200

[diff] [blame]

752

tests = [

753

(b'\xff', '\ufffd'),

754

(b'\x00A\xff', 'A\ufffd'),

755

(b'\x00A\x00B\x00C\x00DZ', 'ABCD\ufffd'),

756

(b'\xd8\x00', '\ufffd'),

757

(b'\xd8\x00\xdc', '\ufffd'),

758

(b'\xd8\x00\x00A', '\ufffdA'),

759

(b'\xdc\x00\x00A', '\ufffdA'),

760

]

761

for raw, expected in tests:

762

self.assertRaises(UnicodeDecodeError, codecs.utf_16_be_decode,

763

raw, 'strict', True)

764

self.assertEqual(raw.decode('utf-16be', 'replace'), expected)

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

765

Victor Stinner

53a9dd7

2010-12-08 22:25:45 +0000

[diff] [blame]

766

def test_nonbmp(self):

767

self.assertEqual("\U00010203".encode(self.encoding),

768

b'\xd8\x00\xde\x03')

769

self.assertEqual(b'\xd8\x00\xde\x03'.decode(self.encoding),

770

"\U00010203")

771

Ezio Melotti

2013-01-11 06:02:07 +0200

[diff] [blame]

772

class UTF8Test(ReadTest, unittest.TestCase):

Walter Dörwald

2004-12-21 22:24:00 +0000

[diff] [blame]

773

encoding = "utf-8"

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

774

ill_formed_sequence = b"\xed\xb2\x80"

775

ill_formed_sequence_replace = "\ufffd" * 3

Victor Stinner

2015-10-01 21:54:51 +0200

[diff] [blame]

776

BOM = b''

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

777

778

def test_partial(self):

779

self.check_partial(

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

780

"\x00\xff\u07ff\u0800\uffff\U00010000",

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

781

[

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

"\x00",

"\x00",

"\x00\xff",

"\x00\xff",

"\x00\xff\u07ff",

"\x00\xff\u07ff",

"\x00\xff\u07ff",

"\x00\xff\u07ff\u0800",

790

"\x00\xff\u07ff\u0800",

791

"\x00\xff\u07ff\u0800",

792

"\x00\xff\u07ff\u0800\uffff",

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

793

"\x00\xff\u07ff\u0800\uffff",

794

"\x00\xff\u07ff\u0800\uffff",

795

"\x00\xff\u07ff\u0800\uffff",

796

"\x00\xff\u07ff\u0800\uffff\U00010000",

Walter Dörwald

2004-09-07 20:24:22 +0000

[diff] [blame]

]

)

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

800

def test_decoder_state(self):

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

801

u = "\x00\x7f\x80\xff\u0100\u07ff\u0800\uffff\U0010ffff"

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

802

self.check_state_handling_decode(self.encoding,

803

u, u.encode(self.encoding))

804

Victor Stinner

1d65d91

2015-10-05 13:43:50 +0200

[diff] [blame]

805

def test_decode_error(self):

806

for data, error_handler, expected in (

807

(b'[\x80\xff]', 'ignore', '[]'),

808

(b'[\x80\xff]', 'replace', '[\ufffd\ufffd]'),

809

(b'[\x80\xff]', 'surrogateescape', '[\udc80\udcff]'),

810

(b'[\x80\xff]', 'backslashreplace', '[\\x80\\xff]'),

811

):

812

with self.subTest(data=data, error_handler=error_handler,

813

expected=expected):

814

self.assertEqual(data.decode(self.encoding, error_handler),

815

expected)

816

Martin v. Löwis

db12d45

2009-05-02 18:52:14 +0000

[diff] [blame]

817

def test_lone_surrogates(self):

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

818

super().test_lone_surrogates()

819

# not sure if this is making sense for

820

# UTF-16 and UTF-32

Victor Stinner

2015-10-01 21:54:51 +0200

[diff] [blame]

821

self.assertEqual("[\uDC80]".encode(self.encoding, "surrogateescape"),

822

self.BOM + b'[\x80]')

823

824

with self.assertRaises(UnicodeEncodeError) as cm:

825

"[\uDC80\uD800\uDFFF]".encode(self.encoding, "surrogateescape")

826

exc = cm.exception

827

self.assertEqual(exc.object[exc.start:exc.end], '\uD800\uDFFF')

Martin v. Löwis

db12d45

2009-05-02 18:52:14 +0000

[diff] [blame]

828

Martin v. Löwis

2009-05-10 08:08:56 +0000

[diff] [blame]

829

def test_surrogatepass_handler(self):

Victor Stinner

2015-10-01 21:54:51 +0200

[diff] [blame]

830

self.assertEqual("abc\ud800def".encode(self.encoding, "surrogatepass"),

831

self.BOM + b"abc\xed\xa0\x80def")

832

self.assertEqual("\U00010fff\uD800".encode(self.encoding, "surrogatepass"),

833

self.BOM + b"\xf0\x90\xbf\xbf\xed\xa0\x80")

834

self.assertEqual("[\uD800\uDC80]".encode(self.encoding, "surrogatepass"),

835

self.BOM + b'[\xed\xa0\x80\xed\xb2\x80]')

836

837

self.assertEqual(b"abc\xed\xa0\x80def".decode(self.encoding, "surrogatepass"),

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

838

"abc\ud800def")

Victor Stinner

2015-10-01 21:54:51 +0200

[diff] [blame]

839

self.assertEqual(b"\xf0\x90\xbf\xbf\xed\xa0\x80".decode(self.encoding, "surrogatepass"),

Martin v. Löwis

d63a3b8

2011-09-28 07:41:54 +0200

[diff] [blame]

840

"\U00010fff\uD800")

Victor Stinner

2015-10-01 21:54:51 +0200

[diff] [blame]

841

Martin v. Löwis

2009-05-10 08:08:56 +0000

[diff] [blame]

842

self.assertTrue(codecs.lookup_error("surrogatepass"))

Philip Jenvey

45c4149

2012-10-26 17:01:53 -0700

[diff] [blame]

843

with self.assertRaises(UnicodeDecodeError):

Victor Stinner

2015-10-01 21:54:51 +0200

[diff] [blame]

844

b"abc\xed\xa0".decode(self.encoding, "surrogatepass")

Ezio Melotti

540da76

2012-11-03 23:03:39 +0200

[diff] [blame]

845

with self.assertRaises(UnicodeDecodeError):

Victor Stinner

2015-10-01 21:54:51 +0200

[diff] [blame]

846

b"abc\xed\xa0z".decode(self.encoding, "surrogatepass")

Martin v. Löwis

db12d45

2009-05-02 18:52:14 +0000

[diff] [blame]

847

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

848

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

849

@unittest.skipUnless(sys.platform == 'win32',

850

'cp65001 is a Windows-only codec')

Ezio Melotti

2013-01-11 06:02:07 +0200

[diff] [blame]

851

class CP65001Test(ReadTest, unittest.TestCase):

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

852

encoding = "cp65001"

853

854

def test_encode(self):

855

tests = [

856

('abc', 'strict', b'abc'),

857

('\xe9\u20ac', 'strict', b'\xc3\xa9\xe2\x82\xac'),

858

('\U0010ffff', 'strict', b'\xf4\x8f\xbf\xbf'),

Steve Dower

2016-09-06 19:42:27 -0700

[diff] [blame]

859

('\udc80', 'strict', None),

860

('\udc80', 'ignore', b''),

861

('\udc80', 'replace', b'?'),

862

('\udc80', 'backslashreplace', b'\\udc80'),

863

('\udc80', 'namereplace', b'\\udc80'),

864

('\udc80', 'surrogatepass', b'\xed\xb2\x80'),

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

865

]

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

866

for text, errors, expected in tests:

867

if expected is not None:

868

try:

869

encoded = text.encode('cp65001', errors)

870

except UnicodeEncodeError as err:

871

self.fail('Unable to encode %a to cp65001 with '

872

'errors=%r: %s' % (text, errors, err))

873

self.assertEqual(encoded, expected,

874

'%a.encode("cp65001", %r)=%a != %a'

875

% (text, errors, encoded, expected))

876

else:

877

self.assertRaises(UnicodeEncodeError,

878

text.encode, "cp65001", errors)

879

880

def test_decode(self):

881

tests = [

882

(b'abc', 'strict', 'abc'),

883

(b'\xc3\xa9\xe2\x82\xac', 'strict', '\xe9\u20ac'),

884

(b'\xf4\x8f\xbf\xbf', 'strict', '\U0010ffff'),

885

(b'\xef\xbf\xbd', 'strict', '\ufffd'),

886

(b'[\xc3\xa9]', 'strict', '[\xe9]'),

887

# invalid bytes

888

(b'[\xff]', 'strict', None),

889

(b'[\xff]', 'ignore', '[]'),

890

(b'[\xff]', 'replace', '[\ufffd]'),

891

(b'[\xff]', 'surrogateescape', '[\udcff]'),

Steve Dower

2016-09-06 19:42:27 -0700

[diff] [blame]

892

(b'[\xed\xb2\x80]', 'strict', None),

893

(b'[\xed\xb2\x80]', 'ignore', '[]'),

894

(b'[\xed\xb2\x80]', 'replace', '[\ufffd\ufffd\ufffd]'),

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

895

]

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

896

for raw, errors, expected in tests:

897

if expected is not None:

898

try:

899

decoded = raw.decode('cp65001', errors)

900

except UnicodeDecodeError as err:

901

self.fail('Unable to decode %a from cp65001 with '

902

'errors=%r: %s' % (raw, errors, err))

903

self.assertEqual(decoded, expected,

904

'%a.decode("cp65001", %r)=%a != %a'

905

% (raw, errors, decoded, expected))

906

else:

907

self.assertRaises(UnicodeDecodeError,

908

raw.decode, 'cp65001', errors)

909

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

910

def test_lone_surrogates(self):

911

self.assertRaises(UnicodeEncodeError, "\ud800".encode, "cp65001")

912

self.assertRaises(UnicodeDecodeError, b"\xed\xa0\x80".decode, "cp65001")

913

self.assertEqual("[\uDC80]".encode("cp65001", "backslashreplace"),

914

b'[\\udc80]')

Serhiy Storchaka

166ebc4

2014-11-25 13:57:17 +0200

[diff] [blame]

915

self.assertEqual("[\uDC80]".encode("cp65001", "namereplace"),

916

b'[\\udc80]')

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

917

self.assertEqual("[\uDC80]".encode("cp65001", "xmlcharrefreplace"),

918

b'[&#56448;]')

919

self.assertEqual("[\uDC80]".encode("cp65001", "surrogateescape"),

920

b'[\x80]')

921

self.assertEqual("[\uDC80]".encode("cp65001", "ignore"),

922

b'[]')

923

self.assertEqual("[\uDC80]".encode("cp65001", "replace"),

924

b'[?]')

925

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

926

def test_surrogatepass_handler(self):

927

self.assertEqual("abc\ud800def".encode("cp65001", "surrogatepass"),

928

b"abc\xed\xa0\x80def")

929

self.assertEqual(b"abc\xed\xa0\x80def".decode("cp65001", "surrogatepass"),

930

"abc\ud800def")

931

self.assertEqual("\U00010fff\uD800".encode("cp65001", "surrogatepass"),

932

b"\xf0\x90\xbf\xbf\xed\xa0\x80")

933

self.assertEqual(b"\xf0\x90\xbf\xbf\xed\xa0\x80".decode("cp65001", "surrogatepass"),

934

"\U00010fff\uD800")

935

self.assertTrue(codecs.lookup_error("surrogatepass"))

936

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

937

Ezio Melotti

2013-01-11 06:02:07 +0200

[diff] [blame]

938

class UTF7Test(ReadTest, unittest.TestCase):

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

939

encoding = "utf-7"

940

Serhiy Storchaka

2015-10-02 13:07:28 +0300

[diff] [blame]

941

def test_ascii(self):

942

# Set D (directly encoded characters)

943

set_d = ('ABCDEFGHIJKLMNOPQRSTUVWXYZ'

944

'abcdefghijklmnopqrstuvwxyz'

945

'0123456789'

946

'\'(),-./:?')

947

self.assertEqual(set_d.encode(self.encoding), set_d.encode('ascii'))

948

self.assertEqual(set_d.encode('ascii').decode(self.encoding), set_d)

949

# Set O (optional direct characters)

950

set_o = ' !"#$%&*;<=>@[]^_`{|}'

951

self.assertEqual(set_o.encode(self.encoding), set_o.encode('ascii'))

952

self.assertEqual(set_o.encode('ascii').decode(self.encoding), set_o)

953

# +

954

self.assertEqual('a+b'.encode(self.encoding), b'a+-b')

955

self.assertEqual(b'a+-b'.decode(self.encoding), 'a+b')

956

# White spaces

957

ws = ' \t\n\r'

958

self.assertEqual(ws.encode(self.encoding), ws.encode('ascii'))

959

self.assertEqual(ws.encode('ascii').decode(self.encoding), ws)

960

# Other ASCII characters

961

other_ascii = ''.join(sorted(set(bytes(range(0x80)).decode()) -

962

set(set_d + set_o + '+' + ws)))

963

self.assertEqual(other_ascii.encode(self.encoding),

964

b'+AAAAAQACAAMABAAFAAYABwAIAAsADAAOAA8AEAARABIAEwAU'

965

b'ABUAFgAXABgAGQAaABsAHAAdAB4AHwBcAH4Afw-')

966

Christian Heimes

5d14c2b

2007-11-20 23:38:09 +0000

[diff] [blame]

967

def test_partial(self):

968

self.check_partial(

Serhiy Storchaka

016a3f3

2014-02-08 14:01:29 +0200

[diff] [blame]

969

'a+-b\x00c\x80d\u0100e\U00010000f',

Christian Heimes

5d14c2b

2007-11-20 23:38:09 +0000

[diff] [blame]

970

[

Serhiy Storchaka

016a3f3

2014-02-08 14:01:29 +0200

[diff] [blame]

'a',

'a',

'a+',

'a+-',

'a+-b',

'a+-b',

'a+-b',

'a+-b',

'a+-b',

'a+-b\x00',

'a+-b\x00c',

'a+-b\x00c',

'a+-b\x00c',

'a+-b\x00c',

'a+-b\x00c',

'a+-b\x00c\x80',

'a+-b\x00c\x80d',

'a+-b\x00c\x80d',

'a+-b\x00c\x80d',

'a+-b\x00c\x80d',

'a+-b\x00c\x80d',

'a+-b\x00c\x80d\u0100',

993

'a+-b\x00c\x80d\u0100e',

994

'a+-b\x00c\x80d\u0100e',

995

'a+-b\x00c\x80d\u0100e',

996

'a+-b\x00c\x80d\u0100e',

997

'a+-b\x00c\x80d\u0100e',

998

'a+-b\x00c\x80d\u0100e',

999

'a+-b\x00c\x80d\u0100e',

1000

'a+-b\x00c\x80d\u0100e',

1001

'a+-b\x00c\x80d\u0100e\U00010000',

1002

'a+-b\x00c\x80d\u0100e\U00010000f',

Christian Heimes

5d14c2b

2007-11-20 23:38:09 +0000

[diff] [blame]

1003

]

1004

)

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

1005

Serhiy Storchaka

2013-10-19 20:38:19 +0300

[diff] [blame]

1006

def test_errors(self):

1007

tests = [

Serhiy Storchaka

2015-10-02 13:07:28 +0300

[diff] [blame]

1008

(b'\xffb', '\ufffdb'),

Serhiy Storchaka

2013-10-19 20:38:19 +0300

[diff] [blame]

1009

(b'a\xffb', 'a\ufffdb'),

Serhiy Storchaka

2015-10-02 13:07:28 +0300

[diff] [blame]

1010

(b'a\xff\xffb', 'a\ufffd\ufffdb'),

Serhiy Storchaka

2013-10-19 20:38:19 +0300

[diff] [blame]

1011

(b'a+IK', 'a\ufffd'),

1012

(b'a+IK-b', 'a\ufffdb'),

1013

(b'a+IK,b', 'a\ufffdb'),

1014

(b'a+IKx', 'a\u20ac\ufffd'),

1015

(b'a+IKx-b', 'a\u20ac\ufffdb'),

1016

(b'a+IKwgr', 'a\u20ac\ufffd'),

1017

(b'a+IKwgr-b', 'a\u20ac\ufffdb'),

1018

(b'a+IKwgr,', 'a\u20ac\ufffd'),

1019

(b'a+IKwgr,-b', 'a\u20ac\ufffd-b'),

1020

(b'a+IKwgrB', 'a\u20ac\u20ac\ufffd'),

1021

(b'a+IKwgrB-b', 'a\u20ac\u20ac\ufffdb'),

1022

(b'a+/,+IKw-b', 'a\ufffd\u20acb'),

1023

(b'a+//,+IKw-b', 'a\ufffd\u20acb'),

1024

(b'a+///,+IKw-b', 'a\uffff\ufffd\u20acb'),

1025

(b'a+////,+IKw-b', 'a\uffff\ufffd\u20acb'),

Serhiy Storchaka

2015-10-02 13:07:28 +0300

[diff] [blame]

1026

(b'a+IKw-b\xff', 'a\u20acb\ufffd'),

1027

(b'a+IKw\xffb', 'a\u20ac\ufffdb'),

Zackery Spytz

e349bf2

2018-08-18 22:43:38 -0600

[diff] [blame]

1028

(b'a+@b', 'a\ufffdb'),

Serhiy Storchaka

2013-10-19 20:38:19 +0300

[diff] [blame]

1029

]

1030

for raw, expected in tests:

1031

with self.subTest(raw=raw):

1032

self.assertRaises(UnicodeDecodeError, codecs.utf_7_decode,

1033

raw, 'strict', True)

1034

self.assertEqual(raw.decode('utf-7', 'replace'), expected)

1035

1036

def test_nonbmp(self):

1037

self.assertEqual('\U000104A0'.encode(self.encoding), b'+2AHcoA-')

1038

self.assertEqual('\ud801\udca0'.encode(self.encoding), b'+2AHcoA-')

1039

self.assertEqual(b'+2AHcoA-'.decode(self.encoding), '\U000104A0')

Serhiy Storchaka

2015-10-02 13:07:28 +0300

[diff] [blame]

1040

self.assertEqual(b'+2AHcoA'.decode(self.encoding), '\U000104A0')

1041

self.assertEqual('\u20ac\U000104A0'.encode(self.encoding), b'+IKzYAdyg-')

1042

self.assertEqual(b'+IKzYAdyg-'.decode(self.encoding), '\u20ac\U000104A0')

1043

self.assertEqual(b'+IKzYAdyg'.decode(self.encoding), '\u20ac\U000104A0')

1044

self.assertEqual('\u20ac\u20ac\U000104A0'.encode(self.encoding),

1045

b'+IKwgrNgB3KA-')

1046

self.assertEqual(b'+IKwgrNgB3KA-'.decode(self.encoding),

1047

'\u20ac\u20ac\U000104A0')

1048

self.assertEqual(b'+IKwgrNgB3KA'.decode(self.encoding),

1049

'\u20ac\u20ac\U000104A0')

Serhiy Storchaka

2013-10-19 20:38:19 +0300

[diff] [blame]

1050

Serhiy Storchaka

2015-10-02 13:07:28 +0300

[diff] [blame]

1051

def test_lone_surrogates(self):

1052

tests = [

1053

(b'a+2AE-b', 'a\ud801b'),

1054

(b'a+2AE\xffb', 'a\ufffdb'),

1055

(b'a+2AE', 'a\ufffd'),

1056

(b'a+2AEA-b', 'a\ufffdb'),

1057

(b'a+2AH-b', 'a\ufffdb'),

1058

(b'a+IKzYAQ-b', 'a\u20ac\ud801b'),

1059

(b'a+IKzYAQ\xffb', 'a\u20ac\ufffdb'),

1060

(b'a+IKzYAQA-b', 'a\u20ac\ufffdb'),

1061

(b'a+IKzYAd-b', 'a\u20ac\ufffdb'),

1062

(b'a+IKwgrNgB-b', 'a\u20ac\u20ac\ud801b'),

1063

(b'a+IKwgrNgB\xffb', 'a\u20ac\u20ac\ufffdb'),

1064

(b'a+IKwgrNgB', 'a\u20ac\u20ac\ufffd'),

1065

(b'a+IKwgrNgBA-b', 'a\u20ac\u20ac\ufffdb'),

1066

]

1067

for raw, expected in tests:

1068

with self.subTest(raw=raw):

1069

self.assertEqual(raw.decode('utf-7', 'replace'), expected)

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

1070

1071

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

1072

class UTF16ExTest(unittest.TestCase):

1073

1074

def test_errors(self):

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

1075

self.assertRaises(UnicodeDecodeError, codecs.utf_16_ex_decode, b"\xff", "strict", 0, True)

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

1076

1077

def test_bad_args(self):

1078

self.assertRaises(TypeError, codecs.utf_16_ex_decode)

1079

1080

class ReadBufferTest(unittest.TestCase):

1081

1082

def test_array(self):

1083

import array

1084

self.assertEqual(

Guido van Rossum

2007-08-27 20:40:10 +0000

[diff] [blame]

1085

codecs.readbuffer_encode(array.array("b", b"spam")),

Walter Dörwald

2233d27

2007-06-22 12:17:08 +0000

[diff] [blame]

1086

(b"spam", 4)

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

1087

)

1088

1089

def test_empty(self):

Walter Dörwald

2233d27

2007-06-22 12:17:08 +0000

[diff] [blame]

1090

self.assertEqual(codecs.readbuffer_encode(""), (b"", 0))

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

1091

1092

def test_bad_args(self):

1093

self.assertRaises(TypeError, codecs.readbuffer_encode)

1094

self.assertRaises(TypeError, codecs.readbuffer_encode, 42)

1095

Serhiy Storchaka

2013-11-19 11:32:41 +0200

[diff] [blame]

1096

class UTF8SigTest(UTF8Test, unittest.TestCase):

Martin v. Löwis

2006-01-08 10:45:39 +0000

[diff] [blame]

1097

encoding = "utf-8-sig"

Victor Stinner

2015-10-01 21:54:51 +0200

[diff] [blame]

1098

BOM = codecs.BOM_UTF8

Martin v. Löwis

2006-01-08 10:45:39 +0000

[diff] [blame]

1099

1100

def test_partial(self):

1101

self.check_partial(

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

1102

"\ufeff\x00\xff\u07ff\u0800\uffff\U00010000",

Martin v. Löwis

2006-01-08 10:45:39 +0000

[diff] [blame]

1103

[

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1104

"",

1105

"",

1106

"", # First BOM has been read and skipped

1107

"",

1108

"",

1109

"\ufeff", # Second BOM has been read and emitted

1110

"\ufeff\x00", # "\x00" read and emitted

Walter Dörwald

32a4c71

2007-06-20 09:25:34 +0000

[diff] [blame]

1111

"\ufeff\x00", # First byte of encoded "\xff" read

1112

"\ufeff\x00\xff", # Second byte of encoded "\xff" read

1113

"\ufeff\x00\xff", # First byte of encoded "\u07ff" read

1114

"\ufeff\x00\xff\u07ff", # Second byte of encoded "\u07ff" read

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1115

"\ufeff\x00\xff\u07ff",

1116

"\ufeff\x00\xff\u07ff",

1117

"\ufeff\x00\xff\u07ff\u0800",

1118

"\ufeff\x00\xff\u07ff\u0800",

1119

"\ufeff\x00\xff\u07ff\u0800",

1120

"\ufeff\x00\xff\u07ff\u0800\uffff",

Serhiy Storchaka

2013-01-08 23:14:24 +0200

[diff] [blame]

1121

"\ufeff\x00\xff\u07ff\u0800\uffff",

1122

"\ufeff\x00\xff\u07ff\u0800\uffff",

1123

"\ufeff\x00\xff\u07ff\u0800\uffff",

1124

"\ufeff\x00\xff\u07ff\u0800\uffff\U00010000",

Martin v. Löwis

2006-01-08 10:45:39 +0000

[diff] [blame]

]

)

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

1128

def test_bug1601501(self):

1129

# SF bug #1601501: check that the codec works with a buffer

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1130

self.assertEqual(str(b"\xef\xbb\xbf", "utf-8-sig"), "")

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

1131

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

1132

def test_bom(self):

1133

d = codecs.getincrementaldecoder("utf-8-sig")()

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1134

s = "spam"

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

1135

self.assertEqual(d.decode(s.encode("utf-8-sig")), s)

1136

Guido van Rossum

2007-11-19 18:03:44 +0000

[diff] [blame]

1137

def test_stream_bom(self):

1138

unistring = "ABC\u00A1\u2200XYZ"

1139

bytestring = codecs.BOM_UTF8 + b"ABC\xC2\xA1\xE2\x88\x80XYZ"

1140

1141

reader = codecs.getreader("utf-8-sig")

1142

for sizehint in [None] + list(range(1, 11)) + \

1143

[64, 128, 256, 512, 1024]:

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

1144

istream = reader(io.BytesIO(bytestring))

Guido van Rossum

2007-11-19 18:03:44 +0000

[diff] [blame]

1145

ostream = io.StringIO()

1146

while 1:

1147

if sizehint is not None:

1148

data = istream.read(sizehint)

1149

else:

1150

data = istream.read()

if not data:

break

ostream.write(data)

got = ostream.getvalue()

1157

self.assertEqual(got, unistring)

1158

1159

def test_stream_bare(self):

1160

unistring = "ABC\u00A1\u2200XYZ"

1161

bytestring = b"ABC\xC2\xA1\xE2\x88\x80XYZ"

1162

1163

reader = codecs.getreader("utf-8-sig")

1164

for sizehint in [None] + list(range(1, 11)) + \

1165

[64, 128, 256, 512, 1024]:

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

1166

istream = reader(io.BytesIO(bytestring))

Guido van Rossum

2007-11-19 18:03:44 +0000

[diff] [blame]

1167

ostream = io.StringIO()

1168

while 1:

1169

if sizehint is not None:

1170

data = istream.read(sizehint)

1171

else:

1172

data = istream.read()

if not data:

break

ostream.write(data)

got = ostream.getvalue()

1179

self.assertEqual(got, unistring)

1180

1181

class EscapeDecodeTest(unittest.TestCase):

1182

def test_empty(self):

Serhiy Storchaka

2013-01-29 11:06:53 +0200

[diff] [blame]

1183

self.assertEqual(codecs.escape_decode(b""), (b"", 0))

Serhiy Storchaka

8490f5a

2015-03-20 09:00:36 +0200

[diff] [blame]

1184

self.assertEqual(codecs.escape_decode(bytearray()), (b"", 0))

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

1185

Serhiy Storchaka

2013-01-25 23:31:43 +0200

[diff] [blame]

1186

def test_raw(self):

Serhiy Storchaka

2013-01-29 11:06:53 +0200

[diff] [blame]

1187

decode = codecs.escape_decode

Serhiy Storchaka

2013-01-25 23:31:43 +0200

[diff] [blame]

1188

for b in range(256):

Serhiy Storchaka

2013-01-29 11:06:53 +0200

[diff] [blame]

1189

b = bytes([b])

1190

if b != b'\\':

1191

self.assertEqual(decode(b + b'0'), (b + b'0', 2))

Serhiy Storchaka

2013-01-25 23:31:43 +0200

[diff] [blame]

1192

1193

def test_escape(self):

Serhiy Storchaka

2013-01-29 11:06:53 +0200

[diff] [blame]

1194

decode = codecs.escape_decode

1195

check = coding_checker(self, decode)

1196

check(b"[\\\n]", b"[]")

1197

check(br'[\"]', b'["]')

1198

check(br"[\']", b"[']")

R David Murray

110b6fe

2016-09-08 15:34:08 -0400

[diff] [blame]

1199

check(br"[\\]", b"[\\]")

Serhiy Storchaka

2013-01-29 11:06:53 +0200

[diff] [blame]

1200

check(br"[\a]", b"[\x07]")

1201

check(br"[\b]", b"[\x08]")

1202

check(br"[\t]", b"[\x09]")

1203

check(br"[\n]", b"[\x0a]")

1204

check(br"[\v]", b"[\x0b]")

1205

check(br"[\f]", b"[\x0c]")

1206

check(br"[\r]", b"[\x0d]")

1207

check(br"[\7]", b"[\x07]")

Serhiy Storchaka

2013-01-29 11:06:53 +0200

[diff] [blame]

1208

check(br"[\78]", b"[\x078]")

1209

check(br"[\41]", b"[!]")

1210

check(br"[\418]", b"[!8]")

1211

check(br"[\101]", b"[A]")

1212

check(br"[\1010]", b"[A0]")

1213

check(br"[\501]", b"[A]")

1214

check(br"[\x41]", b"[A]")

Serhiy Storchaka

2013-01-29 11:06:53 +0200

[diff] [blame]

1215

check(br"[\x410]", b"[A0]")

R David Murray

110b6fe

2016-09-08 15:34:08 -0400

[diff] [blame]

1216

for i in range(97, 123):

1217

b = bytes([i])

1218

if b not in b'abfnrtvx':

1219

with self.assertWarns(DeprecationWarning):

1220

check(b"\\" + b, b"\\" + b)

1221

with self.assertWarns(DeprecationWarning):

1222

check(b"\\" + b.upper(), b"\\" + b.upper())

1223

with self.assertWarns(DeprecationWarning):

1224

check(br"\8", b"\\8")

1225

with self.assertWarns(DeprecationWarning):

1226

check(br"\9", b"\\9")

Serhiy Storchaka

56cb465

2017-10-20 17:08:15 +0300

[diff] [blame]

1227

with self.assertWarns(DeprecationWarning):

1228

check(b"\\\xfa", b"\\\xfa")

Serhiy Storchaka

2013-01-25 23:31:43 +0200

[diff] [blame]

1229

1230

def test_errors(self):

Serhiy Storchaka

2013-01-29 11:06:53 +0200

[diff] [blame]

1231

decode = codecs.escape_decode

1232

self.assertRaises(ValueError, decode, br"\x")

1233

self.assertRaises(ValueError, decode, br"[\x]")

1234

self.assertEqual(decode(br"[\x]\x", "ignore"), (b"[]", 6))

1235

self.assertEqual(decode(br"[\x]\x", "replace"), (b"[?]?", 6))

1236

self.assertRaises(ValueError, decode, br"\x0")

1237

self.assertRaises(ValueError, decode, br"[\x0]")

1238

self.assertEqual(decode(br"[\x0]\x0", "ignore"), (b"[]", 8))

1239

self.assertEqual(decode(br"[\x0]\x0", "replace"), (b"[?]?", 8))

Serhiy Storchaka

2013-01-25 23:31:43 +0200

[diff] [blame]

1240

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

1241

Marc-André Lemburg

29273c8

2003-02-04 19:35:03 +0000

[diff] [blame]

1242

class RecodingTest(unittest.TestCase):

1243

def test_recoding(self):

Guido van Rossum

f4cfc8f

2007-05-17 21:52:23 +0000

[diff] [blame]

1244

f = io.BytesIO()

Serhiy Storchaka

5b10b98

2019-03-05 10:06:26 +0200

[diff] [blame^]

1245

with codecs.EncodedFile(f, "unicode_internal", "utf-8") as f2:

1246

f2.write("a")

Marc-André Lemburg

29273c8

2003-02-04 19:35:03 +0000

[diff] [blame]

1247

# Python used to crash on this at exit because of a refcount

1248

# bug in _codecsmodule.c

Fred Drake

2e2be37

2001-09-20 21:33:42 +0000

[diff] [blame]

1249

Nick Coghlan

2015-01-07 00:22:00 +1000

[diff] [blame]

1250

self.assertTrue(f.closed)

1251

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1252

# From RFC 3492

1253

punycode_testcases = [

1254

# A Arabic (Egyptian):

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1255

("\u0644\u064A\u0647\u0645\u0627\u0628\u062A\u0643\u0644"

1256

"\u0645\u0648\u0634\u0639\u0631\u0628\u064A\u061F",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1257

b"egbpdaj6bu4bxfgehfvwxn"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1258

# B Chinese (simplified):

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1259

("\u4ED6\u4EEC\u4E3A\u4EC0\u4E48\u4E0D\u8BF4\u4E2D\u6587",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1260

b"ihqwcrb4cv8a8dqg056pqjye"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1261

# C Chinese (traditional):

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1262

("\u4ED6\u5011\u7232\u4EC0\u9EBD\u4E0D\u8AAA\u4E2D\u6587",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1263

b"ihqwctvzc91f659drss3x8bo0yb"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1264

# D Czech: Pro<ccaron>prost<ecaron>nemluv<iacute><ccaron>esky

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1265

("\u0050\u0072\u006F\u010D\u0070\u0072\u006F\u0073\u0074"

1266

"\u011B\u006E\u0065\u006D\u006C\u0075\u0076\u00ED\u010D"

1267

"\u0065\u0073\u006B\u0079",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1268

b"Proprostnemluvesky-uyb24dma41a"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1269

# E Hebrew:

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1270

("\u05DC\u05DE\u05D4\u05D4\u05DD\u05E4\u05E9\u05D5\u05D8"

1271

"\u05DC\u05D0\u05DE\u05D3\u05D1\u05E8\u05D9\u05DD\u05E2"

1272

"\u05D1\u05E8\u05D9\u05EA",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1273

b"4dbcagdahymbxekheh6e0a7fei0b"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1274

# F Hindi (Devanagari):

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1275

("\u092F\u0939\u0932\u094B\u0917\u0939\u093F\u0928\u094D"

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1276

"\u0926\u0940\u0915\u094D\u092F\u094B\u0902\u0928\u0939"

1277

"\u0940\u0902\u092C\u094B\u0932\u0938\u0915\u0924\u0947"

1278

"\u0939\u0948\u0902",

1279

b"i1baa7eci9glrd9b2ae1bj0hfcgg6iyaf8o0a1dig0cd"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1280

1281

#(G) Japanese (kanji and hiragana):

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1282

("\u306A\u305C\u307F\u3093\u306A\u65E5\u672C\u8A9E\u3092"

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1283

"\u8A71\u3057\u3066\u304F\u308C\u306A\u3044\u306E\u304B",

1284

b"n8jok5ay5dzabd5bym9f0cm5685rrjetr6pdxa"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1285

1286

# (H) Korean (Hangul syllables):

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1287

("\uC138\uACC4\uC758\uBAA8\uB4E0\uC0AC\uB78C\uB4E4\uC774"

1288

"\uD55C\uAD6D\uC5B4\uB97C\uC774\uD574\uD55C\uB2E4\uBA74"

1289

"\uC5BC\uB9C8\uB098\uC88B\uC744\uAE4C",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1290

b"989aomsvi5e83db1d2a355cv1e0vak1dwrv93d5xbh15a0dt30a5j"

1291

b"psd879ccm6fea98c"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1292

1293

# (I) Russian (Cyrillic):

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1294

("\u043F\u043E\u0447\u0435\u043C\u0443\u0436\u0435\u043E"

1295

"\u043D\u0438\u043D\u0435\u0433\u043E\u0432\u043E\u0440"

1296

"\u044F\u0442\u043F\u043E\u0440\u0443\u0441\u0441\u043A"

1297

"\u0438",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1298

b"b1abfaaepdrnnbgefbaDotcwatmq2g4l"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1299

1300

# (J) Spanish: Porqu<eacute>nopuedensimplementehablarenEspa<ntilde>ol

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1301

("\u0050\u006F\u0072\u0071\u0075\u00E9\u006E\u006F\u0070"

1302

"\u0075\u0065\u0064\u0065\u006E\u0073\u0069\u006D\u0070"

1303

"\u006C\u0065\u006D\u0065\u006E\u0074\u0065\u0068\u0061"

1304

"\u0062\u006C\u0061\u0072\u0065\u006E\u0045\u0073\u0070"

1305

"\u0061\u00F1\u006F\u006C",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1306

b"PorqunopuedensimplementehablarenEspaol-fmd56a"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1307

1308

# (K) Vietnamese:

1309

# T<adotbelow>isaoh<odotbelow>kh<ocirc>ngth<ecirchookabove>ch\

1310

# <ihookabove>n<oacute>iti<ecircacute>ngVi<ecircdotbelow>t

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1311

("\u0054\u1EA1\u0069\u0073\u0061\u006F\u0068\u1ECD\u006B"

1312

"\u0068\u00F4\u006E\u0067\u0074\u0068\u1EC3\u0063\u0068"

1313

"\u1EC9\u006E\u00F3\u0069\u0074\u0069\u1EBF\u006E\u0067"

1314

"\u0056\u0069\u1EC7\u0074",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1315

b"TisaohkhngthchnitingVit-kjcr8268qyxafd2f1b9g"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1316

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1317

#(L) 3<nen>B<gumi><kinpachi><sensei>

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1318

("\u0033\u5E74\u0042\u7D44\u91D1\u516B\u5148\u751F",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1319

b"3B-ww4c5e180e575a65lsy2b"),

Tim Peters

0eadaac

2003-04-24 16:02:54 +0000

[diff] [blame]

1320

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1321

# (M) <amuro><namie>-with-SUPER-MONKEYS

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1322

("\u5B89\u5BA4\u5948\u7F8E\u6075\u002D\u0077\u0069\u0074"

1323

"\u0068\u002D\u0053\u0055\u0050\u0045\u0052\u002D\u004D"

1324

"\u004F\u004E\u004B\u0045\u0059\u0053",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1325

b"-with-SUPER-MONKEYS-pc58ag80a8qai00g7n9n"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1326

1327

# (N) Hello-Another-Way-<sorezore><no><basho>

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1328

("\u0048\u0065\u006C\u006C\u006F\u002D\u0041\u006E\u006F"

1329

"\u0074\u0068\u0065\u0072\u002D\u0057\u0061\u0079\u002D"

1330

"\u305D\u308C\u305E\u308C\u306E\u5834\u6240",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1331

b"Hello-Another-Way--fc4qua05auwb3674vfr0b"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1332

1333

# (O) <hitotsu><yane><no><shita>2

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1334

("\u3072\u3068\u3064\u5C4B\u6839\u306E\u4E0B\u0032",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1335

b"2-u9tlzr9756bt3uc0v"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1336

1337

# (P) Maji<de>Koi<suru>5<byou><mae>

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1338

("\u004D\u0061\u006A\u0069\u3067\u004B\u006F\u0069\u3059"

1339

"\u308B\u0035\u79D2\u524D",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1340

b"MajiKoi5-783gue6qz075azm5e"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1341

1342

# (Q) <pafii>de<runba>

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1343

("\u30D1\u30D5\u30A3\u30FC\u0064\u0065\u30EB\u30F3\u30D0",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1344

b"de-jg4avhby1noc0d"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1345

1346

# (R) <sono><supiido><de>

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1347

("\u305D\u306E\u30B9\u30D4\u30FC\u30C9\u3067",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1348

b"d9juau41awczczp"),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1349

1350

# (S) -> $1.00 <-

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1351

("\u002D\u003E\u0020\u0024\u0031\u002E\u0030\u0030\u0020"

1352

"\u003C\u002D",

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1353

b"-> $1.00 <--")

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1354

]

1355

1356

for i in punycode_testcases:

1357

if len(i)!=2:

Guido van Rossum

be19ed7

2007-02-09 05:37:30 +0000

[diff] [blame]

1358

print(repr(i))

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1359

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

1360

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1361

class PunycodeTest(unittest.TestCase):

1362

def test_encode(self):

1363

for uni, puny in punycode_testcases:

1364

# Need to convert both strings to lower case, since

1365

# some of the extended encodings use upper case, but our

1366

# code produces only lower case. Converting just puny to

1367

# lower is also insufficient, since some of the input characters

1368

# are upper case.

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1369

self.assertEqual(

Walter Dörwald

2007-05-10 12:36:25 +0000

[diff] [blame]

1370

str(uni.encode("punycode"), "ascii").lower(),

1371

str(puny, "ascii").lower()

1372

)

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1373

1374

def test_decode(self):

1375

for uni, puny in punycode_testcases:

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1376

self.assertEqual(uni, puny.decode("punycode"))

Guido van Rossum

04c70ad

2007-08-29 14:04:40 +0000

[diff] [blame]

1377

puny = puny.decode("ascii").encode("ascii")

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1378

self.assertEqual(uni, puny.decode("punycode"))

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1379

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

1380

Walter Dörwald

2005-08-30 10:23:14 +0000

[diff] [blame]

1381

class UnicodeInternalTest(unittest.TestCase):

Victor Stinner

2011-09-29 19:53:55 +0200

[diff] [blame]

1382

@unittest.skipUnless(SIZEOF_WCHAR_T == 4, 'specific to 32-bit wchar_t')

Walter Dörwald

2005-08-30 10:23:14 +0000

[diff] [blame]

1383

def test_bug1251300(self):

1384

# Decoding with unicode_internal used to not correctly handle "code

1385

# points" above 0x10ffff on UCS-4 builds.

Victor Stinner

2011-09-29 19:53:55 +0200

[diff] [blame]

1386

ok = [

1387

(b"\x00\x10\xff\xff", "\U0010ffff"),

1388

(b"\x00\x00\x01\x01", "\U00000101"),

(b"", ""),

]

not_ok = [

b"\x7f\xff\xff\xff",

b"\x80\x00\x00\x00",

b"\x81\x00\x00\x00",

b"\x00",

b"\x00\x00\x00\x00\x00",

1397

]

1398

for internal, uni in ok:

1399

if sys.byteorder == "little":

1400

internal = bytes(reversed(internal))

Ezio Melotti

2011-11-16 09:39:10 +0200

[diff] [blame]

1401

with support.check_warnings():

1402

self.assertEqual(uni, internal.decode("unicode_internal"))

Victor Stinner

2011-09-29 19:53:55 +0200

[diff] [blame]

1403

for internal in not_ok:

1404

if sys.byteorder == "little":

1405

internal = bytes(reversed(internal))

Ezio Melotti

345379a

2011-11-16 09:54:19 +0200

[diff] [blame]

1406

with support.check_warnings(('unicode_internal codec has been '

Ezio Melotti

2011-11-16 09:39:10 +0200

[diff] [blame]

1407

'deprecated', DeprecationWarning)):

1408

self.assertRaises(UnicodeDecodeError, internal.decode,

1409

"unicode_internal")

Victor Stinner

2011-12-09 20:49:49 +0100

[diff] [blame]

1410

if sys.byteorder == "little":

1411

invalid = b"\x00\x00\x11\x00"

Serhiy Storchaka

2015-01-25 22:56:57 +0200

[diff] [blame]

1412

invalid_backslashreplace = r"\x00\x00\x11\x00"

Victor Stinner

2011-12-09 20:49:49 +0100

[diff] [blame]

1413

else:

1414

invalid = b"\x00\x11\x00\x00"

Serhiy Storchaka

2015-01-25 22:56:57 +0200

[diff] [blame]

1415

invalid_backslashreplace = r"\x00\x11\x00\x00"

Victor Stinner

2011-12-09 20:49:49 +0100

[diff] [blame]

1416

with support.check_warnings():

1417

self.assertRaises(UnicodeDecodeError,

1418

invalid.decode, "unicode_internal")

1419

with support.check_warnings():

1420

self.assertEqual(invalid.decode("unicode_internal", "replace"),

1421

'\ufffd')

Serhiy Storchaka

2015-01-25 22:56:57 +0200

[diff] [blame]

1422

with support.check_warnings():

1423

self.assertEqual(invalid.decode("unicode_internal", "backslashreplace"),

1424

invalid_backslashreplace)

Walter Dörwald

2005-08-30 10:23:14 +0000

[diff] [blame]

1425

Victor Stinner

2011-09-29 19:53:55 +0200

[diff] [blame]

1426

@unittest.skipUnless(SIZEOF_WCHAR_T == 4, 'specific to 32-bit wchar_t')

Walter Dörwald

2005-08-30 10:23:14 +0000

[diff] [blame]

1427

def test_decode_error_attributes(self):

Victor Stinner

2011-09-29 19:53:55 +0200

[diff] [blame]

1428

try:

Ezio Melotti

345379a

2011-11-16 09:54:19 +0200

[diff] [blame]

1429

with support.check_warnings(('unicode_internal codec has been '

Ezio Melotti

2011-11-16 09:39:10 +0200

[diff] [blame]

1430

'deprecated', DeprecationWarning)):

1431

b"\x00\x00\x00\x00\x00\x11\x11\x00".decode("unicode_internal")

Victor Stinner

2011-09-29 19:53:55 +0200

[diff] [blame]

1432

except UnicodeDecodeError as ex:

1433

self.assertEqual("unicode_internal", ex.encoding)

1434

self.assertEqual(b"\x00\x00\x00\x00\x00\x11\x11\x00", ex.object)

1435

self.assertEqual(4, ex.start)

1436

self.assertEqual(8, ex.end)

1437

else:

1438

self.fail()

Walter Dörwald

2005-08-30 10:23:14 +0000

[diff] [blame]

1439

Victor Stinner

2011-09-29 19:53:55 +0200

[diff] [blame]

1440

@unittest.skipUnless(SIZEOF_WCHAR_T == 4, 'specific to 32-bit wchar_t')

Walter Dörwald

2005-08-30 10:23:14 +0000

[diff] [blame]

1441

def test_decode_callback(self):

Victor Stinner

2011-09-29 19:53:55 +0200

[diff] [blame]

1442

codecs.register_error("UnicodeInternalTest", codecs.ignore_errors)

1443

decoder = codecs.getdecoder("unicode_internal")

Ezio Melotti

345379a

2011-11-16 09:54:19 +0200

[diff] [blame]

1444

with support.check_warnings(('unicode_internal codec has been '

Ezio Melotti

2011-11-16 09:39:10 +0200

[diff] [blame]

1445

'deprecated', DeprecationWarning)):

1446

ab = "ab".encode("unicode_internal").decode()

1447

ignored = decoder(bytes("%s\x22\x22\x22\x22%s" % (ab[:4], ab[4:]),

1448

"ascii"),

1449

"UnicodeInternalTest")

Victor Stinner

2011-09-29 19:53:55 +0200

[diff] [blame]

1450

self.assertEqual(("ab", 12), ignored)

Walter Dörwald

2005-08-30 10:23:14 +0000

[diff] [blame]

1451

Walter Dörwald

8dc33d5

2009-05-06 14:41:26 +0000

[diff] [blame]

1452

def test_encode_length(self):

Ezio Melotti

adc417c

2011-11-17 12:23:34 +0200

[diff] [blame]

1453

with support.check_warnings(('unicode_internal codec has been '

1454

'deprecated', DeprecationWarning)):

Victor Stinner

2011-11-15 22:44:05 +0100

[diff] [blame]

1455

# Issue 3739

1456

encoder = codecs.getencoder("unicode_internal")

1457

self.assertEqual(encoder("a")[1], 1)

1458

self.assertEqual(encoder("\xe9\u0142")[1], 2)

1459

1460

self.assertEqual(codecs.escape_encode(br'\x00')[1], 4)

Philip Jenvey

66a1bd5

2010-04-05 03:05:24 +0000

[diff] [blame]

1461

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1462

# From http://www.gnu.org/software/libidn/draft-josefsson-idn-test-vectors.html

1463

nameprep_tests = [

1464

# 3.1 Map to nothing.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1465

(b'foo\xc2\xad\xcd\x8f\xe1\xa0\x86\xe1\xa0\x8bbar'

1466

b'\xe2\x80\x8b\xe2\x81\xa0baz\xef\xb8\x80\xef\xb8\x88\xef'

1467

b'\xb8\x8f\xef\xbb\xbf',

1468

b'foobarbaz'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1469

# 3.2 Case folding ASCII U+0043 U+0041 U+0046 U+0045.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1470

(b'CAFE',

1471

b'cafe'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1472

# 3.3 Case folding 8bit U+00DF (german sharp s).

1473

# The original test case is bogus; it says \xc3\xdf

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1474

(b'\xc3\x9f',

1475

b'ss'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1476

# 3.4 Case folding U+0130 (turkish capital I with dot).

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1477

(b'\xc4\xb0',

1478

b'i\xcc\x87'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1479

# 3.5 Case folding multibyte U+0143 U+037A.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1480

(b'\xc5\x83\xcd\xba',

1481

b'\xc5\x84 \xce\xb9'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1482

# 3.6 Case folding U+2121 U+33C6 U+1D7BB.

1483

# XXX: skip this as it fails in UCS-2 mode

1484

#('\xe2\x84\xa1\xe3\x8f\x86\xf0\x9d\x9e\xbb',

1485

# 'telc\xe2\x88\x95kg\xcf\x83'),

1486

(None, None),

1487

# 3.7 Normalization of U+006a U+030c U+00A0 U+00AA.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1488

(b'j\xcc\x8c\xc2\xa0\xc2\xaa',

1489

b'\xc7\xb0 a'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1490

# 3.8 Case folding U+1FB7 and normalization.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1491

(b'\xe1\xbe\xb7',

1492

b'\xe1\xbe\xb6\xce\xb9'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1493

# 3.9 Self-reverting case folding U+01F0 and normalization.

1494

# The original test case is bogus, it says `\xc7\xf0'

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1495

(b'\xc7\xb0',

1496

b'\xc7\xb0'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1497

# 3.10 Self-reverting case folding U+0390 and normalization.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1498

(b'\xce\x90',

1499

b'\xce\x90'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1500

# 3.11 Self-reverting case folding U+03B0 and normalization.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1501

(b'\xce\xb0',

1502

b'\xce\xb0'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1503

# 3.12 Self-reverting case folding U+1E96 and normalization.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1504

(b'\xe1\xba\x96',

1505

b'\xe1\xba\x96'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1506

# 3.13 Self-reverting case folding U+1F56 and normalization.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1507

(b'\xe1\xbd\x96',

1508

b'\xe1\xbd\x96'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1509

# 3.14 ASCII space character U+0020.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1510

(b' ',

1511

b' '),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1512

# 3.15 Non-ASCII 8bit space character U+00A0.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1513

(b'\xc2\xa0',

1514

b' '),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1515

# 3.16 Non-ASCII multibyte space character U+1680.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1516

(b'\xe1\x9a\x80',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1517

None),

1518

# 3.17 Non-ASCII multibyte space character U+2000.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1519

(b'\xe2\x80\x80',

1520

b' '),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1521

# 3.18 Zero Width Space U+200b.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1522

(b'\xe2\x80\x8b',

1523

b''),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1524

# 3.19 Non-ASCII multibyte space character U+3000.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1525

(b'\xe3\x80\x80',

1526

b' '),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1527

# 3.20 ASCII control characters U+0010 U+007F.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1528

(b'\x10\x7f',

1529

b'\x10\x7f'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1530

# 3.21 Non-ASCII 8bit control character U+0085.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1531

(b'\xc2\x85',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1532

None),

1533

# 3.22 Non-ASCII multibyte control character U+180E.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1534

(b'\xe1\xa0\x8e',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1535

None),

1536

# 3.23 Zero Width No-Break Space U+FEFF.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1537

(b'\xef\xbb\xbf',

1538

b''),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1539

# 3.24 Non-ASCII control character U+1D175.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1540

(b'\xf0\x9d\x85\xb5',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1541

None),

1542

# 3.25 Plane 0 private use character U+F123.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1543

(b'\xef\x84\xa3',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1544

None),

1545

# 3.26 Plane 15 private use character U+F1234.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1546

(b'\xf3\xb1\x88\xb4',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1547

None),

1548

# 3.27 Plane 16 private use character U+10F234.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1549

(b'\xf4\x8f\x88\xb4',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1550

None),

1551

# 3.28 Non-character code point U+8FFFE.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1552

(b'\xf2\x8f\xbf\xbe',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1553

None),

1554

# 3.29 Non-character code point U+10FFFF.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1555

(b'\xf4\x8f\xbf\xbf',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1556

None),

1557

# 3.30 Surrogate code U+DF42.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1558

(b'\xed\xbd\x82',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1559

None),

1560

# 3.31 Non-plain text character U+FFFD.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1561

(b'\xef\xbf\xbd',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1562

None),

1563

# 3.32 Ideographic description character U+2FF5.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1564

(b'\xe2\xbf\xb5',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1565

None),

1566

# 3.33 Display property character U+0341.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1567

(b'\xcd\x81',

1568

b'\xcc\x81'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1569

# 3.34 Left-to-right mark U+200E.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1570

(b'\xe2\x80\x8e',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1571

None),

1572

# 3.35 Deprecated U+202A.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1573

(b'\xe2\x80\xaa',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1574

None),

1575

# 3.36 Language tagging character U+E0001.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1576

(b'\xf3\xa0\x80\x81',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1577

None),

1578

# 3.37 Language tagging character U+E0042.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1579

(b'\xf3\xa0\x81\x82',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1580

None),

1581

# 3.38 Bidi: RandALCat character U+05BE and LCat characters.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1582

(b'foo\xd6\xbebar',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1583

None),

1584

# 3.39 Bidi: RandALCat character U+FD50 and LCat characters.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1585

(b'foo\xef\xb5\x90bar',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1586

None),

1587

# 3.40 Bidi: RandALCat character U+FB38 and LCat characters.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1588

(b'foo\xef\xb9\xb6bar',

1589

b'foo \xd9\x8ebar'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1590

# 3.41 Bidi: RandALCat without trailing RandALCat U+0627 U+0031.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1591

(b'\xd8\xa71',

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1592

None),

1593

# 3.42 Bidi: RandALCat character U+0627 U+0031 U+0628.

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1594

(b'\xd8\xa71\xd8\xa8',

1595

b'\xd8\xa71\xd8\xa8'),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1596

# 3.43 Unassigned code point U+E0002.

Martin v. Löwis

b5c4b7b

2003-04-18 20:21:00 +0000

[diff] [blame]

1597

# Skip this test as we allow unassigned

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1598

#(b'\xf3\xa0\x80\x82',

Martin v. Löwis

b5c4b7b

2003-04-18 20:21:00 +0000

[diff] [blame]

1599

# None),

1600

(None, None),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1601

# 3.44 Larger test (shrinking).

1602

# Original test case reads \xc3\xdf

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1603

(b'X\xc2\xad\xc3\x9f\xc4\xb0\xe2\x84\xa1j\xcc\x8c\xc2\xa0\xc2'

1604

b'\xaa\xce\xb0\xe2\x80\x80',

1605

b'xssi\xcc\x87tel\xc7\xb0 a\xce\xb0 '),

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1606

# 3.45 Larger test (expanding).

1607

# Original test case reads \xc3\x9f

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1608

(b'X\xc3\x9f\xe3\x8c\x96\xc4\xb0\xe2\x84\xa1\xe2\x92\x9f\xe3\x8c'

1609

b'\x80',

1610

b'xss\xe3\x82\xad\xe3\x83\xad\xe3\x83\xa1\xe3\x83\xbc\xe3'

1611

b'\x83\x88\xe3\x83\xabi\xcc\x87tel\x28d\x29\xe3\x82'

1612

b'\xa2\xe3\x83\x91\xe3\x83\xbc\xe3\x83\x88')

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

]

class NameprepTest(unittest.TestCase):

1617

def test_nameprep(self):

1618

from encodings.idna import nameprep

1619

for pos, (orig, prepped) in enumerate(nameprep_tests):

if orig is None:

# Skipped

continue

# The Unicode strings are given in UTF-8

Martin v. Löwis

2009-05-10 08:08:56 +0000

[diff] [blame]

1624

orig = str(orig, "utf-8", "surrogatepass")

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1625

if prepped is None:

1626

# Input contains prohibited characters

1627

self.assertRaises(UnicodeError, nameprep, orig)

1628

else:

Martin v. Löwis

2009-05-10 08:08:56 +0000

[diff] [blame]

1629

prepped = str(prepped, "utf-8", "surrogatepass")

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1630

try:

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1631

self.assertEqual(nameprep(orig), prepped)

Guido van Rossum

b940e11

2007-01-10 16:19:56 +0000

[diff] [blame]

1632

except Exception as e:

Benjamin Peterson

ee8712c

2008-05-20 21:35:26 +0000

[diff] [blame]

1633

raise support.TestFailed("Test 3.%d: %s" % (pos+1, str(e)))

Martin v. Löwis

2003-04-18 10:39:54 +0000

[diff] [blame]

1634

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

1635

Thomas Wouters

2006-04-21 10:40:58 +0000

[diff] [blame]

1636

class IDNACodecTest(unittest.TestCase):

1637

def test_builtin_decode(self):

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1638

self.assertEqual(str(b"python.org", "idna"), "python.org")

1639

self.assertEqual(str(b"python.org.", "idna"), "python.org.")

1640

self.assertEqual(str(b"xn--pythn-mua.org", "idna"), "pyth\xf6n.org")

1641

self.assertEqual(str(b"xn--pythn-mua.org.", "idna"), "pyth\xf6n.org.")

Thomas Wouters

2006-04-21 10:40:58 +0000

[diff] [blame]

1642

1643

def test_builtin_encode(self):

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1644

self.assertEqual("python.org".encode("idna"), b"python.org")

1645

self.assertEqual("python.org.".encode("idna"), b"python.org.")

1646

self.assertEqual("pyth\xf6n.org".encode("idna"), b"xn--pythn-mua.org")

1647

self.assertEqual("pyth\xf6n.org.".encode("idna"), b"xn--pythn-mua.org.")

Martin v. Löwis

a1dde13

2004-03-24 16:48:24 +0000

[diff] [blame]

1648

Martin v. Löwis

8b59514

2005-08-25 11:03:38 +0000

[diff] [blame]

1649

def test_stream(self):

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

1650

r = codecs.getreader("idna")(io.BytesIO(b"abc"))

Martin v. Löwis

8b59514

2005-08-25 11:03:38 +0000

[diff] [blame]

1651

r.read(3)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1652

self.assertEqual(r.read(), "")

Martin v. Löwis

8b59514

2005-08-25 11:03:38 +0000

[diff] [blame]

1653

Thomas Wouters

2006-04-21 10:40:58 +0000

[diff] [blame]

1654

def test_incremental_decode(self):

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1655

self.assertEqual(

Guido van Rossum

2007-08-27 20:40:10 +0000

[diff] [blame]

1656

"".join(codecs.iterdecode((bytes([c]) for c in b"python.org"), "idna")),

Thomas Wouters

2006-04-21 10:40:58 +0000

[diff] [blame]

1657

"python.org"

1658

)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1659

self.assertEqual(

Guido van Rossum

2007-08-27 20:40:10 +0000

[diff] [blame]

1660

"".join(codecs.iterdecode((bytes([c]) for c in b"python.org."), "idna")),

Thomas Wouters

2006-04-21 10:40:58 +0000

[diff] [blame]

1661

"python.org."

1662

)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1663

self.assertEqual(

Guido van Rossum

2007-08-27 20:40:10 +0000

[diff] [blame]

1664

"".join(codecs.iterdecode((bytes([c]) for c in b"xn--pythn-mua.org."), "idna")),

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1665

"pyth\xf6n.org."

1666

)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1667

self.assertEqual(

Guido van Rossum

2007-08-27 20:40:10 +0000

[diff] [blame]

1668

"".join(codecs.iterdecode((bytes([c]) for c in b"xn--pythn-mua.org."), "idna")),

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

"pyth\xf6n.org."

)

decoder = codecs.getincrementaldecoder("idna")()

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1673

self.assertEqual(decoder.decode(b"xn--xam", ), "")

1674

self.assertEqual(decoder.decode(b"ple-9ta.o", ), "\xe4xample.")

1675

self.assertEqual(decoder.decode(b"rg"), "")

1676

self.assertEqual(decoder.decode(b"", True), "org")

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1677

1678

decoder.reset()

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1679

self.assertEqual(decoder.decode(b"xn--xam", ), "")

1680

self.assertEqual(decoder.decode(b"ple-9ta.o", ), "\xe4xample.")

1681

self.assertEqual(decoder.decode(b"rg."), "org.")

1682

self.assertEqual(decoder.decode(b"", True), "")

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1683

1684

def test_incremental_encode(self):

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1685

self.assertEqual(

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1686

b"".join(codecs.iterencode("python.org", "idna")),

1687

b"python.org"

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1688

)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1689

self.assertEqual(

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1690

b"".join(codecs.iterencode("python.org.", "idna")),

1691

b"python.org."

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1692

)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1693

self.assertEqual(

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1694

b"".join(codecs.iterencode("pyth\xf6n.org.", "idna")),

1695

b"xn--pythn-mua.org."

Thomas Wouters

2006-04-21 10:40:58 +0000

[diff] [blame]

1696

)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1697

self.assertEqual(

Walter Dörwald

2007-05-11 10:32:57 +0000

[diff] [blame]

1698

b"".join(codecs.iterencode("pyth\xf6n.org.", "idna")),

1699

b"xn--pythn-mua.org."

Thomas Wouters

2006-04-21 10:40:58 +0000

[diff] [blame]

1700

)

1701

1702

encoder = codecs.getincrementalencoder("idna")()

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1703

self.assertEqual(encoder.encode("\xe4x"), b"")

1704

self.assertEqual(encoder.encode("ample.org"), b"xn--xample-9ta.")

1705

self.assertEqual(encoder.encode("", True), b"org")

Thomas Wouters

2006-04-21 10:40:58 +0000

[diff] [blame]

1706

1707

encoder.reset()

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1708

self.assertEqual(encoder.encode("\xe4x"), b"")

1709

self.assertEqual(encoder.encode("ample.org."), b"xn--xample-9ta.org.")

1710

self.assertEqual(encoder.encode("", True), b"")

Thomas Wouters

2006-04-21 10:40:58 +0000

[diff] [blame]

1711

Nick Coghlan

2015-01-07 00:22:00 +1000

[diff] [blame]

1712

def test_errors(self):

1713

"""Only supports "strict" error handler"""

1714

"python.org".encode("idna", "strict")

1715

b"python.org".decode("idna", "strict")

1716

for errors in ("ignore", "replace", "backslashreplace",

1717

"surrogateescape"):

1718

self.assertRaises(Exception, "python.org".encode, "idna", errors)

1719

self.assertRaises(Exception,

1720

b"python.org".decode, "idna", errors)

1721

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

1722

Marc-André Lemburg

3f41974

2004-07-10 12:06:10 +0000

[diff] [blame]

1723

class CodecsModuleTest(unittest.TestCase):

1724

1725

def test_decode(self):

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1726

self.assertEqual(codecs.decode(b'\xe4\xf6\xfc', 'latin-1'),

1727

'\xe4\xf6\xfc')

Walter Dörwald

2004-10-28 13:04:26 +0000

[diff] [blame]

1728

self.assertRaises(TypeError, codecs.decode)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1729

self.assertEqual(codecs.decode(b'abc'), 'abc')

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

1730

self.assertRaises(UnicodeDecodeError, codecs.decode, b'\xff', 'ascii')

Walter Dörwald

2004-10-28 13:04:26 +0000

[diff] [blame]

1731

Victor Stinner

a57dfd0

2014-05-14 17:13:14 +0200

[diff] [blame]

1732

# test keywords

1733

self.assertEqual(codecs.decode(obj=b'\xe4\xf6\xfc', encoding='latin-1'),

1734

'\xe4\xf6\xfc')

1735

self.assertEqual(codecs.decode(b'[\xff]', 'ascii', errors='ignore'),

1736

'[]')

1737

Marc-André Lemburg

3f41974

2004-07-10 12:06:10 +0000

[diff] [blame]

1738

def test_encode(self):

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1739

self.assertEqual(codecs.encode('\xe4\xf6\xfc', 'latin-1'),

1740

b'\xe4\xf6\xfc')

Walter Dörwald

2004-10-28 13:04:26 +0000

[diff] [blame]

1741

self.assertRaises(TypeError, codecs.encode)

Walter Dörwald

690402f

2005-11-17 18:51:34 +0000

[diff] [blame]

1742

self.assertRaises(LookupError, codecs.encode, "foo", "__spam__")

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1743

self.assertEqual(codecs.encode('abc'), b'abc')

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

1744

self.assertRaises(UnicodeEncodeError, codecs.encode, '\xffff', 'ascii')

Walter Dörwald

2004-10-28 13:04:26 +0000

[diff] [blame]

1745

Victor Stinner

a57dfd0

2014-05-14 17:13:14 +0200

[diff] [blame]

1746

# test keywords

1747

self.assertEqual(codecs.encode(obj='\xe4\xf6\xfc', encoding='latin-1'),

1748

b'\xe4\xf6\xfc')

1749

self.assertEqual(codecs.encode('[\xff]', 'ascii', errors='ignore'),

1750

b'[]')

1751

Walter Dörwald

2004-10-28 13:04:26 +0000

[diff] [blame]

1752

def test_register(self):

1753

self.assertRaises(TypeError, codecs.register)

Walter Dörwald

690402f

2005-11-17 18:51:34 +0000

[diff] [blame]

1754

self.assertRaises(TypeError, codecs.register, 42)

Walter Dörwald

2004-10-28 13:04:26 +0000

[diff] [blame]

1755

1756

def test_lookup(self):

1757

self.assertRaises(TypeError, codecs.lookup)

1758

self.assertRaises(LookupError, codecs.lookup, "__spam__")

Walter Dörwald

690402f

2005-11-17 18:51:34 +0000

[diff] [blame]

1759

self.assertRaises(LookupError, codecs.lookup, " ")

1760

1761

def test_getencoder(self):

1762

self.assertRaises(TypeError, codecs.getencoder)

1763

self.assertRaises(LookupError, codecs.getencoder, "__spam__")

1764

1765

def test_getdecoder(self):

1766

self.assertRaises(TypeError, codecs.getdecoder)

1767

self.assertRaises(LookupError, codecs.getdecoder, "__spam__")

1768

1769

def test_getreader(self):

1770

self.assertRaises(TypeError, codecs.getreader)

1771

self.assertRaises(LookupError, codecs.getreader, "__spam__")

1772

1773

def test_getwriter(self):

1774

self.assertRaises(TypeError, codecs.getwriter)

1775

self.assertRaises(LookupError, codecs.getwriter, "__spam__")

Marc-André Lemburg

3f41974

2004-07-10 12:06:10 +0000

[diff] [blame]

1776

Antoine Pitrou

cf9d3c0

2011-07-24 02:27:04 +0200

[diff] [blame]

1777

def test_lookup_issue1813(self):

1778

# Issue #1813: under Turkish locales, lookup of some codecs failed

1779

# because 'I' is lowercased as "ı" (dotless i)

Antoine Pitrou

d05066d

2011-07-26 23:55:33 +0200

[diff] [blame]

1780

oldlocale = locale.setlocale(locale.LC_CTYPE)

Antoine Pitrou

cf9d3c0

2011-07-24 02:27:04 +0200

[diff] [blame]

1781

self.addCleanup(locale.setlocale, locale.LC_CTYPE, oldlocale)

1782

try:

1783

locale.setlocale(locale.LC_CTYPE, 'tr_TR')

1784

except locale.Error:

1785

# Unsupported locale on this system

1786

self.skipTest('test needs Turkish locale')

1787

c = codecs.lookup('ASCII')

1788

self.assertEqual(c.name, 'ascii')

1789

Serhiy Storchaka

de3ee5b

2014-12-20 17:42:38 +0200

[diff] [blame]

def test_all(self):

api = (

"encode", "decode",

"register", "CodecInfo", "Codec", "IncrementalEncoder",

1794

"IncrementalDecoder", "StreamReader", "StreamWriter", "lookup",

1795

"getencoder", "getdecoder", "getincrementalencoder",

1796

"getincrementaldecoder", "getreader", "getwriter",

1797

"register_error", "lookup_error",

1798

"strict_errors", "replace_errors", "ignore_errors",

1799

"xmlcharrefreplace_errors", "backslashreplace_errors",

1800

"namereplace_errors",

1801

"open", "EncodedFile",

1802

"iterencode", "iterdecode",

1803

"BOM", "BOM_BE", "BOM_LE",

1804

"BOM_UTF8", "BOM_UTF16", "BOM_UTF16_BE", "BOM_UTF16_LE",

1805

"BOM_UTF32", "BOM_UTF32_BE", "BOM_UTF32_LE",

1806

"BOM32_BE", "BOM32_LE", "BOM64_BE", "BOM64_LE", # Undocumented

1807

"StreamReaderWriter", "StreamRecoder",

1808

)

1809

self.assertCountEqual(api, codecs.__all__)

1810

for api in codecs.__all__:

1811

getattr(codecs, api)

1812

Nick Coghlan

2015-01-07 00:22:00 +1000

[diff] [blame]

1813

def test_open(self):

1814

self.addCleanup(support.unlink, support.TESTFN)

1815

for mode in ('w', 'r', 'r+', 'w+', 'a', 'a+'):

1816

with self.subTest(mode), \

1817

codecs.open(support.TESTFN, mode, 'ascii') as file:

1818

self.assertIsInstance(file, codecs.StreamReaderWriter)

1819

1820

def test_undefined(self):

1821

self.assertRaises(UnicodeError, codecs.encode, 'abc', 'undefined')

1822

self.assertRaises(UnicodeError, codecs.decode, b'abc', 'undefined')

1823

self.assertRaises(UnicodeError, codecs.encode, '', 'undefined')

1824

self.assertRaises(UnicodeError, codecs.decode, b'', 'undefined')

1825

for errors in ('strict', 'ignore', 'replace', 'backslashreplace'):

1826

self.assertRaises(UnicodeError,

1827

codecs.encode, 'abc', 'undefined', errors)

1828

self.assertRaises(UnicodeError,

1829

codecs.decode, b'abc', 'undefined', errors)

1830

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

1831

Hye-Shik Chang

af5c7cf

2004-10-17 23:51:21 +0000

[diff] [blame]

1832

class StreamReaderTest(unittest.TestCase):

1833

1834

def setUp(self):

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

1835

self.reader = codecs.getreader('utf-8')

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

1836

self.stream = io.BytesIO(b'\xed\x95\x9c\n\xea\xb8\x80')

Hye-Shik Chang

af5c7cf

2004-10-17 23:51:21 +0000

[diff] [blame]

1837

1838

def test_readlines(self):

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

1839

f = self.reader(self.stream)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1840

self.assertEqual(f.readlines(), ['\ud55c\n', '\uae00'])

Hye-Shik Chang

af5c7cf

2004-10-17 23:51:21 +0000

[diff] [blame]

1841

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

1842

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

1843

class EncodedFileTest(unittest.TestCase):

1844

1845

def test_basic(self):

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

1846

f = io.BytesIO(b'\xed\x95\x9c\n\xea\xb8\x80')

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

1847

ef = codecs.EncodedFile(f, 'utf-16-le', 'utf-8')

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1848

self.assertEqual(ef.read(), b'\\\xd5\n\x00\x00\xae')

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

1849

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

1850

f = io.BytesIO()

Marc-André Lemburg

8f36af7

2011-02-25 15:42:01 +0000

[diff] [blame]

1851

ef = codecs.EncodedFile(f, 'utf-8', 'latin-1')

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

1852

ef.write(b'\xc3\xbc')

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

1853

self.assertEqual(f.getvalue(), b'\xfc')

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

1854

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

1855

all_unicode_encodings = [

1856

"ascii",

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

"big5",

"big5hkscs",

"charmap",

"cp037",

"cp1006",

"cp1026",

Serhiy Storchaka

be0c325

2013-11-23 18:52:23 +0200

[diff] [blame]

1863

"cp1125",

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

"cp1140",

"cp1250",

"cp1251",

"cp1252",

"cp1253",

"cp1254",

"cp1255",

"cp1256",

"cp1257",

"cp1258",

"cp424",

"cp437",

"cp500",

Benjamin Peterson

5a6214a

2010-06-27 22:41:29 +0000

[diff] [blame]

1877

"cp720",

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

"cp737",

"cp775",

"cp850",

"cp852",

"cp855",

"cp856",

"cp857",

Benjamin Peterson

5a6214a

2010-06-27 22:41:29 +0000

[diff] [blame]

1885

"cp858",

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

"cp860",

"cp861",

"cp862",

"cp863",

"cp864",

"cp865",

"cp866",

"cp869",

"cp874",

"cp875",

"cp932",

"cp949",

"cp950",

"euc_jis_2004",

"euc_jisx0213",

"euc_jp",

"euc_kr",

"gb18030",

"gb2312",

"gbk",

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

"hp_roman8",

"hz",

"idna",

"iso2022_jp",

"iso2022_jp_1",

"iso2022_jp_2",

"iso2022_jp_2004",

"iso2022_jp_3",

"iso2022_jp_ext",

"iso2022_kr",

"iso8859_1",

"iso8859_10",

"iso8859_11",

"iso8859_13",

"iso8859_14",

"iso8859_15",

"iso8859_16",

"iso8859_2",

"iso8859_3",

"iso8859_4",

"iso8859_5",

"iso8859_6",

"iso8859_7",

"iso8859_8",

"iso8859_9",

"johab",

"koi8_r",

Serhiy Storchaka

f0eeedf

2015-05-12 23:24:19 +0300

[diff] [blame]

1933

"koi8_t",

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

1934

"koi8_u",

Serhiy Storchaka

ad8a1c3

2015-05-12 23:16:55 +0300

[diff] [blame]

1935

"kz1048",

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

"latin_1",

"mac_cyrillic",

"mac_greek",

"mac_iceland",

"mac_latin2",

"mac_roman",

"mac_turkish",

"palmos",

"ptcp154",

"punycode",

"raw_unicode_escape",

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

"shift_jis",

"shift_jis_2004",

"shift_jisx0213",

"tis_620",

"unicode_escape",

"unicode_internal",

"utf_16",

"utf_16_be",

"utf_16_le",

"utf_7",

"utf_8",

]

if hasattr(codecs, "mbcs_encode"):

1961

all_unicode_encodings.append("mbcs")

Steve Dower

2016-09-06 19:42:27 -0700

[diff] [blame]

1962

if hasattr(codecs, "oem_encode"):

1963

all_unicode_encodings.append("oem")

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

1964

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

1965

# The following encoding is not tested, because it's not supposed

# to work:

# "undefined"

# The following encodings don't work in stateful mode

Nick Coghlan

2015-01-07 00:22:00 +1000

[diff] [blame]

1970

broken_unicode_with_stateful = [

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

1971

"punycode",

1972

"unicode_internal"

1973

]

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

1974

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

1975

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

1976

class BasicUnicodeTest(unittest.TestCase, MixInCheckStateHandling):

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

1977

def test_basics(self):

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

1978

s = "abc123" # all codecs should be able to encode these

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

1979

for encoding in all_unicode_encodings:

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

1980

name = codecs.lookup(encoding).name

1981

if encoding.endswith("_codec"):

1982

name += "_codec"

1983

elif encoding == "latin_1":

1984

name = "latin_1"

1985

self.assertEqual(encoding.replace("_", "-"), name.replace("_", "-"))

Victor Stinner

2011-11-15 22:44:05 +0100

[diff] [blame]

1986

Ezio Melotti

adc417c

2011-11-17 12:23:34 +0200

[diff] [blame]

1987

with support.check_warnings():

Victor Stinner

2011-11-15 22:44:05 +0100

[diff] [blame]

1988

# unicode-internal has been deprecated

Victor Stinner

2011-11-15 22:44:05 +0100

[diff] [blame]

1989

(b, size) = codecs.getencoder(encoding)(s)

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

1990

self.assertEqual(size, len(s), "encoding=%r" % encoding)

Victor Stinner

2011-11-15 22:44:05 +0100

[diff] [blame]

1991

(chars, size) = codecs.getdecoder(encoding)(b)

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

1992

self.assertEqual(chars, s, "encoding=%r" % encoding)

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

1993

Nick Coghlan

2015-01-07 00:22:00 +1000

[diff] [blame]

1994

if encoding not in broken_unicode_with_stateful:

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

1995

# check stream reader/writer

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

1996

q = Queue(b"")

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

1997

writer = codecs.getwriter(encoding)(q)

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

1998

encodedresult = b""

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

1999

for c in s:

2000

writer.write(c)

Guido van Rossum

98297ee

2007-11-06 21:34:58 +0000

[diff] [blame]

2001

chunk = q.read()

Benjamin Peterson

2009-06-30 23:06:06 +0000

[diff] [blame]

2002

self.assertTrue(type(chunk) is bytes, type(chunk))

Guido van Rossum

98297ee

2007-11-06 21:34:58 +0000

[diff] [blame]

2003

encodedresult += chunk

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

2004

q = Queue(b"")

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

2005

reader = codecs.getreader(encoding)(q)

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

2006

decodedresult = ""

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

2007

for c in encodedresult:

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

2008

q.write(bytes([c]))

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

2009

decodedresult += reader.read()

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2010

self.assertEqual(decodedresult, s, "encoding=%r" % encoding)

Walter Dörwald

2004-12-29 16:04:38 +0000

[diff] [blame]

2011

Nick Coghlan

2015-01-07 00:22:00 +1000

[diff] [blame]

2012

if encoding not in broken_unicode_with_stateful:

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2013

# check incremental decoder/encoder and iterencode()/iterdecode()

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

2014

try:

2015

encoder = codecs.getincrementalencoder(encoding)()

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2016

except LookupError: # no IncrementalEncoder

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

2017

pass

2018

else:

2019

# check incremental decoder/encoder

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

2020

encodedresult = b""

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

2021

for c in s:

2022

encodedresult += encoder.encode(c)

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

2023

encodedresult += encoder.encode("", True)

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

2024

decoder = codecs.getincrementaldecoder(encoding)()

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

2025

decodedresult = ""

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

2026

for c in encodedresult:

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

2027

decodedresult += decoder.decode(bytes([c]))

Guido van Rossum

f4cfc8f

2007-05-17 21:52:23 +0000

[diff] [blame]

2028

decodedresult += decoder.decode(b"", True)

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2029

self.assertEqual(decodedresult, s,

2030

"encoding=%r" % encoding)

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

2031

2032

# check iterencode()/iterdecode()

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2033

result = "".join(codecs.iterdecode(

2034

codecs.iterencode(s, encoding), encoding))

2035

self.assertEqual(result, s, "encoding=%r" % encoding)

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

2036

2037

# check iterencode()/iterdecode() with empty string

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2038

result = "".join(codecs.iterdecode(

2039

codecs.iterencode("", encoding), encoding))

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

2040

self.assertEqual(result, "")

Thomas Wouters

2006-04-21 09:43:23 +0000

[diff] [blame]

2041

Victor Stinner

554f3f0

2010-06-16 23:33:54 +0000

[diff] [blame]

2042

if encoding not in ("idna", "mbcs"):

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

2043

# check incremental decoder/encoder with errors argument

2044

try:

2045

encoder = codecs.getincrementalencoder(encoding)("ignore")

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2046

except LookupError: # no IncrementalEncoder

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

2047

pass

2048

else:

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

2049

encodedresult = b"".join(encoder.encode(c) for c in s)

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

2050

decoder = codecs.getincrementaldecoder(encoding)("ignore")

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2051

decodedresult = "".join(decoder.decode(bytes([c]))

2052

for c in encodedresult)

2053

self.assertEqual(decodedresult, s,

2054

"encoding=%r" % encoding)

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

2055

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2056

@support.cpython_only

2057

def test_basics_capi(self):

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2058

s = "abc123" # all codecs should be able to encode these

2059

for encoding in all_unicode_encodings:

Nick Coghlan

2015-01-07 00:22:00 +1000

[diff] [blame]

2060

if encoding not in broken_unicode_with_stateful:

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2061

# check incremental decoder/encoder (fetched via the C API)

2062

try:

Victor Stinner

2018-08-29 22:21:32 +0200

[diff] [blame]

2063

cencoder = _testcapi.codec_incrementalencoder(encoding)

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2064

except LookupError: # no IncrementalEncoder

pass

else:

# check C API

encodedresult = b""

for c in s:

encodedresult += cencoder.encode(c)

2071

encodedresult += cencoder.encode("", True)

Victor Stinner

2018-08-29 22:21:32 +0200

[diff] [blame]

2072

cdecoder = _testcapi.codec_incrementaldecoder(encoding)

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2073

decodedresult = ""

2074

for c in encodedresult:

2075

decodedresult += cdecoder.decode(bytes([c]))

2076

decodedresult += cdecoder.decode(b"", True)

2077

self.assertEqual(decodedresult, s,

2078

"encoding=%r" % encoding)

2079

2080

if encoding not in ("idna", "mbcs"):

2081

# check incremental decoder/encoder with errors argument

2082

try:

Victor Stinner

2018-08-29 22:21:32 +0200

[diff] [blame]

2083

cencoder = _testcapi.codec_incrementalencoder(encoding, "ignore")

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2084

except LookupError: # no IncrementalEncoder

2085

pass

2086

else:

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

2087

encodedresult = b"".join(cencoder.encode(c) for c in s)

Victor Stinner

2018-08-29 22:21:32 +0200

[diff] [blame]

2088

cdecoder = _testcapi.codec_incrementaldecoder(encoding, "ignore")

Serhiy Storchaka

2014-02-07 10:06:39 +0200

[diff] [blame]

2089

decodedresult = "".join(cdecoder.decode(bytes([c]))

2090

for c in encodedresult)

2091

self.assertEqual(decodedresult, s,

2092

"encoding=%r" % encoding)

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

2093

Walter Dörwald

2005-03-14 19:06:30 +0000

[diff] [blame]

2094

def test_seek(self):

2095

# all codecs should be able to encode these

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

2096

s = "%s\n%s\n" % (100*"abc123", 100*"def456")

Walter Dörwald

2005-03-14 19:06:30 +0000

[diff] [blame]

2097

for encoding in all_unicode_encodings:

2098

if encoding == "idna": # FIXME: See SF bug #1163178

2099

continue

Nick Coghlan

2015-01-07 00:22:00 +1000

[diff] [blame]

2100

if encoding in broken_unicode_with_stateful:

Walter Dörwald

2005-03-14 19:06:30 +0000

[diff] [blame]

2101

continue

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

2102

reader = codecs.getreader(encoding)(io.BytesIO(s.encode(encoding)))

Guido van Rossum

2007-05-07 22:24:25 +0000

[diff] [blame]

2103

for t in range(5):

Walter Dörwald

2005-03-14 19:06:30 +0000

[diff] [blame]

2104

# Test that calling seek resets the internal codec state and buffers

2105

reader.seek(0, 0)

Guido van Rossum

f4cfc8f

2007-05-17 21:52:23 +0000

[diff] [blame]

2106

data = reader.read()

2107

self.assertEqual(s, data)

Walter Dörwald

2005-03-14 19:06:30 +0000

[diff] [blame]

2108

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

2109

def test_bad_decode_args(self):

2110

for encoding in all_unicode_encodings:

2111

decoder = codecs.getdecoder(encoding)

2112

self.assertRaises(TypeError, decoder)

2113

if encoding not in ("idna", "punycode"):

2114

self.assertRaises(TypeError, decoder, 42)

2115

2116

def test_bad_encode_args(self):

2117

for encoding in all_unicode_encodings:

2118

encoder = codecs.getencoder(encoding)

Ezio Melotti

adc417c

2011-11-17 12:23:34 +0200

[diff] [blame]

2119

with support.check_warnings():

2120

# unicode-internal has been deprecated

2121

self.assertRaises(TypeError, encoder)

Walter Dörwald

2005-11-17 08:52:34 +0000

[diff] [blame]

2122

Thomas Wouters

0e3f591

2006-08-11 14:57:12 +0000

[diff] [blame]

2123

def test_encoding_map_type_initialized(self):

2124

from encodings import cp1140

2125

# This used to crash, we are only verifying there's no crash.

2126

table_type = type(cp1140.encoding_table)

2127

self.assertEqual(table_type, table_type)

2128

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

2129

def test_decoder_state(self):

2130

# Check that getstate() and setstate() handle the state properly

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

2131

u = "abc123"

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

2132

for encoding in all_unicode_encodings:

Nick Coghlan

2015-01-07 00:22:00 +1000

[diff] [blame]

2133

if encoding not in broken_unicode_with_stateful:

Walter Dörwald

2007-04-16 22:10:50 +0000

[diff] [blame]

2134

self.check_state_handling_decode(encoding, u, u.encode(encoding))

2135

self.check_state_handling_encode(encoding, u, u.encode(encoding))

2136

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

2137

Walter Dörwald

2005-10-06 20:29:57 +0000

[diff] [blame]

2138

class CharmapTest(unittest.TestCase):

2139

def test_decode_with_string_map(self):

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2140

self.assertEqual(

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

2141

codecs.charmap_decode(b"\x00\x01\x02", "strict", "abc"),

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

2142

("abc", 3)

Walter Dörwald

2005-10-06 20:29:57 +0000

[diff] [blame]

2143

)

2144

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2145

self.assertEqual(

Antoine Pitrou

a1f7655

2012-09-23 20:00:04 +0200

[diff] [blame]

2146

codecs.charmap_decode(b"\x00\x01\x02", "strict", "\U0010FFFFbc"),

("\U0010FFFFbc", 3)

)

Antoine Pitrou

2012-09-23 19:55:21 +0200

[diff] [blame]

2150

self.assertRaises(UnicodeDecodeError,

2151

codecs.charmap_decode, b"\x00\x01\x02", "strict", "ab"

2152

)

2153

Serhiy Storchaka

4fb8cae

2013-01-15 14:43:21 +0200

[diff] [blame]

2154

self.assertRaises(UnicodeDecodeError,

2155

codecs.charmap_decode, b"\x00\x01\x02", "strict", "ab\ufffe"

2156

)

2157

Walter Dörwald

2005-10-06 20:29:57 +0000

[diff] [blame]

2158

self.assertEqual(

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

2159

codecs.charmap_decode(b"\x00\x01\x02", "replace", "ab"),

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

2160

("ab\ufffd", 3)

Walter Dörwald

2005-10-06 20:29:57 +0000

[diff] [blame]

2161

)

2162

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2163

self.assertEqual(

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

2164

codecs.charmap_decode(b"\x00\x01\x02", "replace", "ab\ufffe"),

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

2165

("ab\ufffd", 3)

Walter Dörwald

2005-10-06 20:29:57 +0000

[diff] [blame]

2166

)

2167

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2168

self.assertEqual(

Serhiy Storchaka

2015-01-25 22:56:57 +0200

[diff] [blame]

2169

codecs.charmap_decode(b"\x00\x01\x02", "backslashreplace", "ab"),

("ab\\x02", 3)

)

self.assertEqual(

codecs.charmap_decode(b"\x00\x01\x02", "backslashreplace", "ab\ufffe"),

("ab\\x02", 3)

)

self.assertEqual(

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

2179

codecs.charmap_decode(b"\x00\x01\x02", "ignore", "ab"),

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

2180

("ab", 3)

Walter Dörwald

2005-10-06 20:29:57 +0000

[diff] [blame]

2181

)

2182

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2183

self.assertEqual(

Walter Dörwald

2007-05-04 13:05:09 +0000

[diff] [blame]

2184

codecs.charmap_decode(b"\x00\x01\x02", "ignore", "ab\ufffe"),

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

2185

("ab", 3)

Walter Dörwald

2005-10-06 20:29:57 +0000

[diff] [blame]

2186

)

2187

Guido van Rossum

2007-05-07 22:24:25 +0000

[diff] [blame]

2188

allbytes = bytes(range(256))

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2189

self.assertEqual(

Guido van Rossum

2007-05-02 19:09:54 +0000

[diff] [blame]

2190

codecs.charmap_decode(allbytes, "ignore", ""),

2191

("", len(allbytes))

Walter Dörwald

2005-10-06 20:29:57 +0000

[diff] [blame]

2192

)

2193

Antoine Pitrou

2012-09-23 19:55:21 +0200

[diff] [blame]

2194

def test_decode_with_int2str_map(self):

2195

self.assertEqual(

2196

codecs.charmap_decode(b"\x00\x01\x02", "strict",

2197

{0: 'a', 1: 'b', 2: 'c'}),

("abc", 3)

)

self.assertEqual(

codecs.charmap_decode(b"\x00\x01\x02", "strict",

2203

{0: 'Aa', 1: 'Bb', 2: 'Cc'}),

("AaBbCc", 3)

)

self.assertEqual(

codecs.charmap_decode(b"\x00\x01\x02", "strict",

2209

{0: '\U0010FFFF', 1: 'b', 2: 'c'}),

("\U0010FFFFbc", 3)

)

self.assertEqual(

codecs.charmap_decode(b"\x00\x01\x02", "strict",

2215

{0: 'a', 1: 'b', 2: ''}),

("ab", 3)

)

self.assertRaises(UnicodeDecodeError,

2220

codecs.charmap_decode, b"\x00\x01\x02", "strict",

{0: 'a', 1: 'b'}

)

Serhiy Storchaka

2013-01-15 14:43:21 +0200

[diff] [blame]

2224

self.assertRaises(UnicodeDecodeError,

2225

codecs.charmap_decode, b"\x00\x01\x02", "strict",

2226

{0: 'a', 1: 'b', 2: None}

)

# Issue #14850

self.assertRaises(UnicodeDecodeError,

2231

codecs.charmap_decode, b"\x00\x01\x02", "strict",

2232

{0: 'a', 1: 'b', 2: '\ufffe'}

2233

)

2234

Antoine Pitrou

2012-09-23 19:55:21 +0200

[diff] [blame]

2235

self.assertEqual(

2236

codecs.charmap_decode(b"\x00\x01\x02", "replace",

{0: 'a', 1: 'b'}),

("ab\ufffd", 3)

)

self.assertEqual(

codecs.charmap_decode(b"\x00\x01\x02", "replace",

2243

{0: 'a', 1: 'b', 2: None}),

("ab\ufffd", 3)

)

Serhiy Storchaka

2013-01-15 14:43:21 +0200

[diff] [blame]

2247

# Issue #14850

2248

self.assertEqual(

2249

codecs.charmap_decode(b"\x00\x01\x02", "replace",

2250

{0: 'a', 1: 'b', 2: '\ufffe'}),

("ab\ufffd", 3)

)

Antoine Pitrou

2012-09-23 19:55:21 +0200

[diff] [blame]

2254

self.assertEqual(

Serhiy Storchaka

2015-01-25 22:56:57 +0200

[diff] [blame]

2255

codecs.charmap_decode(b"\x00\x01\x02", "backslashreplace",

{0: 'a', 1: 'b'}),

("ab\\x02", 3)

)

self.assertEqual(

codecs.charmap_decode(b"\x00\x01\x02", "backslashreplace",

2262

{0: 'a', 1: 'b', 2: None}),

("ab\\x02", 3)

)

# Issue #14850

self.assertEqual(

codecs.charmap_decode(b"\x00\x01\x02", "backslashreplace",

2269

{0: 'a', 1: 'b', 2: '\ufffe'}),

("ab\\x02", 3)

)

self.assertEqual(

Antoine Pitrou

2012-09-23 19:55:21 +0200

[diff] [blame]

2274

codecs.charmap_decode(b"\x00\x01\x02", "ignore",

{0: 'a', 1: 'b'}),

("ab", 3)

)

self.assertEqual(

codecs.charmap_decode(b"\x00\x01\x02", "ignore",

2281

{0: 'a', 1: 'b', 2: None}),

("ab", 3)

)

Serhiy Storchaka

2013-01-15 14:43:21 +0200

[diff] [blame]

2285

# Issue #14850

2286

self.assertEqual(

2287

codecs.charmap_decode(b"\x00\x01\x02", "ignore",

2288

{0: 'a', 1: 'b', 2: '\ufffe'}),

("ab", 3)

)

Antoine Pitrou

2012-09-23 19:55:21 +0200

[diff] [blame]

2292

allbytes = bytes(range(256))

2293

self.assertEqual(

2294

codecs.charmap_decode(allbytes, "ignore", {}),

("", len(allbytes))

)

def test_decode_with_int2int_map(self):

a = ord('a')

b = ord('b')

c = ord('c')

self.assertEqual(

codecs.charmap_decode(b"\x00\x01\x02", "strict",

{0: a, 1: b, 2: c}),

("abc", 3)

)

# Issue #15379

self.assertEqual(

codecs.charmap_decode(b"\x00\x01\x02", "strict",

2312

{0: 0x10FFFF, 1: b, 2: c}),

("\U0010FFFFbc", 3)

)

Antoine Pitrou

2012-09-23 20:00:04 +0200

[diff] [blame]

2316

self.assertEqual(

2317

codecs.charmap_decode(b"\x00\x01\x02", "strict",

2318

{0: sys.maxunicode, 1: b, 2: c}),

2319

(chr(sys.maxunicode) + "bc", 3)

2320

)

2321

Antoine Pitrou

2012-09-23 19:55:21 +0200

[diff] [blame]

2322

self.assertRaises(TypeError,

2323

codecs.charmap_decode, b"\x00\x01\x02", "strict",

Antoine Pitrou

a1f7655

2012-09-23 20:00:04 +0200

[diff] [blame]

2324

{0: sys.maxunicode + 1, 1: b, 2: c}

Antoine Pitrou

2012-09-23 19:55:21 +0200

[diff] [blame]

2325

)

2326

2327

self.assertRaises(UnicodeDecodeError,

2328

codecs.charmap_decode, b"\x00\x01\x02", "strict",

{0: a, 1: b},

)

Serhiy Storchaka

2013-01-15 14:43:21 +0200

[diff] [blame]

2332

self.assertRaises(UnicodeDecodeError,

2333

codecs.charmap_decode, b"\x00\x01\x02", "strict",

2334

{0: a, 1: b, 2: 0xFFFE},

2335

)

2336

Antoine Pitrou

2012-09-23 19:55:21 +0200

[diff] [blame]

2337

self.assertEqual(

2338

codecs.charmap_decode(b"\x00\x01\x02", "replace",

{0: a, 1: b}),

("ab\ufffd", 3)

)

self.assertEqual(

Serhiy Storchaka

4fb8cae

2013-01-15 14:43:21 +0200

[diff] [blame]

2344

codecs.charmap_decode(b"\x00\x01\x02", "replace",

2345

{0: a, 1: b, 2: 0xFFFE}),

("ab\ufffd", 3)

)

self.assertEqual(

Serhiy Storchaka

2015-01-25 22:56:57 +0200

[diff] [blame]

2350

codecs.charmap_decode(b"\x00\x01\x02", "backslashreplace",

{0: a, 1: b}),

("ab\\x02", 3)

)

self.assertEqual(

codecs.charmap_decode(b"\x00\x01\x02", "backslashreplace",

2357

{0: a, 1: b, 2: 0xFFFE}),

("ab\\x02", 3)

)

self.assertEqual(

Antoine Pitrou

2012-09-23 19:55:21 +0200

[diff] [blame]

2362

codecs.charmap_decode(b"\x00\x01\x02", "ignore",

{0: a, 1: b}),

("ab", 3)

)

Serhiy Storchaka

2013-01-15 14:43:21 +0200

[diff] [blame]

2367

self.assertEqual(

2368

codecs.charmap_decode(b"\x00\x01\x02", "ignore",

2369

{0: a, 1: b, 2: 0xFFFE}),

("ab", 3)

)

Antoine Pitrou

2012-09-23 19:55:21 +0200

[diff] [blame]

2373

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

2374

class WithStmtTest(unittest.TestCase):

2375

def test_encodedfile(self):

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

2376

f = io.BytesIO(b"\xc3\xbc")

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

2377

with codecs.EncodedFile(f, "latin-1", "utf-8") as ef:

2378

self.assertEqual(ef.read(), b"\xfc")

Nick Coghlan

2015-01-07 00:22:00 +1000

[diff] [blame]

2379

self.assertTrue(f.closed)

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

2380

2381

def test_streamreaderwriter(self):

Walter Dörwald

2007-05-10 15:02:49 +0000

[diff] [blame]

2382

f = io.BytesIO(b"\xc3\xbc")

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

2383

info = codecs.lookup("utf-8")

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

2384

with codecs.StreamReaderWriter(f, info.streamreader,

2385

info.streamwriter, 'strict') as srw:

2386

self.assertEqual(srw.read(), "\xfc")

Thomas Wouters

2006-12-13 04:49:30 +0000

[diff] [blame]

2387

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

2388

Antoine Pitrou

81fabdb

2009-01-22 10:11:36 +0000

[diff] [blame]

2389

class TypesTest(unittest.TestCase):

2390

def test_decode_unicode(self):

2391

# Most decoders don't accept unicode input

decoders = [

codecs.utf_7_decode,

codecs.utf_8_decode,

codecs.utf_16_le_decode,

2396

codecs.utf_16_be_decode,

2397

codecs.utf_16_ex_decode,

2398

codecs.utf_32_decode,

2399

codecs.utf_32_le_decode,

2400

codecs.utf_32_be_decode,

2401

codecs.utf_32_ex_decode,

2402

codecs.latin_1_decode,

2403

codecs.ascii_decode,

2404

codecs.charmap_decode,

2405

]

2406

if hasattr(codecs, "mbcs_decode"):

2407

decoders.append(codecs.mbcs_decode)

2408

for decoder in decoders:

2409

self.assertRaises(TypeError, decoder, "xxx")

2410

2411

def test_unicode_escape(self):

Martin Panter

119e502

2016-04-16 09:28:57 +0000

[diff] [blame]

2412

# Escape-decoding a unicode string is supported and gives the same

Antoine Pitrou

81fabdb

2009-01-22 10:11:36 +0000

[diff] [blame]

2413

# result as decoding the equivalent ASCII bytes string.

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2414

self.assertEqual(codecs.unicode_escape_decode(r"\u1234"), ("\u1234", 6))

2415

self.assertEqual(codecs.unicode_escape_decode(br"\u1234"), ("\u1234", 6))

2416

self.assertEqual(codecs.raw_unicode_escape_decode(r"\u1234"), ("\u1234", 6))

2417

self.assertEqual(codecs.raw_unicode_escape_decode(br"\u1234"), ("\u1234", 6))

Antoine Pitrou

81fabdb

2009-01-22 10:11:36 +0000

[diff] [blame]

2418

Victor Stinner

2011-12-09 20:49:49 +0100

[diff] [blame]

2419

self.assertRaises(UnicodeDecodeError, codecs.unicode_escape_decode, br"\U00110000")

2420

self.assertEqual(codecs.unicode_escape_decode(r"\U00110000", "replace"), ("\ufffd", 10))

Serhiy Storchaka

2015-01-25 22:56:57 +0200

[diff] [blame]

2421

self.assertEqual(codecs.unicode_escape_decode(r"\U00110000", "backslashreplace"),

2422

(r"\x5c\x55\x30\x30\x31\x31\x30\x30\x30\x30", 10))

Victor Stinner

2011-12-09 20:49:49 +0100

[diff] [blame]

2423

2424

self.assertRaises(UnicodeDecodeError, codecs.raw_unicode_escape_decode, br"\U00110000")

2425

self.assertEqual(codecs.raw_unicode_escape_decode(r"\U00110000", "replace"), ("\ufffd", 10))

Serhiy Storchaka

2015-01-25 22:56:57 +0200

[diff] [blame]

2426

self.assertEqual(codecs.raw_unicode_escape_decode(r"\U00110000", "backslashreplace"),

2427

(r"\x5c\x55\x30\x30\x31\x31\x30\x30\x30\x30", 10))

Victor Stinner

2011-12-09 20:49:49 +0100

[diff] [blame]

2428

Serhiy Storchaka

2013-01-29 10:20:44 +0200

[diff] [blame]

2429

2430

class UnicodeEscapeTest(unittest.TestCase):

2431

def test_empty(self):

2432

self.assertEqual(codecs.unicode_escape_encode(""), (b"", 0))

2433

self.assertEqual(codecs.unicode_escape_decode(b""), ("", 0))

2434

2435

def test_raw_encode(self):

2436

encode = codecs.unicode_escape_encode

2437

for b in range(32, 127):

2438

if b != b'\\'[0]:

2439

self.assertEqual(encode(chr(b)), (bytes([b]), 1))

2440

2441

def test_raw_decode(self):

2442

decode = codecs.unicode_escape_decode

2443

for b in range(256):

2444

if b != b'\\'[0]:

2445

self.assertEqual(decode(bytes([b]) + b'0'), (chr(b) + '0', 2))

2446

2447

def test_escape_encode(self):

2448

encode = codecs.unicode_escape_encode

2449

check = coding_checker(self, encode)

check('\t', br'\t')

check('\n', br'\n')

check('\r', br'\r')

check('\\', br'\\')

for b in range(32):

if chr(b) not in '\t\n\r':

2456

check(chr(b), ('\\x%02x' % b).encode())

2457

for b in range(127, 256):

2458

check(chr(b), ('\\x%02x' % b).encode())

2459

check('\u20ac', br'\u20ac')

2460

check('\U0001d120', br'\U0001d120')

2461

2462

def test_escape_decode(self):

2463

decode = codecs.unicode_escape_decode

2464

check = coding_checker(self, decode)

2465

check(b"[\\\n]", "[]")

2466

check(br'[\"]', '["]')

2467

check(br"[\']", "[']")

2468

check(br"[\\]", r"[\]")

2469

check(br"[\a]", "[\x07]")

2470

check(br"[\b]", "[\x08]")

2471

check(br"[\t]", "[\x09]")

2472

check(br"[\n]", "[\x0a]")

2473

check(br"[\v]", "[\x0b]")

2474

check(br"[\f]", "[\x0c]")

2475

check(br"[\r]", "[\x0d]")

2476

check(br"[\7]", "[\x07]")

Serhiy Storchaka

2013-01-29 10:20:44 +0200

[diff] [blame]

2477

check(br"[\78]", "[\x078]")

2478

check(br"[\41]", "[!]")

2479

check(br"[\418]", "[!8]")

2480

check(br"[\101]", "[A]")

2481

check(br"[\1010]", "[A0]")

2482

check(br"[\x41]", "[A]")

2483

check(br"[\x410]", "[A0]")

2484

check(br"\u20ac", "\u20ac")

2485

check(br"\U0001d120", "\U0001d120")

R David Murray

110b6fe

2016-09-08 15:34:08 -0400

[diff] [blame]

2486

for i in range(97, 123):

2487

b = bytes([i])

2488

if b not in b'abfnrtuvx':

2489

with self.assertWarns(DeprecationWarning):

2490

check(b"\\" + b, "\\" + chr(i))

2491

if b.upper() not in b'UN':

2492

with self.assertWarns(DeprecationWarning):

2493

check(b"\\" + b.upper(), "\\" + chr(i-32))

2494

with self.assertWarns(DeprecationWarning):

2495

check(br"\8", "\\8")

2496

with self.assertWarns(DeprecationWarning):

2497

check(br"\9", "\\9")

Serhiy Storchaka

56cb465

2017-10-20 17:08:15 +0300

[diff] [blame]

2498

with self.assertWarns(DeprecationWarning):

2499

check(b"\\\xfa", "\\\xfa")

Serhiy Storchaka

2013-01-29 10:20:44 +0200

[diff] [blame]

2500

2501

def test_decode_errors(self):

2502

decode = codecs.unicode_escape_decode

2503

for c, d in (b'x', 2), (b'u', 4), (b'U', 4):

2504

for i in range(d):

2505

self.assertRaises(UnicodeDecodeError, decode,

2506

b"\\" + c + b"0"*i)

2507

self.assertRaises(UnicodeDecodeError, decode,

2508

b"[\\" + c + b"0"*i + b"]")

2509

data = b"[\\" + c + b"0"*i + b"]\\" + c + b"0"*i

2510

self.assertEqual(decode(data, "ignore"), ("[]", len(data)))

2511

self.assertEqual(decode(data, "replace"),

2512

("[\ufffd]\ufffd", len(data)))

2513

self.assertRaises(UnicodeDecodeError, decode, br"\U00110000")

2514

self.assertEqual(decode(br"\U00110000", "ignore"), ("", 10))

2515

self.assertEqual(decode(br"\U00110000", "replace"), ("\ufffd", 10))

2516

2517

Serhiy Storchaka

c9c4338

2013-01-29 11:40:00 +0200

[diff] [blame]

2518

class RawUnicodeEscapeTest(unittest.TestCase):

2519

def test_empty(self):

2520

self.assertEqual(codecs.raw_unicode_escape_encode(""), (b"", 0))

2521

self.assertEqual(codecs.raw_unicode_escape_decode(b""), ("", 0))

2522

2523

def test_raw_encode(self):

2524

encode = codecs.raw_unicode_escape_encode

2525

for b in range(256):

2526

self.assertEqual(encode(chr(b)), (bytes([b]), 1))

2527

2528

def test_raw_decode(self):

2529

decode = codecs.raw_unicode_escape_decode

2530

for b in range(256):

2531

self.assertEqual(decode(bytes([b]) + b'0'), (chr(b) + '0', 2))

2532

2533

def test_escape_encode(self):

2534

encode = codecs.raw_unicode_escape_encode

2535

check = coding_checker(self, encode)

2536

for b in range(256):

2537

if b not in b'uU':

2538

check('\\' + chr(b), b'\\' + bytes([b]))

2539

check('\u20ac', br'\u20ac')

2540

check('\U0001d120', br'\U0001d120')

2541

2542

def test_escape_decode(self):

2543

decode = codecs.raw_unicode_escape_decode

2544

check = coding_checker(self, decode)

2545

for b in range(256):

2546

if b not in b'uU':

2547

check(b'\\' + bytes([b]), '\\' + chr(b))

2548

check(br"\u20ac", "\u20ac")

2549

check(br"\U0001d120", "\U0001d120")

2550

2551

def test_decode_errors(self):

2552

decode = codecs.raw_unicode_escape_decode

2553

for c, d in (b'u', 4), (b'U', 4):

2554

for i in range(d):

2555

self.assertRaises(UnicodeDecodeError, decode,

2556

b"\\" + c + b"0"*i)

2557

self.assertRaises(UnicodeDecodeError, decode,

2558

b"[\\" + c + b"0"*i + b"]")

2559

data = b"[\\" + c + b"0"*i + b"]\\" + c + b"0"*i

2560

self.assertEqual(decode(data, "ignore"), ("[]", len(data)))

2561

self.assertEqual(decode(data, "replace"),

2562

("[\ufffd]\ufffd", len(data)))

2563

self.assertRaises(UnicodeDecodeError, decode, br"\U00110000")

2564

self.assertEqual(decode(br"\U00110000", "ignore"), ("", 10))

2565

self.assertEqual(decode(br"\U00110000", "replace"), ("\ufffd", 10))

2566

2567

Berker Peksag

4a72a7b

2016-09-16 17:31:06 +0300

[diff] [blame]

2568

class EscapeEncodeTest(unittest.TestCase):

2569

2570

def test_escape_encode(self):

2571

tests = [

2572

(b'', (b'', 0)),

2573

(b'foobar', (b'foobar', 6)),

2574

(b'spam\0eggs', (b'spam\\x00eggs', 9)),

2575

(b'a\'b', (b"a\\'b", 3)),

2576

(b'b\\c', (b'b\\\\c', 3)),

2577

(b'c\nd', (b'c\\nd', 3)),

2578

(b'd\re', (b'd\\re', 3)),

2579

(b'f\x7fg', (b'f\\x7fg', 3)),

2580

]

2581

for data, output in tests:

2582

with self.subTest(data=data):

2583

self.assertEqual(codecs.escape_encode(data), output)

2584

self.assertRaises(TypeError, codecs.escape_encode, 'spam')

2585

self.assertRaises(TypeError, codecs.escape_encode, bytearray(b'spam'))

2586

2587

Martin v. Löwis

2009-05-10 08:15:24 +0000

[diff] [blame]

2588

class SurrogateEscapeTest(unittest.TestCase):

Martin v. Löwis

2009-05-05 04:43:17 +0000

[diff] [blame]

2589

2590

def test_utf8(self):

2591

# Bad byte

Martin v. Löwis

2009-05-10 08:15:24 +0000

[diff] [blame]

2592

self.assertEqual(b"foo\x80bar".decode("utf-8", "surrogateescape"),

Martin v. Löwis

2009-05-05 04:43:17 +0000

[diff] [blame]

2593

"foo\udc80bar")

Martin v. Löwis

2009-05-10 08:15:24 +0000

[diff] [blame]

2594

self.assertEqual("foo\udc80bar".encode("utf-8", "surrogateescape"),

Martin v. Löwis

2009-05-05 04:43:17 +0000

[diff] [blame]

2595

b"foo\x80bar")

2596

# bad-utf-8 encoded surrogate

Martin v. Löwis

2009-05-10 08:15:24 +0000

[diff] [blame]

2597

self.assertEqual(b"\xed\xb0\x80".decode("utf-8", "surrogateescape"),

Martin v. Löwis

2009-05-05 04:43:17 +0000

[diff] [blame]

2598

"\udced\udcb0\udc80")

Martin v. Löwis

2009-05-10 08:15:24 +0000

[diff] [blame]

2599

self.assertEqual("\udced\udcb0\udc80".encode("utf-8", "surrogateescape"),

Martin v. Löwis

2009-05-05 04:43:17 +0000

[diff] [blame]

2600

b"\xed\xb0\x80")

2601

2602

def test_ascii(self):

2603

# bad byte

Martin v. Löwis

2009-05-10 08:15:24 +0000

[diff] [blame]

2604

self.assertEqual(b"foo\x80bar".decode("ascii", "surrogateescape"),

Martin v. Löwis

2009-05-05 04:43:17 +0000

[diff] [blame]

2605

"foo\udc80bar")

Martin v. Löwis

2009-05-10 08:15:24 +0000

[diff] [blame]

2606

self.assertEqual("foo\udc80bar".encode("ascii", "surrogateescape"),

Martin v. Löwis

2009-05-05 04:43:17 +0000

[diff] [blame]

2607

b"foo\x80bar")

2608

2609

def test_charmap(self):

2610

# bad byte: \xa5 is unmapped in iso-8859-3

Martin v. Löwis

2009-05-10 08:15:24 +0000

[diff] [blame]

2611

self.assertEqual(b"foo\xa5bar".decode("iso-8859-3", "surrogateescape"),

Martin v. Löwis

2009-05-05 04:43:17 +0000

[diff] [blame]

2612

"foo\udca5bar")

Martin v. Löwis

2009-05-10 08:15:24 +0000

[diff] [blame]

2613

self.assertEqual("foo\udca5bar".encode("iso-8859-3", "surrogateescape"),

Martin v. Löwis

2009-05-05 04:43:17 +0000

[diff] [blame]

2614

b"foo\xa5bar")

2615

Amaury Forgeot d'Arc

84ec8d9

2009-06-29 22:36:49 +0000

[diff] [blame]

2616

def test_latin1(self):

2617

# Issue6373

Marc-André Lemburg

8f36af7

2011-02-25 15:42:01 +0000

[diff] [blame]

2618

self.assertEqual("\udce4\udceb\udcef\udcf6\udcfc".encode("latin-1", "surrogateescape"),

Amaury Forgeot d'Arc

84ec8d9

2009-06-29 22:36:49 +0000

[diff] [blame]

2619

b"\xe4\xeb\xef\xf6\xfc")

2620

Walter Dörwald

2005-10-06 20:29:57 +0000

[diff] [blame]

2621

Victor Stinner

2010-05-22 02:16:27 +0000

[diff] [blame]

2622

class BomTest(unittest.TestCase):

2623

def test_seek0(self):

data = "1234567890"

tests = ("utf-16",

"utf-16-le",

"utf-16-be",

"utf-32",

"utf-32-le",

"utf-32-be")

Victor Stinner

2cca057

2011-05-23 14:51:42 +0200

[diff] [blame]

2631

self.addCleanup(support.unlink, support.TESTFN)

Victor Stinner

2010-05-22 02:16:27 +0000

[diff] [blame]

2632

for encoding in tests:

Victor Stinner

2010-05-22 16:59:09 +0000

[diff] [blame]

2633

# Check if the BOM is written only once

2634

with codecs.open(support.TESTFN, 'w+', encoding=encoding) as f:

Victor Stinner

2010-05-22 02:16:27 +0000

[diff] [blame]

2635

f.write(data)

2636

f.write(data)

2637

f.seek(0)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2638

self.assertEqual(f.read(), data * 2)

Victor Stinner

2010-05-22 02:16:27 +0000

[diff] [blame]

2639

f.seek(0)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2640

self.assertEqual(f.read(), data * 2)

Victor Stinner

2010-05-22 02:16:27 +0000

[diff] [blame]

2641

Victor Stinner

2010-05-22 16:59:09 +0000

[diff] [blame]

2642

# Check that the BOM is written after a seek(0)

2643

with codecs.open(support.TESTFN, 'w+', encoding=encoding) as f:

2644

f.write(data[0])

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2645

self.assertNotEqual(f.tell(), 0)

Victor Stinner

2010-05-22 16:59:09 +0000

[diff] [blame]

2646

f.seek(0)

2647

f.write(data)

2648

f.seek(0)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2649

self.assertEqual(f.read(), data)

Victor Stinner

2010-05-22 16:59:09 +0000

[diff] [blame]

2650

2651

# (StreamWriter) Check that the BOM is written after a seek(0)

2652

with codecs.open(support.TESTFN, 'w+', encoding=encoding) as f:

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

2653

f.writer.write(data[0])

2654

self.assertNotEqual(f.writer.tell(), 0)

2655

f.writer.seek(0)

2656

f.writer.write(data)

Victor Stinner

2010-05-22 16:59:09 +0000

[diff] [blame]

2657

f.seek(0)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2658

self.assertEqual(f.read(), data)

Victor Stinner

2010-05-22 16:59:09 +0000

[diff] [blame]

2659

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

2660

# Check that the BOM is not written after a seek() at a position

2661

# different than the start

Victor Stinner

2010-05-22 16:59:09 +0000

[diff] [blame]

2662

with codecs.open(support.TESTFN, 'w+', encoding=encoding) as f:

f.write(data)

f.seek(f.tell())

f.write(data)

f.seek(0)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2667

self.assertEqual(f.read(), data * 2)

Victor Stinner

2010-05-22 16:59:09 +0000

[diff] [blame]

2668

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

2669

# (StreamWriter) Check that the BOM is not written after a seek()

2670

# at a position different than the start

Victor Stinner

2010-05-22 16:59:09 +0000

[diff] [blame]

2671

with codecs.open(support.TESTFN, 'w+', encoding=encoding) as f:

Victor Stinner

2011-05-27 16:50:40 +0200

[diff] [blame]

2672

f.writer.write(data)

2673

f.writer.seek(f.writer.tell())

2674

f.writer.write(data)

Victor Stinner

2010-05-22 16:59:09 +0000

[diff] [blame]

2675

f.seek(0)

Ezio Melotti

2010-11-20 19:04:17 +0000

[diff] [blame]

2676

self.assertEqual(f.read(), data * 2)

Victor Stinner

2010-05-22 16:59:09 +0000

[diff] [blame]

2677

Victor Stinner

2010-05-22 02:16:27 +0000

[diff] [blame]

2678

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

2679

bytes_transform_encodings = [

"base64_codec",

"uu_codec",

"quopri_codec",

"hex_codec",

]

Nick Coghlan

2013-11-23 11:13:36 +1000

[diff] [blame]

2685

2686

transform_aliases = {

2687

"base64_codec": ["base64", "base_64"],

2688

"uu_codec": ["uu"],

2689

"quopri_codec": ["quopri", "quoted_printable", "quotedprintable"],

2690

"hex_codec": ["hex"],

"rot_13": ["rot13"],

}

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

2694

try:

2695

import zlib

2696

except ImportError:

Zachary Ware

efa2e04

2013-12-30 14:54:11 -0600

[diff] [blame]

2697

zlib = None

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

2698

else:

2699

bytes_transform_encodings.append("zlib_codec")

Nick Coghlan

2013-11-23 11:13:36 +1000

[diff] [blame]

2700

transform_aliases["zlib_codec"] = ["zip", "zlib"]

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

try:

import bz2

except ImportError:

pass

else:

bytes_transform_encodings.append("bz2_codec")

Nick Coghlan

2013-11-23 11:13:36 +1000

[diff] [blame]

2707

transform_aliases["bz2_codec"] = ["bz2"]

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

2708

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

2709

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

2710

class TransformCodecTest(unittest.TestCase):

Benjamin Peterson

28a4dce

2010-12-12 01:33:04 +0000

[diff] [blame]

2711

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

2712

def test_basics(self):

2713

binput = bytes(range(256))

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

2714

for encoding in bytes_transform_encodings:

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2715

with self.subTest(encoding=encoding):

2716

# generic codecs interface

2717

(o, size) = codecs.getencoder(encoding)(binput)

2718

self.assertEqual(size, len(binput))

2719

(i, size) = codecs.getdecoder(encoding)(o)

2720

self.assertEqual(size, len(o))

2721

self.assertEqual(i, binput)

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

2722

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

2723

def test_read(self):

2724

for encoding in bytes_transform_encodings:

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2725

with self.subTest(encoding=encoding):

2726

sin = codecs.encode(b"\x80", encoding)

2727

reader = codecs.getreader(encoding)(io.BytesIO(sin))

2728

sout = reader.read()

2729

self.assertEqual(sout, b"\x80")

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

2730

2731

def test_readline(self):

2732

for encoding in bytes_transform_encodings:

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2733

with self.subTest(encoding=encoding):

2734

sin = codecs.encode(b"\x80", encoding)

2735

reader = codecs.getreader(encoding)(io.BytesIO(sin))

2736

sout = reader.readline()

2737

self.assertEqual(sout, b"\x80")

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

2738

Nick Coghlan

fdf239a

2013-10-03 00:43:22 +1000

[diff] [blame]

2739

def test_buffer_api_usage(self):

2740

# We check all the transform codecs accept memoryview input

2741

# for encoding and decoding

2742

# and also that they roundtrip correctly

2743

original = b"12345\x80"

2744

for encoding in bytes_transform_encodings:

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2745

with self.subTest(encoding=encoding):

2746

data = original

2747

view = memoryview(data)

2748

data = codecs.encode(data, encoding)

2749

view_encoded = codecs.encode(view, encoding)

2750

self.assertEqual(view_encoded, data)

2751

view = memoryview(data)

2752

data = codecs.decode(data, encoding)

2753

self.assertEqual(data, original)

2754

view_decoded = codecs.decode(view, encoding)

2755

self.assertEqual(view_decoded, data)

Nick Coghlan

fdf239a

2013-10-03 00:43:22 +1000

[diff] [blame]

2756

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2757

def test_text_to_binary_blacklists_binary_transforms(self):

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2758

# Check binary -> binary codecs give a good error for str input

2759

bad_input = "bad input type"

2760

for encoding in bytes_transform_encodings:

2761

with self.subTest(encoding=encoding):

R David Murray

2016-09-08 13:59:53 -0400

[diff] [blame]

2762

fmt = (r"{!r} is not a text encoding; "

2763

r"use codecs.encode to handle arbitrary codecs")

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2764

msg = fmt.format(encoding)

2765

with self.assertRaisesRegex(LookupError, msg) as failure:

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2766

bad_input.encode(encoding)

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2767

self.assertIsNone(failure.exception.__cause__)

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2768

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2769

def test_text_to_binary_blacklists_text_transforms(self):

2770

# Check str.encode gives a good error message for str -> str codecs

2771

msg = (r"^'rot_13' is not a text encoding; "

R David Murray

2016-09-08 13:59:53 -0400

[diff] [blame]

2772

r"use codecs.encode to handle arbitrary codecs")

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2773

with self.assertRaisesRegex(LookupError, msg):

2774

"just an example message".encode("rot_13")

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2775

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2776

def test_binary_to_text_blacklists_binary_transforms(self):

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2777

# Check bytes.decode and bytearray.decode give a good error

2778

# message for binary -> binary codecs

2779

data = b"encode first to ensure we meet any format restrictions"

2780

for encoding in bytes_transform_encodings:

2781

with self.subTest(encoding=encoding):

2782

encoded_data = codecs.encode(data, encoding)

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2783

fmt = (r"{!r} is not a text encoding; "

R David Murray

2016-09-08 13:59:53 -0400

[diff] [blame]

2784

r"use codecs.decode to handle arbitrary codecs")

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2785

msg = fmt.format(encoding)

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2786

with self.assertRaisesRegex(LookupError, msg):

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2787

encoded_data.decode(encoding)

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2788

with self.assertRaisesRegex(LookupError, msg):

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2789

bytearray(encoded_data).decode(encoding)

2790

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2791

def test_binary_to_text_blacklists_text_transforms(self):

2792

# Check str -> str codec gives a good error for binary input

2793

for bad_input in (b"immutable", bytearray(b"mutable")):

2794

with self.subTest(bad_input=bad_input):

2795

msg = (r"^'rot_13' is not a text encoding; "

R David Murray

2016-09-08 13:59:53 -0400

[diff] [blame]

2796

r"use codecs.decode to handle arbitrary codecs")

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2797

with self.assertRaisesRegex(LookupError, msg) as failure:

2798

bad_input.decode("rot_13")

2799

self.assertIsNone(failure.exception.__cause__)

2800

Zachary Ware

efa2e04

2013-12-30 14:54:11 -0600

[diff] [blame]

2801

@unittest.skipUnless(zlib, "Requires zlib support")

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2802

def test_custom_zlib_error_is_wrapped(self):

2803

# Check zlib codec gives a good error for malformed input

2804

msg = "^decoding with 'zlib_codec' codec failed"

2805

with self.assertRaisesRegex(Exception, msg) as failure:

2806

codecs.decode(b"hello", "zlib_codec")

2807

self.assertIsInstance(failure.exception.__cause__,

2808

type(failure.exception))

2809

2810

def test_custom_hex_error_is_wrapped(self):

2811

# Check hex codec gives a good error for malformed input

2812

msg = "^decoding with 'hex_codec' codec failed"

2813

with self.assertRaisesRegex(Exception, msg) as failure:

2814

codecs.decode(b"hello", "hex_codec")

2815

self.assertIsInstance(failure.exception.__cause__,

2816

type(failure.exception))

2817

2818

# Unfortunately, the bz2 module throws OSError, which the codec

2819

# machinery currently can't wrap :(

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2820

Nick Coghlan

2013-11-23 11:13:36 +1000

[diff] [blame]

2821

# Ensure codec aliases from http://bugs.python.org/issue7475 work

2822

def test_aliases(self):

2823

for codec_name, aliases in transform_aliases.items():

2824

expected_name = codecs.lookup(codec_name).name

2825

for alias in aliases:

2826

with self.subTest(alias=alias):

2827

info = codecs.lookup(alias)

2828

self.assertEqual(info.name, expected_name)

2829

Martin Panter

06171bd

2015-09-12 00:34:28 +0000

[diff] [blame]

2830

def test_quopri_stateless(self):

2831

# Should encode with quotetabs=True

2832

encoded = codecs.encode(b"space tab\teol \n", "quopri-codec")

2833

self.assertEqual(encoded, b"space=20tab=09eol=20\n")

2834

# But should still support unescaped tabs and spaces

2835

unescaped = b"space tab eol\n"

2836

self.assertEqual(codecs.decode(unescaped, "quopri-codec"), unescaped)

2837

Serhiy Storchaka

519114d

2014-11-07 14:04:37 +0200

[diff] [blame]

2838

def test_uu_invalid(self):

2839

# Missing "begin" line

2840

self.assertRaises(ValueError, codecs.decode, b"", "uu-codec")

2841

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2842

2843

# The codec system tries to wrap exceptions in order to ensure the error

2844

# mentions the operation being performed and the codec involved. We

2845

# currently *only* want this to happen for relatively stateless

2846

# exceptions, where the only significant information they contain is their

2847

# type and a single str argument.

Nick Coghlan

2013-11-16 00:35:34 +1000

[diff] [blame]

2848

2849

# Use a local codec registry to avoid appearing to leak objects when

Martin Panter

119e502

2016-04-16 09:28:57 +0000

[diff] [blame]

2850

# registering multiple search functions

Nick Coghlan

2013-11-16 00:35:34 +1000

[diff] [blame]

2851

_TEST_CODECS = {}

2852

2853

def _get_test_codec(codec_name):

2854

return _TEST_CODECS.get(codec_name)

2855

codecs.register(_get_test_codec) # Returns None, not usable as a decorator

2856

Nick Coghlan

8fad167

2014-09-15 23:50:44 +1200

[diff] [blame]

2857

try:

2858

# Issue #22166: Also need to clear the internal cache in CPython

2859

from _codecs import _forget_codec

2860

except ImportError:

2861

def _forget_codec(codec_name):

pass

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2865

class ExceptionChainingTest(unittest.TestCase):

2866

2867

def setUp(self):

2868

# There's no way to unregister a codec search function, so we just

2869

# ensure we render this one fairly harmless after the test

2870

# case finishes by using the test case repr as the codec name

2871

# The codecs module normalizes codec names, although this doesn't

2872

# appear to be formally documented...

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2873

# We also make sure we use a truly unique id for the custom codec

2874

# to avoid issues with the codec cache when running these tests

2875

# multiple times (e.g. when hunting for refleaks)

2876

unique_id = repr(self) + str(id(self))

2877

self.codec_name = encodings.normalize_encoding(unique_id).lower()

2878

2879

# We store the object to raise on the instance because of a bad

2880

# interaction between the codec caching (which means we can't

2881

# recreate the codec entry) and regrtest refleak hunting (which

2882

# runs the same test instance multiple times). This means we

2883

# need to ensure the codecs call back in to the instance to find

2884

# out which exception to raise rather than binding them in a

2885

# closure to an object that may change on the next run

2886

self.obj_to_raise = RuntimeError

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2887

Nick Coghlan

2013-11-16 00:35:34 +1000

[diff] [blame]

2888

def tearDown(self):

2889

_TEST_CODECS.pop(self.codec_name, None)

Nick Coghlan

8fad167

2014-09-15 23:50:44 +1200

[diff] [blame]

2890

# Issue #22166: Also pop from caches to avoid appearance of ref leaks

2891

encodings._cache.pop(self.codec_name, None)

2892

try:

2893

_forget_codec(self.codec_name)

2894

except KeyError:

2895

pass

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2896

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2897

def set_codec(self, encode, decode):

2898

codec_info = codecs.CodecInfo(encode, decode,

Nick Coghlan

2013-11-16 00:35:34 +1000

[diff] [blame]

2899

name=self.codec_name)

2900

_TEST_CODECS[self.codec_name] = codec_info

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2901

2902

@contextlib.contextmanager

2903

def assertWrapped(self, operation, exc_type, msg):

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2904

full_msg = r"{} with {!r} codec failed ${}: {}$".format(

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2905

operation, self.codec_name, exc_type.__name__, msg)

2906

with self.assertRaisesRegex(exc_type, full_msg) as caught:

2907

yield caught

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2908

self.assertIsInstance(caught.exception.__cause__, exc_type)

Nick Coghlan

77b286b

2014-01-27 00:53:38 +1000

[diff] [blame]

2909

self.assertIsNotNone(caught.exception.__cause__.__traceback__)

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2910

2911

def raise_obj(self, *args, **kwds):

2912

# Helper to dynamically change the object raised by a test codec

2913

raise self.obj_to_raise

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2914

Nick Coghlan

2013-11-19 22:33:10 +1000

[diff] [blame]

2915

def check_wrapped(self, obj_to_raise, msg, exc_type=RuntimeError):

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2916

self.obj_to_raise = obj_to_raise

2917

self.set_codec(self.raise_obj, self.raise_obj)

Nick Coghlan

2013-11-19 22:33:10 +1000

[diff] [blame]

2918

with self.assertWrapped("encoding", exc_type, msg):

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2919

"str_input".encode(self.codec_name)

Nick Coghlan

2013-11-19 22:33:10 +1000

[diff] [blame]

2920

with self.assertWrapped("encoding", exc_type, msg):

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2921

codecs.encode("str_input", self.codec_name)

Nick Coghlan

2013-11-19 22:33:10 +1000

[diff] [blame]

2922

with self.assertWrapped("decoding", exc_type, msg):

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2923

b"bytes input".decode(self.codec_name)

Nick Coghlan

2013-11-19 22:33:10 +1000

[diff] [blame]

2924

with self.assertWrapped("decoding", exc_type, msg):

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2925

codecs.decode(b"bytes input", self.codec_name)

2926

2927

def test_raise_by_type(self):

2928

self.check_wrapped(RuntimeError, "")

2929

2930

def test_raise_by_value(self):

2931

msg = "This should be wrapped"

2932

self.check_wrapped(RuntimeError(msg), msg)

2933

Nick Coghlan

2013-11-19 22:33:10 +1000

[diff] [blame]

2934

def test_raise_grandchild_subclass_exact_size(self):

2935

msg = "This should be wrapped"

2936

class MyRuntimeError(RuntimeError):

2937

__slots__ = ()

2938

self.check_wrapped(MyRuntimeError(msg), msg, MyRuntimeError)

2939

2940

def test_raise_subclass_with_weakref_support(self):

2941

msg = "This should be wrapped"

2942

class MyRuntimeError(RuntimeError):

2943

pass

2944

self.check_wrapped(MyRuntimeError(msg), msg, MyRuntimeError)

2945

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2946

def check_not_wrapped(self, obj_to_raise, msg):

2947

def raise_obj(*args, **kwds):

2948

raise obj_to_raise

2949

self.set_codec(raise_obj, raise_obj)

2950

with self.assertRaisesRegex(RuntimeError, msg):

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2951

"str input".encode(self.codec_name)

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2952

with self.assertRaisesRegex(RuntimeError, msg):

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2953

codecs.encode("str input", self.codec_name)

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2954

with self.assertRaisesRegex(RuntimeError, msg):

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2955

b"bytes input".decode(self.codec_name)

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2956

with self.assertRaisesRegex(RuntimeError, msg):

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2957

codecs.decode(b"bytes input", self.codec_name)

2958

2959

def test_init_override_is_not_wrapped(self):

2960

class CustomInit(RuntimeError):

2961

def __init__(self):

2962

pass

2963

self.check_not_wrapped(CustomInit, "")

2964

2965

def test_new_override_is_not_wrapped(self):

2966

class CustomNew(RuntimeError):

2967

def __new__(cls):

2968

return super().__new__(cls)

2969

self.check_not_wrapped(CustomNew, "")

2970

2971

def test_instance_attribute_is_not_wrapped(self):

2972

msg = "This should NOT be wrapped"

2973

exc = RuntimeError(msg)

2974

exc.attr = 1

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2975

self.check_not_wrapped(exc, "^{}$".format(msg))

Nick Coghlan

2013-11-13 23:49:21 +1000

[diff] [blame]

2976

2977

def test_non_str_arg_is_not_wrapped(self):

2978

self.check_not_wrapped(RuntimeError(1), "1")

2979

2980

def test_multiple_args_is_not_wrapped(self):

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2981

msg_re = r"^$'a', 'b', 'c'$$"

2982

self.check_not_wrapped(RuntimeError('a', 'b', 'c'), msg_re)

Nick Coghlan

2013-11-15 21:47:37 +1000

[diff] [blame]

2983

2984

# http://bugs.python.org/issue19609

2985

def test_codec_lookup_failure_not_wrapped(self):

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2986

msg = "^unknown encoding: {}$".format(self.codec_name)

Nick Coghlan

2013-11-15 21:47:37 +1000

[diff] [blame]

2987

# The initial codec lookup should not be wrapped

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2988

with self.assertRaisesRegex(LookupError, msg):

Nick Coghlan

2013-11-15 21:47:37 +1000

[diff] [blame]

2989

"str input".encode(self.codec_name)

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2990

with self.assertRaisesRegex(LookupError, msg):

Nick Coghlan

2013-11-15 21:47:37 +1000

[diff] [blame]

2991

codecs.encode("str input", self.codec_name)

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2992

with self.assertRaisesRegex(LookupError, msg):

Nick Coghlan

2013-11-15 21:47:37 +1000

[diff] [blame]

2993

b"bytes input".decode(self.codec_name)

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2994

with self.assertRaisesRegex(LookupError, msg):

Nick Coghlan

2013-11-15 21:47:37 +1000

[diff] [blame]

2995

codecs.decode(b"bytes input", self.codec_name)

2996

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

2997

def test_unflagged_non_text_codec_handling(self):

2998

# The stdlib non-text codecs are now marked so they're

2999

# pre-emptively skipped by the text model related methods

3000

# However, third party codecs won't be flagged, so we still make

3001

# sure the case where an inappropriate output type is produced is

3002

# handled appropriately

3003

def encode_to_str(*args, **kwds):

3004

return "not bytes!", 0

3005

def decode_to_bytes(*args, **kwds):

3006

return b"not str!", 0

3007

self.set_codec(encode_to_str, decode_to_bytes)

3008

# No input or output type checks on the codecs module functions

3009

encoded = codecs.encode(None, self.codec_name)

3010

self.assertEqual(encoded, "not bytes!")

3011

decoded = codecs.decode(None, self.codec_name)

3012

self.assertEqual(decoded, b"not str!")

3013

# Text model methods should complain

3014

fmt = (r"^{!r} encoder returned 'str' instead of 'bytes'; "

R David Murray

2016-09-08 13:59:53 -0400

[diff] [blame]

3015

r"use codecs.encode to encode to arbitrary types$")

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

3016

msg = fmt.format(self.codec_name)

3017

with self.assertRaisesRegex(TypeError, msg):

3018

"str_input".encode(self.codec_name)

3019

fmt = (r"^{!r} decoder returned 'bytes' instead of 'str'; "

R David Murray

2016-09-08 13:59:53 -0400

[diff] [blame]

3020

r"use codecs.decode to decode to arbitrary types$")

Nick Coghlan

2013-11-22 22:39:36 +1000

[diff] [blame]

3021

msg = fmt.format(self.codec_name)

3022

with self.assertRaisesRegex(TypeError, msg):

3023

b"bytes input".decode(self.codec_name)

3024

Nick Coghlan

fdf239a

2013-10-03 00:43:22 +1000

[diff] [blame]

3025

Georg Brandl

2010-12-02 18:06:51 +0000

[diff] [blame]

3026

Victor Stinner

62be4fb

2011-10-18 21:46:37 +0200

[diff] [blame]

3027

@unittest.skipUnless(sys.platform == 'win32',

3028

'code pages are specific to Windows')

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3029

class CodePageTest(unittest.TestCase):

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

3030

# CP_UTF8 is already tested by CP65001Test

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3031

CP_UTF8 = 65001

Victor Stinner

62be4fb

2011-10-18 21:46:37 +0200

[diff] [blame]

3032

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3033

def test_invalid_code_page(self):

3034

self.assertRaises(ValueError, codecs.code_page_encode, -1, 'a')

3035

self.assertRaises(ValueError, codecs.code_page_decode, -1, b'a')

Andrew Svetlov

2606a6f

2012-12-19 14:33:35 +0200

[diff] [blame]

3036

self.assertRaises(OSError, codecs.code_page_encode, 123, 'a')

3037

self.assertRaises(OSError, codecs.code_page_decode, 123, b'a')

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3038

3039

def test_code_page_name(self):

3040

self.assertRaisesRegex(UnicodeEncodeError, 'cp932',

3041

codecs.code_page_encode, 932, '\xff')

3042

self.assertRaisesRegex(UnicodeDecodeError, 'cp932',

Victor Stinner

2014-03-17 23:08:06 +0100

[diff] [blame]

3043

codecs.code_page_decode, 932, b'\x81\x00', 'strict', True)

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3044

self.assertRaisesRegex(UnicodeDecodeError, 'CP_UTF8',

Victor Stinner

2014-03-17 23:08:06 +0100

[diff] [blame]

3045

codecs.code_page_decode, self.CP_UTF8, b'\xff', 'strict', True)

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3046

3047

def check_decode(self, cp, tests):

3048

for raw, errors, expected in tests:

3049

if expected is not None:

3050

try:

Victor Stinner

2014-03-17 23:08:06 +0100

[diff] [blame]

3051

decoded = codecs.code_page_decode(cp, raw, errors, True)

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3052

except UnicodeDecodeError as err:

3053

self.fail('Unable to decode %a from "cp%s" with '

3054

'errors=%r: %s' % (raw, cp, errors, err))

3055

self.assertEqual(decoded[0], expected,

3056

'%a.decode("cp%s", %r)=%a != %a'

3057

% (raw, cp, errors, decoded[0], expected))

3058

# assert 0 <= decoded[1] <= len(raw)

3059

self.assertGreaterEqual(decoded[1], 0)

3060

self.assertLessEqual(decoded[1], len(raw))

3061

else:

3062

self.assertRaises(UnicodeDecodeError,

Victor Stinner

2014-03-17 23:08:06 +0100

[diff] [blame]

3063

codecs.code_page_decode, cp, raw, errors, True)

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3064

3065

def check_encode(self, cp, tests):

3066

for text, errors, expected in tests:

3067

if expected is not None:

3068

try:

3069

encoded = codecs.code_page_encode(cp, text, errors)

3070

except UnicodeEncodeError as err:

3071

self.fail('Unable to encode %a to "cp%s" with '

3072

'errors=%r: %s' % (text, cp, errors, err))

3073

self.assertEqual(encoded[0], expected,

3074

'%a.encode("cp%s", %r)=%a != %a'

3075

% (text, cp, errors, encoded[0], expected))

3076

self.assertEqual(encoded[1], len(text))

3077

else:

3078

self.assertRaises(UnicodeEncodeError,

3079

codecs.code_page_encode, cp, text, errors)

3080

3081

def test_cp932(self):

3082

self.check_encode(932, (

3083

('abc', 'strict', b'abc'),

3084

('\uff44\u9a3e', 'strict', b'\x82\x84\xe9\x80'),

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

3085

# test error handlers

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3086

('\xff', 'strict', None),

3087

('[\xff]', 'ignore', b'[]'),

3088

('[\xff]', 'replace', b'[y]'),

3089

('[\u20ac]', 'replace', b'[?]'),

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

3090

('[\xff]', 'backslashreplace', b'[\\xff]'),

Serhiy Storchaka

166ebc4

2014-11-25 13:57:17 +0200

[diff] [blame]

3091

('[\xff]', 'namereplace',

3092

b'[\\N{LATIN SMALL LETTER Y WITH DIAERESIS}]'),

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

3093

('[\xff]', 'xmlcharrefreplace', b'[ÿ]'),

Serhiy Storchaka

2014-05-15 14:37:42 +0300

[diff] [blame]

3094

('\udcff', 'strict', None),

3095

('[\udcff]', 'surrogateescape', b'[\xff]'),

3096

('[\udcff]', 'surrogatepass', None),

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3097

))

Victor Stinner

9e92188

2011-10-18 21:55:25 +0200

[diff] [blame]

3098

self.check_decode(932, (

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3099

(b'abc', 'strict', 'abc'),

3100

(b'\x82\x84\xe9\x80', 'strict', '\uff44\u9a3e'),

3101

# invalid bytes

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

3102

(b'[\xff]', 'strict', None),

3103

(b'[\xff]', 'ignore', '[]'),

3104

(b'[\xff]', 'replace', '[\ufffd]'),

Serhiy Storchaka

2015-01-25 22:56:57 +0200

[diff] [blame]

3105

(b'[\xff]', 'backslashreplace', '[\\xff]'),

Victor Stinner

2011-10-27 01:38:56 +0200

[diff] [blame]

3106

(b'[\xff]', 'surrogateescape', '[\udcff]'),

Serhiy Storchaka

2014-05-15 14:37:42 +0300

[diff] [blame]

3107

(b'[\xff]', 'surrogatepass', None),

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3108

(b'\x81\x00abc', 'strict', None),

3109

(b'\x81\x00abc', 'ignore', '\x00abc'),

Victor Stinner

9e92188

2011-10-18 21:55:25 +0200

[diff] [blame]

3110

(b'\x81\x00abc', 'replace', '\ufffd\x00abc'),

Victor Stinner

f2be23d

2015-01-26 23:26:11 +0100

[diff] [blame]

3111

(b'\x81\x00abc', 'backslashreplace', '\\x81\x00abc'),

Victor Stinner

9e92188

2011-10-18 21:55:25 +0200

[diff] [blame]

3112

))

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3113

3114

def test_cp1252(self):

3115

self.check_encode(1252, (

3116

('abc', 'strict', b'abc'),

3117

('\xe9\u20ac', 'strict', b'\xe9\x80'),

3118

('\xff', 'strict', b'\xff'),

Serhiy Storchaka

2014-05-15 14:37:42 +0300

[diff] [blame]

3119

# test error handlers

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3120

('\u0141', 'strict', None),

3121

('\u0141', 'ignore', b''),

3122

('\u0141', 'replace', b'L'),

Serhiy Storchaka

2014-05-15 14:37:42 +0300

[diff] [blame]

3123

('\udc98', 'surrogateescape', b'\x98'),

3124

('\udc98', 'surrogatepass', None),

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3125

))

3126

self.check_decode(1252, (

3127

(b'abc', 'strict', 'abc'),

3128

(b'\xe9\x80', 'strict', '\xe9\u20ac'),

3129

(b'\xff', 'strict', '\xff'),

3130

))

3131

3132

def test_cp_utf7(self):

3133

cp = 65000

3134

self.check_encode(cp, (

3135

('abc', 'strict', b'abc'),

3136

('\xe9\u20ac', 'strict', b'+AOkgrA-'),

3137

('\U0010ffff', 'strict', b'+2//f/w-'),

3138

('\udc80', 'strict', b'+3IA-'),

3139

('\ufffd', 'strict', b'+//0-'),

3140

))

3141

self.check_decode(cp, (

3142

(b'abc', 'strict', 'abc'),

3143

(b'+AOkgrA-', 'strict', '\xe9\u20ac'),

3144

(b'+2//f/w-', 'strict', '\U0010ffff'),

3145

(b'+3IA-', 'strict', '\udc80'),

3146

(b'+//0-', 'strict', '\ufffd'),

3147

# invalid bytes

3148

(b'[+/]', 'strict', '[]'),

3149

(b'[\xff]', 'strict', '[\xff]'),

3150

))

3151

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3152

def test_multibyte_encoding(self):

3153

self.check_decode(932, (

3154

(b'\x84\xe9\x80', 'ignore', '\u9a3e'),

3155

(b'\x84\xe9\x80', 'replace', '\ufffd\u9a3e'),

3156

))

3157

self.check_decode(self.CP_UTF8, (

3158

(b'\xff\xf4\x8f\xbf\xbf', 'ignore', '\U0010ffff'),

3159

(b'\xff\xf4\x8f\xbf\xbf', 'replace', '\ufffd\U0010ffff'),

3160

))

Steve Dower

2016-09-06 19:42:27 -0700

[diff] [blame]

3161

self.check_encode(self.CP_UTF8, (

3162

('[\U0010ffff\uDC80]', 'ignore', b'[\xf4\x8f\xbf\xbf]'),

3163

('[\U0010ffff\uDC80]', 'replace', b'[\xf4\x8f\xbf\xbf?]'),

3164

))

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3165

3166

def test_incremental(self):

Victor Stinner

76a31a6

2011-11-04 00:05:13 +0100

[diff] [blame]

3167

decoded = codecs.code_page_decode(932, b'\x82', 'strict', False)

3168

self.assertEqual(decoded, ('', 0))

3169

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3170

decoded = codecs.code_page_decode(932,

3171

b'\xe9\x80\xe9', 'strict',

3172

False)

3173

self.assertEqual(decoded, ('\u9a3e', 2))

3174

3175

decoded = codecs.code_page_decode(932,

3176

b'\xe9\x80\xe9\x80', 'strict',

3177

False)

3178

self.assertEqual(decoded, ('\u9a3e\u9a3e', 4))

3179

3180

decoded = codecs.code_page_decode(932,

3181

b'abc', 'strict',

3182

False)

3183

self.assertEqual(decoded, ('abc', 3))

3184

Steve Dower

2016-09-06 19:42:27 -0700

[diff] [blame]

3185

def test_mbcs_alias(self):

3186

# Check that looking up our 'default' codepage will return

3187

# mbcs when we don't have a more specific one available

Victor Stinner

91106cd

2017-12-13 12:29:09 +0100

[diff] [blame]

3188

with mock.patch('_winapi.GetACP', return_value=123):

Steve Dower

2016-09-06 19:42:27 -0700

[diff] [blame]

3189

codec = codecs.lookup('cp123')

3190

self.assertEqual(codec.name, 'mbcs')

Steve Dower

2016-09-06 19:42:27 -0700

[diff] [blame]

3191

Serhiy Storchaka

4013c17

2018-12-03 10:36:45 +0200

[diff] [blame]

3192

@support.bigmemtest(size=2**31, memuse=7, dry_run=False)

3193

def test_large_input(self):

3194

# Test input longer than INT_MAX.

3195

# Input should contain undecodable bytes before and after

3196

# the INT_MAX limit.

3197

encoded = (b'01234567' * (2**28-1) +

3198

b'\x85\x86\xea\xeb\xec\xef\xfc\xfd\xfe\xff')

3199

self.assertEqual(len(encoded), 2**31+2)

3200

decoded = codecs.code_page_decode(932, encoded, 'surrogateescape', True)

3201

self.assertEqual(decoded[1], len(encoded))

3202

del encoded

3203

self.assertEqual(len(decoded[0]), decoded[1])

3204

self.assertEqual(decoded[0][:10], '0123456701')

3205

self.assertEqual(decoded[0][-20:],

3206

'6701234567'

3207

'\udc85\udc86\udcea\udceb\udcec'

3208

'\udcef\udcfc\udcfd\udcfe\udcff')

3209

Victor Stinner

2011-10-18 21:21:00 +0200

[diff] [blame]

3210

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

3211

class ASCIITest(unittest.TestCase):

Victor Stinner

2015-09-29 12:32:13 +0200

[diff] [blame]

3212

def test_encode(self):

3213

self.assertEqual('abc123'.encode('ascii'), b'abc123')

3214

3215

def test_encode_error(self):

3216

for data, error_handler, expected in (

3217

('[\x80\xff\u20ac]', 'ignore', b'[]'),

3218

('[\x80\xff\u20ac]', 'replace', b'[???]'),

3219

('[\x80\xff\u20ac]', 'xmlcharrefreplace', b'[ÿ€]'),

Victor Stinner

797485e

2015-10-09 03:17:30 +0200

[diff] [blame]

3220

('[\x80\xff\u20ac\U000abcde]', 'backslashreplace',

3221

b'[\\x80\\xff\\u20ac\\U000abcde]'),

Victor Stinner

2015-09-29 12:32:13 +0200

[diff] [blame]

3222

('[\udc80\udcff]', 'surrogateescape', b'[\x80\xff]'),

3223

):

3224

with self.subTest(data=data, error_handler=error_handler,

3225

expected=expected):

3226

self.assertEqual(data.encode('ascii', error_handler),

3227

expected)

3228

3229

def test_encode_surrogateescape_error(self):

3230

with self.assertRaises(UnicodeEncodeError):

3231

# the first character can be decoded, but not the second

3232

'\udc80\xff'.encode('ascii', 'surrogateescape')

3233

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

3234

def test_decode(self):

Victor Stinner

2015-09-29 12:32:13 +0200

[diff] [blame]

3235

self.assertEqual(b'abc'.decode('ascii'), 'abc')

3236

3237

def test_decode_error(self):

Victor Stinner

2015-09-21 23:06:27 +0200

[diff] [blame]

3238

for data, error_handler, expected in (

3239

(b'[\x80\xff]', 'ignore', '[]'),

3240

(b'[\x80\xff]', 'replace', '[\ufffd\ufffd]'),

3241

(b'[\x80\xff]', 'surrogateescape', '[\udc80\udcff]'),

3242

(b'[\x80\xff]', 'backslashreplace', '[\\x80\\xff]'),

3243

):

3244

with self.subTest(data=data, error_handler=error_handler,

3245

expected=expected):

3246

self.assertEqual(data.decode('ascii', error_handler),

expected)

Victor Stinner

2015-09-29 12:32:13 +0200

[diff] [blame]

3250

class Latin1Test(unittest.TestCase):

3251

def test_encode(self):

3252

for data, expected in (

3253

('abc', b'abc'),

3254

('\x80\xe9\xff', b'\x80\xe9\xff'),

3255

):

3256

with self.subTest(data=data, expected=expected):

3257

self.assertEqual(data.encode('latin1'), expected)

3258

3259

def test_encode_errors(self):

3260

for data, error_handler, expected in (

3261

('[\u20ac\udc80]', 'ignore', b'[]'),

3262

('[\u20ac\udc80]', 'replace', b'[??]'),

Victor Stinner

797485e

2015-10-09 03:17:30 +0200

[diff] [blame]

3263

('[\u20ac\U000abcde]', 'backslashreplace',

3264

b'[\\u20ac\\U000abcde]'),

Victor Stinner

2015-09-29 12:32:13 +0200

[diff] [blame]

3265

('[\u20ac\udc80]', 'xmlcharrefreplace', b'[€&#56448;]'),

3266

('[\udc80\udcff]', 'surrogateescape', b'[\x80\xff]'),

3267

):

3268

with self.subTest(data=data, error_handler=error_handler,

3269

expected=expected):

3270

self.assertEqual(data.encode('latin1', error_handler),

3271

expected)

3272

3273

def test_encode_surrogateescape_error(self):

3274

with self.assertRaises(UnicodeEncodeError):

3275

# the first character can be decoded, but not the second

3276

'\udc80\u20ac'.encode('latin1', 'surrogateescape')

3277

3278

def test_decode(self):

3279

for data, expected in (

3280

(b'abc', 'abc'),

3281

(b'[\x80\xff]', '[\x80\xff]'),

3282

):

3283

with self.subTest(data=data, expected=expected):

3284

self.assertEqual(data.decode('latin1'), expected)

3285

3286

Victor Stinner

2018-08-29 22:21:32 +0200

[diff] [blame]

3287

@unittest.skipIf(_testcapi is None, 'need _testcapi module')

3288

class LocaleCodecTest(unittest.TestCase):

3289

"""

3290

Test indirectly _Py_DecodeUTF8Ex() and _Py_EncodeUTF8Ex().

3291

"""

3292

ENCODING = sys.getfilesystemencoding()

3293

STRINGS = ("ascii", "ulatin1:\xa7\xe9",

3294

"u255:\xff",

3295

"UCS:\xe9\u20ac\U0010ffff",

3296

"surrogates:\uDC80\uDCFF")

3297

BYTES_STRINGS = (b"blatin1:\xa7\xe9", b"b255:\xff")

3298

SURROGATES = "\uDC80\uDCFF"

3299

3300

def encode(self, text, errors="strict"):

3301

return _testcapi.EncodeLocaleEx(text, 0, errors)

3302

3303

def check_encode_strings(self, errors):

3304

for text in self.STRINGS:

3305

with self.subTest(text=text):

3306

try:

3307

expected = text.encode(self.ENCODING, errors)

3308

except UnicodeEncodeError:

3309

with self.assertRaises(RuntimeError) as cm:

Victor Stinner

2018-11-28 10:26:20 +0100

[diff] [blame]

3310

self.encode(text, errors)

Victor Stinner

2018-08-29 22:21:32 +0200

[diff] [blame]

3311

errmsg = str(cm.exception)

Victor Stinner

2018-11-28 10:26:20 +0100

[diff] [blame]

3312

self.assertRegex(errmsg, r"encode error: pos=[0-9]+, reason=")

Victor Stinner

2018-08-29 22:21:32 +0200

[diff] [blame]

3313

else:

3314

encoded = self.encode(text, errors)

3315

self.assertEqual(encoded, expected)

3316

3317

def test_encode_strict(self):

3318

self.check_encode_strings("strict")

3319

3320

def test_encode_surrogateescape(self):

3321

self.check_encode_strings("surrogateescape")

3322

3323

def test_encode_surrogatepass(self):

3324

try:

3325

self.encode('', 'surrogatepass')

3326

except ValueError as exc:

3327

if str(exc) == 'unsupported error handler':

3328

self.skipTest(f"{self.ENCODING!r} encoder doesn't support "

3329

f"surrogatepass error handler")

else:

raise

self.check_encode_strings("surrogatepass")

3334

Victor Stinner

2018-11-28 10:26:20 +0100

[diff] [blame]

3335

def test_encode_unsupported_error_handler(self):

3336

with self.assertRaises(ValueError) as cm:

3337

self.encode('', 'backslashreplace')

3338

self.assertEqual(str(cm.exception), 'unsupported error handler')

3339

Victor Stinner

2018-08-29 22:21:32 +0200

[diff] [blame]

3340

def decode(self, encoded, errors="strict"):

3341

return _testcapi.DecodeLocaleEx(encoded, 0, errors)

3342

3343

def check_decode_strings(self, errors):

3344

is_utf8 = (self.ENCODING == "utf-8")

3345

if is_utf8:

3346

encode_errors = 'surrogateescape'

3347

else:

3348

encode_errors = 'strict'

3349

3350

strings = list(self.BYTES_STRINGS)

3351

for text in self.STRINGS:

3352

try:

3353

encoded = text.encode(self.ENCODING, encode_errors)

3354

if encoded not in strings:

3355

strings.append(encoded)

3356

except UnicodeEncodeError:

encoded = None

if is_utf8:

encoded2 = text.encode(self.ENCODING, 'surrogatepass')

3361

if encoded2 != encoded:

3362

strings.append(encoded2)

3363

3364

for encoded in strings:

3365

with self.subTest(encoded=encoded):

3366

try:

3367

expected = encoded.decode(self.ENCODING, errors)

3368

except UnicodeDecodeError:

3369

with self.assertRaises(RuntimeError) as cm:

3370

self.decode(encoded, errors)

3371

errmsg = str(cm.exception)

3372

self.assertTrue(errmsg.startswith("decode error: "), errmsg)

3373

else:

3374

decoded = self.decode(encoded, errors)

3375

self.assertEqual(decoded, expected)

3376

3377

def test_decode_strict(self):

3378

self.check_decode_strings("strict")

3379

3380

def test_decode_surrogateescape(self):

3381

self.check_decode_strings("surrogateescape")

3382

3383

def test_decode_surrogatepass(self):

3384

try:

3385

self.decode(b'', 'surrogatepass')

3386

except ValueError as exc:

3387

if str(exc) == 'unsupported error handler':

3388

self.skipTest(f"{self.ENCODING!r} decoder doesn't support "

3389

f"surrogatepass error handler")

else:

raise

self.check_decode_strings("surrogatepass")

3394

Victor Stinner

2018-11-28 10:26:20 +0100

[diff] [blame]

3395

def test_decode_unsupported_error_handler(self):

3396

with self.assertRaises(ValueError) as cm:

3397

self.decode(b'', 'backslashreplace')

3398

self.assertEqual(str(cm.exception), 'unsupported error handler')

3399

Victor Stinner

2018-08-29 22:21:32 +0200

[diff] [blame]

3400

Fred Drake

2e2be37

2001-09-20 21:33:42 +0000

[diff] [blame]

3401

if __name__ == "__main__":

Ezio Melotti