Blame - Tools/unicode/makeunicodedata.py - platform/external/python/cpython3

2000-09-24 23:18:31 +0000

[diff] [blame]

1

#

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

2

# (re)generate unicode property and type databases

3

#

Martin v. Löwis

b5c980b

2002-11-25 09:13:37 +0000

[diff] [blame]

4

# this script converts a unicode 3.2 database file to

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

5

# Modules/unicodedata_db.h, Modules/unicodename_db.h,

6

# and Objects/unicodetype_db.h

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

7

#

8

# history:

9

# 2000-09-24 fl created (based on bits and pieces from unidb)

10

# 2000-09-25 fl merged tim's splitbin fixes, separate decomposition table

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

11

# 2000-09-25 fl added character type table

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

12

# 2000-09-26 fl added LINEBREAK, DECIMAL, and DIGIT flags/fields (2.0)

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

13

# 2000-11-03 fl expand first/last ranges

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

14

# 2001-01-19 fl added character name tables (2.1)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

15

# 2001-01-21 fl added decomp compression; dynamic phrasebook threshold

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

16

# 2002-09-11 wd use string methods

17

# 2002-10-18 mvl update to Unicode 3.2

18

# 2002-10-22 mvl generate NFC tables

Martin v. Löwis

2002-11-24 23:05:09 +0000

[diff] [blame]

19

# 2002-11-24 mvl expand all ranges, sort names version-independently

Martin v. Löwis

b5c980b

2002-11-25 09:13:37 +0000

[diff] [blame]

20

# 2002-11-25 mvl add UNIDATA_VERSION

Hye-Shik Chang

974ed7c

2004-06-02 16:49:17 +0000

[diff] [blame]

21

# 2004-05-29 perky add east asian width information

Martin v. Löwis

43179c8

2006-03-11 12:43:44 +0000

[diff] [blame]

22

# 2006-03-10 mvl update to Unicode 4.1; add UCD 3.2 delta

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

23

#

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

24

# written by Fredrik Lundh (fredrik@pythonware.com)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

#

import sys

SCRIPT = sys.argv[0]

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

30

VERSION = "2.5"

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

31

Martin v. Löwis

b5c980b

2002-11-25 09:13:37 +0000

[diff] [blame]

32

# The Unicode Database

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

33

UNIDATA_VERSION = "4.1.0"

34

UNICODE_DATA = "UnicodeData%s.txt"

35

COMPOSITION_EXCLUSIONS = "CompositionExclusions%s.txt"

36

EASTASIAN_WIDTH = "EastAsianWidth%s.txt"

37

38

old_versions = ["3.2.0"]

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

39

40

CATEGORY_NAMES = [ "Cn", "Lu", "Ll", "Lt", "Mn", "Mc", "Me", "Nd",

41

"Nl", "No", "Zs", "Zl", "Zp", "Cc", "Cf", "Cs", "Co", "Cn", "Lm",

42

"Lo", "Pc", "Pd", "Ps", "Pe", "Pi", "Pf", "Po", "Sm", "Sc", "Sk",

43

"So" ]

44

45

BIDIRECTIONAL_NAMES = [ "", "L", "LRE", "LRO", "R", "AL", "RLE", "RLO",

46

"PDF", "EN", "ES", "ET", "AN", "CS", "NSM", "BN", "B", "S", "WS",

47

"ON" ]

48

Hye-Shik Chang

2004-08-04 07:38:35 +0000

[diff] [blame]

49

EASTASIANWIDTH_NAMES = [ "F", "H", "W", "Na", "A", "N" ]

50

Fredrik Lundh

2000-09-25 21:01:56 +0000

[diff] [blame]

51

# note: should match definitions in Objects/unicodectype.c

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

ALPHA_MASK = 0x01

DECIMAL_MASK = 0x02

DIGIT_MASK = 0x04

LOWER_MASK = 0x08

Fredrik Lundh

2000-09-25 21:01:56 +0000

[diff] [blame]

56

LINEBREAK_MASK = 0x10

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

SPACE_MASK = 0x20

TITLE_MASK = 0x40

UPPER_MASK = 0x80

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

61

def maketables(trace=0):

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

62

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

63

print("--- Reading", UNICODE_DATA % "", "...")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

64

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

65

version = ""

66

unicode = UnicodeData(UNICODE_DATA % version,

67

COMPOSITION_EXCLUSIONS % version,

68

EASTASIAN_WIDTH % version)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

69

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

70

print(len(filter(None, unicode.table)), "characters")

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

71

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

72

for version in old_versions:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

73

print("--- Reading", UNICODE_DATA % ("-"+version), "...")

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

74

old_unicode = UnicodeData(UNICODE_DATA % ("-"+version),

75

COMPOSITION_EXCLUSIONS % ("-"+version),

76

EASTASIAN_WIDTH % ("-"+version))

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

77

print(len(filter(None, old_unicode.table)), "characters")

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

78

merge_old_version(version, unicode, old_unicode)

79

Fredrik Lundh

b2dfd73

2001-01-21 23:31:52 +0000

[diff] [blame]

80

makeunicodename(unicode, trace)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

81

makeunicodedata(unicode, trace)

Fredrik Lundh

b2dfd73

2001-01-21 23:31:52 +0000

[diff] [blame]

82

makeunicodetype(unicode, trace)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

83

84

# --------------------------------------------------------------------

85

# unicode character properties

86

87

def makeunicodedata(unicode, trace):

88

Hye-Shik Chang

2004-08-04 07:38:35 +0000

[diff] [blame]

89

dummy = (0, 0, 0, 0, 0)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

90

table = [dummy]

91

cache = {0: dummy}

92

index = [0] * len(unicode.chars)

93

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

94

FILE = "Modules/unicodedata_db.h"

95

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

96

print("--- Preparing", FILE, "...")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

97

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

98

# 1) database properties

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

99

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

100

for char in unicode.chars:

101

record = unicode.table[char]

102

if record:

103

# extract database properties

104

category = CATEGORY_NAMES.index(record[2])

105

combining = int(record[3])

106

bidirectional = BIDIRECTIONAL_NAMES.index(record[4])

107

mirrored = record[9] == "Y"

Hye-Shik Chang

2004-08-04 07:38:35 +0000

[diff] [blame]

108

eastasianwidth = EASTASIANWIDTH_NAMES.index(record[15])

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

109

item = (

Hye-Shik Chang

2004-08-04 07:38:35 +0000

[diff] [blame]

110

category, combining, bidirectional, mirrored, eastasianwidth

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

111

)

112

# add entry to index and item tables

113

i = cache.get(item)

114

if i is None:

115

cache[item] = i = len(table)

table.append(item)

index[char] = i

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

119

# 2) decomposition data

120

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

121

decomp_data = [0]

122

decomp_prefix = [""]

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

123

decomp_index = [0] * len(unicode.chars)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

124

decomp_size = 0

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

125

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

126

comp_pairs = []

127

comp_first = [None] * len(unicode.chars)

128

comp_last = [None] * len(unicode.chars)

129

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

130

for char in unicode.chars:

131

record = unicode.table[char]

132

if record:

133

if record[5]:

Walter Dörwald

2002-09-11 20:36:02 +0000

[diff] [blame]

134

decomp = record[5].split()

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

135

if len(decomp) > 19:

136

raise Exception, "character %x has a decomposition too large for nfd_nfkd" % char

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

137

# prefix

138

if decomp[0][0] == "<":

139

prefix = decomp.pop(0)

140

else:

141

prefix = ""

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

142

try:

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

143

i = decomp_prefix.index(prefix)

144

except ValueError:

145

i = len(decomp_prefix)

146

decomp_prefix.append(prefix)

prefix = i

assert prefix < 256

# content

decomp = [prefix + (len(decomp)<<8)] +\

151

map(lambda s: int(s, 16), decomp)

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

152

# Collect NFC pairs

153

if not prefix and len(decomp) == 3 and \

154

char not in unicode.exclusions and \

155

unicode.table[decomp[1]][3] == "0":

p, l, r = decomp

comp_first[l] = 1

comp_last[r] = 1

comp_pairs.append((l,r,char))

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

160

try:

161

i = decomp_data.index(decomp)

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

162

except ValueError:

163

i = len(decomp_data)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

164

decomp_data.extend(decomp)

165

decomp_size = decomp_size + len(decomp) * 2

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

166

else:

167

i = 0

168

decomp_index[char] = i

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

169

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

170

f = l = 0

171

comp_first_ranges = []

172

comp_last_ranges = []

173

prev_f = prev_l = None

174

for i in unicode.chars:

175

if comp_first[i] is not None:

comp_first[i] = f

f += 1

if prev_f is None:

prev_f = (i,i)

elif prev_f[1]+1 == i:

181

prev_f = prev_f[0],i

182

else:

183

comp_first_ranges.append(prev_f)

184

prev_f = (i,i)

185

if comp_last[i] is not None:

comp_last[i] = l

l += 1

if prev_l is None:

prev_l = (i,i)

elif prev_l[1]+1 == i:

191

prev_l = prev_l[0],i

192

else:

193

comp_last_ranges.append(prev_l)

194

prev_l = (i,i)

195

comp_first_ranges.append(prev_f)

196

comp_last_ranges.append(prev_l)

total_first = f

total_last = l

comp_data = [0]*(total_first*total_last)

201

for f,l,char in comp_pairs:

202

f = comp_first[f]

203

l = comp_last[l]

204

comp_data[f*total_last+l] = char

205

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

206

print(len(table), "unique properties")

207

print(len(decomp_prefix), "unique decomposition prefixes")

208

print(len(decomp_data), "unique decomposition entries:", end=' ')

209

print(decomp_size, "bytes")

210

print(total_first, "first characters in NFC")

211

print(total_last, "last characters in NFC")

212

print(len(comp_pairs), "NFC pairs")

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

213

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

214

print("--- Writing", FILE, "...")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

215

Fred Drake

9c68505

2000-10-26 03:56:46 +0000

[diff] [blame]

216

fp = open(FILE, "w")

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

217

print("/* this file was generated by %s %s */" % (SCRIPT, VERSION), file=fp)

218

print(file=fp)

219

print('#define UNIDATA_VERSION "%s"' % UNIDATA_VERSION, file=fp)

220

print("/* a list of unique database records */", file=fp)

221

print("const _PyUnicode_DatabaseRecord _PyUnicode_Database_Records[] = {", file=fp)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

222

for item in table:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

223

print(" {%d, %d, %d, %d, %d}," % item, file=fp)

224

print("};", file=fp)

225

print(file=fp)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

226

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

227

print("/* Reindexing of NFC first characters. */", file=fp)

228

print("#define TOTAL_FIRST",total_first, file=fp)

229

print("#define TOTAL_LAST",total_last, file=fp)

230

print("struct reindex{int start;short count,index;};", file=fp)

231

print("struct reindex nfc_first[] = {", file=fp)

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

232

for start,end in comp_first_ranges:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

233

print(" { %d, %d, %d}," % (start,end-start,comp_first[start]), file=fp)

234

print(" {0,0,0}", file=fp)

235

print("};\n", file=fp)

236

print("struct reindex nfc_last[] = {", file=fp)

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

237

for start,end in comp_last_ranges:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

238

print(" { %d, %d, %d}," % (start,end-start,comp_last[start]), file=fp)

239

print(" {0,0,0}", file=fp)

240

print("};\n", file=fp)

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

241

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

242

# FIXME: <fl> the following tables could be made static, and

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

243

# the support code moved into unicodedatabase.c

244

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

245

print("/* string literals */", file=fp)

246

print("const char *_PyUnicode_CategoryNames[] = {", file=fp)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

247

for name in CATEGORY_NAMES:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

248

print(" \"%s\"," % name, file=fp)

249

print(" NULL", file=fp)

250

print("};", file=fp)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

251

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

252

print("const char *_PyUnicode_BidirectionalNames[] = {", file=fp)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

253

for name in BIDIRECTIONAL_NAMES:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

254

print(" \"%s\"," % name, file=fp)

255

print(" NULL", file=fp)

256

print("};", file=fp)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

257

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

258

print("const char *_PyUnicode_EastAsianWidthNames[] = {", file=fp)

Hye-Shik Chang

2004-08-04 07:38:35 +0000

[diff] [blame]

259

for name in EASTASIANWIDTH_NAMES:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

260

print(" \"%s\"," % name, file=fp)

261

print(" NULL", file=fp)

262

print("};", file=fp)

Hye-Shik Chang

2004-08-04 07:38:35 +0000

[diff] [blame]

263

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

264

print("static const char *decomp_prefix[] = {", file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

265

for name in decomp_prefix:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

266

print(" \"%s\"," % name, file=fp)

267

print(" NULL", file=fp)

268

print("};", file=fp)

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

269

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

270

# split record index table

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

271

index1, index2, shift = splitbins(index, trace)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

272

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

273

print("/* index tables for the database records */", file=fp)

274

print("#define SHIFT", shift, file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

275

Array("index1", index1).dump(fp, trace)

276

Array("index2", index2).dump(fp, trace)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

277

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

278

# split decomposition index table

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

279

index1, index2, shift = splitbins(decomp_index, trace)

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

280

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

281

print("/* decomposition data */", file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

282

Array("decomp_data", decomp_data).dump(fp, trace)

283

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

284

print("/* index tables for the decomposition data */", file=fp)

285

print("#define DECOMP_SHIFT", shift, file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

286

Array("decomp_index1", index1).dump(fp, trace)

287

Array("decomp_index2", index2).dump(fp, trace)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

288

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

289

index, index2, shift = splitbins(comp_data, trace)

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

290

print("/* NFC pairs */", file=fp)

291

print("#define COMP_SHIFT", shift, file=fp)

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

292

Array("comp_index", index).dump(fp, trace)

293

Array("comp_data", index2).dump(fp, trace)

294

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

295

# Generate delta tables for old versions

296

for version, table, normalization in unicode.changed:

297

cversion = version.replace(".","_")

298

records = [table[0]]

299

cache = {table[0]:0}

300

index = [0] * len(table)

301

for i, record in enumerate(table):

302

try:

303

index[i] = cache[record]

304

except KeyError:

305

index[i] = cache[record] = len(records)

306

records.append(record)

307

index1, index2, shift = splitbins(index, trace)

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

308

print("static const change_record change_records_%s[] = {" % cversion, file=fp)

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

309

for record in records:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

310

print("\t{ %s }," % ", ".join(map(str,record)), file=fp)

311

print("};", file=fp)

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

312

Array("changes_%s_index" % cversion, index1).dump(fp, trace)

313

Array("changes_%s_data" % cversion, index2).dump(fp, trace)

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

314

print("static const change_record* get_change_%s(Py_UCS4 n)" % cversion, file=fp)

315

print("{", file=fp)

316

print("\tint index;", file=fp)

317

print("\tif (n >= 0x110000) index = 0;", file=fp)

318

print("\telse {", file=fp)

319

print("\t\tindex = changes_%s_index[n>>%d];" % (cversion, shift), file=fp)

320

print("\t\tindex = changes_%s_data[(index<<%d)+(n & %d)];" % \

321

(cversion, shift, ((1<<shift)-1)), file=fp)

322

print("\t}", file=fp)

323

print("\treturn change_records_%s+index;" % cversion, file=fp)

324

print("}\n", file=fp)

325

print("static Py_UCS4 normalization_%s(Py_UCS4 n)" % cversion, file=fp)

326

print("{", file=fp)

327

print("\tswitch(n) {", file=fp)

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

328

for k, v in normalization:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

329

print("\tcase %s: return 0x%s;" % (hex(k), v), file=fp)

330

print("\tdefault: return 0;", file=fp)

331

print("\t}\n}\n", file=fp)

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

332

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

333

fp.close()

334

335

# --------------------------------------------------------------------

336

# unicode character type tables

337

338

def makeunicodetype(unicode, trace):

339

340

FILE = "Objects/unicodetype_db.h"

341

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

342

print("--- Preparing", FILE, "...")

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

343

344

# extract unicode types

Fredrik Lundh

2000-09-25 21:01:56 +0000

[diff] [blame]

345

dummy = (0, 0, 0, 0, 0, 0)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

346

table = [dummy]

347

cache = {0: dummy}

348

index = [0] * len(unicode.chars)

349

350

for char in unicode.chars:

351

record = unicode.table[char]

352

if record:

353

# extract database properties

354

category = record[2]

355

bidirectional = record[4]

356

flags = 0

357

if category in ["Lm", "Lt", "Lu", "Ll", "Lo"]:

358

flags |= ALPHA_MASK

359

if category == "Ll":

360

flags |= LOWER_MASK

Fredrik Lundh

2000-09-25 21:01:56 +0000

[diff] [blame]

361

if category == "Zl" or bidirectional == "B":

362

flags |= LINEBREAK_MASK

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

363

if category == "Zs" or bidirectional in ("WS", "B", "S"):

364

flags |= SPACE_MASK

Fredrik Lundh

375732c

2000-09-25 23:03:34 +0000

[diff] [blame]

365

if category == "Lt":

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

flags |= TITLE_MASK

if category == "Lu":

flags |= UPPER_MASK

# use delta predictor for upper/lower/title

370

if record[12]:

Martin v. Löwis

99ac328

2002-10-18 17:34:18 +0000

[diff] [blame]

371

upper = int(record[12], 16) - char

372

assert -32768 <= upper <= 32767

373

upper = upper & 0xffff

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

374

else:

375

upper = 0

376

if record[13]:

Martin v. Löwis

99ac328

2002-10-18 17:34:18 +0000

[diff] [blame]

377

lower = int(record[13], 16) - char

378

assert -32768 <= lower <= 32767

379

lower = lower & 0xffff

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

380

else:

381

lower = 0

382

if record[14]:

Martin v. Löwis

99ac328

2002-10-18 17:34:18 +0000

[diff] [blame]

383

title = int(record[14], 16) - char

384

assert -32768 <= lower <= 32767

385

title = title & 0xffff

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

386

else:

387

title = 0

Fredrik Lundh

2000-09-25 21:01:56 +0000

[diff] [blame]

388

# decimal digit, integer digit

389

decimal = 0

390

if record[6]:

391

flags |= DECIMAL_MASK

392

decimal = int(record[6])

digit = 0

if record[7]:

flags |= DIGIT_MASK

digit = int(record[7])

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

397

item = (

Hye-Shik Chang

974ed7c

2004-06-02 16:49:17 +0000

[diff] [blame]

398

upper, lower, title, decimal, digit, flags

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

399

)

400

# add entry to index and item tables

401

i = cache.get(item)

402

if i is None:

403

cache[item] = i = len(table)

table.append(item)

index[char] = i

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

407

print(len(table), "unique character type entries")

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

408

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

409

print("--- Writing", FILE, "...")

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

410

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

411

fp = open(FILE, "w")

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

412

print("/* this file was generated by %s %s */" % (SCRIPT, VERSION), file=fp)

413

print(file=fp)

414

print("/* a list of unique character type descriptors */", file=fp)

415

print("const _PyUnicode_TypeRecord _PyUnicode_TypeRecords[] = {", file=fp)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

416

for item in table:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

417

print(" {%d, %d, %d, %d, %d, %d}," % item, file=fp)

418

print("};", file=fp)

419

print(file=fp)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

420

421

# split decomposition index table

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

422

index1, index2, shift = splitbins(index, trace)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

423

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

424

print("/* type indexes */", file=fp)

425

print("#define SHIFT", shift, file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

426

Array("index1", index1).dump(fp, trace)

427

Array("index2", index2).dump(fp, trace)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

428

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

429

fp.close()

430

431

# --------------------------------------------------------------------

432

# unicode name database

433

434

def makeunicodename(unicode, trace):

435

436

FILE = "Modules/unicodename_db.h"

437

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

438

print("--- Preparing", FILE, "...")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

439

440

# collect names

441

names = [None] * len(unicode.chars)

442

443

for char in unicode.chars:

444

record = unicode.table[char]

445

if record:

446

name = record[1].strip()

447

if name and name[0] != "<":

448

names[char] = name + chr(0)

449

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

450

print(len(filter(lambda n: n is not None, names)), "distinct names")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

451

452

# collect unique words from names (note that we differ between

453

# words inside a sentence, and words ending a sentence. the

454

# latter includes the trailing null byte.

words = {}

n = b = 0

for char in unicode.chars:

name = names[char]

if name:

w = name.split()

b = b + len(name)

n = n + len(w)

for w in w:

l = words.get(w)

if l:

l.append(None)

else:

words[w] = [len(words)]

470

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

471

print(n, "words in text;", b, "bytes")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

472

473

wordlist = words.items()

474

Martin v. Löwis

2002-11-24 23:05:09 +0000

[diff] [blame]

475

# sort on falling frequency, then by name

476

def cmpwords((aword, alist),(bword, blist)):

477

r = -cmp(len(alist),len(blist))

478

if r:

479

return r

480

return cmp(aword, bword)

481

wordlist.sort(cmpwords)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

482

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

483

# figure out how many phrasebook escapes we need

484

escapes = 0

485

while escapes * 256 < len(wordlist):

486

escapes = escapes + 1

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

487

print(escapes, "escapes")

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

488

489

short = 256 - escapes

assert short > 0

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

493

print(short, "short indexes in lexicon")

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

494

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

495

# statistics

496

n = 0

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

497

for i in range(short):

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

498

n = n + len(wordlist[i][1])

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

499

print(n, "short indexes in phrasebook")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

500

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

501

# pick the most commonly used words, and sort the rest on falling

502

# length (to maximize overlap)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

503

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

504

wordlist, wordtail = wordlist[:short], wordlist[short:]

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

505

wordtail.sort(lambda a, b: len(b[0])-len(a[0]))

506

wordlist.extend(wordtail)

507

508

# generate lexicon from words

lexicon_offset = [0]

lexicon = ""

words = {}

# build a lexicon string

515

offset = 0

516

for w, x in wordlist:

517

# encoding: bit 7 indicates last character in word (chr(128)

518

# indicates the last character in an entire string)

519

ww = w[:-1] + chr(ord(w[-1])+128)

520

# reuse string tails, when possible

Walter Dörwald

2002-09-11 20:36:02 +0000

[diff] [blame]

521

o = lexicon.find(ww)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

522

if o < 0:

523

o = offset

524

lexicon = lexicon + ww

525

offset = offset + len(w)

526

words[w] = len(lexicon_offset)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

527

lexicon_offset.append(o)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

528

529

lexicon = map(ord, lexicon)

530

531

# generate phrasebook from names and lexicon

532

phrasebook = [0]

533

phrasebook_offset = [0] * len(unicode.chars)

534

for char in unicode.chars:

name = names[char]

if name:

w = name.split()

phrasebook_offset[char] = len(phrasebook)

539

for w in w:

540

i = words[w]

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

541

if i < short:

542

phrasebook.append(i)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

543

else:

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

544

# store as two bytes

545

phrasebook.append((i>>8) + short)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

546

phrasebook.append(i&255)

547

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

548

assert getsize(phrasebook) == 1

549

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

550

#

551

# unicode name hash table

# extract names

data = []

for char in unicode.chars:

556

record = unicode.table[char]

557

if record:

558

name = record[1].strip()

559

if name and name[0] != "<":

560

data.append((name, char))

561

562

# the magic number 47 was chosen to minimize the number of

563

# collisions on the current data set. if you like, change it

564

# and see what happens...

565

566

codehash = Hash("code", data, 47)

567

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

568

print("--- Writing", FILE, "...")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

569

570

fp = open(FILE, "w")

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

571

print("/* this file was generated by %s %s */" % (SCRIPT, VERSION), file=fp)

572

print(file=fp)

573

print("#define NAME_MAXLEN", 256, file=fp)

574

print(file=fp)

575

print("/* lexicon */", file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

576

Array("lexicon", lexicon).dump(fp, trace)

577

Array("lexicon_offset", lexicon_offset).dump(fp, trace)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

578

579

# split decomposition index table

580

offset1, offset2, shift = splitbins(phrasebook_offset, trace)

581

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

582

print("/* code->name phrasebook */", file=fp)

583

print("#define phrasebook_shift", shift, file=fp)

584

print("#define phrasebook_short", short, file=fp)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

585

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

586

Array("phrasebook", phrasebook).dump(fp, trace)

587

Array("phrasebook_offset1", offset1).dump(fp, trace)

588

Array("phrasebook_offset2", offset2).dump(fp, trace)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

589

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

590

print("/* name->code dictionary */", file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

591

codehash.dump(fp, trace)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

fp.close()

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

595

596

def merge_old_version(version, new, old):

597

# Changes to exclusion file not implemented yet

598

if old.exclusions != new.exclusions:

599

raise NotImplementedError, "exclusions differ"

600

601

# In these change records, 0xFF means "no change"

602

bidir_changes = [0xFF]*0x110000

603

category_changes = [0xFF]*0x110000

604

decimal_changes = [0xFF]*0x110000

605

# In numeric data, 0 means "no change",

606

# -1 means "did not have a numeric value

607

numeric_changes = [0] * 0x110000

608

# normalization_changes is a list of key-value pairs

609

normalization_changes = []

610

for i in range(0x110000):

611

if new.table[i] is None:

612

# Characters unassigned in the new version ought to

613

# be unassigned in the old one

614

assert old.table[i] is None

615

continue

616

# check characters unassigned in the old version

617

if old.table[i] is None:

618

# category 0 is "unassigned"

619

category_changes[i] = 0

620

continue

621

# check characters that differ

622

if old.table[i] != new.table[i]:

623

for k in range(len(old.table[i])):

624

if old.table[i][k] != new.table[i][k]:

625

value = old.table[i][k]

626

if k == 2:

627

#print "CATEGORY",hex(i), old.table[i][k], new.table[i][k]

628

category_changes[i] = CATEGORY_NAMES.index(value)

629

elif k == 4:

630

#print "BIDIR",hex(i), old.table[i][k], new.table[i][k]

631

bidir_changes[i] = BIDIRECTIONAL_NAMES.index(value)

632

elif k == 5:

633

#print "DECOMP",hex(i), old.table[i][k], new.table[i][k]

634

# We assume that all normalization changes are in 1:1 mappings

635

assert " " not in value

636

normalization_changes.append((i, value))

637

elif k == 6:

638

#print "DECIMAL",hex(i), old.table[i][k], new.table[i][k]

639

# we only support changes where the old value is a single digit

640

assert value in "0123456789"

641

decimal_changes[i] = int(value)

642

elif k == 8:

643

# print "NUMERIC",hex(i), `old.table[i][k]`, new.table[i][k]

644

# Since 0 encodes "no change", the old value is better not 0

645

assert value != "0" and value != "-1"

646

if not value:

647

numeric_changes[i] = -1

648

else:

649

assert re.match("^[0-9]+$", value)

650

numeric_changes[i] = int(value)

651

elif k == 11:

652

# change to ISO comment, ignore

653

pass

654

elif k == 12:

655

# change to simple uppercase mapping; ignore

656

pass

657

elif k == 13:

658

# change to simple lowercase mapping; ignore

659

pass

660

elif k == 14:

661

# change to simple titlecase mapping; ignore

662

pass

663

else:

664

class Difference(Exception):pass

665

raise Difference, (hex(i), k, old.table[i], new.table[i])

666

new.changed.append((version, zip(bidir_changes, category_changes,

667

decimal_changes, numeric_changes),

668

normalization_changes))

Tim Peters

88ca467

2006-03-10 23:39:56 +0000

[diff] [blame]

669

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

670

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

671

# --------------------------------------------------------------------

672

# the following support code is taken from the unidb utilities

673

674

675

# load a unicode-data file from disk

676

Walter Dörwald

2002-09-11 20:36:02 +0000

[diff] [blame]

677

import sys

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

class UnicodeData:

Hye-Shik Chang

2004-06-02 16:49:17 +0000

[diff] [blame]

681

def __init__(self, filename, exclusions, eastasianwidth, expand=1):

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

682

self.changed = []

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

683

file = open(filename)

Martin v. Löwis

9def6a3

2002-10-18 16:11:54 +0000

[diff] [blame]

684

table = [None] * 0x110000

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

while 1:

s = file.readline()

if not s:

break

Walter Dörwald

2002-09-11 20:36:02 +0000

[diff] [blame]

689

s = s.strip().split(";")

690

char = int(s[0], 16)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

691

table[char] = s

692

Martin v. Löwis

2002-11-24 23:05:09 +0000

[diff] [blame]

693

# expand first-last ranges

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

694

if expand:

695

field = None

Martin v. Löwis

2002-11-24 23:05:09 +0000

[diff] [blame]

696

for i in range(0, 0x110000):

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

697

s = table[i]

698

if s:

699

if s[1][-6:] == "First>":

700

s[1] = ""

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

701

field = s

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

702

elif s[1][-5:] == "Last>":

703

s[1] = ""

704

field = None

705

elif field:

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

706

f2 = field[:]

707

f2[0] = "%X" % i

708

table[i] = f2

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

709

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

710

# public attributes

711

self.filename = filename

712

self.table = table

Martin v. Löwis

9def6a3

2002-10-18 16:11:54 +0000

[diff] [blame]

713

self.chars = range(0x110000) # unicode 3.2

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

714

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

715

file = open(exclusions)

self.exclusions = {}

for s in file:

s = s.strip()

if not s:

continue

if s[0] == '#':

continue

char = int(s.split()[0],16)

724

self.exclusions[char] = 1

725

Hye-Shik Chang

974ed7c

2004-06-02 16:49:17 +0000

[diff] [blame]

726

widths = [None] * 0x110000

727

for s in open(eastasianwidth):

s = s.strip()

if not s:

continue

if s[0] == '#':

continue

s = s.split()[0].split(';')

734

if '..' in s[0]:

735

first, last = [int(c, 16) for c in s[0].split('..')]

736

chars = range(first, last+1)

737

else:

738

chars = [int(s[0], 16)]

739

for char in chars:

740

widths[char] = s[1]

741

for i in range(0, 0x110000):

742

if table[i] is not None:

743

table[i].append(widths[i])

744

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

745

def uselatin1(self):

746

# restrict character range to ISO Latin 1

747

self.chars = range(256)

748

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

749

# hash table tools

750

751

# this is a straight-forward reimplementation of Python's built-in

752

# dictionary type, using a static data structure, and a custom string

753

# hash algorithm.

754

755

def myhash(s, magic):

756

h = 0

Walter Dörwald

2002-09-11 20:36:02 +0000

[diff] [blame]

757

for c in map(ord, s.upper()):

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

758

h = (h * magic) + c

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame]

759

ix = h & 0xff000000

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

760

if ix:

761

h = (h ^ ((ix>>24) & 0xff)) & 0x00ffffff

return h

SIZES = [

(4,3), (8,3), (16,3), (32,5), (64,3), (128,3), (256,29), (512,17),

766

(1024,9), (2048,5), (4096,83), (8192,27), (16384,43), (32768,3),

767

(65536,45), (131072,9), (262144,39), (524288,39), (1048576,9),

768

(2097152,5), (4194304,3), (8388608,33), (16777216,27)

]

class Hash:

def __init__(self, name, data, magic):

773

# turn a (key, value) list into a static hash table structure

774

775

# determine table size

776

for size, poly in SIZES:

if size > len(data):

poly = size + poly

break

else:

raise AssertionError, "ran out of polynominals"

782

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

783

print(size, "slots in hash table")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

784

785

table = [None] * size

mask = size-1

n = 0

hash = myhash

# initialize hash table

794

for key, value in data:

h = hash(key, magic)

i = (~h) & mask

v = table[i]

if v is None:

table[i] = value

continue

incr = (h ^ (h >> 3)) & mask;

if not incr:

incr = mask

while 1:

n = n + 1

i = (i + incr) & mask

v = table[i]

if v is None:

table[i] = value

break

incr = incr << 1

if incr > mask:

incr = incr ^ poly

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

815

print(n, "collisions")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

816

self.collisions = n

817

818

for i in range(len(table)):

if table[i] is None:

table[i] = 0

self.data = Array(name + "_hash", table)

self.magic = magic

self.name = name

self.size = size

self.poly = poly

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

828

def dump(self, file, trace):

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

829

# write data to file, as a C array

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

830

self.data.dump(file, trace)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

831

file.write("#define %s_magic %d\n" % (self.name, self.magic))

832

file.write("#define %s_size %d\n" % (self.name, self.size))

833

file.write("#define %s_poly %d\n" % (self.name, self.poly))

834

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

835

# stuff to deal with arrays of unsigned integers

class Array:

def __init__(self, name, data):

self.name = name

self.data = data

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

843

def dump(self, file, trace=0):

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

844

# write data to file, as a C array

845

size = getsize(self.data)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

846

if trace:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

847

print(self.name+":", size*len(self.data), "bytes", file=sys.stderr)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

848

file.write("static ")

849

if size == 1:

850

file.write("unsigned char")

851

elif size == 2:

852

file.write("unsigned short")

853

else:

854

file.write("unsigned int")

855

file.write(" " + self.name + "[] = {\n")

856

if self.data:

857

s = " "

858

for item in self.data:

859

i = str(item) + ", "

860

if len(s) + len(i) > 78:

file.write(s + "\n")

s = " " + i

else:

s = s + i

Walter Dörwald

2002-09-11 20:36:02 +0000

[diff] [blame]

865

if s.strip():

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

file.write(s + "\n")

file.write("};\n\n")

def getsize(data):

# return smallest possible integer size for the given array

maxdata = max(data)

if maxdata < 256:

return 1

elif maxdata < 65536:

return 2

else:

return 4

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

879

def splitbins(t, trace=0):

880

"""t, trace=0 -> (t1, t2, shift). Split a table to save space.

881

882

t is a sequence of ints. This function can be useful to save space if

883

many of the ints are the same. t1 and t2 are lists of ints, and shift

884

is an int, chosen to minimize the combined size of t1 and t2 (in C

885

code), and where for each i in range(len(t)),

886

t[i] == t2[(t1[i >> shift] << shift) + (i & mask)]

887

where mask is a bitmask isolating the last "shift" bits.

888

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

889

If optional arg trace is non-zero (default zero), progress info

890

is printed to sys.stderr. The higher the value, the more info

891

you'll get.

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

"""

import sys

if trace:

def dump(t1, t2, shift, bytes):

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

897

print("%d+%d bins at shift %d; %d bytes" % (

898

len(t1), len(t2), shift, bytes), file=sys.stderr)

899

print("Size of original table:", len(t)*getsize(t), \

900

"bytes", file=sys.stderr)

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

901

n = len(t)-1 # last valid index

902

maxshift = 0 # the most we can shift n and still have something left

if n > 0:

while n >> 1:

n >>= 1

maxshift += 1

del n

bytes = sys.maxint # smallest total size so far

909

t = tuple(t) # so slices can be dict keys

910

for shift in range(maxshift + 1):

911

t1 = []

912

t2 = []

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

913

size = 2**shift

914

bincache = {}

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

915

for i in range(0, len(t), size):

916

bin = t[i:i+size]

917

index = bincache.get(bin)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

918

if index is None:

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

919

index = len(t2)

920

bincache[bin] = index

921

t2.extend(bin)

922

t1.append(index >> shift)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

923

# determine memory size

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

924

b = len(t1)*getsize(t1) + len(t2)*getsize(t2)

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

925

if trace > 1:

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

926

dump(t1, t2, shift, b)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

927

if b < bytes:

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

928

best = t1, t2, shift

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

929

bytes = b

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

930

t1, t2, shift = best

931

if trace:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

932

print("Best:", end=' ', file=sys.stderr)

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

933

dump(t1, t2, shift, bytes)

934

if __debug__:

935

# exhaustively verify that the decomposition is correct

936

mask = ~((~0) << shift) # i.e., low-bit mask of shift bits

Guido van Rossum

805365e

2007-05-07 22:24:25 +0000

[diff] [blame]

937

for i in range(len(t)):

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

938

assert t[i] == t2[(t1[i >> shift] << shift) + (i & mask)]

939

return best

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

940

941

if __name__ == "__main__":

Fredrik Lundh