Blame - Tools/unicode/makeunicodedata.py - platform/external/python/cpython3

2000-09-24 23:18:31 +0000

[diff] [blame]

1

#

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

2

# (re)generate unicode property and type databases

3

#

Martin v. Löwis

b5c980b

2002-11-25 09:13:37 +0000

[diff] [blame]

4

# this script converts a unicode 3.2 database file to

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

5

# Modules/unicodedata_db.h, Modules/unicodename_db.h,

6

# and Objects/unicodetype_db.h

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

7

#

8

# history:

9

# 2000-09-24 fl created (based on bits and pieces from unidb)

10

# 2000-09-25 fl merged tim's splitbin fixes, separate decomposition table

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

11

# 2000-09-25 fl added character type table

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

12

# 2000-09-26 fl added LINEBREAK, DECIMAL, and DIGIT flags/fields (2.0)

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

13

# 2000-11-03 fl expand first/last ranges

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

14

# 2001-01-19 fl added character name tables (2.1)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

15

# 2001-01-21 fl added decomp compression; dynamic phrasebook threshold

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

16

# 2002-09-11 wd use string methods

17

# 2002-10-18 mvl update to Unicode 3.2

18

# 2002-10-22 mvl generate NFC tables

Martin v. Löwis

2002-11-24 23:05:09 +0000

[diff] [blame]

19

# 2002-11-24 mvl expand all ranges, sort names version-independently

Martin v. Löwis

b5c980b

2002-11-25 09:13:37 +0000

[diff] [blame]

20

# 2002-11-25 mvl add UNIDATA_VERSION

Hye-Shik Chang

2004-06-02 16:49:17 +0000

[diff] [blame]

21

# 2004-05-29 perky add east asian width information

Martin v. Löwis

43179c8

2006-03-11 12:43:44 +0000

[diff] [blame]

22

# 2006-03-10 mvl update to Unicode 4.1; add UCD 3.2 delta

Georg Brandl

d52429f

2008-07-04 15:55:02 +0000

[diff] [blame]

23

# 2008-06-11 gb add PRINTABLE_MASK for Atsuo Ishimoto's ascii() patch

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

24

#

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

25

# written by Fredrik Lundh (fredrik@pythonware.com)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

#

import sys

SCRIPT = sys.argv[0]

Amaury Forgeot d'Arc

2010-08-18 20:44:58 +0000

[diff] [blame]

31

VERSION = "3.2"

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

32

Martin v. Löwis

b5c980b

2002-11-25 09:13:37 +0000

[diff] [blame]

33

# The Unicode Database

Florent Xicluna

faa663f

2010-03-19 13:37:08 +0000

[diff] [blame]

34

UNIDATA_VERSION = "5.2.0"

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

35

UNICODE_DATA = "UnicodeData%s.txt"

36

COMPOSITION_EXCLUSIONS = "CompositionExclusions%s.txt"

37

EASTASIAN_WIDTH = "EastAsianWidth%s.txt"

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

38

UNIHAN = "Unihan%s.txt"

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

39

DERIVED_CORE_PROPERTIES = "DerivedCoreProperties%s.txt"

Antoine Pitrou

2009-04-27 22:31:40 +0000

[diff] [blame]

40

DERIVEDNORMALIZATION_PROPS = "DerivedNormalizationProps%s.txt"

Florent Xicluna

2010-03-30 19:34:18 +0000

[diff] [blame]

41

LINE_BREAK = "LineBreak%s.txt"

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

42

43

old_versions = ["3.2.0"]

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

44

45

CATEGORY_NAMES = [ "Cn", "Lu", "Ll", "Lt", "Mn", "Mc", "Me", "Nd",

46

"Nl", "No", "Zs", "Zl", "Zp", "Cc", "Cf", "Cs", "Co", "Cn", "Lm",

47

"Lo", "Pc", "Pd", "Ps", "Pe", "Pi", "Pf", "Po", "Sm", "Sc", "Sk",

48

"So" ]

49

50

BIDIRECTIONAL_NAMES = [ "", "L", "LRE", "LRO", "R", "AL", "RLE", "RLO",

51

"PDF", "EN", "ES", "ET", "AN", "CS", "NSM", "BN", "B", "S", "WS",

52

"ON" ]

53

Hye-Shik Chang

2004-08-04 07:38:35 +0000

[diff] [blame]

54

EASTASIANWIDTH_NAMES = [ "F", "H", "W", "Na", "A", "N" ]

55

Florent Xicluna

2010-03-30 19:34:18 +0000

[diff] [blame]

56

MANDATORY_LINE_BREAKS = [ "BK", "CR", "LF", "NL" ]

57

Fredrik Lundh

2000-09-25 21:01:56 +0000

[diff] [blame]

58

# note: should match definitions in Objects/unicodectype.c

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

ALPHA_MASK = 0x01

DECIMAL_MASK = 0x02

DIGIT_MASK = 0x04

LOWER_MASK = 0x08

Fredrik Lundh

2000-09-25 21:01:56 +0000

[diff] [blame]

63

LINEBREAK_MASK = 0x10

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

64

SPACE_MASK = 0x20

65

TITLE_MASK = 0x40

66

UPPER_MASK = 0x80

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

67

XID_START_MASK = 0x100

68

XID_CONTINUE_MASK = 0x200

Georg Brandl

d52429f

2008-07-04 15:55:02 +0000

[diff] [blame]

69

PRINTABLE_MASK = 0x400

Martin v. Löwis

2008-09-10 14:08:48 +0000

[diff] [blame]

70

NODELTA_MASK = 0x800

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

71

NUMERIC_MASK = 0x1000

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

72

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

73

def maketables(trace=0):

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

74

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

75

print("--- Reading", UNICODE_DATA % "", "...")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

76

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

77

version = ""

78

unicode = UnicodeData(UNICODE_DATA % version,

79

COMPOSITION_EXCLUSIONS % version,

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

80

EASTASIAN_WIDTH % version,

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

81

UNIHAN % version,

Antoine Pitrou

2009-04-27 22:31:40 +0000

[diff] [blame]

82

DERIVED_CORE_PROPERTIES % version,

Florent Xicluna

2010-03-30 19:34:18 +0000

[diff] [blame]

83

DERIVEDNORMALIZATION_PROPS % version,

84

LINE_BREAK % version)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

85

Georg Brandl

559e5d7

2008-06-11 18:37:52 +0000

[diff] [blame]

86

print(len(list(filter(None, unicode.table))), "characters")

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

87

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

88

for version in old_versions:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

89

print("--- Reading", UNICODE_DATA % ("-"+version), "...")

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

90

old_unicode = UnicodeData(UNICODE_DATA % ("-"+version),

91

COMPOSITION_EXCLUSIONS % ("-"+version),

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

92

EASTASIAN_WIDTH % ("-"+version),

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

93

UNIHAN % ("-"+version),

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

94

DERIVED_CORE_PROPERTIES % ("-"+version))

Georg Brandl

559e5d7

2008-06-11 18:37:52 +0000

[diff] [blame]

95

print(len(list(filter(None, old_unicode.table))), "characters")

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

96

merge_old_version(version, unicode, old_unicode)

97

Fredrik Lundh

b2dfd73

2001-01-21 23:31:52 +0000

[diff] [blame]

98

makeunicodename(unicode, trace)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

99

makeunicodedata(unicode, trace)

Fredrik Lundh

b2dfd73

2001-01-21 23:31:52 +0000

[diff] [blame]

100

makeunicodetype(unicode, trace)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

101

102

# --------------------------------------------------------------------

103

# unicode character properties

104

105

def makeunicodedata(unicode, trace):

106

Antoine Pitrou

2009-04-27 22:31:40 +0000

[diff] [blame]

107

dummy = (0, 0, 0, 0, 0, 0)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

108

table = [dummy]

109

cache = {0: dummy}

110

index = [0] * len(unicode.chars)

111

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

112

FILE = "Modules/unicodedata_db.h"

113

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

114

print("--- Preparing", FILE, "...")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

115

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

116

# 1) database properties

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

117

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

118

for char in unicode.chars:

119

record = unicode.table[char]

120

if record:

121

# extract database properties

122

category = CATEGORY_NAMES.index(record[2])

123

combining = int(record[3])

124

bidirectional = BIDIRECTIONAL_NAMES.index(record[4])

125

mirrored = record[9] == "Y"

Hye-Shik Chang

2004-08-04 07:38:35 +0000

[diff] [blame]

126

eastasianwidth = EASTASIANWIDTH_NAMES.index(record[15])

Antoine Pitrou

2009-04-27 22:31:40 +0000

[diff] [blame]

127

normalizationquickcheck = record[17]

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

128

item = (

Antoine Pitrou

2009-04-27 22:31:40 +0000

[diff] [blame]

129

category, combining, bidirectional, mirrored, eastasianwidth,

130

normalizationquickcheck

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

131

)

132

# add entry to index and item tables

133

i = cache.get(item)

134

if i is None:

135

cache[item] = i = len(table)

table.append(item)

index[char] = i

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

139

# 2) decomposition data

140

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

141

decomp_data = [0]

142

decomp_prefix = [""]

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

143

decomp_index = [0] * len(unicode.chars)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

144

decomp_size = 0

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

145

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

146

comp_pairs = []

147

comp_first = [None] * len(unicode.chars)

148

comp_last = [None] * len(unicode.chars)

149

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

150

for char in unicode.chars:

151

record = unicode.table[char]

152

if record:

153

if record[5]:

Walter Dörwald

2002-09-11 20:36:02 +0000

[diff] [blame]

154

decomp = record[5].split()

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

155

if len(decomp) > 19:

Collin Winter

2007-08-22 23:05:06 +0000

[diff] [blame]

156

raise Exception("character %x has a decomposition too large for nfd_nfkd" % char)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

157

# prefix

158

if decomp[0][0] == "<":

159

prefix = decomp.pop(0)

160

else:

161

prefix = ""

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

162

try:

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

163

i = decomp_prefix.index(prefix)

164

except ValueError:

165

i = len(decomp_prefix)

166

decomp_prefix.append(prefix)

167

prefix = i

168

assert prefix < 256

169

# content

Georg Brandl

2008-05-16 17:02:34 +0000

[diff] [blame]

170

decomp = [prefix + (len(decomp)<<8)] + [int(s, 16) for s in decomp]

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

171

# Collect NFC pairs

172

if not prefix and len(decomp) == 3 and \

173

char not in unicode.exclusions and \

174

unicode.table[decomp[1]][3] == "0":

p, l, r = decomp

comp_first[l] = 1

comp_last[r] = 1

comp_pairs.append((l,r,char))

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

179

try:

180

i = decomp_data.index(decomp)

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

181

except ValueError:

182

i = len(decomp_data)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

183

decomp_data.extend(decomp)

184

decomp_size = decomp_size + len(decomp) * 2

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

185

else:

186

i = 0

187

decomp_index[char] = i

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

188

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

189

f = l = 0

190

comp_first_ranges = []

191

comp_last_ranges = []

192

prev_f = prev_l = None

193

for i in unicode.chars:

194

if comp_first[i] is not None:

comp_first[i] = f

f += 1

if prev_f is None:

prev_f = (i,i)

elif prev_f[1]+1 == i:

200

prev_f = prev_f[0],i

201

else:

202

comp_first_ranges.append(prev_f)

203

prev_f = (i,i)

204

if comp_last[i] is not None:

comp_last[i] = l

l += 1

if prev_l is None:

prev_l = (i,i)

elif prev_l[1]+1 == i:

210

prev_l = prev_l[0],i

211

else:

212

comp_last_ranges.append(prev_l)

213

prev_l = (i,i)

214

comp_first_ranges.append(prev_f)

215

comp_last_ranges.append(prev_l)

total_first = f

total_last = l

comp_data = [0]*(total_first*total_last)

220

for f,l,char in comp_pairs:

221

f = comp_first[f]

222

l = comp_last[l]

223

comp_data[f*total_last+l] = char

224

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

225

print(len(table), "unique properties")

226

print(len(decomp_prefix), "unique decomposition prefixes")

227

print(len(decomp_data), "unique decomposition entries:", end=' ')

228

print(decomp_size, "bytes")

229

print(total_first, "first characters in NFC")

230

print(total_last, "last characters in NFC")

231

print(len(comp_pairs), "NFC pairs")

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

232

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

233

print("--- Writing", FILE, "...")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

234

Fred Drake

9c68505

2000-10-26 03:56:46 +0000

[diff] [blame]

235

fp = open(FILE, "w")

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

236

print("/* this file was generated by %s %s */" % (SCRIPT, VERSION), file=fp)

237

print(file=fp)

238

print('#define UNIDATA_VERSION "%s"' % UNIDATA_VERSION, file=fp)

239

print("/* a list of unique database records */", file=fp)

240

print("const _PyUnicode_DatabaseRecord _PyUnicode_Database_Records[] = {", file=fp)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

241

for item in table:

Antoine Pitrou

2009-04-27 22:31:40 +0000

[diff] [blame]

242

print(" {%d, %d, %d, %d, %d, %d}," % item, file=fp)

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

243

print("};", file=fp)

244

print(file=fp)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

245

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

246

print("/* Reindexing of NFC first characters. */", file=fp)

247

print("#define TOTAL_FIRST",total_first, file=fp)

248

print("#define TOTAL_LAST",total_last, file=fp)

249

print("struct reindex{int start;short count,index;};", file=fp)

Martin v. Löwis

59683e8

2008-06-13 07:50:45 +0000

[diff] [blame]

250

print("static struct reindex nfc_first[] = {", file=fp)

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

251

for start,end in comp_first_ranges:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

252

print(" { %d, %d, %d}," % (start,end-start,comp_first[start]), file=fp)

253

print(" {0,0,0}", file=fp)

254

print("};\n", file=fp)

Martin v. Löwis

59683e8

2008-06-13 07:50:45 +0000

[diff] [blame]

255

print("static struct reindex nfc_last[] = {", file=fp)

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

256

for start,end in comp_last_ranges:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

257

print(" { %d, %d, %d}," % (start,end-start,comp_last[start]), file=fp)

258

print(" {0,0,0}", file=fp)

259

print("};\n", file=fp)

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

260

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

261

# FIXME: <fl> the following tables could be made static, and

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

262

# the support code moved into unicodedatabase.c

263

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

264

print("/* string literals */", file=fp)

265

print("const char *_PyUnicode_CategoryNames[] = {", file=fp)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

266

for name in CATEGORY_NAMES:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

267

print(" \"%s\"," % name, file=fp)

268

print(" NULL", file=fp)

269

print("};", file=fp)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

270

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

271

print("const char *_PyUnicode_BidirectionalNames[] = {", file=fp)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

272

for name in BIDIRECTIONAL_NAMES:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

273

print(" \"%s\"," % name, file=fp)

274

print(" NULL", file=fp)

275

print("};", file=fp)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

276

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

277

print("const char *_PyUnicode_EastAsianWidthNames[] = {", file=fp)

Hye-Shik Chang

2004-08-04 07:38:35 +0000

[diff] [blame]

278

for name in EASTASIANWIDTH_NAMES:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

279

print(" \"%s\"," % name, file=fp)

280

print(" NULL", file=fp)

281

print("};", file=fp)

Hye-Shik Chang

2004-08-04 07:38:35 +0000

[diff] [blame]

282

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

283

print("static const char *decomp_prefix[] = {", file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

284

for name in decomp_prefix:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

285

print(" \"%s\"," % name, file=fp)

286

print(" NULL", file=fp)

287

print("};", file=fp)

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

288

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

289

# split record index table

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

290

index1, index2, shift = splitbins(index, trace)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

291

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

292

print("/* index tables for the database records */", file=fp)

293

print("#define SHIFT", shift, file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

294

Array("index1", index1).dump(fp, trace)

295

Array("index2", index2).dump(fp, trace)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

296

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

297

# split decomposition index table

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

298

index1, index2, shift = splitbins(decomp_index, trace)

Fredrik Lundh

2000-09-25 08:07:06 +0000

[diff] [blame]

299

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

300

print("/* decomposition data */", file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

301

Array("decomp_data", decomp_data).dump(fp, trace)

302

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

303

print("/* index tables for the decomposition data */", file=fp)

304

print("#define DECOMP_SHIFT", shift, file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

305

Array("decomp_index1", index1).dump(fp, trace)

306

Array("decomp_index2", index2).dump(fp, trace)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

307

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

308

index, index2, shift = splitbins(comp_data, trace)

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

309

print("/* NFC pairs */", file=fp)

310

print("#define COMP_SHIFT", shift, file=fp)

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

311

Array("comp_index", index).dump(fp, trace)

312

Array("comp_data", index2).dump(fp, trace)

313

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

314

# Generate delta tables for old versions

315

for version, table, normalization in unicode.changed:

316

cversion = version.replace(".","_")

317

records = [table[0]]

318

cache = {table[0]:0}

319

index = [0] * len(table)

320

for i, record in enumerate(table):

321

try:

322

index[i] = cache[record]

323

except KeyError:

324

index[i] = cache[record] = len(records)

325

records.append(record)

326

index1, index2, shift = splitbins(index, trace)

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

327

print("static const change_record change_records_%s[] = {" % cversion, file=fp)

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

328

for record in records:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

329

print("\t{ %s }," % ", ".join(map(str,record)), file=fp)

330

print("};", file=fp)

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

331

Array("changes_%s_index" % cversion, index1).dump(fp, trace)

332

Array("changes_%s_data" % cversion, index2).dump(fp, trace)

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

333

print("static const change_record* get_change_%s(Py_UCS4 n)" % cversion, file=fp)

334

print("{", file=fp)

335

print("\tint index;", file=fp)

336

print("\tif (n >= 0x110000) index = 0;", file=fp)

337

print("\telse {", file=fp)

338

print("\t\tindex = changes_%s_index[n>>%d];" % (cversion, shift), file=fp)

339

print("\t\tindex = changes_%s_data[(index<<%d)+(n & %d)];" % \

340

(cversion, shift, ((1<<shift)-1)), file=fp)

341

print("\t}", file=fp)

342

print("\treturn change_records_%s+index;" % cversion, file=fp)

343

print("}\n", file=fp)

344

print("static Py_UCS4 normalization_%s(Py_UCS4 n)" % cversion, file=fp)

345

print("{", file=fp)

346

print("\tswitch(n) {", file=fp)

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

347

for k, v in normalization:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

348

print("\tcase %s: return 0x%s;" % (hex(k), v), file=fp)

349

print("\tdefault: return 0;", file=fp)

350

print("\t}\n}\n", file=fp)

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

351

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

352

fp.close()

353

354

# --------------------------------------------------------------------

355

# unicode character type tables

356

357

def makeunicodetype(unicode, trace):

358

359

FILE = "Objects/unicodetype_db.h"

360

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

361

print("--- Preparing", FILE, "...")

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

362

363

# extract unicode types

Fredrik Lundh

2000-09-25 21:01:56 +0000

[diff] [blame]

364

dummy = (0, 0, 0, 0, 0, 0)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

365

table = [dummy]

366

cache = {0: dummy}

367

index = [0] * len(unicode.chars)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

368

numeric = {}

369

spaces = []

370

linebreaks = []

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

371

372

for char in unicode.chars:

373

record = unicode.table[char]

374

if record:

375

# extract database properties

376

category = record[2]

377

bidirectional = record[4]

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

378

properties = record[16]

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

379

flags = 0

Martin v. Löwis

2008-09-10 14:08:48 +0000

[diff] [blame]

380

delta = True

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

381

if category in ["Lm", "Lt", "Lu", "Ll", "Lo"]:

382

flags |= ALPHA_MASK

383

if category == "Ll":

384

flags |= LOWER_MASK

Florent Xicluna

2010-03-30 19:34:18 +0000

[diff] [blame]

385

if 'Line_Break' in properties or bidirectional == "B":

Fredrik Lundh

2000-09-25 21:01:56 +0000

[diff] [blame]

386

flags |= LINEBREAK_MASK

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

387

linebreaks.append(char)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

388

if category == "Zs" or bidirectional in ("WS", "B", "S"):

389

flags |= SPACE_MASK

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

390

spaces.append(char)

Fredrik Lundh

375732c

2000-09-25 23:03:34 +0000

[diff] [blame]

391

if category == "Lt":

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

392

flags |= TITLE_MASK

393

if category == "Lu":

394

flags |= UPPER_MASK

Benjamin Peterson

0983274

2009-03-26 17:15:46 +0000

[diff] [blame]

395

if char == ord(" ") or category[0] not in ("C", "Z"):

Georg Brandl

d52429f

2008-07-04 15:55:02 +0000

[diff] [blame]

396

flags |= PRINTABLE_MASK

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

397

if "XID_Start" in properties:

398

flags |= XID_START_MASK

399

if "XID_Continue" in properties:

400

flags |= XID_CONTINUE_MASK

Martin v. Löwis

2008-09-10 14:08:48 +0000

[diff] [blame]

401

# use delta predictor for upper/lower/title if it fits

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

402

if record[12]:

Walter Dörwald

2009-04-25 14:13:56 +0000

[diff] [blame]

403

upper = int(record[12], 16)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

404

else:

Walter Dörwald

2009-04-25 14:13:56 +0000

[diff] [blame]

405

upper = char

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

406

if record[13]:

Walter Dörwald

2009-04-25 14:13:56 +0000

[diff] [blame]

407

lower = int(record[13], 16)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

408

else:

Walter Dörwald

2009-04-25 14:13:56 +0000

[diff] [blame]

409

lower = char

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

410

if record[14]:

Walter Dörwald

2009-04-25 14:13:56 +0000

[diff] [blame]

411

title = int(record[14], 16)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

412

else:

Walter Dörwald

2009-04-25 14:13:56 +0000

[diff] [blame]

413

# UCD.html says that a missing title char means that

414

# it defaults to the uppercase character, not to the

415

# character itself. Apparently, in the current UCD (5.x)

416

# this feature is never used

417

title = upper

418

upper_d = upper - char

419

lower_d = lower - char

420

title_d = title - char

421

if -32768 <= upper_d <= 32767 and \

422

-32768 <= lower_d <= 32767 and \

423

-32768 <= title_d <= 32767:

424

# use deltas

425

upper = upper_d & 0xffff

426

lower = lower_d & 0xffff

427

title = title_d & 0xffff

428

else:

Martin v. Löwis

2008-09-10 14:08:48 +0000

[diff] [blame]

429

flags |= NODELTA_MASK

Fredrik Lundh

2000-09-25 21:01:56 +0000

[diff] [blame]

430

# decimal digit, integer digit

431

decimal = 0

432

if record[6]:

433

flags |= DECIMAL_MASK

434

decimal = int(record[6])

digit = 0

if record[7]:

flags |= DIGIT_MASK

digit = int(record[7])

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

439

if record[8]:

440

flags |= NUMERIC_MASK

441

numeric.setdefault(record[8], []).append(char)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

442

item = (

Hye-Shik Chang

2004-06-02 16:49:17 +0000

[diff] [blame]

443

upper, lower, title, decimal, digit, flags

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

444

)

445

# add entry to index and item tables

446

i = cache.get(item)

447

if i is None:

448

cache[item] = i = len(table)

table.append(item)

index[char] = i

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

452

print(len(table), "unique character type entries")

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

453

print(sum(map(len, numeric.values())), "numeric code points")

454

print(len(spaces), "whitespace code points")

455

print(len(linebreaks), "linebreak code points")

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

456

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

457

print("--- Writing", FILE, "...")

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

458

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

459

fp = open(FILE, "w")

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

460

print("/* this file was generated by %s %s */" % (SCRIPT, VERSION), file=fp)

461

print(file=fp)

462

print("/* a list of unique character type descriptors */", file=fp)

463

print("const _PyUnicode_TypeRecord _PyUnicode_TypeRecords[] = {", file=fp)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

464

for item in table:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

465

print(" {%d, %d, %d, %d, %d, %d}," % item, file=fp)

466

print("};", file=fp)

467

print(file=fp)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

468

469

# split decomposition index table

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

470

index1, index2, shift = splitbins(index, trace)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

471

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

472

print("/* type indexes */", file=fp)

473

print("#define SHIFT", shift, file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

474

Array("index1", index1).dump(fp, trace)

475

Array("index2", index2).dump(fp, trace)

Fredrik Lundh

2000-09-25 17:59:57 +0000

[diff] [blame]

476

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

477

# Generate code for _PyUnicode_ToNumeric()

478

numeric_items = sorted(numeric.items())

479

print('/* Returns the numeric value as double for Unicode characters', file=fp)

480

print(' * having this property, -1.0 otherwise.', file=fp)

481

print(' */', file=fp)

Amaury Forgeot d'Arc

2010-08-18 20:44:58 +0000

[diff] [blame]

482

print('double _PyUnicode_ToNumeric(Py_UCS4 ch)', file=fp)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

483

print('{', file=fp)

484

print(' switch (ch) {', file=fp)

485

for value, codepoints in numeric_items:

Amaury Forgeot d'Arc

919765a

2009-10-13 23:18:53 +0000

[diff] [blame]

486

# Turn text into float literals

487

parts = value.split('/')

488

parts = [repr(float(part)) for part in parts]

489

value = '/'.join(parts)

490

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

491

codepoints.sort()

492

for codepoint in codepoints:

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

493

print(' case 0x%04X:' % (codepoint,), file=fp)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

494

print(' return (double) %s;' % (value,), file=fp)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

495

print(' }', file=fp)

496

print(' return -1.0;', file=fp)

print('}', file=fp)

print(file=fp)

# Generate code for _PyUnicode_IsWhitespace()

501

print("/* Returns 1 for Unicode characters having the bidirectional", file=fp)

502

print(" * type 'WS', 'B' or 'S' or the category 'Zs', 0 otherwise.", file=fp)

503

print(" */", file=fp)

Amaury Forgeot d'Arc

2010-08-18 20:44:58 +0000

[diff] [blame]

504

print('int _PyUnicode_IsWhitespace(register const Py_UCS4 ch)', file=fp)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

505

print('{', file=fp)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

506

print(' switch (ch) {', file=fp)

507

Florent Xicluna

f089fd6

2010-03-19 14:25:03 +0000

[diff] [blame]

508

for codepoint in sorted(spaces):

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

509

print(' case 0x%04X:' % (codepoint,), file=fp)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

510

print(' return 1;', file=fp)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

511

512

print(' }', file=fp)

513

print(' return 0;', file=fp)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

print('}', file=fp)

print(file=fp)

# Generate code for _PyUnicode_IsLinebreak()

Florent Xicluna

2010-03-30 19:34:18 +0000

[diff] [blame]

518

print("/* Returns 1 for Unicode characters having the line break", file=fp)

519

print(" * property 'BK', 'CR', 'LF' or 'NL' or having bidirectional", file=fp)

520

print(" * type 'B', 0 otherwise.", file=fp)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

521

print(" */", file=fp)

Amaury Forgeot d'Arc

2010-08-18 20:44:58 +0000

[diff] [blame]

522

print('int _PyUnicode_IsLinebreak(register const Py_UCS4 ch)', file=fp)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

523

print('{', file=fp)

524

print(' switch (ch) {', file=fp)

Florent Xicluna

f089fd6

2010-03-19 14:25:03 +0000

[diff] [blame]

525

for codepoint in sorted(linebreaks):

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

526

print(' case 0x%04X:' % (codepoint,), file=fp)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

527

print(' return 1;', file=fp)

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

528

529

print(' }', file=fp)

530

print(' return 0;', file=fp)

print('}', file=fp)

print(file=fp)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

534

fp.close()

535

536

# --------------------------------------------------------------------

537

# unicode name database

538

539

def makeunicodename(unicode, trace):

540

541

FILE = "Modules/unicodename_db.h"

542

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

543

print("--- Preparing", FILE, "...")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

544

545

# collect names

546

names = [None] * len(unicode.chars)

547

548

for char in unicode.chars:

549

record = unicode.table[char]

550

if record:

551

name = record[1].strip()

552

if name and name[0] != "<":

553

names[char] = name + chr(0)

554

Georg Brandl

559e5d7

2008-06-11 18:37:52 +0000

[diff] [blame]

555

print(len(list(n for n in names if n is not None)), "distinct names")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

556

557

# collect unique words from names (note that we differ between

558

# words inside a sentence, and words ending a sentence. the

559

# latter includes the trailing null byte.

words = {}

n = b = 0

for char in unicode.chars:

name = names[char]

if name:

w = name.split()

b = b + len(name)

n = n + len(w)

for w in w:

l = words.get(w)

if l:

l.append(None)

else:

words[w] = [len(words)]

575

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

576

print(n, "words in text;", b, "bytes")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

577

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

578

wordlist = list(words.items())

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

579

Martin v. Löwis

2002-11-24 23:05:09 +0000

[diff] [blame]

580

# sort on falling frequency, then by name

Mark Dickinson

a56c467

2009-01-27 18:17:45 +0000

[diff] [blame]

581

def word_key(a):

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

582

aword, alist = a

Mark Dickinson

a56c467

2009-01-27 18:17:45 +0000

[diff] [blame]

583

return -len(alist), aword

584

wordlist.sort(key=word_key)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

585

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

586

# figure out how many phrasebook escapes we need

587

escapes = 0

588

while escapes * 256 < len(wordlist):

589

escapes = escapes + 1

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

590

print(escapes, "escapes")

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

591

592

short = 256 - escapes

assert short > 0

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

596

print(short, "short indexes in lexicon")

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

597

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

598

# statistics

599

n = 0

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

600

for i in range(short):

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

601

n = n + len(wordlist[i][1])

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

602

print(n, "short indexes in phrasebook")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

603

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

604

# pick the most commonly used words, and sort the rest on falling

605

# length (to maximize overlap)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

606

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

607

wordlist, wordtail = wordlist[:short], wordlist[short:]

Raymond Hettinger

d4cb56d

2008-01-30 02:55:10 +0000

[diff] [blame]

608

wordtail.sort(key=lambda a: a[0], reverse=True)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

609

wordlist.extend(wordtail)

610

611

# generate lexicon from words

lexicon_offset = [0]

lexicon = ""

words = {}

# build a lexicon string

618

offset = 0

619

for w, x in wordlist:

620

# encoding: bit 7 indicates last character in word (chr(128)

621

# indicates the last character in an entire string)

622

ww = w[:-1] + chr(ord(w[-1])+128)

623

# reuse string tails, when possible

Walter Dörwald

2002-09-11 20:36:02 +0000

[diff] [blame]

624

o = lexicon.find(ww)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

625

if o < 0:

626

o = offset

627

lexicon = lexicon + ww

628

offset = offset + len(w)

629

words[w] = len(lexicon_offset)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

630

lexicon_offset.append(o)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

631

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

632

lexicon = list(map(ord, lexicon))

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

633

634

# generate phrasebook from names and lexicon

635

phrasebook = [0]

636

phrasebook_offset = [0] * len(unicode.chars)

637

for char in unicode.chars:

name = names[char]

if name:

w = name.split()

phrasebook_offset[char] = len(phrasebook)

642

for w in w:

643

i = words[w]

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

644

if i < short:

645

phrasebook.append(i)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

646

else:

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

647

# store as two bytes

648

phrasebook.append((i>>8) + short)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

649

phrasebook.append(i&255)

650

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

651

assert getsize(phrasebook) == 1

652

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

653

#

654

# unicode name hash table

# extract names

data = []

for char in unicode.chars:

659

record = unicode.table[char]

660

if record:

661

name = record[1].strip()

662

if name and name[0] != "<":

663

data.append((name, char))

664

665

# the magic number 47 was chosen to minimize the number of

666

# collisions on the current data set. if you like, change it

667

# and see what happens...

668

669

codehash = Hash("code", data, 47)

670

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

671

print("--- Writing", FILE, "...")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

672

673

fp = open(FILE, "w")

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

674

print("/* this file was generated by %s %s */" % (SCRIPT, VERSION), file=fp)

675

print(file=fp)

676

print("#define NAME_MAXLEN", 256, file=fp)

677

print(file=fp)

678

print("/* lexicon */", file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

679

Array("lexicon", lexicon).dump(fp, trace)

680

Array("lexicon_offset", lexicon_offset).dump(fp, trace)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

681

682

# split decomposition index table

683

offset1, offset2, shift = splitbins(phrasebook_offset, trace)

684

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

685

print("/* code->name phrasebook */", file=fp)

686

print("#define phrasebook_shift", shift, file=fp)

687

print("#define phrasebook_short", short, file=fp)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

688

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

689

Array("phrasebook", phrasebook).dump(fp, trace)

690

Array("phrasebook_offset1", offset1).dump(fp, trace)

691

Array("phrasebook_offset2", offset2).dump(fp, trace)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

692

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

693

print("/* name->code dictionary */", file=fp)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

694

codehash.dump(fp, trace)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

fp.close()

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

698

699

def merge_old_version(version, new, old):

700

# Changes to exclusion file not implemented yet

701

if old.exclusions != new.exclusions:

Collin Winter

2007-08-22 23:05:06 +0000

[diff] [blame]

702

raise NotImplementedError("exclusions differ")

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

703

704

# In these change records, 0xFF means "no change"

705

bidir_changes = [0xFF]*0x110000

706

category_changes = [0xFF]*0x110000

707

decimal_changes = [0xFF]*0x110000

Martin v. Löwis

2008-09-10 14:08:48 +0000

[diff] [blame]

708

mirrored_changes = [0xFF]*0x110000

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

709

# In numeric data, 0 means "no change",

710

# -1 means "did not have a numeric value

711

numeric_changes = [0] * 0x110000

712

# normalization_changes is a list of key-value pairs

713

normalization_changes = []

714

for i in range(0x110000):

715

if new.table[i] is None:

716

# Characters unassigned in the new version ought to

717

# be unassigned in the old one

718

assert old.table[i] is None

719

continue

720

# check characters unassigned in the old version

721

if old.table[i] is None:

722

# category 0 is "unassigned"

723

category_changes[i] = 0

724

continue

725

# check characters that differ

726

if old.table[i] != new.table[i]:

727

for k in range(len(old.table[i])):

728

if old.table[i][k] != new.table[i][k]:

729

value = old.table[i][k]

730

if k == 2:

731

#print "CATEGORY",hex(i), old.table[i][k], new.table[i][k]

732

category_changes[i] = CATEGORY_NAMES.index(value)

733

elif k == 4:

734

#print "BIDIR",hex(i), old.table[i][k], new.table[i][k]

735

bidir_changes[i] = BIDIRECTIONAL_NAMES.index(value)

736

elif k == 5:

737

#print "DECOMP",hex(i), old.table[i][k], new.table[i][k]

738

# We assume that all normalization changes are in 1:1 mappings

739

assert " " not in value

740

normalization_changes.append((i, value))

741

elif k == 6:

742

#print "DECIMAL",hex(i), old.table[i][k], new.table[i][k]

743

# we only support changes where the old value is a single digit

744

assert value in "0123456789"

745

decimal_changes[i] = int(value)

746

elif k == 8:

747

# print "NUMERIC",hex(i), `old.table[i][k]`, new.table[i][k]

748

# Since 0 encodes "no change", the old value is better not 0

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

749

if not value:

750

numeric_changes[i] = -1

751

else:

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

752

numeric_changes[i] = float(value)

753

assert numeric_changes[i] not in (0, -1)

Martin v. Löwis

2008-09-10 14:08:48 +0000

[diff] [blame]

754

elif k == 9:

755

if value == 'Y':

756

mirrored_changes[i] = '1'

757

else:

758

mirrored_changes[i] = '0'

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

759

elif k == 11:

760

# change to ISO comment, ignore

761

pass

762

elif k == 12:

763

# change to simple uppercase mapping; ignore

764

pass

765

elif k == 13:

766

# change to simple lowercase mapping; ignore

767

pass

768

elif k == 14:

769

# change to simple titlecase mapping; ignore

770

pass

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

771

elif k == 16:

772

# derived property changes; not yet

773

pass

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

774

else:

775

class Difference(Exception):pass

Collin Winter

2007-08-22 23:05:06 +0000

[diff] [blame]

776

raise Difference(hex(i), k, old.table[i], new.table[i])

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

777

new.changed.append((version, list(zip(bidir_changes, category_changes,

Martin v. Löwis

2008-09-10 14:08:48 +0000

[diff] [blame]

778

decimal_changes, mirrored_changes,

779

numeric_changes)),

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

780

normalization_changes))

Tim Peters

88ca467

2006-03-10 23:39:56 +0000

[diff] [blame]

781

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

782

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

783

# --------------------------------------------------------------------

784

# the following support code is taken from the unidb utilities

785

786

787

# load a unicode-data file from disk

788

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

789

class UnicodeData:

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

790

# Record structure:

791

# [ID, name, category, combining, bidi, decomp, (6)

792

# decimal, digit, numeric, bidi-mirrored, Unicode-1-name, (11)

793

# ISO-comment, uppercase, lowercase, titlecase, ea-width, (16)

794

# derived-props] (17)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

795

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

796

def __init__(self, filename, exclusions, eastasianwidth, unihan,

Florent Xicluna

2010-03-30 19:34:18 +0000

[diff] [blame]

797

derivedprops, derivednormalizationprops=None, linebreakprops=None,

798

expand=1):

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

799

self.changed = []

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

800

file = open(filename)

Martin v. Löwis

9def6a3

2002-10-18 16:11:54 +0000

[diff] [blame]

801

table = [None] * 0x110000

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

while 1:

s = file.readline()

if not s:

break

Walter Dörwald

2002-09-11 20:36:02 +0000

[diff] [blame]

806

s = s.strip().split(";")

807

char = int(s[0], 16)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

808

table[char] = s

809

Martin v. Löwis

2002-11-24 23:05:09 +0000

[diff] [blame]

810

# expand first-last ranges

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

811

if expand:

812

field = None

Martin v. Löwis

2002-11-24 23:05:09 +0000

[diff] [blame]

813

for i in range(0, 0x110000):

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

814

s = table[i]

815

if s:

816

if s[1][-6:] == "First>":

817

s[1] = ""

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

818

field = s

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

819

elif s[1][-5:] == "Last>":

820

s[1] = ""

821

field = None

822

elif field:

Martin v. Löwis

2006-03-09 23:38:20 +0000

[diff] [blame]

823

f2 = field[:]

824

f2[0] = "%X" % i

825

table[i] = f2

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

826

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

827

# public attributes

828

self.filename = filename

829

self.table = table

Georg Brandl

2008-05-16 17:02:34 +0000

[diff] [blame]

830

self.chars = list(range(0x110000)) # unicode 3.2

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

831

Martin v. Löwis

2002-11-23 22:08:15 +0000

[diff] [blame]

832

file = open(exclusions)

self.exclusions = {}

for s in file:

s = s.strip()

if not s:

continue

if s[0] == '#':

continue

char = int(s.split()[0],16)

841

self.exclusions[char] = 1

842

Hye-Shik Chang

2004-06-02 16:49:17 +0000

[diff] [blame]

843

widths = [None] * 0x110000

844

for s in open(eastasianwidth):

s = s.strip()

if not s:

continue

if s[0] == '#':

continue

s = s.split()[0].split(';')

851

if '..' in s[0]:

852

first, last = [int(c, 16) for c in s[0].split('..')]

Georg Brandl

2008-05-16 17:02:34 +0000

[diff] [blame]

853

chars = list(range(first, last+1))

Hye-Shik Chang

2004-06-02 16:49:17 +0000

[diff] [blame]

854

else:

855

chars = [int(s[0], 16)]

856

for char in chars:

857

widths[char] = s[1]

858

for i in range(0, 0x110000):

859

if table[i] is not None:

860

table[i].append(widths[i])

861

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

862

for i in range(0, 0x110000):

863

if table[i] is not None:

864

table[i].append(set())

865

for s in open(derivedprops):

866

s = s.split('#', 1)[0].strip()

if not s:

continue

r, p = s.split(";")

r = r.strip()

p = p.strip()

if ".." in r:

first, last = [int(c, 16) for c in r.split('..')]

Georg Brandl

2008-05-16 17:02:34 +0000

[diff] [blame]

875

chars = list(range(first, last+1))

Martin v. Löwis

2007-08-14 22:37:03 +0000

[diff] [blame]

else:

chars = [int(r, 16)]

for char in chars:

if table[char]:

# Some properties (e.g. Default_Ignorable_Code_Point)

881

# apply to unassigned code points; ignore them

882

table[char][-1].add(p)

883

Florent Xicluna

2010-03-30 19:34:18 +0000

[diff] [blame]

884

if linebreakprops:

885

for s in open(linebreakprops):

886

s = s.partition('#')[0]

887

s = [i.strip() for i in s.split(';')]

888

if len(s) < 2 or s[1] not in MANDATORY_LINE_BREAKS:

889

continue

890

if '..' not in s[0]:

891

first = last = int(s[0], 16)

892

else:

893

first, last = [int(c, 16) for c in s[0].split('..')]

894

for char in range(first, last+1):

895

table[char][-1].add('Line_Break')

896

Antoine Pitrou

2009-04-27 22:31:40 +0000

[diff] [blame]

897

if derivednormalizationprops:

898

quickchecks = [0] * 0x110000 # default is Yes

899

qc_order = 'NFD_QC NFKD_QC NFC_QC NFKC_QC'.split()

900

for s in open(derivednormalizationprops):

901

if '#' in s:

902

s = s[:s.index('#')]

903

s = [i.strip() for i in s.split(';')]

904

if len(s) < 2 or s[1] not in qc_order:

905

continue

906

quickcheck = 'MN'.index(s[2]) + 1 # Maybe or No

907

quickcheck_shift = qc_order.index(s[1])*2

908

quickcheck <<= quickcheck_shift

909

if '..' not in s[0]:

910

first = last = int(s[0], 16)

911

else:

912

first, last = [int(c, 16) for c in s[0].split('..')]

913

for char in range(first, last+1):

914

assert not (quickchecks[char]>>quickcheck_shift)&3

915

quickchecks[char] |= quickcheck

916

for i in range(0, 0x110000):

917

if table[i] is not None:

918

table[i].append(quickchecks[i])

919

Amaury Forgeot d'Arc

2009-10-06 21:03:20 +0000

[diff] [blame]

920

for line in open(unihan, encoding='utf-8'):

921

if not line.startswith('U+'):

922

continue

923

code, tag, value = line.split(None, 3)[:3]

924

if tag not in ('kAccountingNumeric', 'kPrimaryNumeric',

925

'kOtherNumeric'):

926

continue

927

value = value.strip().replace(',', '')

928

i = int(code[2:], 16)

929

# Patch the numeric field

930

if table[i] is not None:

931

table[i][8] = value

932

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

933

def uselatin1(self):

934

# restrict character range to ISO Latin 1

Georg Brandl

2008-05-16 17:02:34 +0000

[diff] [blame]

935

self.chars = list(range(256))

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

936

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

937

# hash table tools

938

939

# this is a straight-forward reimplementation of Python's built-in

940

# dictionary type, using a static data structure, and a custom string

941

# hash algorithm.

942

943

def myhash(s, magic):

944

h = 0

Walter Dörwald

2002-09-11 20:36:02 +0000

[diff] [blame]

945

for c in map(ord, s.upper()):

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

946

h = (h * magic) + c

Guido van Rossum

cd16bf6

2007-06-13 18:07:49 +0000

[diff] [blame]

947

ix = h & 0xff000000

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

948

if ix:

949

h = (h ^ ((ix>>24) & 0xff)) & 0x00ffffff

return h

SIZES = [

(4,3), (8,3), (16,3), (32,5), (64,3), (128,3), (256,29), (512,17),

954

(1024,9), (2048,5), (4096,83), (8192,27), (16384,43), (32768,3),

955

(65536,45), (131072,9), (262144,39), (524288,39), (1048576,9),

956

(2097152,5), (4194304,3), (8388608,33), (16777216,27)

]

class Hash:

def __init__(self, name, data, magic):

961

# turn a (key, value) list into a static hash table structure

962

963

# determine table size

964

for size, poly in SIZES:

if size > len(data):

poly = size + poly

break

else:

Collin Winter

2007-08-22 23:05:06 +0000

[diff] [blame]

969

raise AssertionError("ran out of polynominals")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

970

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

971

print(size, "slots in hash table")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

972

973

table = [None] * size

mask = size-1

n = 0

hash = myhash

# initialize hash table

982

for key, value in data:

h = hash(key, magic)

i = (~h) & mask

v = table[i]

if v is None:

table[i] = value

continue

incr = (h ^ (h >> 3)) & mask;

if not incr:

incr = mask

while 1:

n = n + 1

i = (i + incr) & mask

v = table[i]

if v is None:

table[i] = value

break

incr = incr << 1

if incr > mask:

incr = incr ^ poly

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

1003

print(n, "collisions")

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

1004

self.collisions = n

1005

1006

for i in range(len(table)):

if table[i] is None:

table[i] = 0

self.data = Array(name + "_hash", table)

self.magic = magic

self.name = name

self.size = size

self.poly = poly

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

1016

def dump(self, file, trace):

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

1017

# write data to file, as a C array

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

1018

self.data.dump(file, trace)

Fredrik Lundh

2001-01-21 17:01:31 +0000

[diff] [blame]

1019

file.write("#define %s_magic %d\n" % (self.name, self.magic))

1020

file.write("#define %s_size %d\n" % (self.name, self.size))

1021

file.write("#define %s_poly %d\n" % (self.name, self.poly))

1022

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

1023

# stuff to deal with arrays of unsigned integers

class Array:

def __init__(self, name, data):

self.name = name

self.data = data

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

1031

def dump(self, file, trace=0):

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

1032

# write data to file, as a C array

1033

size = getsize(self.data)

Fredrik Lundh

2001-01-21 22:41:08 +0000

[diff] [blame]

1034

if trace:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

1035

print(self.name+":", size*len(self.data), "bytes", file=sys.stderr)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

1036

file.write("static ")

1037

if size == 1:

1038

file.write("unsigned char")

1039

elif size == 2:

1040

file.write("unsigned short")

1041

else:

1042

file.write("unsigned int")

1043

file.write(" " + self.name + "[] = {\n")

1044

if self.data:

1045

s = " "

1046

for item in self.data:

1047

i = str(item) + ", "

1048

if len(s) + len(i) > 78:

file.write(s + "\n")

s = " " + i

else:

s = s + i

Walter Dörwald

2002-09-11 20:36:02 +0000

[diff] [blame]

1053

if s.strip():

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

file.write(s + "\n")

file.write("};\n\n")

def getsize(data):

# return smallest possible integer size for the given array

maxdata = max(data)

if maxdata < 256:

return 1

elif maxdata < 65536:

return 2

else:

return 4

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1067

def splitbins(t, trace=0):

1068

"""t, trace=0 -> (t1, t2, shift). Split a table to save space.

1069

1070

t is a sequence of ints. This function can be useful to save space if

1071

many of the ints are the same. t1 and t2 are lists of ints, and shift

1072

is an int, chosen to minimize the combined size of t1 and t2 (in C

1073

code), and where for each i in range(len(t)),

1074

t[i] == t2[(t1[i >> shift] << shift) + (i & mask)]

1075

where mask is a bitmask isolating the last "shift" bits.

1076

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

1077

If optional arg trace is non-zero (default zero), progress info

1078

is printed to sys.stderr. The higher the value, the more info

1079

you'll get.

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1080

"""

1081

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1082

if trace:

1083

def dump(t1, t2, shift, bytes):

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

1084

print("%d+%d bins at shift %d; %d bytes" % (

1085

len(t1), len(t2), shift, bytes), file=sys.stderr)

1086

print("Size of original table:", len(t)*getsize(t), \

1087

"bytes", file=sys.stderr)

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1088

n = len(t)-1 # last valid index

1089

maxshift = 0 # the most we can shift n and still have something left

if n > 0:

while n >> 1:

n >>= 1

maxshift += 1

del n

Christian Heimes

a37d4c6

2007-12-04 23:02:19 +0000

[diff] [blame]

1095

bytes = sys.maxsize # smallest total size so far

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1096

t = tuple(t) # so slices can be dict keys

1097

for shift in range(maxshift + 1):

1098

t1 = []

1099

t2 = []

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

1100

size = 2**shift

1101

bincache = {}

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1102

for i in range(0, len(t), size):

1103

bin = t[i:i+size]

1104

index = bincache.get(bin)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

1105

if index is None:

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1106

index = len(t2)

1107

bincache[bin] = index

1108

t2.extend(bin)

1109

t1.append(index >> shift)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

1110

# determine memory size

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1111

b = len(t1)*getsize(t1) + len(t2)*getsize(t2)

Fredrik Lundh

2000-11-03 20:24:15 +0000

[diff] [blame]

1112

if trace > 1:

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1113

dump(t1, t2, shift, b)

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

1114

if b < bytes:

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1115

best = t1, t2, shift

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

1116

bytes = b

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1117

t1, t2, shift = best

1118

if trace:

Collin Winter

2007-08-03 17:06:41 +0000

[diff] [blame]

1119

print("Best:", end=' ', file=sys.stderr)

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1120

dump(t1, t2, shift, bytes)

1121

if __debug__:

1122

# exhaustively verify that the decomposition is correct

1123

mask = ~((~0) << shift) # i.e., low-bit mask of shift bits

Guido van Rossum

805365e

2007-05-07 22:24:25 +0000

[diff] [blame]

1124

for i in range(len(t)):

Tim Peters

2000-09-25 07:13:41 +0000

[diff] [blame]

1125

assert t[i] == t2[(t1[i >> shift] << shift) + (i & mask)]

1126

return best

Fredrik Lundh

2000-09-24 23:18:31 +0000

[diff] [blame]

1127

1128

if __name__ == "__main__":

Fredrik Lundh