Blame - clang/utils/analyzer/CmpRuns.py - toolchain/llvm-project

2009-08-06 21:15:33 +0000

[diff] [blame]

1

#!/usr/bin/env python

2

3

"""

4

CmpRuns - A simple tool for comparing two static analyzer runs to determine

5

which reports have been added, removed, or changed.

6

7

This is designed to support automated testing using the static analyzer, from

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

8

two perspectives:

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

9

1. To monitor changes in the static analyzer's reports on real code bases,

10

for regression testing.

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

11

12

2. For use by end users who want to integrate regular static analyzer testing

13

into a buildbot like environment.

Anna Zaks

2012-07-16 20:21:42 +0000

[diff] [blame]

Usage:

# Load the results of both runs, to obtain lists of the corresponding

18

# AnalysisDiagnostic objects.

Anna Zaks

2012-08-02 00:41:40 +0000

[diff] [blame]

19

#

Anna Zaks

2012-10-15 22:48:21 +0000

[diff] [blame]

20

resultsA = loadResultsFromSingleRun(singleRunInfoA, deleteEmpty)

21

resultsB = loadResultsFromSingleRun(singleRunInfoB, deleteEmpty)

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

22

23

# Generate a relation from diagnostics in run A to diagnostics in run B

24

# to obtain a list of triples (a, b, confidence).

Anna Zaks

2012-07-16 20:21:42 +0000

[diff] [blame]

25

diff = compareResults(resultsA, resultsB)

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

26

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

"""

import os

import plistlib

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

32

Anna Zaks

2012-10-15 22:48:21 +0000

[diff] [blame]

33

# Information about analysis run:

34

# path - the analysis output directory

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

35

# root - the name of the root directory, which will be disregarded when

Anna Zaks

2012-10-15 22:48:21 +0000

[diff] [blame]

36

# determining the source file name

37

class SingleRunInfo:

38

def __init__(self, path, root="", verboseLog=None):

39

self.path = path

Gabor Horvath

c3177f2

2015-07-08 18:39:31 +0000

[diff] [blame]

40

self.root = root.rstrip("/\\")

Anna Zaks

2012-10-15 22:48:21 +0000

[diff] [blame]

41

self.verboseLog = verboseLog

42

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

43

Anna Zaks

2012-07-16 20:21:42 +0000

[diff] [blame]

44

class AnalysisDiagnostic:

45

def __init__(self, data, report, htmlReport):

46

self._data = data

47

self._loc = self._data['location']

48

self._report = report

49

self._htmlReport = htmlReport

50

51

def getFileName(self):

Anna Zaks

2012-10-15 22:48:21 +0000

[diff] [blame]

52

root = self._report.run.root

Anna Zaks

2012-10-17 21:09:26 +0000

[diff] [blame]

53

fileName = self._report.files[self._loc['file']]

Gabor Horvath

c3177f2

2015-07-08 18:39:31 +0000

[diff] [blame]

54

if fileName.startswith(root) and len(root) > 0:

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

55

return fileName[len(root) + 1:]

Anna Zaks

2012-10-15 22:48:21 +0000

[diff] [blame]

56

return fileName

57

Anna Zaks

2012-07-16 20:21:42 +0000

[diff] [blame]

58

def getLine(self):

59

return self._loc['line']

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

60

Anna Zaks

2012-07-16 20:21:42 +0000

[diff] [blame]

61

def getColumn(self):

62

return self._loc['col']

63

64

def getCategory(self):

65

return self._data['category']

66

67

def getDescription(self):

68

return self._data['description']

69

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

70

def getIssueIdentifier(self):

Anna Zaks

2012-10-15 22:48:21 +0000

[diff] [blame]

71

id = self.getFileName() + "+"

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

72

if 'issue_context' in self._data:

73

id += self._data['issue_context'] + "+"

74

if 'issue_hash_content_of_line_in_context' in self._data:

75

id += str(self._data['issue_hash_content_of_line_in_context'])

Anna Zaks

2012-10-15 22:48:21 +0000

[diff] [blame]

76

return id

Anna Zaks

2012-07-16 20:21:42 +0000

[diff] [blame]

77

78

def getReport(self):

79

if self._htmlReport is None:

80

return " "

81

return os.path.join(self._report.run.path, self._htmlReport)

82

83

def getReadableName(self):

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

84

return '%s:%d:%d, %s: %s' % (self.getFileName(), self.getLine(),

85

self.getColumn(), self.getCategory(),

Anna Zaks

2012-07-16 20:21:42 +0000

[diff] [blame]

86

self.getDescription())

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

87

88

# Note, the data format is not an API and may change from one analyzer

89

# version to another.

Anna Zaks

2012-10-17 21:09:26 +0000

[diff] [blame]

90

def getRawData(self):

91

return self._data

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

92

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

93

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

94

class CmpOptions:

Anna Zaks

2012-08-02 00:41:40 +0000

[diff] [blame]

95

def __init__(self, verboseLog=None, rootA="", rootB=""):

96

self.rootA = rootA

97

self.rootB = rootB

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

98

self.verboseLog = verboseLog

99

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

100

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

101

class AnalysisReport:

Anna Zaks

fab9bb6

2012-11-15 22:42:44 +0000

[diff] [blame]

102

def __init__(self, run, files):

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

103

self.run = run

Anna Zaks

2012-10-17 21:09:26 +0000

[diff] [blame]

104

self.files = files

105

self.diagnostics = []

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

106

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

107

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

108

class AnalysisRun:

Anna Zaks

2012-10-15 22:48:21 +0000

[diff] [blame]

109

def __init__(self, info):

110

self.path = info.path

111

self.root = info.root

112

self.info = info

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

113

self.reports = []

Anna Zaks

2012-10-17 21:09:26 +0000

[diff] [blame]

114

# Cumulative list of all diagnostics from all the reports.

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

115

self.diagnostics = []

Anna Zaks

fab9bb6

2012-11-15 22:42:44 +0000

[diff] [blame]

116

self.clang_version = None

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

117

Anna Zaks

fab9bb6

2012-11-15 22:42:44 +0000

[diff] [blame]

118

def getClangVersion(self):

119

return self.clang_version

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

120

Jordan Rose

2013-03-23 01:21:26 +0000

[diff] [blame]

121

def readSingleFile(self, p, deleteEmpty):

122

data = plistlib.readPlist(p)

123

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

124

# We want to retrieve the clang version even if there are no

125

# reports. Assume that all reports were created using the same

Jordan Rose

2013-03-23 01:21:26 +0000

[diff] [blame]

126

# clang version (this is always true and is more efficient).

127

if 'clang_version' in data:

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

128

if self.clang_version is None:

Jordan Rose

2013-03-23 01:21:26 +0000

[diff] [blame]

129

self.clang_version = data.pop('clang_version')

130

else:

131

data.pop('clang_version')

132

133

# Ignore/delete empty reports.

134

if not data['files']:

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

135

if deleteEmpty:

Jordan Rose

2013-03-23 01:21:26 +0000

[diff] [blame]

os.remove(p)

return

# Extract the HTML reports, if they exists.

140

if 'HTMLDiagnostics_files' in data['diagnostics'][0]:

141

htmlFiles = []

142

for d in data['diagnostics']:

143

# FIXME: Why is this named files, when does it have multiple

144

# files?

145

assert len(d['HTMLDiagnostics_files']) == 1

146

htmlFiles.append(d.pop('HTMLDiagnostics_files')[0])

147

else:

148

htmlFiles = [None] * len(data['diagnostics'])

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

149

Jordan Rose

2013-03-23 01:21:26 +0000

[diff] [blame]

150

report = AnalysisReport(self, data.pop('files'))

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

151

diagnostics = [AnalysisDiagnostic(d, report, h)

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

152

for d, h in zip(data.pop('diagnostics'), htmlFiles)]

Jordan Rose

2013-03-23 01:21:26 +0000

[diff] [blame]

assert not data

report.diagnostics.extend(diagnostics)

157

self.reports.append(report)

158

self.diagnostics.extend(diagnostics)

159

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

160

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

161

def loadResults(path, opts, root="", deleteEmpty=True):

162

"""

163

Backwards compatibility API.

164

"""

Anna Zaks

2012-10-15 22:48:21 +0000

[diff] [blame]

165

return loadResultsFromSingleRun(SingleRunInfo(path, root, opts.verboseLog),

166

deleteEmpty)

167

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

168

Anna Zaks

2012-10-15 22:48:21 +0000

[diff] [blame]

169

def loadResultsFromSingleRun(info, deleteEmpty=True):

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

170

"""

171

# Load results of the analyzes from a given output folder.

172

# - info is the SingleRunInfo object

173

# - deleteEmpty specifies if the empty plist files should be deleted

174

175

"""

Anna Zaks

2012-10-15 22:48:21 +0000

[diff] [blame]

176

path = info.path

177

run = AnalysisRun(info)

Jordan Rose

2013-03-23 01:21:26 +0000

[diff] [blame]

178

179

if os.path.isfile(path):

180

run.readSingleFile(path, deleteEmpty)

181

else:

182

for (dirpath, dirnames, filenames) in os.walk(path):

183

for f in filenames:

184

if (not f.endswith('plist')):

185

continue

186

p = os.path.join(dirpath, f)

187

run.readSingleFile(p, deleteEmpty)

188

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

189

return run

190

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

191

192

def cmpAnalysisDiagnostic(d):

Anna Zaks

2012-07-16 20:21:42 +0000

[diff] [blame]

193

return d.getIssueIdentifier()

Anna Zaks

d60367b

2012-06-08 01:50:49 +0000

[diff] [blame]

194

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

195

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

196

def compareResults(A, B):

197

"""

198

compareResults - Generate a relation from diagnostics in run A to

199

diagnostics in run B.

200

201

The result is the relation as a list of triples (a, b, confidence) where

202

each element {a,b} is None or an element from the respective run, and

203

confidence is a measure of the match quality (where 0 indicates equality,

204

and None is used if either element is None).

"""

res = []

# Quickly eliminate equal elements.

210

neqA = []

211

neqB = []

212

eltsA = list(A.diagnostics)

213

eltsB = list(B.diagnostics)

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

214

eltsA.sort(key=cmpAnalysisDiagnostic)

215

eltsB.sort(key=cmpAnalysisDiagnostic)

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

216

while eltsA and eltsB:

217

a = eltsA.pop()

218

b = eltsB.pop()

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

219

if (a.getIssueIdentifier() == b.getIssueIdentifier()):

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

220

res.append((a, b, 0))

Anna Zaks

2012-10-17 21:09:26 +0000

[diff] [blame]

221

elif a.getIssueIdentifier() > b.getIssueIdentifier():

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

222

eltsB.append(b)

Anna Zaks

2012-10-17 21:09:26 +0000

[diff] [blame]

223

neqA.append(a)

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

224

else:

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

225

eltsA.append(a)

Anna Zaks

2012-10-17 21:09:26 +0000

[diff] [blame]

226

neqB.append(b)

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

neqA.extend(eltsA)

neqB.extend(eltsB)

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

230

# FIXME: Add fuzzy matching. One simple and possible effective idea would

231

# be to bin the diagnostics, print them in a normalized form (based solely

232

# on the structure of the diagnostic), compute the diff, then use that as

233

# the basis for matching. This has the nice property that we don't depend

234

# in any way on the diagnostic format.

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

235

236

for a in neqA:

237

res.append((a, None, None))

238

for b in neqB:

239

res.append((None, b, None))

return res

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

243

Anna Zaks

2012-07-16 20:21:42 +0000

[diff] [blame]

244

def dumpScanBuildResultsDiff(dirA, dirB, opts, deleteEmpty=True):

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

245

# Load the run results.

Anna Zaks

2012-08-02 00:41:40 +0000

[diff] [blame]

246

resultsA = loadResults(dirA, opts, opts.rootA, deleteEmpty)

247

resultsB = loadResults(dirB, opts, opts.rootB, deleteEmpty)

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

248

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

249

# Open the verbose log, if given.

250

if opts.verboseLog:

251

auxLog = open(opts.verboseLog, "wb")

else:

auxLog = None

diff = compareResults(resultsA, resultsB)

Anna Zaks

2011-11-08 19:56:31 +0000

[diff] [blame]

256

foundDiffs = 0

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

257

for res in diff:

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

258

a, b, confidence = res

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

259

if a is None:

260

print "ADDED: %r" % b.getReadableName()

Anna Zaks

2011-11-08 19:56:31 +0000

[diff] [blame]

261

foundDiffs += 1

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

262

if auxLog:

263

print >>auxLog, ("('ADDED', %r, %r)" % (b.getReadableName(),

Anna Zaks

2012-07-16 20:21:42 +0000

[diff] [blame]

264

b.getReport()))

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

265

elif b is None:

266

print "REMOVED: %r" % a.getReadableName()

Anna Zaks

2011-11-08 19:56:31 +0000

[diff] [blame]

267

foundDiffs += 1

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

268

if auxLog:

269

print >>auxLog, ("('REMOVED', %r, %r)" % (a.getReadableName(),

Anna Zaks

2012-07-16 20:21:42 +0000

[diff] [blame]

270

a.getReport()))

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

271

elif confidence:

272

print "CHANGED: %r to %r" % (a.getReadableName(),

273

b.getReadableName())

Anna Zaks

2011-11-08 19:56:31 +0000

[diff] [blame]

274

foundDiffs += 1

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

275

if auxLog:

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

276

print >>auxLog, ("('CHANGED', %r, %r, %r, %r)"

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

277

% (a.getReadableName(),

278

b.getReadableName(),

Anna Zaks

2012-07-16 20:21:42 +0000

[diff] [blame]

279

a.getReport(),

280

b.getReport()))

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

else:

pass

Anna Zaks

2011-11-08 19:56:31 +0000

[diff] [blame]

284

TotalReports = len(resultsB.diagnostics)

285

print "TOTAL REPORTS: %r" % TotalReports

286

print "TOTAL DIFFERENCES: %r" % foundDiffs

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

287

if auxLog:

Anna Zaks

2011-11-08 19:56:31 +0000

[diff] [blame]

288

print >>auxLog, "('TOTAL NEW REPORTS', %r)" % TotalReports

289

print >>auxLog, "('TOTAL DIFFERENCES', %r)" % foundDiffs

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

290

Gabor Horvath

93fde94

2015-06-30 15:31:17 +0000

[diff] [blame]

291

return foundDiffs, len(resultsA.diagnostics), len(resultsB.diagnostics)

Anna Zaks

2011-09-12 21:32:41 +0000

[diff] [blame]

292

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

293

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

294

def main():

295

from optparse import OptionParser

296

parser = OptionParser("usage: %prog [options] [dir A] [dir B]")

Anna Zaks

2012-08-02 00:41:40 +0000

[diff] [blame]

297

parser.add_option("", "--rootA", dest="rootA",

298

help="Prefix to ignore on source files for directory A",

299

action="store", type=str, default="")

300

parser.add_option("", "--rootB", dest="rootB",

301

help="Prefix to ignore on source files for directory B",

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

302

action="store", type=str, default="")

303

parser.add_option("", "--verbose-log", dest="verboseLog",

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

304

help="Write additional information to LOG \

305

[default=None]",

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

306

action="store", type=str, default=None,

307

metavar="LOG")

308

(opts, args) = parser.parse_args()

309

310

if len(args) != 2:

311

parser.error("invalid number of arguments")

312

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

313

dirA, dirB = args

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

314

Ted Kremenek

2015-09-08 03:50:52 +0000

[diff] [blame]

315

dumpScanBuildResultsDiff(dirA, dirB, opts)

Daniel Dunbar

2009-08-06 21:15:33 +0000

[diff] [blame]

316

George Karpenkov

2017-10-02 17:59:12 +0000

[diff] [blame^]

317

Daniel Dunbar