Blame - tests/test_c_lexer.py - platform/external/python/pycparser

blob: f074c5913c40c48840590fda1b7a885dc9215ab1 [file] [log] [blame]

Eli Bendersky	3b1b08d	2012-06-15 12:37:54 +0300	[diff] [blame]	1	import re
				2	import sys
				3	import unittest
Eli Bendersky	3921e8e	2010-05-21 09:05:39 +0300	[diff] [blame]	4
Eli Bendersky	3b1b08d	2012-06-15 12:37:54 +0300	[diff] [blame]	5	sys.path.insert(0, '..')
				6	from pycparser.c_lexer import CLexer
				7
				8
				9	def token_list(clex):
				10	return list(iter(clex.token, None))
				11
				12
				13	def token_types(clex):
				14	return [i.type for i in token_list(clex)]
				15
				16
				17	class TestCLexerNoErrors(unittest.TestCase):
				18	""" Test lexing of strings that are not supposed to cause
				19	errors. Therefore, the error_func passed to the lexer
				20	raises an exception.
				21	"""
				22	def error_func(self, msg, line, column):
				23	self.fail(msg)
				24
				25	def type_lookup_func(self, typ):
				26	if typ.startswith('mytype'):
				27	return True
				28	else:
				29	return False
				30
				31	def setUp(self):
				32	self.clex = CLexer(self.error_func, self.type_lookup_func)
				33	self.clex.build(optimize=False)
				34
				35	def assertTokensTypes(self, str, types):
				36	self.clex.input(str)
				37	self.assertEqual(token_types(self.clex), types)
				38
				39	def test_trivial_tokens(self):
				40	self.assertTokensTypes('1', ['INT_CONST_DEC'])
				41	self.assertTokensTypes('-', ['MINUS'])
				42	self.assertTokensTypes('volatile', ['VOLATILE'])
				43	self.assertTokensTypes('...', ['ELLIPSIS'])
				44	self.assertTokensTypes('++', ['PLUSPLUS'])
				45	self.assertTokensTypes('case int', ['CASE', 'INT'])
				46	self.assertTokensTypes('caseint', ['ID'])
				47	self.assertTokensTypes('i ^= 1;', ['ID', 'XOREQUAL', 'INT_CONST_DEC', 'SEMI'])
Eli Bendersky	3921e8e	2010-05-21 09:05:39 +0300	[diff] [blame]	48
Eli Bendersky	3b1b08d	2012-06-15 12:37:54 +0300	[diff] [blame]	49	def test_id_typeid(self):
				50	self.assertTokensTypes('myt', ['ID'])
				51	self.assertTokensTypes('mytype', ['TYPEID'])
				52	self.assertTokensTypes('mytype6 var', ['TYPEID', 'ID'])
				53
				54	def test_integer_constants(self):
				55	self.assertTokensTypes('12', ['INT_CONST_DEC'])
				56	self.assertTokensTypes('12u', ['INT_CONST_DEC'])
				57	self.assertTokensTypes('199872Ul', ['INT_CONST_DEC'])
				58	self.assertTokensTypes('199872LL', ['INT_CONST_DEC'])
				59	self.assertTokensTypes('199872ull', ['INT_CONST_DEC'])
				60
				61	self.assertTokensTypes('077', ['INT_CONST_OCT'])
				62	self.assertTokensTypes('0123456L', ['INT_CONST_OCT'])
				63
				64	self.assertTokensTypes('0xf7', ['INT_CONST_HEX'])
				65	self.assertTokensTypes('0x01202AAbbf7Ul', ['INT_CONST_HEX'])
				66
				67	# no 0 before x, so ID catches it
				68	self.assertTokensTypes('xf7', ['ID'])
				69
				70	# - is MINUS, the rest a constnant
				71	self.assertTokensTypes('-1', ['MINUS', 'INT_CONST_DEC'])
				72
				73	def test_floating_constants(self):
				74	self.assertTokensTypes('1.5f', ['FLOAT_CONST'])
				75	self.assertTokensTypes('01.5', ['FLOAT_CONST'])
				76	self.assertTokensTypes('.15L', ['FLOAT_CONST'])
				77	self.assertTokensTypes('0.', ['FLOAT_CONST'])
				78
				79	# but just a period is a period
				80	self.assertTokensTypes('.', ['PERIOD'])
				81
				82	self.assertTokensTypes('3.3e-3', ['FLOAT_CONST'])
				83	self.assertTokensTypes('.7e25L', ['FLOAT_CONST'])
				84	self.assertTokensTypes('6.e+125f', ['FLOAT_CONST'])
				85	self.assertTokensTypes('666e666', ['FLOAT_CONST'])
				86	self.assertTokensTypes('00666e+3', ['FLOAT_CONST'])
				87
				88	# but this is a hex integer + 3
				89	self.assertTokensTypes('0x0666e+3', ['INT_CONST_HEX', 'PLUS', 'INT_CONST_DEC'])
				90
				91	def test_hexadecimal_floating_constants(self):
				92	self.assertTokensTypes('0xDE.488641p0', ['HEX_FLOAT_CONST'])
				93	self.assertTokensTypes('0x.488641p0', ['HEX_FLOAT_CONST'])
				94	self.assertTokensTypes('0X12.P0', ['HEX_FLOAT_CONST'])
				95
				96	def test_char_constants(self):
				97	self.assertTokensTypes(r"""'x'""", ['CHAR_CONST'])
				98	self.assertTokensTypes(r"""L'x'""", ['WCHAR_CONST'])
				99	self.assertTokensTypes(r"""'\t'""", ['CHAR_CONST'])
				100	self.assertTokensTypes(r"""'\''""", ['CHAR_CONST'])
				101	self.assertTokensTypes(r"""'\?'""", ['CHAR_CONST'])
				102	self.assertTokensTypes(r"""'\012'""", ['CHAR_CONST'])
				103	self.assertTokensTypes(r"""'\x2f'""", ['CHAR_CONST'])
				104	self.assertTokensTypes(r"""'\x2f12'""", ['CHAR_CONST'])
				105	self.assertTokensTypes(r"""L'\xaf'""", ['WCHAR_CONST'])
				106
				107	def test_string_literal(self):
				108	self.assertTokensTypes('"a string"', ['STRING_LITERAL'])
				109	self.assertTokensTypes('L"ing"', ['WSTRING_LITERAL'])
				110	self.assertTokensTypes(
				111	'"i am a string too \t"',
				112	['STRING_LITERAL'])
				113	self.assertTokensTypes(
				114	r'''"esc\ape \"\'\? \0234 chars \rule"''',
				115	['STRING_LITERAL'])
				116	self.assertTokensTypes(
				117	r'''"hello 'joe' wanna give it a \"go\"?"''',
				118	['STRING_LITERAL'])
				119
				120	def test_mess(self):
				121	self.assertTokensTypes(
				122	r'[{}]()',
				123	['LBRACKET',
				124	'LBRACE', 'RBRACE',
				125	'RBRACKET',
				126	'LPAREN', 'RPAREN'])
				127
				128	self.assertTokensTypes(
				129	r'()\|\|!C&~Z?J',
				130	['LPAREN', 'RPAREN',
				131	'LOR',
				132	'LNOT', 'ID',
				133	'AND',
				134	'NOT', 'ID',
				135	'CONDOP', 'ID'])
				136
				137	self.assertTokensTypes(
				138	r'+-*/%\|\|\|&&&^><>=<===!=',
				139	['PLUS', 'MINUS', 'TIMES', 'DIVIDE', 'MOD',
				140	'LOR', 'OR',
				141	'LAND', 'AND',
				142	'XOR',
				143	'GT', 'LT', 'GE', 'LE', 'EQ', 'NE'])
				144
				145	self.assertTokensTypes(
				146	r'++--->?.,;:',
				147	['PLUSPLUS', 'MINUSMINUS',
				148	'ARROW', 'CONDOP',
				149	'PERIOD', 'COMMA', 'SEMI', 'COLON'])
				150
				151	def test_exprs(self):
				152	self.assertTokensTypes(
				153	'bb-cc',
				154	['ID', 'MINUS', 'ID'])
				155
				156	self.assertTokensTypes(
				157	'foo & 0xFF',
				158	['ID', 'AND', 'INT_CONST_HEX'])
				159
				160	self.assertTokensTypes(
				161	'(2+k) * 62',
				162	['LPAREN', 'INT_CONST_DEC', 'PLUS', 'ID',
				163	'RPAREN', 'TIMES', 'INT_CONST_DEC'],)
				164
				165	self.assertTokensTypes(
				166	'x \| y >> z',
				167	['ID', 'OR', 'ID', 'RSHIFT', 'ID'])
				168
				169	self.assertTokensTypes(
				170	'x <<= z << 5',
				171	['ID', 'LSHIFTEQUAL', 'ID', 'LSHIFT', 'INT_CONST_DEC'])
				172
				173	self.assertTokensTypes(
				174	'x = y > 0 ? y : -6',
				175	['ID', 'EQUALS',
				176	'ID', 'GT', 'INT_CONST_OCT',
				177	'CONDOP',
				178	'ID',
				179	'COLON',
				180	'MINUS', 'INT_CONST_DEC'])
				181
				182	self.assertTokensTypes(
				183	'a+++b',
				184	['ID', 'PLUSPLUS', 'PLUS', 'ID'])
				185
				186	def test_statements(self):
				187	self.assertTokensTypes(
				188	'for (int i = 0; i < n; ++i)',
				189	['FOR', 'LPAREN',
				190	'INT', 'ID', 'EQUALS', 'INT_CONST_OCT', 'SEMI',
				191	'ID', 'LT', 'ID', 'SEMI',
				192	'PLUSPLUS', 'ID',
				193	'RPAREN'])
				194
				195	self.assertTokensTypes(
				196	'self: goto self;',
				197	['ID', 'COLON', 'GOTO', 'ID', 'SEMI'])
				198
				199	self.assertTokensTypes(
				200	""" switch (typ)
				201	{
				202	case TYPE_ID:
				203	m = 5;
				204	break;
				205	default:
				206	m = 8;
				207	}""",
				208	['SWITCH', 'LPAREN', 'ID', 'RPAREN',
				209	'LBRACE',
				210	'CASE', 'ID', 'COLON',
				211	'ID', 'EQUALS', 'INT_CONST_DEC', 'SEMI',
				212	'BREAK', 'SEMI',
				213	'DEFAULT', 'COLON',
				214	'ID', 'EQUALS', 'INT_CONST_DEC', 'SEMI',
				215	'RBRACE'])
				216
Eli Bendersky	0373cbe	2012-08-10 07:48:17 +0300	[diff] [blame^]	217	def test_preprocessor_line(self):
Eli Bendersky	3b1b08d	2012-06-15 12:37:54 +0300	[diff] [blame]	218	self.assertTokensTypes('#abracadabra', ['PPHASH', 'ID'])
				219
				220	str = r"""
				221	546
				222	#line 66 "kwas\df.h"
				223	id 4
				224	dsf
				225	# 9
				226	armo
				227	#line 10 "..\~..\test.h"
				228	tok1
				229	#line 99999 "include/me.h"
				230	tok2
				231	"""
				232
				233	#~ self.clex.filename
				234	self.clex.input(str)
				235	self.clex.reset_lineno()
				236
				237	t1 = self.clex.token()
				238	self.assertEqual(t1.type, 'INT_CONST_DEC')
				239	self.assertEqual(t1.lineno, 2)
				240
				241	t2 = self.clex.token()
				242	self.assertEqual(t2.type, 'ID')
				243	self.assertEqual(t2.value, 'id')
				244	self.assertEqual(t2.lineno, 66)
				245	self.assertEqual(self.clex.filename, r'kwas\df.h')
				246
				247	for i in range(3):
				248	t = self.clex.token()
				249
				250	self.assertEqual(t.type, 'ID')
				251	self.assertEqual(t.value, 'armo')
				252	self.assertEqual(t.lineno, 9)
				253	self.assertEqual(self.clex.filename, r'kwas\df.h')
				254
				255	t4 = self.clex.token()
				256	self.assertEqual(t4.type, 'ID')
				257	self.assertEqual(t4.value, 'tok1')
				258	self.assertEqual(t4.lineno, 10)
				259	self.assertEqual(self.clex.filename, r'..\~..\test.h')
				260
				261	t5 = self.clex.token()
				262	self.assertEqual(t5.type, 'ID')
				263	self.assertEqual(t5.value, 'tok2')
				264	self.assertEqual(t5.lineno, 99999)
				265	self.assertEqual(self.clex.filename, r'include/me.h')
Eli Bendersky	09fc200	2012-08-10 07:41:42 +0300	[diff] [blame]	266
Eli Bendersky	0373cbe	2012-08-10 07:48:17 +0300	[diff] [blame^]	267	def test_preprocessor_line_funny(self):
				268	str = r'''
				269	#line 10 "..\6\joe.h"
				270	10
				271	'''
				272	self.clex.input(str)
				273	self.clex.reset_lineno()
				274
				275	t1 = self.clex.token()
				276	self.assertEqual(t1.type, 'INT_CONST_DEC')
				277	self.assertEqual(t1.lineno, 10)
				278	self.assertEqual(self.clex.filename, r'..\6\joe.h')
				279
				280
Eli Bendersky	09fc200	2012-08-10 07:41:42 +0300	[diff] [blame]	281	def test_preprocessor_pragma(self):
				282	str = r'''
				283	42
				284	#pragma helo me
				285	#pragma once
				286	# pragma omp parallel private(th_id)
				287	#pragma {pack: 2, smack: 3}
				288	#pragma <includeme.h> "nowit.h"
				289	#pragma "string"
				290	#pragma id 124124 and numbers 0235495
				291	59
				292	'''
				293
				294	# Check that pragmas are ignored but the line number advances
				295	self.clex.input(str)
				296	self.clex.reset_lineno()
				297
				298	t1 = self.clex.token()
				299	self.assertEqual(t1.type, 'INT_CONST_DEC')
				300	t2 = self.clex.token()
				301	self.assertEqual(t2.type, 'INT_CONST_DEC')
				302	self.assertEqual(t2.lineno, 10)
				303
Eli Bendersky	3b1b08d	2012-06-15 12:37:54 +0300	[diff] [blame]	304
				305
				306	# Keeps all the errors the lexer spits in one place, to allow
				307	# easier modification if the error syntax changes.
				308	#
				309	ERR_ILLEGAL_CHAR = 'Illegal character'
				310	ERR_OCTAL = 'Invalid octal constant'
				311	ERR_UNMATCHED_QUOTE = 'Unmatched \''
				312	ERR_INVALID_CCONST = 'Invalid char constant'
				313	ERR_STRING_ESCAPE = 'String contains invalid escape'
				314
				315	ERR_FILENAME_BEFORE_LINE = 'filename before line'
				316	ERR_LINENUM_MISSING = 'line number missing'
				317	ERR_INVALID_LINE_DIRECTIVE = 'invalid #line directive'
				318
				319
				320	class TestCLexerErrors(unittest.TestCase):
				321	""" Test lexing of erroneous strings.
				322	Works by passing an error functions that saves the error
				323	in an attribute for later perusal.
				324	"""
				325	def error_func(self, msg, line, column):
				326	self.error = msg
				327
				328	def type_lookup_func(self, typ):
				329	return False
				330
				331	def setUp(self):
				332	self.clex = CLexer(self.error_func, self.type_lookup_func)
				333	self.clex.build(optimize=False)
				334	self.error = ""
				335
				336	def assertLexerError(self, str, error_like):
				337	# feed the string to the lexer
				338	self.clex.input(str)
				339
				340	# Pulls all tokens from the string. Errors will
				341	# be written into self.error by the error_func
				342	# callback
				343	#
				344	token_types(self.clex)
				345
				346	# compare the error to the expected
Eli Bendersky	09fc200	2012-08-10 07:41:42 +0300	[diff] [blame]	347	self.assertTrue(re.search(error_like, self.error),
Eli Bendersky	3b1b08d	2012-06-15 12:37:54 +0300	[diff] [blame]	348	"\nExpected error matching: %s\nGot: %s" %
				349	(error_like, self.error))
				350
				351	# clear last error, for the sake of subsequent invocations
				352	self.error = ""
				353
				354	def test_trivial_tokens(self):
				355	self.assertLexerError('@', ERR_ILLEGAL_CHAR)
				356	self.assertLexerError('$', ERR_ILLEGAL_CHAR)
				357	self.assertLexerError('`', ERR_ILLEGAL_CHAR)
				358	self.assertLexerError('\\', ERR_ILLEGAL_CHAR)
				359
				360	def test_integer_constants(self):
				361	self.assertLexerError('029', ERR_OCTAL)
				362	self.assertLexerError('012345678', ERR_OCTAL)
				363
				364	def test_char_constants(self):
				365	self.assertLexerError("'", ERR_UNMATCHED_QUOTE)
				366	self.assertLexerError("'b\n", ERR_UNMATCHED_QUOTE)
				367
				368	self.assertLexerError("'jx'", ERR_INVALID_CCONST)
				369	self.assertLexerError("'\*'", ERR_INVALID_CCONST)
				370	self.assertLexerError("'\9'", ERR_INVALID_CCONST)
				371	self.assertLexerError("L'\9'", ERR_INVALID_CCONST)
				372
				373	def test_string_literals(self):
				374	self.assertLexerError('"jx\9"', ERR_STRING_ESCAPE)
				375	self.assertLexerError('"hekllo\* on ix"', ERR_STRING_ESCAPE)
				376	self.assertLexerError('L"hekllo\* on ix"', ERR_STRING_ESCAPE)
				377
				378	def test_preprocessor(self):
				379	self.assertLexerError('#line "ka"', ERR_FILENAME_BEFORE_LINE)
				380	self.assertLexerError('#line df', ERR_INVALID_LINE_DIRECTIVE)
				381	self.assertLexerError('#line \n', ERR_LINENUM_MISSING)
				382
				383
				384	if __name__ == '__main__':
				385	unittest.main()
				386
				387