Blame - lib/AST/CommentLexer.cpp - fp2-dev/platform/external/clang

blob: e4441c13f75f1ace95f8b9ba7613e18574d6721d [file] [log] [blame]

Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	1	#include "clang/AST/CommentLexer.h"
Dmitri Gribenko	aa58081	2012-08-09 00:03:17 +0000	[diff] [blame]	2	#include "clang/AST/CommentCommandTraits.h"
Dmitri Gribenko	c934dfe	2013-01-19 22:06:05 +0000	[diff] [blame]	3	#include "llvm/ADT/StringExtras.h"
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	4	#include "llvm/ADT/StringSwitch.h"
Dmitri Gribenko	cb5620c	2013-01-30 12:06:08 +0000	[diff] [blame]	5	#include "llvm/Support/ConvertUTF.h"
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	6	#include "llvm/Support/ErrorHandling.h"
				7
				8	namespace clang {
				9	namespace comments {
				10
				11	void Token::dump(const Lexer &L, const SourceManager &SM) const {
				12	llvm::errs() << "comments::Token Kind=" << Kind << " ";
				13	Loc.dump(SM);
				14	llvm::errs() << " " << Length << " \"" << L.getSpelling(*this, SM) << "\"\n";
				15	}
				16
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	17	namespace {
				18	bool isHTMLNamedCharacterReferenceCharacter(char C) {
				19	return (C >= 'a' && C <= 'z') \|\|
				20	(C >= 'A' && C <= 'Z');
				21	}
				22
				23	bool isHTMLDecimalCharacterReferenceCharacter(char C) {
				24	return C >= '0' && C <= '9';
				25	}
				26
				27	bool isHTMLHexCharacterReferenceCharacter(char C) {
				28	return (C >= '0' && C <= '9') \|\|
				29	(C >= 'a' && C <= 'f') \|\|
				30	(C >= 'A' && C <= 'F');
				31	}
Dmitri Gribenko	834a5bd	2012-08-22 22:56:08 +0000	[diff] [blame]	32
Dmitri Gribenko	5bd1e5b	2013-01-30 14:29:28 +0000	[diff] [blame^]	33	StringRef convertCodePointToUTF8(llvm::BumpPtrAllocator &Allocator,
				34	unsigned CodePoint) {
Fariborz Jahanian	658a115	2013-01-29 23:42:26 +0000	[diff] [blame]	35	char *Resolved = Allocator.Allocate<char>(UNI_MAX_UTF8_BYTES_PER_CODE_POINT);
				36	char *ResolvedPtr = Resolved;
Dmitri Gribenko	cb5620c	2013-01-30 12:06:08 +0000	[diff] [blame]	37	if (llvm::ConvertCodePointToUTF8(CodePoint, ResolvedPtr))
Fariborz Jahanian	658a115	2013-01-29 23:42:26 +0000	[diff] [blame]	38	return StringRef(Resolved, ResolvedPtr - Resolved);
				39	else
				40	return StringRef();
				41	}
Dmitri Gribenko	5bd1e5b	2013-01-30 14:29:28 +0000	[diff] [blame^]	42
				43	#include "clang/AST/CommentHTMLTags.inc"
				44	#include "clang/AST/CommentHTMLNamedCharacterReferences.inc"
				45
				46	} // unnamed namespace
Fariborz Jahanian	658a115	2013-01-29 23:42:26 +0000	[diff] [blame]	47
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	48	StringRef Lexer::resolveHTMLNamedCharacterReference(StringRef Name) const {
Dmitri Gribenko	5bd1e5b	2013-01-30 14:29:28 +0000	[diff] [blame^]	49	// Fast path, first check a few most widely used named character references.
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	50	return llvm::StringSwitch<StringRef>(Name)
				51	.Case("amp", "&")
				52	.Case("lt", "<")
				53	.Case("gt", ">")
				54	.Case("quot", "\"")
				55	.Case("apos", "\'")
Dmitri Gribenko	5bd1e5b	2013-01-30 14:29:28 +0000	[diff] [blame^]	56	// Slow path.
				57	.Default(translateHTMLNamedCharacterReferenceToUTF8(Name));
Fariborz Jahanian	658a115	2013-01-29 23:42:26 +0000	[diff] [blame]	58	}
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	59
				60	StringRef Lexer::resolveHTMLDecimalCharacterReference(StringRef Name) const {
				61	unsigned CodePoint = 0;
				62	for (unsigned i = 0, e = Name.size(); i != e; ++i) {
				63	assert(isHTMLDecimalCharacterReferenceCharacter(Name[i]));
				64	CodePoint *= 10;
				65	CodePoint += Name[i] - '0';
				66	}
Dmitri Gribenko	5bd1e5b	2013-01-30 14:29:28 +0000	[diff] [blame^]	67	return convertCodePointToUTF8(Allocator, CodePoint);
				68	}
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	69
Dmitri Gribenko	5bd1e5b	2013-01-30 14:29:28 +0000	[diff] [blame^]	70	StringRef Lexer::resolveHTMLHexCharacterReference(StringRef Name) const {
				71	unsigned CodePoint = 0;
				72	for (unsigned i = 0, e = Name.size(); i != e; ++i) {
				73	CodePoint *= 16;
				74	const char C = Name[i];
				75	assert(isHTMLHexCharacterReferenceCharacter(C));
				76	CodePoint += llvm::hexDigitValue(C);
				77	}
				78	return convertCodePointToUTF8(Allocator, CodePoint);
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	79	}
				80
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	81	void Lexer::skipLineStartingDecorations() {
				82	// This function should be called only for C comments
				83	assert(CommentState == LCS_InsideCComment);
				84
				85	if (BufferPtr == CommentEnd)
				86	return;
				87
				88	switch (*BufferPtr) {
				89	case ' ':
				90	case '\t':
				91	case '\f':
				92	case '\v': {
				93	const char *NewBufferPtr = BufferPtr;
				94	NewBufferPtr++;
				95	if (NewBufferPtr == CommentEnd)
				96	return;
				97
				98	char C = *NewBufferPtr;
				99	while (C == ' ' \|\| C == '\t' \|\| C == '\f' \|\| C == '\v') {
				100	NewBufferPtr++;
				101	if (NewBufferPtr == CommentEnd)
				102	return;
				103	C = *NewBufferPtr;
				104	}
				105	if (C == '*')
				106	BufferPtr = NewBufferPtr + 1;
				107	break;
				108	}
				109	case '*':
				110	BufferPtr++;
				111	break;
				112	}
				113	}
				114
				115	namespace {
Dmitri Gribenko	8d3ba23	2012-07-06 00:28:32 +0000	[diff] [blame]	116	/// Returns pointer to the first newline character in the string.
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	117	const char findNewline(const char BufferPtr, const char *BufferEnd) {
				118	for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
				119	const char C = *BufferPtr;
				120	if (C == '\n' \|\| C == '\r')
				121	return BufferPtr;
				122	}
				123	return BufferEnd;
				124	}
				125
				126	const char skipNewline(const char BufferPtr, const char *BufferEnd) {
				127	if (BufferPtr == BufferEnd)
				128	return BufferPtr;
				129
				130	if (*BufferPtr == '\n')
				131	BufferPtr++;
				132	else {
				133	assert(*BufferPtr == '\r');
				134	BufferPtr++;
				135	if (BufferPtr != BufferEnd && *BufferPtr == '\n')
				136	BufferPtr++;
				137	}
				138	return BufferPtr;
				139	}
				140
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	141	const char skipNamedCharacterReference(const char BufferPtr,
				142	const char *BufferEnd) {
				143	for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
				144	if (!isHTMLNamedCharacterReferenceCharacter(*BufferPtr))
				145	return BufferPtr;
				146	}
				147	return BufferEnd;
				148	}
				149
				150	const char skipDecimalCharacterReference(const char BufferPtr,
				151	const char *BufferEnd) {
				152	for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
				153	if (!isHTMLDecimalCharacterReferenceCharacter(*BufferPtr))
				154	return BufferPtr;
				155	}
				156	return BufferEnd;
				157	}
				158
				159	const char skipHexCharacterReference(const char BufferPtr,
				160	const char *BufferEnd) {
				161	for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
				162	if (!isHTMLHexCharacterReferenceCharacter(*BufferPtr))
				163	return BufferPtr;
				164	}
				165	return BufferEnd;
				166	}
				167
Dmitri Gribenko	a99ec10	2012-07-09 21:32:40 +0000	[diff] [blame]	168	bool isHTMLIdentifierStartingCharacter(char C) {
				169	return (C >= 'a' && C <= 'z') \|\|
				170	(C >= 'A' && C <= 'Z');
				171	}
				172
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	173	bool isHTMLIdentifierCharacter(char C) {
				174	return (C >= 'a' && C <= 'z') \|\|
				175	(C >= 'A' && C <= 'Z') \|\|
				176	(C >= '0' && C <= '9');
				177	}
				178
				179	const char skipHTMLIdentifier(const char BufferPtr, const char *BufferEnd) {
				180	for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
				181	if (!isHTMLIdentifierCharacter(*BufferPtr))
				182	return BufferPtr;
				183	}
				184	return BufferEnd;
				185	}
				186
				187	/// Skip HTML string quoted in single or double quotes. Escaping quotes inside
				188	/// string allowed.
				189	///
				190	/// Returns pointer to closing quote.
				191	const char skipHTMLQuotedString(const char BufferPtr, const char *BufferEnd)
				192	{
				193	const char Quote = *BufferPtr;
				194	assert(Quote == '\"' \|\| Quote == '\'');
				195
				196	BufferPtr++;
				197	for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
				198	const char C = *BufferPtr;
				199	if (C == Quote && BufferPtr[-1] != '\\')
				200	return BufferPtr;
				201	}
				202	return BufferEnd;
				203	}
				204
				205	bool isHorizontalWhitespace(char C) {
				206	return C == ' ' \|\| C == '\t' \|\| C == '\f' \|\| C == '\v';
				207	}
				208
				209	bool isWhitespace(char C) {
				210	return C == ' ' \|\| C == '\n' \|\| C == '\r' \|\|
				211	C == '\t' \|\| C == '\f' \|\| C == '\v';
				212	}
				213
				214	const char skipWhitespace(const char BufferPtr, const char *BufferEnd) {
				215	for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
				216	if (!isWhitespace(*BufferPtr))
				217	return BufferPtr;
				218	}
				219	return BufferEnd;
				220	}
				221
Dmitri Gribenko	64da4e5	2012-07-18 23:01:58 +0000	[diff] [blame]	222	bool isWhitespace(const char BufferPtr, const char BufferEnd) {
				223	return skipWhitespace(BufferPtr, BufferEnd) == BufferEnd;
				224	}
				225
Dmitri Gribenko	8c05da3	2012-09-14 16:35:35 +0000	[diff] [blame]	226	bool isCommandNameStartCharacter(char C) {
				227	return (C >= 'a' && C <= 'z') \|\|
				228	(C >= 'A' && C <= 'Z');
				229	}
				230
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	231	bool isCommandNameCharacter(char C) {
				232	return (C >= 'a' && C <= 'z') \|\|
				233	(C >= 'A' && C <= 'Z') \|\|
				234	(C >= '0' && C <= '9');
				235	}
				236
				237	const char skipCommandName(const char BufferPtr, const char *BufferEnd) {
				238	for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
				239	if (!isCommandNameCharacter(*BufferPtr))
				240	return BufferPtr;
				241	}
				242	return BufferEnd;
				243	}
				244
				245	/// Return the one past end pointer for BCPL comments.
				246	/// Handles newlines escaped with backslash or trigraph for backslahs.
				247	const char findBCPLCommentEnd(const char BufferPtr, const char *BufferEnd) {
				248	const char *CurPtr = BufferPtr;
				249	while (CurPtr != BufferEnd) {
				250	char C = *CurPtr;
				251	while (C != '\n' && C != '\r') {
				252	CurPtr++;
				253	if (CurPtr == BufferEnd)
				254	return BufferEnd;
				255	C = *CurPtr;
				256	}
				257	// We found a newline, check if it is escaped.
				258	const char *EscapePtr = CurPtr - 1;
				259	while(isHorizontalWhitespace(*EscapePtr))
				260	EscapePtr--;
				261
				262	if (*EscapePtr == '\\' \|\|
				263	(EscapePtr - 2 >= BufferPtr && EscapePtr[0] == '/' &&
				264	EscapePtr[-1] == '?' && EscapePtr[-2] == '?')) {
				265	// We found an escaped newline.
				266	CurPtr = skipNewline(CurPtr, BufferEnd);
				267	} else
				268	return CurPtr; // Not an escaped newline.
				269	}
				270	return BufferEnd;
				271	}
				272
				273	/// Return the one past end pointer for C comments.
				274	/// Very dumb, does not handle escaped newlines or trigraphs.
				275	const char findCCommentEnd(const char BufferPtr, const char *BufferEnd) {
				276	for ( ; BufferPtr != BufferEnd; ++BufferPtr) {
				277	if (BufferPtr == '') {
				278	assert(BufferPtr + 1 != BufferEnd);
				279	if (*(BufferPtr + 1) == '/')
				280	return BufferPtr;
				281	}
				282	}
				283	llvm_unreachable("buffer end hit before '*/' was seen");
				284	}
				285	} // unnamed namespace
				286
				287	void Lexer::lexCommentText(Token &T) {
				288	assert(CommentState == LCS_InsideBCPLComment \|\|
				289	CommentState == LCS_InsideCComment);
				290
				291	switch (State) {
				292	case LS_Normal:
				293	break;
				294	case LS_VerbatimBlockFirstLine:
				295	lexVerbatimBlockFirstLine(T);
				296	return;
				297	case LS_VerbatimBlockBody:
				298	lexVerbatimBlockBody(T);
				299	return;
Dmitri Gribenko	962668d	2012-06-27 16:53:58 +0000	[diff] [blame]	300	case LS_VerbatimLineText:
				301	lexVerbatimLineText(T);
				302	return;
Dmitri Gribenko	3f38bf2	2012-07-13 00:44:24 +0000	[diff] [blame]	303	case LS_HTMLStartTag:
				304	lexHTMLStartTag(T);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	305	return;
Dmitri Gribenko	3f38bf2	2012-07-13 00:44:24 +0000	[diff] [blame]	306	case LS_HTMLEndTag:
				307	lexHTMLEndTag(T);
Dmitri Gribenko	8d3ba23	2012-07-06 00:28:32 +0000	[diff] [blame]	308	return;
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	309	}
				310
				311	assert(State == LS_Normal);
				312
				313	const char *TokenPtr = BufferPtr;
				314	assert(TokenPtr < CommentEnd);
				315	while (TokenPtr != CommentEnd) {
				316	switch(*TokenPtr) {
				317	case '\\':
				318	case '@': {
				319	TokenPtr++;
				320	if (TokenPtr == CommentEnd) {
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	321	formTextToken(T, TokenPtr);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	322	return;
				323	}
				324	char C = *TokenPtr;
				325	switch (C) {
				326	default:
				327	break;
				328
				329	case '\\': case '@': case '&': case '$':
				330	case '#': case '<': case '>': case '%':
				331	case '\"': case '.': case ':':
				332	// This is one of \\ \@ \& \$ etc escape sequences.
				333	TokenPtr++;
				334	if (C == ':' && TokenPtr != CommentEnd && *TokenPtr == ':') {
				335	// This is the \:: escape sequence.
				336	TokenPtr++;
				337	}
Dmitri Gribenko	f5e0aea	2012-06-27 16:30:35 +0000	[diff] [blame]	338	StringRef UnescapedText(BufferPtr + 1, TokenPtr - (BufferPtr + 1));
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	339	formTokenWithChars(T, TokenPtr, tok::text);
Dmitri Gribenko	f5e0aea	2012-06-27 16:30:35 +0000	[diff] [blame]	340	T.setText(UnescapedText);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	341	return;
				342	}
				343
				344	// Don't make zero-length commands.
Dmitri Gribenko	8c05da3	2012-09-14 16:35:35 +0000	[diff] [blame]	345	if (!isCommandNameStartCharacter(*TokenPtr)) {
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	346	formTextToken(T, TokenPtr);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	347	return;
				348	}
				349
				350	TokenPtr = skipCommandName(TokenPtr, CommentEnd);
				351	unsigned Length = TokenPtr - (BufferPtr + 1);
				352
				353	// Hardcoded support for lexing LaTeX formula commands
				354	// \f$ \f[ \f] \f{ \f} as a single command.
				355	if (Length == 1 && TokenPtr[-1] == 'f' && TokenPtr != CommentEnd) {
				356	C = *TokenPtr;
				357	if (C == '$' \|\| C == '[' \|\| C == ']' \|\| C == '{' \|\| C == '}') {
				358	TokenPtr++;
				359	Length++;
				360	}
				361	}
				362
				363	const StringRef CommandName(BufferPtr + 1, Length);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	364
Dmitri Gribenko	e4330a3	2012-09-10 20:32:42 +0000	[diff] [blame]	365	const CommandInfo *Info = Traits.getCommandInfoOrNULL(CommandName);
				366	if (!Info) {
				367	formTokenWithChars(T, TokenPtr, tok::unknown_command);
				368	T.setUnknownCommandName(CommandName);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	369	return;
				370	}
Dmitri Gribenko	e4330a3	2012-09-10 20:32:42 +0000	[diff] [blame]	371	if (Info->IsVerbatimBlockCommand) {
				372	setupAndLexVerbatimBlock(T, TokenPtr, *BufferPtr, Info);
				373	return;
				374	}
				375	if (Info->IsVerbatimLineCommand) {
				376	setupAndLexVerbatimLine(T, TokenPtr, Info);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	377	return;
				378	}
				379	formTokenWithChars(T, TokenPtr, tok::command);
Dmitri Gribenko	e4330a3	2012-09-10 20:32:42 +0000	[diff] [blame]	380	T.setCommandID(Info->getID());
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	381	return;
				382	}
				383
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	384	case '&':
				385	lexHTMLCharacterReference(T);
				386	return;
				387
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	388	case '<': {
				389	TokenPtr++;
				390	if (TokenPtr == CommentEnd) {
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	391	formTextToken(T, TokenPtr);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	392	return;
				393	}
				394	const char C = *TokenPtr;
Dmitri Gribenko	a99ec10	2012-07-09 21:32:40 +0000	[diff] [blame]	395	if (isHTMLIdentifierStartingCharacter(C))
Dmitri Gribenko	3f38bf2	2012-07-13 00:44:24 +0000	[diff] [blame]	396	setupAndLexHTMLStartTag(T);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	397	else if (C == '/')
Dmitri Gribenko	3f38bf2	2012-07-13 00:44:24 +0000	[diff] [blame]	398	setupAndLexHTMLEndTag(T);
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	399	else
				400	formTextToken(T, TokenPtr);
				401
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	402	return;
				403	}
				404
				405	case '\n':
				406	case '\r':
				407	TokenPtr = skipNewline(TokenPtr, CommentEnd);
				408	formTokenWithChars(T, TokenPtr, tok::newline);
				409
				410	if (CommentState == LCS_InsideCComment)
				411	skipLineStartingDecorations();
				412	return;
				413
				414	default: {
Dmitri Gribenko	aa7dbaf	2012-12-30 19:45:46 +0000	[diff] [blame]	415	size_t End = StringRef(TokenPtr, CommentEnd - TokenPtr).
				416	find_first_of("\n\r\\@&<");
				417	if (End != StringRef::npos)
				418	TokenPtr += End;
				419	else
				420	TokenPtr = CommentEnd;
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	421	formTextToken(T, TokenPtr);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	422	return;
				423	}
				424	}
				425	}
				426	}
				427
				428	void Lexer::setupAndLexVerbatimBlock(Token &T,
				429	const char *TextBegin,
Dmitri Gribenko	e4330a3	2012-09-10 20:32:42 +0000	[diff] [blame]	430	char Marker, const CommandInfo *Info) {
				431	assert(Info->IsVerbatimBlockCommand);
				432
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	433	VerbatimBlockEndCommandName.clear();
				434	VerbatimBlockEndCommandName.append(Marker == '\\' ? "\\" : "@");
Dmitri Gribenko	e4330a3	2012-09-10 20:32:42 +0000	[diff] [blame]	435	VerbatimBlockEndCommandName.append(Info->EndCommandName);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	436
				437	formTokenWithChars(T, TextBegin, tok::verbatim_block_begin);
Dmitri Gribenko	e4330a3	2012-09-10 20:32:42 +0000	[diff] [blame]	438	T.setVerbatimBlockID(Info->getID());
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	439
Dmitri Gribenko	8d3ba23	2012-07-06 00:28:32 +0000	[diff] [blame]	440	// If there is a newline following the verbatim opening command, skip the
				441	// newline so that we don't create an tok::verbatim_block_line with empty
				442	// text content.
				443	if (BufferPtr != CommentEnd) {
				444	const char C = *BufferPtr;
				445	if (C == '\n' \|\| C == '\r') {
				446	BufferPtr = skipNewline(BufferPtr, CommentEnd);
				447	State = LS_VerbatimBlockBody;
				448	return;
				449	}
				450	}
				451
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	452	State = LS_VerbatimBlockFirstLine;
				453	}
				454
				455	void Lexer::lexVerbatimBlockFirstLine(Token &T) {
Dmitri Gribenko	64da4e5	2012-07-18 23:01:58 +0000	[diff] [blame]	456	again:
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	457	assert(BufferPtr < CommentEnd);
				458
				459	// FIXME: It would be better to scan the text once, finding either the block
				460	// end command or newline.
				461	//
				462	// Extract current line.
				463	const char *Newline = findNewline(BufferPtr, CommentEnd);
				464	StringRef Line(BufferPtr, Newline - BufferPtr);
				465
				466	// Look for end command in current line.
				467	size_t Pos = Line.find(VerbatimBlockEndCommandName);
Dmitri Gribenko	8d3ba23	2012-07-06 00:28:32 +0000	[diff] [blame]	468	const char *TextEnd;
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	469	const char *NextLine;
				470	if (Pos == StringRef::npos) {
				471	// Current line is completely verbatim.
Dmitri Gribenko	8d3ba23	2012-07-06 00:28:32 +0000	[diff] [blame]	472	TextEnd = Newline;
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	473	NextLine = skipNewline(Newline, CommentEnd);
				474	} else if (Pos == 0) {
				475	// Current line contains just an end command.
				476	const char *End = BufferPtr + VerbatimBlockEndCommandName.size();
Dmitri Gribenko	f5e0aea	2012-06-27 16:30:35 +0000	[diff] [blame]	477	StringRef Name(BufferPtr + 1, End - (BufferPtr + 1));
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	478	formTokenWithChars(T, End, tok::verbatim_block_end);
Dmitri Gribenko	e4330a3	2012-09-10 20:32:42 +0000	[diff] [blame]	479	T.setVerbatimBlockID(Traits.getCommandInfo(Name)->getID());
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	480	State = LS_Normal;
				481	return;
				482	} else {
				483	// There is some text, followed by end command. Extract text first.
Dmitri Gribenko	8d3ba23	2012-07-06 00:28:32 +0000	[diff] [blame]	484	TextEnd = BufferPtr + Pos;
				485	NextLine = TextEnd;
Dmitri Gribenko	64da4e5	2012-07-18 23:01:58 +0000	[diff] [blame]	486	// If there is only whitespace before end command, skip whitespace.
				487	if (isWhitespace(BufferPtr, TextEnd)) {
				488	BufferPtr = TextEnd;
				489	goto again;
				490	}
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	491	}
				492
Dmitri Gribenko	8d3ba23	2012-07-06 00:28:32 +0000	[diff] [blame]	493	StringRef Text(BufferPtr, TextEnd - BufferPtr);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	494	formTokenWithChars(T, NextLine, tok::verbatim_block_line);
Dmitri Gribenko	f5e0aea	2012-06-27 16:30:35 +0000	[diff] [blame]	495	T.setVerbatimBlockText(Text);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	496
				497	State = LS_VerbatimBlockBody;
				498	}
				499
				500	void Lexer::lexVerbatimBlockBody(Token &T) {
				501	assert(State == LS_VerbatimBlockBody);
				502
				503	if (CommentState == LCS_InsideCComment)
				504	skipLineStartingDecorations();
				505
				506	lexVerbatimBlockFirstLine(T);
				507	}
				508
Dmitri Gribenko	e4330a3	2012-09-10 20:32:42 +0000	[diff] [blame]	509	void Lexer::setupAndLexVerbatimLine(Token &T, const char *TextBegin,
				510	const CommandInfo *Info) {
				511	assert(Info->IsVerbatimLineCommand);
Dmitri Gribenko	962668d	2012-06-27 16:53:58 +0000	[diff] [blame]	512	formTokenWithChars(T, TextBegin, tok::verbatim_line_name);
Dmitri Gribenko	e4330a3	2012-09-10 20:32:42 +0000	[diff] [blame]	513	T.setVerbatimLineID(Info->getID());
Dmitri Gribenko	962668d	2012-06-27 16:53:58 +0000	[diff] [blame]	514
				515	State = LS_VerbatimLineText;
				516	}
				517
				518	void Lexer::lexVerbatimLineText(Token &T) {
				519	assert(State == LS_VerbatimLineText);
				520
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	521	// Extract current line.
				522	const char *Newline = findNewline(BufferPtr, CommentEnd);
Dmitri Gribenko	962668d	2012-06-27 16:53:58 +0000	[diff] [blame]	523	const StringRef Text(BufferPtr, Newline - BufferPtr);
				524	formTokenWithChars(T, Newline, tok::verbatim_line_text);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	525	T.setVerbatimLineText(Text);
Dmitri Gribenko	962668d	2012-06-27 16:53:58 +0000	[diff] [blame]	526
				527	State = LS_Normal;
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	528	}
				529
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	530	void Lexer::lexHTMLCharacterReference(Token &T) {
				531	const char *TokenPtr = BufferPtr;
				532	assert(*TokenPtr == '&');
				533	TokenPtr++;
				534	if (TokenPtr == CommentEnd) {
				535	formTextToken(T, TokenPtr);
				536	return;
				537	}
				538	const char *NamePtr;
				539	bool isNamed = false;
				540	bool isDecimal = false;
				541	char C = *TokenPtr;
				542	if (isHTMLNamedCharacterReferenceCharacter(C)) {
				543	NamePtr = TokenPtr;
				544	TokenPtr = skipNamedCharacterReference(TokenPtr, CommentEnd);
				545	isNamed = true;
				546	} else if (C == '#') {
				547	TokenPtr++;
				548	if (TokenPtr == CommentEnd) {
				549	formTextToken(T, TokenPtr);
				550	return;
				551	}
				552	C = *TokenPtr;
				553	if (isHTMLDecimalCharacterReferenceCharacter(C)) {
				554	NamePtr = TokenPtr;
				555	TokenPtr = skipDecimalCharacterReference(TokenPtr, CommentEnd);
				556	isDecimal = true;
				557	} else if (C == 'x' \|\| C == 'X') {
				558	TokenPtr++;
				559	NamePtr = TokenPtr;
				560	TokenPtr = skipHexCharacterReference(TokenPtr, CommentEnd);
				561	} else {
				562	formTextToken(T, TokenPtr);
				563	return;
				564	}
				565	} else {
				566	formTextToken(T, TokenPtr);
				567	return;
				568	}
				569	if (NamePtr == TokenPtr \|\| TokenPtr == CommentEnd \|\|
				570	*TokenPtr != ';') {
				571	formTextToken(T, TokenPtr);
				572	return;
				573	}
				574	StringRef Name(NamePtr, TokenPtr - NamePtr);
				575	TokenPtr++; // Skip semicolon.
				576	StringRef Resolved;
Dmitri Gribenko	5bd1e5b	2013-01-30 14:29:28 +0000	[diff] [blame^]	577	if (isNamed)
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	578	Resolved = resolveHTMLNamedCharacterReference(Name);
				579	else if (isDecimal)
				580	Resolved = resolveHTMLDecimalCharacterReference(Name);
				581	else
				582	Resolved = resolveHTMLHexCharacterReference(Name);
				583
				584	if (Resolved.empty()) {
				585	formTextToken(T, TokenPtr);
				586	return;
				587	}
				588	formTokenWithChars(T, TokenPtr, tok::text);
				589	T.setText(Resolved);
				590	return;
				591	}
				592
Dmitri Gribenko	3f38bf2	2012-07-13 00:44:24 +0000	[diff] [blame]	593	void Lexer::setupAndLexHTMLStartTag(Token &T) {
Dmitri Gribenko	a99ec10	2012-07-09 21:32:40 +0000	[diff] [blame]	594	assert(BufferPtr[0] == '<' &&
				595	isHTMLIdentifierStartingCharacter(BufferPtr[1]));
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	596	const char *TagNameEnd = skipHTMLIdentifier(BufferPtr + 2, CommentEnd);
Dmitri Gribenko	f5e0aea	2012-06-27 16:30:35 +0000	[diff] [blame]	597	StringRef Name(BufferPtr + 1, TagNameEnd - (BufferPtr + 1));
Dmitri Gribenko	834a5bd	2012-08-22 22:56:08 +0000	[diff] [blame]	598	if (!isHTMLTagName(Name)) {
				599	formTextToken(T, TagNameEnd);
				600	return;
				601	}
				602
Dmitri Gribenko	3f38bf2	2012-07-13 00:44:24 +0000	[diff] [blame]	603	formTokenWithChars(T, TagNameEnd, tok::html_start_tag);
				604	T.setHTMLTagStartName(Name);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	605
				606	BufferPtr = skipWhitespace(BufferPtr, CommentEnd);
				607
Dmitri Gribenko	a99ec10	2012-07-09 21:32:40 +0000	[diff] [blame]	608	const char C = *BufferPtr;
				609	if (BufferPtr != CommentEnd &&
Dmitri Gribenko	a5ef44f	2012-07-11 21:38:39 +0000	[diff] [blame]	610	(C == '>' \|\| C == '/' \|\| isHTMLIdentifierStartingCharacter(C)))
Dmitri Gribenko	3f38bf2	2012-07-13 00:44:24 +0000	[diff] [blame]	611	State = LS_HTMLStartTag;
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	612	}
				613
Dmitri Gribenko	3f38bf2	2012-07-13 00:44:24 +0000	[diff] [blame]	614	void Lexer::lexHTMLStartTag(Token &T) {
				615	assert(State == LS_HTMLStartTag);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	616
				617	const char *TokenPtr = BufferPtr;
				618	char C = *TokenPtr;
				619	if (isHTMLIdentifierCharacter(C)) {
				620	TokenPtr = skipHTMLIdentifier(TokenPtr, CommentEnd);
Dmitri Gribenko	f5e0aea	2012-06-27 16:30:35 +0000	[diff] [blame]	621	StringRef Ident(BufferPtr, TokenPtr - BufferPtr);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	622	formTokenWithChars(T, TokenPtr, tok::html_ident);
Dmitri Gribenko	f5e0aea	2012-06-27 16:30:35 +0000	[diff] [blame]	623	T.setHTMLIdent(Ident);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	624	} else {
				625	switch (C) {
				626	case '=':
				627	TokenPtr++;
				628	formTokenWithChars(T, TokenPtr, tok::html_equals);
				629	break;
				630	case '\"':
				631	case '\'': {
				632	const char *OpenQuote = TokenPtr;
				633	TokenPtr = skipHTMLQuotedString(TokenPtr, CommentEnd);
				634	const char *ClosingQuote = TokenPtr;
				635	if (TokenPtr != CommentEnd) // Skip closing quote.
				636	TokenPtr++;
				637	formTokenWithChars(T, TokenPtr, tok::html_quoted_string);
				638	T.setHTMLQuotedString(StringRef(OpenQuote + 1,
				639	ClosingQuote - (OpenQuote + 1)));
				640	break;
				641	}
				642	case '>':
				643	TokenPtr++;
				644	formTokenWithChars(T, TokenPtr, tok::html_greater);
Dmitri Gribenko	a99ec10	2012-07-09 21:32:40 +0000	[diff] [blame]	645	State = LS_Normal;
				646	return;
Dmitri Gribenko	a5ef44f	2012-07-11 21:38:39 +0000	[diff] [blame]	647	case '/':
				648	TokenPtr++;
				649	if (TokenPtr != CommentEnd && *TokenPtr == '>') {
				650	TokenPtr++;
				651	formTokenWithChars(T, TokenPtr, tok::html_slash_greater);
Dmitri Gribenko	477a9f5	2012-07-27 20:37:06 +0000	[diff] [blame]	652	} else
				653	formTextToken(T, TokenPtr);
				654
Dmitri Gribenko	a5ef44f	2012-07-11 21:38:39 +0000	[diff] [blame]	655	State = LS_Normal;
				656	return;
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	657	}
				658	}
				659
				660	// Now look ahead and return to normal state if we don't see any HTML tokens
				661	// ahead.
				662	BufferPtr = skipWhitespace(BufferPtr, CommentEnd);
				663	if (BufferPtr == CommentEnd) {
				664	State = LS_Normal;
				665	return;
				666	}
				667
				668	C = *BufferPtr;
Dmitri Gribenko	a99ec10	2012-07-09 21:32:40 +0000	[diff] [blame]	669	if (!isHTMLIdentifierStartingCharacter(C) &&
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	670	C != '=' && C != '\"' && C != '\'' && C != '>') {
				671	State = LS_Normal;
				672	return;
				673	}
				674	}
				675
Dmitri Gribenko	3f38bf2	2012-07-13 00:44:24 +0000	[diff] [blame]	676	void Lexer::setupAndLexHTMLEndTag(Token &T) {
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	677	assert(BufferPtr[0] == '<' && BufferPtr[1] == '/');
				678
				679	const char *TagNameBegin = skipWhitespace(BufferPtr + 2, CommentEnd);
				680	const char *TagNameEnd = skipHTMLIdentifier(TagNameBegin, CommentEnd);
Dmitri Gribenko	834a5bd	2012-08-22 22:56:08 +0000	[diff] [blame]	681	StringRef Name(TagNameBegin, TagNameEnd - TagNameBegin);
				682	if (!isHTMLTagName(Name)) {
				683	formTextToken(T, TagNameEnd);
				684	return;
				685	}
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	686
				687	const char *End = skipWhitespace(TagNameEnd, CommentEnd);
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	688
Dmitri Gribenko	3f38bf2	2012-07-13 00:44:24 +0000	[diff] [blame]	689	formTokenWithChars(T, End, tok::html_end_tag);
Dmitri Gribenko	834a5bd	2012-08-22 22:56:08 +0000	[diff] [blame]	690	T.setHTMLTagEndName(Name);
Dmitri Gribenko	8d3ba23	2012-07-06 00:28:32 +0000	[diff] [blame]	691
				692	if (BufferPtr != CommentEnd && *BufferPtr == '>')
Dmitri Gribenko	3f38bf2	2012-07-13 00:44:24 +0000	[diff] [blame]	693	State = LS_HTMLEndTag;
Dmitri Gribenko	8d3ba23	2012-07-06 00:28:32 +0000	[diff] [blame]	694	}
				695
Dmitri Gribenko	3f38bf2	2012-07-13 00:44:24 +0000	[diff] [blame]	696	void Lexer::lexHTMLEndTag(Token &T) {
Dmitri Gribenko	8d3ba23	2012-07-06 00:28:32 +0000	[diff] [blame]	697	assert(BufferPtr != CommentEnd && *BufferPtr == '>');
				698
				699	formTokenWithChars(T, BufferPtr + 1, tok::html_greater);
				700	State = LS_Normal;
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	701	}
				702
Dmitri Gribenko	aa58081	2012-08-09 00:03:17 +0000	[diff] [blame]	703	Lexer::Lexer(llvm::BumpPtrAllocator &Allocator, const CommandTraits &Traits,
Dmitri Gribenko	af503a6	2012-08-31 10:35:30 +0000	[diff] [blame]	704	SourceLocation FileLoc,
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	705	const char BufferStart, const char BufferEnd):
Dmitri Gribenko	aa58081	2012-08-09 00:03:17 +0000	[diff] [blame]	706	Allocator(Allocator), Traits(Traits),
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	707	BufferStart(BufferStart), BufferEnd(BufferEnd),
Dmitri Gribenko	af503a6	2012-08-31 10:35:30 +0000	[diff] [blame]	708	FileLoc(FileLoc), BufferPtr(BufferStart),
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	709	CommentState(LCS_BeforeComment), State(LS_Normal) {
				710	}
				711
				712	void Lexer::lex(Token &T) {
				713	again:
				714	switch (CommentState) {
				715	case LCS_BeforeComment:
				716	if (BufferPtr == BufferEnd) {
				717	formTokenWithChars(T, BufferPtr, tok::eof);
				718	return;
				719	}
				720
				721	assert(*BufferPtr == '/');
				722	BufferPtr++; // Skip first slash.
				723	switch(*BufferPtr) {
				724	case '/': { // BCPL comment.
				725	BufferPtr++; // Skip second slash.
				726
				727	if (BufferPtr != BufferEnd) {
				728	// Skip Doxygen magic marker, if it is present.
				729	// It might be missing because of a typo //< or /*<, or because we
				730	// merged this non-Doxygen comment into a bunch of Doxygen comments
				731	// around it: /** ... / / ... / /* ... */
				732	const char C = *BufferPtr;
				733	if (C == '/' \|\| C == '!')
				734	BufferPtr++;
				735	}
				736
				737	// Skip less-than symbol that marks trailing comments.
				738	// Skip it even if the comment is not a Doxygen one, because //< and /*<
				739	// are frequent typos.
				740	if (BufferPtr != BufferEnd && *BufferPtr == '<')
				741	BufferPtr++;
				742
				743	CommentState = LCS_InsideBCPLComment;
Dmitri Gribenko	8d3ba23	2012-07-06 00:28:32 +0000	[diff] [blame]	744	if (State != LS_VerbatimBlockBody && State != LS_VerbatimBlockFirstLine)
				745	State = LS_Normal;
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	746	CommentEnd = findBCPLCommentEnd(BufferPtr, BufferEnd);
				747	goto again;
				748	}
				749	case '*': { // C comment.
				750	BufferPtr++; // Skip star.
				751
				752	// Skip Doxygen magic marker.
				753	const char C = *BufferPtr;
				754	if ((C == '' && (BufferPtr + 1) != '/') \|\| C == '!')
				755	BufferPtr++;
				756
				757	// Skip less-than symbol that marks trailing comments.
				758	if (BufferPtr != BufferEnd && *BufferPtr == '<')
				759	BufferPtr++;
				760
				761	CommentState = LCS_InsideCComment;
				762	State = LS_Normal;
				763	CommentEnd = findCCommentEnd(BufferPtr, BufferEnd);
				764	goto again;
				765	}
				766	default:
				767	llvm_unreachable("second character of comment should be '/' or '*'");
				768	}
				769
				770	case LCS_BetweenComments: {
				771	// Consecutive comments are extracted only if there is only whitespace
				772	// between them. So we can search for the start of the next comment.
				773	const char *EndWhitespace = BufferPtr;
				774	while(EndWhitespace != BufferEnd && *EndWhitespace != '/')
				775	EndWhitespace++;
				776
				777	// Turn any whitespace between comments (and there is only whitespace
Dmitri Gribenko	a99ec10	2012-07-09 21:32:40 +0000	[diff] [blame]	778	// between them -- guaranteed by comment extraction) into a newline. We
				779	// have two newlines between C comments in total (first one was synthesized
				780	// after a comment).
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	781	formTokenWithChars(T, EndWhitespace, tok::newline);
				782
				783	CommentState = LCS_BeforeComment;
				784	break;
				785	}
				786
				787	case LCS_InsideBCPLComment:
				788	case LCS_InsideCComment:
				789	if (BufferPtr != CommentEnd) {
				790	lexCommentText(T);
				791	break;
				792	} else {
				793	// Skip C comment closing sequence.
				794	if (CommentState == LCS_InsideCComment) {
				795	assert(BufferPtr[0] == '*' && BufferPtr[1] == '/');
				796	BufferPtr += 2;
				797	assert(BufferPtr <= BufferEnd);
				798
				799	// Synthenize newline just after the C comment, regardless if there is
				800	// actually a newline.
				801	formTokenWithChars(T, BufferPtr, tok::newline);
				802
				803	CommentState = LCS_BetweenComments;
				804	break;
				805	} else {
				806	// Don't synthesized a newline after BCPL comment.
				807	CommentState = LCS_BetweenComments;
				808	goto again;
				809	}
				810	}
				811	}
				812	}
				813
				814	StringRef Lexer::getSpelling(const Token &Tok,
				815	const SourceManager &SourceMgr,
				816	bool *Invalid) const {
				817	SourceLocation Loc = Tok.getLocation();
				818	std::pair<FileID, unsigned> LocInfo = SourceMgr.getDecomposedLoc(Loc);
				819
				820	bool InvalidTemp = false;
				821	StringRef File = SourceMgr.getBufferData(LocInfo.first, &InvalidTemp);
				822	if (InvalidTemp) {
				823	*Invalid = true;
				824	return StringRef();
				825	}
				826
				827	const char *Begin = File.data() + LocInfo.second;
				828	return StringRef(Begin, Tok.getLength());
				829	}
				830
Dmitri Gribenko	2d44d77	2012-06-26 20:39:18 +0000	[diff] [blame]	831	} // end namespace comments
				832	} // end namespace clang
				833