Blame - llvm/lib/Target/R600/SIISelLowering.cpp - toolchain/llvm-project

blob: c72d6174e6e36f256863b77bee1b8f55fede5ba3 [file] [log] [blame]

Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1	//===-- SIISelLowering.cpp - SI DAG Lowering Implementation ---------------===//
				2	//
				3	// The LLVM Compiler Infrastructure
				4	//
				5	// This file is distributed under the University of Illinois Open Source
				6	// License. See LICENSE.TXT for details.
				7	//
				8	//===----------------------------------------------------------------------===//
				9	//
				10	/// \file
				11	/// \brief Custom DAG lowering for SI
				12	//
				13	//===----------------------------------------------------------------------===//
				14
NAKAMURA Takumi	45e0a83	2014-07-20 11:15:07 +0000	[diff] [blame]	15	#ifdef _MSC_VER
				16	// Provide M_PI.
				17	#define _USE_MATH_DEFINES
				18	#include <cmath>
				19	#endif
				20
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	21	#include "SIISelLowering.h"
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	22	#include "AMDGPU.h"
Matt Arsenault	c791f39	2014-06-23 18:00:31 +0000	[diff] [blame]	23	#include "AMDGPUIntrinsicInfo.h"
Matt Arsenault	41e2f2b	2014-02-24 21:01:28 +0000	[diff] [blame]	24	#include "AMDGPUSubtarget.h"
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	25	#include "SIInstrInfo.h"
				26	#include "SIMachineFunctionInfo.h"
				27	#include "SIRegisterInfo.h"
Alexey Samsonov	a253bf9	2014-08-27 19:36:53 +0000	[diff] [blame^]	28	#include "llvm/ADT/BitVector.h"
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	29	#include "llvm/CodeGen/CallingConvLower.h"
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	30	#include "llvm/CodeGen/MachineInstrBuilder.h"
				31	#include "llvm/CodeGen/MachineRegisterInfo.h"
				32	#include "llvm/CodeGen/SelectionDAG.h"
Benjamin Kramer	d78bb46	2013-05-23 17:10:37 +0000	[diff] [blame]	33	#include "llvm/IR/Function.h"
Matt Arsenault	364a674	2014-06-11 17:50:44 +0000	[diff] [blame]	34	#include "llvm/ADT/SmallString.h"
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	35
				36	using namespace llvm;
				37
				38	SITargetLowering::SITargetLowering(TargetMachine &TM) :
Bill Wendling	37e9adb	2013-06-07 20:28:55 +0000	[diff] [blame]	39	AMDGPUTargetLowering(TM) {
Tom Stellard	1bd8072	2014-04-30 15:31:33 +0000	[diff] [blame]	40	addRegisterClass(MVT::i1, &AMDGPU::VReg_1RegClass);
Tom Stellard	436780b	2014-05-15 14:41:57 +0000	[diff] [blame]	41	addRegisterClass(MVT::i64, &AMDGPU::SReg_64RegClass);
Christian Konig	2214f14	2013-03-07 09:03:38 +0000	[diff] [blame]	42
Christian Konig	2214f14	2013-03-07 09:03:38 +0000	[diff] [blame]	43	addRegisterClass(MVT::v32i8, &AMDGPU::SReg_256RegClass);
				44	addRegisterClass(MVT::v64i8, &AMDGPU::SReg_512RegClass);
				45
Tom Stellard	334b29c	2014-04-17 21:00:09 +0000	[diff] [blame]	46	addRegisterClass(MVT::i32, &AMDGPU::SReg_32RegClass);
Tom Stellard	436780b	2014-05-15 14:41:57 +0000	[diff] [blame]	47	addRegisterClass(MVT::f32, &AMDGPU::VReg_32RegClass);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	48
Tom Stellard	436780b	2014-05-15 14:41:57 +0000	[diff] [blame]	49	addRegisterClass(MVT::f64, &AMDGPU::VReg_64RegClass);
				50	addRegisterClass(MVT::v2i32, &AMDGPU::SReg_64RegClass);
				51	addRegisterClass(MVT::v2f32, &AMDGPU::VReg_64RegClass);
Christian Konig	2214f14	2013-03-07 09:03:38 +0000	[diff] [blame]	52
Tom Stellard	436780b	2014-05-15 14:41:57 +0000	[diff] [blame]	53	addRegisterClass(MVT::v4i32, &AMDGPU::SReg_128RegClass);
				54	addRegisterClass(MVT::v4f32, &AMDGPU::VReg_128RegClass);
Christian Konig	2214f14	2013-03-07 09:03:38 +0000	[diff] [blame]	55
Tom Stellard	538ceeb	2013-02-07 17:02:09 +0000	[diff] [blame]	56	addRegisterClass(MVT::v8i32, &AMDGPU::VReg_256RegClass);
Christian Konig	2214f14	2013-03-07 09:03:38 +0000	[diff] [blame]	57	addRegisterClass(MVT::v8f32, &AMDGPU::VReg_256RegClass);
				58
Tom Stellard	538ceeb	2013-02-07 17:02:09 +0000	[diff] [blame]	59	addRegisterClass(MVT::v16i32, &AMDGPU::VReg_512RegClass);
Christian Konig	2214f14	2013-03-07 09:03:38 +0000	[diff] [blame]	60	addRegisterClass(MVT::v16f32, &AMDGPU::VReg_512RegClass);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	61
				62	computeRegisterProperties();
				63
Tom Stellard	c084533	2013-11-22 23:07:58 +0000	[diff] [blame]	64	// Condition Codes
				65	setCondCodeAction(ISD::SETONE, MVT::f32, Expand);
				66	setCondCodeAction(ISD::SETUEQ, MVT::f32, Expand);
				67	setCondCodeAction(ISD::SETUGE, MVT::f32, Expand);
				68	setCondCodeAction(ISD::SETUGT, MVT::f32, Expand);
				69	setCondCodeAction(ISD::SETULE, MVT::f32, Expand);
				70	setCondCodeAction(ISD::SETULT, MVT::f32, Expand);
				71
				72	setCondCodeAction(ISD::SETONE, MVT::f64, Expand);
				73	setCondCodeAction(ISD::SETUEQ, MVT::f64, Expand);
				74	setCondCodeAction(ISD::SETUGE, MVT::f64, Expand);
				75	setCondCodeAction(ISD::SETUGT, MVT::f64, Expand);
				76	setCondCodeAction(ISD::SETULE, MVT::f64, Expand);
				77	setCondCodeAction(ISD::SETULT, MVT::f64, Expand);
				78
Christian Konig	2989ffc	2013-03-18 11:34:16 +0000	[diff] [blame]	79	setOperationAction(ISD::VECTOR_SHUFFLE, MVT::v8i32, Expand);
				80	setOperationAction(ISD::VECTOR_SHUFFLE, MVT::v8f32, Expand);
				81	setOperationAction(ISD::VECTOR_SHUFFLE, MVT::v16i32, Expand);
				82	setOperationAction(ISD::VECTOR_SHUFFLE, MVT::v16f32, Expand);
				83
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	84	setOperationAction(ISD::ADD, MVT::i32, Legal);
Matt Arsenault	e8d2146	2013-11-18 20:09:40 +0000	[diff] [blame]	85	setOperationAction(ISD::ADDC, MVT::i32, Legal);
				86	setOperationAction(ISD::ADDE, MVT::i32, Legal);
Matt Arsenault	b8b5153	2014-06-23 18:00:38 +0000	[diff] [blame]	87	setOperationAction(ISD::SUBC, MVT::i32, Legal);
				88	setOperationAction(ISD::SUBE, MVT::i32, Legal);
Aaron Watry	daabb20	2013-06-25 13:55:52 +0000	[diff] [blame]	89
Matt Arsenault	ad14ce8	2014-07-19 18:44:39 +0000	[diff] [blame]	90	setOperationAction(ISD::FSIN, MVT::f32, Custom);
				91	setOperationAction(ISD::FCOS, MVT::f32, Custom);
				92
Tom Stellard	35bb18c	2013-08-26 15:06:04 +0000	[diff] [blame]	93	// We need to custom lower vector stores from local memory
Tom Stellard	35bb18c	2013-08-26 15:06:04 +0000	[diff] [blame]	94	setOperationAction(ISD::LOAD, MVT::v4i32, Custom);
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	95	setOperationAction(ISD::LOAD, MVT::v8i32, Custom);
				96	setOperationAction(ISD::LOAD, MVT::v16i32, Custom);
				97
				98	setOperationAction(ISD::STORE, MVT::v8i32, Custom);
				99	setOperationAction(ISD::STORE, MVT::v16i32, Custom);
Tom Stellard	35bb18c	2013-08-26 15:06:04 +0000	[diff] [blame]	100
Tom Stellard	1c8788e	2014-03-07 20:12:33 +0000	[diff] [blame]	101	setOperationAction(ISD::STORE, MVT::i1, Custom);
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	102	setOperationAction(ISD::STORE, MVT::i32, Custom);
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	103	setOperationAction(ISD::STORE, MVT::v2i32, Custom);
				104	setOperationAction(ISD::STORE, MVT::v4i32, Custom);
				105
Tom Stellard	f719ee9	2014-05-16 20:56:41 +0000	[diff] [blame]	106	setOperationAction(ISD::SELECT, MVT::f32, Promote);
				107	AddPromotedToType(ISD::SELECT, MVT::f32, MVT::i32);
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	108	setOperationAction(ISD::SELECT, MVT::i64, Custom);
Tom Stellard	da99c6e	2014-03-24 16:07:30 +0000	[diff] [blame]	109	setOperationAction(ISD::SELECT, MVT::f64, Promote);
				110	AddPromotedToType(ISD::SELECT, MVT::f64, MVT::i64);
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	111
Tom Stellard	3ca1bfc	2014-06-10 16:01:22 +0000	[diff] [blame]	112	setOperationAction(ISD::SELECT_CC, MVT::f32, Expand);
				113	setOperationAction(ISD::SELECT_CC, MVT::i32, Expand);
				114	setOperationAction(ISD::SELECT_CC, MVT::i64, Expand);
				115	setOperationAction(ISD::SELECT_CC, MVT::f64, Expand);
Tom Stellard	754f80f	2013-04-05 23:31:51 +0000	[diff] [blame]	116
Tom Stellard	8374720	2013-07-18 21:43:53 +0000	[diff] [blame]	117	setOperationAction(ISD::SETCC, MVT::v2i1, Expand);
				118	setOperationAction(ISD::SETCC, MVT::v4i1, Expand);
				119
Matt Arsenault	5dbd5db	2014-04-22 03:49:30 +0000	[diff] [blame]	120	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i1, Legal);
Matt Arsenault	4e46665	2014-04-16 01:41:30 +0000	[diff] [blame]	121	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v2i1, Custom);
				122	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v4i1, Custom);
				123
Matt Arsenault	5dbd5db	2014-04-22 03:49:30 +0000	[diff] [blame]	124	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i8, Legal);
Matt Arsenault	4e46665	2014-04-16 01:41:30 +0000	[diff] [blame]	125	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v2i8, Custom);
				126	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v4i8, Custom);
				127
Matt Arsenault	5dbd5db	2014-04-22 03:49:30 +0000	[diff] [blame]	128	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i16, Legal);
Matt Arsenault	4e46665	2014-04-16 01:41:30 +0000	[diff] [blame]	129	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v2i16, Custom);
				130	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v4i16, Custom);
				131
				132	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i32, Custom);
				133
				134	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::Other, Custom);
				135
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	136	setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::Other, Custom);
Tom Stellard	9fa1791	2013-08-14 23:24:45 +0000	[diff] [blame]	137	setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::f32, Custom);
				138	setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v16i8, Custom);
				139	setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v4f32, Custom);
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	140
Tom Stellard	afcf12f	2013-09-12 02:55:14 +0000	[diff] [blame]	141	setOperationAction(ISD::INTRINSIC_VOID, MVT::Other, Custom);
Matt Arsenault	e54e1c3	2014-06-23 18:00:44 +0000	[diff] [blame]	142	setOperationAction(ISD::BRCOND, MVT::Other, Custom);
Tom Stellard	afcf12f	2013-09-12 02:55:14 +0000	[diff] [blame]	143
Matt Arsenault	470acd8	2014-04-15 22:28:39 +0000	[diff] [blame]	144	setLoadExtAction(ISD::SEXTLOAD, MVT::i1, Promote);
Tom Stellard	e937360	2014-01-22 19:24:14 +0000	[diff] [blame]	145	setLoadExtAction(ISD::SEXTLOAD, MVT::i8, Custom);
				146	setLoadExtAction(ISD::SEXTLOAD, MVT::i16, Custom);
Matt Arsenault	470acd8	2014-04-15 22:28:39 +0000	[diff] [blame]	147	setLoadExtAction(ISD::SEXTLOAD, MVT::i32, Expand);
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	148	setLoadExtAction(ISD::SEXTLOAD, MVT::v8i16, Expand);
				149	setLoadExtAction(ISD::SEXTLOAD, MVT::v16i16, Expand);
Tom Stellard	31209cc	2013-07-15 19:00:09 +0000	[diff] [blame]	150
Matt Arsenault	470acd8	2014-04-15 22:28:39 +0000	[diff] [blame]	151	setLoadExtAction(ISD::ZEXTLOAD, MVT::i1, Promote);
				152	setLoadExtAction(ISD::ZEXTLOAD, MVT::i8, Custom);
				153	setLoadExtAction(ISD::ZEXTLOAD, MVT::i16, Custom);
				154	setLoadExtAction(ISD::ZEXTLOAD, MVT::i32, Expand);
				155
				156	setLoadExtAction(ISD::EXTLOAD, MVT::i1, Promote);
Tom Stellard	e937360	2014-01-22 19:24:14 +0000	[diff] [blame]	157	setLoadExtAction(ISD::EXTLOAD, MVT::i8, Custom);
				158	setLoadExtAction(ISD::EXTLOAD, MVT::i16, Custom);
				159	setLoadExtAction(ISD::EXTLOAD, MVT::i32, Expand);
Niels Ole Salscheider	719fbc9	2013-08-08 16:06:15 +0000	[diff] [blame]	160	setLoadExtAction(ISD::EXTLOAD, MVT::f32, Expand);
Matt Arsenault	470acd8	2014-04-15 22:28:39 +0000	[diff] [blame]	161
Tom Stellard	e937360	2014-01-22 19:24:14 +0000	[diff] [blame]	162	setTruncStoreAction(MVT::i32, MVT::i8, Custom);
				163	setTruncStoreAction(MVT::i32, MVT::i16, Custom);
Niels Ole Salscheider	719fbc9	2013-08-08 16:06:15 +0000	[diff] [blame]	164	setTruncStoreAction(MVT::f64, MVT::f32, Expand);
Matt Arsenault	6f24379	2013-09-05 19:41:10 +0000	[diff] [blame]	165	setTruncStoreAction(MVT::i64, MVT::i32, Expand);
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	166	setTruncStoreAction(MVT::v8i32, MVT::v8i16, Expand);
				167	setTruncStoreAction(MVT::v16i32, MVT::v16i16, Expand);
Niels Ole Salscheider	719fbc9	2013-08-08 16:06:15 +0000	[diff] [blame]	168
Matt Arsenault	470acd8	2014-04-15 22:28:39 +0000	[diff] [blame]	169	setOperationAction(ISD::LOAD, MVT::i1, Custom);
				170
Jan Vesely	2cb62ce	2014-07-10 22:40:21 +0000	[diff] [blame]	171	setOperationAction(ISD::FP_TO_SINT, MVT::i64, Expand);
				172	setOperationAction(ISD::FP_TO_UINT, MVT::i64, Expand);
				173
Tom Stellard	fd15582	2013-08-26 15:05:36 +0000	[diff] [blame]	174	setOperationAction(ISD::GlobalAddress, MVT::i32, Custom);
Tom Stellard	04c0e98	2014-01-22 19:24:21 +0000	[diff] [blame]	175	setOperationAction(ISD::GlobalAddress, MVT::i64, Custom);
Matt Arsenault	a98cd6a	2013-12-19 05:32:55 +0000	[diff] [blame]	176	setOperationAction(ISD::FrameIndex, MVT::i32, Custom);
Michel Danzer	49812b5	2013-07-10 16:37:07 +0000	[diff] [blame]	177
Tom Stellard	5f33788	2014-04-29 23:12:43 +0000	[diff] [blame]	178	// These should use UDIVREM, so set them to expand
				179	setOperationAction(ISD::UDIV, MVT::i64, Expand);
				180	setOperationAction(ISD::UREM, MVT::i64, Expand);
				181
Tom Stellard	967bf58	2014-02-13 23:34:15 +0000	[diff] [blame]	182	// We only support LOAD/STORE and vector manipulation ops for vectors
				183	// with > 4 elements.
				184	MVT VecTypes[] = {
Tom Stellard	d61a1c3	2014-02-28 21:36:37 +0000	[diff] [blame]	185	MVT::v8i32, MVT::v8f32, MVT::v16i32, MVT::v16f32
Tom Stellard	967bf58	2014-02-13 23:34:15 +0000	[diff] [blame]	186	};
				187
Matt Arsenault	0d89e84	2014-07-15 21:44:37 +0000	[diff] [blame]	188	setOperationAction(ISD::SELECT_CC, MVT::i1, Expand);
				189	setOperationAction(ISD::SELECT, MVT::i1, Promote);
				190
Matt Arsenault	d504a74	2014-05-15 21:44:05 +0000	[diff] [blame]	191	for (MVT VT : VecTypes) {
Tom Stellard	967bf58	2014-02-13 23:34:15 +0000	[diff] [blame]	192	for (unsigned Op = 0; Op < ISD::BUILTIN_OP_END; ++Op) {
				193	switch(Op) {
				194	case ISD::LOAD:
				195	case ISD::STORE:
				196	case ISD::BUILD_VECTOR:
				197	case ISD::BITCAST:
				198	case ISD::EXTRACT_VECTOR_ELT:
				199	case ISD::INSERT_VECTOR_ELT:
Tom Stellard	967bf58	2014-02-13 23:34:15 +0000	[diff] [blame]	200	case ISD::INSERT_SUBVECTOR:
				201	case ISD::EXTRACT_SUBVECTOR:
				202	break;
Tom Stellard	c0503db	2014-08-09 01:06:56 +0000	[diff] [blame]	203	case ISD::CONCAT_VECTORS:
				204	setOperationAction(Op, VT, Custom);
				205	break;
Tom Stellard	967bf58	2014-02-13 23:34:15 +0000	[diff] [blame]	206	default:
Matt Arsenault	d504a74	2014-05-15 21:44:05 +0000	[diff] [blame]	207	setOperationAction(Op, VT, Expand);
Tom Stellard	967bf58	2014-02-13 23:34:15 +0000	[diff] [blame]	208	break;
				209	}
				210	}
				211	}
				212
Matt Arsenault	41e2f2b	2014-02-24 21:01:28 +0000	[diff] [blame]	213	for (int I = MVT::v1f64; I <= MVT::v8f64; ++I) {
				214	MVT::SimpleValueType VT = static_cast<MVT::SimpleValueType>(I);
Matt Arsenault	a81aee8	2014-02-24 21:16:50 +0000	[diff] [blame]	215	setOperationAction(ISD::FTRUNC, VT, Expand);
				216	setOperationAction(ISD::FCEIL, VT, Expand);
				217	setOperationAction(ISD::FFLOOR, VT, Expand);
Matt Arsenault	41e2f2b	2014-02-24 21:01:28 +0000	[diff] [blame]	218	}
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	219
Matt Arsenault	41e2f2b	2014-02-24 21:01:28 +0000	[diff] [blame]	220	if (Subtarget->getGeneration() >= AMDGPUSubtarget::SEA_ISLANDS) {
				221	setOperationAction(ISD::FTRUNC, MVT::f64, Legal);
				222	setOperationAction(ISD::FCEIL, MVT::f64, Legal);
				223	setOperationAction(ISD::FFLOOR, MVT::f64, Legal);
Matt Arsenault	a90d22f	2014-04-17 17:06:37 +0000	[diff] [blame]	224	setOperationAction(ISD::FRINT, MVT::f64, Legal);
Matt Arsenault	41e2f2b	2014-02-24 21:01:28 +0000	[diff] [blame]	225	}
				226
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	227	setOperationAction(ISD::FDIV, MVT::f32, Custom);
				228
Matt Arsenault	41e2f2b	2014-02-24 21:01:28 +0000	[diff] [blame]	229	setTargetDAGCombine(ISD::SELECT_CC);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	230	setTargetDAGCombine(ISD::SETCC);
Michel Danzer	f52a672	2013-03-08 10:58:01 +0000	[diff] [blame]	231
Matt Arsenault	364a674	2014-06-11 17:50:44 +0000	[diff] [blame]	232	setTargetDAGCombine(ISD::UINT_TO_FP);
				233
Matt Arsenault	b2baffa	2014-08-15 17:49:05 +0000	[diff] [blame]	234	// All memory operations. Some folding on the pointer operand is done to help
				235	// matching the constant offsets in the addressing modes.
				236	setTargetDAGCombine(ISD::LOAD);
				237	setTargetDAGCombine(ISD::STORE);
				238	setTargetDAGCombine(ISD::ATOMIC_LOAD);
				239	setTargetDAGCombine(ISD::ATOMIC_STORE);
				240	setTargetDAGCombine(ISD::ATOMIC_CMP_SWAP);
				241	setTargetDAGCombine(ISD::ATOMIC_CMP_SWAP_WITH_SUCCESS);
				242	setTargetDAGCombine(ISD::ATOMIC_SWAP);
				243	setTargetDAGCombine(ISD::ATOMIC_LOAD_ADD);
				244	setTargetDAGCombine(ISD::ATOMIC_LOAD_SUB);
				245	setTargetDAGCombine(ISD::ATOMIC_LOAD_AND);
				246	setTargetDAGCombine(ISD::ATOMIC_LOAD_OR);
				247	setTargetDAGCombine(ISD::ATOMIC_LOAD_XOR);
				248	setTargetDAGCombine(ISD::ATOMIC_LOAD_NAND);
				249	setTargetDAGCombine(ISD::ATOMIC_LOAD_MIN);
				250	setTargetDAGCombine(ISD::ATOMIC_LOAD_MAX);
				251	setTargetDAGCombine(ISD::ATOMIC_LOAD_UMIN);
				252	setTargetDAGCombine(ISD::ATOMIC_LOAD_UMAX);
				253
Christian Konig	eecebd0	2013-03-26 14:04:02 +0000	[diff] [blame]	254	setSchedulingPreference(Sched::RegPressure);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	255	}
				256
Tom Stellard	0125f2a	2013-06-25 02:39:35 +0000	[diff] [blame]	257	//===----------------------------------------------------------------------===//
				258	// TargetLowering queries
				259	//===----------------------------------------------------------------------===//
				260
Matt Arsenault	5015a89	2014-08-15 17:17:07 +0000	[diff] [blame]	261	// FIXME: This really needs an address space argument. The immediate offset
				262	// size is different for different sets of memory instruction sets.
				263
				264	// The single offset DS instructions have a 16-bit unsigned byte offset.
				265	//
				266	// MUBUF / MTBUF have a 12-bit unsigned byte offset, and additionally can do r +
				267	// r + i with addr64. 32-bit has more addressing mode options. Depending on the
				268	// resource constant, it can also do (i64 r0) + (i32 r1) * (i14 i).
				269	//
				270	// SMRD instructions have an 8-bit, dword offset.
				271	//
				272	bool SITargetLowering::isLegalAddressingMode(const AddrMode &AM,
				273	Type *Ty) const {
				274	// No global is ever allowed as a base.
				275	if (AM.BaseGV)
				276	return false;
				277
				278	// Allow a 16-bit unsigned immediate field, since this is what DS instructions
				279	// use.
				280	if (!isUInt<16>(AM.BaseOffs))
				281	return false;
				282
				283	// Only support r+r,
				284	switch (AM.Scale) {
				285	case 0: // "r+i" or just "i", depending on HasBaseReg.
				286	break;
				287	case 1:
				288	if (AM.HasBaseReg && AM.BaseOffs) // "r+r+i" is not allowed.
				289	return false;
				290	// Otherwise we have r+r or r+i.
				291	break;
				292	case 2:
				293	if (AM.HasBaseReg \|\| AM.BaseOffs) // 2r+r or 2r+i is not allowed.
				294	return false;
				295	// Allow 2*r as r+r.
				296	break;
				297	default: // Don't allow n * r
				298	return false;
				299	}
				300
				301	return true;
				302	}
				303
Matt Arsenault	6f2a526	2014-07-27 17:46:40 +0000	[diff] [blame]	304	bool SITargetLowering::allowsMisalignedMemoryAccesses(EVT VT,
				305	unsigned AddrSpace,
				306	unsigned Align,
				307	bool *IsFast) const {
Matt Arsenault	1018c89	2014-04-24 17:08:26 +0000	[diff] [blame]	308	if (IsFast)
				309	*IsFast = false;
				310
Matt Arsenault	1018c89	2014-04-24 17:08:26 +0000	[diff] [blame]	311	// TODO: I think v3i32 should allow unaligned accesses on CI with DS_READ_B96,
				312	// which isn't a simple VT.
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	313	if (!VT.isSimple() \|\| VT == MVT::Other)
				314	return false;
Matt Arsenault	1018c89	2014-04-24 17:08:26 +0000	[diff] [blame]	315
				316	// XXX - CI changes say "Support for unaligned memory accesses" but I don't
				317	// see what for specifically. The wording everywhere else seems to be the
				318	// same.
				319
Matt Arsenault	1018c89	2014-04-24 17:08:26 +0000	[diff] [blame]	320	// XXX - The only mention I see of this in the ISA manual is for LDS direct
				321	// reads the "byte address and must be dword aligned". Is it also true for the
				322	// normal loads and stores?
Matt Arsenault	6f2a526	2014-07-27 17:46:40 +0000	[diff] [blame]	323	if (AddrSpace == AMDGPUAS::LOCAL_ADDRESS) {
				324	// ds_read/write_b64 require 8-byte alignment, but we can do a 4 byte
				325	// aligned, 8 byte access in a single operation using ds_read2/write2_b32
				326	// with adjacent offsets.
				327	return Align % 4 == 0;
				328	}
Matt Arsenault	1018c89	2014-04-24 17:08:26 +0000	[diff] [blame]	329
				330	// 8.1.6 - For Dword or larger reads or writes, the two LSBs of the
				331	// byte-address are ignored, thus forcing Dword alignment.
Tom Stellard	e812f2f	2014-07-21 15:45:06 +0000	[diff] [blame]	332	// This applies to private, global, and constant memory.
Matt Arsenault	1018c89	2014-04-24 17:08:26 +0000	[diff] [blame]	333	if (IsFast)
				334	*IsFast = true;
Tom Stellard	0125f2a	2013-06-25 02:39:35 +0000	[diff] [blame]	335	return VT.bitsGT(MVT::i32);
				336	}
				337
Matt Arsenault	46645fa	2014-07-28 17:49:26 +0000	[diff] [blame]	338	EVT SITargetLowering::getOptimalMemOpType(uint64_t Size, unsigned DstAlign,
				339	unsigned SrcAlign, bool IsMemset,
				340	bool ZeroMemset,
				341	bool MemcpyStrSrc,
				342	MachineFunction &MF) const {
				343	// FIXME: Should account for address space here.
				344
				345	// The default fallback uses the private pointer size as a guess for a type to
				346	// use. Make sure we switch these to 64-bit accesses.
				347
				348	if (Size >= 16 && DstAlign >= 4) // XXX: Should only do for global
				349	return MVT::v4i32;
				350
				351	if (Size >= 8 && DstAlign >= 4)
				352	return MVT::v2i32;
				353
				354	// Use the default.
				355	return MVT::Other;
				356	}
				357
Chandler Carruth	9d010ff	2014-07-03 00:23:43 +0000	[diff] [blame]	358	TargetLoweringBase::LegalizeTypeAction
				359	SITargetLowering::getPreferredVectorAction(EVT VT) const {
				360	if (VT.getVectorNumElements() != 1 && VT.getScalarType().bitsLE(MVT::i16))
				361	return TypeSplitVector;
				362
				363	return TargetLoweringBase::getPreferredVectorAction(VT);
Tom Stellard	d86003e	2013-08-14 23:25:00 +0000	[diff] [blame]	364	}
Tom Stellard	0125f2a	2013-06-25 02:39:35 +0000	[diff] [blame]	365
Matt Arsenault	d7bdcc4	2014-03-31 19:54:27 +0000	[diff] [blame]	366	bool SITargetLowering::shouldConvertConstantLoadToIntImm(const APInt &Imm,
				367	Type *Ty) const {
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	368	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				369	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Matt Arsenault	d7bdcc4	2014-03-31 19:54:27 +0000	[diff] [blame]	370	return TII->isInlineConstant(Imm);
				371	}
				372
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	373	SDValue SITargetLowering::LowerParameter(SelectionDAG &DAG, EVT VT, EVT MemVT,
Matt Arsenault	86033ca	2014-07-28 17:31:39 +0000	[diff] [blame]	374	SDLoc SL, SDValue Chain,
Matt Arsenault	e1f030c	2014-04-11 20:59:54 +0000	[diff] [blame]	375	unsigned Offset, bool Signed) const {
Matt Arsenault	86033ca	2014-07-28 17:31:39 +0000	[diff] [blame]	376	const DataLayout *DL = getDataLayout();
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	377
Matt Arsenault	86033ca	2014-07-28 17:31:39 +0000	[diff] [blame]	378	Type Ty = VT.getTypeForEVT(DAG.getContext());
				379
				380	MachineRegisterInfo &MRI = DAG.getMachineFunction().getRegInfo();
				381	PointerType *PtrTy = PointerType::get(Ty, AMDGPUAS::CONSTANT_ADDRESS);
				382	SDValue BasePtr = DAG.getCopyFromReg(Chain, SL,
				383	MRI.getLiveInVirtReg(AMDGPU::SGPR0_SGPR1), MVT::i64);
				384	SDValue Ptr = DAG.getNode(ISD::ADD, SL, MVT::i64, BasePtr,
				385	DAG.getConstant(Offset, MVT::i64));
				386	SDValue PtrOffset = DAG.getUNDEF(getPointerTy(AMDGPUAS::CONSTANT_ADDRESS));
				387	MachinePointerInfo PtrInfo(UndefValue::get(PtrTy));
				388
				389	return DAG.getLoad(ISD::UNINDEXED, Signed ? ISD::SEXTLOAD : ISD::ZEXTLOAD,
				390	VT, SL, Chain, Ptr, PtrOffset, PtrInfo, MemVT,
				391	false, // isVolatile
				392	true, // isNonTemporal
				393	true, // isInvariant
				394	DL->getABITypeAlignment(Ty)); // Alignment
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	395	}
				396
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	397	SDValue SITargetLowering::LowerFormalArguments(
				398	SDValue Chain,
				399	CallingConv::ID CallConv,
				400	bool isVarArg,
				401	const SmallVectorImpl<ISD::InputArg> &Ins,
Andrew Trick	ef9de2a	2013-05-25 02:42:55 +0000	[diff] [blame]	402	SDLoc DL, SelectionDAG &DAG,
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	403	SmallVectorImpl<SDValue> &InVals) const {
				404
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	405	const TargetRegisterInfo *TRI =
				406	getTargetMachine().getSubtargetImpl()->getRegisterInfo();
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	407
				408	MachineFunction &MF = DAG.getMachineFunction();
				409	FunctionType *FType = MF.getFunction()->getFunctionType();
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	410	SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	411
				412	assert(CallConv == CallingConv::C);
				413
				414	SmallVector<ISD::InputArg, 16> Splits;
Alexey Samsonov	a253bf9	2014-08-27 19:36:53 +0000	[diff] [blame^]	415	BitVector Skipped(Ins.size());
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	416
				417	for (unsigned i = 0, e = Ins.size(), PSInputNum = 0; i != e; ++i) {
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	418	const ISD::InputArg &Arg = Ins[i];
Matt Arsenault	75865923	2013-05-18 00:21:46 +0000	[diff] [blame]	419
				420	// First check if it's a PS input addr
Matt Arsenault	762af96	2014-07-13 03:06:39 +0000	[diff] [blame]	421	if (Info->getShaderType() == ShaderType::PIXEL && !Arg.Flags.isInReg() &&
Vincent Lejeune	d623644	2013-10-13 17:56:16 +0000	[diff] [blame]	422	!Arg.Flags.isByVal()) {
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	423
				424	assert((PSInputNum <= 15) && "Too many PS inputs!");
				425
				426	if (!Arg.Used) {
				427	// We can savely skip PS inputs
Alexey Samsonov	a253bf9	2014-08-27 19:36:53 +0000	[diff] [blame^]	428	Skipped.set(i);
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	429	++PSInputNum;
				430	continue;
				431	}
				432
				433	Info->PSInputAddr \|= 1 << PSInputNum++;
				434	}
				435
				436	// Second split vertices into their elements
Matt Arsenault	762af96	2014-07-13 03:06:39 +0000	[diff] [blame]	437	if (Info->getShaderType() != ShaderType::COMPUTE && Arg.VT.isVector()) {
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	438	ISD::InputArg NewArg = Arg;
				439	NewArg.Flags.setSplit();
				440	NewArg.VT = Arg.VT.getVectorElementType();
				441
				442	// We REALLY want the ORIGINAL number of vertex elements here, e.g. a
				443	// three or five element vertex only needs three or five registers,
				444	// NOT four or eigth.
				445	Type *ParamType = FType->getParamType(Arg.OrigArgIndex);
				446	unsigned NumElements = ParamType->getVectorNumElements();
				447
				448	for (unsigned j = 0; j != NumElements; ++j) {
				449	Splits.push_back(NewArg);
				450	NewArg.PartOffset += NewArg.VT.getStoreSize();
				451	}
				452
Matt Arsenault	762af96	2014-07-13 03:06:39 +0000	[diff] [blame]	453	} else if (Info->getShaderType() != ShaderType::COMPUTE) {
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	454	Splits.push_back(Arg);
				455	}
				456	}
				457
				458	SmallVector<CCValAssign, 16> ArgLocs;
Eric Christopher	b521750	2014-08-06 18:45:26 +0000	[diff] [blame]	459	CCState CCInfo(CallConv, isVarArg, DAG.getMachineFunction(), ArgLocs,
				460	*DAG.getContext());
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	461
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	462	// At least one interpolation mode must be enabled or else the GPU will hang.
Matt Arsenault	762af96	2014-07-13 03:06:39 +0000	[diff] [blame]	463	if (Info->getShaderType() == ShaderType::PIXEL &&
				464	(Info->PSInputAddr & 0x7F) == 0) {
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	465	Info->PSInputAddr \|= 1;
				466	CCInfo.AllocateReg(AMDGPU::VGPR0);
				467	CCInfo.AllocateReg(AMDGPU::VGPR1);
				468	}
				469
Tom Stellard	ed882c2	2013-06-03 17:40:11 +0000	[diff] [blame]	470	// The pointer to the list of arguments is stored in SGPR0, SGPR1
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	471	// The pointer to the scratch buffer is stored in SGPR2, SGPR3
Matt Arsenault	762af96	2014-07-13 03:06:39 +0000	[diff] [blame]	472	if (Info->getShaderType() == ShaderType::COMPUTE) {
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	473	Info->NumUserSGPRs = 4;
Tom Stellard	ed882c2	2013-06-03 17:40:11 +0000	[diff] [blame]	474	CCInfo.AllocateReg(AMDGPU::SGPR0);
				475	CCInfo.AllocateReg(AMDGPU::SGPR1);
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	476	CCInfo.AllocateReg(AMDGPU::SGPR2);
				477	CCInfo.AllocateReg(AMDGPU::SGPR3);
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	478	MF.addLiveIn(AMDGPU::SGPR0_SGPR1, &AMDGPU::SReg_64RegClass);
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	479	MF.addLiveIn(AMDGPU::SGPR2_SGPR3, &AMDGPU::SReg_64RegClass);
Tom Stellard	ed882c2	2013-06-03 17:40:11 +0000	[diff] [blame]	480	}
				481
Matt Arsenault	762af96	2014-07-13 03:06:39 +0000	[diff] [blame]	482	if (Info->getShaderType() == ShaderType::COMPUTE) {
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	483	getOriginalFunctionArgs(DAG, DAG.getMachineFunction().getFunction(), Ins,
				484	Splits);
				485	}
				486
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	487	AnalyzeFormalArguments(CCInfo, Splits);
				488
				489	for (unsigned i = 0, e = Ins.size(), ArgIdx = 0; i != e; ++i) {
				490
Christian Konig	b7be72d	2013-05-17 09:46:48 +0000	[diff] [blame]	491	const ISD::InputArg &Arg = Ins[i];
Alexey Samsonov	a253bf9	2014-08-27 19:36:53 +0000	[diff] [blame^]	492	if (Skipped[i]) {
Christian Konig	b7be72d	2013-05-17 09:46:48 +0000	[diff] [blame]	493	InVals.push_back(DAG.getUNDEF(Arg.VT));
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	494	continue;
				495	}
				496
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	497	CCValAssign &VA = ArgLocs[ArgIdx++];
Tom Stellard	ed882c2	2013-06-03 17:40:11 +0000	[diff] [blame]	498	EVT VT = VA.getLocVT();
				499
				500	if (VA.isMemLoc()) {
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	501	VT = Ins[i].VT;
				502	EVT MemVT = Splits[i].VT;
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	503	// The first 36 bytes of the input buffer contains information about
				504	// thread group and global sizes.
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	505	SDValue Arg = LowerParameter(DAG, VT, MemVT, DL, DAG.getRoot(),
Matt Arsenault	e1f030c	2014-04-11 20:59:54 +0000	[diff] [blame]	506	36 + VA.getLocMemOffset(),
				507	Ins[i].Flags.isSExt());
Tom Stellard	ca7ecf3	2014-08-22 18:49:31 +0000	[diff] [blame]	508
				509	const PointerType *ParamTy =
				510	dyn_cast<PointerType>(FType->getParamType(Ins[i].OrigArgIndex));
				511	if (Subtarget->getGeneration() == AMDGPUSubtarget::SOUTHERN_ISLANDS &&
				512	ParamTy && ParamTy->getAddressSpace() == AMDGPUAS::LOCAL_ADDRESS) {
				513	// On SI local pointers are just offsets into LDS, so they are always
				514	// less than 16-bits. On CI and newer they could potentially be
				515	// real pointers, so we can't guarantee their size.
				516	Arg = DAG.getNode(ISD::AssertZext, DL, Arg.getValueType(), Arg,
				517	DAG.getValueType(MVT::i16));
				518	}
				519
Tom Stellard	ed882c2	2013-06-03 17:40:11 +0000	[diff] [blame]	520	InVals.push_back(Arg);
				521	continue;
				522	}
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	523	assert(VA.isRegLoc() && "Parameter must be in a register!");
				524
				525	unsigned Reg = VA.getLocReg();
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	526
				527	if (VT == MVT::i64) {
				528	// For now assume it is a pointer
				529	Reg = TRI->getMatchingSuperReg(Reg, AMDGPU::sub0,
				530	&AMDGPU::SReg_64RegClass);
				531	Reg = MF.addLiveIn(Reg, &AMDGPU::SReg_64RegClass);
				532	InVals.push_back(DAG.getCopyFromReg(Chain, DL, Reg, VT));
				533	continue;
				534	}
				535
				536	const TargetRegisterClass *RC = TRI->getMinimalPhysRegClass(Reg, VT);
				537
				538	Reg = MF.addLiveIn(Reg, RC);
				539	SDValue Val = DAG.getCopyFromReg(Chain, DL, Reg, VT);
				540
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	541	if (Arg.VT.isVector()) {
				542
				543	// Build a vector from the registers
				544	Type *ParamType = FType->getParamType(Arg.OrigArgIndex);
				545	unsigned NumElements = ParamType->getVectorNumElements();
				546
				547	SmallVector<SDValue, 4> Regs;
				548	Regs.push_back(Val);
				549	for (unsigned j = 1; j != NumElements; ++j) {
				550	Reg = ArgLocs[ArgIdx++].getLocReg();
				551	Reg = MF.addLiveIn(Reg, RC);
				552	Regs.push_back(DAG.getCopyFromReg(Chain, DL, Reg, VT));
				553	}
				554
				555	// Fill up the missing vector elements
				556	NumElements = Arg.VT.getVectorNumElements() - NumElements;
				557	for (unsigned j = 0; j != NumElements; ++j)
				558	Regs.push_back(DAG.getUNDEF(VT));
Matt Arsenault	75865923	2013-05-18 00:21:46 +0000	[diff] [blame]	559
Craig Topper	48d114b	2014-04-26 18:35:24 +0000	[diff] [blame]	560	InVals.push_back(DAG.getNode(ISD::BUILD_VECTOR, DL, Arg.VT, Regs));
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	561	continue;
				562	}
				563
				564	InVals.push_back(Val);
				565	}
				566	return Chain;
				567	}
				568
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	569	MachineBasicBlock * SITargetLowering::EmitInstrWithCustomInserter(
				570	MachineInstr * MI, MachineBasicBlock * BB) const {
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	571
Tom Stellard	556d9aa	2013-06-03 17:39:37 +0000	[diff] [blame]	572	MachineBasicBlock::iterator I = *MI;
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	573	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				574	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Tom Stellard	919bb6b	2014-04-29 23:12:53 +0000	[diff] [blame]	575	MachineRegisterInfo &MRI = BB->getParent()->getRegInfo();
Tom Stellard	556d9aa	2013-06-03 17:39:37 +0000	[diff] [blame]	576
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	577	switch (MI->getOpcode()) {
				578	default:
				579	return AMDGPUTargetLowering::EmitInstrWithCustomInserter(MI, BB);
				580	case AMDGPU::BRANCH: return BB;
Tom Stellard	556d9aa	2013-06-03 17:39:37 +0000	[diff] [blame]	581	case AMDGPU::SI_ADDR64_RSRC: {
Tom Stellard	556d9aa	2013-06-03 17:39:37 +0000	[diff] [blame]	582	unsigned SuperReg = MI->getOperand(0).getReg();
Tom Stellard	def38c5	2014-03-21 15:51:53 +0000	[diff] [blame]	583	unsigned SubRegLo = MRI.createVirtualRegister(&AMDGPU::SGPR_64RegClass);
				584	unsigned SubRegHi = MRI.createVirtualRegister(&AMDGPU::SGPR_64RegClass);
				585	unsigned SubRegHiHi = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				586	unsigned SubRegHiLo = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
Tom Stellard	556d9aa	2013-06-03 17:39:37 +0000	[diff] [blame]	587	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::S_MOV_B64), SubRegLo)
				588	.addOperand(MI->getOperand(1));
				589	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::S_MOV_B32), SubRegHiLo)
				590	.addImm(0);
				591	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::S_MOV_B32), SubRegHiHi)
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	592	.addImm(AMDGPU::RSRC_DATA_FORMAT >> 32);
Tom Stellard	556d9aa	2013-06-03 17:39:37 +0000	[diff] [blame]	593	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::REG_SEQUENCE), SubRegHi)
				594	.addReg(SubRegHiLo)
				595	.addImm(AMDGPU::sub0)
				596	.addReg(SubRegHiHi)
				597	.addImm(AMDGPU::sub1);
				598	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::REG_SEQUENCE), SuperReg)
				599	.addReg(SubRegLo)
				600	.addImm(AMDGPU::sub0_sub1)
				601	.addReg(SubRegHi)
				602	.addImm(AMDGPU::sub2_sub3);
				603	MI->eraseFromParent();
				604	break;
				605	}
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	606	case AMDGPU::SI_BUFFER_RSRC: {
				607	unsigned SuperReg = MI->getOperand(0).getReg();
				608	unsigned Args[4];
				609	for (unsigned i = 0, e = 4; i < e; ++i) {
				610	MachineOperand &Arg = MI->getOperand(i + 1);
				611
				612	if (Arg.isReg()) {
				613	Args[i] = Arg.getReg();
				614	continue;
				615	}
				616
				617	assert(Arg.isImm());
				618	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				619	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::S_MOV_B32), Reg)
				620	.addImm(Arg.getImm());
				621	Args[i] = Reg;
				622	}
				623	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::REG_SEQUENCE),
				624	SuperReg)
				625	.addReg(Args[0])
				626	.addImm(AMDGPU::sub0)
				627	.addReg(Args[1])
				628	.addImm(AMDGPU::sub1)
				629	.addReg(Args[2])
				630	.addImm(AMDGPU::sub2)
				631	.addReg(Args[3])
				632	.addImm(AMDGPU::sub3);
				633	MI->eraseFromParent();
				634	break;
				635	}
Matt Arsenault	dbc9aae	2014-06-18 17:13:51 +0000	[diff] [blame]	636	case AMDGPU::V_SUB_F64: {
				637	unsigned DestReg = MI->getOperand(0).getReg();
				638	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::V_ADD_F64), DestReg)
				639	.addImm(0) // SRC0 modifiers
				640	.addReg(MI->getOperand(1).getReg())
				641	.addImm(1) // SRC1 modifiers
				642	.addReg(MI->getOperand(2).getReg())
Matt Arsenault	dbc9aae	2014-06-18 17:13:51 +0000	[diff] [blame]	643	.addImm(0) // CLAMP
				644	.addImm(0); // OMOD
Tom Stellard	2a6a6105	2013-07-12 18:15:08 +0000	[diff] [blame]	645	MI->eraseFromParent();
				646	break;
Matt Arsenault	dbc9aae	2014-06-18 17:13:51 +0000	[diff] [blame]	647	}
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	648	case AMDGPU::SI_RegisterStorePseudo: {
				649	MachineRegisterInfo &MRI = BB->getParent()->getRegInfo();
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	650	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				651	MachineInstrBuilder MIB =
				652	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::SI_RegisterStore),
				653	Reg);
				654	for (unsigned i = 0, e = MI->getNumOperands(); i != e; ++i)
				655	MIB.addOperand(MI->getOperand(i));
				656
				657	MI->eraseFromParent();
Vincent Lejeune	79a5834	2014-05-10 19:18:25 +0000	[diff] [blame]	658	break;
				659	}
Vincent Lejeune	79a5834	2014-05-10 19:18:25 +0000	[diff] [blame]	660	case AMDGPU::FCLAMP_SI: {
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	661	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				662	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Matt Arsenault	a80c877	2014-08-02 01:10:28 +0000	[diff] [blame]	663	DebugLoc DL = MI->getDebugLoc();
				664	unsigned DestReg = MI->getOperand(0).getReg();
				665	BuildMI(*BB, I, DL, TII->get(AMDGPU::V_ADD_F32_e64), DestReg)
				666	.addImm(0) // SRC0 modifiers
				667	.addOperand(MI->getOperand(1))
				668	.addImm(0) // SRC1 modifiers
				669	.addImm(0) // SRC1
				670	.addImm(1) // CLAMP
				671	.addImm(0); // OMOD
Vincent Lejeune	79a5834	2014-05-10 19:18:25 +0000	[diff] [blame]	672	MI->eraseFromParent();
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	673	}
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	674	}
				675	return BB;
				676	}
				677
Matt Arsenault	75865923	2013-05-18 00:21:46 +0000	[diff] [blame]	678	EVT SITargetLowering::getSetCCResultType(LLVMContext &, EVT VT) const {
Tom Stellard	8374720	2013-07-18 21:43:53 +0000	[diff] [blame]	679	if (!VT.isVector()) {
				680	return MVT::i1;
				681	}
				682	return MVT::getVectorVT(MVT::i1, VT.getVectorNumElements());
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	683	}
				684
Christian Konig	082a14a	2013-03-18 11:34:05 +0000	[diff] [blame]	685	MVT SITargetLowering::getScalarShiftAmountTy(EVT VT) const {
				686	return MVT::i32;
				687	}
				688
Niels Ole Salscheider	d3a039f	2013-08-10 10:38:54 +0000	[diff] [blame]	689	bool SITargetLowering::isFMAFasterThanFMulAndFAdd(EVT VT) const {
				690	VT = VT.getScalarType();
				691
				692	if (!VT.isSimple())
				693	return false;
				694
				695	switch (VT.getSimpleVT().SimpleTy) {
				696	case MVT::f32:
				697	return false; /* There is V_MAD_F32 for f32 */
				698	case MVT::f64:
				699	return true;
				700	default:
				701	break;
				702	}
				703
				704	return false;
				705	}
				706
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	707	//===----------------------------------------------------------------------===//
				708	// Custom DAG Lowering Operations
				709	//===----------------------------------------------------------------------===//
				710
				711	SDValue SITargetLowering::LowerOperation(SDValue Op, SelectionDAG &DAG) const {
				712	switch (Op.getOpcode()) {
				713	default: return AMDGPUTargetLowering::LowerOperation(Op, DAG);
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	714	case ISD::FrameIndex: return LowerFrameIndex(Op, DAG);
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	715	case ISD::BRCOND: return LowerBRCOND(Op, DAG);
Tom Stellard	35bb18c	2013-08-26 15:06:04 +0000	[diff] [blame]	716	case ISD::LOAD: {
Tom Stellard	e812f2f	2014-07-21 15:45:06 +0000	[diff] [blame]	717	SDValue Result = LowerLOAD(Op, DAG);
				718	assert((!Result.getNode() \|\|
				719	Result.getNode()->getNumValues() == 2) &&
				720	"Load should return a value and a chain");
				721	return Result;
Tom Stellard	35bb18c	2013-08-26 15:06:04 +0000	[diff] [blame]	722	}
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	723
Matt Arsenault	ad14ce8	2014-07-19 18:44:39 +0000	[diff] [blame]	724	case ISD::FSIN:
				725	case ISD::FCOS:
				726	return LowerTrig(Op, DAG);
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	727	case ISD::SELECT: return LowerSELECT(Op, DAG);
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	728	case ISD::FDIV: return LowerFDIV(Op, DAG);
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	729	case ISD::STORE: return LowerSTORE(Op, DAG);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	730	case ISD::GlobalAddress: {
				731	MachineFunction &MF = DAG.getMachineFunction();
				732	SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
				733	return LowerGlobalAddress(MFI, Op, DAG);
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	734	}
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	735	case ISD::INTRINSIC_WO_CHAIN: return LowerINTRINSIC_WO_CHAIN(Op, DAG);
				736	case ISD::INTRINSIC_VOID: return LowerINTRINSIC_VOID(Op, DAG);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	737	}
				738	return SDValue();
				739	}
				740
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	741	/// \brief Helper function for LowerBRCOND
				742	static SDNode *findUser(SDValue Value, unsigned Opcode) {
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	743
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	744	SDNode *Parent = Value.getNode();
				745	for (SDNode::use_iterator I = Parent->use_begin(), E = Parent->use_end();
				746	I != E; ++I) {
				747
				748	if (I.getUse().get() != Value)
				749	continue;
				750
				751	if (I->getOpcode() == Opcode)
				752	return *I;
				753	}
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	754	return nullptr;
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	755	}
				756
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	757	SDValue SITargetLowering::LowerFrameIndex(SDValue Op, SelectionDAG &DAG) const {
				758
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	759	FrameIndexSDNode *FINode = cast<FrameIndexSDNode>(Op);
				760	unsigned FrameIndex = FINode->getIndex();
				761
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	762	return DAG.getTargetFrameIndex(FrameIndex, MVT::i32);
				763	}
				764
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	765	/// This transforms the control flow intrinsics to get the branch destination as
				766	/// last parameter, also switches branch target with BR if the need arise
				767	SDValue SITargetLowering::LowerBRCOND(SDValue BRCOND,
				768	SelectionDAG &DAG) const {
				769
Andrew Trick	ef9de2a	2013-05-25 02:42:55 +0000	[diff] [blame]	770	SDLoc DL(BRCOND);
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	771
				772	SDNode *Intr = BRCOND.getOperand(1).getNode();
				773	SDValue Target = BRCOND.getOperand(2);
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	774	SDNode *BR = nullptr;
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	775
				776	if (Intr->getOpcode() == ISD::SETCC) {
				777	// As long as we negate the condition everything is fine
				778	SDNode *SetCC = Intr;
				779	assert(SetCC->getConstantOperandVal(1) == 1);
NAKAMURA Takumi	458a827	2013-01-07 11:14:44 +0000	[diff] [blame]	780	assert(cast<CondCodeSDNode>(SetCC->getOperand(2).getNode())->get() ==
				781	ISD::SETNE);
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	782	Intr = SetCC->getOperand(0).getNode();
				783
				784	} else {
				785	// Get the target from BR if we don't negate the condition
				786	BR = findUser(BRCOND, ISD::BR);
				787	Target = BR->getOperand(1);
				788	}
				789
				790	assert(Intr->getOpcode() == ISD::INTRINSIC_W_CHAIN);
				791
				792	// Build the result and
				793	SmallVector<EVT, 4> Res;
				794	for (unsigned i = 1, e = Intr->getNumValues(); i != e; ++i)
				795	Res.push_back(Intr->getValueType(i));
				796
				797	// operands of the new intrinsic call
				798	SmallVector<SDValue, 4> Ops;
				799	Ops.push_back(BRCOND.getOperand(0));
				800	for (unsigned i = 1, e = Intr->getNumOperands(); i != e; ++i)
				801	Ops.push_back(Intr->getOperand(i));
				802	Ops.push_back(Target);
				803
				804	// build the new intrinsic call
				805	SDNode *Result = DAG.getNode(
				806	Res.size() > 1 ? ISD::INTRINSIC_W_CHAIN : ISD::INTRINSIC_VOID, DL,
Craig Topper	48d114b	2014-04-26 18:35:24 +0000	[diff] [blame]	807	DAG.getVTList(Res), Ops).getNode();
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	808
				809	if (BR) {
				810	// Give the branch instruction our target
				811	SDValue Ops[] = {
				812	BR->getOperand(0),
				813	BRCOND.getOperand(2)
				814	};
Chandler Carruth	356665a	2014-08-01 22:09:43 +0000	[diff] [blame]	815	SDValue NewBR = DAG.getNode(ISD::BR, DL, BR->getVTList(), Ops);
				816	DAG.ReplaceAllUsesWith(BR, NewBR.getNode());
				817	BR = NewBR.getNode();
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	818	}
				819
				820	SDValue Chain = SDValue(Result, Result->getNumValues() - 1);
				821
				822	// Copy the intrinsic results to registers
				823	for (unsigned i = 1, e = Intr->getNumValues() - 1; i != e; ++i) {
				824	SDNode *CopyToReg = findUser(SDValue(Intr, i), ISD::CopyToReg);
				825	if (!CopyToReg)
				826	continue;
				827
				828	Chain = DAG.getCopyToReg(
				829	Chain, DL,
				830	CopyToReg->getOperand(1),
				831	SDValue(Result, i - 1),
				832	SDValue());
				833
				834	DAG.ReplaceAllUsesWith(SDValue(CopyToReg, 0), CopyToReg->getOperand(0));
				835	}
				836
				837	// Remove the old intrinsic from the chain
				838	DAG.ReplaceAllUsesOfValueWith(
				839	SDValue(Intr, Intr->getNumValues() - 1),
				840	Intr->getOperand(0));
				841
				842	return Chain;
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	843	}
				844
Tom Stellard	067c815	2014-07-21 14:01:14 +0000	[diff] [blame]	845	SDValue SITargetLowering::LowerGlobalAddress(AMDGPUMachineFunction *MFI,
				846	SDValue Op,
				847	SelectionDAG &DAG) const {
				848	GlobalAddressSDNode *GSD = cast<GlobalAddressSDNode>(Op);
				849
				850	if (GSD->getAddressSpace() != AMDGPUAS::CONSTANT_ADDRESS)
				851	return AMDGPUTargetLowering::LowerGlobalAddress(MFI, Op, DAG);
				852
				853	SDLoc DL(GSD);
				854	const GlobalValue *GV = GSD->getGlobal();
				855	MVT PtrVT = getPointerTy(GSD->getAddressSpace());
				856
				857	SDValue Ptr = DAG.getNode(AMDGPUISD::CONST_DATA_PTR, DL, PtrVT);
				858	SDValue GA = DAG.getTargetGlobalAddress(GV, DL, MVT::i32);
				859
				860	SDValue PtrLo = DAG.getNode(ISD::EXTRACT_ELEMENT, DL, MVT::i32, Ptr,
				861	DAG.getConstant(0, MVT::i32));
				862	SDValue PtrHi = DAG.getNode(ISD::EXTRACT_ELEMENT, DL, MVT::i32, Ptr,
				863	DAG.getConstant(1, MVT::i32));
				864
				865	SDValue Lo = DAG.getNode(ISD::ADDC, DL, DAG.getVTList(MVT::i32, MVT::Glue),
				866	PtrLo, GA);
				867	SDValue Hi = DAG.getNode(ISD::ADDE, DL, DAG.getVTList(MVT::i32, MVT::Glue),
				868	PtrHi, DAG.getConstant(0, MVT::i32),
				869	SDValue(Lo.getNode(), 1));
				870	return DAG.getNode(ISD::BUILD_PAIR, DL, MVT::i64, Lo, Hi);
				871	}
				872
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	873	SDValue SITargetLowering::LowerINTRINSIC_WO_CHAIN(SDValue Op,
				874	SelectionDAG &DAG) const {
				875	MachineFunction &MF = DAG.getMachineFunction();
				876	SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
				877
				878	EVT VT = Op.getValueType();
				879	SDLoc DL(Op);
				880	unsigned IntrinsicID = cast<ConstantSDNode>(Op.getOperand(0))->getZExtValue();
				881
				882	switch (IntrinsicID) {
				883	case Intrinsic::r600_read_ngroups_x:
				884	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(), 0, false);
				885	case Intrinsic::r600_read_ngroups_y:
				886	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(), 4, false);
				887	case Intrinsic::r600_read_ngroups_z:
				888	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(), 8, false);
				889	case Intrinsic::r600_read_global_size_x:
				890	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(), 12, false);
				891	case Intrinsic::r600_read_global_size_y:
				892	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(), 16, false);
				893	case Intrinsic::r600_read_global_size_z:
				894	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(), 20, false);
				895	case Intrinsic::r600_read_local_size_x:
				896	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(), 24, false);
				897	case Intrinsic::r600_read_local_size_y:
				898	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(), 28, false);
				899	case Intrinsic::r600_read_local_size_z:
				900	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(), 32, false);
				901	case Intrinsic::r600_read_tgid_x:
				902	return CreateLiveInRegister(DAG, &AMDGPU::SReg_32RegClass,
				903	AMDGPU::SReg_32RegClass.getRegister(MFI->NumUserSGPRs + 0), VT);
				904	case Intrinsic::r600_read_tgid_y:
				905	return CreateLiveInRegister(DAG, &AMDGPU::SReg_32RegClass,
				906	AMDGPU::SReg_32RegClass.getRegister(MFI->NumUserSGPRs + 1), VT);
				907	case Intrinsic::r600_read_tgid_z:
				908	return CreateLiveInRegister(DAG, &AMDGPU::SReg_32RegClass,
				909	AMDGPU::SReg_32RegClass.getRegister(MFI->NumUserSGPRs + 2), VT);
				910	case Intrinsic::r600_read_tidig_x:
				911	return CreateLiveInRegister(DAG, &AMDGPU::VReg_32RegClass,
				912	AMDGPU::VGPR0, VT);
				913	case Intrinsic::r600_read_tidig_y:
				914	return CreateLiveInRegister(DAG, &AMDGPU::VReg_32RegClass,
				915	AMDGPU::VGPR1, VT);
				916	case Intrinsic::r600_read_tidig_z:
				917	return CreateLiveInRegister(DAG, &AMDGPU::VReg_32RegClass,
				918	AMDGPU::VGPR2, VT);
				919	case AMDGPUIntrinsic::SI_load_const: {
				920	SDValue Ops[] = {
				921	Op.getOperand(1),
				922	Op.getOperand(2)
				923	};
				924
				925	MachineMemOperand *MMO = MF.getMachineMemOperand(
				926	MachinePointerInfo(),
				927	MachineMemOperand::MOLoad \| MachineMemOperand::MOInvariant,
				928	VT.getStoreSize(), 4);
				929	return DAG.getMemIntrinsicNode(AMDGPUISD::LOAD_CONSTANT, DL,
				930	Op->getVTList(), Ops, VT, MMO);
				931	}
				932	case AMDGPUIntrinsic::SI_sample:
				933	return LowerSampleIntrinsic(AMDGPUISD::SAMPLE, Op, DAG);
				934	case AMDGPUIntrinsic::SI_sampleb:
				935	return LowerSampleIntrinsic(AMDGPUISD::SAMPLEB, Op, DAG);
				936	case AMDGPUIntrinsic::SI_sampled:
				937	return LowerSampleIntrinsic(AMDGPUISD::SAMPLED, Op, DAG);
				938	case AMDGPUIntrinsic::SI_samplel:
				939	return LowerSampleIntrinsic(AMDGPUISD::SAMPLEL, Op, DAG);
				940	case AMDGPUIntrinsic::SI_vs_load_input:
				941	return DAG.getNode(AMDGPUISD::LOAD_INPUT, DL, VT,
				942	Op.getOperand(1),
				943	Op.getOperand(2),
				944	Op.getOperand(3));
				945	default:
				946	return AMDGPUTargetLowering::LowerOperation(Op, DAG);
				947	}
				948	}
				949
				950	SDValue SITargetLowering::LowerINTRINSIC_VOID(SDValue Op,
				951	SelectionDAG &DAG) const {
				952	MachineFunction &MF = DAG.getMachineFunction();
				953	SDValue Chain = Op.getOperand(0);
				954	unsigned IntrinsicID = cast<ConstantSDNode>(Op.getOperand(1))->getZExtValue();
				955
				956	switch (IntrinsicID) {
				957	case AMDGPUIntrinsic::SI_tbuffer_store: {
				958	SDLoc DL(Op);
				959	SDValue Ops[] = {
				960	Chain,
				961	Op.getOperand(2),
				962	Op.getOperand(3),
				963	Op.getOperand(4),
				964	Op.getOperand(5),
				965	Op.getOperand(6),
				966	Op.getOperand(7),
				967	Op.getOperand(8),
				968	Op.getOperand(9),
				969	Op.getOperand(10),
				970	Op.getOperand(11),
				971	Op.getOperand(12),
				972	Op.getOperand(13),
				973	Op.getOperand(14)
				974	};
				975
				976	EVT VT = Op.getOperand(3).getValueType();
				977
				978	MachineMemOperand *MMO = MF.getMachineMemOperand(
				979	MachinePointerInfo(),
				980	MachineMemOperand::MOStore,
				981	VT.getStoreSize(), 4);
				982	return DAG.getMemIntrinsicNode(AMDGPUISD::TBUFFER_STORE_FORMAT, DL,
				983	Op->getVTList(), Ops, VT, MMO);
				984	}
				985	default:
				986	return SDValue();
				987	}
				988	}
				989
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	990	SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
				991	SDLoc DL(Op);
				992	LoadSDNode *Load = cast<LoadSDNode>(Op);
				993
Tom Stellard	e812f2f	2014-07-21 15:45:06 +0000	[diff] [blame]	994	if (Op.getValueType().isVector()) {
				995	assert(Op.getValueType().getVectorElementType() == MVT::i32 &&
				996	"Custom lowering for non-i32 vectors hasn't been implemented.");
				997	unsigned NumElements = Op.getValueType().getVectorNumElements();
				998	assert(NumElements != 2 && "v2 loads are supported for all address spaces.");
				999	switch (Load->getAddressSpace()) {
				1000	default: break;
				1001	case AMDGPUAS::GLOBAL_ADDRESS:
				1002	case AMDGPUAS::PRIVATE_ADDRESS:
				1003	// v4 loads are supported for private and global memory.
				1004	if (NumElements <= 4)
				1005	break;
				1006	// fall-through
				1007	case AMDGPUAS::LOCAL_ADDRESS:
Matt Arsenault	83e6058	2014-07-24 17:10:35 +0000	[diff] [blame]	1008	return ScalarizeVectorLoad(Op, DAG);
Tom Stellard	e812f2f	2014-07-21 15:45:06 +0000	[diff] [blame]	1009	}
Tom Stellard	e937360	2014-01-22 19:24:14 +0000	[diff] [blame]	1010	}
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1011
Tom Stellard	e812f2f	2014-07-21 15:45:06 +0000	[diff] [blame]	1012	return AMDGPUTargetLowering::LowerLOAD(Op, DAG);
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1013	}
				1014
Tom Stellard	9fa1791	2013-08-14 23:24:45 +0000	[diff] [blame]	1015	SDValue SITargetLowering::LowerSampleIntrinsic(unsigned Opcode,
				1016	const SDValue &Op,
				1017	SelectionDAG &DAG) const {
				1018	return DAG.getNode(Opcode, SDLoc(Op), Op.getValueType(), Op.getOperand(1),
				1019	Op.getOperand(2),
Tom Stellard	868fd92	2014-04-17 21:00:11 +0000	[diff] [blame]	1020	Op.getOperand(3),
Tom Stellard	9fa1791	2013-08-14 23:24:45 +0000	[diff] [blame]	1021	Op.getOperand(4));
				1022	}
				1023
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	1024	SDValue SITargetLowering::LowerSELECT(SDValue Op, SelectionDAG &DAG) const {
				1025	if (Op.getValueType() != MVT::i64)
				1026	return SDValue();
				1027
				1028	SDLoc DL(Op);
				1029	SDValue Cond = Op.getOperand(0);
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	1030
				1031	SDValue Zero = DAG.getConstant(0, MVT::i32);
				1032	SDValue One = DAG.getConstant(1, MVT::i32);
				1033
Tom Stellard	7ea3d6d	2014-03-31 14:01:55 +0000	[diff] [blame]	1034	SDValue LHS = DAG.getNode(ISD::BITCAST, DL, MVT::v2i32, Op.getOperand(1));
				1035	SDValue RHS = DAG.getNode(ISD::BITCAST, DL, MVT::v2i32, Op.getOperand(2));
				1036
				1037	SDValue Lo0 = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, MVT::i32, LHS, Zero);
				1038	SDValue Lo1 = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, MVT::i32, RHS, Zero);
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	1039
				1040	SDValue Lo = DAG.getSelect(DL, MVT::i32, Cond, Lo0, Lo1);
				1041
Tom Stellard	7ea3d6d	2014-03-31 14:01:55 +0000	[diff] [blame]	1042	SDValue Hi0 = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, MVT::i32, LHS, One);
				1043	SDValue Hi1 = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, MVT::i32, RHS, One);
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	1044
				1045	SDValue Hi = DAG.getSelect(DL, MVT::i32, Cond, Hi0, Hi1);
				1046
Tom Stellard	7ea3d6d	2014-03-31 14:01:55 +0000	[diff] [blame]	1047	SDValue Res = DAG.getNode(ISD::BUILD_VECTOR, DL, MVT::v2i32, Lo, Hi);
				1048	return DAG.getNode(ISD::BITCAST, DL, MVT::i64, Res);
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	1049	}
				1050
Matt Arsenault	22ca3f8	2014-07-15 23:50:10 +0000	[diff] [blame]	1051	// Catch division cases where we can use shortcuts with rcp and rsq
				1052	// instructions.
				1053	SDValue SITargetLowering::LowerFastFDIV(SDValue Op, SelectionDAG &DAG) const {
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	1054	SDLoc SL(Op);
				1055	SDValue LHS = Op.getOperand(0);
				1056	SDValue RHS = Op.getOperand(1);
				1057	EVT VT = Op.getValueType();
Matt Arsenault	22ca3f8	2014-07-15 23:50:10 +0000	[diff] [blame]	1058	bool Unsafe = DAG.getTarget().Options.UnsafeFPMath;
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	1059
				1060	if (const ConstantFPSDNode *CLHS = dyn_cast<ConstantFPSDNode>(LHS)) {
Matt Arsenault	22ca3f8	2014-07-15 23:50:10 +0000	[diff] [blame]	1061	if ((Unsafe \|\| (VT == MVT::f32 && !Subtarget->hasFP32Denormals())) &&
				1062	CLHS->isExactlyValue(1.0)) {
				1063	// v_rcp_f32 and v_rsq_f32 do not support denormals, and according to
				1064	// the CI documentation has a worst case error of 1 ulp.
				1065	// OpenCL requires <= 2.5 ulp for 1.0 / x, so it should always be OK to
				1066	// use it as long as we aren't trying to use denormals.
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	1067
				1068	// 1.0 / sqrt(x) -> rsq(x)
Matt Arsenault	22ca3f8	2014-07-15 23:50:10 +0000	[diff] [blame]	1069	//
				1070	// XXX - Is UnsafeFPMath sufficient to do this for f64? The maximum ULP
				1071	// error seems really high at 2^29 ULP.
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	1072	if (RHS.getOpcode() == ISD::FSQRT)
				1073	return DAG.getNode(AMDGPUISD::RSQ, SL, VT, RHS.getOperand(0));
				1074
				1075	// 1.0 / x -> rcp(x)
				1076	return DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);
				1077	}
				1078	}
				1079
Matt Arsenault	22ca3f8	2014-07-15 23:50:10 +0000	[diff] [blame]	1080	if (Unsafe) {
				1081	// Turn into multiply by the reciprocal.
				1082	// x / y -> x * (1.0 / y)
				1083	SDValue Recip = DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);
				1084	return DAG.getNode(ISD::FMUL, SL, VT, LHS, Recip);
				1085	}
				1086
				1087	return SDValue();
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	1088	}
				1089
				1090	SDValue SITargetLowering::LowerFDIV32(SDValue Op, SelectionDAG &DAG) const {
Matt Arsenault	22ca3f8	2014-07-15 23:50:10 +0000	[diff] [blame]	1091	SDValue FastLowered = LowerFastFDIV(Op, DAG);
				1092	if (FastLowered.getNode())
				1093	return FastLowered;
				1094
				1095	// This uses v_rcp_f32 which does not handle denormals. Let this hit a
				1096	// selection error for now rather than do something incorrect.
				1097	if (Subtarget->hasFP32Denormals())
				1098	return SDValue();
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	1099
				1100	SDLoc SL(Op);
				1101	SDValue LHS = Op.getOperand(0);
				1102	SDValue RHS = Op.getOperand(1);
				1103
				1104	SDValue r1 = DAG.getNode(ISD::FABS, SL, MVT::f32, RHS);
				1105
				1106	const APFloat K0Val(BitsToFloat(0x6f800000));
				1107	const SDValue K0 = DAG.getConstantFP(K0Val, MVT::f32);
				1108
				1109	const APFloat K1Val(BitsToFloat(0x2f800000));
				1110	const SDValue K1 = DAG.getConstantFP(K1Val, MVT::f32);
				1111
				1112	const SDValue One = DAG.getTargetConstantFP(1.0, MVT::f32);
				1113
				1114	EVT SetCCVT = getSetCCResultType(*DAG.getContext(), MVT::f32);
				1115
				1116	SDValue r2 = DAG.getSetCC(SL, SetCCVT, r1, K0, ISD::SETOGT);
				1117
				1118	SDValue r3 = DAG.getNode(ISD::SELECT, SL, MVT::f32, r2, K1, One);
				1119
				1120	r1 = DAG.getNode(ISD::FMUL, SL, MVT::f32, RHS, r3);
				1121
				1122	SDValue r0 = DAG.getNode(AMDGPUISD::RCP, SL, MVT::f32, r1);
				1123
				1124	SDValue Mul = DAG.getNode(ISD::FMUL, SL, MVT::f32, LHS, r0);
				1125
				1126	return DAG.getNode(ISD::FMUL, SL, MVT::f32, r3, Mul);
				1127	}
				1128
				1129	SDValue SITargetLowering::LowerFDIV64(SDValue Op, SelectionDAG &DAG) const {
				1130	return SDValue();
				1131	}
				1132
				1133	SDValue SITargetLowering::LowerFDIV(SDValue Op, SelectionDAG &DAG) const {
				1134	EVT VT = Op.getValueType();
				1135
				1136	if (VT == MVT::f32)
				1137	return LowerFDIV32(Op, DAG);
				1138
				1139	if (VT == MVT::f64)
				1140	return LowerFDIV64(Op, DAG);
				1141
				1142	llvm_unreachable("Unexpected type for fdiv");
				1143	}
				1144
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1145	SDValue SITargetLowering::LowerSTORE(SDValue Op, SelectionDAG &DAG) const {
				1146	SDLoc DL(Op);
				1147	StoreSDNode *Store = cast<StoreSDNode>(Op);
				1148	EVT VT = Store->getMemoryVT();
				1149
Tom Stellard	9b3816b	2014-06-24 23:33:04 +0000	[diff] [blame]	1150	// These stores are legal.
				1151	if (Store->getAddressSpace() == AMDGPUAS::LOCAL_ADDRESS &&
				1152	VT.isVector() && VT.getVectorNumElements() == 2 &&
				1153	VT.getVectorElementType() == MVT::i32)
				1154	return SDValue();
				1155
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	1156	if (Store->getAddressSpace() == AMDGPUAS::PRIVATE_ADDRESS) {
				1157	if (VT.isVector() && VT.getVectorNumElements() > 4)
Matt Arsenault	83e6058	2014-07-24 17:10:35 +0000	[diff] [blame]	1158	return ScalarizeVectorStore(Op, DAG);
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	1159	return SDValue();
				1160	}
				1161
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1162	SDValue Ret = AMDGPUTargetLowering::LowerSTORE(Op, DAG);
				1163	if (Ret.getNode())
				1164	return Ret;
				1165
				1166	if (VT.isVector() && VT.getVectorNumElements() >= 8)
Matt Arsenault	83e6058	2014-07-24 17:10:35 +0000	[diff] [blame]	1167	return ScalarizeVectorStore(Op, DAG);
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1168
Tom Stellard	1c8788e	2014-03-07 20:12:33 +0000	[diff] [blame]	1169	if (VT == MVT::i1)
				1170	return DAG.getTruncStore(Store->getChain(), DL,
				1171	DAG.getSExtOrTrunc(Store->getValue(), DL, MVT::i32),
				1172	Store->getBasePtr(), MVT::i1, Store->getMemOperand());
				1173
Tom Stellard	e812f2f	2014-07-21 15:45:06 +0000	[diff] [blame]	1174	return SDValue();
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1175	}
				1176
Matt Arsenault	ad14ce8	2014-07-19 18:44:39 +0000	[diff] [blame]	1177	SDValue SITargetLowering::LowerTrig(SDValue Op, SelectionDAG &DAG) const {
				1178	EVT VT = Op.getValueType();
				1179	SDValue Arg = Op.getOperand(0);
				1180	SDValue FractPart = DAG.getNode(AMDGPUISD::FRACT, SDLoc(Op), VT,
				1181	DAG.getNode(ISD::FMUL, SDLoc(Op), VT, Arg,
				1182	DAG.getConstantFP(0.5 / M_PI, VT)));
				1183
				1184	switch (Op.getOpcode()) {
				1185	case ISD::FCOS:
				1186	return DAG.getNode(AMDGPUISD::COS_HW, SDLoc(Op), VT, FractPart);
				1187	case ISD::FSIN:
				1188	return DAG.getNode(AMDGPUISD::SIN_HW, SDLoc(Op), VT, FractPart);
				1189	default:
				1190	llvm_unreachable("Wrong trig opcode");
				1191	}
				1192	}
				1193
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1194	//===----------------------------------------------------------------------===//
				1195	// Custom DAG optimizations
				1196	//===----------------------------------------------------------------------===//
				1197
Matt Arsenault	364a674	2014-06-11 17:50:44 +0000	[diff] [blame]	1198	SDValue SITargetLowering::performUCharToFloatCombine(SDNode *N,
				1199	DAGCombinerInfo &DCI) {
				1200	EVT VT = N->getValueType(0);
				1201	EVT ScalarVT = VT.getScalarType();
				1202	if (ScalarVT != MVT::f32)
				1203	return SDValue();
				1204
				1205	SelectionDAG &DAG = DCI.DAG;
				1206	SDLoc DL(N);
				1207
				1208	SDValue Src = N->getOperand(0);
				1209	EVT SrcVT = Src.getValueType();
				1210
				1211	// TODO: We could try to match extracting the higher bytes, which would be
				1212	// easier if i8 vectors weren't promoted to i32 vectors, particularly after
				1213	// types are legalized. v4i8 -> v4f32 is probably the only case to worry
				1214	// about in practice.
				1215	if (DCI.isAfterLegalizeVectorOps() && SrcVT == MVT::i32) {
				1216	if (DAG.MaskedValueIsZero(Src, APInt::getHighBitsSet(32, 24))) {
				1217	SDValue Cvt = DAG.getNode(AMDGPUISD::CVT_F32_UBYTE0, DL, VT, Src);
				1218	DCI.AddToWorklist(Cvt.getNode());
				1219	return Cvt;
				1220	}
				1221	}
				1222
				1223	// We are primarily trying to catch operations on illegal vector types
				1224	// before they are expanded.
				1225	// For scalars, we can use the more flexible method of checking masked bits
				1226	// after legalization.
				1227	if (!DCI.isBeforeLegalize() \|\|
				1228	!SrcVT.isVector() \|\|
				1229	SrcVT.getVectorElementType() != MVT::i8) {
				1230	return SDValue();
				1231	}
				1232
				1233	assert(DCI.isBeforeLegalize() && "Unexpected legal type");
				1234
				1235	// Weird sized vectors are a pain to handle, but we know 3 is really the same
				1236	// size as 4.
				1237	unsigned NElts = SrcVT.getVectorNumElements();
				1238	if (!SrcVT.isSimple() && NElts != 3)
				1239	return SDValue();
				1240
				1241	// Handle v4i8 -> v4f32 extload. Replace the v4i8 with a legal i32 load to
				1242	// prevent a mess from expanding to v4i32 and repacking.
				1243	if (ISD::isNormalLoad(Src.getNode()) && Src.hasOneUse()) {
				1244	EVT LoadVT = getEquivalentMemType(*DAG.getContext(), SrcVT);
				1245	EVT RegVT = getEquivalentLoadRegType(*DAG.getContext(), SrcVT);
				1246	EVT FloatVT = EVT::getVectorVT(*DAG.getContext(), MVT::f32, NElts);
				1247
				1248	LoadSDNode *Load = cast<LoadSDNode>(Src);
				1249	SDValue NewLoad = DAG.getExtLoad(ISD::ZEXTLOAD, DL, RegVT,
				1250	Load->getChain(),
				1251	Load->getBasePtr(),
				1252	LoadVT,
				1253	Load->getMemOperand());
				1254
				1255	// Make sure successors of the original load stay after it by updating
				1256	// them to use the new Chain.
				1257	DAG.ReplaceAllUsesOfValueWith(SDValue(Load, 1), NewLoad.getValue(1));
				1258
				1259	SmallVector<SDValue, 4> Elts;
				1260	if (RegVT.isVector())
				1261	DAG.ExtractVectorElements(NewLoad, Elts);
				1262	else
				1263	Elts.push_back(NewLoad);
				1264
				1265	SmallVector<SDValue, 4> Ops;
				1266
				1267	unsigned EltIdx = 0;
				1268	for (SDValue Elt : Elts) {
				1269	unsigned ComponentsInElt = std::min(4u, NElts - 4 * EltIdx);
				1270	for (unsigned I = 0; I < ComponentsInElt; ++I) {
				1271	unsigned Opc = AMDGPUISD::CVT_F32_UBYTE0 + I;
				1272	SDValue Cvt = DAG.getNode(Opc, DL, MVT::f32, Elt);
				1273	DCI.AddToWorklist(Cvt.getNode());
				1274	Ops.push_back(Cvt);
				1275	}
				1276
				1277	++EltIdx;
				1278	}
				1279
				1280	assert(Ops.size() == NElts);
				1281
				1282	return DAG.getNode(ISD::BUILD_VECTOR, DL, FloatVT, Ops);
				1283	}
				1284
				1285	return SDValue();
				1286	}
				1287
Matt Arsenault	b2baffa	2014-08-15 17:49:05 +0000	[diff] [blame]	1288	// (shl (add x, c1), c2) -> add (shl x, c2), (shl c1, c2)
				1289
				1290	// This is a variant of
				1291	// (mul (add x, c1), c2) -> add (mul x, c2), (mul c1, c2),
				1292	//
				1293	// The normal DAG combiner will do this, but only if the add has one use since
				1294	// that would increase the number of instructions.
				1295	//
				1296	// This prevents us from seeing a constant offset that can be folded into a
				1297	// memory instruction's addressing mode. If we know the resulting add offset of
				1298	// a pointer can be folded into an addressing offset, we can replace the pointer
				1299	// operand with the add of new constant offset. This eliminates one of the uses,
				1300	// and may allow the remaining use to also be simplified.
				1301	//
				1302	SDValue SITargetLowering::performSHLPtrCombine(SDNode *N,
				1303	unsigned AddrSpace,
				1304	DAGCombinerInfo &DCI) const {
				1305	SDValue N0 = N->getOperand(0);
				1306	SDValue N1 = N->getOperand(1);
				1307
				1308	if (N0.getOpcode() != ISD::ADD)
				1309	return SDValue();
				1310
				1311	const ConstantSDNode *CN1 = dyn_cast<ConstantSDNode>(N1);
				1312	if (!CN1)
				1313	return SDValue();
				1314
				1315	const ConstantSDNode *CAdd = dyn_cast<ConstantSDNode>(N0.getOperand(1));
				1316	if (!CAdd)
				1317	return SDValue();
				1318
				1319	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				1320	getTargetMachine().getSubtargetImpl()->getInstrInfo());
				1321
				1322	// If the resulting offset is too large, we can't fold it into the addressing
				1323	// mode offset.
				1324	APInt Offset = CAdd->getAPIntValue() << CN1->getAPIntValue();
				1325	if (!TII->canFoldOffset(Offset.getZExtValue(), AddrSpace))
				1326	return SDValue();
				1327
				1328	SelectionDAG &DAG = DCI.DAG;
				1329	SDLoc SL(N);
				1330	EVT VT = N->getValueType(0);
				1331
				1332	SDValue ShlX = DAG.getNode(ISD::SHL, SL, VT, N0.getOperand(0), N1);
				1333	SDValue COffset = DAG.getConstant(Offset, MVT::i32);
				1334
				1335	return DAG.getNode(ISD::ADD, SL, VT, ShlX, COffset);
				1336	}
				1337
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1338	SDValue SITargetLowering::PerformDAGCombine(SDNode *N,
				1339	DAGCombinerInfo &DCI) const {
				1340	SelectionDAG &DAG = DCI.DAG;
Andrew Trick	ef9de2a	2013-05-25 02:42:55 +0000	[diff] [blame]	1341	SDLoc DL(N);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1342	EVT VT = N->getValueType(0);
				1343
				1344	switch (N->getOpcode()) {
Tom Stellard	50122a5	2014-04-07 19:45:41 +0000	[diff] [blame]	1345	default: return AMDGPUTargetLowering::PerformDAGCombine(N, DCI);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1346	case ISD::SETCC: {
				1347	SDValue Arg0 = N->getOperand(0);
				1348	SDValue Arg1 = N->getOperand(1);
				1349	SDValue CC = N->getOperand(2);
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	1350	ConstantSDNode * C = nullptr;
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1351	ISD::CondCode CCOp = dyn_cast<CondCodeSDNode>(CC)->get();
				1352
				1353	// i1 setcc (sext(i1), 0, setne) -> i1 setcc(i1, 0, setne)
				1354	if (VT == MVT::i1
				1355	&& Arg0.getOpcode() == ISD::SIGN_EXTEND
				1356	&& Arg0.getOperand(0).getValueType() == MVT::i1
				1357	&& (C = dyn_cast<ConstantSDNode>(Arg1))
				1358	&& C->isNullValue()
				1359	&& CCOp == ISD::SETNE) {
				1360	return SimplifySetCC(VT, Arg0.getOperand(0),
				1361	DAG.getConstant(0, MVT::i1), CCOp, true, DCI, DL);
				1362	}
				1363	break;
				1364	}
Matt Arsenault	364a674	2014-06-11 17:50:44 +0000	[diff] [blame]	1365
				1366	case AMDGPUISD::CVT_F32_UBYTE0:
				1367	case AMDGPUISD::CVT_F32_UBYTE1:
				1368	case AMDGPUISD::CVT_F32_UBYTE2:
				1369	case AMDGPUISD::CVT_F32_UBYTE3: {
				1370	unsigned Offset = N->getOpcode() - AMDGPUISD::CVT_F32_UBYTE0;
				1371
				1372	SDValue Src = N->getOperand(0);
				1373	APInt Demanded = APInt::getBitsSet(32, 8 * Offset, 8 * Offset + 8);
				1374
				1375	APInt KnownZero, KnownOne;
				1376	TargetLowering::TargetLoweringOpt TLO(DAG, !DCI.isBeforeLegalize(),
				1377	!DCI.isBeforeLegalizeOps());
				1378	const TargetLowering &TLI = DAG.getTargetLoweringInfo();
				1379	if (TLO.ShrinkDemandedConstant(Src, Demanded) \|\|
				1380	TLI.SimplifyDemandedBits(Src, Demanded, KnownZero, KnownOne, TLO)) {
				1381	DCI.CommitTargetLoweringOpt(TLO);
				1382	}
				1383
				1384	break;
				1385	}
				1386
				1387	case ISD::UINT_TO_FP: {
				1388	return performUCharToFloatCombine(N, DCI);
				1389	}
Matt Arsenault	b2baffa	2014-08-15 17:49:05 +0000	[diff] [blame]	1390	case ISD::LOAD:
				1391	case ISD::STORE:
				1392	case ISD::ATOMIC_LOAD:
				1393	case ISD::ATOMIC_STORE:
				1394	case ISD::ATOMIC_CMP_SWAP:
				1395	case ISD::ATOMIC_CMP_SWAP_WITH_SUCCESS:
				1396	case ISD::ATOMIC_SWAP:
				1397	case ISD::ATOMIC_LOAD_ADD:
				1398	case ISD::ATOMIC_LOAD_SUB:
				1399	case ISD::ATOMIC_LOAD_AND:
				1400	case ISD::ATOMIC_LOAD_OR:
				1401	case ISD::ATOMIC_LOAD_XOR:
				1402	case ISD::ATOMIC_LOAD_NAND:
				1403	case ISD::ATOMIC_LOAD_MIN:
				1404	case ISD::ATOMIC_LOAD_MAX:
				1405	case ISD::ATOMIC_LOAD_UMIN:
				1406	case ISD::ATOMIC_LOAD_UMAX: { // TODO: Target mem intrinsics.
				1407	if (DCI.isBeforeLegalize())
				1408	break;
Matt Arsenault	5565f65e	2014-05-22 18:09:07 +0000	[diff] [blame]	1409
Matt Arsenault	b2baffa	2014-08-15 17:49:05 +0000	[diff] [blame]	1410	MemSDNode *MemNode = cast<MemSDNode>(N);
				1411	SDValue Ptr = MemNode->getBasePtr();
				1412
				1413	// TODO: We could also do this for multiplies.
				1414	unsigned AS = MemNode->getAddressSpace();
				1415	if (Ptr.getOpcode() == ISD::SHL && AS != AMDGPUAS::PRIVATE_ADDRESS) {
				1416	SDValue NewPtr = performSHLPtrCombine(Ptr.getNode(), AS, DCI);
				1417	if (NewPtr) {
				1418	SmallVector<SDValue, 8> NewOps;
Aaron Ballman	f12dc9c	2014-08-18 11:51:41 +0000	[diff] [blame]	1419	for (unsigned I = 0, E = MemNode->getNumOperands(); I != E; ++I)
Matt Arsenault	b2baffa	2014-08-15 17:49:05 +0000	[diff] [blame]	1420	NewOps.push_back(MemNode->getOperand(I));
				1421
				1422	NewOps[N->getOpcode() == ISD::STORE ? 2 : 1] = NewPtr;
				1423	return SDValue(DAG.UpdateNodeOperands(MemNode, NewOps), 0);
				1424	}
				1425	}
				1426	break;
				1427	}
				1428	}
Matt Arsenault	5565f65e	2014-05-22 18:09:07 +0000	[diff] [blame]	1429	return AMDGPUTargetLowering::PerformDAGCombine(N, DCI);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1430	}
Christian Konig	d910b7d	2013-02-26 17:52:16 +0000	[diff] [blame]	1431
Matt Arsenault	75865923	2013-05-18 00:21:46 +0000	[diff] [blame]	1432	/// \brief Test if RegClass is one of the VSrc classes
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1433	static bool isVSrc(unsigned RegClass) {
				1434	return AMDGPU::VSrc_32RegClassID == RegClass \|\|
				1435	AMDGPU::VSrc_64RegClassID == RegClass;
				1436	}
				1437
Matt Arsenault	75865923	2013-05-18 00:21:46 +0000	[diff] [blame]	1438	/// \brief Test if RegClass is one of the SSrc classes
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1439	static bool isSSrc(unsigned RegClass) {
				1440	return AMDGPU::SSrc_32RegClassID == RegClass \|\|
				1441	AMDGPU::SSrc_64RegClassID == RegClass;
				1442	}
				1443
				1444	/// \brief Analyze the possible immediate value Op
				1445	///
				1446	/// Returns -1 if it isn't an immediate, 0 if it's and inline immediate
				1447	/// and the immediate value if it's a literal immediate
				1448	int32_t SITargetLowering::analyzeImmediate(const SDNode *N) const {
				1449
				1450	union {
				1451	int32_t I;
				1452	float F;
				1453	} Imm;
				1454
Tom Stellard	edbf1eb	2013-04-05 23:31:20 +0000	[diff] [blame]	1455	if (const ConstantSDNode *Node = dyn_cast<ConstantSDNode>(N)) {
				1456	if (Node->getZExtValue() >> 32) {
				1457	return -1;
				1458	}
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1459	Imm.I = Node->getSExtValue();
Tom Stellard	7ed0b52	2014-04-03 20:19:27 +0000	[diff] [blame]	1460	} else if (const ConstantFPSDNode *Node = dyn_cast<ConstantFPSDNode>(N)) {
				1461	if (N->getValueType(0) != MVT::f32)
				1462	return -1;
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1463	Imm.F = Node->getValueAPF().convertToFloat();
Tom Stellard	7ed0b52	2014-04-03 20:19:27 +0000	[diff] [blame]	1464	} else
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1465	return -1; // It isn't an immediate
				1466
				1467	if ((Imm.I >= -16 && Imm.I <= 64) \|\|
				1468	Imm.F == 0.5f \|\| Imm.F == -0.5f \|\|
				1469	Imm.F == 1.0f \|\| Imm.F == -1.0f \|\|
				1470	Imm.F == 2.0f \|\| Imm.F == -2.0f \|\|
				1471	Imm.F == 4.0f \|\| Imm.F == -4.0f)
				1472	return 0; // It's an inline immediate
				1473
				1474	return Imm.I; // It's a literal immediate
				1475	}
				1476
				1477	/// \brief Try to fold an immediate directly into an instruction
				1478	bool SITargetLowering::foldImm(SDValue &Operand, int32_t &Immediate,
				1479	bool &ScalarSlotUsed) const {
				1480
				1481	MachineSDNode *Mov = dyn_cast<MachineSDNode>(Operand);
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	1482	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				1483	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	1484	if (!Mov \|\| !TII->isMov(Mov->getMachineOpcode()))
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1485	return false;
				1486
				1487	const SDValue &Op = Mov->getOperand(0);
				1488	int32_t Value = analyzeImmediate(Op.getNode());
				1489	if (Value == -1) {
				1490	// Not an immediate at all
				1491	return false;
				1492
				1493	} else if (Value == 0) {
				1494	// Inline immediates can always be fold
				1495	Operand = Op;
				1496	return true;
				1497
				1498	} else if (Value == Immediate) {
				1499	// Already fold literal immediate
				1500	Operand = Op;
				1501	return true;
				1502
				1503	} else if (!ScalarSlotUsed && !Immediate) {
				1504	// Fold this literal immediate
				1505	ScalarSlotUsed = true;
				1506	Immediate = Value;
				1507	Operand = Op;
				1508	return true;
				1509
				1510	}
				1511
				1512	return false;
				1513	}
				1514
Tom Stellard	4c0ffcc	2013-08-06 23:08:18 +0000	[diff] [blame]	1515	const TargetRegisterClass *SITargetLowering::getRegClassForNode(
				1516	SelectionDAG &DAG, const SDValue &Op) const {
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	1517	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				1518	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Tom Stellard	4c0ffcc	2013-08-06 23:08:18 +0000	[diff] [blame]	1519	const SIRegisterInfo &TRI = TII->getRegisterInfo();
				1520
				1521	if (!Op->isMachineOpcode()) {
				1522	switch(Op->getOpcode()) {
				1523	case ISD::CopyFromReg: {
				1524	MachineRegisterInfo &MRI = DAG.getMachineFunction().getRegInfo();
				1525	unsigned Reg = cast<RegisterSDNode>(Op->getOperand(1))->getReg();
				1526	if (TargetRegisterInfo::isVirtualRegister(Reg)) {
				1527	return MRI.getRegClass(Reg);
				1528	}
				1529	return TRI.getPhysRegClass(Reg);
				1530	}
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	1531	default: return nullptr;
Tom Stellard	4c0ffcc	2013-08-06 23:08:18 +0000	[diff] [blame]	1532	}
				1533	}
				1534	const MCInstrDesc &Desc = TII->get(Op->getMachineOpcode());
				1535	int OpClassID = Desc.OpInfo[Op.getResNo()].RegClass;
				1536	if (OpClassID != -1) {
				1537	return TRI.getRegClass(OpClassID);
				1538	}
				1539	switch(Op.getMachineOpcode()) {
				1540	case AMDGPU::COPY_TO_REGCLASS:
				1541	// Operand 1 is the register class id for COPY_TO_REGCLASS instructions.
				1542	OpClassID = cast<ConstantSDNode>(Op->getOperand(1))->getZExtValue();
				1543
				1544	// If the COPY_TO_REGCLASS instruction is copying to a VSrc register
				1545	// class, then the register class for the value could be either a
				1546	// VReg or and SReg. In order to get a more accurate
				1547	if (OpClassID == AMDGPU::VSrc_32RegClassID \|\|
				1548	OpClassID == AMDGPU::VSrc_64RegClassID) {
				1549	return getRegClassForNode(DAG, Op.getOperand(0));
				1550	}
				1551	return TRI.getRegClass(OpClassID);
				1552	case AMDGPU::EXTRACT_SUBREG: {
				1553	int SubIdx = cast<ConstantSDNode>(Op.getOperand(1))->getZExtValue();
				1554	const TargetRegisterClass *SuperClass =
				1555	getRegClassForNode(DAG, Op.getOperand(0));
				1556	return TRI.getSubClassWithSubReg(SuperClass, SubIdx);
				1557	}
				1558	case AMDGPU::REG_SEQUENCE:
				1559	// Operand 0 is the register class id for REG_SEQUENCE instructions.
				1560	return TRI.getRegClass(
				1561	cast<ConstantSDNode>(Op.getOperand(0))->getZExtValue());
				1562	default:
				1563	return getRegClassFor(Op.getSimpleValueType());
				1564	}
				1565	}
				1566
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1567	/// \brief Does "Op" fit into register class "RegClass" ?
Tom Stellard	b35efba	2013-05-20 15:02:01 +0000	[diff] [blame]	1568	bool SITargetLowering::fitsRegClass(SelectionDAG &DAG, const SDValue &Op,
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1569	unsigned RegClass) const {
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	1570	const TargetRegisterInfo *TRI =
				1571	getTargetMachine().getSubtargetImpl()->getRegisterInfo();
Tom Stellard	4c0ffcc	2013-08-06 23:08:18 +0000	[diff] [blame]	1572	const TargetRegisterClass *RC = getRegClassForNode(DAG, Op);
				1573	if (!RC) {
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1574	return false;
Tom Stellard	4c0ffcc	2013-08-06 23:08:18 +0000	[diff] [blame]	1575	}
				1576	return TRI->getRegClass(RegClass)->hasSubClassEq(RC);
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1577	}
				1578
				1579	/// \brief Make sure that we don't exeed the number of allowed scalars
				1580	void SITargetLowering::ensureSRegLimit(SelectionDAG &DAG, SDValue &Operand,
				1581	unsigned RegClass,
				1582	bool &ScalarSlotUsed) const {
				1583
				1584	// First map the operands register class to a destination class
				1585	if (RegClass == AMDGPU::VSrc_32RegClassID)
				1586	RegClass = AMDGPU::VReg_32RegClassID;
				1587	else if (RegClass == AMDGPU::VSrc_64RegClassID)
				1588	RegClass = AMDGPU::VReg_64RegClassID;
				1589	else
				1590	return;
				1591
Alp Toker	cb40291	2014-01-24 17:20:08 +0000	[diff] [blame]	1592	// Nothing to do if they fit naturally
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1593	if (fitsRegClass(DAG, Operand, RegClass))
				1594	return;
				1595
				1596	// If the scalar slot isn't used yet use it now
				1597	if (!ScalarSlotUsed) {
				1598	ScalarSlotUsed = true;
				1599	return;
				1600	}
				1601
Matt Arsenault	1408b60	2013-10-10 23:05:37 +0000	[diff] [blame]	1602	// This is a conservative aproach. It is possible that we can't determine the
				1603	// correct register class and copy too often, but better safe than sorry.
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	1604
				1605	SDNode *Node;
				1606	// We can't use COPY_TO_REGCLASS with FrameIndex arguments.
				1607	if (isa<FrameIndexSDNode>(Operand)) {
				1608	unsigned Opcode = Operand.getValueType() == MVT::i32 ?
				1609	AMDGPU::S_MOV_B32 : AMDGPU::S_MOV_B64;
				1610	Node = DAG.getMachineNode(Opcode, SDLoc(), Operand.getValueType(),
				1611	Operand);
				1612	} else {
				1613	SDValue RC = DAG.getTargetConstant(RegClass, MVT::i32);
				1614	Node = DAG.getMachineNode(TargetOpcode::COPY_TO_REGCLASS, SDLoc(),
				1615	Operand.getValueType(), Operand, RC);
				1616	}
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1617	Operand = SDValue(Node, 0);
				1618	}
				1619
Tom Stellard	acec99c	2013-06-05 23:39:50 +0000	[diff] [blame]	1620	/// \returns true if \p Node's operands are different from the SDValue list
				1621	/// \p Ops
				1622	static bool isNodeChanged(const SDNode *Node, const std::vector<SDValue> &Ops) {
				1623	for (unsigned i = 0, e = Node->getNumOperands(); i < e; ++i) {
				1624	if (Ops[i].getNode() != Node->getOperand(i).getNode()) {
				1625	return true;
				1626	}
				1627	}
				1628	return false;
				1629	}
				1630
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1631	/// \brief Try to fold the Nodes operands into the Node
				1632	SDNode SITargetLowering::foldOperands(MachineSDNode Node,
				1633	SelectionDAG &DAG) const {
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1634
				1635	// Original encoding (either e32 or e64)
				1636	int Opcode = Node->getMachineOpcode();
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	1637	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				1638	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1639	const MCInstrDesc *Desc = &TII->get(Opcode);
				1640
				1641	unsigned NumDefs = Desc->getNumDefs();
				1642	unsigned NumOps = Desc->getNumOperands();
				1643
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1644	// Commuted opcode if available
				1645	int OpcodeRev = Desc->isCommutable() ? TII->commuteOpcode(Opcode) : -1;
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	1646	const MCInstrDesc *DescRev = OpcodeRev == -1 ? nullptr : &TII->get(OpcodeRev);
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1647
				1648	assert(!DescRev \|\| DescRev->getNumDefs() == NumDefs);
				1649	assert(!DescRev \|\| DescRev->getNumOperands() == NumOps);
				1650
Christian Konig	e500e44	2013-02-26 17:52:47 +0000	[diff] [blame]	1651	// e64 version if available, -1 otherwise
				1652	int OpcodeE64 = AMDGPU::getVOPe64(Opcode);
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	1653	const MCInstrDesc *DescE64 = OpcodeE64 == -1 ? nullptr : &TII->get(OpcodeE64);
Vincent Lejeune	29c0c21	2014-05-10 19:18:39 +0000	[diff] [blame]	1654	int InputModifiers[3] = {0};
Christian Konig	e500e44	2013-02-26 17:52:47 +0000	[diff] [blame]	1655
				1656	assert(!DescE64 \|\| DescE64->getNumDefs() == NumDefs);
Christian Konig	e500e44	2013-02-26 17:52:47 +0000	[diff] [blame]	1657
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1658	int32_t Immediate = Desc->getSize() == 4 ? 0 : -1;
				1659	bool HaveVSrc = false, HaveSSrc = false;
				1660
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	1661	// First figure out what we already have in this instruction.
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1662	for (unsigned i = 0, e = Node->getNumOperands(), Op = NumDefs;
				1663	i != e && Op < NumOps; ++i, ++Op) {
				1664
				1665	unsigned RegClass = Desc->OpInfo[Op].RegClass;
				1666	if (isVSrc(RegClass))
				1667	HaveVSrc = true;
				1668	else if (isSSrc(RegClass))
				1669	HaveSSrc = true;
				1670	else
				1671	continue;
				1672
				1673	int32_t Imm = analyzeImmediate(Node->getOperand(i).getNode());
				1674	if (Imm != -1 && Imm != 0) {
				1675	// Literal immediate
				1676	Immediate = Imm;
				1677	}
				1678	}
				1679
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	1680	// If we neither have VSrc nor SSrc, it makes no sense to continue.
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1681	if (!HaveVSrc && !HaveSSrc)
				1682	return Node;
				1683
				1684	// No scalar allowed when we have both VSrc and SSrc
				1685	bool ScalarSlotUsed = HaveVSrc && HaveSSrc;
				1686
				1687	// Second go over the operands and try to fold them
				1688	std::vector<SDValue> Ops;
Christian Konig	e500e44	2013-02-26 17:52:47 +0000	[diff] [blame]	1689	bool Promote2e64 = false;
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1690	for (unsigned i = 0, e = Node->getNumOperands(), Op = NumDefs;
				1691	i != e && Op < NumOps; ++i, ++Op) {
				1692
				1693	const SDValue &Operand = Node->getOperand(i);
				1694	Ops.push_back(Operand);
				1695
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	1696	// Already folded immediate?
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1697	if (isa<ConstantSDNode>(Operand.getNode()) \|\|
				1698	isa<ConstantFPSDNode>(Operand.getNode()))
				1699	continue;
				1700
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	1701	// Is this a VSrc or SSrc operand?
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1702	unsigned RegClass = Desc->OpInfo[Op].RegClass;
Christian Konig	8370dbb	2013-03-26 14:04:17 +0000	[diff] [blame]	1703	if (isVSrc(RegClass) \|\| isSSrc(RegClass)) {
				1704	// Try to fold the immediates
				1705	if (!foldImm(Ops[i], Immediate, ScalarSlotUsed)) {
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	1706	// Folding didn't work, make sure we don't hit the SReg limit.
Christian Konig	8370dbb	2013-03-26 14:04:17 +0000	[diff] [blame]	1707	ensureSRegLimit(DAG, Ops[i], RegClass, ScalarSlotUsed);
				1708	}
				1709	continue;
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	1710	} else {
				1711	// If it's not a VSrc or SSrc operand check if we have a GlobalAddress.
				1712	// These will be lowered to immediates, so we will need to insert a MOV.
				1713	if (isa<GlobalAddressSDNode>(Ops[i])) {
				1714	SDNode *Node = DAG.getMachineNode(AMDGPU::V_MOV_B32_e32, SDLoc(),
				1715	Operand.getValueType(), Operand);
				1716	Ops[i] = SDValue(Node, 0);
				1717	}
Christian Konig	8370dbb	2013-03-26 14:04:17 +0000	[diff] [blame]	1718	}
Christian Konig	6612ac3	2013-02-26 17:52:36 +0000	[diff] [blame]	1719
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1720	if (i == 1 && DescRev && fitsRegClass(DAG, Ops[0], RegClass)) {
Christian Konig	6612ac3	2013-02-26 17:52:36 +0000	[diff] [blame]	1721
Christian Konig	8370dbb	2013-03-26 14:04:17 +0000	[diff] [blame]	1722	unsigned OtherRegClass = Desc->OpInfo[NumDefs].RegClass;
				1723	assert(isVSrc(OtherRegClass) \|\| isSSrc(OtherRegClass));
				1724
				1725	// Test if it makes sense to swap operands
				1726	if (foldImm(Ops[1], Immediate, ScalarSlotUsed) \|\|
				1727	(!fitsRegClass(DAG, Ops[1], RegClass) &&
				1728	fitsRegClass(DAG, Ops[1], OtherRegClass))) {
Christian Konig	6612ac3	2013-02-26 17:52:36 +0000	[diff] [blame]	1729
				1730	// Swap commutable operands
Matt Arsenault	4be76e9	2014-04-07 16:44:26 +0000	[diff] [blame]	1731	std::swap(Ops[0], Ops[1]);
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1732
				1733	Desc = DescRev;
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	1734	DescRev = nullptr;
Christian Konig	8370dbb	2013-03-26 14:04:17 +0000	[diff] [blame]	1735	continue;
Christian Konig	6612ac3	2013-02-26 17:52:36 +0000	[diff] [blame]	1736	}
Christian Konig	6612ac3	2013-02-26 17:52:36 +0000	[diff] [blame]	1737	}
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1738
Vincent Lejeune	29c0c21	2014-05-10 19:18:39 +0000	[diff] [blame]	1739	if (Immediate)
				1740	continue;
				1741
				1742	if (DescE64) {
Christian Konig	8370dbb	2013-03-26 14:04:17 +0000	[diff] [blame]	1743	// Test if it makes sense to switch to e64 encoding
				1744	unsigned OtherRegClass = DescE64->OpInfo[Op].RegClass;
				1745	if (!isVSrc(OtherRegClass) && !isSSrc(OtherRegClass))
				1746	continue;
				1747
				1748	int32_t TmpImm = -1;
				1749	if (foldImm(Ops[i], TmpImm, ScalarSlotUsed) \|\|
				1750	(!fitsRegClass(DAG, Ops[i], RegClass) &&
				1751	fitsRegClass(DAG, Ops[1], OtherRegClass))) {
				1752
				1753	// Switch to e64 encoding
				1754	Immediate = -1;
				1755	Promote2e64 = true;
				1756	Desc = DescE64;
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	1757	DescE64 = nullptr;
Christian Konig	8370dbb	2013-03-26 14:04:17 +0000	[diff] [blame]	1758	}
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1759	}
Vincent Lejeune	29c0c21	2014-05-10 19:18:39 +0000	[diff] [blame]	1760
				1761	if (!DescE64 && !Promote2e64)
				1762	continue;
				1763	if (!Operand.isMachineOpcode())
				1764	continue;
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1765	}
				1766
Christian Konig	e500e44	2013-02-26 17:52:47 +0000	[diff] [blame]	1767	if (Promote2e64) {
Vincent Lejeune	94af31f	2014-05-10 19:18:33 +0000	[diff] [blame]	1768	std::vector<SDValue> OldOps(Ops);
				1769	Ops.clear();
Tom Stellard	b4a313a	2014-08-01 00:32:39 +0000	[diff] [blame]	1770	bool HasModifiers = TII->hasModifiers(Desc->Opcode);
Vincent Lejeune	94af31f	2014-05-10 19:18:33 +0000	[diff] [blame]	1771	for (unsigned i = 0; i < OldOps.size(); ++i) {
				1772	// src_modifier
Tom Stellard	b4a313a	2014-08-01 00:32:39 +0000	[diff] [blame]	1773	if (HasModifiers)
				1774	Ops.push_back(DAG.getTargetConstant(InputModifiers[i], MVT::i32));
Vincent Lejeune	94af31f	2014-05-10 19:18:33 +0000	[diff] [blame]	1775	Ops.push_back(OldOps[i]);
				1776	}
Christian Konig	e500e44	2013-02-26 17:52:47 +0000	[diff] [blame]	1777	// Add the modifier flags while promoting
Tom Stellard	b4a313a	2014-08-01 00:32:39 +0000	[diff] [blame]	1778	if (HasModifiers) {
				1779	for (unsigned i = 0; i < 2; ++i)
				1780	Ops.push_back(DAG.getTargetConstant(0, MVT::i32));
				1781	}
Christian Konig	e500e44	2013-02-26 17:52:47 +0000	[diff] [blame]	1782	}
				1783
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1784	// Add optional chain and glue
				1785	for (unsigned i = NumOps - NumDefs, e = Node->getNumOperands(); i < e; ++i)
				1786	Ops.push_back(Node->getOperand(i));
				1787
Tom Stellard	b5a9700	2013-06-03 17:39:50 +0000	[diff] [blame]	1788	// Nodes that have a glue result are not CSE'd by getMachineNode(), so in
				1789	// this case a brand new node is always be created, even if the operands
				1790	// are the same as before. So, manually check if anything has been changed.
Tom Stellard	acec99c	2013-06-05 23:39:50 +0000	[diff] [blame]	1791	if (Desc->Opcode == Opcode && !isNodeChanged(Node, Ops)) {
				1792	return Node;
Tom Stellard	b5a9700	2013-06-03 17:39:50 +0000	[diff] [blame]	1793	}
				1794
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1795	// Create a complete new instruction
Andrew Trick	ef9de2a	2013-05-25 02:42:55 +0000	[diff] [blame]	1796	return DAG.getMachineNode(Desc->Opcode, SDLoc(Node), Node->getVTList(), Ops);
Christian Konig	d910b7d	2013-02-26 17:52:16 +0000	[diff] [blame]	1797	}
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1798
				1799	/// \brief Helper function for adjustWritemask
Benjamin Kramer	635e368	2013-05-23 15:43:05 +0000	[diff] [blame]	1800	static unsigned SubIdx2Lane(unsigned Idx) {
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1801	switch (Idx) {
				1802	default: return 0;
				1803	case AMDGPU::sub0: return 0;
				1804	case AMDGPU::sub1: return 1;
				1805	case AMDGPU::sub2: return 2;
				1806	case AMDGPU::sub3: return 3;
				1807	}
				1808	}
				1809
				1810	/// \brief Adjust the writemask of MIMG instructions
				1811	void SITargetLowering::adjustWritemask(MachineSDNode *&Node,
				1812	SelectionDAG &DAG) const {
				1813	SDNode *Users[4] = { };
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1814	unsigned Lane = 0;
				1815	unsigned OldDmask = Node->getConstantOperandVal(0);
				1816	unsigned NewDmask = 0;
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1817
				1818	// Try to figure out the used register components
				1819	for (SDNode::use_iterator I = Node->use_begin(), E = Node->use_end();
				1820	I != E; ++I) {
				1821
				1822	// Abort if we can't understand the usage
				1823	if (!I->isMachineOpcode() \|\|
				1824	I->getMachineOpcode() != TargetOpcode::EXTRACT_SUBREG)
				1825	return;
				1826
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1827	// Lane means which subreg of %VGPRa_VGPRb_VGPRc_VGPRd is used.
				1828	// Note that subregs are packed, i.e. Lane==0 is the first bit set
				1829	// in OldDmask, so it can be any of X,Y,Z,W; Lane==1 is the second bit
				1830	// set, etc.
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1831	Lane = SubIdx2Lane(I->getConstantOperandVal(1));
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1832
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1833	// Set which texture component corresponds to the lane.
				1834	unsigned Comp;
				1835	for (unsigned i = 0, Dmask = OldDmask; i <= Lane; i++) {
				1836	assert(Dmask);
Tom Stellard	03a5c08	2013-10-23 03:50:25 +0000	[diff] [blame]	1837	Comp = countTrailingZeros(Dmask);
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1838	Dmask &= ~(1 << Comp);
				1839	}
				1840
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1841	// Abort if we have more than one user per component
				1842	if (Users[Lane])
				1843	return;
				1844
				1845	Users[Lane] = *I;
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1846	NewDmask \|= 1 << Comp;
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1847	}
				1848
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1849	// Abort if there's no change
				1850	if (NewDmask == OldDmask)
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1851	return;
				1852
				1853	// Adjust the writemask in the node
				1854	std::vector<SDValue> Ops;
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1855	Ops.push_back(DAG.getTargetConstant(NewDmask, MVT::i32));
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1856	for (unsigned i = 1, e = Node->getNumOperands(); i != e; ++i)
				1857	Ops.push_back(Node->getOperand(i));
Craig Topper	8c0b4d0	2014-04-28 05:57:50 +0000	[diff] [blame]	1858	Node = (MachineSDNode*)DAG.UpdateNodeOperands(Node, Ops);
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1859
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1860	// If we only got one lane, replace it with a copy
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1861	// (if NewDmask has only one bit set...)
				1862	if (NewDmask && (NewDmask & (NewDmask-1)) == 0) {
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1863	SDValue RC = DAG.getTargetConstant(AMDGPU::VReg_32RegClassID, MVT::i32);
				1864	SDNode *Copy = DAG.getMachineNode(TargetOpcode::COPY_TO_REGCLASS,
Andrew Trick	ef9de2a	2013-05-25 02:42:55 +0000	[diff] [blame]	1865	SDLoc(), Users[Lane]->getValueType(0),
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1866	SDValue(Node, 0), RC);
				1867	DAG.ReplaceAllUsesWith(Users[Lane], Copy);
				1868	return;
				1869	}
				1870
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1871	// Update the users of the node with the new indices
				1872	for (unsigned i = 0, Idx = AMDGPU::sub0; i < 4; ++i) {
				1873
				1874	SDNode *User = Users[i];
				1875	if (!User)
				1876	continue;
				1877
				1878	SDValue Op = DAG.getTargetConstant(Idx, MVT::i32);
				1879	DAG.UpdateNodeOperands(User, User->getOperand(0), Op);
				1880
				1881	switch (Idx) {
				1882	default: break;
				1883	case AMDGPU::sub0: Idx = AMDGPU::sub1; break;
				1884	case AMDGPU::sub1: Idx = AMDGPU::sub2; break;
				1885	case AMDGPU::sub2: Idx = AMDGPU::sub3; break;
				1886	}
				1887	}
				1888	}
				1889
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	1890	/// \brief Fold the instructions after selecting them.
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1891	SDNode SITargetLowering::PostISelFolding(MachineSDNode Node,
				1892	SelectionDAG &DAG) const {
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	1893	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				1894	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Tom Stellard	0518ff8	2013-06-03 17:39:58 +0000	[diff] [blame]	1895	Node = AdjustRegClass(Node, DAG);
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1896
Tom Stellard	16a9a20	2013-08-14 23:24:17 +0000	[diff] [blame]	1897	if (TII->isMIMG(Node->getMachineOpcode()))
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1898	adjustWritemask(Node, DAG);
				1899
				1900	return foldOperands(Node, DAG);
				1901	}
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1902
				1903	/// \brief Assign the register class depending on the number of
				1904	/// bits set in the writemask
				1905	void SITargetLowering::AdjustInstrPostInstrSelection(MachineInstr *MI,
				1906	SDNode *Node) const {
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	1907	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				1908	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Tom Stellard	16a9a20	2013-08-14 23:24:17 +0000	[diff] [blame]	1909	if (!TII->isMIMG(MI->getOpcode()))
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1910	return;
				1911
				1912	unsigned VReg = MI->getOperand(0).getReg();
				1913	unsigned Writemask = MI->getOperand(1).getImm();
				1914	unsigned BitsSet = 0;
				1915	for (unsigned i = 0; i < 4; ++i)
				1916	BitsSet += Writemask & (1 << i) ? 1 : 0;
				1917
				1918	const TargetRegisterClass *RC;
				1919	switch (BitsSet) {
				1920	default: return;
				1921	case 1: RC = &AMDGPU::VReg_32RegClass; break;
				1922	case 2: RC = &AMDGPU::VReg_64RegClass; break;
				1923	case 3: RC = &AMDGPU::VReg_96RegClass; break;
				1924	}
				1925
Tom Stellard	682bfbc	2013-10-10 17:11:24 +0000	[diff] [blame]	1926	unsigned NewOpcode = TII->getMaskedMIMGOp(MI->getOpcode(), BitsSet);
				1927	MI->setDesc(TII->get(NewOpcode));
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1928	MachineRegisterInfo &MRI = MI->getParent()->getParent()->getRegInfo();
				1929	MRI.setRegClass(VReg, RC);
				1930	}
Tom Stellard	0518ff8	2013-06-03 17:39:58 +0000	[diff] [blame]	1931
				1932	MachineSDNode SITargetLowering::AdjustRegClass(MachineSDNode N,
				1933	SelectionDAG &DAG) const {
				1934
				1935	SDLoc DL(N);
				1936	unsigned NewOpcode = N->getMachineOpcode();
				1937
				1938	switch (N->getMachineOpcode()) {
				1939	default: return N;
Tom Stellard	0518ff8	2013-06-03 17:39:58 +0000	[diff] [blame]	1940	case AMDGPU::S_LOAD_DWORD_IMM:
				1941	NewOpcode = AMDGPU::BUFFER_LOAD_DWORD_ADDR64;
				1942	// Fall-through
				1943	case AMDGPU::S_LOAD_DWORDX2_SGPR:
				1944	if (NewOpcode == N->getMachineOpcode()) {
				1945	NewOpcode = AMDGPU::BUFFER_LOAD_DWORDX2_ADDR64;
				1946	}
				1947	// Fall-through
				1948	case AMDGPU::S_LOAD_DWORDX4_IMM:
				1949	case AMDGPU::S_LOAD_DWORDX4_SGPR: {
				1950	if (NewOpcode == N->getMachineOpcode()) {
				1951	NewOpcode = AMDGPU::BUFFER_LOAD_DWORDX4_ADDR64;
				1952	}
				1953	if (fitsRegClass(DAG, N->getOperand(0), AMDGPU::SReg_64RegClassID)) {
				1954	return N;
				1955	}
				1956	ConstantSDNode *Offset = cast<ConstantSDNode>(N->getOperand(1));
				1957	SDValue Ops[] = {
				1958	SDValue(DAG.getMachineNode(AMDGPU::SI_ADDR64_RSRC, DL, MVT::i128,
				1959	DAG.getConstant(0, MVT::i64)), 0),
				1960	N->getOperand(0),
				1961	DAG.getConstant(Offset->getSExtValue() << 2, MVT::i32)
				1962	};
				1963	return DAG.getMachineNode(NewOpcode, DL, N->getVTList(), Ops);
				1964	}
				1965	}
				1966	}
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	1967
				1968	SDValue SITargetLowering::CreateLiveInRegister(SelectionDAG &DAG,
				1969	const TargetRegisterClass *RC,
				1970	unsigned Reg, EVT VT) const {
				1971	SDValue VReg = AMDGPUTargetLowering::CreateLiveInRegister(DAG, RC, Reg, VT);
				1972
				1973	return DAG.getCopyFromReg(DAG.getEntryNode(), SDLoc(DAG.getEntryNode()),
				1974	cast<RegisterSDNode>(VReg)->getReg(), VT);
				1975	}