Blame - llvm/lib/Target/R600/SIISelLowering.cpp - toolchain/llvm-project

blob: cb7385d66fa5459d2f465019fac730b0dab596a7 [file] [log] [blame]

Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1	//===-- SIISelLowering.cpp - SI DAG Lowering Implementation ---------------===//
				2	//
				3	// The LLVM Compiler Infrastructure
				4	//
				5	// This file is distributed under the University of Illinois Open Source
				6	// License. See LICENSE.TXT for details.
				7	//
				8	//===----------------------------------------------------------------------===//
				9	//
				10	/// \file
				11	/// \brief Custom DAG lowering for SI
				12	//
				13	//===----------------------------------------------------------------------===//
				14
NAKAMURA Takumi	45e0a83	2014-07-20 11:15:07 +0000	[diff] [blame]	15	#ifdef _MSC_VER
				16	// Provide M_PI.
				17	#define _USE_MATH_DEFINES
				18	#include <cmath>
				19	#endif
				20
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	21	#include "SIISelLowering.h"
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	22	#include "AMDGPU.h"
Matt Arsenault	c791f39	2014-06-23 18:00:31 +0000	[diff] [blame]	23	#include "AMDGPUIntrinsicInfo.h"
Matt Arsenault	41e2f2b	2014-02-24 21:01:28 +0000	[diff] [blame]	24	#include "AMDGPUSubtarget.h"
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	25	#include "SIInstrInfo.h"
				26	#include "SIMachineFunctionInfo.h"
				27	#include "SIRegisterInfo.h"
Alexey Samsonov	a253bf9	2014-08-27 19:36:53 +0000	[diff] [blame]	28	#include "llvm/ADT/BitVector.h"
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	29	#include "llvm/CodeGen/CallingConvLower.h"
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	30	#include "llvm/CodeGen/MachineInstrBuilder.h"
				31	#include "llvm/CodeGen/MachineRegisterInfo.h"
				32	#include "llvm/CodeGen/SelectionDAG.h"
Benjamin Kramer	d78bb46	2013-05-23 17:10:37 +0000	[diff] [blame]	33	#include "llvm/IR/Function.h"
Matt Arsenault	364a674	2014-06-11 17:50:44 +0000	[diff] [blame]	34	#include "llvm/ADT/SmallString.h"
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	35
				36	using namespace llvm;
				37
				38	SITargetLowering::SITargetLowering(TargetMachine &TM) :
Bill Wendling	37e9adb	2013-06-07 20:28:55 +0000	[diff] [blame]	39	AMDGPUTargetLowering(TM) {
Tom Stellard	1bd8072	2014-04-30 15:31:33 +0000	[diff] [blame]	40	addRegisterClass(MVT::i1, &AMDGPU::VReg_1RegClass);
Tom Stellard	436780b	2014-05-15 14:41:57 +0000	[diff] [blame]	41	addRegisterClass(MVT::i64, &AMDGPU::SReg_64RegClass);
Christian Konig	2214f14	2013-03-07 09:03:38 +0000	[diff] [blame]	42
Christian Konig	2214f14	2013-03-07 09:03:38 +0000	[diff] [blame]	43	addRegisterClass(MVT::v32i8, &AMDGPU::SReg_256RegClass);
				44	addRegisterClass(MVT::v64i8, &AMDGPU::SReg_512RegClass);
				45
Tom Stellard	334b29c	2014-04-17 21:00:09 +0000	[diff] [blame]	46	addRegisterClass(MVT::i32, &AMDGPU::SReg_32RegClass);
Tom Stellard	436780b	2014-05-15 14:41:57 +0000	[diff] [blame]	47	addRegisterClass(MVT::f32, &AMDGPU::VReg_32RegClass);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	48
Tom Stellard	436780b	2014-05-15 14:41:57 +0000	[diff] [blame]	49	addRegisterClass(MVT::f64, &AMDGPU::VReg_64RegClass);
				50	addRegisterClass(MVT::v2i32, &AMDGPU::SReg_64RegClass);
				51	addRegisterClass(MVT::v2f32, &AMDGPU::VReg_64RegClass);
Christian Konig	2214f14	2013-03-07 09:03:38 +0000	[diff] [blame]	52
Tom Stellard	436780b	2014-05-15 14:41:57 +0000	[diff] [blame]	53	addRegisterClass(MVT::v4i32, &AMDGPU::SReg_128RegClass);
				54	addRegisterClass(MVT::v4f32, &AMDGPU::VReg_128RegClass);
Christian Konig	2214f14	2013-03-07 09:03:38 +0000	[diff] [blame]	55
Tom Stellard	538ceeb	2013-02-07 17:02:09 +0000	[diff] [blame]	56	addRegisterClass(MVT::v8i32, &AMDGPU::VReg_256RegClass);
Christian Konig	2214f14	2013-03-07 09:03:38 +0000	[diff] [blame]	57	addRegisterClass(MVT::v8f32, &AMDGPU::VReg_256RegClass);
				58
Tom Stellard	538ceeb	2013-02-07 17:02:09 +0000	[diff] [blame]	59	addRegisterClass(MVT::v16i32, &AMDGPU::VReg_512RegClass);
Christian Konig	2214f14	2013-03-07 09:03:38 +0000	[diff] [blame]	60	addRegisterClass(MVT::v16f32, &AMDGPU::VReg_512RegClass);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	61
				62	computeRegisterProperties();
				63
Tom Stellard	c084533	2013-11-22 23:07:58 +0000	[diff] [blame]	64	// Condition Codes
				65	setCondCodeAction(ISD::SETONE, MVT::f32, Expand);
				66	setCondCodeAction(ISD::SETUEQ, MVT::f32, Expand);
				67	setCondCodeAction(ISD::SETUGE, MVT::f32, Expand);
				68	setCondCodeAction(ISD::SETUGT, MVT::f32, Expand);
				69	setCondCodeAction(ISD::SETULE, MVT::f32, Expand);
				70	setCondCodeAction(ISD::SETULT, MVT::f32, Expand);
				71
				72	setCondCodeAction(ISD::SETONE, MVT::f64, Expand);
				73	setCondCodeAction(ISD::SETUEQ, MVT::f64, Expand);
				74	setCondCodeAction(ISD::SETUGE, MVT::f64, Expand);
				75	setCondCodeAction(ISD::SETUGT, MVT::f64, Expand);
				76	setCondCodeAction(ISD::SETULE, MVT::f64, Expand);
				77	setCondCodeAction(ISD::SETULT, MVT::f64, Expand);
				78
Christian Konig	2989ffc	2013-03-18 11:34:16 +0000	[diff] [blame]	79	setOperationAction(ISD::VECTOR_SHUFFLE, MVT::v8i32, Expand);
				80	setOperationAction(ISD::VECTOR_SHUFFLE, MVT::v8f32, Expand);
				81	setOperationAction(ISD::VECTOR_SHUFFLE, MVT::v16i32, Expand);
				82	setOperationAction(ISD::VECTOR_SHUFFLE, MVT::v16f32, Expand);
				83
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	84	setOperationAction(ISD::ADD, MVT::i32, Legal);
Matt Arsenault	e8d2146	2013-11-18 20:09:40 +0000	[diff] [blame]	85	setOperationAction(ISD::ADDC, MVT::i32, Legal);
				86	setOperationAction(ISD::ADDE, MVT::i32, Legal);
Matt Arsenault	b8b5153	2014-06-23 18:00:38 +0000	[diff] [blame]	87	setOperationAction(ISD::SUBC, MVT::i32, Legal);
				88	setOperationAction(ISD::SUBE, MVT::i32, Legal);
Aaron Watry	daabb20	2013-06-25 13:55:52 +0000	[diff] [blame]	89
Matt Arsenault	ad14ce8	2014-07-19 18:44:39 +0000	[diff] [blame]	90	setOperationAction(ISD::FSIN, MVT::f32, Custom);
				91	setOperationAction(ISD::FCOS, MVT::f32, Custom);
				92
Tom Stellard	35bb18c	2013-08-26 15:06:04 +0000	[diff] [blame]	93	// We need to custom lower vector stores from local memory
Tom Stellard	35bb18c	2013-08-26 15:06:04 +0000	[diff] [blame]	94	setOperationAction(ISD::LOAD, MVT::v4i32, Custom);
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	95	setOperationAction(ISD::LOAD, MVT::v8i32, Custom);
				96	setOperationAction(ISD::LOAD, MVT::v16i32, Custom);
				97
				98	setOperationAction(ISD::STORE, MVT::v8i32, Custom);
				99	setOperationAction(ISD::STORE, MVT::v16i32, Custom);
Tom Stellard	35bb18c	2013-08-26 15:06:04 +0000	[diff] [blame]	100
Tom Stellard	1c8788e	2014-03-07 20:12:33 +0000	[diff] [blame]	101	setOperationAction(ISD::STORE, MVT::i1, Custom);
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	102	setOperationAction(ISD::STORE, MVT::i32, Custom);
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	103	setOperationAction(ISD::STORE, MVT::v2i32, Custom);
				104	setOperationAction(ISD::STORE, MVT::v4i32, Custom);
				105
Tom Stellard	f719ee9	2014-05-16 20:56:41 +0000	[diff] [blame]	106	setOperationAction(ISD::SELECT, MVT::f32, Promote);
				107	AddPromotedToType(ISD::SELECT, MVT::f32, MVT::i32);
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	108	setOperationAction(ISD::SELECT, MVT::i64, Custom);
Tom Stellard	da99c6e	2014-03-24 16:07:30 +0000	[diff] [blame]	109	setOperationAction(ISD::SELECT, MVT::f64, Promote);
				110	AddPromotedToType(ISD::SELECT, MVT::f64, MVT::i64);
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	111
Tom Stellard	3ca1bfc	2014-06-10 16:01:22 +0000	[diff] [blame]	112	setOperationAction(ISD::SELECT_CC, MVT::f32, Expand);
				113	setOperationAction(ISD::SELECT_CC, MVT::i32, Expand);
				114	setOperationAction(ISD::SELECT_CC, MVT::i64, Expand);
				115	setOperationAction(ISD::SELECT_CC, MVT::f64, Expand);
Tom Stellard	754f80f	2013-04-05 23:31:51 +0000	[diff] [blame]	116
Tom Stellard	8374720	2013-07-18 21:43:53 +0000	[diff] [blame]	117	setOperationAction(ISD::SETCC, MVT::v2i1, Expand);
				118	setOperationAction(ISD::SETCC, MVT::v4i1, Expand);
				119
Matt Arsenault	5dbd5db	2014-04-22 03:49:30 +0000	[diff] [blame]	120	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i1, Legal);
Matt Arsenault	4e46665	2014-04-16 01:41:30 +0000	[diff] [blame]	121	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v2i1, Custom);
				122	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v4i1, Custom);
				123
Matt Arsenault	5dbd5db	2014-04-22 03:49:30 +0000	[diff] [blame]	124	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i8, Legal);
Matt Arsenault	4e46665	2014-04-16 01:41:30 +0000	[diff] [blame]	125	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v2i8, Custom);
				126	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v4i8, Custom);
				127
Matt Arsenault	5dbd5db	2014-04-22 03:49:30 +0000	[diff] [blame]	128	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i16, Legal);
Matt Arsenault	4e46665	2014-04-16 01:41:30 +0000	[diff] [blame]	129	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v2i16, Custom);
				130	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::v4i16, Custom);
				131
				132	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i32, Custom);
				133
				134	setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::Other, Custom);
				135
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	136	setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::Other, Custom);
Tom Stellard	9fa1791	2013-08-14 23:24:45 +0000	[diff] [blame]	137	setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::f32, Custom);
				138	setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v16i8, Custom);
				139	setOperationAction(ISD::INTRINSIC_WO_CHAIN, MVT::v4f32, Custom);
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	140
Tom Stellard	afcf12f	2013-09-12 02:55:14 +0000	[diff] [blame]	141	setOperationAction(ISD::INTRINSIC_VOID, MVT::Other, Custom);
Matt Arsenault	e54e1c3	2014-06-23 18:00:44 +0000	[diff] [blame]	142	setOperationAction(ISD::BRCOND, MVT::Other, Custom);
Tom Stellard	afcf12f	2013-09-12 02:55:14 +0000	[diff] [blame]	143
Matt Arsenault	470acd8	2014-04-15 22:28:39 +0000	[diff] [blame]	144	setLoadExtAction(ISD::SEXTLOAD, MVT::i1, Promote);
Tom Stellard	e937360	2014-01-22 19:24:14 +0000	[diff] [blame]	145	setLoadExtAction(ISD::SEXTLOAD, MVT::i8, Custom);
				146	setLoadExtAction(ISD::SEXTLOAD, MVT::i16, Custom);
Matt Arsenault	470acd8	2014-04-15 22:28:39 +0000	[diff] [blame]	147	setLoadExtAction(ISD::SEXTLOAD, MVT::i32, Expand);
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	148	setLoadExtAction(ISD::SEXTLOAD, MVT::v8i16, Expand);
				149	setLoadExtAction(ISD::SEXTLOAD, MVT::v16i16, Expand);
Tom Stellard	31209cc	2013-07-15 19:00:09 +0000	[diff] [blame]	150
Matt Arsenault	470acd8	2014-04-15 22:28:39 +0000	[diff] [blame]	151	setLoadExtAction(ISD::ZEXTLOAD, MVT::i1, Promote);
				152	setLoadExtAction(ISD::ZEXTLOAD, MVT::i8, Custom);
				153	setLoadExtAction(ISD::ZEXTLOAD, MVT::i16, Custom);
				154	setLoadExtAction(ISD::ZEXTLOAD, MVT::i32, Expand);
				155
				156	setLoadExtAction(ISD::EXTLOAD, MVT::i1, Promote);
Tom Stellard	e937360	2014-01-22 19:24:14 +0000	[diff] [blame]	157	setLoadExtAction(ISD::EXTLOAD, MVT::i8, Custom);
				158	setLoadExtAction(ISD::EXTLOAD, MVT::i16, Custom);
				159	setLoadExtAction(ISD::EXTLOAD, MVT::i32, Expand);
Niels Ole Salscheider	719fbc9	2013-08-08 16:06:15 +0000	[diff] [blame]	160	setLoadExtAction(ISD::EXTLOAD, MVT::f32, Expand);
Matt Arsenault	470acd8	2014-04-15 22:28:39 +0000	[diff] [blame]	161
Tom Stellard	e937360	2014-01-22 19:24:14 +0000	[diff] [blame]	162	setTruncStoreAction(MVT::i32, MVT::i8, Custom);
				163	setTruncStoreAction(MVT::i32, MVT::i16, Custom);
Niels Ole Salscheider	719fbc9	2013-08-08 16:06:15 +0000	[diff] [blame]	164	setTruncStoreAction(MVT::f64, MVT::f32, Expand);
Matt Arsenault	6f24379	2013-09-05 19:41:10 +0000	[diff] [blame]	165	setTruncStoreAction(MVT::i64, MVT::i32, Expand);
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	166	setTruncStoreAction(MVT::v8i32, MVT::v8i16, Expand);
				167	setTruncStoreAction(MVT::v16i32, MVT::v16i16, Expand);
Niels Ole Salscheider	719fbc9	2013-08-08 16:06:15 +0000	[diff] [blame]	168
Matt Arsenault	470acd8	2014-04-15 22:28:39 +0000	[diff] [blame]	169	setOperationAction(ISD::LOAD, MVT::i1, Custom);
				170
Jan Vesely	2cb62ce	2014-07-10 22:40:21 +0000	[diff] [blame]	171	setOperationAction(ISD::FP_TO_SINT, MVT::i64, Expand);
				172	setOperationAction(ISD::FP_TO_UINT, MVT::i64, Expand);
				173
Tom Stellard	fd15582	2013-08-26 15:05:36 +0000	[diff] [blame]	174	setOperationAction(ISD::GlobalAddress, MVT::i32, Custom);
Tom Stellard	04c0e98	2014-01-22 19:24:21 +0000	[diff] [blame]	175	setOperationAction(ISD::GlobalAddress, MVT::i64, Custom);
Matt Arsenault	a98cd6a	2013-12-19 05:32:55 +0000	[diff] [blame]	176	setOperationAction(ISD::FrameIndex, MVT::i32, Custom);
Michel Danzer	49812b5	2013-07-10 16:37:07 +0000	[diff] [blame]	177
Tom Stellard	5f33788	2014-04-29 23:12:43 +0000	[diff] [blame]	178	// These should use UDIVREM, so set them to expand
				179	setOperationAction(ISD::UDIV, MVT::i64, Expand);
				180	setOperationAction(ISD::UREM, MVT::i64, Expand);
				181
Tom Stellard	967bf58	2014-02-13 23:34:15 +0000	[diff] [blame]	182	// We only support LOAD/STORE and vector manipulation ops for vectors
				183	// with > 4 elements.
				184	MVT VecTypes[] = {
Tom Stellard	d61a1c3	2014-02-28 21:36:37 +0000	[diff] [blame]	185	MVT::v8i32, MVT::v8f32, MVT::v16i32, MVT::v16f32
Tom Stellard	967bf58	2014-02-13 23:34:15 +0000	[diff] [blame]	186	};
				187
Matt Arsenault	0d89e84	2014-07-15 21:44:37 +0000	[diff] [blame]	188	setOperationAction(ISD::SELECT_CC, MVT::i1, Expand);
				189	setOperationAction(ISD::SELECT, MVT::i1, Promote);
				190
Matt Arsenault	d504a74	2014-05-15 21:44:05 +0000	[diff] [blame]	191	for (MVT VT : VecTypes) {
Tom Stellard	967bf58	2014-02-13 23:34:15 +0000	[diff] [blame]	192	for (unsigned Op = 0; Op < ISD::BUILTIN_OP_END; ++Op) {
				193	switch(Op) {
				194	case ISD::LOAD:
				195	case ISD::STORE:
				196	case ISD::BUILD_VECTOR:
				197	case ISD::BITCAST:
				198	case ISD::EXTRACT_VECTOR_ELT:
				199	case ISD::INSERT_VECTOR_ELT:
Tom Stellard	967bf58	2014-02-13 23:34:15 +0000	[diff] [blame]	200	case ISD::INSERT_SUBVECTOR:
				201	case ISD::EXTRACT_SUBVECTOR:
				202	break;
Tom Stellard	c0503db	2014-08-09 01:06:56 +0000	[diff] [blame]	203	case ISD::CONCAT_VECTORS:
				204	setOperationAction(Op, VT, Custom);
				205	break;
Tom Stellard	967bf58	2014-02-13 23:34:15 +0000	[diff] [blame]	206	default:
Matt Arsenault	d504a74	2014-05-15 21:44:05 +0000	[diff] [blame]	207	setOperationAction(Op, VT, Expand);
Tom Stellard	967bf58	2014-02-13 23:34:15 +0000	[diff] [blame]	208	break;
				209	}
				210	}
				211	}
				212
Matt Arsenault	41e2f2b	2014-02-24 21:01:28 +0000	[diff] [blame]	213	for (int I = MVT::v1f64; I <= MVT::v8f64; ++I) {
				214	MVT::SimpleValueType VT = static_cast<MVT::SimpleValueType>(I);
Matt Arsenault	a81aee8	2014-02-24 21:16:50 +0000	[diff] [blame]	215	setOperationAction(ISD::FTRUNC, VT, Expand);
				216	setOperationAction(ISD::FCEIL, VT, Expand);
				217	setOperationAction(ISD::FFLOOR, VT, Expand);
Matt Arsenault	41e2f2b	2014-02-24 21:01:28 +0000	[diff] [blame]	218	}
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	219
Matt Arsenault	41e2f2b	2014-02-24 21:01:28 +0000	[diff] [blame]	220	if (Subtarget->getGeneration() >= AMDGPUSubtarget::SEA_ISLANDS) {
				221	setOperationAction(ISD::FTRUNC, MVT::f64, Legal);
				222	setOperationAction(ISD::FCEIL, MVT::f64, Legal);
				223	setOperationAction(ISD::FFLOOR, MVT::f64, Legal);
Matt Arsenault	a90d22f	2014-04-17 17:06:37 +0000	[diff] [blame]	224	setOperationAction(ISD::FRINT, MVT::f64, Legal);
Matt Arsenault	41e2f2b	2014-02-24 21:01:28 +0000	[diff] [blame]	225	}
				226
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	227	setOperationAction(ISD::FDIV, MVT::f32, Custom);
				228
Matt Arsenault	8675db1	2014-08-29 16:01:14 +0000	[diff] [blame]	229	setTargetDAGCombine(ISD::FSUB);
Matt Arsenault	41e2f2b	2014-02-24 21:01:28 +0000	[diff] [blame]	230	setTargetDAGCombine(ISD::SELECT_CC);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	231	setTargetDAGCombine(ISD::SETCC);
Michel Danzer	f52a672	2013-03-08 10:58:01 +0000	[diff] [blame]	232
Matt Arsenault	364a674	2014-06-11 17:50:44 +0000	[diff] [blame]	233	setTargetDAGCombine(ISD::UINT_TO_FP);
				234
Matt Arsenault	b2baffa	2014-08-15 17:49:05 +0000	[diff] [blame]	235	// All memory operations. Some folding on the pointer operand is done to help
				236	// matching the constant offsets in the addressing modes.
				237	setTargetDAGCombine(ISD::LOAD);
				238	setTargetDAGCombine(ISD::STORE);
				239	setTargetDAGCombine(ISD::ATOMIC_LOAD);
				240	setTargetDAGCombine(ISD::ATOMIC_STORE);
				241	setTargetDAGCombine(ISD::ATOMIC_CMP_SWAP);
				242	setTargetDAGCombine(ISD::ATOMIC_CMP_SWAP_WITH_SUCCESS);
				243	setTargetDAGCombine(ISD::ATOMIC_SWAP);
				244	setTargetDAGCombine(ISD::ATOMIC_LOAD_ADD);
				245	setTargetDAGCombine(ISD::ATOMIC_LOAD_SUB);
				246	setTargetDAGCombine(ISD::ATOMIC_LOAD_AND);
				247	setTargetDAGCombine(ISD::ATOMIC_LOAD_OR);
				248	setTargetDAGCombine(ISD::ATOMIC_LOAD_XOR);
				249	setTargetDAGCombine(ISD::ATOMIC_LOAD_NAND);
				250	setTargetDAGCombine(ISD::ATOMIC_LOAD_MIN);
				251	setTargetDAGCombine(ISD::ATOMIC_LOAD_MAX);
				252	setTargetDAGCombine(ISD::ATOMIC_LOAD_UMIN);
				253	setTargetDAGCombine(ISD::ATOMIC_LOAD_UMAX);
				254
Christian Konig	eecebd0	2013-03-26 14:04:02 +0000	[diff] [blame]	255	setSchedulingPreference(Sched::RegPressure);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	256	}
				257
Tom Stellard	0125f2a	2013-06-25 02:39:35 +0000	[diff] [blame]	258	//===----------------------------------------------------------------------===//
				259	// TargetLowering queries
				260	//===----------------------------------------------------------------------===//
				261
Matt Arsenault	5015a89	2014-08-15 17:17:07 +0000	[diff] [blame]	262	// FIXME: This really needs an address space argument. The immediate offset
				263	// size is different for different sets of memory instruction sets.
				264
				265	// The single offset DS instructions have a 16-bit unsigned byte offset.
				266	//
				267	// MUBUF / MTBUF have a 12-bit unsigned byte offset, and additionally can do r +
				268	// r + i with addr64. 32-bit has more addressing mode options. Depending on the
				269	// resource constant, it can also do (i64 r0) + (i32 r1) * (i14 i).
				270	//
				271	// SMRD instructions have an 8-bit, dword offset.
				272	//
				273	bool SITargetLowering::isLegalAddressingMode(const AddrMode &AM,
				274	Type *Ty) const {
				275	// No global is ever allowed as a base.
				276	if (AM.BaseGV)
				277	return false;
				278
				279	// Allow a 16-bit unsigned immediate field, since this is what DS instructions
				280	// use.
				281	if (!isUInt<16>(AM.BaseOffs))
				282	return false;
				283
				284	// Only support r+r,
				285	switch (AM.Scale) {
				286	case 0: // "r+i" or just "i", depending on HasBaseReg.
				287	break;
				288	case 1:
				289	if (AM.HasBaseReg && AM.BaseOffs) // "r+r+i" is not allowed.
				290	return false;
				291	// Otherwise we have r+r or r+i.
				292	break;
				293	case 2:
				294	if (AM.HasBaseReg \|\| AM.BaseOffs) // 2r+r or 2r+i is not allowed.
				295	return false;
				296	// Allow 2*r as r+r.
				297	break;
				298	default: // Don't allow n * r
				299	return false;
				300	}
				301
				302	return true;
				303	}
				304
Matt Arsenault	6f2a526	2014-07-27 17:46:40 +0000	[diff] [blame]	305	bool SITargetLowering::allowsMisalignedMemoryAccesses(EVT VT,
				306	unsigned AddrSpace,
				307	unsigned Align,
				308	bool *IsFast) const {
Matt Arsenault	1018c89	2014-04-24 17:08:26 +0000	[diff] [blame]	309	if (IsFast)
				310	*IsFast = false;
				311
Matt Arsenault	1018c89	2014-04-24 17:08:26 +0000	[diff] [blame]	312	// TODO: I think v3i32 should allow unaligned accesses on CI with DS_READ_B96,
				313	// which isn't a simple VT.
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	314	if (!VT.isSimple() \|\| VT == MVT::Other)
				315	return false;
Matt Arsenault	1018c89	2014-04-24 17:08:26 +0000	[diff] [blame]	316
				317	// XXX - CI changes say "Support for unaligned memory accesses" but I don't
				318	// see what for specifically. The wording everywhere else seems to be the
				319	// same.
				320
Matt Arsenault	1018c89	2014-04-24 17:08:26 +0000	[diff] [blame]	321	// XXX - The only mention I see of this in the ISA manual is for LDS direct
				322	// reads the "byte address and must be dword aligned". Is it also true for the
				323	// normal loads and stores?
Matt Arsenault	6f2a526	2014-07-27 17:46:40 +0000	[diff] [blame]	324	if (AddrSpace == AMDGPUAS::LOCAL_ADDRESS) {
				325	// ds_read/write_b64 require 8-byte alignment, but we can do a 4 byte
				326	// aligned, 8 byte access in a single operation using ds_read2/write2_b32
				327	// with adjacent offsets.
				328	return Align % 4 == 0;
				329	}
Matt Arsenault	1018c89	2014-04-24 17:08:26 +0000	[diff] [blame]	330
				331	// 8.1.6 - For Dword or larger reads or writes, the two LSBs of the
				332	// byte-address are ignored, thus forcing Dword alignment.
Tom Stellard	e812f2f	2014-07-21 15:45:06 +0000	[diff] [blame]	333	// This applies to private, global, and constant memory.
Matt Arsenault	1018c89	2014-04-24 17:08:26 +0000	[diff] [blame]	334	if (IsFast)
				335	*IsFast = true;
Tom Stellard	0125f2a	2013-06-25 02:39:35 +0000	[diff] [blame]	336	return VT.bitsGT(MVT::i32);
				337	}
				338
Matt Arsenault	46645fa	2014-07-28 17:49:26 +0000	[diff] [blame]	339	EVT SITargetLowering::getOptimalMemOpType(uint64_t Size, unsigned DstAlign,
				340	unsigned SrcAlign, bool IsMemset,
				341	bool ZeroMemset,
				342	bool MemcpyStrSrc,
				343	MachineFunction &MF) const {
				344	// FIXME: Should account for address space here.
				345
				346	// The default fallback uses the private pointer size as a guess for a type to
				347	// use. Make sure we switch these to 64-bit accesses.
				348
				349	if (Size >= 16 && DstAlign >= 4) // XXX: Should only do for global
				350	return MVT::v4i32;
				351
				352	if (Size >= 8 && DstAlign >= 4)
				353	return MVT::v2i32;
				354
				355	// Use the default.
				356	return MVT::Other;
				357	}
				358
Chandler Carruth	9d010ff	2014-07-03 00:23:43 +0000	[diff] [blame]	359	TargetLoweringBase::LegalizeTypeAction
				360	SITargetLowering::getPreferredVectorAction(EVT VT) const {
				361	if (VT.getVectorNumElements() != 1 && VT.getScalarType().bitsLE(MVT::i16))
				362	return TypeSplitVector;
				363
				364	return TargetLoweringBase::getPreferredVectorAction(VT);
Tom Stellard	d86003e	2013-08-14 23:25:00 +0000	[diff] [blame]	365	}
Tom Stellard	0125f2a	2013-06-25 02:39:35 +0000	[diff] [blame]	366
Matt Arsenault	d7bdcc4	2014-03-31 19:54:27 +0000	[diff] [blame]	367	bool SITargetLowering::shouldConvertConstantLoadToIntImm(const APInt &Imm,
				368	Type *Ty) const {
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	369	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				370	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Matt Arsenault	d7bdcc4	2014-03-31 19:54:27 +0000	[diff] [blame]	371	return TII->isInlineConstant(Imm);
				372	}
				373
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	374	SDValue SITargetLowering::LowerParameter(SelectionDAG &DAG, EVT VT, EVT MemVT,
Matt Arsenault	86033ca	2014-07-28 17:31:39 +0000	[diff] [blame]	375	SDLoc SL, SDValue Chain,
Matt Arsenault	e1f030c	2014-04-11 20:59:54 +0000	[diff] [blame]	376	unsigned Offset, bool Signed) const {
Matt Arsenault	86033ca	2014-07-28 17:31:39 +0000	[diff] [blame]	377	const DataLayout *DL = getDataLayout();
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	378	MachineFunction &MF = DAG.getMachineFunction();
				379	const SIRegisterInfo *TRI =
				380	static_cast<const SIRegisterInfo*>(Subtarget->getRegisterInfo());
				381	unsigned InputPtrReg = TRI->getPreloadedValue(MF, SIRegisterInfo::INPUT_PTR);
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	382
Matt Arsenault	86033ca	2014-07-28 17:31:39 +0000	[diff] [blame]	383	Type Ty = VT.getTypeForEVT(DAG.getContext());
				384
				385	MachineRegisterInfo &MRI = DAG.getMachineFunction().getRegInfo();
				386	PointerType *PtrTy = PointerType::get(Ty, AMDGPUAS::CONSTANT_ADDRESS);
				387	SDValue BasePtr = DAG.getCopyFromReg(Chain, SL,
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	388	MRI.getLiveInVirtReg(InputPtrReg), MVT::i64);
Matt Arsenault	86033ca	2014-07-28 17:31:39 +0000	[diff] [blame]	389	SDValue Ptr = DAG.getNode(ISD::ADD, SL, MVT::i64, BasePtr,
				390	DAG.getConstant(Offset, MVT::i64));
				391	SDValue PtrOffset = DAG.getUNDEF(getPointerTy(AMDGPUAS::CONSTANT_ADDRESS));
				392	MachinePointerInfo PtrInfo(UndefValue::get(PtrTy));
				393
				394	return DAG.getLoad(ISD::UNINDEXED, Signed ? ISD::SEXTLOAD : ISD::ZEXTLOAD,
				395	VT, SL, Chain, Ptr, PtrOffset, PtrInfo, MemVT,
				396	false, // isVolatile
				397	true, // isNonTemporal
				398	true, // isInvariant
				399	DL->getABITypeAlignment(Ty)); // Alignment
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	400	}
				401
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	402	SDValue SITargetLowering::LowerFormalArguments(
				403	SDValue Chain,
				404	CallingConv::ID CallConv,
				405	bool isVarArg,
				406	const SmallVectorImpl<ISD::InputArg> &Ins,
Andrew Trick	ef9de2a	2013-05-25 02:42:55 +0000	[diff] [blame]	407	SDLoc DL, SelectionDAG &DAG,
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	408	SmallVectorImpl<SDValue> &InVals) const {
				409
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	410	const TargetMachine &TM = getTargetMachine();
				411	const SIRegisterInfo *TRI =
				412	static_cast<const SIRegisterInfo*>(TM.getSubtargetImpl()->getRegisterInfo());
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	413
				414	MachineFunction &MF = DAG.getMachineFunction();
				415	FunctionType *FType = MF.getFunction()->getFunctionType();
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	416	SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	417
				418	assert(CallConv == CallingConv::C);
				419
				420	SmallVector<ISD::InputArg, 16> Splits;
Alexey Samsonov	a253bf9	2014-08-27 19:36:53 +0000	[diff] [blame]	421	BitVector Skipped(Ins.size());
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	422
				423	for (unsigned i = 0, e = Ins.size(), PSInputNum = 0; i != e; ++i) {
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	424	const ISD::InputArg &Arg = Ins[i];
Matt Arsenault	75865923	2013-05-18 00:21:46 +0000	[diff] [blame]	425
				426	// First check if it's a PS input addr
Matt Arsenault	762af96	2014-07-13 03:06:39 +0000	[diff] [blame]	427	if (Info->getShaderType() == ShaderType::PIXEL && !Arg.Flags.isInReg() &&
Vincent Lejeune	d623644	2013-10-13 17:56:16 +0000	[diff] [blame]	428	!Arg.Flags.isByVal()) {
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	429
				430	assert((PSInputNum <= 15) && "Too many PS inputs!");
				431
				432	if (!Arg.Used) {
				433	// We can savely skip PS inputs
Alexey Samsonov	a253bf9	2014-08-27 19:36:53 +0000	[diff] [blame]	434	Skipped.set(i);
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	435	++PSInputNum;
				436	continue;
				437	}
				438
				439	Info->PSInputAddr \|= 1 << PSInputNum++;
				440	}
				441
				442	// Second split vertices into their elements
Matt Arsenault	762af96	2014-07-13 03:06:39 +0000	[diff] [blame]	443	if (Info->getShaderType() != ShaderType::COMPUTE && Arg.VT.isVector()) {
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	444	ISD::InputArg NewArg = Arg;
				445	NewArg.Flags.setSplit();
				446	NewArg.VT = Arg.VT.getVectorElementType();
				447
				448	// We REALLY want the ORIGINAL number of vertex elements here, e.g. a
				449	// three or five element vertex only needs three or five registers,
				450	// NOT four or eigth.
				451	Type *ParamType = FType->getParamType(Arg.OrigArgIndex);
				452	unsigned NumElements = ParamType->getVectorNumElements();
				453
				454	for (unsigned j = 0; j != NumElements; ++j) {
				455	Splits.push_back(NewArg);
				456	NewArg.PartOffset += NewArg.VT.getStoreSize();
				457	}
				458
Matt Arsenault	762af96	2014-07-13 03:06:39 +0000	[diff] [blame]	459	} else if (Info->getShaderType() != ShaderType::COMPUTE) {
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	460	Splits.push_back(Arg);
				461	}
				462	}
				463
				464	SmallVector<CCValAssign, 16> ArgLocs;
Eric Christopher	b521750	2014-08-06 18:45:26 +0000	[diff] [blame]	465	CCState CCInfo(CallConv, isVarArg, DAG.getMachineFunction(), ArgLocs,
				466	*DAG.getContext());
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	467
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	468	// At least one interpolation mode must be enabled or else the GPU will hang.
Matt Arsenault	762af96	2014-07-13 03:06:39 +0000	[diff] [blame]	469	if (Info->getShaderType() == ShaderType::PIXEL &&
				470	(Info->PSInputAddr & 0x7F) == 0) {
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	471	Info->PSInputAddr \|= 1;
				472	CCInfo.AllocateReg(AMDGPU::VGPR0);
				473	CCInfo.AllocateReg(AMDGPU::VGPR1);
				474	}
				475
Tom Stellard	ed882c2	2013-06-03 17:40:11 +0000	[diff] [blame]	476	// The pointer to the list of arguments is stored in SGPR0, SGPR1
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	477	// The pointer to the scratch buffer is stored in SGPR2, SGPR3
Matt Arsenault	762af96	2014-07-13 03:06:39 +0000	[diff] [blame]	478	if (Info->getShaderType() == ShaderType::COMPUTE) {
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	479	Info->NumUserSGPRs = 4;
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	480
				481	unsigned InputPtrReg =
				482	TRI->getPreloadedValue(MF, SIRegisterInfo::INPUT_PTR);
				483	unsigned InputPtrRegLo =
				484	TRI->getPhysRegSubReg(InputPtrReg, &AMDGPU::SReg_32RegClass, 0);
				485	unsigned InputPtrRegHi =
				486	TRI->getPhysRegSubReg(InputPtrReg, &AMDGPU::SReg_32RegClass, 1);
				487
				488	unsigned ScratchPtrReg =
				489	TRI->getPreloadedValue(MF, SIRegisterInfo::SCRATCH_PTR);
				490	unsigned ScratchPtrRegLo =
				491	TRI->getPhysRegSubReg(ScratchPtrReg, &AMDGPU::SReg_32RegClass, 0);
				492	unsigned ScratchPtrRegHi =
				493	TRI->getPhysRegSubReg(ScratchPtrReg, &AMDGPU::SReg_32RegClass, 1);
				494
				495	CCInfo.AllocateReg(InputPtrRegLo);
				496	CCInfo.AllocateReg(InputPtrRegHi);
				497	CCInfo.AllocateReg(ScratchPtrRegLo);
				498	CCInfo.AllocateReg(ScratchPtrRegHi);
				499	MF.addLiveIn(InputPtrReg, &AMDGPU::SReg_64RegClass);
				500	MF.addLiveIn(ScratchPtrReg, &AMDGPU::SReg_64RegClass);
Tom Stellard	ed882c2	2013-06-03 17:40:11 +0000	[diff] [blame]	501	}
				502
Matt Arsenault	762af96	2014-07-13 03:06:39 +0000	[diff] [blame]	503	if (Info->getShaderType() == ShaderType::COMPUTE) {
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	504	getOriginalFunctionArgs(DAG, DAG.getMachineFunction().getFunction(), Ins,
				505	Splits);
				506	}
				507
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	508	AnalyzeFormalArguments(CCInfo, Splits);
				509
				510	for (unsigned i = 0, e = Ins.size(), ArgIdx = 0; i != e; ++i) {
				511
Christian Konig	b7be72d	2013-05-17 09:46:48 +0000	[diff] [blame]	512	const ISD::InputArg &Arg = Ins[i];
Alexey Samsonov	a253bf9	2014-08-27 19:36:53 +0000	[diff] [blame]	513	if (Skipped[i]) {
Christian Konig	b7be72d	2013-05-17 09:46:48 +0000	[diff] [blame]	514	InVals.push_back(DAG.getUNDEF(Arg.VT));
Christian Konig	99ee0f4	2013-03-07 09:04:14 +0000	[diff] [blame]	515	continue;
				516	}
				517
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	518	CCValAssign &VA = ArgLocs[ArgIdx++];
Tom Stellard	ed882c2	2013-06-03 17:40:11 +0000	[diff] [blame]	519	EVT VT = VA.getLocVT();
				520
				521	if (VA.isMemLoc()) {
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	522	VT = Ins[i].VT;
				523	EVT MemVT = Splits[i].VT;
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	524	// The first 36 bytes of the input buffer contains information about
				525	// thread group and global sizes.
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	526	SDValue Arg = LowerParameter(DAG, VT, MemVT, DL, DAG.getRoot(),
Matt Arsenault	e1f030c	2014-04-11 20:59:54 +0000	[diff] [blame]	527	36 + VA.getLocMemOffset(),
				528	Ins[i].Flags.isSExt());
Tom Stellard	ca7ecf3	2014-08-22 18:49:31 +0000	[diff] [blame]	529
				530	const PointerType *ParamTy =
				531	dyn_cast<PointerType>(FType->getParamType(Ins[i].OrigArgIndex));
				532	if (Subtarget->getGeneration() == AMDGPUSubtarget::SOUTHERN_ISLANDS &&
				533	ParamTy && ParamTy->getAddressSpace() == AMDGPUAS::LOCAL_ADDRESS) {
				534	// On SI local pointers are just offsets into LDS, so they are always
				535	// less than 16-bits. On CI and newer they could potentially be
				536	// real pointers, so we can't guarantee their size.
				537	Arg = DAG.getNode(ISD::AssertZext, DL, Arg.getValueType(), Arg,
				538	DAG.getValueType(MVT::i16));
				539	}
				540
Tom Stellard	ed882c2	2013-06-03 17:40:11 +0000	[diff] [blame]	541	InVals.push_back(Arg);
				542	continue;
				543	}
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	544	assert(VA.isRegLoc() && "Parameter must be in a register!");
				545
				546	unsigned Reg = VA.getLocReg();
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	547
				548	if (VT == MVT::i64) {
				549	// For now assume it is a pointer
				550	Reg = TRI->getMatchingSuperReg(Reg, AMDGPU::sub0,
				551	&AMDGPU::SReg_64RegClass);
				552	Reg = MF.addLiveIn(Reg, &AMDGPU::SReg_64RegClass);
				553	InVals.push_back(DAG.getCopyFromReg(Chain, DL, Reg, VT));
				554	continue;
				555	}
				556
				557	const TargetRegisterClass *RC = TRI->getMinimalPhysRegClass(Reg, VT);
				558
				559	Reg = MF.addLiveIn(Reg, RC);
				560	SDValue Val = DAG.getCopyFromReg(Chain, DL, Reg, VT);
				561
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	562	if (Arg.VT.isVector()) {
				563
				564	// Build a vector from the registers
				565	Type *ParamType = FType->getParamType(Arg.OrigArgIndex);
				566	unsigned NumElements = ParamType->getVectorNumElements();
				567
				568	SmallVector<SDValue, 4> Regs;
				569	Regs.push_back(Val);
				570	for (unsigned j = 1; j != NumElements; ++j) {
				571	Reg = ArgLocs[ArgIdx++].getLocReg();
				572	Reg = MF.addLiveIn(Reg, RC);
				573	Regs.push_back(DAG.getCopyFromReg(Chain, DL, Reg, VT));
				574	}
				575
				576	// Fill up the missing vector elements
				577	NumElements = Arg.VT.getVectorNumElements() - NumElements;
				578	for (unsigned j = 0; j != NumElements; ++j)
				579	Regs.push_back(DAG.getUNDEF(VT));
Matt Arsenault	75865923	2013-05-18 00:21:46 +0000	[diff] [blame]	580
Craig Topper	48d114b	2014-04-26 18:35:24 +0000	[diff] [blame]	581	InVals.push_back(DAG.getNode(ISD::BUILD_VECTOR, DL, Arg.VT, Regs));
Christian Konig	2c8f6d5	2013-03-07 09:03:52 +0000	[diff] [blame]	582	continue;
				583	}
				584
				585	InVals.push_back(Val);
				586	}
				587	return Chain;
				588	}
				589
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	590	MachineBasicBlock * SITargetLowering::EmitInstrWithCustomInserter(
				591	MachineInstr * MI, MachineBasicBlock * BB) const {
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	592
Tom Stellard	556d9aa	2013-06-03 17:39:37 +0000	[diff] [blame]	593	MachineBasicBlock::iterator I = *MI;
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	594	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				595	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Tom Stellard	919bb6b	2014-04-29 23:12:53 +0000	[diff] [blame]	596	MachineRegisterInfo &MRI = BB->getParent()->getRegInfo();
Tom Stellard	556d9aa	2013-06-03 17:39:37 +0000	[diff] [blame]	597
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	598	switch (MI->getOpcode()) {
				599	default:
				600	return AMDGPUTargetLowering::EmitInstrWithCustomInserter(MI, BB);
				601	case AMDGPU::BRANCH: return BB;
Tom Stellard	556d9aa	2013-06-03 17:39:37 +0000	[diff] [blame]	602	case AMDGPU::SI_ADDR64_RSRC: {
Tom Stellard	556d9aa	2013-06-03 17:39:37 +0000	[diff] [blame]	603	unsigned SuperReg = MI->getOperand(0).getReg();
Tom Stellard	def38c5	2014-03-21 15:51:53 +0000	[diff] [blame]	604	unsigned SubRegLo = MRI.createVirtualRegister(&AMDGPU::SGPR_64RegClass);
				605	unsigned SubRegHi = MRI.createVirtualRegister(&AMDGPU::SGPR_64RegClass);
				606	unsigned SubRegHiHi = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				607	unsigned SubRegHiLo = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
Tom Stellard	556d9aa	2013-06-03 17:39:37 +0000	[diff] [blame]	608	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::S_MOV_B64), SubRegLo)
				609	.addOperand(MI->getOperand(1));
				610	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::S_MOV_B32), SubRegHiLo)
				611	.addImm(0);
				612	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::S_MOV_B32), SubRegHiHi)
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	613	.addImm(AMDGPU::RSRC_DATA_FORMAT >> 32);
Tom Stellard	556d9aa	2013-06-03 17:39:37 +0000	[diff] [blame]	614	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::REG_SEQUENCE), SubRegHi)
				615	.addReg(SubRegHiLo)
				616	.addImm(AMDGPU::sub0)
				617	.addReg(SubRegHiHi)
				618	.addImm(AMDGPU::sub1);
				619	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::REG_SEQUENCE), SuperReg)
				620	.addReg(SubRegLo)
				621	.addImm(AMDGPU::sub0_sub1)
				622	.addReg(SubRegHi)
				623	.addImm(AMDGPU::sub2_sub3);
				624	MI->eraseFromParent();
				625	break;
				626	}
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	627	case AMDGPU::SI_BUFFER_RSRC: {
				628	unsigned SuperReg = MI->getOperand(0).getReg();
				629	unsigned Args[4];
				630	for (unsigned i = 0, e = 4; i < e; ++i) {
				631	MachineOperand &Arg = MI->getOperand(i + 1);
				632
				633	if (Arg.isReg()) {
				634	Args[i] = Arg.getReg();
				635	continue;
				636	}
				637
				638	assert(Arg.isImm());
				639	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				640	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::S_MOV_B32), Reg)
				641	.addImm(Arg.getImm());
				642	Args[i] = Reg;
				643	}
				644	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::REG_SEQUENCE),
				645	SuperReg)
				646	.addReg(Args[0])
				647	.addImm(AMDGPU::sub0)
				648	.addReg(Args[1])
				649	.addImm(AMDGPU::sub1)
				650	.addReg(Args[2])
				651	.addImm(AMDGPU::sub2)
				652	.addReg(Args[3])
				653	.addImm(AMDGPU::sub3);
				654	MI->eraseFromParent();
				655	break;
				656	}
Matt Arsenault	dbc9aae	2014-06-18 17:13:51 +0000	[diff] [blame]	657	case AMDGPU::V_SUB_F64: {
				658	unsigned DestReg = MI->getOperand(0).getReg();
				659	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::V_ADD_F64), DestReg)
				660	.addImm(0) // SRC0 modifiers
				661	.addReg(MI->getOperand(1).getReg())
				662	.addImm(1) // SRC1 modifiers
				663	.addReg(MI->getOperand(2).getReg())
Matt Arsenault	dbc9aae	2014-06-18 17:13:51 +0000	[diff] [blame]	664	.addImm(0) // CLAMP
				665	.addImm(0); // OMOD
Tom Stellard	2a6a6105	2013-07-12 18:15:08 +0000	[diff] [blame]	666	MI->eraseFromParent();
				667	break;
Matt Arsenault	dbc9aae	2014-06-18 17:13:51 +0000	[diff] [blame]	668	}
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	669	case AMDGPU::SI_RegisterStorePseudo: {
				670	MachineRegisterInfo &MRI = BB->getParent()->getRegInfo();
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	671	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				672	MachineInstrBuilder MIB =
				673	BuildMI(*BB, I, MI->getDebugLoc(), TII->get(AMDGPU::SI_RegisterStore),
				674	Reg);
				675	for (unsigned i = 0, e = MI->getNumOperands(); i != e; ++i)
				676	MIB.addOperand(MI->getOperand(i));
				677
				678	MI->eraseFromParent();
Vincent Lejeune	79a5834	2014-05-10 19:18:25 +0000	[diff] [blame]	679	break;
				680	}
Vincent Lejeune	79a5834	2014-05-10 19:18:25 +0000	[diff] [blame]	681	case AMDGPU::FCLAMP_SI: {
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	682	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				683	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Matt Arsenault	a80c877	2014-08-02 01:10:28 +0000	[diff] [blame]	684	DebugLoc DL = MI->getDebugLoc();
				685	unsigned DestReg = MI->getOperand(0).getReg();
				686	BuildMI(*BB, I, DL, TII->get(AMDGPU::V_ADD_F32_e64), DestReg)
				687	.addImm(0) // SRC0 modifiers
				688	.addOperand(MI->getOperand(1))
				689	.addImm(0) // SRC1 modifiers
				690	.addImm(0) // SRC1
				691	.addImm(1) // CLAMP
				692	.addImm(0); // OMOD
Vincent Lejeune	79a5834	2014-05-10 19:18:25 +0000	[diff] [blame]	693	MI->eraseFromParent();
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	694	}
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	695	}
				696	return BB;
				697	}
				698
Matt Arsenault	75865923	2013-05-18 00:21:46 +0000	[diff] [blame]	699	EVT SITargetLowering::getSetCCResultType(LLVMContext &, EVT VT) const {
Tom Stellard	8374720	2013-07-18 21:43:53 +0000	[diff] [blame]	700	if (!VT.isVector()) {
				701	return MVT::i1;
				702	}
				703	return MVT::getVectorVT(MVT::i1, VT.getVectorNumElements());
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	704	}
				705
Christian Konig	082a14a	2013-03-18 11:34:05 +0000	[diff] [blame]	706	MVT SITargetLowering::getScalarShiftAmountTy(EVT VT) const {
				707	return MVT::i32;
				708	}
				709
Niels Ole Salscheider	d3a039f	2013-08-10 10:38:54 +0000	[diff] [blame]	710	bool SITargetLowering::isFMAFasterThanFMulAndFAdd(EVT VT) const {
				711	VT = VT.getScalarType();
				712
				713	if (!VT.isSimple())
				714	return false;
				715
				716	switch (VT.getSimpleVT().SimpleTy) {
				717	case MVT::f32:
				718	return false; /* There is V_MAD_F32 for f32 */
				719	case MVT::f64:
				720	return true;
				721	default:
				722	break;
				723	}
				724
				725	return false;
				726	}
				727
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	728	//===----------------------------------------------------------------------===//
				729	// Custom DAG Lowering Operations
				730	//===----------------------------------------------------------------------===//
				731
				732	SDValue SITargetLowering::LowerOperation(SDValue Op, SelectionDAG &DAG) const {
				733	switch (Op.getOpcode()) {
				734	default: return AMDGPUTargetLowering::LowerOperation(Op, DAG);
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	735	case ISD::FrameIndex: return LowerFrameIndex(Op, DAG);
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	736	case ISD::BRCOND: return LowerBRCOND(Op, DAG);
Tom Stellard	35bb18c	2013-08-26 15:06:04 +0000	[diff] [blame]	737	case ISD::LOAD: {
Tom Stellard	e812f2f	2014-07-21 15:45:06 +0000	[diff] [blame]	738	SDValue Result = LowerLOAD(Op, DAG);
				739	assert((!Result.getNode() \|\|
				740	Result.getNode()->getNumValues() == 2) &&
				741	"Load should return a value and a chain");
				742	return Result;
Tom Stellard	35bb18c	2013-08-26 15:06:04 +0000	[diff] [blame]	743	}
Tom Stellard	af77543	2013-10-23 00:44:32 +0000	[diff] [blame]	744
Matt Arsenault	ad14ce8	2014-07-19 18:44:39 +0000	[diff] [blame]	745	case ISD::FSIN:
				746	case ISD::FCOS:
				747	return LowerTrig(Op, DAG);
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	748	case ISD::SELECT: return LowerSELECT(Op, DAG);
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	749	case ISD::FDIV: return LowerFDIV(Op, DAG);
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	750	case ISD::STORE: return LowerSTORE(Op, DAG);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	751	case ISD::GlobalAddress: {
				752	MachineFunction &MF = DAG.getMachineFunction();
				753	SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
				754	return LowerGlobalAddress(MFI, Op, DAG);
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	755	}
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	756	case ISD::INTRINSIC_WO_CHAIN: return LowerINTRINSIC_WO_CHAIN(Op, DAG);
				757	case ISD::INTRINSIC_VOID: return LowerINTRINSIC_VOID(Op, DAG);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	758	}
				759	return SDValue();
				760	}
				761
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	762	/// \brief Helper function for LowerBRCOND
				763	static SDNode *findUser(SDValue Value, unsigned Opcode) {
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	764
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	765	SDNode *Parent = Value.getNode();
				766	for (SDNode::use_iterator I = Parent->use_begin(), E = Parent->use_end();
				767	I != E; ++I) {
				768
				769	if (I.getUse().get() != Value)
				770	continue;
				771
				772	if (I->getOpcode() == Opcode)
				773	return *I;
				774	}
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	775	return nullptr;
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	776	}
				777
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	778	SDValue SITargetLowering::LowerFrameIndex(SDValue Op, SelectionDAG &DAG) const {
				779
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	780	FrameIndexSDNode *FINode = cast<FrameIndexSDNode>(Op);
				781	unsigned FrameIndex = FINode->getIndex();
				782
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	783	return DAG.getTargetFrameIndex(FrameIndex, MVT::i32);
				784	}
				785
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	786	/// This transforms the control flow intrinsics to get the branch destination as
				787	/// last parameter, also switches branch target with BR if the need arise
				788	SDValue SITargetLowering::LowerBRCOND(SDValue BRCOND,
				789	SelectionDAG &DAG) const {
				790
Andrew Trick	ef9de2a	2013-05-25 02:42:55 +0000	[diff] [blame]	791	SDLoc DL(BRCOND);
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	792
				793	SDNode *Intr = BRCOND.getOperand(1).getNode();
				794	SDValue Target = BRCOND.getOperand(2);
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	795	SDNode *BR = nullptr;
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	796
				797	if (Intr->getOpcode() == ISD::SETCC) {
				798	// As long as we negate the condition everything is fine
				799	SDNode *SetCC = Intr;
				800	assert(SetCC->getConstantOperandVal(1) == 1);
NAKAMURA Takumi	458a827	2013-01-07 11:14:44 +0000	[diff] [blame]	801	assert(cast<CondCodeSDNode>(SetCC->getOperand(2).getNode())->get() ==
				802	ISD::SETNE);
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	803	Intr = SetCC->getOperand(0).getNode();
				804
				805	} else {
				806	// Get the target from BR if we don't negate the condition
				807	BR = findUser(BRCOND, ISD::BR);
				808	Target = BR->getOperand(1);
				809	}
				810
				811	assert(Intr->getOpcode() == ISD::INTRINSIC_W_CHAIN);
				812
				813	// Build the result and
				814	SmallVector<EVT, 4> Res;
				815	for (unsigned i = 1, e = Intr->getNumValues(); i != e; ++i)
				816	Res.push_back(Intr->getValueType(i));
				817
				818	// operands of the new intrinsic call
				819	SmallVector<SDValue, 4> Ops;
				820	Ops.push_back(BRCOND.getOperand(0));
				821	for (unsigned i = 1, e = Intr->getNumOperands(); i != e; ++i)
				822	Ops.push_back(Intr->getOperand(i));
				823	Ops.push_back(Target);
				824
				825	// build the new intrinsic call
				826	SDNode *Result = DAG.getNode(
				827	Res.size() > 1 ? ISD::INTRINSIC_W_CHAIN : ISD::INTRINSIC_VOID, DL,
Craig Topper	48d114b	2014-04-26 18:35:24 +0000	[diff] [blame]	828	DAG.getVTList(Res), Ops).getNode();
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	829
				830	if (BR) {
				831	// Give the branch instruction our target
				832	SDValue Ops[] = {
				833	BR->getOperand(0),
				834	BRCOND.getOperand(2)
				835	};
Chandler Carruth	356665a	2014-08-01 22:09:43 +0000	[diff] [blame]	836	SDValue NewBR = DAG.getNode(ISD::BR, DL, BR->getVTList(), Ops);
				837	DAG.ReplaceAllUsesWith(BR, NewBR.getNode());
				838	BR = NewBR.getNode();
Tom Stellard	f879435	2012-12-19 22:10:31 +0000	[diff] [blame]	839	}
				840
				841	SDValue Chain = SDValue(Result, Result->getNumValues() - 1);
				842
				843	// Copy the intrinsic results to registers
				844	for (unsigned i = 1, e = Intr->getNumValues() - 1; i != e; ++i) {
				845	SDNode *CopyToReg = findUser(SDValue(Intr, i), ISD::CopyToReg);
				846	if (!CopyToReg)
				847	continue;
				848
				849	Chain = DAG.getCopyToReg(
				850	Chain, DL,
				851	CopyToReg->getOperand(1),
				852	SDValue(Result, i - 1),
				853	SDValue());
				854
				855	DAG.ReplaceAllUsesWith(SDValue(CopyToReg, 0), CopyToReg->getOperand(0));
				856	}
				857
				858	// Remove the old intrinsic from the chain
				859	DAG.ReplaceAllUsesOfValueWith(
				860	SDValue(Intr, Intr->getNumValues() - 1),
				861	Intr->getOperand(0));
				862
				863	return Chain;
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	864	}
				865
Tom Stellard	067c815	2014-07-21 14:01:14 +0000	[diff] [blame]	866	SDValue SITargetLowering::LowerGlobalAddress(AMDGPUMachineFunction *MFI,
				867	SDValue Op,
				868	SelectionDAG &DAG) const {
				869	GlobalAddressSDNode *GSD = cast<GlobalAddressSDNode>(Op);
				870
				871	if (GSD->getAddressSpace() != AMDGPUAS::CONSTANT_ADDRESS)
				872	return AMDGPUTargetLowering::LowerGlobalAddress(MFI, Op, DAG);
				873
				874	SDLoc DL(GSD);
				875	const GlobalValue *GV = GSD->getGlobal();
				876	MVT PtrVT = getPointerTy(GSD->getAddressSpace());
				877
				878	SDValue Ptr = DAG.getNode(AMDGPUISD::CONST_DATA_PTR, DL, PtrVT);
				879	SDValue GA = DAG.getTargetGlobalAddress(GV, DL, MVT::i32);
				880
				881	SDValue PtrLo = DAG.getNode(ISD::EXTRACT_ELEMENT, DL, MVT::i32, Ptr,
				882	DAG.getConstant(0, MVT::i32));
				883	SDValue PtrHi = DAG.getNode(ISD::EXTRACT_ELEMENT, DL, MVT::i32, Ptr,
				884	DAG.getConstant(1, MVT::i32));
				885
				886	SDValue Lo = DAG.getNode(ISD::ADDC, DL, DAG.getVTList(MVT::i32, MVT::Glue),
				887	PtrLo, GA);
				888	SDValue Hi = DAG.getNode(ISD::ADDE, DL, DAG.getVTList(MVT::i32, MVT::Glue),
				889	PtrHi, DAG.getConstant(0, MVT::i32),
				890	SDValue(Lo.getNode(), 1));
				891	return DAG.getNode(ISD::BUILD_PAIR, DL, MVT::i64, Lo, Hi);
				892	}
				893
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	894	SDValue SITargetLowering::LowerINTRINSIC_WO_CHAIN(SDValue Op,
				895	SelectionDAG &DAG) const {
				896	MachineFunction &MF = DAG.getMachineFunction();
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	897	const SIRegisterInfo *TRI =
				898	static_cast<const SIRegisterInfo*>(MF.getSubtarget().getRegisterInfo());
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	899
				900	EVT VT = Op.getValueType();
				901	SDLoc DL(Op);
				902	unsigned IntrinsicID = cast<ConstantSDNode>(Op.getOperand(0))->getZExtValue();
				903
				904	switch (IntrinsicID) {
				905	case Intrinsic::r600_read_ngroups_x:
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	906	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(),
				907	SI::KernelInputOffsets::NGROUPS_X, false);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	908	case Intrinsic::r600_read_ngroups_y:
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	909	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(),
				910	SI::KernelInputOffsets::NGROUPS_Y, false);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	911	case Intrinsic::r600_read_ngroups_z:
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	912	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(),
				913	SI::KernelInputOffsets::NGROUPS_Z, false);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	914	case Intrinsic::r600_read_global_size_x:
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	915	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(),
				916	SI::KernelInputOffsets::GLOBAL_SIZE_X, false);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	917	case Intrinsic::r600_read_global_size_y:
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	918	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(),
				919	SI::KernelInputOffsets::GLOBAL_SIZE_Y, false);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	920	case Intrinsic::r600_read_global_size_z:
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	921	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(),
				922	SI::KernelInputOffsets::GLOBAL_SIZE_Z, false);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	923	case Intrinsic::r600_read_local_size_x:
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	924	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(),
				925	SI::KernelInputOffsets::LOCAL_SIZE_X, false);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	926	case Intrinsic::r600_read_local_size_y:
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	927	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(),
				928	SI::KernelInputOffsets::LOCAL_SIZE_Y, false);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	929	case Intrinsic::r600_read_local_size_z:
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	930	return LowerParameter(DAG, VT, VT, DL, DAG.getEntryNode(),
				931	SI::KernelInputOffsets::LOCAL_SIZE_Z, false);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	932	case Intrinsic::r600_read_tgid_x:
				933	return CreateLiveInRegister(DAG, &AMDGPU::SReg_32RegClass,
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	934	TRI->getPreloadedValue(MF, SIRegisterInfo::TGID_X), VT);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	935	case Intrinsic::r600_read_tgid_y:
				936	return CreateLiveInRegister(DAG, &AMDGPU::SReg_32RegClass,
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	937	TRI->getPreloadedValue(MF, SIRegisterInfo::TGID_Y), VT);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	938	case Intrinsic::r600_read_tgid_z:
				939	return CreateLiveInRegister(DAG, &AMDGPU::SReg_32RegClass,
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	940	TRI->getPreloadedValue(MF, SIRegisterInfo::TGID_Z), VT);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	941	case Intrinsic::r600_read_tidig_x:
				942	return CreateLiveInRegister(DAG, &AMDGPU::VReg_32RegClass,
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	943	TRI->getPreloadedValue(MF, SIRegisterInfo::TIDIG_X), VT);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	944	case Intrinsic::r600_read_tidig_y:
				945	return CreateLiveInRegister(DAG, &AMDGPU::VReg_32RegClass,
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	946	TRI->getPreloadedValue(MF, SIRegisterInfo::TIDIG_Y), VT);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	947	case Intrinsic::r600_read_tidig_z:
				948	return CreateLiveInRegister(DAG, &AMDGPU::VReg_32RegClass,
Tom Stellard	ec2e43c	2014-09-22 15:35:29 +0000	[diff] [blame^]	949	TRI->getPreloadedValue(MF, SIRegisterInfo::TIDIG_Z), VT);
Matt Arsenault	a5789bb	2014-07-26 06:23:37 +0000	[diff] [blame]	950	case AMDGPUIntrinsic::SI_load_const: {
				951	SDValue Ops[] = {
				952	Op.getOperand(1),
				953	Op.getOperand(2)
				954	};
				955
				956	MachineMemOperand *MMO = MF.getMachineMemOperand(
				957	MachinePointerInfo(),
				958	MachineMemOperand::MOLoad \| MachineMemOperand::MOInvariant,
				959	VT.getStoreSize(), 4);
				960	return DAG.getMemIntrinsicNode(AMDGPUISD::LOAD_CONSTANT, DL,
				961	Op->getVTList(), Ops, VT, MMO);
				962	}
				963	case AMDGPUIntrinsic::SI_sample:
				964	return LowerSampleIntrinsic(AMDGPUISD::SAMPLE, Op, DAG);
				965	case AMDGPUIntrinsic::SI_sampleb:
				966	return LowerSampleIntrinsic(AMDGPUISD::SAMPLEB, Op, DAG);
				967	case AMDGPUIntrinsic::SI_sampled:
				968	return LowerSampleIntrinsic(AMDGPUISD::SAMPLED, Op, DAG);
				969	case AMDGPUIntrinsic::SI_samplel:
				970	return LowerSampleIntrinsic(AMDGPUISD::SAMPLEL, Op, DAG);
				971	case AMDGPUIntrinsic::SI_vs_load_input:
				972	return DAG.getNode(AMDGPUISD::LOAD_INPUT, DL, VT,
				973	Op.getOperand(1),
				974	Op.getOperand(2),
				975	Op.getOperand(3));
				976	default:
				977	return AMDGPUTargetLowering::LowerOperation(Op, DAG);
				978	}
				979	}
				980
				981	SDValue SITargetLowering::LowerINTRINSIC_VOID(SDValue Op,
				982	SelectionDAG &DAG) const {
				983	MachineFunction &MF = DAG.getMachineFunction();
				984	SDValue Chain = Op.getOperand(0);
				985	unsigned IntrinsicID = cast<ConstantSDNode>(Op.getOperand(1))->getZExtValue();
				986
				987	switch (IntrinsicID) {
				988	case AMDGPUIntrinsic::SI_tbuffer_store: {
				989	SDLoc DL(Op);
				990	SDValue Ops[] = {
				991	Chain,
				992	Op.getOperand(2),
				993	Op.getOperand(3),
				994	Op.getOperand(4),
				995	Op.getOperand(5),
				996	Op.getOperand(6),
				997	Op.getOperand(7),
				998	Op.getOperand(8),
				999	Op.getOperand(9),
				1000	Op.getOperand(10),
				1001	Op.getOperand(11),
				1002	Op.getOperand(12),
				1003	Op.getOperand(13),
				1004	Op.getOperand(14)
				1005	};
				1006
				1007	EVT VT = Op.getOperand(3).getValueType();
				1008
				1009	MachineMemOperand *MMO = MF.getMachineMemOperand(
				1010	MachinePointerInfo(),
				1011	MachineMemOperand::MOStore,
				1012	VT.getStoreSize(), 4);
				1013	return DAG.getMemIntrinsicNode(AMDGPUISD::TBUFFER_STORE_FORMAT, DL,
				1014	Op->getVTList(), Ops, VT, MMO);
				1015	}
				1016	default:
				1017	return SDValue();
				1018	}
				1019	}
				1020
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1021	SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
				1022	SDLoc DL(Op);
				1023	LoadSDNode *Load = cast<LoadSDNode>(Op);
				1024
Tom Stellard	e812f2f	2014-07-21 15:45:06 +0000	[diff] [blame]	1025	if (Op.getValueType().isVector()) {
				1026	assert(Op.getValueType().getVectorElementType() == MVT::i32 &&
				1027	"Custom lowering for non-i32 vectors hasn't been implemented.");
				1028	unsigned NumElements = Op.getValueType().getVectorNumElements();
				1029	assert(NumElements != 2 && "v2 loads are supported for all address spaces.");
				1030	switch (Load->getAddressSpace()) {
				1031	default: break;
				1032	case AMDGPUAS::GLOBAL_ADDRESS:
				1033	case AMDGPUAS::PRIVATE_ADDRESS:
				1034	// v4 loads are supported for private and global memory.
				1035	if (NumElements <= 4)
				1036	break;
				1037	// fall-through
				1038	case AMDGPUAS::LOCAL_ADDRESS:
Matt Arsenault	83e6058	2014-07-24 17:10:35 +0000	[diff] [blame]	1039	return ScalarizeVectorLoad(Op, DAG);
Tom Stellard	e812f2f	2014-07-21 15:45:06 +0000	[diff] [blame]	1040	}
Tom Stellard	e937360	2014-01-22 19:24:14 +0000	[diff] [blame]	1041	}
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1042
Tom Stellard	e812f2f	2014-07-21 15:45:06 +0000	[diff] [blame]	1043	return AMDGPUTargetLowering::LowerLOAD(Op, DAG);
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1044	}
				1045
Tom Stellard	9fa1791	2013-08-14 23:24:45 +0000	[diff] [blame]	1046	SDValue SITargetLowering::LowerSampleIntrinsic(unsigned Opcode,
				1047	const SDValue &Op,
				1048	SelectionDAG &DAG) const {
				1049	return DAG.getNode(Opcode, SDLoc(Op), Op.getValueType(), Op.getOperand(1),
				1050	Op.getOperand(2),
Tom Stellard	868fd92	2014-04-17 21:00:11 +0000	[diff] [blame]	1051	Op.getOperand(3),
Tom Stellard	9fa1791	2013-08-14 23:24:45 +0000	[diff] [blame]	1052	Op.getOperand(4));
				1053	}
				1054
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	1055	SDValue SITargetLowering::LowerSELECT(SDValue Op, SelectionDAG &DAG) const {
				1056	if (Op.getValueType() != MVT::i64)
				1057	return SDValue();
				1058
				1059	SDLoc DL(Op);
				1060	SDValue Cond = Op.getOperand(0);
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	1061
				1062	SDValue Zero = DAG.getConstant(0, MVT::i32);
				1063	SDValue One = DAG.getConstant(1, MVT::i32);
				1064
Tom Stellard	7ea3d6d	2014-03-31 14:01:55 +0000	[diff] [blame]	1065	SDValue LHS = DAG.getNode(ISD::BITCAST, DL, MVT::v2i32, Op.getOperand(1));
				1066	SDValue RHS = DAG.getNode(ISD::BITCAST, DL, MVT::v2i32, Op.getOperand(2));
				1067
				1068	SDValue Lo0 = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, MVT::i32, LHS, Zero);
				1069	SDValue Lo1 = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, MVT::i32, RHS, Zero);
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	1070
				1071	SDValue Lo = DAG.getSelect(DL, MVT::i32, Cond, Lo0, Lo1);
				1072
Tom Stellard	7ea3d6d	2014-03-31 14:01:55 +0000	[diff] [blame]	1073	SDValue Hi0 = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, MVT::i32, LHS, One);
				1074	SDValue Hi1 = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, MVT::i32, RHS, One);
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	1075
				1076	SDValue Hi = DAG.getSelect(DL, MVT::i32, Cond, Hi0, Hi1);
				1077
Tom Stellard	7ea3d6d	2014-03-31 14:01:55 +0000	[diff] [blame]	1078	SDValue Res = DAG.getNode(ISD::BUILD_VECTOR, DL, MVT::v2i32, Lo, Hi);
				1079	return DAG.getNode(ISD::BITCAST, DL, MVT::i64, Res);
Tom Stellard	0ec134f	2014-02-04 17:18:40 +0000	[diff] [blame]	1080	}
				1081
Matt Arsenault	22ca3f8	2014-07-15 23:50:10 +0000	[diff] [blame]	1082	// Catch division cases where we can use shortcuts with rcp and rsq
				1083	// instructions.
				1084	SDValue SITargetLowering::LowerFastFDIV(SDValue Op, SelectionDAG &DAG) const {
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	1085	SDLoc SL(Op);
				1086	SDValue LHS = Op.getOperand(0);
				1087	SDValue RHS = Op.getOperand(1);
				1088	EVT VT = Op.getValueType();
Matt Arsenault	22ca3f8	2014-07-15 23:50:10 +0000	[diff] [blame]	1089	bool Unsafe = DAG.getTarget().Options.UnsafeFPMath;
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	1090
				1091	if (const ConstantFPSDNode *CLHS = dyn_cast<ConstantFPSDNode>(LHS)) {
Matt Arsenault	22ca3f8	2014-07-15 23:50:10 +0000	[diff] [blame]	1092	if ((Unsafe \|\| (VT == MVT::f32 && !Subtarget->hasFP32Denormals())) &&
				1093	CLHS->isExactlyValue(1.0)) {
				1094	// v_rcp_f32 and v_rsq_f32 do not support denormals, and according to
				1095	// the CI documentation has a worst case error of 1 ulp.
				1096	// OpenCL requires <= 2.5 ulp for 1.0 / x, so it should always be OK to
				1097	// use it as long as we aren't trying to use denormals.
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	1098
				1099	// 1.0 / sqrt(x) -> rsq(x)
Matt Arsenault	22ca3f8	2014-07-15 23:50:10 +0000	[diff] [blame]	1100	//
				1101	// XXX - Is UnsafeFPMath sufficient to do this for f64? The maximum ULP
				1102	// error seems really high at 2^29 ULP.
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	1103	if (RHS.getOpcode() == ISD::FSQRT)
				1104	return DAG.getNode(AMDGPUISD::RSQ, SL, VT, RHS.getOperand(0));
				1105
				1106	// 1.0 / x -> rcp(x)
				1107	return DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);
				1108	}
				1109	}
				1110
Matt Arsenault	22ca3f8	2014-07-15 23:50:10 +0000	[diff] [blame]	1111	if (Unsafe) {
				1112	// Turn into multiply by the reciprocal.
				1113	// x / y -> x * (1.0 / y)
				1114	SDValue Recip = DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);
				1115	return DAG.getNode(ISD::FMUL, SL, VT, LHS, Recip);
				1116	}
				1117
				1118	return SDValue();
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	1119	}
				1120
				1121	SDValue SITargetLowering::LowerFDIV32(SDValue Op, SelectionDAG &DAG) const {
Matt Arsenault	22ca3f8	2014-07-15 23:50:10 +0000	[diff] [blame]	1122	SDValue FastLowered = LowerFastFDIV(Op, DAG);
				1123	if (FastLowered.getNode())
				1124	return FastLowered;
				1125
				1126	// This uses v_rcp_f32 which does not handle denormals. Let this hit a
				1127	// selection error for now rather than do something incorrect.
				1128	if (Subtarget->hasFP32Denormals())
				1129	return SDValue();
Matt Arsenault	e9fa3b8	2014-07-15 20:18:31 +0000	[diff] [blame]	1130
				1131	SDLoc SL(Op);
				1132	SDValue LHS = Op.getOperand(0);
				1133	SDValue RHS = Op.getOperand(1);
				1134
				1135	SDValue r1 = DAG.getNode(ISD::FABS, SL, MVT::f32, RHS);
				1136
				1137	const APFloat K0Val(BitsToFloat(0x6f800000));
				1138	const SDValue K0 = DAG.getConstantFP(K0Val, MVT::f32);
				1139
				1140	const APFloat K1Val(BitsToFloat(0x2f800000));
				1141	const SDValue K1 = DAG.getConstantFP(K1Val, MVT::f32);
				1142
				1143	const SDValue One = DAG.getTargetConstantFP(1.0, MVT::f32);
				1144
				1145	EVT SetCCVT = getSetCCResultType(*DAG.getContext(), MVT::f32);
				1146
				1147	SDValue r2 = DAG.getSetCC(SL, SetCCVT, r1, K0, ISD::SETOGT);
				1148
				1149	SDValue r3 = DAG.getNode(ISD::SELECT, SL, MVT::f32, r2, K1, One);
				1150
				1151	r1 = DAG.getNode(ISD::FMUL, SL, MVT::f32, RHS, r3);
				1152
				1153	SDValue r0 = DAG.getNode(AMDGPUISD::RCP, SL, MVT::f32, r1);
				1154
				1155	SDValue Mul = DAG.getNode(ISD::FMUL, SL, MVT::f32, LHS, r0);
				1156
				1157	return DAG.getNode(ISD::FMUL, SL, MVT::f32, r3, Mul);
				1158	}
				1159
				1160	SDValue SITargetLowering::LowerFDIV64(SDValue Op, SelectionDAG &DAG) const {
				1161	return SDValue();
				1162	}
				1163
				1164	SDValue SITargetLowering::LowerFDIV(SDValue Op, SelectionDAG &DAG) const {
				1165	EVT VT = Op.getValueType();
				1166
				1167	if (VT == MVT::f32)
				1168	return LowerFDIV32(Op, DAG);
				1169
				1170	if (VT == MVT::f64)
				1171	return LowerFDIV64(Op, DAG);
				1172
				1173	llvm_unreachable("Unexpected type for fdiv");
				1174	}
				1175
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1176	SDValue SITargetLowering::LowerSTORE(SDValue Op, SelectionDAG &DAG) const {
				1177	SDLoc DL(Op);
				1178	StoreSDNode *Store = cast<StoreSDNode>(Op);
				1179	EVT VT = Store->getMemoryVT();
				1180
Tom Stellard	9b3816b	2014-06-24 23:33:04 +0000	[diff] [blame]	1181	// These stores are legal.
				1182	if (Store->getAddressSpace() == AMDGPUAS::LOCAL_ADDRESS &&
				1183	VT.isVector() && VT.getVectorNumElements() == 2 &&
				1184	VT.getVectorElementType() == MVT::i32)
				1185	return SDValue();
				1186
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	1187	if (Store->getAddressSpace() == AMDGPUAS::PRIVATE_ADDRESS) {
				1188	if (VT.isVector() && VT.getVectorNumElements() > 4)
Matt Arsenault	83e6058	2014-07-24 17:10:35 +0000	[diff] [blame]	1189	return ScalarizeVectorStore(Op, DAG);
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	1190	return SDValue();
				1191	}
				1192
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1193	SDValue Ret = AMDGPUTargetLowering::LowerSTORE(Op, DAG);
				1194	if (Ret.getNode())
				1195	return Ret;
				1196
				1197	if (VT.isVector() && VT.getVectorNumElements() >= 8)
Matt Arsenault	83e6058	2014-07-24 17:10:35 +0000	[diff] [blame]	1198	return ScalarizeVectorStore(Op, DAG);
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1199
Tom Stellard	1c8788e	2014-03-07 20:12:33 +0000	[diff] [blame]	1200	if (VT == MVT::i1)
				1201	return DAG.getTruncStore(Store->getChain(), DL,
				1202	DAG.getSExtOrTrunc(Store->getValue(), DL, MVT::i32),
				1203	Store->getBasePtr(), MVT::i1, Store->getMemOperand());
				1204
Tom Stellard	e812f2f	2014-07-21 15:45:06 +0000	[diff] [blame]	1205	return SDValue();
Tom Stellard	81d871d	2013-11-13 23:36:50 +0000	[diff] [blame]	1206	}
				1207
Matt Arsenault	ad14ce8	2014-07-19 18:44:39 +0000	[diff] [blame]	1208	SDValue SITargetLowering::LowerTrig(SDValue Op, SelectionDAG &DAG) const {
				1209	EVT VT = Op.getValueType();
				1210	SDValue Arg = Op.getOperand(0);
				1211	SDValue FractPart = DAG.getNode(AMDGPUISD::FRACT, SDLoc(Op), VT,
				1212	DAG.getNode(ISD::FMUL, SDLoc(Op), VT, Arg,
				1213	DAG.getConstantFP(0.5 / M_PI, VT)));
				1214
				1215	switch (Op.getOpcode()) {
				1216	case ISD::FCOS:
				1217	return DAG.getNode(AMDGPUISD::COS_HW, SDLoc(Op), VT, FractPart);
				1218	case ISD::FSIN:
				1219	return DAG.getNode(AMDGPUISD::SIN_HW, SDLoc(Op), VT, FractPart);
				1220	default:
				1221	llvm_unreachable("Wrong trig opcode");
				1222	}
				1223	}
				1224
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1225	//===----------------------------------------------------------------------===//
				1226	// Custom DAG optimizations
				1227	//===----------------------------------------------------------------------===//
				1228
Matt Arsenault	364a674	2014-06-11 17:50:44 +0000	[diff] [blame]	1229	SDValue SITargetLowering::performUCharToFloatCombine(SDNode *N,
				1230	DAGCombinerInfo &DCI) {
				1231	EVT VT = N->getValueType(0);
				1232	EVT ScalarVT = VT.getScalarType();
				1233	if (ScalarVT != MVT::f32)
				1234	return SDValue();
				1235
				1236	SelectionDAG &DAG = DCI.DAG;
				1237	SDLoc DL(N);
				1238
				1239	SDValue Src = N->getOperand(0);
				1240	EVT SrcVT = Src.getValueType();
				1241
				1242	// TODO: We could try to match extracting the higher bytes, which would be
				1243	// easier if i8 vectors weren't promoted to i32 vectors, particularly after
				1244	// types are legalized. v4i8 -> v4f32 is probably the only case to worry
				1245	// about in practice.
				1246	if (DCI.isAfterLegalizeVectorOps() && SrcVT == MVT::i32) {
				1247	if (DAG.MaskedValueIsZero(Src, APInt::getHighBitsSet(32, 24))) {
				1248	SDValue Cvt = DAG.getNode(AMDGPUISD::CVT_F32_UBYTE0, DL, VT, Src);
				1249	DCI.AddToWorklist(Cvt.getNode());
				1250	return Cvt;
				1251	}
				1252	}
				1253
				1254	// We are primarily trying to catch operations on illegal vector types
				1255	// before they are expanded.
				1256	// For scalars, we can use the more flexible method of checking masked bits
				1257	// after legalization.
				1258	if (!DCI.isBeforeLegalize() \|\|
				1259	!SrcVT.isVector() \|\|
				1260	SrcVT.getVectorElementType() != MVT::i8) {
				1261	return SDValue();
				1262	}
				1263
				1264	assert(DCI.isBeforeLegalize() && "Unexpected legal type");
				1265
				1266	// Weird sized vectors are a pain to handle, but we know 3 is really the same
				1267	// size as 4.
				1268	unsigned NElts = SrcVT.getVectorNumElements();
				1269	if (!SrcVT.isSimple() && NElts != 3)
				1270	return SDValue();
				1271
				1272	// Handle v4i8 -> v4f32 extload. Replace the v4i8 with a legal i32 load to
				1273	// prevent a mess from expanding to v4i32 and repacking.
				1274	if (ISD::isNormalLoad(Src.getNode()) && Src.hasOneUse()) {
				1275	EVT LoadVT = getEquivalentMemType(*DAG.getContext(), SrcVT);
				1276	EVT RegVT = getEquivalentLoadRegType(*DAG.getContext(), SrcVT);
				1277	EVT FloatVT = EVT::getVectorVT(*DAG.getContext(), MVT::f32, NElts);
				1278
				1279	LoadSDNode *Load = cast<LoadSDNode>(Src);
				1280	SDValue NewLoad = DAG.getExtLoad(ISD::ZEXTLOAD, DL, RegVT,
				1281	Load->getChain(),
				1282	Load->getBasePtr(),
				1283	LoadVT,
				1284	Load->getMemOperand());
				1285
				1286	// Make sure successors of the original load stay after it by updating
				1287	// them to use the new Chain.
				1288	DAG.ReplaceAllUsesOfValueWith(SDValue(Load, 1), NewLoad.getValue(1));
				1289
				1290	SmallVector<SDValue, 4> Elts;
				1291	if (RegVT.isVector())
				1292	DAG.ExtractVectorElements(NewLoad, Elts);
				1293	else
				1294	Elts.push_back(NewLoad);
				1295
				1296	SmallVector<SDValue, 4> Ops;
				1297
				1298	unsigned EltIdx = 0;
				1299	for (SDValue Elt : Elts) {
				1300	unsigned ComponentsInElt = std::min(4u, NElts - 4 * EltIdx);
				1301	for (unsigned I = 0; I < ComponentsInElt; ++I) {
				1302	unsigned Opc = AMDGPUISD::CVT_F32_UBYTE0 + I;
				1303	SDValue Cvt = DAG.getNode(Opc, DL, MVT::f32, Elt);
				1304	DCI.AddToWorklist(Cvt.getNode());
				1305	Ops.push_back(Cvt);
				1306	}
				1307
				1308	++EltIdx;
				1309	}
				1310
				1311	assert(Ops.size() == NElts);
				1312
				1313	return DAG.getNode(ISD::BUILD_VECTOR, DL, FloatVT, Ops);
				1314	}
				1315
				1316	return SDValue();
				1317	}
				1318
Matt Arsenault	b2baffa	2014-08-15 17:49:05 +0000	[diff] [blame]	1319	// (shl (add x, c1), c2) -> add (shl x, c2), (shl c1, c2)
				1320
				1321	// This is a variant of
				1322	// (mul (add x, c1), c2) -> add (mul x, c2), (mul c1, c2),
				1323	//
				1324	// The normal DAG combiner will do this, but only if the add has one use since
				1325	// that would increase the number of instructions.
				1326	//
				1327	// This prevents us from seeing a constant offset that can be folded into a
				1328	// memory instruction's addressing mode. If we know the resulting add offset of
				1329	// a pointer can be folded into an addressing offset, we can replace the pointer
				1330	// operand with the add of new constant offset. This eliminates one of the uses,
				1331	// and may allow the remaining use to also be simplified.
				1332	//
				1333	SDValue SITargetLowering::performSHLPtrCombine(SDNode *N,
				1334	unsigned AddrSpace,
				1335	DAGCombinerInfo &DCI) const {
				1336	SDValue N0 = N->getOperand(0);
				1337	SDValue N1 = N->getOperand(1);
				1338
				1339	if (N0.getOpcode() != ISD::ADD)
				1340	return SDValue();
				1341
				1342	const ConstantSDNode *CN1 = dyn_cast<ConstantSDNode>(N1);
				1343	if (!CN1)
				1344	return SDValue();
				1345
				1346	const ConstantSDNode *CAdd = dyn_cast<ConstantSDNode>(N0.getOperand(1));
				1347	if (!CAdd)
				1348	return SDValue();
				1349
				1350	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				1351	getTargetMachine().getSubtargetImpl()->getInstrInfo());
				1352
				1353	// If the resulting offset is too large, we can't fold it into the addressing
				1354	// mode offset.
				1355	APInt Offset = CAdd->getAPIntValue() << CN1->getAPIntValue();
				1356	if (!TII->canFoldOffset(Offset.getZExtValue(), AddrSpace))
				1357	return SDValue();
				1358
				1359	SelectionDAG &DAG = DCI.DAG;
				1360	SDLoc SL(N);
				1361	EVT VT = N->getValueType(0);
				1362
				1363	SDValue ShlX = DAG.getNode(ISD::SHL, SL, VT, N0.getOperand(0), N1);
				1364	SDValue COffset = DAG.getConstant(Offset, MVT::i32);
				1365
				1366	return DAG.getNode(ISD::ADD, SL, VT, ShlX, COffset);
				1367	}
				1368
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1369	SDValue SITargetLowering::PerformDAGCombine(SDNode *N,
				1370	DAGCombinerInfo &DCI) const {
				1371	SelectionDAG &DAG = DCI.DAG;
Andrew Trick	ef9de2a	2013-05-25 02:42:55 +0000	[diff] [blame]	1372	SDLoc DL(N);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1373	EVT VT = N->getValueType(0);
				1374
				1375	switch (N->getOpcode()) {
Tom Stellard	50122a5	2014-04-07 19:45:41 +0000	[diff] [blame]	1376	default: return AMDGPUTargetLowering::PerformDAGCombine(N, DCI);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1377	case ISD::SETCC: {
				1378	SDValue Arg0 = N->getOperand(0);
				1379	SDValue Arg1 = N->getOperand(1);
				1380	SDValue CC = N->getOperand(2);
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	1381	ConstantSDNode * C = nullptr;
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1382	ISD::CondCode CCOp = dyn_cast<CondCodeSDNode>(CC)->get();
				1383
				1384	// i1 setcc (sext(i1), 0, setne) -> i1 setcc(i1, 0, setne)
				1385	if (VT == MVT::i1
				1386	&& Arg0.getOpcode() == ISD::SIGN_EXTEND
				1387	&& Arg0.getOperand(0).getValueType() == MVT::i1
				1388	&& (C = dyn_cast<ConstantSDNode>(Arg1))
				1389	&& C->isNullValue()
				1390	&& CCOp == ISD::SETNE) {
				1391	return SimplifySetCC(VT, Arg0.getOperand(0),
				1392	DAG.getConstant(0, MVT::i1), CCOp, true, DCI, DL);
				1393	}
				1394	break;
				1395	}
Matt Arsenault	364a674	2014-06-11 17:50:44 +0000	[diff] [blame]	1396
				1397	case AMDGPUISD::CVT_F32_UBYTE0:
				1398	case AMDGPUISD::CVT_F32_UBYTE1:
				1399	case AMDGPUISD::CVT_F32_UBYTE2:
				1400	case AMDGPUISD::CVT_F32_UBYTE3: {
				1401	unsigned Offset = N->getOpcode() - AMDGPUISD::CVT_F32_UBYTE0;
				1402
				1403	SDValue Src = N->getOperand(0);
				1404	APInt Demanded = APInt::getBitsSet(32, 8 * Offset, 8 * Offset + 8);
				1405
				1406	APInt KnownZero, KnownOne;
				1407	TargetLowering::TargetLoweringOpt TLO(DAG, !DCI.isBeforeLegalize(),
				1408	!DCI.isBeforeLegalizeOps());
				1409	const TargetLowering &TLI = DAG.getTargetLoweringInfo();
				1410	if (TLO.ShrinkDemandedConstant(Src, Demanded) \|\|
				1411	TLI.SimplifyDemandedBits(Src, Demanded, KnownZero, KnownOne, TLO)) {
				1412	DCI.CommitTargetLoweringOpt(TLO);
				1413	}
				1414
				1415	break;
				1416	}
				1417
				1418	case ISD::UINT_TO_FP: {
				1419	return performUCharToFloatCombine(N, DCI);
Matt Arsenault	8675db1	2014-08-29 16:01:14 +0000	[diff] [blame]	1420
				1421	case ISD::FSUB: {
				1422	if (DCI.getDAGCombineLevel() < AfterLegalizeDAG)
				1423	break;
				1424
				1425	EVT VT = N->getValueType(0);
				1426
				1427	// Try to get the fneg to fold into the source modifier. This undoes generic
				1428	// DAG combines and folds them into the mad.
				1429	if (VT == MVT::f32) {
				1430	SDValue LHS = N->getOperand(0);
				1431	SDValue RHS = N->getOperand(1);
				1432
				1433	if (LHS.getOpcode() == ISD::FMUL) {
				1434	// (fsub (fmul a, b), c) -> mad a, b, (fneg c)
				1435
				1436	SDValue A = LHS.getOperand(0);
				1437	SDValue B = LHS.getOperand(1);
				1438	SDValue C = DAG.getNode(ISD::FNEG, DL, VT, RHS);
				1439
				1440	return DAG.getNode(AMDGPUISD::MAD, DL, VT, A, B, C);
				1441	}
				1442
				1443	if (RHS.getOpcode() == ISD::FMUL) {
				1444	// (fsub c, (fmul a, b)) -> mad (fneg a), b, c
				1445
				1446	SDValue A = DAG.getNode(ISD::FNEG, DL, VT, RHS.getOperand(0));
				1447	SDValue B = RHS.getOperand(1);
				1448	SDValue C = LHS;
				1449
				1450	return DAG.getNode(AMDGPUISD::MAD, DL, VT, A, B, C);
				1451	}
				1452	}
				1453
				1454	break;
				1455	}
Matt Arsenault	364a674	2014-06-11 17:50:44 +0000	[diff] [blame]	1456	}
Matt Arsenault	b2baffa	2014-08-15 17:49:05 +0000	[diff] [blame]	1457	case ISD::LOAD:
				1458	case ISD::STORE:
				1459	case ISD::ATOMIC_LOAD:
				1460	case ISD::ATOMIC_STORE:
				1461	case ISD::ATOMIC_CMP_SWAP:
				1462	case ISD::ATOMIC_CMP_SWAP_WITH_SUCCESS:
				1463	case ISD::ATOMIC_SWAP:
				1464	case ISD::ATOMIC_LOAD_ADD:
				1465	case ISD::ATOMIC_LOAD_SUB:
				1466	case ISD::ATOMIC_LOAD_AND:
				1467	case ISD::ATOMIC_LOAD_OR:
				1468	case ISD::ATOMIC_LOAD_XOR:
				1469	case ISD::ATOMIC_LOAD_NAND:
				1470	case ISD::ATOMIC_LOAD_MIN:
				1471	case ISD::ATOMIC_LOAD_MAX:
				1472	case ISD::ATOMIC_LOAD_UMIN:
				1473	case ISD::ATOMIC_LOAD_UMAX: { // TODO: Target mem intrinsics.
				1474	if (DCI.isBeforeLegalize())
				1475	break;
Matt Arsenault	5565f65e	2014-05-22 18:09:07 +0000	[diff] [blame]	1476
Matt Arsenault	b2baffa	2014-08-15 17:49:05 +0000	[diff] [blame]	1477	MemSDNode *MemNode = cast<MemSDNode>(N);
				1478	SDValue Ptr = MemNode->getBasePtr();
				1479
				1480	// TODO: We could also do this for multiplies.
				1481	unsigned AS = MemNode->getAddressSpace();
				1482	if (Ptr.getOpcode() == ISD::SHL && AS != AMDGPUAS::PRIVATE_ADDRESS) {
				1483	SDValue NewPtr = performSHLPtrCombine(Ptr.getNode(), AS, DCI);
				1484	if (NewPtr) {
				1485	SmallVector<SDValue, 8> NewOps;
Aaron Ballman	f12dc9c	2014-08-18 11:51:41 +0000	[diff] [blame]	1486	for (unsigned I = 0, E = MemNode->getNumOperands(); I != E; ++I)
Matt Arsenault	b2baffa	2014-08-15 17:49:05 +0000	[diff] [blame]	1487	NewOps.push_back(MemNode->getOperand(I));
				1488
				1489	NewOps[N->getOpcode() == ISD::STORE ? 2 : 1] = NewPtr;
				1490	return SDValue(DAG.UpdateNodeOperands(MemNode, NewOps), 0);
				1491	}
				1492	}
				1493	break;
				1494	}
				1495	}
Matt Arsenault	5565f65e	2014-05-22 18:09:07 +0000	[diff] [blame]	1496	return AMDGPUTargetLowering::PerformDAGCombine(N, DCI);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	1497	}
Christian Konig	d910b7d	2013-02-26 17:52:16 +0000	[diff] [blame]	1498
Matt Arsenault	75865923	2013-05-18 00:21:46 +0000	[diff] [blame]	1499	/// \brief Test if RegClass is one of the VSrc classes
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1500	static bool isVSrc(unsigned RegClass) {
				1501	return AMDGPU::VSrc_32RegClassID == RegClass \|\|
				1502	AMDGPU::VSrc_64RegClassID == RegClass;
				1503	}
				1504
Matt Arsenault	75865923	2013-05-18 00:21:46 +0000	[diff] [blame]	1505	/// \brief Test if RegClass is one of the SSrc classes
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1506	static bool isSSrc(unsigned RegClass) {
				1507	return AMDGPU::SSrc_32RegClassID == RegClass \|\|
				1508	AMDGPU::SSrc_64RegClassID == RegClass;
				1509	}
				1510
				1511	/// \brief Analyze the possible immediate value Op
				1512	///
				1513	/// Returns -1 if it isn't an immediate, 0 if it's and inline immediate
				1514	/// and the immediate value if it's a literal immediate
				1515	int32_t SITargetLowering::analyzeImmediate(const SDNode *N) const {
				1516
				1517	union {
				1518	int32_t I;
				1519	float F;
				1520	} Imm;
				1521
Tom Stellard	edbf1eb	2013-04-05 23:31:20 +0000	[diff] [blame]	1522	if (const ConstantSDNode *Node = dyn_cast<ConstantSDNode>(N)) {
				1523	if (Node->getZExtValue() >> 32) {
				1524	return -1;
				1525	}
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1526	Imm.I = Node->getSExtValue();
Tom Stellard	7ed0b52	2014-04-03 20:19:27 +0000	[diff] [blame]	1527	} else if (const ConstantFPSDNode *Node = dyn_cast<ConstantFPSDNode>(N)) {
				1528	if (N->getValueType(0) != MVT::f32)
				1529	return -1;
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1530	Imm.F = Node->getValueAPF().convertToFloat();
Tom Stellard	7ed0b52	2014-04-03 20:19:27 +0000	[diff] [blame]	1531	} else
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1532	return -1; // It isn't an immediate
				1533
				1534	if ((Imm.I >= -16 && Imm.I <= 64) \|\|
				1535	Imm.F == 0.5f \|\| Imm.F == -0.5f \|\|
				1536	Imm.F == 1.0f \|\| Imm.F == -1.0f \|\|
				1537	Imm.F == 2.0f \|\| Imm.F == -2.0f \|\|
				1538	Imm.F == 4.0f \|\| Imm.F == -4.0f)
				1539	return 0; // It's an inline immediate
				1540
				1541	return Imm.I; // It's a literal immediate
				1542	}
				1543
				1544	/// \brief Try to fold an immediate directly into an instruction
				1545	bool SITargetLowering::foldImm(SDValue &Operand, int32_t &Immediate,
				1546	bool &ScalarSlotUsed) const {
				1547
				1548	MachineSDNode *Mov = dyn_cast<MachineSDNode>(Operand);
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	1549	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				1550	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	1551	if (!Mov \|\| !TII->isMov(Mov->getMachineOpcode()))
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1552	return false;
				1553
				1554	const SDValue &Op = Mov->getOperand(0);
				1555	int32_t Value = analyzeImmediate(Op.getNode());
				1556	if (Value == -1) {
				1557	// Not an immediate at all
				1558	return false;
				1559
				1560	} else if (Value == 0) {
				1561	// Inline immediates can always be fold
				1562	Operand = Op;
				1563	return true;
				1564
				1565	} else if (Value == Immediate) {
				1566	// Already fold literal immediate
				1567	Operand = Op;
				1568	return true;
				1569
				1570	} else if (!ScalarSlotUsed && !Immediate) {
				1571	// Fold this literal immediate
				1572	ScalarSlotUsed = true;
				1573	Immediate = Value;
				1574	Operand = Op;
				1575	return true;
				1576
				1577	}
				1578
				1579	return false;
				1580	}
				1581
Tom Stellard	4c0ffcc	2013-08-06 23:08:18 +0000	[diff] [blame]	1582	const TargetRegisterClass *SITargetLowering::getRegClassForNode(
				1583	SelectionDAG &DAG, const SDValue &Op) const {
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	1584	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				1585	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Tom Stellard	4c0ffcc	2013-08-06 23:08:18 +0000	[diff] [blame]	1586	const SIRegisterInfo &TRI = TII->getRegisterInfo();
				1587
				1588	if (!Op->isMachineOpcode()) {
				1589	switch(Op->getOpcode()) {
				1590	case ISD::CopyFromReg: {
				1591	MachineRegisterInfo &MRI = DAG.getMachineFunction().getRegInfo();
				1592	unsigned Reg = cast<RegisterSDNode>(Op->getOperand(1))->getReg();
				1593	if (TargetRegisterInfo::isVirtualRegister(Reg)) {
				1594	return MRI.getRegClass(Reg);
				1595	}
				1596	return TRI.getPhysRegClass(Reg);
				1597	}
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	1598	default: return nullptr;
Tom Stellard	4c0ffcc	2013-08-06 23:08:18 +0000	[diff] [blame]	1599	}
				1600	}
				1601	const MCInstrDesc &Desc = TII->get(Op->getMachineOpcode());
				1602	int OpClassID = Desc.OpInfo[Op.getResNo()].RegClass;
				1603	if (OpClassID != -1) {
				1604	return TRI.getRegClass(OpClassID);
				1605	}
				1606	switch(Op.getMachineOpcode()) {
				1607	case AMDGPU::COPY_TO_REGCLASS:
				1608	// Operand 1 is the register class id for COPY_TO_REGCLASS instructions.
				1609	OpClassID = cast<ConstantSDNode>(Op->getOperand(1))->getZExtValue();
				1610
				1611	// If the COPY_TO_REGCLASS instruction is copying to a VSrc register
				1612	// class, then the register class for the value could be either a
				1613	// VReg or and SReg. In order to get a more accurate
				1614	if (OpClassID == AMDGPU::VSrc_32RegClassID \|\|
				1615	OpClassID == AMDGPU::VSrc_64RegClassID) {
				1616	return getRegClassForNode(DAG, Op.getOperand(0));
				1617	}
				1618	return TRI.getRegClass(OpClassID);
				1619	case AMDGPU::EXTRACT_SUBREG: {
				1620	int SubIdx = cast<ConstantSDNode>(Op.getOperand(1))->getZExtValue();
				1621	const TargetRegisterClass *SuperClass =
				1622	getRegClassForNode(DAG, Op.getOperand(0));
				1623	return TRI.getSubClassWithSubReg(SuperClass, SubIdx);
				1624	}
				1625	case AMDGPU::REG_SEQUENCE:
				1626	// Operand 0 is the register class id for REG_SEQUENCE instructions.
				1627	return TRI.getRegClass(
				1628	cast<ConstantSDNode>(Op.getOperand(0))->getZExtValue());
				1629	default:
				1630	return getRegClassFor(Op.getSimpleValueType());
				1631	}
				1632	}
				1633
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1634	/// \brief Does "Op" fit into register class "RegClass" ?
Tom Stellard	b35efba	2013-05-20 15:02:01 +0000	[diff] [blame]	1635	bool SITargetLowering::fitsRegClass(SelectionDAG &DAG, const SDValue &Op,
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1636	unsigned RegClass) const {
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	1637	const TargetRegisterInfo *TRI =
				1638	getTargetMachine().getSubtargetImpl()->getRegisterInfo();
Tom Stellard	4c0ffcc	2013-08-06 23:08:18 +0000	[diff] [blame]	1639	const TargetRegisterClass *RC = getRegClassForNode(DAG, Op);
				1640	if (!RC) {
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1641	return false;
Tom Stellard	4c0ffcc	2013-08-06 23:08:18 +0000	[diff] [blame]	1642	}
				1643	return TRI->getRegClass(RegClass)->hasSubClassEq(RC);
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1644	}
				1645
				1646	/// \brief Make sure that we don't exeed the number of allowed scalars
				1647	void SITargetLowering::ensureSRegLimit(SelectionDAG &DAG, SDValue &Operand,
				1648	unsigned RegClass,
				1649	bool &ScalarSlotUsed) const {
				1650
				1651	// First map the operands register class to a destination class
				1652	if (RegClass == AMDGPU::VSrc_32RegClassID)
				1653	RegClass = AMDGPU::VReg_32RegClassID;
				1654	else if (RegClass == AMDGPU::VSrc_64RegClassID)
				1655	RegClass = AMDGPU::VReg_64RegClassID;
				1656	else
				1657	return;
				1658
Alp Toker	cb40291	2014-01-24 17:20:08 +0000	[diff] [blame]	1659	// Nothing to do if they fit naturally
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1660	if (fitsRegClass(DAG, Operand, RegClass))
				1661	return;
				1662
				1663	// If the scalar slot isn't used yet use it now
				1664	if (!ScalarSlotUsed) {
				1665	ScalarSlotUsed = true;
				1666	return;
				1667	}
				1668
Matt Arsenault	1408b60	2013-10-10 23:05:37 +0000	[diff] [blame]	1669	// This is a conservative aproach. It is possible that we can't determine the
				1670	// correct register class and copy too often, but better safe than sorry.
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	1671
				1672	SDNode *Node;
				1673	// We can't use COPY_TO_REGCLASS with FrameIndex arguments.
Matt Arsenault	69bfb90	2014-09-08 15:07:33 +0000	[diff] [blame]	1674	if (isa<FrameIndexSDNode>(Operand) \|\|
				1675	isa<GlobalAddressSDNode>(Operand)) {
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	1676	unsigned Opcode = Operand.getValueType() == MVT::i32 ?
				1677	AMDGPU::S_MOV_B32 : AMDGPU::S_MOV_B64;
				1678	Node = DAG.getMachineNode(Opcode, SDLoc(), Operand.getValueType(),
				1679	Operand);
				1680	} else {
				1681	SDValue RC = DAG.getTargetConstant(RegClass, MVT::i32);
				1682	Node = DAG.getMachineNode(TargetOpcode::COPY_TO_REGCLASS, SDLoc(),
				1683	Operand.getValueType(), Operand, RC);
				1684	}
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1685	Operand = SDValue(Node, 0);
				1686	}
				1687
Tom Stellard	acec99c	2013-06-05 23:39:50 +0000	[diff] [blame]	1688	/// \returns true if \p Node's operands are different from the SDValue list
				1689	/// \p Ops
				1690	static bool isNodeChanged(const SDNode *Node, const std::vector<SDValue> &Ops) {
				1691	for (unsigned i = 0, e = Node->getNumOperands(); i < e; ++i) {
				1692	if (Ops[i].getNode() != Node->getOperand(i).getNode()) {
				1693	return true;
				1694	}
				1695	}
				1696	return false;
				1697	}
				1698
Matt Arsenault	253e5da	2014-09-17 15:35:43 +0000	[diff] [blame]	1699	/// \brief Try to commute instructions and insert copies in order to satisfy the
				1700	/// operand constraints.
				1701	SDNode SITargetLowering::legalizeOperands(MachineSDNode Node,
				1702	SelectionDAG &DAG) const {
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1703	// Original encoding (either e32 or e64)
				1704	int Opcode = Node->getMachineOpcode();
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	1705	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				1706	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1707	const MCInstrDesc *Desc = &TII->get(Opcode);
				1708
				1709	unsigned NumDefs = Desc->getNumDefs();
				1710	unsigned NumOps = Desc->getNumOperands();
				1711
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1712	// Commuted opcode if available
				1713	int OpcodeRev = Desc->isCommutable() ? TII->commuteOpcode(Opcode) : -1;
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	1714	const MCInstrDesc *DescRev = OpcodeRev == -1 ? nullptr : &TII->get(OpcodeRev);
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1715
				1716	assert(!DescRev \|\| DescRev->getNumDefs() == NumDefs);
				1717	assert(!DescRev \|\| DescRev->getNumOperands() == NumOps);
				1718
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1719	int32_t Immediate = Desc->getSize() == 4 ? 0 : -1;
				1720	bool HaveVSrc = false, HaveSSrc = false;
				1721
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	1722	// First figure out what we already have in this instruction.
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1723	for (unsigned i = 0, e = Node->getNumOperands(), Op = NumDefs;
				1724	i != e && Op < NumOps; ++i, ++Op) {
				1725
				1726	unsigned RegClass = Desc->OpInfo[Op].RegClass;
				1727	if (isVSrc(RegClass))
				1728	HaveVSrc = true;
				1729	else if (isSSrc(RegClass))
				1730	HaveSSrc = true;
				1731	else
				1732	continue;
				1733
				1734	int32_t Imm = analyzeImmediate(Node->getOperand(i).getNode());
				1735	if (Imm != -1 && Imm != 0) {
				1736	// Literal immediate
				1737	Immediate = Imm;
				1738	}
				1739	}
				1740
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	1741	// If we neither have VSrc nor SSrc, it makes no sense to continue.
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1742	if (!HaveVSrc && !HaveSSrc)
				1743	return Node;
				1744
				1745	// No scalar allowed when we have both VSrc and SSrc
				1746	bool ScalarSlotUsed = HaveVSrc && HaveSSrc;
				1747
				1748	// Second go over the operands and try to fold them
				1749	std::vector<SDValue> Ops;
				1750	for (unsigned i = 0, e = Node->getNumOperands(), Op = NumDefs;
				1751	i != e && Op < NumOps; ++i, ++Op) {
				1752
				1753	const SDValue &Operand = Node->getOperand(i);
				1754	Ops.push_back(Operand);
				1755
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	1756	// Already folded immediate?
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1757	if (isa<ConstantSDNode>(Operand.getNode()) \|\|
				1758	isa<ConstantFPSDNode>(Operand.getNode()))
				1759	continue;
				1760
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	1761	// Is this a VSrc or SSrc operand?
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1762	unsigned RegClass = Desc->OpInfo[Op].RegClass;
Christian Konig	8370dbb	2013-03-26 14:04:17 +0000	[diff] [blame]	1763	if (isVSrc(RegClass) \|\| isSSrc(RegClass)) {
				1764	// Try to fold the immediates
				1765	if (!foldImm(Ops[i], Immediate, ScalarSlotUsed)) {
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	1766	// Folding didn't work, make sure we don't hit the SReg limit.
Christian Konig	8370dbb	2013-03-26 14:04:17 +0000	[diff] [blame]	1767	ensureSRegLimit(DAG, Ops[i], RegClass, ScalarSlotUsed);
				1768	}
				1769	continue;
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	1770	} else {
				1771	// If it's not a VSrc or SSrc operand check if we have a GlobalAddress.
				1772	// These will be lowered to immediates, so we will need to insert a MOV.
				1773	if (isa<GlobalAddressSDNode>(Ops[i])) {
				1774	SDNode *Node = DAG.getMachineNode(AMDGPU::V_MOV_B32_e32, SDLoc(),
				1775	Operand.getValueType(), Operand);
				1776	Ops[i] = SDValue(Node, 0);
				1777	}
Christian Konig	8370dbb	2013-03-26 14:04:17 +0000	[diff] [blame]	1778	}
Christian Konig	6612ac3	2013-02-26 17:52:36 +0000	[diff] [blame]	1779
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1780	if (i == 1 && DescRev && fitsRegClass(DAG, Ops[0], RegClass)) {
Christian Konig	6612ac3	2013-02-26 17:52:36 +0000	[diff] [blame]	1781
Christian Konig	8370dbb	2013-03-26 14:04:17 +0000	[diff] [blame]	1782	unsigned OtherRegClass = Desc->OpInfo[NumDefs].RegClass;
				1783	assert(isVSrc(OtherRegClass) \|\| isSSrc(OtherRegClass));
				1784
				1785	// Test if it makes sense to swap operands
				1786	if (foldImm(Ops[1], Immediate, ScalarSlotUsed) \|\|
				1787	(!fitsRegClass(DAG, Ops[1], RegClass) &&
				1788	fitsRegClass(DAG, Ops[1], OtherRegClass))) {
Christian Konig	6612ac3	2013-02-26 17:52:36 +0000	[diff] [blame]	1789
				1790	// Swap commutable operands
Matt Arsenault	4be76e9	2014-04-07 16:44:26 +0000	[diff] [blame]	1791	std::swap(Ops[0], Ops[1]);
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1792
				1793	Desc = DescRev;
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	1794	DescRev = nullptr;
Christian Konig	8370dbb	2013-03-26 14:04:17 +0000	[diff] [blame]	1795	continue;
Christian Konig	6612ac3	2013-02-26 17:52:36 +0000	[diff] [blame]	1796	}
Christian Konig	6612ac3	2013-02-26 17:52:36 +0000	[diff] [blame]	1797	}
Christian Konig	e500e44	2013-02-26 17:52:47 +0000	[diff] [blame]	1798	}
				1799
Christian Konig	f82901a	2013-02-26 17:52:23 +0000	[diff] [blame]	1800	// Add optional chain and glue
				1801	for (unsigned i = NumOps - NumDefs, e = Node->getNumOperands(); i < e; ++i)
				1802	Ops.push_back(Node->getOperand(i));
				1803
Tom Stellard	b5a9700	2013-06-03 17:39:50 +0000	[diff] [blame]	1804	// Nodes that have a glue result are not CSE'd by getMachineNode(), so in
				1805	// this case a brand new node is always be created, even if the operands
				1806	// are the same as before. So, manually check if anything has been changed.
Tom Stellard	acec99c	2013-06-05 23:39:50 +0000	[diff] [blame]	1807	if (Desc->Opcode == Opcode && !isNodeChanged(Node, Ops)) {
				1808	return Node;
Tom Stellard	b5a9700	2013-06-03 17:39:50 +0000	[diff] [blame]	1809	}
				1810
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1811	// Create a complete new instruction
Andrew Trick	ef9de2a	2013-05-25 02:42:55 +0000	[diff] [blame]	1812	return DAG.getMachineNode(Desc->Opcode, SDLoc(Node), Node->getVTList(), Ops);
Christian Konig	d910b7d	2013-02-26 17:52:16 +0000	[diff] [blame]	1813	}
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1814
				1815	/// \brief Helper function for adjustWritemask
Benjamin Kramer	635e368	2013-05-23 15:43:05 +0000	[diff] [blame]	1816	static unsigned SubIdx2Lane(unsigned Idx) {
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1817	switch (Idx) {
				1818	default: return 0;
				1819	case AMDGPU::sub0: return 0;
				1820	case AMDGPU::sub1: return 1;
				1821	case AMDGPU::sub2: return 2;
				1822	case AMDGPU::sub3: return 3;
				1823	}
				1824	}
				1825
				1826	/// \brief Adjust the writemask of MIMG instructions
				1827	void SITargetLowering::adjustWritemask(MachineSDNode *&Node,
				1828	SelectionDAG &DAG) const {
				1829	SDNode *Users[4] = { };
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1830	unsigned Lane = 0;
				1831	unsigned OldDmask = Node->getConstantOperandVal(0);
				1832	unsigned NewDmask = 0;
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1833
				1834	// Try to figure out the used register components
				1835	for (SDNode::use_iterator I = Node->use_begin(), E = Node->use_end();
				1836	I != E; ++I) {
				1837
				1838	// Abort if we can't understand the usage
				1839	if (!I->isMachineOpcode() \|\|
				1840	I->getMachineOpcode() != TargetOpcode::EXTRACT_SUBREG)
				1841	return;
				1842
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1843	// Lane means which subreg of %VGPRa_VGPRb_VGPRc_VGPRd is used.
				1844	// Note that subregs are packed, i.e. Lane==0 is the first bit set
				1845	// in OldDmask, so it can be any of X,Y,Z,W; Lane==1 is the second bit
				1846	// set, etc.
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1847	Lane = SubIdx2Lane(I->getConstantOperandVal(1));
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1848
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1849	// Set which texture component corresponds to the lane.
				1850	unsigned Comp;
				1851	for (unsigned i = 0, Dmask = OldDmask; i <= Lane; i++) {
				1852	assert(Dmask);
Tom Stellard	03a5c08	2013-10-23 03:50:25 +0000	[diff] [blame]	1853	Comp = countTrailingZeros(Dmask);
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1854	Dmask &= ~(1 << Comp);
				1855	}
				1856
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1857	// Abort if we have more than one user per component
				1858	if (Users[Lane])
				1859	return;
				1860
				1861	Users[Lane] = *I;
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1862	NewDmask \|= 1 << Comp;
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1863	}
				1864
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1865	// Abort if there's no change
				1866	if (NewDmask == OldDmask)
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1867	return;
				1868
				1869	// Adjust the writemask in the node
				1870	std::vector<SDValue> Ops;
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1871	Ops.push_back(DAG.getTargetConstant(NewDmask, MVT::i32));
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1872	for (unsigned i = 1, e = Node->getNumOperands(); i != e; ++i)
				1873	Ops.push_back(Node->getOperand(i));
Craig Topper	8c0b4d0	2014-04-28 05:57:50 +0000	[diff] [blame]	1874	Node = (MachineSDNode*)DAG.UpdateNodeOperands(Node, Ops);
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1875
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1876	// If we only got one lane, replace it with a copy
Tom Stellard	54774e5	2013-10-23 02:53:47 +0000	[diff] [blame]	1877	// (if NewDmask has only one bit set...)
				1878	if (NewDmask && (NewDmask & (NewDmask-1)) == 0) {
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1879	SDValue RC = DAG.getTargetConstant(AMDGPU::VReg_32RegClassID, MVT::i32);
				1880	SDNode *Copy = DAG.getMachineNode(TargetOpcode::COPY_TO_REGCLASS,
Andrew Trick	ef9de2a	2013-05-25 02:42:55 +0000	[diff] [blame]	1881	SDLoc(), Users[Lane]->getValueType(0),
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1882	SDValue(Node, 0), RC);
				1883	DAG.ReplaceAllUsesWith(Users[Lane], Copy);
				1884	return;
				1885	}
				1886
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1887	// Update the users of the node with the new indices
				1888	for (unsigned i = 0, Idx = AMDGPU::sub0; i < 4; ++i) {
				1889
				1890	SDNode *User = Users[i];
				1891	if (!User)
				1892	continue;
				1893
				1894	SDValue Op = DAG.getTargetConstant(Idx, MVT::i32);
				1895	DAG.UpdateNodeOperands(User, User->getOperand(0), Op);
				1896
				1897	switch (Idx) {
				1898	default: break;
				1899	case AMDGPU::sub0: Idx = AMDGPU::sub1; break;
				1900	case AMDGPU::sub1: Idx = AMDGPU::sub2; break;
				1901	case AMDGPU::sub2: Idx = AMDGPU::sub3; break;
				1902	}
				1903	}
				1904	}
				1905
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	1906	/// \brief Fold the instructions after selecting them.
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1907	SDNode SITargetLowering::PostISelFolding(MachineSDNode Node,
				1908	SelectionDAG &DAG) const {
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	1909	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				1910	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Tom Stellard	0518ff8	2013-06-03 17:39:58 +0000	[diff] [blame]	1911	Node = AdjustRegClass(Node, DAG);
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1912
Tom Stellard	16a9a20	2013-08-14 23:24:17 +0000	[diff] [blame]	1913	if (TII->isMIMG(Node->getMachineOpcode()))
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1914	adjustWritemask(Node, DAG);
				1915
Matt Arsenault	253e5da	2014-09-17 15:35:43 +0000	[diff] [blame]	1916	return legalizeOperands(Node, DAG);
Christian Konig	8e06e2a	2013-04-10 08:39:08 +0000	[diff] [blame]	1917	}
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1918
				1919	/// \brief Assign the register class depending on the number of
				1920	/// bits set in the writemask
				1921	void SITargetLowering::AdjustInstrPostInstrSelection(MachineInstr *MI,
				1922	SDNode *Node) const {
Eric Christopher	d913448	2014-08-04 21:25:23 +0000	[diff] [blame]	1923	const SIInstrInfo TII = static_cast<const SIInstrInfo >(
				1924	getTargetMachine().getSubtargetImpl()->getInstrInfo());
Matt Arsenault	7ac9c4a	2014-09-08 15:07:31 +0000	[diff] [blame]	1925
				1926	if (TII->isMIMG(MI->getOpcode())) {
				1927	unsigned VReg = MI->getOperand(0).getReg();
				1928	unsigned Writemask = MI->getOperand(1).getImm();
				1929	unsigned BitsSet = 0;
				1930	for (unsigned i = 0; i < 4; ++i)
				1931	BitsSet += Writemask & (1 << i) ? 1 : 0;
				1932
				1933	const TargetRegisterClass *RC;
				1934	switch (BitsSet) {
				1935	default: return;
				1936	case 1: RC = &AMDGPU::VReg_32RegClass; break;
				1937	case 2: RC = &AMDGPU::VReg_64RegClass; break;
				1938	case 3: RC = &AMDGPU::VReg_96RegClass; break;
				1939	}
				1940
				1941	unsigned NewOpcode = TII->getMaskedMIMGOp(MI->getOpcode(), BitsSet);
				1942	MI->setDesc(TII->get(NewOpcode));
				1943	MachineRegisterInfo &MRI = MI->getParent()->getParent()->getRegInfo();
				1944	MRI.setRegClass(VReg, RC);
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1945	return;
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1946	}
				1947
Matt Arsenault	7ac9c4a	2014-09-08 15:07:31 +0000	[diff] [blame]	1948	// Replace unused atomics with the no return version.
				1949	int NoRetAtomicOp = AMDGPU::getAtomicNoRetOp(MI->getOpcode());
				1950	if (NoRetAtomicOp != -1) {
				1951	if (!Node->hasAnyUseOfValue(0)) {
				1952	MI->setDesc(TII->get(NoRetAtomicOp));
				1953	MI->RemoveOperand(0);
				1954	}
				1955
				1956	return;
				1957	}
Christian Konig	8b1ed28	2013-04-10 08:39:16 +0000	[diff] [blame]	1958	}
Tom Stellard	0518ff8	2013-06-03 17:39:58 +0000	[diff] [blame]	1959
				1960	MachineSDNode SITargetLowering::AdjustRegClass(MachineSDNode N,
				1961	SelectionDAG &DAG) const {
				1962
				1963	SDLoc DL(N);
				1964	unsigned NewOpcode = N->getMachineOpcode();
				1965
				1966	switch (N->getMachineOpcode()) {
				1967	default: return N;
Tom Stellard	0518ff8	2013-06-03 17:39:58 +0000	[diff] [blame]	1968	case AMDGPU::S_LOAD_DWORD_IMM:
				1969	NewOpcode = AMDGPU::BUFFER_LOAD_DWORD_ADDR64;
				1970	// Fall-through
				1971	case AMDGPU::S_LOAD_DWORDX2_SGPR:
				1972	if (NewOpcode == N->getMachineOpcode()) {
				1973	NewOpcode = AMDGPU::BUFFER_LOAD_DWORDX2_ADDR64;
				1974	}
				1975	// Fall-through
				1976	case AMDGPU::S_LOAD_DWORDX4_IMM:
				1977	case AMDGPU::S_LOAD_DWORDX4_SGPR: {
				1978	if (NewOpcode == N->getMachineOpcode()) {
				1979	NewOpcode = AMDGPU::BUFFER_LOAD_DWORDX4_ADDR64;
				1980	}
				1981	if (fitsRegClass(DAG, N->getOperand(0), AMDGPU::SReg_64RegClassID)) {
				1982	return N;
				1983	}
				1984	ConstantSDNode *Offset = cast<ConstantSDNode>(N->getOperand(1));
Matt Arsenault	61a528a	2014-09-10 23:26:19 +0000	[diff] [blame]	1985	MachineSDNode *RSrc = DAG.getMachineNode(AMDGPU::SI_ADDR64_RSRC, DL,
				1986	MVT::i128,
				1987	DAG.getConstant(0, MVT::i64));
				1988
				1989	SmallVector<SDValue, 8> Ops;
				1990	Ops.push_back(SDValue(RSrc, 0));
				1991	Ops.push_back(N->getOperand(0));
				1992	Ops.push_back(DAG.getConstant(Offset->getSExtValue() << 2, MVT::i32));
				1993
				1994	// Copy remaining operands so we keep any chain and glue nodes that follow
				1995	// the normal operands.
				1996	for (unsigned I = 2, E = N->getNumOperands(); I != E; ++I)
				1997	Ops.push_back(N->getOperand(I));
				1998
Tom Stellard	0518ff8	2013-06-03 17:39:58 +0000	[diff] [blame]	1999	return DAG.getMachineNode(NewOpcode, DL, N->getVTList(), Ops);
				2000	}
				2001	}
				2002	}
Tom Stellard	94593ee	2013-06-03 17:40:18 +0000	[diff] [blame]	2003
				2004	SDValue SITargetLowering::CreateLiveInRegister(SelectionDAG &DAG,
				2005	const TargetRegisterClass *RC,
				2006	unsigned Reg, EVT VT) const {
				2007	SDValue VReg = AMDGPUTargetLowering::CreateLiveInRegister(DAG, RC, Reg, VT);
				2008
				2009	return DAG.getCopyFromReg(DAG.getEntryNode(), SDLoc(DAG.getEntryNode()),
				2010	cast<RegisterSDNode>(VReg)->getReg(), VT);
				2011	}