Blame - llvm/lib/Target/AMDGPU/SIFrameLowering.cpp - toolchain/llvm-project

blob: e03a416bd6cb8a10bd49c9c14c470d4595744a41 [file] [log] [blame]

Matt Arsenault	0c90e95	2015-11-06 18:17:45 +0000	[diff] [blame]	1	//===----------------------- SIFrameLowering.cpp --------------------------===//
				2	//
				3	// The LLVM Compiler Infrastructure
				4	//
				5	// This file is distributed under the University of Illinois Open Source
				6	// License. See LICENSE.TXT for details.
				7	//
				8	//==-----------------------------------------------------------------------===//
				9
				10	#include "SIFrameLowering.h"
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	11	#include "SIInstrInfo.h"
				12	#include "SIMachineFunctionInfo.h"
Matt Arsenault	0c90e95	2015-11-06 18:17:45 +0000	[diff] [blame]	13	#include "SIRegisterInfo.h"
Matt Arsenault	43e92fe	2016-06-24 06:30:11 +0000	[diff] [blame]	14	#include "AMDGPUSubtarget.h"
				15
Matt Arsenault	0c90e95	2015-11-06 18:17:45 +0000	[diff] [blame]	16	#include "llvm/CodeGen/MachineFrameInfo.h"
				17	#include "llvm/CodeGen/MachineFunction.h"
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	18	#include "llvm/CodeGen/MachineInstrBuilder.h"
Matt Arsenault	0c90e95	2015-11-06 18:17:45 +0000	[diff] [blame]	19	#include "llvm/CodeGen/RegisterScavenging.h"
				20
				21	using namespace llvm;
				22
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	23
Konstantin Zhuravlyov	e03b1d7	2017-02-08 13:02:33 +0000	[diff] [blame]	24	static ArrayRef<MCPhysReg> getAllSGPR128(const SISubtarget &ST,
				25	const MachineFunction &MF) {
Matt Arsenault	ab3429c	2016-05-18 15:19:50 +0000	[diff] [blame]	26	return makeArrayRef(AMDGPU::SGPR_128RegClass.begin(),
Konstantin Zhuravlyov	e03b1d7	2017-02-08 13:02:33 +0000	[diff] [blame]	27	ST.getMaxNumSGPRs(MF) / 4);
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	28	}
				29
Konstantin Zhuravlyov	e03b1d7	2017-02-08 13:02:33 +0000	[diff] [blame]	30	static ArrayRef<MCPhysReg> getAllSGPRs(const SISubtarget &ST,
				31	const MachineFunction &MF) {
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	32	return makeArrayRef(AMDGPU::SGPR_32RegClass.begin(),
Konstantin Zhuravlyov	e03b1d7	2017-02-08 13:02:33 +0000	[diff] [blame]	33	ST.getMaxNumSGPRs(MF));
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	34	}
				35
Matt Arsenault	e823d92	2017-02-18 18:29:53 +0000	[diff] [blame]	36	void SIFrameLowering::emitFlatScratchInit(const SISubtarget &ST,
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	37	MachineFunction &MF,
				38	MachineBasicBlock &MBB) const {
Matt Arsenault	e823d92	2017-02-18 18:29:53 +0000	[diff] [blame]	39	const SIInstrInfo *TII = ST.getInstrInfo();
				40	const SIRegisterInfo* TRI = &TII->getRegisterInfo();
				41
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	42	// We don't need this if we only have spills since there is no user facing
				43	// scratch.
				44
				45	// TODO: If we know we don't have flat instructions earlier, we can omit
				46	// this from the input registers.
				47	//
				48	// TODO: We only need to know if we access scratch space through a flat
				49	// pointer. Because we only detect if flat instructions are used at all,
				50	// this will be used more often than necessary on VI.
				51
				52	// Debug location must be unknown since the first debug location is used to
				53	// determine the end of the prologue.
				54	DebugLoc DL;
				55	MachineBasicBlock::iterator I = MBB.begin();
				56
				57	unsigned FlatScratchInitReg
				58	= TRI->getPreloadedValue(MF, SIRegisterInfo::FLAT_SCRATCH_INIT);
				59
				60	MachineRegisterInfo &MRI = MF.getRegInfo();
				61	MRI.addLiveIn(FlatScratchInitReg);
				62	MBB.addLiveIn(FlatScratchInitReg);
				63
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	64	unsigned FlatScrInitLo = TRI->getSubReg(FlatScratchInitReg, AMDGPU::sub0);
Matt Arsenault	e823d92	2017-02-18 18:29:53 +0000	[diff] [blame]	65	unsigned FlatScrInitHi = TRI->getSubReg(FlatScratchInitReg, AMDGPU::sub1);
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	66
				67	const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
				68	unsigned ScratchWaveOffsetReg = MFI->getScratchWaveOffsetReg();
				69
Matt Arsenault	e823d92	2017-02-18 18:29:53 +0000	[diff] [blame]	70	// Do a 64-bit pointer add.
				71	if (ST.flatScratchIsPointer()) {
				72	BuildMI(MBB, I, DL, TII->get(AMDGPU::S_ADD_U32), AMDGPU::FLAT_SCR_LO)
				73	.addReg(FlatScrInitLo)
				74	.addReg(ScratchWaveOffsetReg);
				75	BuildMI(MBB, I, DL, TII->get(AMDGPU::S_ADDC_U32), AMDGPU::FLAT_SCR_HI)
				76	.addReg(FlatScrInitHi)
				77	.addImm(0);
				78
				79	return;
				80	}
				81
				82	// Copy the size in bytes.
				83	BuildMI(MBB, I, DL, TII->get(AMDGPU::COPY), AMDGPU::FLAT_SCR_LO)
				84	.addReg(FlatScrInitHi, RegState::Kill);
				85
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	86	// Add wave offset in bytes to private base offset.
				87	// See comment in AMDKernelCodeT.h for enable_sgpr_flat_scratch_init.
				88	BuildMI(MBB, I, DL, TII->get(AMDGPU::S_ADD_U32), FlatScrInitLo)
				89	.addReg(FlatScrInitLo)
				90	.addReg(ScratchWaveOffsetReg);
				91
				92	// Convert offset to 256-byte units.
				93	BuildMI(MBB, I, DL, TII->get(AMDGPU::S_LSHR_B32), AMDGPU::FLAT_SCR_HI)
				94	.addReg(FlatScrInitLo, RegState::Kill)
				95	.addImm(8);
				96	}
				97
				98	unsigned SIFrameLowering::getReservedPrivateSegmentBufferReg(
				99	const SISubtarget &ST,
				100	const SIInstrInfo *TII,
				101	const SIRegisterInfo *TRI,
				102	SIMachineFunctionInfo *MFI,
				103	MachineFunction &MF) const {
Matt Arsenault	e221849	2017-04-24 21:08:32 +0000	[diff] [blame^]	104	MachineRegisterInfo &MRI = MF.getRegInfo();
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	105
				106	// We need to insert initialization of the scratch resource descriptor.
				107	unsigned ScratchRsrcReg = MFI->getScratchRSrcReg();
Matt Arsenault	e221849	2017-04-24 21:08:32 +0000	[diff] [blame^]	108	if (ScratchRsrcReg == AMDGPU::NoRegister \|\|
				109	!MRI.isPhysRegUsed(ScratchRsrcReg))
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	110	return AMDGPU::NoRegister;
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	111
				112	if (ST.hasSGPRInitBug() \|\|
				113	ScratchRsrcReg != TRI->reservedPrivateSegmentBufferReg(MF))
				114	return ScratchRsrcReg;
				115
				116	// We reserved the last registers for this. Shift it down to the end of those
				117	// which were actually used.
				118	//
				119	// FIXME: It might be safer to use a pseudoregister before replacement.
				120
				121	// FIXME: We should be able to eliminate unused input registers. We only
				122	// cannot do this for the resources required for scratch access. For now we
				123	// skip over user SGPRs and may leave unused holes.
				124
				125	// We find the resource first because it has an alignment requirement.
				126
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	127	unsigned NumPreloaded = (MFI->getNumPreloadedSGPRs() + 3) / 4;
Konstantin Zhuravlyov	e03b1d7	2017-02-08 13:02:33 +0000	[diff] [blame]	128	ArrayRef<MCPhysReg> AllSGPR128s = getAllSGPR128(ST, MF);
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	129	AllSGPR128s = AllSGPR128s.slice(std::min(static_cast<unsigned>(AllSGPR128s.size()), NumPreloaded));
				130
Matt Arsenault	e0bf7d0	2017-02-21 19:12:08 +0000	[diff] [blame]	131	// Skip the last N reserved elements because they should have already been
				132	// reserved for VCC etc.
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	133	for (MCPhysReg Reg : AllSGPR128s) {
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	134	// Pick the first unallocated one. Make sure we don't clobber the other
				135	// reserved input we needed.
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	136	if (!MRI.isPhysRegUsed(Reg) && MRI.isAllocatable(Reg)) {
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	137	MRI.replaceRegWith(ScratchRsrcReg, Reg);
				138	MFI->setScratchRSrcReg(Reg);
				139	return Reg;
				140	}
				141	}
				142
				143	return ScratchRsrcReg;
				144	}
				145
				146	unsigned SIFrameLowering::getReservedPrivateSegmentWaveByteOffsetReg(
				147	const SISubtarget &ST,
				148	const SIInstrInfo *TII,
				149	const SIRegisterInfo *TRI,
				150	SIMachineFunctionInfo *MFI,
				151	MachineFunction &MF) const {
Matt Arsenault	e221849	2017-04-24 21:08:32 +0000	[diff] [blame^]	152	MachineRegisterInfo &MRI = MF.getRegInfo();
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	153	unsigned ScratchWaveOffsetReg = MFI->getScratchWaveOffsetReg();
Matt Arsenault	e221849	2017-04-24 21:08:32 +0000	[diff] [blame^]	154
				155	// No replacement necessary.
				156	if (ScratchWaveOffsetReg == AMDGPU::NoRegister \|\|
				157	!MRI.isPhysRegUsed(ScratchWaveOffsetReg))
				158	return AMDGPU::NoRegister;
				159
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	160	if (ST.hasSGPRInitBug() \|\|
				161	ScratchWaveOffsetReg != TRI->reservedPrivateSegmentWaveByteOffsetReg(MF))
				162	return ScratchWaveOffsetReg;
				163
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	164	unsigned NumPreloaded = MFI->getNumPreloadedSGPRs();
				165
Konstantin Zhuravlyov	e03b1d7	2017-02-08 13:02:33 +0000	[diff] [blame]	166	ArrayRef<MCPhysReg> AllSGPRs = getAllSGPRs(ST, MF);
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	167	if (NumPreloaded > AllSGPRs.size())
				168	return ScratchWaveOffsetReg;
				169
				170	AllSGPRs = AllSGPRs.slice(NumPreloaded);
				171
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	172	// We need to drop register from the end of the list that we cannot use
				173	// for the scratch wave offset.
				174	// + 2 s102 and s103 do not exist on VI.
				175	// + 2 for vcc
				176	// + 2 for xnack_mask
				177	// + 2 for flat_scratch
				178	// + 4 for registers reserved for scratch resource register
				179	// + 1 for register reserved for scratch wave offset. (By exluding this
				180	// register from the list to consider, it means that when this
				181	// register is being used for the scratch wave offset and there
				182	// are no other free SGPRs, then the value will stay in this register.
				183	// ----
				184	// 13
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	185	if (AllSGPRs.size() < 13)
				186	return ScratchWaveOffsetReg;
				187
				188	for (MCPhysReg Reg : AllSGPRs.drop_back(13)) {
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	189	// Pick the first unallocated SGPR. Be careful not to pick an alias of the
				190	// scratch descriptor, since we haven’t added its uses yet.
Matt Arsenault	e221849	2017-04-24 21:08:32 +0000	[diff] [blame^]	191	if (!MRI.isPhysRegUsed(Reg) && MRI.isAllocatable(Reg)) {
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	192	MRI.replaceRegWith(ScratchWaveOffsetReg, Reg);
				193	MFI->setScratchWaveOffsetReg(Reg);
				194	return Reg;
				195	}
				196	}
				197
				198	return ScratchWaveOffsetReg;
				199	}
				200
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	201	void SIFrameLowering::emitPrologue(MachineFunction &MF,
				202	MachineBasicBlock &MBB) const {
Konstantin Zhuravlyov	f2f3d14	2016-06-25 03:11:28 +0000	[diff] [blame]	203	// Emit debugger prologue if "amdgpu-debugger-emit-prologue" attribute was
				204	// specified.
				205	const SISubtarget &ST = MF.getSubtarget<SISubtarget>();
Yaxun Liu	1a14bfa	2017-03-27 14:04:01 +0000	[diff] [blame]	206	auto AMDGPUASI = ST.getAMDGPUAS();
Konstantin Zhuravlyov	f2f3d14	2016-06-25 03:11:28 +0000	[diff] [blame]	207	if (ST.debuggerEmitPrologue())
				208	emitDebuggerPrologue(MF, MBB);
				209
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	210	assert(&MF.front() == &MBB && "Shrink-wrapping not yet supported");
				211
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	212	SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	213
				214	// If we only have SGPR spills, we won't actually be using scratch memory
				215	// since these spill to VGPRs.
				216	//
				217	// FIXME: We should be cleaning up these unused SGPR spill frame indices
				218	// somewhere.
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	219
Matt Arsenault	43e92fe	2016-06-24 06:30:11 +0000	[diff] [blame]	220	const SIInstrInfo *TII = ST.getInstrInfo();
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	221	const SIRegisterInfo *TRI = &TII->getRegisterInfo();
Matt Arsenault	296b849	2016-02-12 06:31:30 +0000	[diff] [blame]	222	MachineRegisterInfo &MRI = MF.getRegInfo();
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	223
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	224	// We need to do the replacement of the private segment buffer and wave offset
				225	// register even if there are no stack objects. There could be stores to undef
				226	// or a constant without an associated object.
				227
				228	// FIXME: We still have implicit uses on SGPR spill instructions in case they
				229	// need to spill to vector memory. It's likely that will not happen, but at
				230	// this point it appears we need the setup. This part of the prolog should be
				231	// emitted after frame indices are eliminated.
				232
				233	if (MF.getFrameInfo().hasStackObjects() && MFI->hasFlatScratchInit())
Matt Arsenault	e823d92	2017-02-18 18:29:53 +0000	[diff] [blame]	234	emitFlatScratchInit(ST, MF, MBB);
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	235
Matt Arsenault	e221849	2017-04-24 21:08:32 +0000	[diff] [blame^]	236	unsigned ScratchRsrcReg
				237	= getReservedPrivateSegmentBufferReg(ST, TII, TRI, MFI, MF);
				238	unsigned ScratchWaveOffsetReg
				239	= getReservedPrivateSegmentWaveByteOffsetReg(ST, TII, TRI, MFI, MF);
				240
				241	// It's possible to have uses of only ScratchWaveOffsetReg without
				242	// ScratchRsrcReg if it's only used for the initialization of flat_scratch,
				243	// but the inverse is not true.
				244	if (ScratchWaveOffsetReg == AMDGPU::NoRegister) {
				245	assert(ScratchRsrcReg == AMDGPU::NoRegister);
				246	return;
				247	}
				248
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	249	// We need to insert initialization of the scratch resource descriptor.
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	250	unsigned PreloadedScratchWaveOffsetReg = TRI->getPreloadedValue(
				251	MF, SIRegisterInfo::PRIVATE_SEGMENT_WAVE_BYTE_OFFSET);
				252
				253	unsigned PreloadedPrivateBufferReg = AMDGPU::NoRegister;
Tom Stellard	2f3f985	2017-01-25 01:25:13 +0000	[diff] [blame]	254	if (ST.isAmdCodeObjectV2(MF) \|\| ST.isMesaGfxShader(MF)) {
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	255	PreloadedPrivateBufferReg = TRI->getPreloadedValue(
				256	MF, SIRegisterInfo::PRIVATE_SEGMENT_BUFFER);
				257	}
				258
Matt Arsenault	e221849	2017-04-24 21:08:32 +0000	[diff] [blame^]	259	bool OffsetRegUsed = MRI.isPhysRegUsed(ScratchWaveOffsetReg);
				260	bool ResourceRegUsed = ScratchRsrcReg != AMDGPU::NoRegister &&
				261	MRI.isPhysRegUsed(ScratchRsrcReg);
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	262
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	263	// We added live-ins during argument lowering, but since they were not used
				264	// they were deleted. We're adding the uses now, so add them back.
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	265	if (OffsetRegUsed) {
				266	assert(PreloadedScratchWaveOffsetReg != AMDGPU::NoRegister &&
				267	"scratch wave offset input is required");
				268	MRI.addLiveIn(PreloadedScratchWaveOffsetReg);
				269	MBB.addLiveIn(PreloadedScratchWaveOffsetReg);
				270	}
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	271
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	272	if (ResourceRegUsed && PreloadedPrivateBufferReg != AMDGPU::NoRegister) {
Tom Stellard	2f3f985	2017-01-25 01:25:13 +0000	[diff] [blame]	273	assert(ST.isAmdCodeObjectV2(MF) \|\| ST.isMesaGfxShader(MF));
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	274	MRI.addLiveIn(PreloadedPrivateBufferReg);
				275	MBB.addLiveIn(PreloadedPrivateBufferReg);
				276	}
				277
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	278	// Make the register selected live throughout the function.
				279	for (MachineBasicBlock &OtherBB : MF) {
				280	if (&OtherBB == &MBB)
				281	continue;
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	282
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	283	if (OffsetRegUsed)
				284	OtherBB.addLiveIn(ScratchWaveOffsetReg);
				285
				286	if (ResourceRegUsed)
				287	OtherBB.addLiveIn(ScratchRsrcReg);
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	288	}
				289
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	290	DebugLoc DL;
Matt Arsenault	57bc432	2016-08-31 21:52:21 +0000	[diff] [blame]	291	MachineBasicBlock::iterator I = MBB.begin();
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	292
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	293	// If we reserved the original input registers, we don't need to copy to the
				294	// reserved registers.
				295
				296	bool CopyBuffer = ResourceRegUsed &&
				297	PreloadedPrivateBufferReg != AMDGPU::NoRegister &&
Tom Stellard	2f3f985	2017-01-25 01:25:13 +0000	[diff] [blame]	298	ST.isAmdCodeObjectV2(MF) &&
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	299	ScratchRsrcReg != PreloadedPrivateBufferReg;
				300
				301	// This needs to be careful of the copying order to avoid overwriting one of
				302	// the input registers before it's been copied to it's final
				303	// destination. Usually the offset should be copied first.
				304	bool CopyBufferFirst = TRI->isSubRegisterEq(PreloadedPrivateBufferReg,
				305	ScratchWaveOffsetReg);
				306	if (CopyBuffer && CopyBufferFirst) {
				307	BuildMI(MBB, I, DL, TII->get(AMDGPU::COPY), ScratchRsrcReg)
				308	.addReg(PreloadedPrivateBufferReg, RegState::Kill);
				309	}
				310
				311	if (OffsetRegUsed &&
				312	PreloadedScratchWaveOffsetReg != ScratchWaveOffsetReg) {
Matt Arsenault	1d21517	2016-08-31 21:52:25 +0000	[diff] [blame]	313	BuildMI(MBB, I, DL, TII->get(AMDGPU::COPY), ScratchWaveOffsetReg)
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	314	.addReg(PreloadedScratchWaveOffsetReg, RegState::Kill);
				315	}
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	316
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	317	if (CopyBuffer && !CopyBufferFirst) {
Matt Arsenault	1d21517	2016-08-31 21:52:25 +0000	[diff] [blame]	318	BuildMI(MBB, I, DL, TII->get(AMDGPU::COPY), ScratchRsrcReg)
				319	.addReg(PreloadedPrivateBufferReg, RegState::Kill);
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	320	}
				321
Tom Stellard	2f3f985	2017-01-25 01:25:13 +0000	[diff] [blame]	322	if (ResourceRegUsed && (ST.isMesaGfxShader(MF) \|\| (PreloadedPrivateBufferReg == AMDGPU::NoRegister))) {
				323	assert(!ST.isAmdCodeObjectV2(MF));
Matt Arsenault	1d21517	2016-08-31 21:52:25 +0000	[diff] [blame]	324	const MCInstrDesc &SMovB32 = TII->get(AMDGPU::S_MOV_B32);
				325
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	326	unsigned Rsrc2 = TRI->getSubReg(ScratchRsrcReg, AMDGPU::sub2);
				327	unsigned Rsrc3 = TRI->getSubReg(ScratchRsrcReg, AMDGPU::sub3);
				328
				329	// Use relocations to get the pointer, and setup the other bits manually.
				330	uint64_t Rsrc23 = TII->getScratchRsrcWords23();
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	331
Tom Stellard	2f3f985	2017-01-25 01:25:13 +0000	[diff] [blame]	332	if (MFI->hasPrivateMemoryInputPtr()) {
				333	unsigned Rsrc01 = TRI->getSubReg(ScratchRsrcReg, AMDGPU::sub0_sub1);
				334
				335	if (AMDGPU::isCompute(MF.getFunction()->getCallingConv())) {
				336	const MCInstrDesc &Mov64 = TII->get(AMDGPU::S_MOV_B64);
				337
				338	BuildMI(MBB, I, DL, Mov64, Rsrc01)
				339	.addReg(PreloadedPrivateBufferReg)
				340	.addReg(ScratchRsrcReg, RegState::ImplicitDefine);
				341	} else {
				342	const MCInstrDesc &LoadDwordX2 = TII->get(AMDGPU::S_LOAD_DWORDX2_IMM);
				343
				344	PointerType *PtrTy =
				345	PointerType::get(Type::getInt64Ty(MF.getFunction()->getContext()),
Yaxun Liu	1a14bfa	2017-03-27 14:04:01 +0000	[diff] [blame]	346	AMDGPUASI.CONSTANT_ADDRESS);
Tom Stellard	2f3f985	2017-01-25 01:25:13 +0000	[diff] [blame]	347	MachinePointerInfo PtrInfo(UndefValue::get(PtrTy));
				348	auto MMO = MF.getMachineMemOperand(PtrInfo,
				349	MachineMemOperand::MOLoad \|
				350	MachineMemOperand::MOInvariant \|
				351	MachineMemOperand::MODereferenceable,
				352	0, 0);
				353	BuildMI(MBB, I, DL, LoadDwordX2, Rsrc01)
				354	.addReg(PreloadedPrivateBufferReg)
				355	.addImm(0) // offset
				356	.addImm(0) // glc
				357	.addMemOperand(MMO)
				358	.addReg(ScratchRsrcReg, RegState::ImplicitDefine);
				359	}
				360	} else {
				361	unsigned Rsrc0 = TRI->getSubReg(ScratchRsrcReg, AMDGPU::sub0);
				362	unsigned Rsrc1 = TRI->getSubReg(ScratchRsrcReg, AMDGPU::sub1);
				363
				364	BuildMI(MBB, I, DL, SMovB32, Rsrc0)
				365	.addExternalSymbol("SCRATCH_RSRC_DWORD0")
				366	.addReg(ScratchRsrcReg, RegState::ImplicitDefine);
				367
				368	BuildMI(MBB, I, DL, SMovB32, Rsrc1)
				369	.addExternalSymbol("SCRATCH_RSRC_DWORD1")
				370	.addReg(ScratchRsrcReg, RegState::ImplicitDefine);
				371
				372	}
Matt Arsenault	26f8f3d	2015-11-30 21:16:03 +0000	[diff] [blame]	373
				374	BuildMI(MBB, I, DL, SMovB32, Rsrc2)
				375	.addImm(Rsrc23 & 0xffffffff)
				376	.addReg(ScratchRsrcReg, RegState::ImplicitDefine);
				377
				378	BuildMI(MBB, I, DL, SMovB32, Rsrc3)
				379	.addImm(Rsrc23 >> 32)
				380	.addReg(ScratchRsrcReg, RegState::ImplicitDefine);
				381	}
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	382	}
				383
Matt Arsenault	43e92fe	2016-06-24 06:30:11 +0000	[diff] [blame]	384	void SIFrameLowering::emitEpilogue(MachineFunction &MF,
				385	MachineBasicBlock &MBB) const {
				386
				387	}
				388
Matt Arsenault	7b6c5d2	2017-02-22 22:23:32 +0000	[diff] [blame]	389	static bool allStackObjectsAreDead(const MachineFrameInfo &MFI) {
				390	for (int I = MFI.getObjectIndexBegin(), E = MFI.getObjectIndexEnd();
				391	I != E; ++I) {
				392	if (!MFI.isDeadObjectIndex(I))
				393	return false;
				394	}
				395
				396	return true;
				397	}
				398
Konstantin Zhuravlyov	ffdb00e	2017-03-10 19:39:07 +0000	[diff] [blame]	399	int SIFrameLowering::getFrameIndexReference(const MachineFunction &MF, int FI,
				400	unsigned &FrameReg) const {
				401	const SIRegisterInfo *RI = MF.getSubtarget<SISubtarget>().getRegisterInfo();
				402
				403	FrameReg = RI->getFrameRegister(MF);
				404	return MF.getFrameInfo().getObjectOffset(FI);
				405	}
				406
Matt Arsenault	0c90e95	2015-11-06 18:17:45 +0000	[diff] [blame]	407	void SIFrameLowering::processFunctionBeforeFrameFinalized(
				408	MachineFunction &MF,
				409	RegScavenger *RS) const {
Matthias Braun	941a705	2016-07-28 18:40:00 +0000	[diff] [blame]	410	MachineFrameInfo &MFI = MF.getFrameInfo();
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	411
Matthias Braun	941a705	2016-07-28 18:40:00 +0000	[diff] [blame]	412	if (!MFI.hasStackObjects())
Matt Arsenault	0e3d389	2015-11-30 21:15:53 +0000	[diff] [blame]	413	return;
				414
Matt Arsenault	7b6c5d2	2017-02-22 22:23:32 +0000	[diff] [blame]	415	const SISubtarget &ST = MF.getSubtarget<SISubtarget>();
				416	const SIInstrInfo *TII = ST.getInstrInfo();
				417	const SIRegisterInfo &TRI = TII->getRegisterInfo();
				418	SIMachineFunctionInfo *FuncInfo = MF.getInfo<SIMachineFunctionInfo>();
				419	bool AllSGPRSpilledToVGPRs = false;
				420
				421	if (TRI.spillSGPRToVGPR() && FuncInfo->hasSpilledSGPRs()) {
				422	AllSGPRSpilledToVGPRs = true;
				423
				424	// Process all SGPR spills before frame offsets are finalized. Ideally SGPRs
				425	// are spilled to VGPRs, in which case we can eliminate the stack usage.
				426	//
				427	// XXX - This operates under the assumption that only other SGPR spills are
				428	// users of the frame index. I'm not 100% sure this is correct. The
				429	// StackColoring pass has a comment saying a future improvement would be to
				430	// merging of allocas with spill slots, but for now according to
				431	// MachineFrameInfo isSpillSlot can't alias any other object.
				432	for (MachineBasicBlock &MBB : MF) {
				433	MachineBasicBlock::iterator Next;
				434	for (auto I = MBB.begin(), E = MBB.end(); I != E; I = Next) {
				435	MachineInstr &MI = *I;
				436	Next = std::next(I);
				437
				438	if (TII->isSGPRSpill(MI)) {
				439	int FI = TII->getNamedOperand(MI, AMDGPU::OpName::addr)->getIndex();
				440	if (FuncInfo->allocateSGPRSpillToVGPR(MF, FI)) {
				441	bool Spilled = TRI.eliminateSGPRToVGPRSpillFrameIndex(MI, FI, RS);
				442	(void)Spilled;
				443	assert(Spilled && "failed to spill SGPR to VGPR when allocated");
				444	} else
				445	AllSGPRSpilledToVGPRs = false;
				446	}
				447	}
				448	}
				449
				450	FuncInfo->removeSGPRToVGPRFrameIndices(MFI);
				451	}
				452
				453	// FIXME: The other checks should be redundant with allStackObjectsAreDead,
				454	// but currently hasNonSpillStackObjects is set only from source
				455	// allocas. Stack temps produced from legalization are not counted currently.
				456	if (FuncInfo->hasNonSpillStackObjects() \|\| FuncInfo->hasSpilledVGPRs() \|\|
				457	!AllSGPRSpilledToVGPRs \|\| !allStackObjectsAreDead(MFI)) {
				458	assert(RS && "RegScavenger required if spilling");
				459
Matt Arsenault	707780b	2017-02-22 21:05:25 +0000	[diff] [blame]	460	// We force this to be at offset 0 so no user object ever has 0 as an
				461	// address, so we may use 0 as an invalid pointer value. This is because
				462	// LLVM assumes 0 is an invalid pointer in address space 0. Because alloca
				463	// is required to be address space 0, we are forced to accept this for
				464	// now. Ideally we could have the stack in another address space with 0 as a
				465	// valid pointer, and -1 as the null value.
				466	//
				467	// This will also waste additional space when user stack objects require > 4
				468	// byte alignment.
				469	//
				470	// The main cost here is losing the offset for addressing modes. However
				471	// this also ensures we shouldn't need a register for the offset when
				472	// emergency scavenging.
				473	int ScavengeFI = MFI.CreateFixedObject(
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	474	TRI.getSpillSize(AMDGPU::SGPR_32RegClass), 0, false);
Matt Arsenault	707780b	2017-02-22 21:05:25 +0000	[diff] [blame]	475	RS->addScavengingFrameIndex(ScavengeFI);
				476	}
Matt Arsenault	0c90e95	2015-11-06 18:17:45 +0000	[diff] [blame]	477	}
Konstantin Zhuravlyov	f2f3d14	2016-06-25 03:11:28 +0000	[diff] [blame]	478
				479	void SIFrameLowering::emitDebuggerPrologue(MachineFunction &MF,
				480	MachineBasicBlock &MBB) const {
				481	const SISubtarget &ST = MF.getSubtarget<SISubtarget>();
				482	const SIInstrInfo *TII = ST.getInstrInfo();
				483	const SIRegisterInfo *TRI = &TII->getRegisterInfo();
				484	const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
				485
				486	MachineBasicBlock::iterator I = MBB.begin();
				487	DebugLoc DL;
				488
				489	// For each dimension:
				490	for (unsigned i = 0; i < 3; ++i) {
				491	// Get work group ID SGPR, and make it live-in again.
				492	unsigned WorkGroupIDSGPR = MFI->getWorkGroupIDSGPR(i);
				493	MF.getRegInfo().addLiveIn(WorkGroupIDSGPR);
				494	MBB.addLiveIn(WorkGroupIDSGPR);
				495
				496	// Since SGPRs are spilled into VGPRs, copy work group ID SGPR to VGPR in
				497	// order to spill it to scratch.
				498	unsigned WorkGroupIDVGPR =
				499	MF.getRegInfo().createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				500	BuildMI(MBB, I, DL, TII->get(AMDGPU::V_MOV_B32_e32), WorkGroupIDVGPR)
				501	.addReg(WorkGroupIDSGPR);
				502
				503	// Spill work group ID.
				504	int WorkGroupIDObjectIdx = MFI->getDebuggerWorkGroupIDStackObjectIndex(i);
				505	TII->storeRegToStackSlot(MBB, I, WorkGroupIDVGPR, false,
				506	WorkGroupIDObjectIdx, &AMDGPU::VGPR_32RegClass, TRI);
				507
				508	// Get work item ID VGPR, and make it live-in again.
				509	unsigned WorkItemIDVGPR = MFI->getWorkItemIDVGPR(i);
				510	MF.getRegInfo().addLiveIn(WorkItemIDVGPR);
				511	MBB.addLiveIn(WorkItemIDVGPR);
				512
				513	// Spill work item ID.
				514	int WorkItemIDObjectIdx = MFI->getDebuggerWorkItemIDStackObjectIndex(i);
				515	TII->storeRegToStackSlot(MBB, I, WorkItemIDVGPR, false,
				516	WorkItemIDObjectIdx, &AMDGPU::VGPR_32RegClass, TRI);
				517	}
				518	}