Blame - llvm/lib/Target/AMDGPU/SIInstrInfo.cpp - toolchain/llvm-project

blob: dc35bf4e3eb6ccb274fe0d534b7d7abaae7cce50 [file] [log] [blame]

Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1	//===- SIInstrInfo.cpp - SI Instruction Information ----------------------===//
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	2	//
Chandler Carruth	2946cd7	2019-01-19 08:50:56 +0000	[diff] [blame]	3	// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
				4	// See https://llvm.org/LICENSE.txt for license information.
				5	// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	6	//
				7	//===----------------------------------------------------------------------===//
				8	//
				9	/// \file
Adrian Prantl	5f8f34e4	2018-05-01 15:54:18 +0000	[diff] [blame]	10	/// SI Implementation of TargetInstrInfo.
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	11	//
				12	//===----------------------------------------------------------------------===//
				13
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	14	#include "SIInstrInfo.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	15	#include "AMDGPU.h"
				16	#include "AMDGPUSubtarget.h"
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	17	#include "GCNHazardRecognizer.h"
Tom Stellard	16a9a20	2013-08-14 23:24:17 +0000	[diff] [blame]	18	#include "SIDefines.h"
Tom Stellard	c149dc0	2013-11-27 21:23:35 +0000	[diff] [blame]	19	#include "SIMachineFunctionInfo.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	20	#include "SIRegisterInfo.h"
Tom Stellard	44b30b4	2018-05-22 02:03:23 +0000	[diff] [blame]	21	#include "MCTargetDesc/AMDGPUMCTargetDesc.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	22	#include "Utils/AMDGPUBaseInfo.h"
				23	#include "llvm/ADT/APInt.h"
				24	#include "llvm/ADT/ArrayRef.h"
				25	#include "llvm/ADT/SmallVector.h"
				26	#include "llvm/ADT/StringRef.h"
				27	#include "llvm/ADT/iterator_range.h"
				28	#include "llvm/Analysis/AliasAnalysis.h"
				29	#include "llvm/Analysis/MemoryLocation.h"
Stanislav Mekhanoshin	7fe9a5d	2017-09-13 22:20:47 +0000	[diff] [blame]	30	#include "llvm/Analysis/ValueTracking.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	31	#include "llvm/CodeGen/MachineBasicBlock.h"
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	32	#include "llvm/CodeGen/MachineDominators.h"
Tom Stellard	c5cf2f0	2014-08-21 20:40:54 +0000	[diff] [blame]	33	#include "llvm/CodeGen/MachineFrameInfo.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	34	#include "llvm/CodeGen/MachineFunction.h"
				35	#include "llvm/CodeGen/MachineInstr.h"
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	36	#include "llvm/CodeGen/MachineInstrBuilder.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	37	#include "llvm/CodeGen/MachineInstrBundle.h"
				38	#include "llvm/CodeGen/MachineMemOperand.h"
				39	#include "llvm/CodeGen/MachineOperand.h"
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	40	#include "llvm/CodeGen/MachineRegisterInfo.h"
Chandler Carruth	6bda14b	2017-06-06 11:49:48 +0000	[diff] [blame]	41	#include "llvm/CodeGen/RegisterScavenging.h"
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	42	#include "llvm/CodeGen/ScheduleDAG.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	43	#include "llvm/CodeGen/SelectionDAGNodes.h"
David Blaikie	b3bde2e	2017-11-17 01:07:10 +0000	[diff] [blame]	44	#include "llvm/CodeGen/TargetOpcodes.h"
				45	#include "llvm/CodeGen/TargetRegisterInfo.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	46	#include "llvm/IR/DebugLoc.h"
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	47	#include "llvm/IR/DiagnosticInfo.h"
Tom Stellard	4e07b1d	2014-06-10 21:20:41 +0000	[diff] [blame]	48	#include "llvm/IR/Function.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	49	#include "llvm/IR/InlineAsm.h"
				50	#include "llvm/IR/LLVMContext.h"
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	51	#include "llvm/MC/MCInstrDesc.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	52	#include "llvm/Support/Casting.h"
				53	#include "llvm/Support/CommandLine.h"
				54	#include "llvm/Support/Compiler.h"
				55	#include "llvm/Support/ErrorHandling.h"
David Blaikie	13e77db	2018-03-23 23:58:25 +0000	[diff] [blame]	56	#include "llvm/Support/MachineValueType.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	57	#include "llvm/Support/MathExtras.h"
				58	#include "llvm/Target/TargetMachine.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	59	#include <cassert>
				60	#include <cstdint>
				61	#include <iterator>
				62	#include <utility>
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	63
				64	using namespace llvm;
				65
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	66	#define GET_INSTRINFO_CTOR_DTOR
				67	#include "AMDGPUGenInstrInfo.inc"
				68
				69	namespace llvm {
				70	namespace AMDGPU {
				71	#define GET_D16ImageDimIntrinsics_IMPL
				72	#define GET_ImageDimIntrinsicTable_IMPL
				73	#define GET_RsrcIntrinsics_IMPL
				74	#include "AMDGPUGenSearchableTables.inc"
				75	}
				76	}
				77
				78
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	79	// Must be at least 4 to be able to branch over minimum unconditional branch
				80	// code. This is only for making it possible to write reasonably small tests for
				81	// long branches.
				82	static cl::opt<unsigned>
				83	BranchOffsetBits("amdgpu-s-branch-bits", cl::ReallyHidden, cl::init(16),
				84	cl::desc("Restrict range of branch instructions (DEBUG)"));
				85
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	86	SIInstrInfo::SIInstrInfo(const GCNSubtarget &ST)
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	87	: AMDGPUGenInstrInfo(AMDGPU::ADJCALLSTACKUP, AMDGPU::ADJCALLSTACKDOWN),
				88	RI(ST), ST(ST) {}
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	89
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	90	//===----------------------------------------------------------------------===//
				91	// TargetInstrInfo callbacks
				92	//===----------------------------------------------------------------------===//
				93
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	94	static unsigned getNumOperandsNoGlue(SDNode *Node) {
				95	unsigned N = Node->getNumOperands();
				96	while (N && Node->getOperand(N - 1).getValueType() == MVT::Glue)
				97	--N;
				98	return N;
				99	}
				100
Adrian Prantl	5f8f34e4	2018-05-01 15:54:18 +0000	[diff] [blame]	101	/// Returns true if both nodes have the same value for the given
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	102	/// operand \p Op, or if both nodes do not have this operand.
				103	static bool nodesHaveSameOperandValue(SDNode N0, SDNode N1, unsigned OpName) {
				104	unsigned Opc0 = N0->getMachineOpcode();
				105	unsigned Opc1 = N1->getMachineOpcode();
				106
				107	int Op0Idx = AMDGPU::getNamedOperandIdx(Opc0, OpName);
				108	int Op1Idx = AMDGPU::getNamedOperandIdx(Opc1, OpName);
				109
				110	if (Op0Idx == -1 && Op1Idx == -1)
				111	return true;
				112
				113
				114	if ((Op0Idx == -1 && Op1Idx != -1) \|\|
				115	(Op1Idx == -1 && Op0Idx != -1))
				116	return false;
				117
				118	// getNamedOperandIdx returns the index for the MachineInstr's operands,
				119	// which includes the result as the first operand. We are indexing into the
				120	// MachineSDNode's operands, so we need to skip the result operand to get
				121	// the real index.
				122	--Op0Idx;
				123	--Op1Idx;
				124
Tom Stellard	b8b8413	2014-09-03 15:22:39 +0000	[diff] [blame]	125	return N0->getOperand(Op0Idx) == N1->getOperand(Op1Idx);
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	126	}
				127
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	128	bool SIInstrInfo::isReallyTriviallyReMaterializable(const MachineInstr &MI,
Matt Arsenault	a48b866	2015-04-23 23:34:48 +0000	[diff] [blame]	129	AliasAnalysis *AA) const {
				130	// TODO: The generic check fails for VALU instructions that should be
				131	// rematerializable due to implicit reads of exec. We really want all of the
				132	// generic logic for this except for this.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	133	switch (MI.getOpcode()) {
Matt Arsenault	a48b866	2015-04-23 23:34:48 +0000	[diff] [blame]	134	case AMDGPU::V_MOV_B32_e32:
				135	case AMDGPU::V_MOV_B32_e64:
Matt Arsenault	80f766a	2015-09-10 01:23:28 +0000	[diff] [blame]	136	case AMDGPU::V_MOV_B64_PSEUDO:
Matt Arsenault	cba0c6d	2019-02-04 22:26:21 +0000	[diff] [blame]	137	// No implicit operands.
				138	return MI.getNumOperands() == MI.getDesc().getNumOperands();
Matt Arsenault	a48b866	2015-04-23 23:34:48 +0000	[diff] [blame]	139	default:
				140	return false;
				141	}
				142	}
				143
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	144	bool SIInstrInfo::areLoadsFromSameBasePtr(SDNode Load0, SDNode Load1,
				145	int64_t &Offset0,
				146	int64_t &Offset1) const {
				147	if (!Load0->isMachineOpcode() \|\| !Load1->isMachineOpcode())
				148	return false;
				149
				150	unsigned Opc0 = Load0->getMachineOpcode();
				151	unsigned Opc1 = Load1->getMachineOpcode();
				152
				153	// Make sure both are actually loads.
				154	if (!get(Opc0).mayLoad() \|\| !get(Opc1).mayLoad())
				155	return false;
				156
				157	if (isDS(Opc0) && isDS(Opc1)) {
Tom Stellard	20fa0be	2014-10-07 21:09:20 +0000	[diff] [blame]	158
				159	// FIXME: Handle this case:
				160	if (getNumOperandsNoGlue(Load0) != getNumOperandsNoGlue(Load1))
				161	return false;
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	162
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	163	// Check base reg.
Matt Arsenault	07f904b	2019-03-08 20:30:50 +0000	[diff] [blame]	164	if (Load0->getOperand(0) != Load1->getOperand(0))
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	165	return false;
				166
Matt Arsenault	972c12a	2014-09-17 17:48:32 +0000	[diff] [blame]	167	// Skip read2 / write2 variants for simplicity.
				168	// TODO: We should report true if the used offsets are adjacent (excluded
				169	// st64 versions).
Matt Arsenault	bbc59d8	2019-03-27 15:41:00 +0000	[diff] [blame]	170	int Offset0Idx = AMDGPU::getNamedOperandIdx(Opc0, AMDGPU::OpName::offset);
				171	int Offset1Idx = AMDGPU::getNamedOperandIdx(Opc1, AMDGPU::OpName::offset);
				172	if (Offset0Idx == -1 \|\| Offset1Idx == -1)
Matt Arsenault	972c12a	2014-09-17 17:48:32 +0000	[diff] [blame]	173	return false;
				174
Matt Arsenault	bbc59d8	2019-03-27 15:41:00 +0000	[diff] [blame]	175	// XXX - be careful of datalesss loads
				176	// getNamedOperandIdx returns the index for MachineInstrs. Since they
				177	// include the output in the operand list, but SDNodes don't, we need to
				178	// subtract the index by one.
				179	Offset0Idx -= get(Opc0).NumDefs;
				180	Offset1Idx -= get(Opc1).NumDefs;
				181	Offset0 = cast<ConstantSDNode>(Load0->getOperand(Offset0Idx))->getZExtValue();
				182	Offset1 = cast<ConstantSDNode>(Load1->getOperand(Offset1Idx))->getZExtValue();
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	183	return true;
				184	}
				185
				186	if (isSMRD(Opc0) && isSMRD(Opc1)) {
Nicolai Haehnle	ef44978	2017-04-24 16:53:52 +0000	[diff] [blame]	187	// Skip time and cache invalidation instructions.
				188	if (AMDGPU::getNamedOperandIdx(Opc0, AMDGPU::OpName::sbase) == -1 \|\|
				189	AMDGPU::getNamedOperandIdx(Opc1, AMDGPU::OpName::sbase) == -1)
				190	return false;
				191
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	192	assert(getNumOperandsNoGlue(Load0) == getNumOperandsNoGlue(Load1));
				193
				194	// Check base reg.
				195	if (Load0->getOperand(0) != Load1->getOperand(0))
				196	return false;
				197
Tom Stellard	f0a575f	2015-03-23 16:06:01 +0000	[diff] [blame]	198	const ConstantSDNode *Load0Offset =
				199	dyn_cast<ConstantSDNode>(Load0->getOperand(1));
				200	const ConstantSDNode *Load1Offset =
				201	dyn_cast<ConstantSDNode>(Load1->getOperand(1));
				202
				203	if (!Load0Offset \|\| !Load1Offset)
				204	return false;
				205
Tom Stellard	f0a575f	2015-03-23 16:06:01 +0000	[diff] [blame]	206	Offset0 = Load0Offset->getZExtValue();
				207	Offset1 = Load1Offset->getZExtValue();
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	208	return true;
				209	}
				210
				211	// MUBUF and MTBUF can access the same addresses.
				212	if ((isMUBUF(Opc0) \|\| isMTBUF(Opc0)) && (isMUBUF(Opc1) \|\| isMTBUF(Opc1))) {
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	213
				214	// MUBUF and MTBUF have vaddr at different indices.
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	215	if (!nodesHaveSameOperandValue(Load0, Load1, AMDGPU::OpName::soffset) \|\|
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	216	!nodesHaveSameOperandValue(Load0, Load1, AMDGPU::OpName::vaddr) \|\|
Tom Stellard	b8b8413	2014-09-03 15:22:39 +0000	[diff] [blame]	217	!nodesHaveSameOperandValue(Load0, Load1, AMDGPU::OpName::srsrc))
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	218	return false;
				219
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	220	int OffIdx0 = AMDGPU::getNamedOperandIdx(Opc0, AMDGPU::OpName::offset);
				221	int OffIdx1 = AMDGPU::getNamedOperandIdx(Opc1, AMDGPU::OpName::offset);
				222
				223	if (OffIdx0 == -1 \|\| OffIdx1 == -1)
				224	return false;
				225
				226	// getNamedOperandIdx returns the index for MachineInstrs. Since they
Matt Arsenault	07f904b	2019-03-08 20:30:50 +0000	[diff] [blame]	227	// include the output in the operand list, but SDNodes don't, we need to
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	228	// subtract the index by one.
Matt Arsenault	28f97f1	2019-03-27 16:12:29 +0000	[diff] [blame]	229	OffIdx0 -= get(Opc0).NumDefs;
				230	OffIdx1 -= get(Opc1).NumDefs;
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	231
				232	SDValue Off0 = Load0->getOperand(OffIdx0);
				233	SDValue Off1 = Load1->getOperand(OffIdx1);
				234
				235	// The offset might be a FrameIndexSDNode.
				236	if (!isa<ConstantSDNode>(Off0) \|\| !isa<ConstantSDNode>(Off1))
				237	return false;
				238
				239	Offset0 = cast<ConstantSDNode>(Off0)->getZExtValue();
				240	Offset1 = cast<ConstantSDNode>(Off1)->getZExtValue();
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	241	return true;
				242	}
				243
				244	return false;
				245	}
				246
Matt Arsenault	2e99112	2014-09-10 23:26:16 +0000	[diff] [blame]	247	static bool isStride64(unsigned Opc) {
				248	switch (Opc) {
				249	case AMDGPU::DS_READ2ST64_B32:
				250	case AMDGPU::DS_READ2ST64_B64:
				251	case AMDGPU::DS_WRITE2ST64_B32:
				252	case AMDGPU::DS_WRITE2ST64_B64:
				253	return true;
				254	default:
				255	return false;
				256	}
				257	}
				258
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	259	bool SIInstrInfo::getMemOperandWithOffset(const MachineInstr &LdSt,
				260	const MachineOperand *&BaseOp,
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	261	int64_t &Offset,
				262	const TargetRegisterInfo *TRI) const {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	263	unsigned Opc = LdSt.getOpcode();
Matt Arsenault	3add643	2015-10-20 04:35:43 +0000	[diff] [blame]	264
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	265	if (isDS(LdSt)) {
				266	const MachineOperand *OffsetImm =
				267	getNamedOperand(LdSt, AMDGPU::OpName::offset);
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	268	if (OffsetImm) {
				269	// Normal, single offset LDS instruction.
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	270	BaseOp = getNamedOperand(LdSt, AMDGPU::OpName::addr);
Matt Arsenault	cdd191d	2019-01-28 20:14:49 +0000	[diff] [blame]	271	// TODO: ds_consume/ds_append use M0 for the base address. Is it safe to
				272	// report that here?
				273	if (!BaseOp)
				274	return false;
				275
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	276	Offset = OffsetImm->getImm();
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	277	assert(BaseOp->isReg() && "getMemOperandWithOffset only supports base "
				278	"operands of type register.");
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	279	return true;
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	280	}
				281
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	282	// The 2 offset instructions use offset0 and offset1 instead. We can treat
				283	// these as a load with a single offset if the 2 offsets are consecutive. We
				284	// will use this for some partially aligned loads.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	285	const MachineOperand *Offset0Imm =
				286	getNamedOperand(LdSt, AMDGPU::OpName::offset0);
				287	const MachineOperand *Offset1Imm =
				288	getNamedOperand(LdSt, AMDGPU::OpName::offset1);
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	289
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	290	uint8_t Offset0 = Offset0Imm->getImm();
				291	uint8_t Offset1 = Offset1Imm->getImm();
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	292
Matt Arsenault	84db5d9	2015-07-14 17:57:36 +0000	[diff] [blame]	293	if (Offset1 > Offset0 && Offset1 - Offset0 == 1) {
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	294	// Each of these offsets is in element sized units, so we need to convert
				295	// to bytes of the individual reads.
				296
				297	unsigned EltSize;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	298	if (LdSt.mayLoad())
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	299	EltSize = TRI->getRegSizeInBits(*getOpRegClass(LdSt, 0)) / 16;
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	300	else {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	301	assert(LdSt.mayStore());
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	302	int Data0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::data0);
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	303	EltSize = TRI->getRegSizeInBits(*getOpRegClass(LdSt, Data0Idx)) / 8;
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	304	}
				305
Matt Arsenault	2e99112	2014-09-10 23:26:16 +0000	[diff] [blame]	306	if (isStride64(Opc))
				307	EltSize *= 64;
				308
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	309	BaseOp = getNamedOperand(LdSt, AMDGPU::OpName::addr);
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	310	Offset = EltSize * Offset0;
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	311	assert(BaseOp->isReg() && "getMemOperandWithOffset only supports base "
				312	"operands of type register.");
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	313	return true;
				314	}
				315
				316	return false;
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	317	}
				318
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	319	if (isMUBUF(LdSt) \|\| isMTBUF(LdSt)) {
Matt Arsenault	3666629	2016-11-15 20:14:27 +0000	[diff] [blame]	320	const MachineOperand *SOffset = getNamedOperand(LdSt, AMDGPU::OpName::soffset);
				321	if (SOffset && SOffset->isReg())
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	322	return false;
				323
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	324	const MachineOperand *AddrReg = getNamedOperand(LdSt, AMDGPU::OpName::vaddr);
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	325	if (!AddrReg)
				326	return false;
				327
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	328	const MachineOperand *OffsetImm =
				329	getNamedOperand(LdSt, AMDGPU::OpName::offset);
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	330	BaseOp = AddrReg;
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	331	Offset = OffsetImm->getImm();
Matt Arsenault	3666629	2016-11-15 20:14:27 +0000	[diff] [blame]	332
				333	if (SOffset) // soffset can be an inline immediate.
				334	Offset += SOffset->getImm();
				335
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	336	assert(BaseOp->isReg() && "getMemOperandWithOffset only supports base "
				337	"operands of type register.");
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	338	return true;
				339	}
				340
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	341	if (isSMRD(LdSt)) {
				342	const MachineOperand *OffsetImm =
				343	getNamedOperand(LdSt, AMDGPU::OpName::offset);
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	344	if (!OffsetImm)
				345	return false;
				346
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	347	const MachineOperand *SBaseReg = getNamedOperand(LdSt, AMDGPU::OpName::sbase);
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	348	BaseOp = SBaseReg;
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	349	Offset = OffsetImm->getImm();
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	350	assert(BaseOp->isReg() && "getMemOperandWithOffset only supports base "
				351	"operands of type register.");
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	352	return true;
				353	}
				354
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	355	if (isFLAT(LdSt)) {
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	356	const MachineOperand *VAddr = getNamedOperand(LdSt, AMDGPU::OpName::vaddr);
Matt Arsenault	37a58e0	2017-07-21 18:06:36 +0000	[diff] [blame]	357	if (VAddr) {
				358	// Can't analyze 2 offsets.
				359	if (getNamedOperand(LdSt, AMDGPU::OpName::saddr))
				360	return false;
				361
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	362	BaseOp = VAddr;
Matt Arsenault	37a58e0	2017-07-21 18:06:36 +0000	[diff] [blame]	363	} else {
				364	// scratch instructions have either vaddr or saddr.
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	365	BaseOp = getNamedOperand(LdSt, AMDGPU::OpName::saddr);
Matt Arsenault	37a58e0	2017-07-21 18:06:36 +0000	[diff] [blame]	366	}
				367
				368	Offset = getNamedOperand(LdSt, AMDGPU::OpName::offset)->getImm();
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	369	assert(BaseOp->isReg() && "getMemOperandWithOffset only supports base "
				370	"operands of type register.");
Matt Arsenault	43578ec	2016-06-02 20:05:20 +0000	[diff] [blame]	371	return true;
				372	}
				373
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	374	return false;
				375	}
				376
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	377	static bool memOpsHaveSameBasePtr(const MachineInstr &MI1,
				378	const MachineOperand &BaseOp1,
				379	const MachineInstr &MI2,
				380	const MachineOperand &BaseOp2) {
				381	// Support only base operands with base registers.
				382	// Note: this could be extended to support FI operands.
				383	if (!BaseOp1.isReg() \|\| !BaseOp2.isReg())
				384	return false;
				385
				386	if (BaseOp1.isIdenticalTo(BaseOp2))
Stanislav Mekhanoshin	7fe9a5d	2017-09-13 22:20:47 +0000	[diff] [blame]	387	return true;
				388
				389	if (!MI1.hasOneMemOperand() \|\| !MI2.hasOneMemOperand())
				390	return false;
				391
				392	auto MO1 = *MI1.memoperands_begin();
				393	auto MO2 = *MI2.memoperands_begin();
				394	if (MO1->getAddrSpace() != MO2->getAddrSpace())
				395	return false;
				396
				397	auto Base1 = MO1->getValue();
				398	auto Base2 = MO2->getValue();
				399	if (!Base1 \|\| !Base2)
				400	return false;
				401	const MachineFunction &MF = *MI1.getParent()->getParent();
Matthias Braun	f1caa28	2017-12-15 22:22:58 +0000	[diff] [blame]	402	const DataLayout &DL = MF.getFunction().getParent()->getDataLayout();
Stanislav Mekhanoshin	7fe9a5d	2017-09-13 22:20:47 +0000	[diff] [blame]	403	Base1 = GetUnderlyingObject(Base1, DL);
				404	Base2 = GetUnderlyingObject(Base1, DL);
				405
				406	if (isa<UndefValue>(Base1) \|\| isa<UndefValue>(Base2))
				407	return false;
				408
				409	return Base1 == Base2;
				410	}
				411
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	412	bool SIInstrInfo::shouldClusterMemOps(const MachineOperand &BaseOp1,
				413	const MachineOperand &BaseOp2,
Jun Bum Lim	4c5bd58	2016-04-15 14:58:38 +0000	[diff] [blame]	414	unsigned NumLoads) const {
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	415	const MachineInstr &FirstLdSt = *BaseOp1.getParent();
				416	const MachineInstr &SecondLdSt = *BaseOp2.getParent();
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	417
				418	if (!memOpsHaveSameBasePtr(FirstLdSt, BaseOp1, SecondLdSt, BaseOp2))
Stanislav Mekhanoshin	7fe9a5d	2017-09-13 22:20:47 +0000	[diff] [blame]	419	return false;
				420
NAKAMURA Takumi	fe1202c	2016-06-20 00:37:41 +0000	[diff] [blame]	421	const MachineOperand *FirstDst = nullptr;
				422	const MachineOperand *SecondDst = nullptr;
Tom Stellard	a76bcc2	2016-03-28 16:10:13 +0000	[diff] [blame]	423
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	424	if ((isMUBUF(FirstLdSt) && isMUBUF(SecondLdSt)) \|\|
Matt Arsenault	74f6483	2017-02-01 20:22:51 +0000	[diff] [blame]	425	(isMTBUF(FirstLdSt) && isMTBUF(SecondLdSt)) \|\|
				426	(isFLAT(FirstLdSt) && isFLAT(SecondLdSt))) {
Stanislav Mekhanoshin	7fe9a5d	2017-09-13 22:20:47 +0000	[diff] [blame]	427	const unsigned MaxGlobalLoadCluster = 6;
				428	if (NumLoads > MaxGlobalLoadCluster)
				429	return false;
				430
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	431	FirstDst = getNamedOperand(FirstLdSt, AMDGPU::OpName::vdata);
Stanislav Mekhanoshin	949fac9	2017-09-06 15:31:30 +0000	[diff] [blame]	432	if (!FirstDst)
				433	FirstDst = getNamedOperand(FirstLdSt, AMDGPU::OpName::vdst);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	434	SecondDst = getNamedOperand(SecondLdSt, AMDGPU::OpName::vdata);
Stanislav Mekhanoshin	949fac9	2017-09-06 15:31:30 +0000	[diff] [blame]	435	if (!SecondDst)
				436	SecondDst = getNamedOperand(SecondLdSt, AMDGPU::OpName::vdst);
Matt Arsenault	437fd71	2016-11-29 19:30:41 +0000	[diff] [blame]	437	} else if (isSMRD(FirstLdSt) && isSMRD(SecondLdSt)) {
				438	FirstDst = getNamedOperand(FirstLdSt, AMDGPU::OpName::sdst);
				439	SecondDst = getNamedOperand(SecondLdSt, AMDGPU::OpName::sdst);
				440	} else if (isDS(FirstLdSt) && isDS(SecondLdSt)) {
				441	FirstDst = getNamedOperand(FirstLdSt, AMDGPU::OpName::vdst);
				442	SecondDst = getNamedOperand(SecondLdSt, AMDGPU::OpName::vdst);
Tom Stellard	a76bcc2	2016-03-28 16:10:13 +0000	[diff] [blame]	443	}
				444
				445	if (!FirstDst \|\| !SecondDst)
Matt Arsenault	0e75a06	2014-09-17 17:48:30 +0000	[diff] [blame]	446	return false;
				447
Tom Stellard	a76bcc2	2016-03-28 16:10:13 +0000	[diff] [blame]	448	// Try to limit clustering based on the total number of bytes loaded
				449	// rather than the number of instructions. This is done to help reduce
				450	// register pressure. The method used is somewhat inexact, though,
				451	// because it assumes that all loads in the cluster will load the
				452	// same number of bytes as FirstLdSt.
Matt Arsenault	0e75a06	2014-09-17 17:48:30 +0000	[diff] [blame]	453
Tom Stellard	a76bcc2	2016-03-28 16:10:13 +0000	[diff] [blame]	454	// The unit of this value is bytes.
				455	// FIXME: This needs finer tuning.
				456	unsigned LoadClusterThreshold = 16;
Matt Arsenault	0e75a06	2014-09-17 17:48:30 +0000	[diff] [blame]	457
Tom Stellard	a76bcc2	2016-03-28 16:10:13 +0000	[diff] [blame]	458	const MachineRegisterInfo &MRI =
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	459	FirstLdSt.getParent()->getParent()->getRegInfo();
Neil Henning	0a30f33	2019-04-01 15:19:52 +0000	[diff] [blame]	460
				461	const unsigned Reg = FirstDst->getReg();
				462
				463	const TargetRegisterClass *DstRC = TargetRegisterInfo::isVirtualRegister(Reg)
				464	? MRI.getRegClass(Reg)
				465	: RI.getPhysRegClass(Reg);
Tom Stellard	a76bcc2	2016-03-28 16:10:13 +0000	[diff] [blame]	466
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	467	return (NumLoads * (RI.getRegSizeInBits(*DstRC) / 8)) <= LoadClusterThreshold;
Matt Arsenault	0e75a06	2014-09-17 17:48:30 +0000	[diff] [blame]	468	}
				469
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	470	// FIXME: This behaves strangely. If, for example, you have 32 load + stores,
				471	// the first 16 loads will be interleaved with the stores, and the next 16 will
				472	// be clustered as expected. It should really split into 2 16 store batches.
				473	//
				474	// Loads are clustered until this returns false, rather than trying to schedule
				475	// groups of stores. This also means we have to deal with saying different
				476	// address space loads should be clustered, and ones which might cause bank
				477	// conflicts.
				478	//
				479	// This might be deprecated so it might not be worth that much effort to fix.
				480	bool SIInstrInfo::shouldScheduleLoadsNear(SDNode Load0, SDNode Load1,
				481	int64_t Offset0, int64_t Offset1,
				482	unsigned NumLoads) const {
				483	assert(Offset1 > Offset0 &&
				484	"Second offset should be larger than first offset!");
				485	// If we have less than 16 loads in a row, and the offsets are within 64
				486	// bytes, then schedule together.
				487
				488	// A cacheline is 64 bytes (for global memory).
				489	return (NumLoads <= 16 && (Offset1 - Offset0) < 64);
				490	}
				491
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	492	static void reportIllegalCopy(const SIInstrInfo *TII, MachineBasicBlock &MBB,
				493	MachineBasicBlock::iterator MI,
				494	const DebugLoc &DL, unsigned DestReg,
				495	unsigned SrcReg, bool KillSrc) {
				496	MachineFunction *MF = MBB.getParent();
Matthias Braun	f1caa28	2017-12-15 22:22:58 +0000	[diff] [blame]	497	DiagnosticInfoUnsupported IllegalCopy(MF->getFunction(),
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	498	"illegal SGPR to VGPR copy",
				499	DL, DS_Error);
Matthias Braun	f1caa28	2017-12-15 22:22:58 +0000	[diff] [blame]	500	LLVMContext &C = MF->getFunction().getContext();
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	501	C.diagnose(IllegalCopy);
				502
				503	BuildMI(MBB, MI, DL, TII->get(AMDGPU::SI_ILLEGAL_COPY), DestReg)
				504	.addReg(SrcReg, getKillRegState(KillSrc));
				505	}
				506
Benjamin Kramer	bdc4956	2016-06-12 15:39:02 +0000	[diff] [blame]	507	void SIInstrInfo::copyPhysReg(MachineBasicBlock &MBB,
				508	MachineBasicBlock::iterator MI,
				509	const DebugLoc &DL, unsigned DestReg,
				510	unsigned SrcReg, bool KillSrc) const {
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	511	const TargetRegisterClass *RC = RI.getPhysRegClass(DestReg);
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	512
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	513	if (RC == &AMDGPU::VGPR_32RegClass) {
				514	assert(AMDGPU::VGPR_32RegClass.contains(SrcReg) \|\|
				515	AMDGPU::SReg_32RegClass.contains(SrcReg));
				516	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), DestReg)
				517	.addReg(SrcReg, getKillRegState(KillSrc));
				518	return;
				519	}
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	520
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	521	if (RC == &AMDGPU::SReg_32_XM0RegClass \|\|
				522	RC == &AMDGPU::SReg_32RegClass) {
Nicolai Haehnle	e58e0e3	2016-09-12 16:25:20 +0000	[diff] [blame]	523	if (SrcReg == AMDGPU::SCC) {
				524	BuildMI(MBB, MI, DL, get(AMDGPU::S_CSELECT_B32), DestReg)
				525	.addImm(-1)
				526	.addImm(0);
				527	return;
				528	}
				529
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	530	if (!AMDGPU::SReg_32RegClass.contains(SrcReg)) {
				531	reportIllegalCopy(this, MBB, MI, DL, DestReg, SrcReg, KillSrc);
				532	return;
				533	}
				534
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	535	BuildMI(MBB, MI, DL, get(AMDGPU::S_MOV_B32), DestReg)
				536	.addReg(SrcReg, getKillRegState(KillSrc));
				537	return;
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	538	}
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	539
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	540	if (RC == &AMDGPU::SReg_64RegClass) {
Matt Arsenault	834b1aa	2015-02-14 02:55:54 +0000	[diff] [blame]	541	if (DestReg == AMDGPU::VCC) {
Matt Arsenault	9998168	2015-02-14 02:55:56 +0000	[diff] [blame]	542	if (AMDGPU::SReg_64RegClass.contains(SrcReg)) {
				543	BuildMI(MBB, MI, DL, get(AMDGPU::S_MOV_B64), AMDGPU::VCC)
				544	.addReg(SrcReg, getKillRegState(KillSrc));
				545	} else {
				546	// FIXME: Hack until VReg_1 removed.
				547	assert(AMDGPU::VGPR_32RegClass.contains(SrcReg));
Matt Arsenault	5d8eb25	2016-09-30 01:50:20 +0000	[diff] [blame]	548	BuildMI(MBB, MI, DL, get(AMDGPU::V_CMP_NE_U32_e32))
Matt Arsenault	9998168	2015-02-14 02:55:56 +0000	[diff] [blame]	549	.addImm(0)
				550	.addReg(SrcReg, getKillRegState(KillSrc));
				551	}
Matt Arsenault	834b1aa	2015-02-14 02:55:54 +0000	[diff] [blame]	552
Matt Arsenault	834b1aa	2015-02-14 02:55:54 +0000	[diff] [blame]	553	return;
				554	}
				555
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	556	if (!AMDGPU::SReg_64RegClass.contains(SrcReg)) {
				557	reportIllegalCopy(this, MBB, MI, DL, DestReg, SrcReg, KillSrc);
				558	return;
				559	}
				560
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	561	BuildMI(MBB, MI, DL, get(AMDGPU::S_MOV_B64), DestReg)
				562	.addReg(SrcReg, getKillRegState(KillSrc));
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	563	return;
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	564	}
				565
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	566	if (DestReg == AMDGPU::SCC) {
				567	assert(AMDGPU::SReg_32RegClass.contains(SrcReg));
				568	BuildMI(MBB, MI, DL, get(AMDGPU::S_CMP_LG_U32))
				569	.addReg(SrcReg, getKillRegState(KillSrc))
				570	.addImm(0);
				571	return;
				572	}
				573
				574	unsigned EltSize = 4;
				575	unsigned Opcode = AMDGPU::V_MOV_B32_e32;
				576	if (RI.isSGPRClass(RC)) {
Tim Renouf	361b5b2	2019-03-21 12:01:21 +0000	[diff] [blame]	577	// TODO: Copy vec3/vec5 with s_mov_b64s then final s_mov_b32.
				578	if (!(RI.getRegSizeInBits(*RC) % 64)) {
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	579	Opcode = AMDGPU::S_MOV_B64;
				580	EltSize = 8;
				581	} else {
				582	Opcode = AMDGPU::S_MOV_B32;
				583	EltSize = 4;
				584	}
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	585
				586	if (!RI.isSGPRClass(RI.getPhysRegClass(SrcReg))) {
				587	reportIllegalCopy(this, MBB, MI, DL, DestReg, SrcReg, KillSrc);
				588	return;
				589	}
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	590	}
				591
				592	ArrayRef<int16_t> SubIndices = RI.getRegSplitParts(RC, EltSize);
Matt Arsenault	73d2f89	2016-07-15 22:32:02 +0000	[diff] [blame]	593	bool Forward = RI.getHWRegIndex(DestReg) <= RI.getHWRegIndex(SrcReg);
Nicolai Haehnle	dd58705	2015-12-19 01:16:06 +0000	[diff] [blame]	594
				595	for (unsigned Idx = 0; Idx < SubIndices.size(); ++Idx) {
				596	unsigned SubIdx;
				597	if (Forward)
				598	SubIdx = SubIndices[Idx];
				599	else
				600	SubIdx = SubIndices[SubIndices.size() - Idx - 1];
				601
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	602	MachineInstrBuilder Builder = BuildMI(MBB, MI, DL,
				603	get(Opcode), RI.getSubReg(DestReg, SubIdx));
				604
Nicolai Haehnle	dd58705	2015-12-19 01:16:06 +0000	[diff] [blame]	605	Builder.addReg(RI.getSubReg(SrcReg, SubIdx));
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	606
Nicolai Haehnle	dd58705	2015-12-19 01:16:06 +0000	[diff] [blame]	607	if (Idx == 0)
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	608	Builder.addReg(DestReg, RegState::Define \| RegState::Implicit);
Matt Arsenault	73d2f89	2016-07-15 22:32:02 +0000	[diff] [blame]	609
Matt Arsenault	05c2647	2017-06-12 17:19:20 +0000	[diff] [blame]	610	bool UseKill = KillSrc && Idx == SubIndices.size() - 1;
				611	Builder.addReg(SrcReg, getKillRegState(UseKill) \| RegState::Implicit);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	612	}
				613	}
				614
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	615	int SIInstrInfo::commuteOpcode(unsigned Opcode) const {
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	616	int NewOpc;
				617
				618	// Try to map original to commuted opcode
Marek Olsak	191507e	2015-02-03 17:38:12 +0000	[diff] [blame]	619	NewOpc = AMDGPU::getCommuteRev(Opcode);
Marek Olsak	cfbdba2	2015-06-26 20:29:10 +0000	[diff] [blame]	620	if (NewOpc != -1)
				621	// Check if the commuted (REV) opcode exists on the target.
				622	return pseudoToMCOpcode(NewOpc) != -1 ? NewOpc : -1;
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	623
				624	// Try to map commuted to original opcode
Marek Olsak	191507e	2015-02-03 17:38:12 +0000	[diff] [blame]	625	NewOpc = AMDGPU::getCommuteOrig(Opcode);
Marek Olsak	cfbdba2	2015-06-26 20:29:10 +0000	[diff] [blame]	626	if (NewOpc != -1)
				627	// Check if the original (non-REV) opcode exists on the target.
				628	return pseudoToMCOpcode(NewOpc) != -1 ? NewOpc : -1;
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	629
				630	return Opcode;
				631	}
				632
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	633	void SIInstrInfo::materializeImmediate(MachineBasicBlock &MBB,
				634	MachineBasicBlock::iterator MI,
				635	const DebugLoc &DL, unsigned DestReg,
				636	int64_t Value) const {
				637	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				638	const TargetRegisterClass *RegClass = MRI.getRegClass(DestReg);
				639	if (RegClass == &AMDGPU::SReg_32RegClass \|\|
				640	RegClass == &AMDGPU::SGPR_32RegClass \|\|
				641	RegClass == &AMDGPU::SReg_32_XM0RegClass \|\|
				642	RegClass == &AMDGPU::SReg_32_XM0_XEXECRegClass) {
				643	BuildMI(MBB, MI, DL, get(AMDGPU::S_MOV_B32), DestReg)
				644	.addImm(Value);
				645	return;
				646	}
				647
				648	if (RegClass == &AMDGPU::SReg_64RegClass \|\|
				649	RegClass == &AMDGPU::SGPR_64RegClass \|\|
				650	RegClass == &AMDGPU::SReg_64_XEXECRegClass) {
				651	BuildMI(MBB, MI, DL, get(AMDGPU::S_MOV_B64), DestReg)
				652	.addImm(Value);
				653	return;
				654	}
				655
				656	if (RegClass == &AMDGPU::VGPR_32RegClass) {
				657	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), DestReg)
				658	.addImm(Value);
				659	return;
				660	}
				661	if (RegClass == &AMDGPU::VReg_64RegClass) {
				662	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B64_PSEUDO), DestReg)
				663	.addImm(Value);
				664	return;
				665	}
				666
				667	unsigned EltSize = 4;
				668	unsigned Opcode = AMDGPU::V_MOV_B32_e32;
				669	if (RI.isSGPRClass(RegClass)) {
				670	if (RI.getRegSizeInBits(*RegClass) > 32) {
				671	Opcode = AMDGPU::S_MOV_B64;
				672	EltSize = 8;
				673	} else {
				674	Opcode = AMDGPU::S_MOV_B32;
				675	EltSize = 4;
				676	}
				677	}
				678
				679	ArrayRef<int16_t> SubIndices = RI.getRegSplitParts(RegClass, EltSize);
				680	for (unsigned Idx = 0; Idx < SubIndices.size(); ++Idx) {
				681	int64_t IdxValue = Idx == 0 ? Value : 0;
				682
				683	MachineInstrBuilder Builder = BuildMI(MBB, MI, DL,
				684	get(Opcode), RI.getSubReg(DestReg, Idx));
				685	Builder.addImm(IdxValue);
				686	}
				687	}
				688
				689	const TargetRegisterClass *
				690	SIInstrInfo::getPreferredSelectRegClass(unsigned Size) const {
				691	return &AMDGPU::VGPR_32RegClass;
				692	}
				693
				694	void SIInstrInfo::insertVectorSelect(MachineBasicBlock &MBB,
				695	MachineBasicBlock::iterator I,
				696	const DebugLoc &DL, unsigned DstReg,
				697	ArrayRef<MachineOperand> Cond,
				698	unsigned TrueReg,
				699	unsigned FalseReg) const {
				700	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
NAKAMURA Takumi	994a43d	2017-05-16 04:01:23 +0000	[diff] [blame]	701	assert(MRI.getRegClass(DstReg) == &AMDGPU::VGPR_32RegClass &&
				702	"Not a VGPR32 reg");
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	703
				704	if (Cond.size() == 1) {
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	705	unsigned SReg = MRI.createVirtualRegister(&AMDGPU::SReg_64_XEXECRegClass);
				706	BuildMI(MBB, I, DL, get(AMDGPU::COPY), SReg)
				707	.add(Cond[0]);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	708	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	709	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	710	.addReg(FalseReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	711	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	712	.addReg(TrueReg)
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	713	.addReg(SReg);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	714	} else if (Cond.size() == 2) {
				715	assert(Cond[0].isImm() && "Cond[0] is not an immediate");
				716	switch (Cond[0].getImm()) {
				717	case SIInstrInfo::SCC_TRUE: {
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	718	unsigned SReg = MRI.createVirtualRegister(&AMDGPU::SReg_64_XEXECRegClass);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	719	BuildMI(MBB, I, DL, get(AMDGPU::S_CSELECT_B64), SReg)
				720	.addImm(-1)
				721	.addImm(0);
				722	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	723	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	724	.addReg(FalseReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	725	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	726	.addReg(TrueReg)
				727	.addReg(SReg);
				728	break;
				729	}
				730	case SIInstrInfo::SCC_FALSE: {
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	731	unsigned SReg = MRI.createVirtualRegister(&AMDGPU::SReg_64_XEXECRegClass);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	732	BuildMI(MBB, I, DL, get(AMDGPU::S_CSELECT_B64), SReg)
				733	.addImm(0)
				734	.addImm(-1);
				735	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	736	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	737	.addReg(FalseReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	738	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	739	.addReg(TrueReg)
				740	.addReg(SReg);
				741	break;
				742	}
				743	case SIInstrInfo::VCCNZ: {
				744	MachineOperand RegOp = Cond[1];
				745	RegOp.setImplicit(false);
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	746	unsigned SReg = MRI.createVirtualRegister(&AMDGPU::SReg_64_XEXECRegClass);
				747	BuildMI(MBB, I, DL, get(AMDGPU::COPY), SReg)
				748	.add(RegOp);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	749	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	750	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	751	.addReg(FalseReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	752	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	753	.addReg(TrueReg)
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	754	.addReg(SReg);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	755	break;
				756	}
				757	case SIInstrInfo::VCCZ: {
				758	MachineOperand RegOp = Cond[1];
				759	RegOp.setImplicit(false);
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	760	unsigned SReg = MRI.createVirtualRegister(&AMDGPU::SReg_64_XEXECRegClass);
				761	BuildMI(MBB, I, DL, get(AMDGPU::COPY), SReg)
				762	.add(RegOp);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	763	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	764	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	765	.addReg(TrueReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	766	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	767	.addReg(FalseReg)
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	768	.addReg(SReg);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	769	break;
				770	}
				771	case SIInstrInfo::EXECNZ: {
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	772	unsigned SReg = MRI.createVirtualRegister(&AMDGPU::SReg_64_XEXECRegClass);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	773	unsigned SReg2 = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				774	BuildMI(MBB, I, DL, get(AMDGPU::S_OR_SAVEEXEC_B64), SReg2)
				775	.addImm(0);
				776	BuildMI(MBB, I, DL, get(AMDGPU::S_CSELECT_B64), SReg)
				777	.addImm(-1)
				778	.addImm(0);
				779	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	780	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	781	.addReg(FalseReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	782	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	783	.addReg(TrueReg)
				784	.addReg(SReg);
				785	break;
				786	}
				787	case SIInstrInfo::EXECZ: {
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	788	unsigned SReg = MRI.createVirtualRegister(&AMDGPU::SReg_64_XEXECRegClass);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	789	unsigned SReg2 = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				790	BuildMI(MBB, I, DL, get(AMDGPU::S_OR_SAVEEXEC_B64), SReg2)
				791	.addImm(0);
				792	BuildMI(MBB, I, DL, get(AMDGPU::S_CSELECT_B64), SReg)
				793	.addImm(0)
				794	.addImm(-1);
				795	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	796	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	797	.addReg(FalseReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	798	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	799	.addReg(TrueReg)
				800	.addReg(SReg);
				801	llvm_unreachable("Unhandled branch predicate EXECZ");
				802	break;
				803	}
				804	default:
				805	llvm_unreachable("invalid branch predicate");
				806	}
				807	} else {
				808	llvm_unreachable("Can only handle Cond size 1 or 2");
				809	}
				810	}
				811
				812	unsigned SIInstrInfo::insertEQ(MachineBasicBlock *MBB,
				813	MachineBasicBlock::iterator I,
				814	const DebugLoc &DL,
				815	unsigned SrcReg, int Value) const {
				816	MachineRegisterInfo &MRI = MBB->getParent()->getRegInfo();
				817	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				818	BuildMI(*MBB, I, DL, get(AMDGPU::V_CMP_EQ_I32_e64), Reg)
				819	.addImm(Value)
				820	.addReg(SrcReg);
				821
				822	return Reg;
				823	}
				824
				825	unsigned SIInstrInfo::insertNE(MachineBasicBlock *MBB,
				826	MachineBasicBlock::iterator I,
				827	const DebugLoc &DL,
				828	unsigned SrcReg, int Value) const {
				829	MachineRegisterInfo &MRI = MBB->getParent()->getRegInfo();
				830	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				831	BuildMI(*MBB, I, DL, get(AMDGPU::V_CMP_NE_I32_e64), Reg)
				832	.addImm(Value)
				833	.addReg(SrcReg);
				834
				835	return Reg;
				836	}
				837
Tom Stellard	ef3b864	2015-01-07 19:56:17 +0000	[diff] [blame]	838	unsigned SIInstrInfo::getMovOpcode(const TargetRegisterClass *DstRC) const {
				839
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	840	if (RI.getRegSizeInBits(*DstRC) == 32) {
Tom Stellard	ef3b864	2015-01-07 19:56:17 +0000	[diff] [blame]	841	return RI.isSGPRClass(DstRC) ? AMDGPU::S_MOV_B32 : AMDGPU::V_MOV_B32_e32;
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	842	} else if (RI.getRegSizeInBits(*DstRC) == 64 && RI.isSGPRClass(DstRC)) {
Tom Stellard	ef3b864	2015-01-07 19:56:17 +0000	[diff] [blame]	843	return AMDGPU::S_MOV_B64;
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	844	} else if (RI.getRegSizeInBits(*DstRC) == 64 && !RI.isSGPRClass(DstRC)) {
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	845	return AMDGPU::V_MOV_B64_PSEUDO;
Tom Stellard	ef3b864	2015-01-07 19:56:17 +0000	[diff] [blame]	846	}
				847	return AMDGPU::COPY;
				848	}
				849
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	850	static unsigned getSGPRSpillSaveOpcode(unsigned Size) {
				851	switch (Size) {
				852	case 4:
				853	return AMDGPU::SI_SPILL_S32_SAVE;
				854	case 8:
				855	return AMDGPU::SI_SPILL_S64_SAVE;
Tim Renouf	361b5b2	2019-03-21 12:01:21 +0000	[diff] [blame]	856	case 12:
				857	return AMDGPU::SI_SPILL_S96_SAVE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	858	case 16:
				859	return AMDGPU::SI_SPILL_S128_SAVE;
Tim Renouf	033f99a	2019-03-22 10:11:21 +0000	[diff] [blame]	860	case 20:
				861	return AMDGPU::SI_SPILL_S160_SAVE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	862	case 32:
				863	return AMDGPU::SI_SPILL_S256_SAVE;
				864	case 64:
				865	return AMDGPU::SI_SPILL_S512_SAVE;
				866	default:
				867	llvm_unreachable("unknown register size");
				868	}
				869	}
				870
				871	static unsigned getVGPRSpillSaveOpcode(unsigned Size) {
				872	switch (Size) {
				873	case 4:
				874	return AMDGPU::SI_SPILL_V32_SAVE;
				875	case 8:
				876	return AMDGPU::SI_SPILL_V64_SAVE;
Tom Stellard	703b2ec	2016-04-12 23:57:30 +0000	[diff] [blame]	877	case 12:
				878	return AMDGPU::SI_SPILL_V96_SAVE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	879	case 16:
				880	return AMDGPU::SI_SPILL_V128_SAVE;
Tim Renouf	033f99a	2019-03-22 10:11:21 +0000	[diff] [blame]	881	case 20:
				882	return AMDGPU::SI_SPILL_V160_SAVE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	883	case 32:
				884	return AMDGPU::SI_SPILL_V256_SAVE;
				885	case 64:
				886	return AMDGPU::SI_SPILL_V512_SAVE;
				887	default:
				888	llvm_unreachable("unknown register size");
				889	}
				890	}
				891
Tom Stellard	c149dc0	2013-11-27 21:23:35 +0000	[diff] [blame]	892	void SIInstrInfo::storeRegToStackSlot(MachineBasicBlock &MBB,
				893	MachineBasicBlock::iterator MI,
				894	unsigned SrcReg, bool isKill,
				895	int FrameIndex,
				896	const TargetRegisterClass *RC,
				897	const TargetRegisterInfo *TRI) const {
Tom Stellard	4e07b1d	2014-06-10 21:20:41 +0000	[diff] [blame]	898	MachineFunction *MF = MBB.getParent();
Tom Stellard	42fb60e	2015-01-14 15:42:31 +0000	[diff] [blame]	899	SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();
Matthias Braun	941a705	2016-07-28 18:40:00 +0000	[diff] [blame]	900	MachineFrameInfo &FrameInfo = MF->getFrameInfo();
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	901	const DebugLoc &DL = MBB.findDebugLoc(MI);
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	902
Matthias Braun	941a705	2016-07-28 18:40:00 +0000	[diff] [blame]	903	unsigned Size = FrameInfo.getObjectSize(FrameIndex);
				904	unsigned Align = FrameInfo.getObjectAlignment(FrameIndex);
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	905	MachinePointerInfo PtrInfo
				906	= MachinePointerInfo::getFixedStack(*MF, FrameIndex);
				907	MachineMemOperand *MMO
				908	= MF->getMachineMemOperand(PtrInfo, MachineMemOperand::MOStore,
				909	Size, Align);
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	910	unsigned SpillSize = TRI->getSpillSize(*RC);
Tom Stellard	c149dc0	2013-11-27 21:23:35 +0000	[diff] [blame]	911
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	912	if (RI.isSGPRClass(RC)) {
Matt Arsenault	5b22dfa	2015-11-05 05:27:10 +0000	[diff] [blame]	913	MFI->setHasSpilledSGPRs();
				914
Matt Arsenault	2510a31	2016-09-03 06:57:55 +0000	[diff] [blame]	915	// We are only allowed to create one new instruction when spilling
				916	// registers, so we need to use pseudo instruction for spilling SGPRs.
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	917	const MCInstrDesc &OpDesc = get(getSGPRSpillSaveOpcode(SpillSize));
Matt Arsenault	2510a31	2016-09-03 06:57:55 +0000	[diff] [blame]	918
				919	// The SGPR spill/restore instructions only work on number sgprs, so we need
				920	// to make sure we are using the correct register class.
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	921	if (TargetRegisterInfo::isVirtualRegister(SrcReg) && SpillSize == 4) {
Matt Arsenault	b6e1cc2	2016-05-21 00:53:42 +0000	[diff] [blame]	922	MachineRegisterInfo &MRI = MF->getRegInfo();
				923	MRI.constrainRegClass(SrcReg, &AMDGPU::SReg_32_XM0RegClass);
				924	}
				925
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	926	MachineInstrBuilder Spill = BuildMI(MBB, MI, DL, OpDesc)
Matt Arsenault	3354f42	2016-09-10 01:20:33 +0000	[diff] [blame]	927	.addReg(SrcReg, getKillRegState(isKill)) // data
				928	.addFrameIndex(FrameIndex) // addr
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	929	.addMemOperand(MMO)
				930	.addReg(MFI->getScratchRSrcReg(), RegState::Implicit)
Matt Arsenault	b812b7a	2019-06-05 22:20:47 +0000	[diff] [blame]	931	.addReg(MFI->getStackPtrOffsetReg(), RegState::Implicit);
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	932	// Add the scratch resource registers as implicit uses because we may end up
				933	// needing them, and need to ensure that the reserved registers are
				934	// correctly handled.
Tom Stellard	42fb60e	2015-01-14 15:42:31 +0000	[diff] [blame]	935
Matt Arsenault	adc59d7	2018-04-23 15:51:26 +0000	[diff] [blame]	936	FrameInfo.setStackID(FrameIndex, SIStackID::SGPR_SPILL);
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	937	if (ST.hasScalarStores()) {
				938	// m0 is used for offset to scalar stores if used to spill.
Nicolai Haehnle	43cc6c4	2017-06-27 08:04:13 +0000	[diff] [blame]	939	Spill.addReg(AMDGPU::M0, RegState::ImplicitDefine \| RegState::Dead);
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	940	}
				941
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	942	return;
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	943	}
Tom Stellard	eba6107	2014-05-02 15:41:42 +0000	[diff] [blame]	944
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	945	assert(RI.hasVGPRs(RC) && "Only VGPR spilling expected");
				946
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	947	unsigned Opcode = getVGPRSpillSaveOpcode(SpillSize);
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	948	MFI->setHasSpilledVGPRs();
				949	BuildMI(MBB, MI, DL, get(Opcode))
Matt Arsenault	3354f42	2016-09-10 01:20:33 +0000	[diff] [blame]	950	.addReg(SrcReg, getKillRegState(isKill)) // data
				951	.addFrameIndex(FrameIndex) // addr
Matt Arsenault	2510a31	2016-09-03 06:57:55 +0000	[diff] [blame]	952	.addReg(MFI->getScratchRSrcReg()) // scratch_rsrc
Matt Arsenault	b812b7a	2019-06-05 22:20:47 +0000	[diff] [blame]	953	.addReg(MFI->getStackPtrOffsetReg()) // scratch_offset
Matt Arsenault	2510a31	2016-09-03 06:57:55 +0000	[diff] [blame]	954	.addImm(0) // offset
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	955	.addMemOperand(MMO);
				956	}
				957
				958	static unsigned getSGPRSpillRestoreOpcode(unsigned Size) {
				959	switch (Size) {
				960	case 4:
				961	return AMDGPU::SI_SPILL_S32_RESTORE;
				962	case 8:
				963	return AMDGPU::SI_SPILL_S64_RESTORE;
Tim Renouf	361b5b2	2019-03-21 12:01:21 +0000	[diff] [blame]	964	case 12:
				965	return AMDGPU::SI_SPILL_S96_RESTORE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	966	case 16:
				967	return AMDGPU::SI_SPILL_S128_RESTORE;
Tim Renouf	033f99a	2019-03-22 10:11:21 +0000	[diff] [blame]	968	case 20:
				969	return AMDGPU::SI_SPILL_S160_RESTORE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	970	case 32:
				971	return AMDGPU::SI_SPILL_S256_RESTORE;
				972	case 64:
				973	return AMDGPU::SI_SPILL_S512_RESTORE;
				974	default:
				975	llvm_unreachable("unknown register size");
				976	}
				977	}
				978
				979	static unsigned getVGPRSpillRestoreOpcode(unsigned Size) {
				980	switch (Size) {
				981	case 4:
				982	return AMDGPU::SI_SPILL_V32_RESTORE;
				983	case 8:
				984	return AMDGPU::SI_SPILL_V64_RESTORE;
Tom Stellard	703b2ec	2016-04-12 23:57:30 +0000	[diff] [blame]	985	case 12:
				986	return AMDGPU::SI_SPILL_V96_RESTORE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	987	case 16:
				988	return AMDGPU::SI_SPILL_V128_RESTORE;
Tim Renouf	033f99a	2019-03-22 10:11:21 +0000	[diff] [blame]	989	case 20:
				990	return AMDGPU::SI_SPILL_V160_RESTORE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	991	case 32:
				992	return AMDGPU::SI_SPILL_V256_RESTORE;
				993	case 64:
				994	return AMDGPU::SI_SPILL_V512_RESTORE;
				995	default:
				996	llvm_unreachable("unknown register size");
Tom Stellard	c149dc0	2013-11-27 21:23:35 +0000	[diff] [blame]	997	}
				998	}
				999
				1000	void SIInstrInfo::loadRegFromStackSlot(MachineBasicBlock &MBB,
				1001	MachineBasicBlock::iterator MI,
				1002	unsigned DestReg, int FrameIndex,
				1003	const TargetRegisterClass *RC,
				1004	const TargetRegisterInfo *TRI) const {
Tom Stellard	4e07b1d	2014-06-10 21:20:41 +0000	[diff] [blame]	1005	MachineFunction *MF = MBB.getParent();
Matt Arsenault	88ce3dc	2018-11-26 21:28:40 +0000	[diff] [blame]	1006	SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();
Matthias Braun	941a705	2016-07-28 18:40:00 +0000	[diff] [blame]	1007	MachineFrameInfo &FrameInfo = MF->getFrameInfo();
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	1008	const DebugLoc &DL = MBB.findDebugLoc(MI);
Matthias Braun	941a705	2016-07-28 18:40:00 +0000	[diff] [blame]	1009	unsigned Align = FrameInfo.getObjectAlignment(FrameIndex);
				1010	unsigned Size = FrameInfo.getObjectSize(FrameIndex);
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1011	unsigned SpillSize = TRI->getSpillSize(*RC);
Tom Stellard	4e07b1d	2014-06-10 21:20:41 +0000	[diff] [blame]	1012
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1013	MachinePointerInfo PtrInfo
				1014	= MachinePointerInfo::getFixedStack(*MF, FrameIndex);
				1015
				1016	MachineMemOperand *MMO = MF->getMachineMemOperand(
				1017	PtrInfo, MachineMemOperand::MOLoad, Size, Align);
				1018
				1019	if (RI.isSGPRClass(RC)) {
Matt Arsenault	88ce3dc	2018-11-26 21:28:40 +0000	[diff] [blame]	1020	MFI->setHasSpilledSGPRs();
				1021
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1022	// FIXME: Maybe this should not include a memoperand because it will be
				1023	// lowered to non-memory instructions.
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1024	const MCInstrDesc &OpDesc = get(getSGPRSpillRestoreOpcode(SpillSize));
				1025	if (TargetRegisterInfo::isVirtualRegister(DestReg) && SpillSize == 4) {
Matt Arsenault	b6e1cc2	2016-05-21 00:53:42 +0000	[diff] [blame]	1026	MachineRegisterInfo &MRI = MF->getRegInfo();
				1027	MRI.constrainRegClass(DestReg, &AMDGPU::SReg_32_XM0RegClass);
				1028	}
				1029
Matt Arsenault	adc59d7	2018-04-23 15:51:26 +0000	[diff] [blame]	1030	FrameInfo.setStackID(FrameIndex, SIStackID::SGPR_SPILL);
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	1031	MachineInstrBuilder Spill = BuildMI(MBB, MI, DL, OpDesc, DestReg)
Matt Arsenault	3354f42	2016-09-10 01:20:33 +0000	[diff] [blame]	1032	.addFrameIndex(FrameIndex) // addr
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	1033	.addMemOperand(MMO)
				1034	.addReg(MFI->getScratchRSrcReg(), RegState::Implicit)
Matt Arsenault	b812b7a	2019-06-05 22:20:47 +0000	[diff] [blame]	1035	.addReg(MFI->getStackPtrOffsetReg(), RegState::Implicit);
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1036
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	1037	if (ST.hasScalarStores()) {
				1038	// m0 is used for offset to scalar stores if used to spill.
Nicolai Haehnle	43cc6c4	2017-06-27 08:04:13 +0000	[diff] [blame]	1039	Spill.addReg(AMDGPU::M0, RegState::ImplicitDefine \| RegState::Dead);
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	1040	}
				1041
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1042	return;
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1043	}
Tom Stellard	eba6107	2014-05-02 15:41:42 +0000	[diff] [blame]	1044
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1045	assert(RI.hasVGPRs(RC) && "Only VGPR spilling expected");
				1046
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1047	unsigned Opcode = getVGPRSpillRestoreOpcode(SpillSize);
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1048	BuildMI(MBB, MI, DL, get(Opcode), DestReg)
Matt Arsenault	b812b7a	2019-06-05 22:20:47 +0000	[diff] [blame]	1049	.addFrameIndex(FrameIndex) // vaddr
				1050	.addReg(MFI->getScratchRSrcReg()) // scratch_rsrc
				1051	.addReg(MFI->getStackPtrOffsetReg()) // scratch_offset
				1052	.addImm(0) // offset
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1053	.addMemOperand(MMO);
Tom Stellard	c149dc0	2013-11-27 21:23:35 +0000	[diff] [blame]	1054	}
				1055
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1056	/// \param @Offset Offset in bytes of the FrameIndex being spilled
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1057	unsigned SIInstrInfo::calculateLDSSpillAddress(
				1058	MachineBasicBlock &MBB, MachineInstr &MI, RegScavenger *RS, unsigned TmpReg,
				1059	unsigned FrameOffset, unsigned Size) const {
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1060	MachineFunction *MF = MBB.getParent();
				1061	SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	1062	const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	1063	const DebugLoc &DL = MBB.findDebugLoc(MI);
Konstantin Zhuravlyov	1d65026	2016-09-06 20:22:28 +0000	[diff] [blame]	1064	unsigned WorkGroupSize = MFI->getMaxFlatWorkGroupSize();
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1065	unsigned WavefrontSize = ST.getWavefrontSize();
				1066
				1067	unsigned TIDReg = MFI->getTIDReg();
				1068	if (!MFI->hasCalculatedTID()) {
				1069	MachineBasicBlock &Entry = MBB.getParent()->front();
				1070	MachineBasicBlock::iterator Insert = Entry.front();
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	1071	const DebugLoc &DL = Insert->getDebugLoc();
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1072
Tom Stellard	19f4301	2016-07-28 14:30:43 +0000	[diff] [blame]	1073	TIDReg = RI.findUnusedRegister(MF->getRegInfo(), &AMDGPU::VGPR_32RegClass,
				1074	*MF);
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1075	if (TIDReg == AMDGPU::NoRegister)
				1076	return TIDReg;
				1077
Matthias Braun	f1caa28	2017-12-15 22:22:58 +0000	[diff] [blame]	1078	if (!AMDGPU::isShader(MF->getFunction().getCallingConv()) &&
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1079	WorkGroupSize > WavefrontSize) {
Matt Arsenault	ac234b6	2015-11-30 21:15:57 +0000	[diff] [blame]	1080	unsigned TIDIGXReg
Matt Arsenault	8623e8d	2017-08-03 23:00:29 +0000	[diff] [blame]	1081	= MFI->getPreloadedReg(AMDGPUFunctionArgInfo::WORKGROUP_ID_X);
Matt Arsenault	ac234b6	2015-11-30 21:15:57 +0000	[diff] [blame]	1082	unsigned TIDIGYReg
Matt Arsenault	8623e8d	2017-08-03 23:00:29 +0000	[diff] [blame]	1083	= MFI->getPreloadedReg(AMDGPUFunctionArgInfo::WORKGROUP_ID_Y);
Matt Arsenault	ac234b6	2015-11-30 21:15:57 +0000	[diff] [blame]	1084	unsigned TIDIGZReg
Matt Arsenault	8623e8d	2017-08-03 23:00:29 +0000	[diff] [blame]	1085	= MFI->getPreloadedReg(AMDGPUFunctionArgInfo::WORKGROUP_ID_Z);
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1086	unsigned InputPtrReg =
Matt Arsenault	8623e8d	2017-08-03 23:00:29 +0000	[diff] [blame]	1087	MFI->getPreloadedReg(AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR);
Benjamin Kramer	7149aab	2015-03-01 18:09:56 +0000	[diff] [blame]	1088	for (unsigned Reg : {TIDIGXReg, TIDIGYReg, TIDIGZReg}) {
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1089	if (!Entry.isLiveIn(Reg))
				1090	Entry.addLiveIn(Reg);
				1091	}
				1092
Matthias Braun	7dc03f0	2016-04-06 02:47:09 +0000	[diff] [blame]	1093	RS->enterBasicBlock(Entry);
Matt Arsenault	0c90e95	2015-11-06 18:17:45 +0000	[diff] [blame]	1094	// FIXME: Can we scavenge an SReg_64 and access the subregs?
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1095	unsigned STmp0 = RS->scavengeRegister(&AMDGPU::SGPR_32RegClass, 0);
				1096	unsigned STmp1 = RS->scavengeRegister(&AMDGPU::SGPR_32RegClass, 0);
				1097	BuildMI(Entry, Insert, DL, get(AMDGPU::S_LOAD_DWORD_IMM), STmp0)
				1098	.addReg(InputPtrReg)
				1099	.addImm(SI::KernelInputOffsets::NGROUPS_Z);
				1100	BuildMI(Entry, Insert, DL, get(AMDGPU::S_LOAD_DWORD_IMM), STmp1)
				1101	.addReg(InputPtrReg)
				1102	.addImm(SI::KernelInputOffsets::NGROUPS_Y);
				1103
				1104	// NGROUPS.X * NGROUPS.Y
				1105	BuildMI(Entry, Insert, DL, get(AMDGPU::S_MUL_I32), STmp1)
				1106	.addReg(STmp1)
				1107	.addReg(STmp0);
				1108	// (NGROUPS.X * NGROUPS.Y) * TIDIG.X
				1109	BuildMI(Entry, Insert, DL, get(AMDGPU::V_MUL_U32_U24_e32), TIDReg)
				1110	.addReg(STmp1)
				1111	.addReg(TIDIGXReg);
				1112	// NGROUPS.Z * TIDIG.Y + (NGROUPS.X * NGROPUS.Y * TIDIG.X)
				1113	BuildMI(Entry, Insert, DL, get(AMDGPU::V_MAD_U32_U24), TIDReg)
				1114	.addReg(STmp0)
				1115	.addReg(TIDIGYReg)
				1116	.addReg(TIDReg);
				1117	// (NGROUPS.Z * TIDIG.Y + (NGROUPS.X * NGROPUS.Y * TIDIG.X)) + TIDIG.Z
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	1118	getAddNoCarry(Entry, Insert, DL, TIDReg)
				1119	.addReg(TIDReg)
Tim Renouf	cfdfba9	2019-03-18 19:35:44 +0000	[diff] [blame]	1120	.addReg(TIDIGZReg)
				1121	.addImm(0); // clamp bit
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1122	} else {
				1123	// Get the wave id
				1124	BuildMI(Entry, Insert, DL, get(AMDGPU::V_MBCNT_LO_U32_B32_e64),
				1125	TIDReg)
				1126	.addImm(-1)
				1127	.addImm(0);
				1128
Marek Olsak	c536850	2015-01-15 18:43:01 +0000	[diff] [blame]	1129	BuildMI(Entry, Insert, DL, get(AMDGPU::V_MBCNT_HI_U32_B32_e64),
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1130	TIDReg)
				1131	.addImm(-1)
				1132	.addReg(TIDReg);
				1133	}
				1134
				1135	BuildMI(Entry, Insert, DL, get(AMDGPU::V_LSHLREV_B32_e32),
				1136	TIDReg)
				1137	.addImm(2)
				1138	.addReg(TIDReg);
				1139	MFI->setTIDReg(TIDReg);
				1140	}
				1141
				1142	// Add FrameIndex to LDS offset
Matt Arsenault	52ef401	2016-07-26 16:45:58 +0000	[diff] [blame]	1143	unsigned LDSOffset = MFI->getLDSSize() + (FrameOffset * WorkGroupSize);
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	1144	getAddNoCarry(MBB, MI, DL, TmpReg)
				1145	.addImm(LDSOffset)
Tim Renouf	cfdfba9	2019-03-18 19:35:44 +0000	[diff] [blame]	1146	.addReg(TIDReg)
				1147	.addImm(0); // clamp bit
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1148
				1149	return TmpReg;
				1150	}
				1151
Tom Stellard	d37630e	2016-04-07 14:47:07 +0000	[diff] [blame]	1152	void SIInstrInfo::insertWaitStates(MachineBasicBlock &MBB,
				1153	MachineBasicBlock::iterator MI,
Nicolai Haehnle	87323da	2015-12-17 16:46:42 +0000	[diff] [blame]	1154	int Count) const {
Tom Stellard	341e293	2016-05-02 18:02:24 +0000	[diff] [blame]	1155	DebugLoc DL = MBB.findDebugLoc(MI);
Tom Stellard	eba6107	2014-05-02 15:41:42 +0000	[diff] [blame]	1156	while (Count > 0) {
				1157	int Arg;
				1158	if (Count >= 8)
				1159	Arg = 7;
				1160	else
				1161	Arg = Count - 1;
				1162	Count -= 8;
Tom Stellard	341e293	2016-05-02 18:02:24 +0000	[diff] [blame]	1163	BuildMI(MBB, MI, DL, get(AMDGPU::S_NOP))
Tom Stellard	eba6107	2014-05-02 15:41:42 +0000	[diff] [blame]	1164	.addImm(Arg);
				1165	}
				1166	}
				1167
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	1168	void SIInstrInfo::insertNoop(MachineBasicBlock &MBB,
				1169	MachineBasicBlock::iterator MI) const {
				1170	insertWaitStates(MBB, MI, 1);
				1171	}
				1172
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1173	void SIInstrInfo::insertReturn(MachineBasicBlock &MBB) const {
				1174	auto MF = MBB.getParent();
				1175	SIMachineFunctionInfo *Info = MF->getInfo<SIMachineFunctionInfo>();
				1176
				1177	assert(Info->isEntryFunction());
				1178
				1179	if (MBB.succ_empty()) {
				1180	bool HasNoTerminator = MBB.getFirstTerminator() == MBB.end();
David Stuttard	20ea21c	2019-03-12 09:52:58 +0000	[diff] [blame]	1181	if (HasNoTerminator) {
				1182	if (Info->returnsVoid()) {
				1183	BuildMI(MBB, MBB.end(), DebugLoc(), get(AMDGPU::S_ENDPGM)).addImm(0);
				1184	} else {
				1185	BuildMI(MBB, MBB.end(), DebugLoc(), get(AMDGPU::SI_RETURN_TO_EPILOG));
				1186	}
				1187	}
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1188	}
				1189	}
				1190
Stanislav Mekhanoshin	f92ed69	2019-01-21 19:11:26 +0000	[diff] [blame]	1191	unsigned SIInstrInfo::getNumWaitStates(const MachineInstr &MI) {
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	1192	switch (MI.getOpcode()) {
				1193	default: return 1; // FIXME: Do wait states equal cycles?
				1194
				1195	case AMDGPU::S_NOP:
				1196	return MI.getOperand(0).getImm() + 1;
				1197	}
				1198	}
				1199
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1200	bool SIInstrInfo::expandPostRAPseudo(MachineInstr &MI) const {
				1201	MachineBasicBlock &MBB = *MI.getParent();
Tom Stellard	eba6107	2014-05-02 15:41:42 +0000	[diff] [blame]	1202	DebugLoc DL = MBB.findDebugLoc(MI);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1203	switch (MI.getOpcode()) {
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	1204	default: return TargetInstrInfo::expandPostRAPseudo(MI);
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1205	case AMDGPU::S_MOV_B64_term:
Matt Arsenault	e674075	2016-09-29 01:44:16 +0000	[diff] [blame]	1206	// This is only a terminator to get the correct spill code placement during
				1207	// register allocation.
				1208	MI.setDesc(get(AMDGPU::S_MOV_B64));
				1209	break;
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1210
				1211	case AMDGPU::S_XOR_B64_term:
Matt Arsenault	e674075	2016-09-29 01:44:16 +0000	[diff] [blame]	1212	// This is only a terminator to get the correct spill code placement during
				1213	// register allocation.
				1214	MI.setDesc(get(AMDGPU::S_XOR_B64));
				1215	break;
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1216
				1217	case AMDGPU::S_ANDN2_B64_term:
Matt Arsenault	e674075	2016-09-29 01:44:16 +0000	[diff] [blame]	1218	// This is only a terminator to get the correct spill code placement during
				1219	// register allocation.
				1220	MI.setDesc(get(AMDGPU::S_ANDN2_B64));
				1221	break;
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1222
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1223	case AMDGPU::V_MOV_B64_PSEUDO: {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1224	unsigned Dst = MI.getOperand(0).getReg();
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1225	unsigned DstLo = RI.getSubReg(Dst, AMDGPU::sub0);
				1226	unsigned DstHi = RI.getSubReg(Dst, AMDGPU::sub1);
				1227
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1228	const MachineOperand &SrcOp = MI.getOperand(1);
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1229	// FIXME: Will this work for 64-bit floating point immediates?
				1230	assert(!SrcOp.isFPImm());
				1231	if (SrcOp.isImm()) {
				1232	APInt Imm(64, SrcOp.getImm());
				1233	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), DstLo)
Matt Arsenault	80bc355	2016-06-13 15:53:52 +0000	[diff] [blame]	1234	.addImm(Imm.getLoBits(32).getZExtValue())
				1235	.addReg(Dst, RegState::Implicit \| RegState::Define);
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1236	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), DstHi)
Matt Arsenault	80bc355	2016-06-13 15:53:52 +0000	[diff] [blame]	1237	.addImm(Imm.getHiBits(32).getZExtValue())
				1238	.addReg(Dst, RegState::Implicit \| RegState::Define);
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1239	} else {
				1240	assert(SrcOp.isReg());
				1241	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), DstLo)
Matt Arsenault	80bc355	2016-06-13 15:53:52 +0000	[diff] [blame]	1242	.addReg(RI.getSubReg(SrcOp.getReg(), AMDGPU::sub0))
				1243	.addReg(Dst, RegState::Implicit \| RegState::Define);
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1244	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), DstHi)
Matt Arsenault	80bc355	2016-06-13 15:53:52 +0000	[diff] [blame]	1245	.addReg(RI.getSubReg(SrcOp.getReg(), AMDGPU::sub1))
				1246	.addReg(Dst, RegState::Implicit \| RegState::Define);
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1247	}
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1248	MI.eraseFromParent();
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1249	break;
				1250	}
Connor Abbott	66b9bd6	2017-08-04 18:36:54 +0000	[diff] [blame]	1251	case AMDGPU::V_SET_INACTIVE_B32: {
				1252	BuildMI(MBB, MI, DL, get(AMDGPU::S_NOT_B64), AMDGPU::EXEC)
				1253	.addReg(AMDGPU::EXEC);
				1254	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), MI.getOperand(0).getReg())
				1255	.add(MI.getOperand(2));
				1256	BuildMI(MBB, MI, DL, get(AMDGPU::S_NOT_B64), AMDGPU::EXEC)
				1257	.addReg(AMDGPU::EXEC);
				1258	MI.eraseFromParent();
				1259	break;
				1260	}
				1261	case AMDGPU::V_SET_INACTIVE_B64: {
				1262	BuildMI(MBB, MI, DL, get(AMDGPU::S_NOT_B64), AMDGPU::EXEC)
				1263	.addReg(AMDGPU::EXEC);
				1264	MachineInstr *Copy = BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B64_PSEUDO),
				1265	MI.getOperand(0).getReg())
				1266	.add(MI.getOperand(2));
				1267	expandPostRAPseudo(*Copy);
				1268	BuildMI(MBB, MI, DL, get(AMDGPU::S_NOT_B64), AMDGPU::EXEC)
				1269	.addReg(AMDGPU::EXEC);
				1270	MI.eraseFromParent();
				1271	break;
				1272	}
Nicolai Haehnle	a785209	2016-10-24 14:56:02 +0000	[diff] [blame]	1273	case AMDGPU::V_MOVRELD_B32_V1:
				1274	case AMDGPU::V_MOVRELD_B32_V2:
				1275	case AMDGPU::V_MOVRELD_B32_V4:
				1276	case AMDGPU::V_MOVRELD_B32_V8:
				1277	case AMDGPU::V_MOVRELD_B32_V16: {
				1278	const MCInstrDesc &MovRelDesc = get(AMDGPU::V_MOVRELD_B32_e32);
				1279	unsigned VecReg = MI.getOperand(0).getReg();
				1280	bool IsUndef = MI.getOperand(1).isUndef();
				1281	unsigned SubReg = AMDGPU::sub0 + MI.getOperand(3).getImm();
				1282	assert(VecReg == MI.getOperand(1).getReg());
				1283
				1284	MachineInstr *MovRel =
				1285	BuildMI(MBB, MI, DL, MovRelDesc)
				1286	.addReg(RI.getSubReg(VecReg, SubReg), RegState::Undef)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	1287	.add(MI.getOperand(2))
Nicolai Haehnle	a785209	2016-10-24 14:56:02 +0000	[diff] [blame]	1288	.addReg(VecReg, RegState::ImplicitDefine)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	1289	.addReg(VecReg,
				1290	RegState::Implicit \| (IsUndef ? RegState::Undef : 0));
Nicolai Haehnle	a785209	2016-10-24 14:56:02 +0000	[diff] [blame]	1291
				1292	const int ImpDefIdx =
				1293	MovRelDesc.getNumOperands() + MovRelDesc.getNumImplicitUses();
				1294	const int ImpUseIdx = ImpDefIdx + 1;
				1295	MovRel->tieOperands(ImpDefIdx, ImpUseIdx);
				1296
				1297	MI.eraseFromParent();
				1298	break;
				1299	}
Tom Stellard	bf3e6e5	2016-06-14 20:29:59 +0000	[diff] [blame]	1300	case AMDGPU::SI_PC_ADD_REL_OFFSET: {
Tom Stellard	c93fc11	2015-12-10 02:13:01 +0000	[diff] [blame]	1301	MachineFunction &MF = *MBB.getParent();
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1302	unsigned Reg = MI.getOperand(0).getReg();
Matt Arsenault	11587d9	2016-08-10 19:11:45 +0000	[diff] [blame]	1303	unsigned RegLo = RI.getSubReg(Reg, AMDGPU::sub0);
				1304	unsigned RegHi = RI.getSubReg(Reg, AMDGPU::sub1);
Tom Stellard	c93fc11	2015-12-10 02:13:01 +0000	[diff] [blame]	1305
				1306	// Create a bundle so these instructions won't be re-ordered by the
				1307	// post-RA scheduler.
				1308	MIBundleBuilder Bundler(MBB, MI);
				1309	Bundler.append(BuildMI(MF, DL, get(AMDGPU::S_GETPC_B64), Reg));
				1310
				1311	// Add 32-bit offset from this instruction to the start of the
				1312	// constant data.
				1313	Bundler.append(BuildMI(MF, DL, get(AMDGPU::S_ADD_U32), RegLo)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1314	.addReg(RegLo)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	1315	.add(MI.getOperand(1)));
Tom Stellard	c93fc11	2015-12-10 02:13:01 +0000	[diff] [blame]	1316
Konstantin Zhuravlyov	c96b5d7	2016-10-14 04:37:34 +0000	[diff] [blame]	1317	MachineInstrBuilder MIB = BuildMI(MF, DL, get(AMDGPU::S_ADDC_U32), RegHi)
				1318	.addReg(RegHi);
				1319	if (MI.getOperand(2).getTargetFlags() == SIInstrInfo::MO_NONE)
				1320	MIB.addImm(0);
				1321	else
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	1322	MIB.add(MI.getOperand(2));
Konstantin Zhuravlyov	c96b5d7	2016-10-14 04:37:34 +0000	[diff] [blame]	1323
				1324	Bundler.append(MIB);
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1325	finalizeBundle(MBB, Bundler.begin());
Tom Stellard	c93fc11	2015-12-10 02:13:01 +0000	[diff] [blame]	1326
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1327	MI.eraseFromParent();
Tom Stellard	c93fc11	2015-12-10 02:13:01 +0000	[diff] [blame]	1328	break;
				1329	}
Neil Henning	0a30f33	2019-04-01 15:19:52 +0000	[diff] [blame]	1330	case AMDGPU::ENTER_WWM: {
				1331	// This only gets its own opcode so that SIPreAllocateWWMRegs can tell when
				1332	// WWM is entered.
				1333	MI.setDesc(get(AMDGPU::S_OR_SAVEEXEC_B64));
				1334	break;
				1335	}
Connor Abbott	92638ab	2017-08-04 18:36:52 +0000	[diff] [blame]	1336	case AMDGPU::EXIT_WWM: {
Neil Henning	0a30f33	2019-04-01 15:19:52 +0000	[diff] [blame]	1337	// This only gets its own opcode so that SIPreAllocateWWMRegs can tell when
				1338	// WWM is exited.
Connor Abbott	92638ab	2017-08-04 18:36:52 +0000	[diff] [blame]	1339	MI.setDesc(get(AMDGPU::S_MOV_B64));
				1340	break;
				1341	}
Stanislav Mekhanoshin	739174c	2018-05-31 20:13:51 +0000	[diff] [blame]	1342	case TargetOpcode::BUNDLE: {
				1343	if (!MI.mayLoad())
				1344	return false;
				1345
				1346	// If it is a load it must be a memory clause
				1347	for (MachineBasicBlock::instr_iterator I = MI.getIterator();
				1348	I->isBundledWithSucc(); ++I) {
				1349	I->unbundleFromSucc();
				1350	for (MachineOperand &MO : I->operands())
				1351	if (MO.isReg())
				1352	MO.setIsInternalRead(false);
				1353	}
				1354
				1355	MI.eraseFromParent();
				1356	break;
				1357	}
Tom Stellard	eba6107	2014-05-02 15:41:42 +0000	[diff] [blame]	1358	}
				1359	return true;
				1360	}
				1361
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1362	bool SIInstrInfo::swapSourceModifiers(MachineInstr &MI,
				1363	MachineOperand &Src0,
				1364	unsigned Src0OpName,
				1365	MachineOperand &Src1,
				1366	unsigned Src1OpName) const {
				1367	MachineOperand *Src0Mods = getNamedOperand(MI, Src0OpName);
				1368	if (!Src0Mods)
				1369	return false;
				1370
				1371	MachineOperand *Src1Mods = getNamedOperand(MI, Src1OpName);
				1372	assert(Src1Mods &&
				1373	"All commutable instructions have both src0 and src1 modifiers");
				1374
				1375	int Src0ModsVal = Src0Mods->getImm();
				1376	int Src1ModsVal = Src1Mods->getImm();
				1377
				1378	Src1Mods->setImm(Src0ModsVal);
				1379	Src0Mods->setImm(Src1ModsVal);
				1380	return true;
				1381	}
				1382
				1383	static MachineInstr *swapRegAndNonRegOperand(MachineInstr &MI,
				1384	MachineOperand &RegOp,
Matt Arsenault	25dba30	2016-09-13 19:03:12 +0000	[diff] [blame]	1385	MachineOperand &NonRegOp) {
				1386	unsigned Reg = RegOp.getReg();
				1387	unsigned SubReg = RegOp.getSubReg();
				1388	bool IsKill = RegOp.isKill();
				1389	bool IsDead = RegOp.isDead();
				1390	bool IsUndef = RegOp.isUndef();
				1391	bool IsDebug = RegOp.isDebug();
				1392
				1393	if (NonRegOp.isImm())
				1394	RegOp.ChangeToImmediate(NonRegOp.getImm());
				1395	else if (NonRegOp.isFI())
				1396	RegOp.ChangeToFrameIndex(NonRegOp.getIndex());
				1397	else
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1398	return nullptr;
				1399
Matt Arsenault	25dba30	2016-09-13 19:03:12 +0000	[diff] [blame]	1400	NonRegOp.ChangeToRegister(Reg, false, false, IsKill, IsDead, IsUndef, IsDebug);
				1401	NonRegOp.setSubReg(SubReg);
				1402
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1403	return &MI;
				1404	}
				1405
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1406	MachineInstr *SIInstrInfo::commuteInstructionImpl(MachineInstr &MI, bool NewMI,
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1407	unsigned Src0Idx,
				1408	unsigned Src1Idx) const {
				1409	assert(!NewMI && "this should never be used");
				1410
				1411	unsigned Opc = MI.getOpcode();
				1412	int CommutedOpcode = commuteOpcode(Opc);
Marek Olsak	cfbdba2	2015-06-26 20:29:10 +0000	[diff] [blame]	1413	if (CommutedOpcode == -1)
				1414	return nullptr;
				1415
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1416	assert(AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0) ==
				1417	static_cast<int>(Src0Idx) &&
				1418	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src1) ==
				1419	static_cast<int>(Src1Idx) &&
				1420	"inconsistency with findCommutedOpIndices");
				1421
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1422	MachineOperand &Src0 = MI.getOperand(Src0Idx);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1423	MachineOperand &Src1 = MI.getOperand(Src1Idx);
Matt Arsenault	aa5ccfb	2014-10-17 18:00:37 +0000	[diff] [blame]	1424
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1425	MachineInstr *CommutedMI = nullptr;
				1426	if (Src0.isReg() && Src1.isReg()) {
				1427	if (isOperandLegal(MI, Src1Idx, &Src0)) {
				1428	// Be sure to copy the source modifiers to the right place.
				1429	CommutedMI
				1430	= TargetInstrInfo::commuteInstructionImpl(MI, NewMI, Src0Idx, Src1Idx);
Matt Arsenault	d282ada	2014-10-17 18:00:48 +0000	[diff] [blame]	1431	}
				1432
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1433	} else if (Src0.isReg() && !Src1.isReg()) {
				1434	// src0 should always be able to support any operand type, so no need to
				1435	// check operand legality.
				1436	CommutedMI = swapRegAndNonRegOperand(MI, Src0, Src1);
				1437	} else if (!Src0.isReg() && Src1.isReg()) {
				1438	if (isOperandLegal(MI, Src1Idx, &Src0))
				1439	CommutedMI = swapRegAndNonRegOperand(MI, Src1, Src0);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	1440	} else {
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1441	// FIXME: Found two non registers to commute. This does happen.
				1442	return nullptr;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	1443	}
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1444
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1445	if (CommutedMI) {
				1446	swapSourceModifiers(MI, Src0, AMDGPU::OpName::src0_modifiers,
				1447	Src1, AMDGPU::OpName::src1_modifiers);
				1448
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1449	CommutedMI->setDesc(get(CommutedOpcode));
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1450	}
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1451
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1452	return CommutedMI;
Christian Konig	76edd4f	2013-02-26 17:52:29 +0000	[diff] [blame]	1453	}
				1454
Matt Arsenault	92befe7	2014-09-26 17:54:54 +0000	[diff] [blame]	1455	// This needs to be implemented because the source modifiers may be inserted
				1456	// between the true commutable operands, and the base
				1457	// TargetInstrInfo::commuteInstruction uses it.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1458	bool SIInstrInfo::findCommutedOpIndices(MachineInstr &MI, unsigned &SrcOpIdx0,
Andrew Kaylor	16c4da0	2015-09-28 20:33:22 +0000	[diff] [blame]	1459	unsigned &SrcOpIdx1) const {
Alexander Timofeev	db7ee76	2018-09-11 11:56:50 +0000	[diff] [blame]	1460	return findCommutedOpIndices(MI.getDesc(), SrcOpIdx0, SrcOpIdx1);
				1461	}
				1462
				1463	bool SIInstrInfo::findCommutedOpIndices(MCInstrDesc Desc, unsigned &SrcOpIdx0,
				1464	unsigned &SrcOpIdx1) const {
				1465	if (!Desc.isCommutable())
Matt Arsenault	92befe7	2014-09-26 17:54:54 +0000	[diff] [blame]	1466	return false;
				1467
Alexander Timofeev	db7ee76	2018-09-11 11:56:50 +0000	[diff] [blame]	1468	unsigned Opc = Desc.getOpcode();
Matt Arsenault	92befe7	2014-09-26 17:54:54 +0000	[diff] [blame]	1469	int Src0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0);
				1470	if (Src0Idx == -1)
				1471	return false;
				1472
Matt Arsenault	92befe7	2014-09-26 17:54:54 +0000	[diff] [blame]	1473	int Src1Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src1);
				1474	if (Src1Idx == -1)
				1475	return false;
				1476
Andrew Kaylor	16c4da0	2015-09-28 20:33:22 +0000	[diff] [blame]	1477	return fixCommutedOpIndices(SrcOpIdx0, SrcOpIdx1, Src0Idx, Src1Idx);
Matt Arsenault	92befe7	2014-09-26 17:54:54 +0000	[diff] [blame]	1478	}
				1479
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1480	bool SIInstrInfo::isBranchOffsetInRange(unsigned BranchOp,
				1481	int64_t BrOffset) const {
				1482	// BranchRelaxation should never have to check s_setpc_b64 because its dest
				1483	// block is unanalyzable.
				1484	assert(BranchOp != AMDGPU::S_SETPC_B64);
				1485
				1486	// Convert to dwords.
				1487	BrOffset /= 4;
				1488
				1489	// The branch instructions do PC += signext(SIMM16 * 4) + 4, so the offset is
				1490	// from the next instruction.
				1491	BrOffset -= 1;
				1492
				1493	return isIntN(BranchOffsetBits, BrOffset);
				1494	}
				1495
				1496	MachineBasicBlock *SIInstrInfo::getBranchDestBlock(
				1497	const MachineInstr &MI) const {
				1498	if (MI.getOpcode() == AMDGPU::S_SETPC_B64) {
				1499	// This would be a difficult analysis to perform, but can always be legal so
				1500	// there's no need to analyze it.
				1501	return nullptr;
				1502	}
				1503
				1504	return MI.getOperand(0).getMBB();
				1505	}
				1506
				1507	unsigned SIInstrInfo::insertIndirectBranch(MachineBasicBlock &MBB,
				1508	MachineBasicBlock &DestBB,
				1509	const DebugLoc &DL,
				1510	int64_t BrOffset,
				1511	RegScavenger *RS) const {
				1512	assert(RS && "RegScavenger required for long branching");
				1513	assert(MBB.empty() &&
				1514	"new block should be inserted for expanding unconditional branch");
				1515	assert(MBB.pred_size() == 1);
				1516
				1517	MachineFunction *MF = MBB.getParent();
				1518	MachineRegisterInfo &MRI = MF->getRegInfo();
				1519
				1520	// FIXME: Virtual register workaround for RegScavenger not working with empty
				1521	// blocks.
				1522	unsigned PCReg = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				1523
				1524	auto I = MBB.end();
				1525
				1526	// We need to compute the offset relative to the instruction immediately after
				1527	// s_getpc_b64. Insert pc arithmetic code before last terminator.
				1528	MachineInstr *GetPC = BuildMI(MBB, I, DL, get(AMDGPU::S_GETPC_B64), PCReg);
				1529
				1530	// TODO: Handle > 32-bit block address.
				1531	if (BrOffset >= 0) {
				1532	BuildMI(MBB, I, DL, get(AMDGPU::S_ADD_U32))
				1533	.addReg(PCReg, RegState::Define, AMDGPU::sub0)
				1534	.addReg(PCReg, 0, AMDGPU::sub0)
Matt Arsenault	0f8a764	2019-06-05 20:32:25 +0000	[diff] [blame]	1535	.addMBB(&DestBB, MO_LONG_BRANCH_FORWARD);
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1536	BuildMI(MBB, I, DL, get(AMDGPU::S_ADDC_U32))
				1537	.addReg(PCReg, RegState::Define, AMDGPU::sub1)
				1538	.addReg(PCReg, 0, AMDGPU::sub1)
				1539	.addImm(0);
				1540	} else {
				1541	// Backwards branch.
				1542	BuildMI(MBB, I, DL, get(AMDGPU::S_SUB_U32))
				1543	.addReg(PCReg, RegState::Define, AMDGPU::sub0)
				1544	.addReg(PCReg, 0, AMDGPU::sub0)
Matt Arsenault	0f8a764	2019-06-05 20:32:25 +0000	[diff] [blame]	1545	.addMBB(&DestBB, MO_LONG_BRANCH_BACKWARD);
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1546	BuildMI(MBB, I, DL, get(AMDGPU::S_SUBB_U32))
				1547	.addReg(PCReg, RegState::Define, AMDGPU::sub1)
				1548	.addReg(PCReg, 0, AMDGPU::sub1)
				1549	.addImm(0);
				1550	}
				1551
				1552	// Insert the indirect branch after the other terminator.
				1553	BuildMI(&MBB, DL, get(AMDGPU::S_SETPC_B64))
				1554	.addReg(PCReg);
				1555
				1556	// FIXME: If spilling is necessary, this will fail because this scavenger has
				1557	// no emergency stack slots. It is non-trivial to spill in this situation,
				1558	// because the restore code needs to be specially placed after the
				1559	// jump. BranchRelaxation then needs to be made aware of the newly inserted
				1560	// block.
				1561	//
				1562	// If a spill is needed for the pc register pair, we need to insert a spill
				1563	// restore block right before the destination block, and insert a short branch
				1564	// into the old destination block's fallthrough predecessor.
				1565	// e.g.:
				1566	//
				1567	// s_cbranch_scc0 skip_long_branch:
				1568	//
				1569	// long_branch_bb:
				1570	// spill s[8:9]
				1571	// s_getpc_b64 s[8:9]
				1572	// s_add_u32 s8, s8, restore_bb
				1573	// s_addc_u32 s9, s9, 0
				1574	// s_setpc_b64 s[8:9]
				1575	//
				1576	// skip_long_branch:
				1577	// foo;
				1578	//
				1579	// .....
				1580	//
				1581	// dest_bb_fallthrough_predecessor:
				1582	// bar;
				1583	// s_branch dest_bb
				1584	//
				1585	// restore_bb:
				1586	// restore s[8:9]
				1587	// fallthrough dest_bb
				1588	///
				1589	// dest_bb:
				1590	// buzz;
				1591
				1592	RS->enterBasicBlockEnd(MBB);
Matt Arsenault	b0b741e	2018-10-30 01:33:14 +0000	[diff] [blame]	1593	unsigned Scav = RS->scavengeRegisterBackwards(
				1594	AMDGPU::SReg_64RegClass,
				1595	MachineBasicBlock::iterator(GetPC), false, 0);
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1596	MRI.replaceRegWith(PCReg, Scav);
				1597	MRI.clearVirtRegs();
				1598	RS->setRegUsed(Scav);
				1599
				1600	return 4 + 8 + 4 + 4;
				1601	}
				1602
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1603	unsigned SIInstrInfo::getBranchOpcode(SIInstrInfo::BranchPredicate Cond) {
				1604	switch (Cond) {
				1605	case SIInstrInfo::SCC_TRUE:
				1606	return AMDGPU::S_CBRANCH_SCC1;
				1607	case SIInstrInfo::SCC_FALSE:
				1608	return AMDGPU::S_CBRANCH_SCC0;
Matt Arsenault	4945905	2016-05-21 00:29:40 +0000	[diff] [blame]	1609	case SIInstrInfo::VCCNZ:
				1610	return AMDGPU::S_CBRANCH_VCCNZ;
				1611	case SIInstrInfo::VCCZ:
				1612	return AMDGPU::S_CBRANCH_VCCZ;
				1613	case SIInstrInfo::EXECNZ:
				1614	return AMDGPU::S_CBRANCH_EXECNZ;
				1615	case SIInstrInfo::EXECZ:
				1616	return AMDGPU::S_CBRANCH_EXECZ;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1617	default:
				1618	llvm_unreachable("invalid branch predicate");
				1619	}
				1620	}
				1621
				1622	SIInstrInfo::BranchPredicate SIInstrInfo::getBranchPredicate(unsigned Opcode) {
				1623	switch (Opcode) {
				1624	case AMDGPU::S_CBRANCH_SCC0:
				1625	return SCC_FALSE;
				1626	case AMDGPU::S_CBRANCH_SCC1:
				1627	return SCC_TRUE;
Matt Arsenault	4945905	2016-05-21 00:29:40 +0000	[diff] [blame]	1628	case AMDGPU::S_CBRANCH_VCCNZ:
				1629	return VCCNZ;
				1630	case AMDGPU::S_CBRANCH_VCCZ:
				1631	return VCCZ;
				1632	case AMDGPU::S_CBRANCH_EXECNZ:
				1633	return EXECNZ;
				1634	case AMDGPU::S_CBRANCH_EXECZ:
				1635	return EXECZ;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1636	default:
				1637	return INVALID_BR;
				1638	}
				1639	}
				1640
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1641	bool SIInstrInfo::analyzeBranchImpl(MachineBasicBlock &MBB,
				1642	MachineBasicBlock::iterator I,
				1643	MachineBasicBlock *&TBB,
				1644	MachineBasicBlock *&FBB,
				1645	SmallVectorImpl<MachineOperand> &Cond,
				1646	bool AllowModify) const {
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1647	if (I->getOpcode() == AMDGPU::S_BRANCH) {
				1648	// Unconditional Branch
				1649	TBB = I->getOperand(0).getMBB();
				1650	return false;
				1651	}
				1652
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1653	MachineBasicBlock *CondBB = nullptr;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1654
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1655	if (I->getOpcode() == AMDGPU::SI_NON_UNIFORM_BRCOND_PSEUDO) {
				1656	CondBB = I->getOperand(1).getMBB();
				1657	Cond.push_back(I->getOperand(0));
				1658	} else {
				1659	BranchPredicate Pred = getBranchPredicate(I->getOpcode());
				1660	if (Pred == INVALID_BR)
				1661	return true;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1662
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1663	CondBB = I->getOperand(0).getMBB();
				1664	Cond.push_back(MachineOperand::CreateImm(Pred));
				1665	Cond.push_back(I->getOperand(1)); // Save the branch register.
				1666	}
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1667	++I;
				1668
				1669	if (I == MBB.end()) {
				1670	// Conditional branch followed by fall-through.
				1671	TBB = CondBB;
				1672	return false;
				1673	}
				1674
				1675	if (I->getOpcode() == AMDGPU::S_BRANCH) {
				1676	TBB = CondBB;
				1677	FBB = I->getOperand(0).getMBB();
				1678	return false;
				1679	}
				1680
				1681	return true;
				1682	}
				1683
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1684	bool SIInstrInfo::analyzeBranch(MachineBasicBlock &MBB, MachineBasicBlock *&TBB,
				1685	MachineBasicBlock *&FBB,
				1686	SmallVectorImpl<MachineOperand> &Cond,
				1687	bool AllowModify) const {
				1688	MachineBasicBlock::iterator I = MBB.getFirstTerminator();
Matt Arsenault	eabb8dd	2018-11-16 05:03:02 +0000	[diff] [blame]	1689	auto E = MBB.end();
				1690	if (I == E)
				1691	return false;
				1692
				1693	// Skip over the instructions that are artificially terminators for special
				1694	// exec management.
				1695	while (I != E && !I->isBranch() && !I->isReturn() &&
				1696	I->getOpcode() != AMDGPU::SI_MASK_BRANCH) {
				1697	switch (I->getOpcode()) {
				1698	case AMDGPU::SI_MASK_BRANCH:
				1699	case AMDGPU::S_MOV_B64_term:
				1700	case AMDGPU::S_XOR_B64_term:
				1701	case AMDGPU::S_ANDN2_B64_term:
				1702	break;
				1703	case AMDGPU::SI_IF:
				1704	case AMDGPU::SI_ELSE:
				1705	case AMDGPU::SI_KILL_I1_TERMINATOR:
				1706	case AMDGPU::SI_KILL_F32_COND_IMM_TERMINATOR:
				1707	// FIXME: It's messy that these need to be considered here at all.
				1708	return true;
				1709	default:
				1710	llvm_unreachable("unexpected non-branch terminator inst");
				1711	}
				1712
				1713	++I;
				1714	}
				1715
				1716	if (I == E)
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1717	return false;
				1718
				1719	if (I->getOpcode() != AMDGPU::SI_MASK_BRANCH)
				1720	return analyzeBranchImpl(MBB, I, TBB, FBB, Cond, AllowModify);
				1721
				1722	++I;
				1723
				1724	// TODO: Should be able to treat as fallthrough?
				1725	if (I == MBB.end())
				1726	return true;
				1727
				1728	if (analyzeBranchImpl(MBB, I, TBB, FBB, Cond, AllowModify))
				1729	return true;
				1730
				1731	MachineBasicBlock *MaskBrDest = I->getOperand(0).getMBB();
				1732
				1733	// Specifically handle the case where the conditional branch is to the same
				1734	// destination as the mask branch. e.g.
				1735	//
				1736	// si_mask_branch BB8
				1737	// s_cbranch_execz BB8
				1738	// s_cbranch BB9
				1739	//
				1740	// This is required to understand divergent loops which may need the branches
				1741	// to be relaxed.
				1742	if (TBB != MaskBrDest \|\| Cond.empty())
				1743	return true;
				1744
				1745	auto Pred = Cond[0].getImm();
				1746	return (Pred != EXECZ && Pred != EXECNZ);
				1747	}
				1748
Matt Arsenault	1b9fc8e	2016-09-14 20:43:16 +0000	[diff] [blame]	1749	unsigned SIInstrInfo::removeBranch(MachineBasicBlock &MBB,
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1750	int *BytesRemoved) const {
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1751	MachineBasicBlock::iterator I = MBB.getFirstTerminator();
				1752
				1753	unsigned Count = 0;
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1754	unsigned RemovedSize = 0;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1755	while (I != MBB.end()) {
				1756	MachineBasicBlock::iterator Next = std::next(I);
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1757	if (I->getOpcode() == AMDGPU::SI_MASK_BRANCH) {
				1758	I = Next;
				1759	continue;
				1760	}
				1761
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1762	RemovedSize += getInstSizeInBytes(*I);
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1763	I->eraseFromParent();
				1764	++Count;
				1765	I = Next;
				1766	}
				1767
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1768	if (BytesRemoved)
				1769	*BytesRemoved = RemovedSize;
				1770
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1771	return Count;
				1772	}
				1773
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1774	// Copy the flags onto the implicit condition register operand.
				1775	static void preserveCondRegFlags(MachineOperand &CondReg,
				1776	const MachineOperand &OrigCond) {
				1777	CondReg.setIsUndef(OrigCond.isUndef());
				1778	CondReg.setIsKill(OrigCond.isKill());
				1779	}
				1780
Matt Arsenault	e8e0f5c	2016-09-14 17:24:15 +0000	[diff] [blame]	1781	unsigned SIInstrInfo::insertBranch(MachineBasicBlock &MBB,
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1782	MachineBasicBlock *TBB,
				1783	MachineBasicBlock *FBB,
				1784	ArrayRef<MachineOperand> Cond,
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1785	const DebugLoc &DL,
				1786	int *BytesAdded) const {
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1787	if (!FBB && Cond.empty()) {
				1788	BuildMI(&MBB, DL, get(AMDGPU::S_BRANCH))
				1789	.addMBB(TBB);
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1790	if (BytesAdded)
				1791	*BytesAdded = 4;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1792	return 1;
				1793	}
				1794
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1795	if(Cond.size() == 1 && Cond[0].isReg()) {
				1796	BuildMI(&MBB, DL, get(AMDGPU::SI_NON_UNIFORM_BRCOND_PSEUDO))
				1797	.add(Cond[0])
				1798	.addMBB(TBB);
				1799	return 1;
				1800	}
				1801
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1802	assert(TBB && Cond[0].isImm());
				1803
				1804	unsigned Opcode
				1805	= getBranchOpcode(static_cast<BranchPredicate>(Cond[0].getImm()));
				1806
				1807	if (!FBB) {
Matt Arsenault	52f14ec	2016-11-07 19:09:27 +0000	[diff] [blame]	1808	Cond[1].isUndef();
				1809	MachineInstr *CondBr =
				1810	BuildMI(&MBB, DL, get(Opcode))
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1811	.addMBB(TBB);
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1812
Matt Arsenault	52f14ec	2016-11-07 19:09:27 +0000	[diff] [blame]	1813	// Copy the flags onto the implicit condition register operand.
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1814	preserveCondRegFlags(CondBr->getOperand(1), Cond[1]);
Matt Arsenault	52f14ec	2016-11-07 19:09:27 +0000	[diff] [blame]	1815
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1816	if (BytesAdded)
				1817	*BytesAdded = 4;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1818	return 1;
				1819	}
				1820
				1821	assert(TBB && FBB);
				1822
Matt Arsenault	52f14ec	2016-11-07 19:09:27 +0000	[diff] [blame]	1823	MachineInstr *CondBr =
				1824	BuildMI(&MBB, DL, get(Opcode))
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1825	.addMBB(TBB);
				1826	BuildMI(&MBB, DL, get(AMDGPU::S_BRANCH))
				1827	.addMBB(FBB);
				1828
Matt Arsenault	52f14ec	2016-11-07 19:09:27 +0000	[diff] [blame]	1829	MachineOperand &CondReg = CondBr->getOperand(1);
				1830	CondReg.setIsUndef(Cond[1].isUndef());
				1831	CondReg.setIsKill(Cond[1].isKill());
				1832
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1833	if (BytesAdded)
				1834	*BytesAdded = 8;
				1835
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1836	return 2;
				1837	}
				1838
Matt Arsenault	1b9fc8e	2016-09-14 20:43:16 +0000	[diff] [blame]	1839	bool SIInstrInfo::reverseBranchCondition(
Matt Arsenault	72fcd5f	2016-05-21 00:29:34 +0000	[diff] [blame]	1840	SmallVectorImpl<MachineOperand> &Cond) const {
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1841	if (Cond.size() != 2) {
				1842	return true;
				1843	}
				1844
				1845	if (Cond[0].isImm()) {
				1846	Cond[0].setImm(-Cond[0].getImm());
				1847	return false;
				1848	}
				1849
				1850	return true;
Matt Arsenault	72fcd5f	2016-05-21 00:29:34 +0000	[diff] [blame]	1851	}
				1852
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1853	bool SIInstrInfo::canInsertSelect(const MachineBasicBlock &MBB,
				1854	ArrayRef<MachineOperand> Cond,
				1855	unsigned TrueReg, unsigned FalseReg,
				1856	int &CondCycles,
				1857	int &TrueCycles, int &FalseCycles) const {
				1858	switch (Cond[0].getImm()) {
				1859	case VCCNZ:
				1860	case VCCZ: {
				1861	const MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				1862	const TargetRegisterClass *RC = MRI.getRegClass(TrueReg);
				1863	assert(MRI.getRegClass(FalseReg) == RC);
				1864
				1865	int NumInsts = AMDGPU::getRegBitWidth(RC->getID()) / 32;
				1866	CondCycles = TrueCycles = FalseCycles = NumInsts; // ???
				1867
				1868	// Limit to equal cost for branch vs. N v_cndmask_b32s.
				1869	return !RI.isSGPRClass(RC) && NumInsts <= 6;
				1870	}
				1871	case SCC_TRUE:
				1872	case SCC_FALSE: {
				1873	// FIXME: We could insert for VGPRs if we could replace the original compare
				1874	// with a vector one.
				1875	const MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				1876	const TargetRegisterClass *RC = MRI.getRegClass(TrueReg);
				1877	assert(MRI.getRegClass(FalseReg) == RC);
				1878
				1879	int NumInsts = AMDGPU::getRegBitWidth(RC->getID()) / 32;
				1880
				1881	// Multiples of 8 can do s_cselect_b64
				1882	if (NumInsts % 2 == 0)
				1883	NumInsts /= 2;
				1884
				1885	CondCycles = TrueCycles = FalseCycles = NumInsts; // ???
				1886	return RI.isSGPRClass(RC);
				1887	}
				1888	default:
				1889	return false;
				1890	}
				1891	}
				1892
				1893	void SIInstrInfo::insertSelect(MachineBasicBlock &MBB,
				1894	MachineBasicBlock::iterator I, const DebugLoc &DL,
				1895	unsigned DstReg, ArrayRef<MachineOperand> Cond,
				1896	unsigned TrueReg, unsigned FalseReg) const {
				1897	BranchPredicate Pred = static_cast<BranchPredicate>(Cond[0].getImm());
				1898	if (Pred == VCCZ \|\| Pred == SCC_FALSE) {
				1899	Pred = static_cast<BranchPredicate>(-Pred);
				1900	std::swap(TrueReg, FalseReg);
				1901	}
				1902
				1903	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				1904	const TargetRegisterClass *DstRC = MRI.getRegClass(DstReg);
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1905	unsigned DstSize = RI.getRegSizeInBits(*DstRC);
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1906
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1907	if (DstSize == 32) {
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1908	unsigned SelOp = Pred == SCC_TRUE ?
				1909	AMDGPU::S_CSELECT_B32 : AMDGPU::V_CNDMASK_B32_e32;
				1910
				1911	// Instruction's operands are backwards from what is expected.
				1912	MachineInstr *Select =
				1913	BuildMI(MBB, I, DL, get(SelOp), DstReg)
				1914	.addReg(FalseReg)
				1915	.addReg(TrueReg);
				1916
				1917	preserveCondRegFlags(Select->getOperand(3), Cond[1]);
				1918	return;
				1919	}
				1920
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1921	if (DstSize == 64 && Pred == SCC_TRUE) {
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1922	MachineInstr *Select =
				1923	BuildMI(MBB, I, DL, get(AMDGPU::S_CSELECT_B64), DstReg)
				1924	.addReg(FalseReg)
				1925	.addReg(TrueReg);
				1926
				1927	preserveCondRegFlags(Select->getOperand(3), Cond[1]);
				1928	return;
				1929	}
				1930
				1931	static const int16_t Sub0_15[] = {
				1932	AMDGPU::sub0, AMDGPU::sub1, AMDGPU::sub2, AMDGPU::sub3,
				1933	AMDGPU::sub4, AMDGPU::sub5, AMDGPU::sub6, AMDGPU::sub7,
				1934	AMDGPU::sub8, AMDGPU::sub9, AMDGPU::sub10, AMDGPU::sub11,
				1935	AMDGPU::sub12, AMDGPU::sub13, AMDGPU::sub14, AMDGPU::sub15,
				1936	};
				1937
				1938	static const int16_t Sub0_15_64[] = {
				1939	AMDGPU::sub0_sub1, AMDGPU::sub2_sub3,
				1940	AMDGPU::sub4_sub5, AMDGPU::sub6_sub7,
				1941	AMDGPU::sub8_sub9, AMDGPU::sub10_sub11,
				1942	AMDGPU::sub12_sub13, AMDGPU::sub14_sub15,
				1943	};
				1944
				1945	unsigned SelOp = AMDGPU::V_CNDMASK_B32_e32;
				1946	const TargetRegisterClass *EltRC = &AMDGPU::VGPR_32RegClass;
				1947	const int16_t *SubIndices = Sub0_15;
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1948	int NElts = DstSize / 32;
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1949
Tim Renouf	361b5b2	2019-03-21 12:01:21 +0000	[diff] [blame]	1950	// 64-bit select is only available for SALU.
				1951	// TODO: Split 96-bit into 64-bit and 32-bit, not 3x 32-bit.
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1952	if (Pred == SCC_TRUE) {
Tim Renouf	361b5b2	2019-03-21 12:01:21 +0000	[diff] [blame]	1953	if (NElts % 2) {
				1954	SelOp = AMDGPU::S_CSELECT_B32;
				1955	EltRC = &AMDGPU::SGPR_32RegClass;
				1956	} else {
				1957	SelOp = AMDGPU::S_CSELECT_B64;
				1958	EltRC = &AMDGPU::SGPR_64RegClass;
				1959	SubIndices = Sub0_15_64;
				1960	NElts /= 2;
				1961	}
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1962	}
				1963
				1964	MachineInstrBuilder MIB = BuildMI(
				1965	MBB, I, DL, get(AMDGPU::REG_SEQUENCE), DstReg);
				1966
				1967	I = MIB->getIterator();
				1968
				1969	SmallVector<unsigned, 8> Regs;
				1970	for (int Idx = 0; Idx != NElts; ++Idx) {
				1971	unsigned DstElt = MRI.createVirtualRegister(EltRC);
				1972	Regs.push_back(DstElt);
				1973
				1974	unsigned SubIdx = SubIndices[Idx];
				1975
				1976	MachineInstr *Select =
				1977	BuildMI(MBB, I, DL, get(SelOp), DstElt)
				1978	.addReg(FalseReg, 0, SubIdx)
				1979	.addReg(TrueReg, 0, SubIdx);
				1980	preserveCondRegFlags(Select->getOperand(3), Cond[1]);
				1981
				1982	MIB.addReg(DstElt)
				1983	.addImm(SubIdx);
				1984	}
				1985	}
				1986
Sam Kolton	27e0f8b	2017-03-31 11:42:43 +0000	[diff] [blame]	1987	bool SIInstrInfo::isFoldableCopy(const MachineInstr &MI) const {
				1988	switch (MI.getOpcode()) {
				1989	case AMDGPU::V_MOV_B32_e32:
				1990	case AMDGPU::V_MOV_B32_e64:
				1991	case AMDGPU::V_MOV_B64_PSEUDO: {
				1992	// If there are additional implicit register operands, this may be used for
				1993	// register indexing so the source register operand isn't simply copied.
				1994	unsigned NumOps = MI.getDesc().getNumOperands() +
				1995	MI.getDesc().getNumImplicitUses();
				1996
				1997	return MI.getNumOperands() == NumOps;
				1998	}
				1999	case AMDGPU::S_MOV_B32:
				2000	case AMDGPU::S_MOV_B64:
				2001	case AMDGPU::COPY:
				2002	return true;
				2003	default:
				2004	return false;
				2005	}
				2006	}
				2007
Jan Sjodin	312ccf7	2017-09-14 20:53:51 +0000	[diff] [blame]	2008	unsigned SIInstrInfo::getAddressSpaceForPseudoSourceKind(
Marcello Maggioni	5ca4128	2018-08-20 19:23:45 +0000	[diff] [blame]	2009	unsigned Kind) const {
Jan Sjodin	312ccf7	2017-09-14 20:53:51 +0000	[diff] [blame]	2010	switch(Kind) {
				2011	case PseudoSourceValue::Stack:
				2012	case PseudoSourceValue::FixedStack:
Matt Arsenault	0da6350	2018-08-31 05:49:54 +0000	[diff] [blame]	2013	return AMDGPUAS::PRIVATE_ADDRESS;
Jan Sjodin	312ccf7	2017-09-14 20:53:51 +0000	[diff] [blame]	2014	case PseudoSourceValue::ConstantPool:
				2015	case PseudoSourceValue::GOT:
				2016	case PseudoSourceValue::JumpTable:
				2017	case PseudoSourceValue::GlobalValueCallEntry:
				2018	case PseudoSourceValue::ExternalSymbolCallEntry:
				2019	case PseudoSourceValue::TargetCustom:
Matt Arsenault	0da6350	2018-08-31 05:49:54 +0000	[diff] [blame]	2020	return AMDGPUAS::CONSTANT_ADDRESS;
Jan Sjodin	312ccf7	2017-09-14 20:53:51 +0000	[diff] [blame]	2021	}
Matt Arsenault	0da6350	2018-08-31 05:49:54 +0000	[diff] [blame]	2022	return AMDGPUAS::FLAT_ADDRESS;
Jan Sjodin	312ccf7	2017-09-14 20:53:51 +0000	[diff] [blame]	2023	}
				2024
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2025	static void removeModOperands(MachineInstr &MI) {
				2026	unsigned Opc = MI.getOpcode();
				2027	int Src0ModIdx = AMDGPU::getNamedOperandIdx(Opc,
				2028	AMDGPU::OpName::src0_modifiers);
				2029	int Src1ModIdx = AMDGPU::getNamedOperandIdx(Opc,
				2030	AMDGPU::OpName::src1_modifiers);
				2031	int Src2ModIdx = AMDGPU::getNamedOperandIdx(Opc,
				2032	AMDGPU::OpName::src2_modifiers);
				2033
				2034	MI.RemoveOperand(Src2ModIdx);
				2035	MI.RemoveOperand(Src1ModIdx);
				2036	MI.RemoveOperand(Src0ModIdx);
				2037	}
				2038
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2039	bool SIInstrInfo::FoldImmediate(MachineInstr &UseMI, MachineInstr &DefMI,
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2040	unsigned Reg, MachineRegisterInfo *MRI) const {
				2041	if (!MRI->hasOneNonDBGUse(Reg))
				2042	return false;
				2043
Nicolai Haehnle	39980da	2017-11-28 08:41:50 +0000	[diff] [blame]	2044	switch (DefMI.getOpcode()) {
				2045	default:
				2046	return false;
				2047	case AMDGPU::S_MOV_B64:
				2048	// TODO: We could fold 64-bit immediates, but this get compilicated
				2049	// when there are sub-registers.
				2050	return false;
				2051
				2052	case AMDGPU::V_MOV_B32_e32:
				2053	case AMDGPU::S_MOV_B32:
				2054	break;
				2055	}
				2056
				2057	const MachineOperand *ImmOp = getNamedOperand(DefMI, AMDGPU::OpName::src0);
				2058	assert(ImmOp);
				2059	// FIXME: We could handle FrameIndex values here.
				2060	if (!ImmOp->isImm())
				2061	return false;
				2062
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2063	unsigned Opc = UseMI.getOpcode();
Tom Stellard	2add8a1	2016-09-06 20:00:26 +0000	[diff] [blame]	2064	if (Opc == AMDGPU::COPY) {
				2065	bool isVGPRCopy = RI.isVGPR(*MRI, UseMI.getOperand(0).getReg());
Tom Stellard	2add8a1	2016-09-06 20:00:26 +0000	[diff] [blame]	2066	unsigned NewOpc = isVGPRCopy ? AMDGPU::V_MOV_B32_e32 : AMDGPU::S_MOV_B32;
Tom Stellard	2add8a1	2016-09-06 20:00:26 +0000	[diff] [blame]	2067	UseMI.setDesc(get(NewOpc));
				2068	UseMI.getOperand(1).ChangeToImmediate(ImmOp->getImm());
				2069	UseMI.addImplicitDefUseOperands(*UseMI.getParent()->getParent());
				2070	return true;
				2071	}
				2072
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2073	if (Opc == AMDGPU::V_MAD_F32 \|\| Opc == AMDGPU::V_MAC_F32_e64 \|\|
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2074	Opc == AMDGPU::V_MAD_F16 \|\| Opc == AMDGPU::V_MAC_F16_e64 \|\|
				2075	Opc == AMDGPU::V_FMA_F32 \|\| Opc == AMDGPU::V_FMAC_F32_e64 \|\|
				2076	Opc == AMDGPU::V_FMA_F16 \|\| Opc == AMDGPU::V_FMAC_F16_e64) {
Matt Arsenault	2ed2193	2017-02-27 20:21:31 +0000	[diff] [blame]	2077	// Don't fold if we are using source or output modifiers. The new VOP2
				2078	// instructions don't have them.
				2079	if (hasAnyModifiersSet(UseMI))
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2080	return false;
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2081
Matt Arsenault	3d1c1de	2016-04-14 21:58:24 +0000	[diff] [blame]	2082	// If this is a free constant, there's no reason to do this.
				2083	// TODO: We could fold this here instead of letting SIFoldOperands do it
				2084	// later.
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2085	MachineOperand *Src0 = getNamedOperand(UseMI, AMDGPU::OpName::src0);
				2086
				2087	// Any src operand can be used for the legality check.
Nicolai Haehnle	39980da	2017-11-28 08:41:50 +0000	[diff] [blame]	2088	if (isInlineConstant(UseMI, Src0, ImmOp))
Matt Arsenault	3d1c1de	2016-04-14 21:58:24 +0000	[diff] [blame]	2089	return false;
				2090
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2091	bool IsF32 = Opc == AMDGPU::V_MAD_F32 \|\| Opc == AMDGPU::V_MAC_F32_e64 \|\|
				2092	Opc == AMDGPU::V_FMA_F32 \|\| Opc == AMDGPU::V_FMAC_F32_e64;
				2093	bool IsFMA = Opc == AMDGPU::V_FMA_F32 \|\| Opc == AMDGPU::V_FMAC_F32_e64 \|\|
				2094	Opc == AMDGPU::V_FMA_F16 \|\| Opc == AMDGPU::V_FMAC_F16_e64;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2095	MachineOperand *Src1 = getNamedOperand(UseMI, AMDGPU::OpName::src1);
				2096	MachineOperand *Src2 = getNamedOperand(UseMI, AMDGPU::OpName::src2);
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2097
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2098	// Multiplied part is the constant: Use v_madmk_{f16, f32}.
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2099	// We should only expect these to be on src0 due to canonicalizations.
				2100	if (Src0->isReg() && Src0->getReg() == Reg) {
Matt Arsenault	a266bd8	2016-03-02 04:05:14 +0000	[diff] [blame]	2101	if (!Src1->isReg() \|\| RI.isSGPRClass(MRI->getRegClass(Src1->getReg())))
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2102	return false;
				2103
Matt Arsenault	a266bd8	2016-03-02 04:05:14 +0000	[diff] [blame]	2104	if (!Src2->isReg() \|\| RI.isSGPRClass(MRI->getRegClass(Src2->getReg())))
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2105	return false;
				2106
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2107	unsigned NewOpc =
				2108	IsFMA ? (IsF32 ? AMDGPU::V_FMAMK_F32 : AMDGPU::V_FMAMK_F16)
				2109	: (IsF32 ? AMDGPU::V_MADMK_F32 : AMDGPU::V_MADMK_F16);
				2110	if (pseudoToMCOpcode(NewOpc) == -1)
				2111	return false;
				2112
Nikolay Haustov	6560781	2016-03-11 09:27:25 +0000	[diff] [blame]	2113	// We need to swap operands 0 and 1 since madmk constant is at operand 1.
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2114
Nicolai Haehnle	39980da	2017-11-28 08:41:50 +0000	[diff] [blame]	2115	const int64_t Imm = ImmOp->getImm();
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2116
				2117	// FIXME: This would be a lot easier if we could return a new instruction
				2118	// instead of having to modify in place.
				2119
				2120	// Remove these first since they are at the end.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2121	UseMI.RemoveOperand(
				2122	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::omod));
				2123	UseMI.RemoveOperand(
				2124	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::clamp));
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2125
				2126	unsigned Src1Reg = Src1->getReg();
				2127	unsigned Src1SubReg = Src1->getSubReg();
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2128	Src0->setReg(Src1Reg);
				2129	Src0->setSubReg(Src1SubReg);
Matt Arsenault	5e10016	2015-04-24 01:57:58 +0000	[diff] [blame]	2130	Src0->setIsKill(Src1->isKill());
				2131
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2132	if (Opc == AMDGPU::V_MAC_F32_e64 \|\|
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2133	Opc == AMDGPU::V_MAC_F16_e64 \|\|
				2134	Opc == AMDGPU::V_FMAC_F32_e64 \|\|
				2135	Opc == AMDGPU::V_FMAC_F16_e64)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2136	UseMI.untieRegOperand(
				2137	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src2));
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2138
Nikolay Haustov	6560781	2016-03-11 09:27:25 +0000	[diff] [blame]	2139	Src1->ChangeToImmediate(Imm);
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2140
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2141	removeModOperands(UseMI);
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2142	UseMI.setDesc(get(NewOpc));
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2143
				2144	bool DeleteDef = MRI->hasOneNonDBGUse(Reg);
				2145	if (DeleteDef)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2146	DefMI.eraseFromParent();
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2147
				2148	return true;
				2149	}
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2150
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2151	// Added part is the constant: Use v_madak_{f16, f32}.
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2152	if (Src2->isReg() && Src2->getReg() == Reg) {
				2153	// Not allowed to use constant bus for another operand.
				2154	// We can however allow an inline immediate as src0.
Alexander Timofeev	20cbe6f	2018-09-10 16:42:49 +0000	[diff] [blame]	2155	bool Src0Inlined = false;
				2156	if (Src0->isReg()) {
				2157	// Try to inline constant if possible.
				2158	// If the Def moves immediate and the use is single
				2159	// We are saving VGPR here.
				2160	MachineInstr *Def = MRI->getUniqueVRegDef(Src0->getReg());
				2161	if (Def && Def->isMoveImmediate() &&
				2162	isInlineConstant(Def->getOperand(1)) &&
				2163	MRI->hasOneUse(Src0->getReg())) {
				2164	Src0->ChangeToImmediate(Def->getOperand(1).getImm());
				2165	Src0Inlined = true;
				2166	} else if ((RI.isPhysicalRegister(Src0->getReg()) &&
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	2167	(ST.getConstantBusLimit(Opc) <= 1 &&
				2168	RI.isSGPRClass(RI.getPhysRegClass(Src0->getReg())))) \|\|
Alexander Timofeev	20cbe6f	2018-09-10 16:42:49 +0000	[diff] [blame]	2169	(RI.isVirtualRegister(Src0->getReg()) &&
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	2170	(ST.getConstantBusLimit(Opc) <= 1 &&
				2171	RI.isSGPRClass(MRI->getRegClass(Src0->getReg())))))
Alexander Timofeev	20cbe6f	2018-09-10 16:42:49 +0000	[diff] [blame]	2172	return false;
				2173	// VGPR is okay as Src0 - fallthrough
				2174	}
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2175
Alexander Timofeev	20cbe6f	2018-09-10 16:42:49 +0000	[diff] [blame]	2176	if (Src1->isReg() && !Src0Inlined ) {
				2177	// We have one slot for inlinable constant so far - try to fill it
				2178	MachineInstr *Def = MRI->getUniqueVRegDef(Src1->getReg());
				2179	if (Def && Def->isMoveImmediate() &&
				2180	isInlineConstant(Def->getOperand(1)) &&
				2181	MRI->hasOneUse(Src1->getReg()) &&
				2182	commuteInstruction(UseMI)) {
				2183	Src0->ChangeToImmediate(Def->getOperand(1).getImm());
				2184	} else if ((RI.isPhysicalRegister(Src1->getReg()) &&
				2185	RI.isSGPRClass(RI.getPhysRegClass(Src1->getReg()))) \|\|
				2186	(RI.isVirtualRegister(Src1->getReg()) &&
				2187	RI.isSGPRClass(MRI->getRegClass(Src1->getReg()))))
				2188	return false;
				2189	// VGPR is okay as Src1 - fallthrough
				2190	}
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2191
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2192	unsigned NewOpc =
				2193	IsFMA ? (IsF32 ? AMDGPU::V_FMAAK_F32 : AMDGPU::V_FMAAK_F16)
				2194	: (IsF32 ? AMDGPU::V_MADAK_F32 : AMDGPU::V_MADAK_F16);
				2195	if (pseudoToMCOpcode(NewOpc) == -1)
				2196	return false;
				2197
Nicolai Haehnle	39980da	2017-11-28 08:41:50 +0000	[diff] [blame]	2198	const int64_t Imm = ImmOp->getImm();
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2199
				2200	// FIXME: This would be a lot easier if we could return a new instruction
				2201	// instead of having to modify in place.
				2202
				2203	// Remove these first since they are at the end.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2204	UseMI.RemoveOperand(
				2205	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::omod));
				2206	UseMI.RemoveOperand(
				2207	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::clamp));
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2208
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2209	if (Opc == AMDGPU::V_MAC_F32_e64 \|\|
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2210	Opc == AMDGPU::V_MAC_F16_e64 \|\|
				2211	Opc == AMDGPU::V_FMAC_F32_e64 \|\|
				2212	Opc == AMDGPU::V_FMAC_F16_e64)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2213	UseMI.untieRegOperand(
				2214	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src2));
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2215
				2216	// ChangingToImmediate adds Src2 back to the instruction.
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2217	Src2->ChangeToImmediate(Imm);
				2218
				2219	// These come before src2.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2220	removeModOperands(UseMI);
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2221	UseMI.setDesc(get(NewOpc));
Alexander Timofeev	ba447ba	2019-05-26 20:33:26 +0000	[diff] [blame]	2222	// It might happen that UseMI was commuted
				2223	// and we now have SGPR as SRC1. If so 2 inlined
				2224	// constant and SGPR are illegal.
				2225	legalizeOperands(UseMI);
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2226
				2227	bool DeleteDef = MRI->hasOneNonDBGUse(Reg);
				2228	if (DeleteDef)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2229	DefMI.eraseFromParent();
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2230
				2231	return true;
				2232	}
				2233	}
				2234
				2235	return false;
				2236	}
				2237
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2238	static bool offsetsDoNotOverlap(int WidthA, int OffsetA,
				2239	int WidthB, int OffsetB) {
				2240	int LowOffset = OffsetA < OffsetB ? OffsetA : OffsetB;
				2241	int HighOffset = OffsetA < OffsetB ? OffsetB : OffsetA;
				2242	int LowWidth = (LowOffset == OffsetA) ? WidthA : WidthB;
				2243	return LowOffset + LowWidth <= HighOffset;
				2244	}
				2245
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	2246	bool SIInstrInfo::checkInstOffsetsDoNotOverlap(const MachineInstr &MIa,
				2247	const MachineInstr &MIb) const {
				2248	const MachineOperand BaseOp0, BaseOp1;
Chad Rosier	c27a18f	2016-03-09 16:00:35 +0000	[diff] [blame]	2249	int64_t Offset0, Offset1;
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2250
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	2251	if (getMemOperandWithOffset(MIa, BaseOp0, Offset0, &RI) &&
				2252	getMemOperandWithOffset(MIb, BaseOp1, Offset1, &RI)) {
				2253	if (!BaseOp0->isIdenticalTo(*BaseOp1))
				2254	return false;
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	2255
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2256	if (!MIa.hasOneMemOperand() \|\| !MIb.hasOneMemOperand()) {
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	2257	// FIXME: Handle ds_read2 / ds_write2.
				2258	return false;
				2259	}
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2260	unsigned Width0 = (*MIa.memoperands_begin())->getSize();
				2261	unsigned Width1 = (*MIb.memoperands_begin())->getSize();
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	2262	if (offsetsDoNotOverlap(Width0, Offset0, Width1, Offset1)) {
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2263	return true;
				2264	}
				2265	}
				2266
				2267	return false;
				2268	}
				2269
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	2270	bool SIInstrInfo::areMemAccessesTriviallyDisjoint(const MachineInstr &MIa,
				2271	const MachineInstr &MIb,
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2272	AliasAnalysis *AA) const {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2273	assert((MIa.mayLoad() \|\| MIa.mayStore()) &&
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2274	"MIa must load from or modify a memory location");
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2275	assert((MIb.mayLoad() \|\| MIb.mayStore()) &&
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2276	"MIb must load from or modify a memory location");
				2277
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2278	if (MIa.hasUnmodeledSideEffects() \|\| MIb.hasUnmodeledSideEffects())
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2279	return false;
				2280
				2281	// XXX - Can we relax this between address spaces?
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2282	if (MIa.hasOrderedMemoryRef() \|\| MIb.hasOrderedMemoryRef())
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2283	return false;
				2284
				2285	// TODO: Should we check the address space from the MachineMemOperand? That
				2286	// would allow us to distinguish objects we know don't alias based on the
Benjamin Kramer	df005cb	2015-08-08 18:27:36 +0000	[diff] [blame]	2287	// underlying address space, even if it was lowered to a different one,
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2288	// e.g. private accesses lowered to use MUBUF instructions on a scratch
				2289	// buffer.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2290	if (isDS(MIa)) {
				2291	if (isDS(MIb))
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2292	return checkInstOffsetsDoNotOverlap(MIa, MIb);
				2293
Matt Arsenault	9608a289	2017-07-29 01:26:21 +0000	[diff] [blame]	2294	return !isFLAT(MIb) \|\| isSegmentSpecificFLAT(MIb);
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2295	}
				2296
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2297	if (isMUBUF(MIa) \|\| isMTBUF(MIa)) {
				2298	if (isMUBUF(MIb) \|\| isMTBUF(MIb))
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2299	return checkInstOffsetsDoNotOverlap(MIa, MIb);
				2300
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2301	return !isFLAT(MIb) && !isSMRD(MIb);
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2302	}
				2303
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2304	if (isSMRD(MIa)) {
				2305	if (isSMRD(MIb))
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2306	return checkInstOffsetsDoNotOverlap(MIa, MIb);
				2307
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2308	return !isFLAT(MIb) && !isMUBUF(MIa) && !isMTBUF(MIa);
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2309	}
				2310
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2311	if (isFLAT(MIa)) {
				2312	if (isFLAT(MIb))
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2313	return checkInstOffsetsDoNotOverlap(MIa, MIb);
				2314
				2315	return false;
				2316	}
				2317
				2318	return false;
				2319	}
				2320
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2321	static int64_t getFoldableImm(const MachineOperand* MO) {
				2322	if (!MO->isReg())
				2323	return false;
				2324	const MachineFunction *MF = MO->getParent()->getParent()->getParent();
				2325	const MachineRegisterInfo &MRI = MF->getRegInfo();
				2326	auto Def = MRI.getUniqueVRegDef(MO->getReg());
Matt Arsenault	c317287	2017-09-14 20:54:29 +0000	[diff] [blame]	2327	if (Def && Def->getOpcode() == AMDGPU::V_MOV_B32_e32 &&
				2328	Def->getOperand(1).isImm())
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2329	return Def->getOperand(1).getImm();
				2330	return AMDGPU::NoRegister;
				2331	}
				2332
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2333	MachineInstr *SIInstrInfo::convertToThreeAddress(MachineFunction::iterator &MBB,
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2334	MachineInstr &MI,
				2335	LiveVariables *LV) const {
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	2336	unsigned Opc = MI.getOpcode();
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2337	bool IsF16 = false;
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2338	bool IsFMA = Opc == AMDGPU::V_FMAC_F32_e32 \|\| Opc == AMDGPU::V_FMAC_F32_e64 \|\|
				2339	Opc == AMDGPU::V_FMAC_F16_e32 \|\| Opc == AMDGPU::V_FMAC_F16_e64;
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2340
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	2341	switch (Opc) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2342	default:
				2343	return nullptr;
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2344	case AMDGPU::V_MAC_F16_e64:
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2345	case AMDGPU::V_FMAC_F16_e64:
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2346	IsF16 = true;
Simon Pilgrim	0f5b350	2017-07-07 10:18:57 +0000	[diff] [blame]	2347	LLVM_FALLTHROUGH;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2348	case AMDGPU::V_MAC_F32_e64:
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	2349	case AMDGPU::V_FMAC_F32_e64:
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2350	break;
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2351	case AMDGPU::V_MAC_F16_e32:
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2352	case AMDGPU::V_FMAC_F16_e32:
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2353	IsF16 = true;
Simon Pilgrim	0f5b350	2017-07-07 10:18:57 +0000	[diff] [blame]	2354	LLVM_FALLTHROUGH;
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	2355	case AMDGPU::V_MAC_F32_e32:
				2356	case AMDGPU::V_FMAC_F32_e32: {
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2357	int Src0Idx = AMDGPU::getNamedOperandIdx(MI.getOpcode(),
				2358	AMDGPU::OpName::src0);
				2359	const MachineOperand *Src0 = &MI.getOperand(Src0Idx);
Matt Arsenault	fdcdd88	2017-09-21 00:45:59 +0000	[diff] [blame]	2360	if (!Src0->isReg() && !Src0->isImm())
				2361	return nullptr;
				2362
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2363	if (Src0->isImm() && !isInlineConstant(MI, Src0Idx, *Src0))
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2364	return nullptr;
Matt Arsenault	fdcdd88	2017-09-21 00:45:59 +0000	[diff] [blame]	2365
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2366	break;
				2367	}
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2368	}
				2369
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2370	const MachineOperand *Dst = getNamedOperand(MI, AMDGPU::OpName::vdst);
				2371	const MachineOperand *Src0 = getNamedOperand(MI, AMDGPU::OpName::src0);
Matt Arsenault	3cb9ff8	2017-03-11 05:40:40 +0000	[diff] [blame]	2372	const MachineOperand *Src0Mods =
				2373	getNamedOperand(MI, AMDGPU::OpName::src0_modifiers);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2374	const MachineOperand *Src1 = getNamedOperand(MI, AMDGPU::OpName::src1);
Matt Arsenault	3cb9ff8	2017-03-11 05:40:40 +0000	[diff] [blame]	2375	const MachineOperand *Src1Mods =
				2376	getNamedOperand(MI, AMDGPU::OpName::src1_modifiers);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2377	const MachineOperand *Src2 = getNamedOperand(MI, AMDGPU::OpName::src2);
Matt Arsenault	3cb9ff8	2017-03-11 05:40:40 +0000	[diff] [blame]	2378	const MachineOperand *Clamp = getNamedOperand(MI, AMDGPU::OpName::clamp);
				2379	const MachineOperand *Omod = getNamedOperand(MI, AMDGPU::OpName::omod);
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2380
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2381	if (!Src0Mods && !Src1Mods && !Clamp && !Omod &&
Matt Arsenault	c317287	2017-09-14 20:54:29 +0000	[diff] [blame]	2382	// If we have an SGPR input, we will violate the constant bus restriction.
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	2383	(ST.getConstantBusLimit(Opc) > 1 \|\|
				2384	!Src0->isReg() \|\|
				2385	!RI.isSGPRReg(MBB->getParent()->getRegInfo(), Src0->getReg()))) {
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2386	if (auto Imm = getFoldableImm(Src2)) {
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2387	unsigned NewOpc =
				2388	IsFMA ? (IsF16 ? AMDGPU::V_FMAAK_F16 : AMDGPU::V_FMAAK_F32)
				2389	: (IsF16 ? AMDGPU::V_MADAK_F16 : AMDGPU::V_MADAK_F32);
				2390	if (pseudoToMCOpcode(NewOpc) != -1)
				2391	return BuildMI(*MBB, MI, MI.getDebugLoc(), get(NewOpc))
				2392	.add(*Dst)
				2393	.add(*Src0)
				2394	.add(*Src1)
				2395	.addImm(Imm);
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2396	}
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2397	unsigned NewOpc =
				2398	IsFMA ? (IsF16 ? AMDGPU::V_FMAMK_F16 : AMDGPU::V_FMAMK_F32)
				2399	: (IsF16 ? AMDGPU::V_MADMK_F16 : AMDGPU::V_MADMK_F32);
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2400	if (auto Imm = getFoldableImm(Src1)) {
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2401	if (pseudoToMCOpcode(NewOpc) != -1)
				2402	return BuildMI(*MBB, MI, MI.getDebugLoc(), get(NewOpc))
				2403	.add(*Dst)
				2404	.add(*Src0)
				2405	.addImm(Imm)
				2406	.add(*Src2);
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2407	}
				2408	if (auto Imm = getFoldableImm(Src0)) {
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2409	if (pseudoToMCOpcode(NewOpc) != -1 &&
				2410	isOperandLegal(MI, AMDGPU::getNamedOperandIdx(NewOpc,
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2411	AMDGPU::OpName::src0), Src1))
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2412	return BuildMI(*MBB, MI, MI.getDebugLoc(), get(NewOpc))
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2413	.add(*Dst)
				2414	.add(*Src1)
				2415	.addImm(Imm)
				2416	.add(*Src2);
				2417	}
				2418	}
				2419
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2420	unsigned NewOpc = IsFMA ? (IsF16 ? AMDGPU::V_FMA_F16 : AMDGPU::V_FMA_F32)
				2421	: (IsF16 ? AMDGPU::V_MAD_F16 : AMDGPU::V_MAD_F32);
				2422	if (pseudoToMCOpcode(NewOpc) == -1)
				2423	return nullptr;
				2424
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	2425	return BuildMI(*MBB, MI, MI.getDebugLoc(), get(NewOpc))
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	2426	.add(*Dst)
Matt Arsenault	3cb9ff8	2017-03-11 05:40:40 +0000	[diff] [blame]	2427	.addImm(Src0Mods ? Src0Mods->getImm() : 0)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	2428	.add(*Src0)
Matt Arsenault	3cb9ff8	2017-03-11 05:40:40 +0000	[diff] [blame]	2429	.addImm(Src1Mods ? Src1Mods->getImm() : 0)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	2430	.add(*Src1)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2431	.addImm(0) // Src mods
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	2432	.add(*Src2)
Matt Arsenault	3cb9ff8	2017-03-11 05:40:40 +0000	[diff] [blame]	2433	.addImm(Clamp ? Clamp->getImm() : 0)
				2434	.addImm(Omod ? Omod->getImm() : 0);
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2435	}
				2436
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	2437	// It's not generally safe to move VALU instructions across these since it will
				2438	// start using the register as a base index rather than directly.
				2439	// XXX - Why isn't hasSideEffects sufficient for these?
				2440	static bool changesVGPRIndexingMode(const MachineInstr &MI) {
				2441	switch (MI.getOpcode()) {
				2442	case AMDGPU::S_SET_GPR_IDX_ON:
				2443	case AMDGPU::S_SET_GPR_IDX_MODE:
				2444	case AMDGPU::S_SET_GPR_IDX_OFF:
				2445	return true;
				2446	default:
				2447	return false;
				2448	}
				2449	}
				2450
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2451	bool SIInstrInfo::isSchedulingBoundary(const MachineInstr &MI,
Nicolai Haehnle	213e87f	2016-03-21 20:28:33 +0000	[diff] [blame]	2452	const MachineBasicBlock *MBB,
				2453	const MachineFunction &MF) const {
Matt Arsenault	95c7897	2016-07-09 01:13:51 +0000	[diff] [blame]	2454	// XXX - Do we want the SP check in the base implementation?
				2455
Nicolai Haehnle	213e87f	2016-03-21 20:28:33 +0000	[diff] [blame]	2456	// Target-independent instructions do not have an implicit-use of EXEC, even
				2457	// when they operate on VGPRs. Treating EXEC modifications as scheduling
				2458	// boundaries prevents incorrect movements of such instructions.
Matt Arsenault	95c7897	2016-07-09 01:13:51 +0000	[diff] [blame]	2459	return TargetInstrInfo::isSchedulingBoundary(MI, MBB, MF) \|\|
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	2460	MI.modifiesRegister(AMDGPU::EXEC, &RI) \|\|
Tom Stellard	8485fa0	2016-12-07 02:42:15 +0000	[diff] [blame]	2461	MI.getOpcode() == AMDGPU::S_SETREG_IMM32_B32 \|\|
				2462	MI.getOpcode() == AMDGPU::S_SETREG_B32 \|\|
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	2463	changesVGPRIndexingMode(MI);
Nicolai Haehnle	213e87f	2016-03-21 20:28:33 +0000	[diff] [blame]	2464	}
				2465
Marek Olsak	c5cec5e	2019-01-16 15:43:53 +0000	[diff] [blame]	2466	bool SIInstrInfo::isAlwaysGDS(uint16_t Opcode) const {
				2467	return Opcode == AMDGPU::DS_ORDERED_COUNT \|\|
				2468	Opcode == AMDGPU::DS_GWS_INIT \|\|
				2469	Opcode == AMDGPU::DS_GWS_SEMA_V \|\|
				2470	Opcode == AMDGPU::DS_GWS_SEMA_BR \|\|
				2471	Opcode == AMDGPU::DS_GWS_SEMA_P \|\|
				2472	Opcode == AMDGPU::DS_GWS_SEMA_RELEASE_ALL \|\|
				2473	Opcode == AMDGPU::DS_GWS_BARRIER;
				2474	}
				2475
Nicolai Haehnle	7f0d05d	2018-07-30 09:23:59 +0000	[diff] [blame]	2476	bool SIInstrInfo::hasUnwantedEffectsWhenEXECEmpty(const MachineInstr &MI) const {
				2477	unsigned Opcode = MI.getOpcode();
				2478
				2479	if (MI.mayStore() && isSMRD(MI))
				2480	return true; // scalar store or atomic
				2481
Matt Arsenault	b6cfa12	2019-06-06 22:51:51 +0000	[diff] [blame]	2482	// This will terminate the function when other lanes may need to continue.
				2483	if (MI.isReturn())
				2484	return true;
				2485
Nicolai Haehnle	7f0d05d	2018-07-30 09:23:59 +0000	[diff] [blame]	2486	// These instructions cause shader I/O that may cause hardware lockups
				2487	// when executed with an empty EXEC mask.
				2488	//
				2489	// Note: exp with VM = DONE = 0 is automatically skipped by hardware when
				2490	// EXEC = 0, but checking for that case here seems not worth it
				2491	// given the typical code patterns.
				2492	if (Opcode == AMDGPU::S_SENDMSG \|\| Opcode == AMDGPU::S_SENDMSGHALT \|\|
Marek Olsak	c5cec5e	2019-01-16 15:43:53 +0000	[diff] [blame]	2493	Opcode == AMDGPU::EXP \|\| Opcode == AMDGPU::EXP_DONE \|\|
Matt Arsenault	ddd2c9a	2019-06-07 23:02:52 +0000	[diff] [blame]	2494	Opcode == AMDGPU::DS_ORDERED_COUNT \|\| Opcode == AMDGPU::S_TRAP)
Nicolai Haehnle	7f0d05d	2018-07-30 09:23:59 +0000	[diff] [blame]	2495	return true;
				2496
Matt Arsenault	6dd08e3	2019-05-20 22:04:42 +0000	[diff] [blame]	2497	if (MI.isCall() \|\| MI.isInlineAsm())
Nicolai Haehnle	7f0d05d	2018-07-30 09:23:59 +0000	[diff] [blame]	2498	return true; // conservative assumption
				2499
				2500	// These are like SALU instructions in terms of effects, so it's questionable
				2501	// whether we should return true for those.
				2502	//
				2503	// However, executing them with EXEC = 0 causes them to operate on undefined
				2504	// data, which we avoid by returning true here.
				2505	if (Opcode == AMDGPU::V_READFIRSTLANE_B32 \|\| Opcode == AMDGPU::V_READLANE_B32)
				2506	return true;
				2507
				2508	return false;
				2509	}
				2510
Matt Arsenault	a353fd5	2019-03-28 14:01:39 +0000	[diff] [blame]	2511	bool SIInstrInfo::mayReadEXEC(const MachineRegisterInfo &MRI,
				2512	const MachineInstr &MI) const {
				2513	if (MI.isMetaInstruction())
				2514	return false;
				2515
				2516	// This won't read exec if this is an SGPR->SGPR copy.
				2517	if (MI.isCopyLike()) {
				2518	if (!RI.isSGPRReg(MRI, MI.getOperand(0).getReg()))
				2519	return true;
				2520
				2521	// Make sure this isn't copying exec as a normal operand
				2522	return MI.readsRegister(AMDGPU::EXEC, &RI);
				2523	}
				2524
Matt Arsenault	2cba91b	2019-05-21 23:23:16 +0000	[diff] [blame]	2525	// Make a conservative assumption about the callee.
				2526	if (MI.isCall())
				2527	return true;
				2528
Matt Arsenault	a353fd5	2019-03-28 14:01:39 +0000	[diff] [blame]	2529	// Be conservative with any unhandled generic opcodes.
				2530	if (!isTargetSpecificOpcode(MI.getOpcode()))
				2531	return true;
				2532
				2533	return !isSALU(MI) \|\| MI.readsRegister(AMDGPU::EXEC, &RI);
				2534	}
				2535
Matt Arsenault	d7bdcc4	2014-03-31 19:54:27 +0000	[diff] [blame]	2536	bool SIInstrInfo::isInlineConstant(const APInt &Imm) const {
Matt Arsenault	26faed3	2016-12-05 22:26:17 +0000	[diff] [blame]	2537	switch (Imm.getBitWidth()) {
Stanislav Mekhanoshin	05791d9	2019-05-14 16:18:00 +0000	[diff] [blame]	2538	case 1: // This likely will be a condition code mask.
				2539	return true;
				2540
Matt Arsenault	26faed3	2016-12-05 22:26:17 +0000	[diff] [blame]	2541	case 32:
				2542	return AMDGPU::isInlinableLiteral32(Imm.getSExtValue(),
				2543	ST.hasInv2PiInlineImm());
				2544	case 64:
				2545	return AMDGPU::isInlinableLiteral64(Imm.getSExtValue(),
				2546	ST.hasInv2PiInlineImm());
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2547	case 16:
Matt Arsenault	9dba9bd	2017-02-02 02:27:04 +0000	[diff] [blame]	2548	return ST.has16BitInsts() &&
				2549	AMDGPU::isInlinableLiteral16(Imm.getSExtValue(),
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2550	ST.hasInv2PiInlineImm());
Matt Arsenault	26faed3	2016-12-05 22:26:17 +0000	[diff] [blame]	2551	default:
				2552	llvm_unreachable("invalid bitwidth");
Matt Arsenault	303011a	2014-12-17 21:04:08 +0000	[diff] [blame]	2553	}
Matt Arsenault	d7bdcc4	2014-03-31 19:54:27 +0000	[diff] [blame]	2554	}
				2555
Matt Arsenault	11a4d67	2015-02-13 19:05:03 +0000	[diff] [blame]	2556	bool SIInstrInfo::isInlineConstant(const MachineOperand &MO,
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2557	uint8_t OperandType) const {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	2558	if (!MO.isImm() \|\|
				2559	OperandType < AMDGPU::OPERAND_SRC_FIRST \|\|
				2560	OperandType > AMDGPU::OPERAND_SRC_LAST)
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2561	return false;
				2562
				2563	// MachineOperand provides no way to tell the true operand size, since it only
				2564	// records a 64-bit value. We need to know the size to determine if a 32-bit
				2565	// floating point immediate bit pattern is legal for an integer immediate. It
				2566	// would be for any 32-bit integer operand, but would not be for a 64-bit one.
				2567
				2568	int64_t Imm = MO.getImm();
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	2569	switch (OperandType) {
				2570	case AMDGPU::OPERAND_REG_IMM_INT32:
				2571	case AMDGPU::OPERAND_REG_IMM_FP32:
				2572	case AMDGPU::OPERAND_REG_INLINE_C_INT32:
				2573	case AMDGPU::OPERAND_REG_INLINE_C_FP32: {
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2574	int32_t Trunc = static_cast<int32_t>(Imm);
Nicolai Haehnle	283b995	2018-08-29 07:46:09 +0000	[diff] [blame]	2575	return AMDGPU::isInlinableLiteral32(Trunc, ST.hasInv2PiInlineImm());
Matt Arsenault	11a4d67	2015-02-13 19:05:03 +0000	[diff] [blame]	2576	}
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	2577	case AMDGPU::OPERAND_REG_IMM_INT64:
				2578	case AMDGPU::OPERAND_REG_IMM_FP64:
				2579	case AMDGPU::OPERAND_REG_INLINE_C_INT64:
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	2580	case AMDGPU::OPERAND_REG_INLINE_C_FP64:
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2581	return AMDGPU::isInlinableLiteral64(MO.getImm(),
				2582	ST.hasInv2PiInlineImm());
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	2583	case AMDGPU::OPERAND_REG_IMM_INT16:
				2584	case AMDGPU::OPERAND_REG_IMM_FP16:
				2585	case AMDGPU::OPERAND_REG_INLINE_C_INT16:
				2586	case AMDGPU::OPERAND_REG_INLINE_C_FP16: {
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2587	if (isInt<16>(Imm) \|\| isUInt<16>(Imm)) {
Matt Arsenault	9dba9bd	2017-02-02 02:27:04 +0000	[diff] [blame]	2588	// A few special case instructions have 16-bit operands on subtargets
				2589	// where 16-bit instructions are not legal.
				2590	// TODO: Do the 32-bit immediates work? We shouldn't really need to handle
				2591	// constants in these cases
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2592	int16_t Trunc = static_cast<int16_t>(Imm);
Matt Arsenault	9dba9bd	2017-02-02 02:27:04 +0000	[diff] [blame]	2593	return ST.has16BitInsts() &&
				2594	AMDGPU::isInlinableLiteral16(Trunc, ST.hasInv2PiInlineImm());
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2595	}
Matt Arsenault	d7bdcc4	2014-03-31 19:54:27 +0000	[diff] [blame]	2596
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2597	return false;
				2598	}
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	2599	case AMDGPU::OPERAND_REG_IMM_V2INT16:
				2600	case AMDGPU::OPERAND_REG_IMM_V2FP16:
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	2601	case AMDGPU::OPERAND_REG_INLINE_C_V2INT16:
				2602	case AMDGPU::OPERAND_REG_INLINE_C_V2FP16: {
				2603	uint32_t Trunc = static_cast<uint32_t>(Imm);
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	2604	return AMDGPU::isInlinableLiteralV216(Trunc, ST.hasInv2PiInlineImm());
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	2605	}
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2606	default:
				2607	llvm_unreachable("invalid bitwidth");
				2608	}
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	2609	}
				2610
Matt Arsenault	c1ebd82	2016-08-13 01:43:54 +0000	[diff] [blame]	2611	bool SIInstrInfo::isLiteralConstantLike(const MachineOperand &MO,
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2612	const MCOperandInfo &OpInfo) const {
Matt Arsenault	c1ebd82	2016-08-13 01:43:54 +0000	[diff] [blame]	2613	switch (MO.getType()) {
				2614	case MachineOperand::MO_Register:
				2615	return false;
				2616	case MachineOperand::MO_Immediate:
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2617	return !isInlineConstant(MO, OpInfo);
Matt Arsenault	c1ebd82	2016-08-13 01:43:54 +0000	[diff] [blame]	2618	case MachineOperand::MO_FrameIndex:
				2619	case MachineOperand::MO_MachineBasicBlock:
				2620	case MachineOperand::MO_ExternalSymbol:
				2621	case MachineOperand::MO_GlobalAddress:
				2622	case MachineOperand::MO_MCSymbol:
				2623	return true;
				2624	default:
				2625	llvm_unreachable("unexpected operand type");
				2626	}
				2627	}
				2628
Matt Arsenault	becb140	2014-06-23 18:28:31 +0000	[diff] [blame]	2629	static bool compareMachineOp(const MachineOperand &Op0,
				2630	const MachineOperand &Op1) {
				2631	if (Op0.getType() != Op1.getType())
				2632	return false;
				2633
				2634	switch (Op0.getType()) {
				2635	case MachineOperand::MO_Register:
				2636	return Op0.getReg() == Op1.getReg();
				2637	case MachineOperand::MO_Immediate:
				2638	return Op0.getImm() == Op1.getImm();
Matt Arsenault	becb140	2014-06-23 18:28:31 +0000	[diff] [blame]	2639	default:
				2640	llvm_unreachable("Didn't expect to be comparing these operand types");
				2641	}
				2642	}
				2643
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2644	bool SIInstrInfo::isImmOperandLegal(const MachineInstr &MI, unsigned OpNo,
				2645	const MachineOperand &MO) const {
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	2646	const MCInstrDesc &InstDesc = MI.getDesc();
				2647	const MCOperandInfo &OpInfo = InstDesc.OpInfo[OpNo];
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	2648
Tom Stellard	fb77f00	2015-01-13 22:59:41 +0000	[diff] [blame]	2649	assert(MO.isImm() \|\| MO.isTargetIndex() \|\| MO.isFI());
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	2650
				2651	if (OpInfo.OperandType == MCOI::OPERAND_IMMEDIATE)
				2652	return true;
				2653
				2654	if (OpInfo.RegClass < 0)
				2655	return false;
				2656
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2657	if (MO.isImm() && isInlineConstant(MO, OpInfo))
				2658	return RI.opCanUseInlineConstant(OpInfo.OperandType);
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2659
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	2660	if (!RI.opCanUseLiteralConstant(OpInfo.OperandType))
				2661	return false;
				2662
				2663	if (!isVOP3(MI) \|\| !AMDGPU::isSISrcOperand(InstDesc, OpNo))
				2664	return true;
				2665
				2666	const MachineFunction *MF = MI.getParent()->getParent();
				2667	const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();
				2668	return ST.hasVOP3Literal();
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	2669	}
				2670
Tom Stellard	86d12eb	2014-08-01 00:32:28 +0000	[diff] [blame]	2671	bool SIInstrInfo::hasVALU32BitEncoding(unsigned Opcode) const {
Marek Olsak	a93603d	2015-01-15 18:42:51 +0000	[diff] [blame]	2672	int Op32 = AMDGPU::getVOPe32(Opcode);
				2673	if (Op32 == -1)
				2674	return false;
				2675
				2676	return pseudoToMCOpcode(Op32) != -1;
Tom Stellard	86d12eb	2014-08-01 00:32:28 +0000	[diff] [blame]	2677	}
				2678
Tom Stellard	b4a313a	2014-08-01 00:32:39 +0000	[diff] [blame]	2679	bool SIInstrInfo::hasModifiers(unsigned Opcode) const {
				2680	// The src0_modifier operand is present on all instructions
				2681	// that have modifiers.
				2682
				2683	return AMDGPU::getNamedOperandIdx(Opcode,
				2684	AMDGPU::OpName::src0_modifiers) != -1;
				2685	}
				2686
Matt Arsenault	ace5b76	2014-10-17 18:00:43 +0000	[diff] [blame]	2687	bool SIInstrInfo::hasModifiersSet(const MachineInstr &MI,
				2688	unsigned OpName) const {
				2689	const MachineOperand *Mods = getNamedOperand(MI, OpName);
				2690	return Mods && Mods->getImm();
				2691	}
				2692
Matt Arsenault	2ed2193	2017-02-27 20:21:31 +0000	[diff] [blame]	2693	bool SIInstrInfo::hasAnyModifiersSet(const MachineInstr &MI) const {
				2694	return hasModifiersSet(MI, AMDGPU::OpName::src0_modifiers) \|\|
				2695	hasModifiersSet(MI, AMDGPU::OpName::src1_modifiers) \|\|
				2696	hasModifiersSet(MI, AMDGPU::OpName::src2_modifiers) \|\|
				2697	hasModifiersSet(MI, AMDGPU::OpName::clamp) \|\|
				2698	hasModifiersSet(MI, AMDGPU::OpName::omod);
				2699	}
				2700
Matt Arsenault	35b1902	2018-08-28 18:22:34 +0000	[diff] [blame]	2701	bool SIInstrInfo::canShrink(const MachineInstr &MI,
				2702	const MachineRegisterInfo &MRI) const {
				2703	const MachineOperand *Src2 = getNamedOperand(MI, AMDGPU::OpName::src2);
				2704	// Can't shrink instruction with three operands.
				2705	// FIXME: v_cndmask_b32 has 3 operands and is shrinkable, but we need to add
				2706	// a special case for it. It can only be shrunk if the third operand
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	2707	// is vcc, and src0_modifiers and src1_modifiers are not set.
				2708	// We should handle this the same way we handle vopc, by addding
Matt Arsenault	35b1902	2018-08-28 18:22:34 +0000	[diff] [blame]	2709	// a register allocation hint pre-regalloc and then do the shrinking
				2710	// post-regalloc.
				2711	if (Src2) {
				2712	switch (MI.getOpcode()) {
				2713	default: return false;
				2714
				2715	case AMDGPU::V_ADDC_U32_e64:
				2716	case AMDGPU::V_SUBB_U32_e64:
				2717	case AMDGPU::V_SUBBREV_U32_e64: {
				2718	const MachineOperand *Src1
				2719	= getNamedOperand(MI, AMDGPU::OpName::src1);
				2720	if (!Src1->isReg() \|\| !RI.isVGPR(MRI, Src1->getReg()))
				2721	return false;
				2722	// Additional verification is needed for sdst/src2.
				2723	return true;
				2724	}
				2725	case AMDGPU::V_MAC_F32_e64:
				2726	case AMDGPU::V_MAC_F16_e64:
				2727	case AMDGPU::V_FMAC_F32_e64:
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2728	case AMDGPU::V_FMAC_F16_e64:
Matt Arsenault	35b1902	2018-08-28 18:22:34 +0000	[diff] [blame]	2729	if (!Src2->isReg() \|\| !RI.isVGPR(MRI, Src2->getReg()) \|\|
				2730	hasModifiersSet(MI, AMDGPU::OpName::src2_modifiers))
				2731	return false;
				2732	break;
				2733
				2734	case AMDGPU::V_CNDMASK_B32_e64:
				2735	break;
				2736	}
				2737	}
				2738
				2739	const MachineOperand *Src1 = getNamedOperand(MI, AMDGPU::OpName::src1);
				2740	if (Src1 && (!Src1->isReg() \|\| !RI.isVGPR(MRI, Src1->getReg()) \|\|
				2741	hasModifiersSet(MI, AMDGPU::OpName::src1_modifiers)))
				2742	return false;
				2743
				2744	// We don't need to check src0, all input types are legal, so just make sure
				2745	// src0 isn't using any modifiers.
				2746	if (hasModifiersSet(MI, AMDGPU::OpName::src0_modifiers))
				2747	return false;
				2748
Ron Lieberman	16de4fd	2018-12-03 13:04:54 +0000	[diff] [blame]	2749	// Can it be shrunk to a valid 32 bit opcode?
				2750	if (!hasVALU32BitEncoding(MI.getOpcode()))
				2751	return false;
				2752
Matt Arsenault	35b1902	2018-08-28 18:22:34 +0000	[diff] [blame]	2753	// Check output modifiers
				2754	return !hasModifiersSet(MI, AMDGPU::OpName::omod) &&
				2755	!hasModifiersSet(MI, AMDGPU::OpName::clamp);
Matt Arsenault	de6c421	2018-08-28 18:34:24 +0000	[diff] [blame]	2756	}
Matt Arsenault	35b1902	2018-08-28 18:22:34 +0000	[diff] [blame]	2757
Matt Arsenault	de6c421	2018-08-28 18:34:24 +0000	[diff] [blame]	2758	// Set VCC operand with all flags from \p Orig, except for setting it as
				2759	// implicit.
				2760	static void copyFlagsToImplicitVCC(MachineInstr &MI,
				2761	const MachineOperand &Orig) {
				2762
				2763	for (MachineOperand &Use : MI.implicit_operands()) {
				2764	if (Use.isUse() && Use.getReg() == AMDGPU::VCC) {
				2765	Use.setIsUndef(Orig.isUndef());
				2766	Use.setIsKill(Orig.isKill());
				2767	return;
				2768	}
				2769	}
				2770	}
				2771
				2772	MachineInstr *SIInstrInfo::buildShrunkInst(MachineInstr &MI,
				2773	unsigned Op32) const {
				2774	MachineBasicBlock *MBB = MI.getParent();;
				2775	MachineInstrBuilder Inst32 =
				2776	BuildMI(*MBB, MI, MI.getDebugLoc(), get(Op32));
				2777
				2778	// Add the dst operand if the 32-bit encoding also has an explicit $vdst.
				2779	// For VOPC instructions, this is replaced by an implicit def of vcc.
				2780	int Op32DstIdx = AMDGPU::getNamedOperandIdx(Op32, AMDGPU::OpName::vdst);
				2781	if (Op32DstIdx != -1) {
				2782	// dst
				2783	Inst32.add(MI.getOperand(0));
				2784	} else {
				2785	assert(MI.getOperand(0).getReg() == AMDGPU::VCC &&
				2786	"Unexpected case");
				2787	}
				2788
				2789	Inst32.add(*getNamedOperand(MI, AMDGPU::OpName::src0));
				2790
				2791	const MachineOperand *Src1 = getNamedOperand(MI, AMDGPU::OpName::src1);
				2792	if (Src1)
				2793	Inst32.add(*Src1);
				2794
				2795	const MachineOperand *Src2 = getNamedOperand(MI, AMDGPU::OpName::src2);
				2796
				2797	if (Src2) {
				2798	int Op32Src2Idx = AMDGPU::getNamedOperandIdx(Op32, AMDGPU::OpName::src2);
				2799	if (Op32Src2Idx != -1) {
				2800	Inst32.add(*Src2);
				2801	} else {
				2802	// In the case of V_CNDMASK_B32_e32, the explicit operand src2 is
				2803	// replaced with an implicit read of vcc. This was already added
				2804	// during the initial BuildMI, so find it to preserve the flags.
				2805	copyFlagsToImplicitVCC(Inst32, Src2);
				2806	}
				2807	}
				2808
				2809	return Inst32;
Matt Arsenault	35b1902	2018-08-28 18:22:34 +0000	[diff] [blame]	2810	}
				2811
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2812	bool SIInstrInfo::usesConstantBus(const MachineRegisterInfo &MRI,
Matt Arsenault	11a4d67	2015-02-13 19:05:03 +0000	[diff] [blame]	2813	const MachineOperand &MO,
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2814	const MCOperandInfo &OpInfo) const {
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2815	// Literal constants use the constant bus.
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2816	//if (isLiteralConstantLike(MO, OpInfo))
				2817	// return true;
				2818	if (MO.isImm())
				2819	return !isInlineConstant(MO, OpInfo);
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2820
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2821	if (!MO.isReg())
				2822	return true; // Misc other operands like FrameIndex
				2823
				2824	if (!MO.isUse())
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2825	return false;
				2826
				2827	if (TargetRegisterInfo::isVirtualRegister(MO.getReg()))
				2828	return RI.isSGPRClass(MRI.getRegClass(MO.getReg()));
				2829
Dmitry Preobrazhensky	9111f35	2019-06-03 13:51:24 +0000	[diff] [blame]	2830	// Null is free
				2831	if (MO.getReg() == AMDGPU::SGPR_NULL)
				2832	return false;
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2833
				2834	// SGPRs use the constant bus
Dmitry Preobrazhensky	9111f35	2019-06-03 13:51:24 +0000	[diff] [blame]	2835	if (MO.isImplicit()) {
				2836	return MO.getReg() == AMDGPU::M0 \|\|
				2837	MO.getReg() == AMDGPU::VCC \|\|
				2838	MO.getReg() == AMDGPU::VCC_LO;
				2839	} else {
				2840	return AMDGPU::SReg_32RegClass.contains(MO.getReg()) \|\|
				2841	AMDGPU::SReg_64RegClass.contains(MO.getReg());
				2842	}
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2843	}
				2844
Matt Arsenault	e223ceb	2015-10-21 21:15:01 +0000	[diff] [blame]	2845	static unsigned findImplicitSGPRRead(const MachineInstr &MI) {
				2846	for (const MachineOperand &MO : MI.implicit_operands()) {
				2847	// We only care about reads.
				2848	if (MO.isDef())
				2849	continue;
				2850
				2851	switch (MO.getReg()) {
				2852	case AMDGPU::VCC:
				2853	case AMDGPU::M0:
				2854	case AMDGPU::FLAT_SCR:
				2855	return MO.getReg();
				2856
				2857	default:
				2858	break;
				2859	}
				2860	}
				2861
				2862	return AMDGPU::NoRegister;
				2863	}
				2864
Matt Arsenault	529cf25	2016-06-23 01:26:16 +0000	[diff] [blame]	2865	static bool shouldReadExec(const MachineInstr &MI) {
				2866	if (SIInstrInfo::isVALU(MI)) {
				2867	switch (MI.getOpcode()) {
				2868	case AMDGPU::V_READLANE_B32:
Stanislav Mekhanoshin	8f3da70	2019-04-26 16:37:51 +0000	[diff] [blame]	2869	case AMDGPU::V_READLANE_B32_gfx6_gfx7:
Stanislav Mekhanoshin	61beff0	2019-04-26 17:56:03 +0000	[diff] [blame]	2870	case AMDGPU::V_READLANE_B32_gfx10:
Matt Arsenault	529cf25	2016-06-23 01:26:16 +0000	[diff] [blame]	2871	case AMDGPU::V_READLANE_B32_vi:
				2872	case AMDGPU::V_WRITELANE_B32:
Stanislav Mekhanoshin	8f3da70	2019-04-26 16:37:51 +0000	[diff] [blame]	2873	case AMDGPU::V_WRITELANE_B32_gfx6_gfx7:
Stanislav Mekhanoshin	61beff0	2019-04-26 17:56:03 +0000	[diff] [blame]	2874	case AMDGPU::V_WRITELANE_B32_gfx10:
Matt Arsenault	529cf25	2016-06-23 01:26:16 +0000	[diff] [blame]	2875	case AMDGPU::V_WRITELANE_B32_vi:
				2876	return false;
				2877	}
				2878
				2879	return true;
				2880	}
				2881
				2882	if (SIInstrInfo::isGenericOpcode(MI.getOpcode()) \|\|
				2883	SIInstrInfo::isSALU(MI) \|\|
				2884	SIInstrInfo::isSMRD(MI))
				2885	return false;
				2886
				2887	return true;
				2888	}
				2889
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	2890	static bool isSubRegOf(const SIRegisterInfo &TRI,
				2891	const MachineOperand &SuperVec,
				2892	const MachineOperand &SubReg) {
				2893	if (TargetRegisterInfo::isPhysicalRegister(SubReg.getReg()))
				2894	return TRI.isSubRegister(SuperVec.getReg(), SubReg.getReg());
				2895
				2896	return SubReg.getSubReg() != AMDGPU::NoSubRegister &&
				2897	SubReg.getReg() == SuperVec.getReg();
				2898	}
				2899
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2900	bool SIInstrInfo::verifyInstruction(const MachineInstr &MI,
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	2901	StringRef &ErrInfo) const {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2902	uint16_t Opcode = MI.getOpcode();
Tom Stellard	dde28a8	2017-05-26 16:40:03 +0000	[diff] [blame]	2903	if (SIInstrInfo::isGenericOpcode(MI.getOpcode()))
				2904	return true;
				2905
Matt Arsenault	89ad17c	2017-06-12 16:37:55 +0000	[diff] [blame]	2906	const MachineFunction *MF = MI.getParent()->getParent();
				2907	const MachineRegisterInfo &MRI = MF->getRegInfo();
				2908
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	2909	int Src0Idx = AMDGPU::getNamedOperandIdx(Opcode, AMDGPU::OpName::src0);
				2910	int Src1Idx = AMDGPU::getNamedOperandIdx(Opcode, AMDGPU::OpName::src1);
				2911	int Src2Idx = AMDGPU::getNamedOperandIdx(Opcode, AMDGPU::OpName::src2);
				2912
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	2913	// Make sure the number of operands is correct.
				2914	const MCInstrDesc &Desc = get(Opcode);
				2915	if (!Desc.isVariadic() &&
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2916	Desc.getNumOperands() != MI.getNumExplicitOperands()) {
				2917	ErrInfo = "Instruction has wrong number of operands.";
				2918	return false;
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	2919	}
				2920
Matt Arsenault	3d46319	2016-11-01 22:55:07 +0000	[diff] [blame]	2921	if (MI.isInlineAsm()) {
				2922	// Verify register classes for inlineasm constraints.
				2923	for (unsigned I = InlineAsm::MIOp_FirstOperand, E = MI.getNumOperands();
				2924	I != E; ++I) {
				2925	const TargetRegisterClass *RC = MI.getRegClassConstraint(I, this, &RI);
				2926	if (!RC)
				2927	continue;
				2928
				2929	const MachineOperand &Op = MI.getOperand(I);
				2930	if (!Op.isReg())
				2931	continue;
				2932
				2933	unsigned Reg = Op.getReg();
				2934	if (!TargetRegisterInfo::isVirtualRegister(Reg) && !RC->contains(Reg)) {
				2935	ErrInfo = "inlineasm operand has incorrect register class.";
				2936	return false;
				2937	}
				2938	}
				2939
				2940	return true;
				2941	}
				2942
Changpeng Fang	c996393	2015-12-18 20:04:28 +0000	[diff] [blame]	2943	// Make sure the register classes are correct.
Tom Stellard	b4a313a	2014-08-01 00:32:39 +0000	[diff] [blame]	2944	for (int i = 0, e = Desc.getNumOperands(); i != e; ++i) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2945	if (MI.getOperand(i).isFPImm()) {
Tom Stellard	fb77f00	2015-01-13 22:59:41 +0000	[diff] [blame]	2946	ErrInfo = "FPImm Machine Operands are not supported. ISel should bitcast "
				2947	"all fp values to integers.";
				2948	return false;
				2949	}
				2950
Marek Olsak	8eeebcc	2015-02-18 22:12:41 +0000	[diff] [blame]	2951	int RegClass = Desc.OpInfo[i].RegClass;
				2952
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	2953	switch (Desc.OpInfo[i].OperandType) {
Tom Stellard	1106b1c	2015-01-20 17:49:41 +0000	[diff] [blame]	2954	case MCOI::OPERAND_REGISTER:
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2955	if (MI.getOperand(i).isImm()) {
Tom Stellard	1106b1c	2015-01-20 17:49:41 +0000	[diff] [blame]	2956	ErrInfo = "Illegal immediate value for operand.";
				2957	return false;
				2958	}
				2959	break;
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2960	case AMDGPU::OPERAND_REG_IMM_INT32:
				2961	case AMDGPU::OPERAND_REG_IMM_FP32:
Tom Stellard	1106b1c	2015-01-20 17:49:41 +0000	[diff] [blame]	2962	break;
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2963	case AMDGPU::OPERAND_REG_INLINE_C_INT32:
				2964	case AMDGPU::OPERAND_REG_INLINE_C_FP32:
				2965	case AMDGPU::OPERAND_REG_INLINE_C_INT64:
				2966	case AMDGPU::OPERAND_REG_INLINE_C_FP64:
				2967	case AMDGPU::OPERAND_REG_INLINE_C_INT16:
				2968	case AMDGPU::OPERAND_REG_INLINE_C_FP16: {
				2969	const MachineOperand &MO = MI.getOperand(i);
				2970	if (!MO.isReg() && (!MO.isImm() \|\| !isInlineConstant(MI, i))) {
Marek Olsak	8eeebcc	2015-02-18 22:12:41 +0000	[diff] [blame]	2971	ErrInfo = "Illegal immediate value for operand.";
				2972	return false;
Tom Stellard	a305f93	2014-07-02 20:53:44 +0000	[diff] [blame]	2973	}
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	2974	break;
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2975	}
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	2976	case MCOI::OPERAND_IMMEDIATE:
Matt Arsenault	ffc8275	2016-07-05 17:09:01 +0000	[diff] [blame]	2977	case AMDGPU::OPERAND_KIMM32:
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	2978	// Check if this operand is an immediate.
				2979	// FrameIndex operands will be replaced by immediates, so they are
				2980	// allowed.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2981	if (!MI.getOperand(i).isImm() && !MI.getOperand(i).isFI()) {
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	2982	ErrInfo = "Expected immediate, but got non-immediate";
				2983	return false;
				2984	}
Justin Bogner	b03fd12	2016-08-17 05:10:15 +0000	[diff] [blame]	2985	LLVM_FALLTHROUGH;
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	2986	default:
				2987	continue;
				2988	}
				2989
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2990	if (!MI.getOperand(i).isReg())
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	2991	continue;
				2992
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	2993	if (RegClass != -1) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2994	unsigned Reg = MI.getOperand(i).getReg();
Matt Arsenault	1322b6f	2016-07-09 01:13:56 +0000	[diff] [blame]	2995	if (Reg == AMDGPU::NoRegister \|\|
				2996	TargetRegisterInfo::isVirtualRegister(Reg))
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	2997	continue;
				2998
				2999	const TargetRegisterClass *RC = RI.getRegClass(RegClass);
				3000	if (!RC->contains(Reg)) {
				3001	ErrInfo = "Operand has incorrect register class.";
				3002	return false;
				3003	}
				3004	}
				3005	}
				3006
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3007	// Verify SDWA
				3008	if (isSDWA(MI)) {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3009	if (!ST.hasSDWA()) {
				3010	ErrInfo = "SDWA is not supported on this target";
				3011	return false;
				3012	}
				3013
				3014	int DstIdx = AMDGPU::getNamedOperandIdx(Opcode, AMDGPU::OpName::vdst);
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3015
				3016	const int OpIndicies[] = { DstIdx, Src0Idx, Src1Idx, Src2Idx };
				3017
				3018	for (int OpIdx: OpIndicies) {
				3019	if (OpIdx == -1)
				3020	continue;
				3021	const MachineOperand &MO = MI.getOperand(OpIdx);
				3022
Sam Kolton	3c4933f	2017-06-22 06:26:41 +0000	[diff] [blame]	3023	if (!ST.hasSDWAScalar()) {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3024	// Only VGPRS on VI
				3025	if (!MO.isReg() \|\| !RI.hasVGPRs(RI.getRegClassForReg(MRI, MO.getReg()))) {
				3026	ErrInfo = "Only VGPRs allowed as operands in SDWA instructions on VI";
				3027	return false;
				3028	}
				3029	} else {
				3030	// No immediates on GFX9
				3031	if (!MO.isReg()) {
				3032	ErrInfo = "Only reg allowed as operands in SDWA instructions on GFX9";
				3033	return false;
				3034	}
				3035	}
				3036	}
				3037
Sam Kolton	3c4933f	2017-06-22 06:26:41 +0000	[diff] [blame]	3038	if (!ST.hasSDWAOmod()) {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3039	// No omod allowed on VI
				3040	const MachineOperand *OMod = getNamedOperand(MI, AMDGPU::OpName::omod);
				3041	if (OMod != nullptr &&
				3042	(!OMod->isImm() \|\| OMod->getImm() != 0)) {
				3043	ErrInfo = "OMod not allowed in SDWA instructions on VI";
				3044	return false;
				3045	}
				3046	}
				3047
				3048	uint16_t BasicOpcode = AMDGPU::getBasicFromSDWAOp(Opcode);
				3049	if (isVOPC(BasicOpcode)) {
Sam Kolton	3c4933f	2017-06-22 06:26:41 +0000	[diff] [blame]	3050	if (!ST.hasSDWASdst() && DstIdx != -1) {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3051	// Only vcc allowed as dst on VI for VOPC
				3052	const MachineOperand &Dst = MI.getOperand(DstIdx);
				3053	if (!Dst.isReg() \|\| Dst.getReg() != AMDGPU::VCC) {
				3054	ErrInfo = "Only VCC allowed as dst in SDWA instructions on VI";
				3055	return false;
				3056	}
Sam Kolton	a179d25	2017-06-27 15:02:23 +0000	[diff] [blame]	3057	} else if (!ST.hasSDWAOutModsVOPC()) {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3058	// No clamp allowed on GFX9 for VOPC
				3059	const MachineOperand *Clamp = getNamedOperand(MI, AMDGPU::OpName::clamp);
Sam Kolton	a179d25	2017-06-27 15:02:23 +0000	[diff] [blame]	3060	if (Clamp && (!Clamp->isImm() \|\| Clamp->getImm() != 0)) {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3061	ErrInfo = "Clamp not allowed in VOPC SDWA instructions on VI";
				3062	return false;
				3063	}
Sam Kolton	a179d25	2017-06-27 15:02:23 +0000	[diff] [blame]	3064
				3065	// No omod allowed on GFX9 for VOPC
				3066	const MachineOperand *OMod = getNamedOperand(MI, AMDGPU::OpName::omod);
				3067	if (OMod && (!OMod->isImm() \|\| OMod->getImm() != 0)) {
				3068	ErrInfo = "OMod not allowed in VOPC SDWA instructions on VI";
				3069	return false;
				3070	}
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3071	}
				3072	}
Sam Kolton	5f7f32c	2017-12-04 16:22:32 +0000	[diff] [blame]	3073
				3074	const MachineOperand *DstUnused = getNamedOperand(MI, AMDGPU::OpName::dst_unused);
				3075	if (DstUnused && DstUnused->isImm() &&
				3076	DstUnused->getImm() == AMDGPU::SDWA::UNUSED_PRESERVE) {
				3077	const MachineOperand &Dst = MI.getOperand(DstIdx);
				3078	if (!Dst.isReg() \|\| !Dst.isTied()) {
				3079	ErrInfo = "Dst register should have tied register";
				3080	return false;
				3081	}
				3082
				3083	const MachineOperand &TiedMO =
				3084	MI.getOperand(MI.findTiedOperandIdx(DstIdx));
				3085	if (!TiedMO.isReg() \|\| !TiedMO.isImplicit() \|\| !TiedMO.isUse()) {
				3086	ErrInfo =
				3087	"Dst register should be tied to implicit use of preserved register";
				3088	return false;
				3089	} else if (TargetRegisterInfo::isPhysicalRegister(TiedMO.getReg()) &&
				3090	Dst.getReg() != TiedMO.getReg()) {
				3091	ErrInfo = "Dst register should use same physical register as preserved";
				3092	return false;
				3093	}
				3094	}
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3095	}
				3096
David Stuttard	f77079f	2019-01-14 11:55:24 +0000	[diff] [blame]	3097	// Verify MIMG
				3098	if (isMIMG(MI.getOpcode()) && !MI.mayStore()) {
				3099	// Ensure that the return type used is large enough for all the options
				3100	// being used TFE/LWE require an extra result register.
				3101	const MachineOperand *DMask = getNamedOperand(MI, AMDGPU::OpName::dmask);
				3102	if (DMask) {
				3103	uint64_t DMaskImm = DMask->getImm();
				3104	uint32_t RegCount =
				3105	isGather4(MI.getOpcode()) ? 4 : countPopulation(DMaskImm);
				3106	const MachineOperand *TFE = getNamedOperand(MI, AMDGPU::OpName::tfe);
				3107	const MachineOperand *LWE = getNamedOperand(MI, AMDGPU::OpName::lwe);
				3108	const MachineOperand *D16 = getNamedOperand(MI, AMDGPU::OpName::d16);
				3109
				3110	// Adjust for packed 16 bit values
				3111	if (D16 && D16->getImm() && !ST.hasUnpackedD16VMem())
				3112	RegCount >>= 1;
				3113
				3114	// Adjust if using LWE or TFE
				3115	if ((LWE && LWE->getImm()) \|\| (TFE && TFE->getImm()))
				3116	RegCount += 1;
				3117
				3118	const uint32_t DstIdx =
				3119	AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::vdata);
				3120	const MachineOperand &Dst = MI.getOperand(DstIdx);
				3121	if (Dst.isReg()) {
				3122	const TargetRegisterClass *DstRC = getOpRegClass(MI, DstIdx);
				3123	uint32_t DstSize = RI.getRegSizeInBits(*DstRC) / 32;
				3124	if (RegCount > DstSize) {
				3125	ErrInfo = "MIMG instruction returns too many registers for dst "
				3126	"register class";
				3127	return false;
				3128	}
				3129	}
				3130	}
				3131	}
				3132
Tim Renouf	2a99fa2	2018-02-28 19:10:32 +0000	[diff] [blame]	3133	// Verify VOP*. Ignore multiple sgpr operands on writelane.
				3134	if (Desc.getOpcode() != AMDGPU::V_WRITELANE_B32
				3135	&& (isVOP1(MI) \|\| isVOP2(MI) \|\| isVOP3(MI) \|\| isVOPC(MI) \|\| isSDWA(MI))) {
Matt Arsenault	e368cb3	2014-12-11 23:37:32 +0000	[diff] [blame]	3136	// Only look at the true operands. Only a real operand can use the constant
				3137	// bus, and we don't want to check pseudo-operands like the source modifier
				3138	// flags.
				3139	const int OpIndices[] = { Src0Idx, Src1Idx, Src2Idx };
				3140
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	3141	unsigned ConstantBusCount = 0;
Stanislav Mekhanoshin	a4bfb3c	2018-04-24 18:17:55 +0000	[diff] [blame]	3142	unsigned LiteralCount = 0;
Matt Arsenault	ffc8275	2016-07-05 17:09:01 +0000	[diff] [blame]	3143
				3144	if (AMDGPU::getNamedOperandIdx(Opcode, AMDGPU::OpName::imm) != -1)
				3145	++ConstantBusCount;
				3146
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3147	SmallVector<unsigned, 2> SGPRsUsed;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3148	unsigned SGPRUsed = findImplicitSGPRRead(MI);
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3149	if (SGPRUsed != AMDGPU::NoRegister) {
Matt Arsenault	e223ceb	2015-10-21 21:15:01 +0000	[diff] [blame]	3150	++ConstantBusCount;
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3151	SGPRsUsed.push_back(SGPRUsed);
				3152	}
Matt Arsenault	e223ceb	2015-10-21 21:15:01 +0000	[diff] [blame]	3153
Matt Arsenault	e368cb3	2014-12-11 23:37:32 +0000	[diff] [blame]	3154	for (int OpIdx : OpIndices) {
				3155	if (OpIdx == -1)
				3156	break;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3157	const MachineOperand &MO = MI.getOperand(OpIdx);
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	3158	if (usesConstantBus(MRI, MO, MI.getDesc().OpInfo[OpIdx])) {
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	3159	if (MO.isReg()) {
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	3160	SGPRUsed = MO.getReg();
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3161	if (llvm::all_of(SGPRsUsed, [this, SGPRUsed](unsigned SGPR) {
				3162	return !RI.regsOverlap(SGPRUsed, SGPR);
				3163	})) {
				3164	++ConstantBusCount;
				3165	SGPRsUsed.push_back(SGPRUsed);
				3166	}
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	3167	} else {
				3168	++ConstantBusCount;
Stanislav Mekhanoshin	a4bfb3c	2018-04-24 18:17:55 +0000	[diff] [blame]	3169	++LiteralCount;
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	3170	}
				3171	}
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	3172	}
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3173	const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();
				3174	// v_writelane_b32 is an exception from constant bus restriction:
				3175	// vsrc0 can be sgpr, const or m0 and lane select sgpr, m0 or inline-const
				3176	if (ConstantBusCount > ST.getConstantBusLimit(Opcode) &&
				3177	Opcode != AMDGPU::V_WRITELANE_B32) {
				3178	ErrInfo = "VOP* instruction violates constant bus restriction";
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	3179	return false;
				3180	}
Stanislav Mekhanoshin	a4bfb3c	2018-04-24 18:17:55 +0000	[diff] [blame]	3181
				3182	if (isVOP3(MI) && LiteralCount) {
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3183	if (LiteralCount && !ST.hasVOP3Literal()) {
				3184	ErrInfo = "VOP3 instruction uses literal";
				3185	return false;
				3186	}
				3187	if (LiteralCount > 1) {
				3188	ErrInfo = "VOP3 instruction uses more than one literal";
				3189	return false;
				3190	}
Stanislav Mekhanoshin	a4bfb3c	2018-04-24 18:17:55 +0000	[diff] [blame]	3191	}
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	3192	}
				3193
Matt Arsenault	becb140	2014-06-23 18:28:31 +0000	[diff] [blame]	3194	// Verify misc. restrictions on specific instructions.
				3195	if (Desc.getOpcode() == AMDGPU::V_DIV_SCALE_F32 \|\|
				3196	Desc.getOpcode() == AMDGPU::V_DIV_SCALE_F64) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3197	const MachineOperand &Src0 = MI.getOperand(Src0Idx);
				3198	const MachineOperand &Src1 = MI.getOperand(Src1Idx);
				3199	const MachineOperand &Src2 = MI.getOperand(Src2Idx);
Matt Arsenault	becb140	2014-06-23 18:28:31 +0000	[diff] [blame]	3200	if (Src0.isReg() && Src1.isReg() && Src2.isReg()) {
				3201	if (!compareMachineOp(Src0, Src1) &&
				3202	!compareMachineOp(Src0, Src2)) {
				3203	ErrInfo = "v_div_scale_{f32\|f64} require src0 = src1 or src2";
				3204	return false;
				3205	}
				3206	}
				3207	}
				3208
Nicolai Haehnle	79ea85c	2019-05-07 09:19:09 +0000	[diff] [blame]	3209	if (isSOP2(MI) \|\| isSOPC(MI)) {
				3210	const MachineOperand &Src0 = MI.getOperand(Src0Idx);
				3211	const MachineOperand &Src1 = MI.getOperand(Src1Idx);
				3212	unsigned Immediates = 0;
				3213
				3214	if (!Src0.isReg() &&
				3215	!isInlineConstant(Src0, Desc.OpInfo[Src0Idx].OperandType))
				3216	Immediates++;
				3217	if (!Src1.isReg() &&
				3218	!isInlineConstant(Src1, Desc.OpInfo[Src1Idx].OperandType))
				3219	Immediates++;
				3220
				3221	if (Immediates > 1) {
				3222	ErrInfo = "SOP2/SOPC instruction requires too many immediate constants";
				3223	return false;
				3224	}
				3225	}
				3226
Matt Arsenault	7ccf6cd	2016-09-16 21:41:16 +0000	[diff] [blame]	3227	if (isSOPK(MI)) {
Stanislav Mekhanoshin	491746a	2019-05-06 22:49:45 +0000	[diff] [blame]	3228	auto Op = getNamedOperand(MI, AMDGPU::OpName::simm16);
				3229	if (Desc.isBranch()) {
				3230	if (!Op->isMBB()) {
				3231	ErrInfo = "invalid branch target for SOPK instruction";
Matt Arsenault	7ccf6cd	2016-09-16 21:41:16 +0000	[diff] [blame]	3232	return false;
				3233	}
				3234	} else {
Stanislav Mekhanoshin	491746a	2019-05-06 22:49:45 +0000	[diff] [blame]	3235	uint64_t Imm = Op->getImm();
				3236	if (sopkIsZext(MI)) {
				3237	if (!isUInt<16>(Imm)) {
				3238	ErrInfo = "invalid immediate for SOPK instruction";
				3239	return false;
				3240	}
				3241	} else {
				3242	if (!isInt<16>(Imm)) {
				3243	ErrInfo = "invalid immediate for SOPK instruction";
				3244	return false;
				3245	}
Matt Arsenault	7ccf6cd	2016-09-16 21:41:16 +0000	[diff] [blame]	3246	}
				3247	}
				3248	}
				3249
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	3250	if (Desc.getOpcode() == AMDGPU::V_MOVRELS_B32_e32 \|\|
				3251	Desc.getOpcode() == AMDGPU::V_MOVRELS_B32_e64 \|\|
				3252	Desc.getOpcode() == AMDGPU::V_MOVRELD_B32_e32 \|\|
				3253	Desc.getOpcode() == AMDGPU::V_MOVRELD_B32_e64) {
				3254	const bool IsDst = Desc.getOpcode() == AMDGPU::V_MOVRELD_B32_e32 \|\|
				3255	Desc.getOpcode() == AMDGPU::V_MOVRELD_B32_e64;
				3256
				3257	const unsigned StaticNumOps = Desc.getNumOperands() +
				3258	Desc.getNumImplicitUses();
				3259	const unsigned NumImplicitOps = IsDst ? 2 : 1;
				3260
Nicolai Haehnle	368972c	2016-11-02 17:03:11 +0000	[diff] [blame]	3261	// Allow additional implicit operands. This allows a fixup done by the post
				3262	// RA scheduler where the main implicit operand is killed and implicit-defs
				3263	// are added for sub-registers that remain live after this instruction.
				3264	if (MI.getNumOperands() < StaticNumOps + NumImplicitOps) {
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	3265	ErrInfo = "missing implicit register operands";
				3266	return false;
				3267	}
				3268
				3269	const MachineOperand *Dst = getNamedOperand(MI, AMDGPU::OpName::vdst);
				3270	if (IsDst) {
				3271	if (!Dst->isUse()) {
				3272	ErrInfo = "v_movreld_b32 vdst should be a use operand";
				3273	return false;
				3274	}
				3275
				3276	unsigned UseOpIdx;
				3277	if (!MI.isRegTiedToUseOperand(StaticNumOps, &UseOpIdx) \|\|
				3278	UseOpIdx != StaticNumOps + 1) {
				3279	ErrInfo = "movrel implicit operands should be tied";
				3280	return false;
				3281	}
				3282	}
				3283
				3284	const MachineOperand &Src0 = MI.getOperand(Src0Idx);
				3285	const MachineOperand &ImpUse
				3286	= MI.getOperand(StaticNumOps + NumImplicitOps - 1);
				3287	if (!ImpUse.isReg() \|\| !ImpUse.isUse() \|\|
				3288	!isSubRegOf(RI, ImpUse, IsDst ? *Dst : Src0)) {
				3289	ErrInfo = "src0 should be subreg of implicit vector use";
				3290	return false;
				3291	}
				3292	}
				3293
Matt Arsenault	d092a06	2015-10-02 18:58:37 +0000	[diff] [blame]	3294	// Make sure we aren't losing exec uses in the td files. This mostly requires
				3295	// being careful when using let Uses to try to add other use registers.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3296	if (shouldReadExec(MI)) {
				3297	if (!MI.hasRegisterImplicitUseOperand(AMDGPU::EXEC)) {
Matt Arsenault	d092a06	2015-10-02 18:58:37 +0000	[diff] [blame]	3298	ErrInfo = "VALU instruction does not implicitly read exec mask";
				3299	return false;
				3300	}
				3301	}
				3302
Matt Arsenault	7b64755	2016-10-28 21:55:15 +0000	[diff] [blame]	3303	if (isSMRD(MI)) {
				3304	if (MI.mayStore()) {
				3305	// The register offset form of scalar stores may only use m0 as the
				3306	// soffset register.
				3307	const MachineOperand *Soff = getNamedOperand(MI, AMDGPU::OpName::soff);
				3308	if (Soff && Soff->getReg() != AMDGPU::M0) {
				3309	ErrInfo = "scalar stores must use m0 as offset register";
				3310	return false;
				3311	}
				3312	}
				3313	}
				3314
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	3315	if (isFLAT(MI) && !MF->getSubtarget<GCNSubtarget>().hasFlatInstOffsets()) {
Matt Arsenault	89ad17c	2017-06-12 16:37:55 +0000	[diff] [blame]	3316	const MachineOperand *Offset = getNamedOperand(MI, AMDGPU::OpName::offset);
				3317	if (Offset->getImm() != 0) {
				3318	ErrInfo = "subtarget does not support offsets in flat instructions";
				3319	return false;
				3320	}
				3321	}
				3322
Stanislav Mekhanoshin	692560d	2019-05-01 16:32:58 +0000	[diff] [blame]	3323	if (isMIMG(MI)) {
				3324	const MachineOperand *DimOp = getNamedOperand(MI, AMDGPU::OpName::dim);
				3325	if (DimOp) {
				3326	int VAddr0Idx = AMDGPU::getNamedOperandIdx(Opcode,
				3327	AMDGPU::OpName::vaddr0);
				3328	int SRsrcIdx = AMDGPU::getNamedOperandIdx(Opcode, AMDGPU::OpName::srsrc);
				3329	const AMDGPU::MIMGInfo *Info = AMDGPU::getMIMGInfo(Opcode);
				3330	const AMDGPU::MIMGBaseOpcodeInfo *BaseOpcode =
				3331	AMDGPU::getMIMGBaseOpcodeInfo(Info->BaseOpcode);
				3332	const AMDGPU::MIMGDimInfo *Dim =
				3333	AMDGPU::getMIMGDimInfoByEncoding(DimOp->getImm());
				3334
				3335	if (!Dim) {
				3336	ErrInfo = "dim is out of range";
				3337	return false;
				3338	}
				3339
				3340	bool IsNSA = SRsrcIdx - VAddr0Idx > 1;
				3341	unsigned AddrWords = BaseOpcode->NumExtraArgs +
				3342	(BaseOpcode->Gradients ? Dim->NumGradients : 0) +
				3343	(BaseOpcode->Coordinates ? Dim->NumCoords : 0) +
				3344	(BaseOpcode->LodOrClampOrMip ? 1 : 0);
				3345
				3346	unsigned VAddrWords;
				3347	if (IsNSA) {
				3348	VAddrWords = SRsrcIdx - VAddr0Idx;
				3349	} else {
				3350	const TargetRegisterClass *RC = getOpRegClass(MI, VAddr0Idx);
				3351	VAddrWords = MRI.getTargetRegisterInfo()->getRegSizeInBits(*RC) / 32;
				3352	if (AddrWords > 8)
				3353	AddrWords = 16;
				3354	else if (AddrWords > 4)
				3355	AddrWords = 8;
				3356	else if (AddrWords == 3 && VAddrWords == 4) {
				3357	// CodeGen uses the V4 variant of instructions for three addresses,
				3358	// because the selection DAG does not support non-power-of-two types.
				3359	AddrWords = 4;
				3360	}
				3361	}
				3362
				3363	if (VAddrWords != AddrWords) {
				3364	ErrInfo = "bad vaddr size";
				3365	return false;
				3366	}
				3367	}
				3368	}
				3369
Stanislav Mekhanoshin	4329361	2018-05-08 16:53:02 +0000	[diff] [blame]	3370	const MachineOperand *DppCt = getNamedOperand(MI, AMDGPU::OpName::dpp_ctrl);
				3371	if (DppCt) {
				3372	using namespace AMDGPU::DPP;
				3373
				3374	unsigned DC = DppCt->getImm();
				3375	if (DC == DppCtrl::DPP_UNUSED1 \|\| DC == DppCtrl::DPP_UNUSED2 \|\|
				3376	DC == DppCtrl::DPP_UNUSED3 \|\| DC > DppCtrl::DPP_LAST \|\|
				3377	(DC >= DppCtrl::DPP_UNUSED4_FIRST && DC <= DppCtrl::DPP_UNUSED4_LAST) \|\|
				3378	(DC >= DppCtrl::DPP_UNUSED5_FIRST && DC <= DppCtrl::DPP_UNUSED5_LAST) \|\|
				3379	(DC >= DppCtrl::DPP_UNUSED6_FIRST && DC <= DppCtrl::DPP_UNUSED6_LAST) \|\|
				3380	(DC >= DppCtrl::DPP_UNUSED7_FIRST && DC <= DppCtrl::DPP_UNUSED7_LAST)) {
				3381	ErrInfo = "Invalid dpp_ctrl value";
				3382	return false;
				3383	}
				3384	}
				3385
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	3386	return true;
				3387	}
				3388
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	3389	unsigned SIInstrInfo::getVALUOp(const MachineInstr &MI) const {
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3390	switch (MI.getOpcode()) {
				3391	default: return AMDGPU::INSTRUCTION_LIST_END;
				3392	case AMDGPU::REG_SEQUENCE: return AMDGPU::REG_SEQUENCE;
				3393	case AMDGPU::COPY: return AMDGPU::COPY;
				3394	case AMDGPU::PHI: return AMDGPU::PHI;
Tom Stellard	204e61b	2014-04-07 19:45:45 +0000	[diff] [blame]	3395	case AMDGPU::INSERT_SUBREG: return AMDGPU::INSERT_SUBREG;
Connor Abbott	8c217d0	2017-08-04 18:36:49 +0000	[diff] [blame]	3396	case AMDGPU::WQM: return AMDGPU::WQM;
Connor Abbott	92638ab	2017-08-04 18:36:52 +0000	[diff] [blame]	3397	case AMDGPU::WWM: return AMDGPU::WWM;
Tom Stellard	e038720	2014-03-21 15:51:54 +0000	[diff] [blame]	3398	case AMDGPU::S_MOV_B32:
				3399	return MI.getOperand(1).isReg() ?
Tom Stellard	8c12fd9	2014-03-24 16:12:34 +0000	[diff] [blame]	3400	AMDGPU::COPY : AMDGPU::V_MOV_B32_e32;
Tom Stellard	80942a1	2014-09-05 14:07:59 +0000	[diff] [blame]	3401	case AMDGPU::S_ADD_I32:
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	3402	return ST.hasAddNoCarry() ? AMDGPU::V_ADD_U32_e64 : AMDGPU::V_ADD_I32_e32;
				3403	case AMDGPU::S_ADDC_U32:
				3404	return AMDGPU::V_ADDC_U32_e32;
Tom Stellard	80942a1	2014-09-05 14:07:59 +0000	[diff] [blame]	3405	case AMDGPU::S_SUB_I32:
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	3406	return ST.hasAddNoCarry() ? AMDGPU::V_SUB_U32_e64 : AMDGPU::V_SUB_I32_e32;
				3407	// FIXME: These are not consistently handled, and selected when the carry is
				3408	// used.
				3409	case AMDGPU::S_ADD_U32:
				3410	return AMDGPU::V_ADD_I32_e32;
				3411	case AMDGPU::S_SUB_U32:
				3412	return AMDGPU::V_SUB_I32_e32;
Matt Arsenault	43b8e4e	2013-11-18 20:09:29 +0000	[diff] [blame]	3413	case AMDGPU::S_SUBB_U32: return AMDGPU::V_SUBB_U32_e32;
Stanislav Mekhanoshin	971cb8b	2019-05-06 22:27:05 +0000	[diff] [blame]	3414	case AMDGPU::S_MUL_I32: return AMDGPU::V_MUL_LO_U32;
Michael Liao	efb4f9e	2019-03-18 20:40:09 +0000	[diff] [blame]	3415	case AMDGPU::S_MUL_HI_U32: return AMDGPU::V_MUL_HI_U32;
				3416	case AMDGPU::S_MUL_HI_I32: return AMDGPU::V_MUL_HI_I32;
Matt Arsenault	124384f	2016-09-09 23:32:53 +0000	[diff] [blame]	3417	case AMDGPU::S_AND_B32: return AMDGPU::V_AND_B32_e64;
				3418	case AMDGPU::S_OR_B32: return AMDGPU::V_OR_B32_e64;
				3419	case AMDGPU::S_XOR_B32: return AMDGPU::V_XOR_B32_e64;
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	3420	case AMDGPU::S_XNOR_B32:
				3421	return ST.hasDLInsts() ? AMDGPU::V_XNOR_B32_e64 : AMDGPU::INSTRUCTION_LIST_END;
Matt Arsenault	124384f	2016-09-09 23:32:53 +0000	[diff] [blame]	3422	case AMDGPU::S_MIN_I32: return AMDGPU::V_MIN_I32_e64;
				3423	case AMDGPU::S_MIN_U32: return AMDGPU::V_MIN_U32_e64;
				3424	case AMDGPU::S_MAX_I32: return AMDGPU::V_MAX_I32_e64;
				3425	case AMDGPU::S_MAX_U32: return AMDGPU::V_MAX_U32_e64;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3426	case AMDGPU::S_ASHR_I32: return AMDGPU::V_ASHR_I32_e32;
				3427	case AMDGPU::S_ASHR_I64: return AMDGPU::V_ASHR_I64;
				3428	case AMDGPU::S_LSHL_B32: return AMDGPU::V_LSHL_B32_e32;
				3429	case AMDGPU::S_LSHL_B64: return AMDGPU::V_LSHL_B64;
				3430	case AMDGPU::S_LSHR_B32: return AMDGPU::V_LSHR_B32_e32;
				3431	case AMDGPU::S_LSHR_B64: return AMDGPU::V_LSHR_B64;
Matt Arsenault	27cc958	2014-04-18 01:53:18 +0000	[diff] [blame]	3432	case AMDGPU::S_SEXT_I32_I8: return AMDGPU::V_BFE_I32;
				3433	case AMDGPU::S_SEXT_I32_I16: return AMDGPU::V_BFE_I32;
Matt Arsenault	78b8670	2014-04-18 05:19:26 +0000	[diff] [blame]	3434	case AMDGPU::S_BFE_U32: return AMDGPU::V_BFE_U32;
				3435	case AMDGPU::S_BFE_I32: return AMDGPU::V_BFE_I32;
Marek Olsak	63a7b08	2015-03-24 13:40:21 +0000	[diff] [blame]	3436	case AMDGPU::S_BFM_B32: return AMDGPU::V_BFM_B32_e64;
Matt Arsenault	43160e7	2014-06-18 17:13:57 +0000	[diff] [blame]	3437	case AMDGPU::S_BREV_B32: return AMDGPU::V_BFREV_B32_e32;
Matt Arsenault	2c33562	2014-04-09 07:16:16 +0000	[diff] [blame]	3438	case AMDGPU::S_NOT_B32: return AMDGPU::V_NOT_B32_e32;
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	3439	case AMDGPU::S_NOT_B64: return AMDGPU::V_NOT_B32_e32;
Matt Arsenault	0cb92e1	2014-04-11 19:25:18 +0000	[diff] [blame]	3440	case AMDGPU::S_CMP_EQ_I32: return AMDGPU::V_CMP_EQ_I32_e32;
				3441	case AMDGPU::S_CMP_LG_I32: return AMDGPU::V_CMP_NE_I32_e32;
				3442	case AMDGPU::S_CMP_GT_I32: return AMDGPU::V_CMP_GT_I32_e32;
				3443	case AMDGPU::S_CMP_GE_I32: return AMDGPU::V_CMP_GE_I32_e32;
				3444	case AMDGPU::S_CMP_LT_I32: return AMDGPU::V_CMP_LT_I32_e32;
				3445	case AMDGPU::S_CMP_LE_I32: return AMDGPU::V_CMP_LE_I32_e32;
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	3446	case AMDGPU::S_CMP_EQ_U32: return AMDGPU::V_CMP_EQ_U32_e32;
				3447	case AMDGPU::S_CMP_LG_U32: return AMDGPU::V_CMP_NE_U32_e32;
				3448	case AMDGPU::S_CMP_GT_U32: return AMDGPU::V_CMP_GT_U32_e32;
				3449	case AMDGPU::S_CMP_GE_U32: return AMDGPU::V_CMP_GE_U32_e32;
				3450	case AMDGPU::S_CMP_LT_U32: return AMDGPU::V_CMP_LT_U32_e32;
				3451	case AMDGPU::S_CMP_LE_U32: return AMDGPU::V_CMP_LE_U32_e32;
Matt Arsenault	7b1dc2c	2016-09-17 02:02:19 +0000	[diff] [blame]	3452	case AMDGPU::S_CMP_EQ_U64: return AMDGPU::V_CMP_EQ_U64_e32;
				3453	case AMDGPU::S_CMP_LG_U64: return AMDGPU::V_CMP_NE_U64_e32;
Marek Olsak	c536850	2015-01-15 18:43:01 +0000	[diff] [blame]	3454	case AMDGPU::S_BCNT1_I32_B32: return AMDGPU::V_BCNT_U32_B32_e64;
Matt Arsenault	295b86e	2014-06-17 17:36:27 +0000	[diff] [blame]	3455	case AMDGPU::S_FF1_I32_B32: return AMDGPU::V_FFBL_B32_e32;
Matt Arsenault	8579601	2014-06-17 17:36:24 +0000	[diff] [blame]	3456	case AMDGPU::S_FLBIT_I32_B32: return AMDGPU::V_FFBH_U32_e32;
Marek Olsak	d2af89d	2015-03-04 17:33:45 +0000	[diff] [blame]	3457	case AMDGPU::S_FLBIT_I32: return AMDGPU::V_FFBH_I32_e64;
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	3458	case AMDGPU::S_CBRANCH_SCC0: return AMDGPU::S_CBRANCH_VCCZ;
				3459	case AMDGPU::S_CBRANCH_SCC1: return AMDGPU::S_CBRANCH_VCCNZ;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3460	}
Michael Liao	efb4f9e	2019-03-18 20:40:09 +0000	[diff] [blame]	3461	llvm_unreachable(
				3462	"Unexpected scalar opcode without corresponding vector one!");
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3463	}
				3464
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3465	const TargetRegisterClass *SIInstrInfo::getOpRegClass(const MachineInstr &MI,
				3466	unsigned OpNo) const {
				3467	const MachineRegisterInfo &MRI = MI.getParent()->getParent()->getRegInfo();
				3468	const MCInstrDesc &Desc = get(MI.getOpcode());
				3469	if (MI.isVariadic() \|\| OpNo >= Desc.getNumOperands() \|\|
Matt Arsenault	102a704	2014-12-11 23:37:34 +0000	[diff] [blame]	3470	Desc.OpInfo[OpNo].RegClass == -1) {
				3471	unsigned Reg = MI.getOperand(OpNo).getReg();
				3472
				3473	if (TargetRegisterInfo::isVirtualRegister(Reg))
				3474	return MRI.getRegClass(Reg);
Matt Arsenault	11a4d67	2015-02-13 19:05:03 +0000	[diff] [blame]	3475	return RI.getPhysRegClass(Reg);
Matt Arsenault	102a704	2014-12-11 23:37:34 +0000	[diff] [blame]	3476	}
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3477
				3478	unsigned RCID = Desc.OpInfo[OpNo].RegClass;
				3479	return RI.getRegClass(RCID);
				3480	}
				3481
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3482	void SIInstrInfo::legalizeOpWithMove(MachineInstr &MI, unsigned OpIdx) const {
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3483	MachineBasicBlock::iterator I = MI;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3484	MachineBasicBlock *MBB = MI.getParent();
				3485	MachineOperand &MO = MI.getOperand(OpIdx);
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3486	MachineRegisterInfo &MRI = MBB->getParent()->getRegInfo();
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	3487	const SIRegisterInfo *TRI =
				3488	static_cast<const SIRegisterInfo*>(MRI.getTargetRegisterInfo());
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3489	unsigned RCID = get(MI.getOpcode()).OpInfo[OpIdx].RegClass;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3490	const TargetRegisterClass *RC = RI.getRegClass(RCID);
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	3491	unsigned Size = TRI->getRegSizeInBits(*RC);
				3492	unsigned Opcode = (Size == 64) ? AMDGPU::V_MOV_B64_PSEUDO : AMDGPU::V_MOV_B32_e32;
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3493	if (MO.isReg())
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3494	Opcode = AMDGPU::COPY;
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3495	else if (RI.isSGPRClass(RC))
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	3496	Opcode = (Size == 64) ? AMDGPU::S_MOV_B64 : AMDGPU::S_MOV_B32;
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3497
Matt Arsenault	3a4d86a	2013-11-18 20:09:55 +0000	[diff] [blame]	3498	const TargetRegisterClass *VRC = RI.getEquivalentVGPRClass(RC);
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3499	if (RI.getCommonSubClass(&AMDGPU::VReg_64RegClass, VRC))
Tom Stellard	0c93c9e	2014-09-05 14:08:01 +0000	[diff] [blame]	3500	VRC = &AMDGPU::VReg_64RegClass;
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3501	else
Tom Stellard	45c0b3a	2015-01-07 20:59:25 +0000	[diff] [blame]	3502	VRC = &AMDGPU::VGPR_32RegClass;
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3503
Matt Arsenault	3a4d86a	2013-11-18 20:09:55 +0000	[diff] [blame]	3504	unsigned Reg = MRI.createVirtualRegister(VRC);
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3505	DebugLoc DL = MBB->findDebugLoc(I);
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	3506	BuildMI(*MI.getParent(), I, DL, get(Opcode), Reg).add(MO);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3507	MO.ChangeToRegister(Reg, false);
				3508	}
				3509
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	3510	unsigned SIInstrInfo::buildExtractSubReg(MachineBasicBlock::iterator MI,
				3511	MachineRegisterInfo &MRI,
				3512	MachineOperand &SuperReg,
				3513	const TargetRegisterClass *SuperRC,
				3514	unsigned SubIdx,
				3515	const TargetRegisterClass *SubRC)
				3516	const {
Matt Arsenault	c8e2ce4	2015-09-24 07:16:37 +0000	[diff] [blame]	3517	MachineBasicBlock *MBB = MI->getParent();
				3518	DebugLoc DL = MI->getDebugLoc();
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	3519	unsigned SubReg = MRI.createVirtualRegister(SubRC);
				3520
Matt Arsenault	c8e2ce4	2015-09-24 07:16:37 +0000	[diff] [blame]	3521	if (SuperReg.getSubReg() == AMDGPU::NoSubRegister) {
				3522	BuildMI(*MBB, MI, DL, get(TargetOpcode::COPY), SubReg)
				3523	.addReg(SuperReg.getReg(), 0, SubIdx);
				3524	return SubReg;
				3525	}
				3526
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	3527	// Just in case the super register is itself a sub-register, copy it to a new
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	3528	// value so we don't need to worry about merging its subreg index with the
				3529	// SubIdx passed to this function. The register coalescer should be able to
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	3530	// eliminate this extra copy.
Matt Arsenault	c8e2ce4	2015-09-24 07:16:37 +0000	[diff] [blame]	3531	unsigned NewSuperReg = MRI.createVirtualRegister(SuperRC);
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	3532
Matt Arsenault	7480a0e	2014-11-17 21:11:37 +0000	[diff] [blame]	3533	BuildMI(*MBB, MI, DL, get(TargetOpcode::COPY), NewSuperReg)
				3534	.addReg(SuperReg.getReg(), 0, SuperReg.getSubReg());
				3535
				3536	BuildMI(*MBB, MI, DL, get(TargetOpcode::COPY), SubReg)
				3537	.addReg(NewSuperReg, 0, SubIdx);
				3538
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	3539	return SubReg;
				3540	}
				3541
Matt Arsenault	248b7b6	2014-03-24 20:08:09 +0000	[diff] [blame]	3542	MachineOperand SIInstrInfo::buildExtractSubRegOrImm(
				3543	MachineBasicBlock::iterator MII,
				3544	MachineRegisterInfo &MRI,
				3545	MachineOperand &Op,
				3546	const TargetRegisterClass *SuperRC,
				3547	unsigned SubIdx,
				3548	const TargetRegisterClass *SubRC) const {
				3549	if (Op.isImm()) {
Matt Arsenault	248b7b6	2014-03-24 20:08:09 +0000	[diff] [blame]	3550	if (SubIdx == AMDGPU::sub0)
Matt Arsenault	d745c28	2016-09-08 17:44:36 +0000	[diff] [blame]	3551	return MachineOperand::CreateImm(static_cast<int32_t>(Op.getImm()));
Matt Arsenault	248b7b6	2014-03-24 20:08:09 +0000	[diff] [blame]	3552	if (SubIdx == AMDGPU::sub1)
Matt Arsenault	d745c28	2016-09-08 17:44:36 +0000	[diff] [blame]	3553	return MachineOperand::CreateImm(static_cast<int32_t>(Op.getImm() >> 32));
Matt Arsenault	248b7b6	2014-03-24 20:08:09 +0000	[diff] [blame]	3554
				3555	llvm_unreachable("Unhandled register index for immediate");
				3556	}
				3557
				3558	unsigned SubReg = buildExtractSubReg(MII, MRI, Op, SuperRC,
				3559	SubIdx, SubRC);
				3560	return MachineOperand::CreateReg(SubReg, false);
				3561	}
				3562
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	3563	// Change the order of operands from (0, 1, 2) to (0, 2, 1)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3564	void SIInstrInfo::swapOperands(MachineInstr &Inst) const {
				3565	assert(Inst.getNumExplicitOperands() == 3);
				3566	MachineOperand Op1 = Inst.getOperand(1);
				3567	Inst.RemoveOperand(1);
				3568	Inst.addOperand(Op1);
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	3569	}
				3570
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3571	bool SIInstrInfo::isLegalRegOperand(const MachineRegisterInfo &MRI,
				3572	const MCOperandInfo &OpInfo,
				3573	const MachineOperand &MO) const {
				3574	if (!MO.isReg())
				3575	return false;
				3576
				3577	unsigned Reg = MO.getReg();
				3578	const TargetRegisterClass *RC =
				3579	TargetRegisterInfo::isVirtualRegister(Reg) ?
				3580	MRI.getRegClass(Reg) :
				3581	RI.getPhysRegClass(Reg);
				3582
Nicolai Haehnle	82fc962	2016-01-07 17:10:29 +0000	[diff] [blame]	3583	const SIRegisterInfo *TRI =
				3584	static_cast<const SIRegisterInfo*>(MRI.getTargetRegisterInfo());
				3585	RC = TRI->getSubRegClass(RC, MO.getSubReg());
				3586
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3587	// In order to be legal, the common sub-class must be equal to the
				3588	// class of the current operand. For example:
				3589	//
Sam Kolton	1eeb11b	2016-09-09 14:44:04 +0000	[diff] [blame]	3590	// v_mov_b32 s0 ; Operand defined as vsrc_b32
				3591	// ; RI.getCommonSubClass(s0,vsrc_b32) = sgpr ; LEGAL
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3592	//
				3593	// s_sendmsg 0, s0 ; Operand defined as m0reg
				3594	// ; RI.getCommonSubClass(s0,m0reg) = m0reg ; NOT LEGAL
				3595
				3596	return RI.getCommonSubClass(RC, RI.getRegClass(OpInfo.RegClass)) == RC;
				3597	}
				3598
				3599	bool SIInstrInfo::isLegalVSrcOperand(const MachineRegisterInfo &MRI,
				3600	const MCOperandInfo &OpInfo,
				3601	const MachineOperand &MO) const {
				3602	if (MO.isReg())
				3603	return isLegalRegOperand(MRI, OpInfo, MO);
				3604
				3605	// Handle non-register types that are treated like immediates.
				3606	assert(MO.isImm() \|\| MO.isTargetIndex() \|\| MO.isFI());
				3607	return true;
				3608	}
				3609
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3610	bool SIInstrInfo::isOperandLegal(const MachineInstr &MI, unsigned OpIdx,
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3611	const MachineOperand *MO) const {
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3612	const MachineFunction &MF = *MI.getParent()->getParent();
				3613	const MachineRegisterInfo &MRI = MF.getRegInfo();
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3614	const MCInstrDesc &InstDesc = MI.getDesc();
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3615	const MCOperandInfo &OpInfo = InstDesc.OpInfo[OpIdx];
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3616	const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3617	const TargetRegisterClass *DefinedRC =
				3618	OpInfo.RegClass != -1 ? RI.getRegClass(OpInfo.RegClass) : nullptr;
				3619	if (!MO)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3620	MO = &MI.getOperand(OpIdx);
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3621
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3622	int ConstantBusLimit = ST.getConstantBusLimit(MI.getOpcode());
				3623	int VOP3LiteralLimit = ST.hasVOP3Literal() ? 1 : 0;
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	3624	if (isVALU(MI) && usesConstantBus(MRI, *MO, OpInfo)) {
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3625	if (isVOP3(MI) && isLiteralConstantLike(*MO, OpInfo) && !VOP3LiteralLimit--)
				3626	return false;
Matt Arsenault	fcb345f	2016-02-11 06:15:39 +0000	[diff] [blame]	3627
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3628	SmallDenseSet<RegSubRegPair> SGPRsUsed;
Matt Arsenault	fcb345f	2016-02-11 06:15:39 +0000	[diff] [blame]	3629	if (MO->isReg())
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3630	SGPRsUsed.insert(RegSubRegPair(MO->getReg(), MO->getSubReg()));
Matt Arsenault	fcb345f	2016-02-11 06:15:39 +0000	[diff] [blame]	3631
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3632	for (unsigned i = 0, e = MI.getNumOperands(); i != e; ++i) {
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	3633	if (i == OpIdx)
				3634	continue;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3635	const MachineOperand &Op = MI.getOperand(i);
Matt Arsenault	ffc8275	2016-07-05 17:09:01 +0000	[diff] [blame]	3636	if (Op.isReg()) {
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3637	RegSubRegPair SGPR(Op.getReg(), Op.getSubReg());
				3638	if (!SGPRsUsed.count(SGPR) &&
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	3639	usesConstantBus(MRI, Op, InstDesc.OpInfo[i])) {
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3640	if (--ConstantBusLimit <= 0)
				3641	return false;
				3642	SGPRsUsed.insert(SGPR);
Matt Arsenault	ffc8275	2016-07-05 17:09:01 +0000	[diff] [blame]	3643	}
				3644	} else if (InstDesc.OpInfo[i].OperandType == AMDGPU::OPERAND_KIMM32) {
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3645	if (--ConstantBusLimit <= 0)
				3646	return false;
				3647	} else if (isVOP3(MI) && AMDGPU::isSISrcOperand(InstDesc, i) &&
				3648	isLiteralConstantLike(Op, InstDesc.OpInfo[i])) {
				3649	if (!VOP3LiteralLimit--)
				3650	return false;
				3651	if (--ConstantBusLimit <= 0)
				3652	return false;
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	3653	}
				3654	}
				3655	}
				3656
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3657	if (MO->isReg()) {
				3658	assert(DefinedRC);
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3659	return isLegalRegOperand(MRI, OpInfo, *MO);
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3660	}
				3661
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3662	// Handle non-register types that are treated like immediates.
Tom Stellard	fb77f00	2015-01-13 22:59:41 +0000	[diff] [blame]	3663	assert(MO->isImm() \|\| MO->isTargetIndex() \|\| MO->isFI());
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3664
Matt Arsenault	4364fef	2014-09-23 18:30:57 +0000	[diff] [blame]	3665	if (!DefinedRC) {
				3666	// This operand expects an immediate.
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3667	return true;
Matt Arsenault	4364fef	2014-09-23 18:30:57 +0000	[diff] [blame]	3668	}
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3669
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	3670	return isImmOperandLegal(MI, OpIdx, *MO);
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3671	}
				3672
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3673	void SIInstrInfo::legalizeOperandsVOP2(MachineRegisterInfo &MRI,
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3674	MachineInstr &MI) const {
				3675	unsigned Opc = MI.getOpcode();
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3676	const MCInstrDesc &InstrDesc = get(Opc);
				3677
				3678	int Src1Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src1);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3679	MachineOperand &Src1 = MI.getOperand(Src1Idx);
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3680
				3681	// If there is an implicit SGPR use such as VCC use for v_addc_u32/v_subb_u32
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	3682	// we need to only have one constant bus use before GFX10.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3683	bool HasImplicitSGPR = findImplicitSGPRRead(MI) != AMDGPU::NoRegister;
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3684	if (HasImplicitSGPR && ST.getConstantBusLimit(Opc) <= 1) {
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3685	int Src0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3686	MachineOperand &Src0 = MI.getOperand(Src0Idx);
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3687
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	3688	if (Src0.isReg() && (RI.isSGPRReg(MRI, Src0.getReg()) \|\|
				3689	isLiteralConstantLike(Src0, InstrDesc.OpInfo[Src0Idx])))
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3690	legalizeOpWithMove(MI, Src0Idx);
				3691	}
				3692
Tim Renouf	2a99fa2	2018-02-28 19:10:32 +0000	[diff] [blame]	3693	// Special case: V_WRITELANE_B32 accepts only immediate or SGPR operands for
				3694	// both the value to write (src0) and lane select (src1). Fix up non-SGPR
				3695	// src0/src1 with V_READFIRSTLANE.
				3696	if (Opc == AMDGPU::V_WRITELANE_B32) {
				3697	int Src0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0);
				3698	MachineOperand &Src0 = MI.getOperand(Src0Idx);
				3699	const DebugLoc &DL = MI.getDebugLoc();
				3700	if (Src0.isReg() && RI.isVGPR(MRI, Src0.getReg())) {
				3701	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				3702	BuildMI(*MI.getParent(), MI, DL, get(AMDGPU::V_READFIRSTLANE_B32), Reg)
				3703	.add(Src0);
				3704	Src0.ChangeToRegister(Reg, false);
				3705	}
				3706	if (Src1.isReg() && RI.isVGPR(MRI, Src1.getReg())) {
				3707	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				3708	const DebugLoc &DL = MI.getDebugLoc();
				3709	BuildMI(*MI.getParent(), MI, DL, get(AMDGPU::V_READFIRSTLANE_B32), Reg)
				3710	.add(Src1);
				3711	Src1.ChangeToRegister(Reg, false);
				3712	}
				3713	return;
				3714	}
				3715
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3716	// VOP2 src0 instructions support all operand types, so we don't need to check
				3717	// their legality. If src1 is already legal, we don't need to do anything.
				3718	if (isLegalRegOperand(MRI, InstrDesc.OpInfo[Src1Idx], Src1))
				3719	return;
				3720
Nicolai Haehnle	5dea645	2017-04-24 17:17:36 +0000	[diff] [blame]	3721	// Special case: V_READLANE_B32 accepts only immediate or SGPR operands for
				3722	// lane select. Fix up using V_READFIRSTLANE, since we assume that the lane
				3723	// select is uniform.
				3724	if (Opc == AMDGPU::V_READLANE_B32 && Src1.isReg() &&
				3725	RI.isVGPR(MRI, Src1.getReg())) {
				3726	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				3727	const DebugLoc &DL = MI.getDebugLoc();
				3728	BuildMI(*MI.getParent(), MI, DL, get(AMDGPU::V_READFIRSTLANE_B32), Reg)
				3729	.add(Src1);
				3730	Src1.ChangeToRegister(Reg, false);
				3731	return;
				3732	}
				3733
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3734	// We do not use commuteInstruction here because it is too aggressive and will
				3735	// commute if it is possible. We only want to commute here if it improves
				3736	// legality. This can be called a fairly large number of times so don't waste
				3737	// compile time pointlessly swapping and checking legality again.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3738	if (HasImplicitSGPR \|\| !MI.isCommutable()) {
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3739	legalizeOpWithMove(MI, Src1Idx);
				3740	return;
				3741	}
				3742
				3743	int Src0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3744	MachineOperand &Src0 = MI.getOperand(Src0Idx);
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3745
				3746	// If src0 can be used as src1, commuting will make the operands legal.
				3747	// Otherwise we have to give up and insert a move.
				3748	//
				3749	// TODO: Other immediate-like operand kinds could be commuted if there was a
				3750	// MachineOperand::ChangeTo* for them.
				3751	if ((!Src1.isImm() && !Src1.isReg()) \|\|
				3752	!isLegalRegOperand(MRI, InstrDesc.OpInfo[Src1Idx], Src0)) {
				3753	legalizeOpWithMove(MI, Src1Idx);
				3754	return;
				3755	}
				3756
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3757	int CommutedOpc = commuteOpcode(MI);
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3758	if (CommutedOpc == -1) {
				3759	legalizeOpWithMove(MI, Src1Idx);
				3760	return;
				3761	}
				3762
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3763	MI.setDesc(get(CommutedOpc));
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3764
				3765	unsigned Src0Reg = Src0.getReg();
				3766	unsigned Src0SubReg = Src0.getSubReg();
				3767	bool Src0Kill = Src0.isKill();
				3768
				3769	if (Src1.isImm())
				3770	Src0.ChangeToImmediate(Src1.getImm());
				3771	else if (Src1.isReg()) {
				3772	Src0.ChangeToRegister(Src1.getReg(), false, false, Src1.isKill());
				3773	Src0.setSubReg(Src1.getSubReg());
				3774	} else
				3775	llvm_unreachable("Should only have register or immediate operands");
				3776
				3777	Src1.ChangeToRegister(Src0Reg, false, false, Src0Kill);
				3778	Src1.setSubReg(Src0SubReg);
				3779	}
				3780
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	3781	// Legalize VOP3 operands. All operand types are supported for any operand
				3782	// but only one literal constant and only starting from GFX10.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3783	void SIInstrInfo::legalizeOperandsVOP3(MachineRegisterInfo &MRI,
				3784	MachineInstr &MI) const {
				3785	unsigned Opc = MI.getOpcode();
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3786
				3787	int VOP3Idx[3] = {
				3788	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0),
				3789	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src1),
				3790	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src2)
				3791	};
				3792
Stanislav Mekhanoshin	5f581c9	2019-06-12 17:52:51 +0000	[diff] [blame^]	3793	if (Opc == AMDGPU::V_PERMLANE16_B32 \|\|
				3794	Opc == AMDGPU::V_PERMLANEX16_B32) {
				3795	// src1 and src2 must be scalar
				3796	MachineOperand &Src1 = MI.getOperand(VOP3Idx[1]);
				3797	MachineOperand &Src2 = MI.getOperand(VOP3Idx[2]);
				3798	const DebugLoc &DL = MI.getDebugLoc();
				3799	if (Src1.isReg() && !RI.isSGPRClass(MRI.getRegClass(Src1.getReg()))) {
				3800	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				3801	BuildMI(*MI.getParent(), MI, DL, get(AMDGPU::V_READFIRSTLANE_B32), Reg)
				3802	.add(Src1);
				3803	Src1.ChangeToRegister(Reg, false);
				3804	}
				3805	if (Src2.isReg() && !RI.isSGPRClass(MRI.getRegClass(Src2.getReg()))) {
				3806	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				3807	BuildMI(*MI.getParent(), MI, DL, get(AMDGPU::V_READFIRSTLANE_B32), Reg)
				3808	.add(Src2);
				3809	Src2.ChangeToRegister(Reg, false);
				3810	}
				3811	}
				3812
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3813	// Find the one SGPR operand we are allowed to use.
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3814	int ConstantBusLimit = ST.getConstantBusLimit(Opc);
				3815	int LiteralLimit = ST.hasVOP3Literal() ? 1 : 0;
				3816	SmallDenseSet<unsigned> SGPRsUsed;
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3817	unsigned SGPRReg = findUsedSGPR(MI, VOP3Idx);
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3818	if (SGPRReg != AMDGPU::NoRegister) {
				3819	SGPRsUsed.insert(SGPRReg);
				3820	--ConstantBusLimit;
				3821	}
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3822
				3823	for (unsigned i = 0; i < 3; ++i) {
				3824	int Idx = VOP3Idx[i];
				3825	if (Idx == -1)
				3826	break;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3827	MachineOperand &MO = MI.getOperand(Idx);
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3828
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3829	if (!MO.isReg()) {
				3830	if (!isLiteralConstantLike(MO, get(Opc).OpInfo[Idx]))
				3831	continue;
				3832
				3833	if (LiteralLimit > 0 && ConstantBusLimit > 0) {
				3834	--LiteralLimit;
				3835	--ConstantBusLimit;
				3836	continue;
				3837	}
				3838
				3839	--LiteralLimit;
				3840	--ConstantBusLimit;
				3841	legalizeOpWithMove(MI, Idx);
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3842	continue;
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3843	}
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3844
				3845	if (!RI.isSGPRClass(MRI.getRegClass(MO.getReg())))
				3846	continue; // VGPRs are legal
				3847
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3848	// We can use one SGPR in each VOP3 instruction prior to GFX10
				3849	// and two starting from GFX10.
				3850	if (SGPRsUsed.count(MO.getReg()))
				3851	continue;
				3852	if (ConstantBusLimit > 0) {
				3853	SGPRsUsed.insert(MO.getReg());
				3854	--ConstantBusLimit;
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3855	continue;
				3856	}
				3857
				3858	// If we make it this far, then the operand is not legal and we must
				3859	// legalize it.
				3860	legalizeOpWithMove(MI, Idx);
				3861	}
				3862	}
				3863
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3864	unsigned SIInstrInfo::readlaneVGPRToSGPR(unsigned SrcReg, MachineInstr &UseMI,
				3865	MachineRegisterInfo &MRI) const {
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	3866	const TargetRegisterClass *VRC = MRI.getRegClass(SrcReg);
				3867	const TargetRegisterClass *SRC = RI.getEquivalentSGPRClass(VRC);
				3868	unsigned DstReg = MRI.createVirtualRegister(SRC);
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	3869	unsigned SubRegs = RI.getRegSizeInBits(*VRC) / 32;
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	3870
Nicolai Haehnle	7a87977	2018-04-20 07:14:25 +0000	[diff] [blame]	3871	if (SubRegs == 1) {
				3872	BuildMI(*UseMI.getParent(), UseMI, UseMI.getDebugLoc(),
				3873	get(AMDGPU::V_READFIRSTLANE_B32), DstReg)
				3874	.addReg(SrcReg);
				3875	return DstReg;
				3876	}
				3877
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	3878	SmallVector<unsigned, 8> SRegs;
				3879	for (unsigned i = 0; i < SubRegs; ++i) {
				3880	unsigned SGPR = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3881	BuildMI(*UseMI.getParent(), UseMI, UseMI.getDebugLoc(),
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	3882	get(AMDGPU::V_READFIRSTLANE_B32), SGPR)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3883	.addReg(SrcReg, 0, RI.getSubRegFromChannel(i));
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	3884	SRegs.push_back(SGPR);
				3885	}
				3886
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3887	MachineInstrBuilder MIB =
				3888	BuildMI(*UseMI.getParent(), UseMI, UseMI.getDebugLoc(),
				3889	get(AMDGPU::REG_SEQUENCE), DstReg);
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	3890	for (unsigned i = 0; i < SubRegs; ++i) {
				3891	MIB.addReg(SRegs[i]);
				3892	MIB.addImm(RI.getSubRegFromChannel(i));
				3893	}
				3894	return DstReg;
				3895	}
				3896
Tom Stellard	467b5b9	2016-02-20 00:37:25 +0000	[diff] [blame]	3897	void SIInstrInfo::legalizeOperandsSMRD(MachineRegisterInfo &MRI,
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3898	MachineInstr &MI) const {
Tom Stellard	467b5b9	2016-02-20 00:37:25 +0000	[diff] [blame]	3899
				3900	// If the pointer is store in VGPRs, then we need to move them to
				3901	// SGPRs using v_readfirstlane. This is safe because we only select
				3902	// loads with uniform pointers to SMRD instruction so we know the
				3903	// pointer value is uniform.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3904	MachineOperand *SBase = getNamedOperand(MI, AMDGPU::OpName::sbase);
Tom Stellard	467b5b9	2016-02-20 00:37:25 +0000	[diff] [blame]	3905	if (SBase && !RI.isSGPRClass(MRI.getRegClass(SBase->getReg()))) {
Nicolai Haehnle	a7b0005	2018-11-30 22:55:38 +0000	[diff] [blame]	3906	unsigned SGPR = readlaneVGPRToSGPR(SBase->getReg(), MI, MRI);
				3907	SBase->setReg(SGPR);
				3908	}
				3909	MachineOperand *SOff = getNamedOperand(MI, AMDGPU::OpName::soff);
				3910	if (SOff && !RI.isSGPRClass(MRI.getRegClass(SOff->getReg()))) {
				3911	unsigned SGPR = readlaneVGPRToSGPR(SOff->getReg(), MI, MRI);
				3912	SOff->setReg(SGPR);
Tom Stellard	467b5b9	2016-02-20 00:37:25 +0000	[diff] [blame]	3913	}
				3914	}
				3915
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	3916	void SIInstrInfo::legalizeGenericOperand(MachineBasicBlock &InsertMBB,
				3917	MachineBasicBlock::iterator I,
				3918	const TargetRegisterClass *DstRC,
				3919	MachineOperand &Op,
				3920	MachineRegisterInfo &MRI,
				3921	const DebugLoc &DL) const {
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	3922	unsigned OpReg = Op.getReg();
				3923	unsigned OpSubReg = Op.getSubReg();
				3924
				3925	const TargetRegisterClass *OpRC = RI.getSubClassWithSubReg(
				3926	RI.getRegClassForReg(MRI, OpReg), OpSubReg);
				3927
				3928	// Check if operand is already the correct register class.
				3929	if (DstRC == OpRC)
				3930	return;
				3931
				3932	unsigned DstReg = MRI.createVirtualRegister(DstRC);
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	3933	MachineInstr *Copy =
				3934	BuildMI(InsertMBB, I, DL, get(AMDGPU::COPY), DstReg).add(Op);
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	3935
				3936	Op.setReg(DstReg);
				3937	Op.setSubReg(0);
				3938
				3939	MachineInstr *Def = MRI.getVRegDef(OpReg);
				3940	if (!Def)
				3941	return;
				3942
				3943	// Try to eliminate the copy if it is copying an immediate value.
Alexander Timofeev	37bd9bd	2019-06-06 21:13:02 +0000	[diff] [blame]	3944	if (Def->isMoveImmediate())
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	3945	FoldImmediate(Copy, Def, OpReg, &MRI);
				3946	}
				3947
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	3948	// Emit the actual waterfall loop, executing the wrapped instruction for each
				3949	// unique value of \p Rsrc across all lanes. In the best case we execute 1
				3950	// iteration, in the worst case we execute 64 (once per lane).
				3951	static void
				3952	emitLoadSRsrcFromVGPRLoop(const SIInstrInfo &TII, MachineRegisterInfo &MRI,
				3953	MachineBasicBlock &OrigBB, MachineBasicBlock &LoopBB,
				3954	const DebugLoc &DL, MachineOperand &Rsrc) {
				3955	MachineBasicBlock::iterator I = LoopBB.begin();
				3956
				3957	unsigned VRsrc = Rsrc.getReg();
				3958	unsigned VRsrcUndef = getUndefRegState(Rsrc.isUndef());
				3959
				3960	unsigned SaveExec = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				3961	unsigned CondReg0 = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				3962	unsigned CondReg1 = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				3963	unsigned AndCond = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				3964	unsigned SRsrcSub0 = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				3965	unsigned SRsrcSub1 = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				3966	unsigned SRsrcSub2 = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				3967	unsigned SRsrcSub3 = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				3968	unsigned SRsrc = MRI.createVirtualRegister(&AMDGPU::SReg_128RegClass);
				3969
				3970	// Beginning of the loop, read the next Rsrc variant.
				3971	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::V_READFIRSTLANE_B32), SRsrcSub0)
				3972	.addReg(VRsrc, VRsrcUndef, AMDGPU::sub0);
				3973	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::V_READFIRSTLANE_B32), SRsrcSub1)
				3974	.addReg(VRsrc, VRsrcUndef, AMDGPU::sub1);
				3975	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::V_READFIRSTLANE_B32), SRsrcSub2)
				3976	.addReg(VRsrc, VRsrcUndef, AMDGPU::sub2);
				3977	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::V_READFIRSTLANE_B32), SRsrcSub3)
				3978	.addReg(VRsrc, VRsrcUndef, AMDGPU::sub3);
				3979
				3980	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::REG_SEQUENCE), SRsrc)
				3981	.addReg(SRsrcSub0)
				3982	.addImm(AMDGPU::sub0)
				3983	.addReg(SRsrcSub1)
				3984	.addImm(AMDGPU::sub1)
				3985	.addReg(SRsrcSub2)
				3986	.addImm(AMDGPU::sub2)
				3987	.addReg(SRsrcSub3)
				3988	.addImm(AMDGPU::sub3);
				3989
				3990	// Update Rsrc operand to use the SGPR Rsrc.
				3991	Rsrc.setReg(SRsrc);
				3992	Rsrc.setIsKill(true);
				3993
				3994	// Identify all lanes with identical Rsrc operands in their VGPRs.
				3995	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::V_CMP_EQ_U64_e64), CondReg0)
				3996	.addReg(SRsrc, 0, AMDGPU::sub0_sub1)
				3997	.addReg(VRsrc, 0, AMDGPU::sub0_sub1);
				3998	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::V_CMP_EQ_U64_e64), CondReg1)
				3999	.addReg(SRsrc, 0, AMDGPU::sub2_sub3)
				4000	.addReg(VRsrc, 0, AMDGPU::sub2_sub3);
				4001	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::S_AND_B64), AndCond)
				4002	.addReg(CondReg0)
				4003	.addReg(CondReg1);
				4004
				4005	MRI.setSimpleHint(SaveExec, AndCond);
				4006
				4007	// Update EXEC to matching lanes, saving original to SaveExec.
				4008	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::S_AND_SAVEEXEC_B64), SaveExec)
				4009	.addReg(AndCond, RegState::Kill);
				4010
				4011	// The original instruction is here; we insert the terminators after it.
				4012	I = LoopBB.end();
				4013
				4014	// Update EXEC, switch all done bits to 0 and all todo bits to 1.
				4015	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::S_XOR_B64_term), AMDGPU::EXEC)
				4016	.addReg(AMDGPU::EXEC)
				4017	.addReg(SaveExec);
				4018	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::S_CBRANCH_EXECNZ)).addMBB(&LoopBB);
				4019	}
				4020
				4021	// Build a waterfall loop around \p MI, replacing the VGPR \p Rsrc register
				4022	// with SGPRs by iterating over all unique values across all lanes.
				4023	static void loadSRsrcFromVGPR(const SIInstrInfo &TII, MachineInstr &MI,
				4024	MachineOperand &Rsrc, MachineDominatorTree *MDT) {
				4025	MachineBasicBlock &MBB = *MI.getParent();
				4026	MachineFunction &MF = *MBB.getParent();
				4027	MachineRegisterInfo &MRI = MF.getRegInfo();
				4028	MachineBasicBlock::iterator I(&MI);
				4029	const DebugLoc &DL = MI.getDebugLoc();
				4030
				4031	unsigned SaveExec = MRI.createVirtualRegister(&AMDGPU::SReg_64_XEXECRegClass);
				4032
				4033	// Save the EXEC mask
				4034	BuildMI(MBB, I, DL, TII.get(AMDGPU::S_MOV_B64), SaveExec)
				4035	.addReg(AMDGPU::EXEC);
				4036
				4037	// Killed uses in the instruction we are waterfalling around will be
				4038	// incorrect due to the added control-flow.
				4039	for (auto &MO : MI.uses()) {
				4040	if (MO.isReg() && MO.isUse()) {
				4041	MRI.clearKillFlags(MO.getReg());
				4042	}
				4043	}
				4044
				4045	// To insert the loop we need to split the block. Move everything after this
				4046	// point to a new block, and insert a new empty block between the two.
				4047	MachineBasicBlock *LoopBB = MF.CreateMachineBasicBlock();
				4048	MachineBasicBlock *RemainderBB = MF.CreateMachineBasicBlock();
				4049	MachineFunction::iterator MBBI(MBB);
				4050	++MBBI;
				4051
				4052	MF.insert(MBBI, LoopBB);
				4053	MF.insert(MBBI, RemainderBB);
				4054
				4055	LoopBB->addSuccessor(LoopBB);
				4056	LoopBB->addSuccessor(RemainderBB);
				4057
				4058	// Move MI to the LoopBB, and the remainder of the block to RemainderBB.
				4059	MachineBasicBlock::iterator J = I++;
				4060	RemainderBB->transferSuccessorsAndUpdatePHIs(&MBB);
				4061	RemainderBB->splice(RemainderBB->begin(), &MBB, I, MBB.end());
				4062	LoopBB->splice(LoopBB->begin(), &MBB, J);
				4063
				4064	MBB.addSuccessor(LoopBB);
				4065
				4066	// Update dominators. We know that MBB immediately dominates LoopBB, that
				4067	// LoopBB immediately dominates RemainderBB, and that RemainderBB immediately
				4068	// dominates all of the successors transferred to it from MBB that MBB used
				4069	// to dominate.
				4070	if (MDT) {
				4071	MDT->addNewBlock(LoopBB, &MBB);
				4072	MDT->addNewBlock(RemainderBB, LoopBB);
				4073	for (auto &Succ : RemainderBB->successors()) {
				4074	if (MDT->dominates(&MBB, Succ)) {
				4075	MDT->changeImmediateDominator(Succ, RemainderBB);
				4076	}
				4077	}
				4078	}
				4079
				4080	emitLoadSRsrcFromVGPRLoop(TII, MRI, MBB, *LoopBB, DL, Rsrc);
				4081
				4082	// Restore the EXEC mask
				4083	MachineBasicBlock::iterator First = RemainderBB->begin();
				4084	BuildMI(*RemainderBB, First, DL, TII.get(AMDGPU::S_MOV_B64), AMDGPU::EXEC)
				4085	.addReg(SaveExec);
				4086	}
				4087
				4088	// Extract pointer from Rsrc and return a zero-value Rsrc replacement.
				4089	static std::tuple<unsigned, unsigned>
				4090	extractRsrcPtr(const SIInstrInfo &TII, MachineInstr &MI, MachineOperand &Rsrc) {
				4091	MachineBasicBlock &MBB = *MI.getParent();
				4092	MachineFunction &MF = *MBB.getParent();
				4093	MachineRegisterInfo &MRI = MF.getRegInfo();
				4094
				4095	// Extract the ptr from the resource descriptor.
				4096	unsigned RsrcPtr =
				4097	TII.buildExtractSubReg(MI, MRI, Rsrc, &AMDGPU::VReg_128RegClass,
				4098	AMDGPU::sub0_sub1, &AMDGPU::VReg_64RegClass);
				4099
				4100	// Create an empty resource descriptor
				4101	unsigned Zero64 = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				4102	unsigned SRsrcFormatLo = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				4103	unsigned SRsrcFormatHi = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				4104	unsigned NewSRsrc = MRI.createVirtualRegister(&AMDGPU::SReg_128RegClass);
				4105	uint64_t RsrcDataFormat = TII.getDefaultRsrcDataFormat();
				4106
				4107	// Zero64 = 0
				4108	BuildMI(MBB, MI, MI.getDebugLoc(), TII.get(AMDGPU::S_MOV_B64), Zero64)
				4109	.addImm(0);
				4110
				4111	// SRsrcFormatLo = RSRC_DATA_FORMAT{31-0}
				4112	BuildMI(MBB, MI, MI.getDebugLoc(), TII.get(AMDGPU::S_MOV_B32), SRsrcFormatLo)
				4113	.addImm(RsrcDataFormat & 0xFFFFFFFF);
				4114
				4115	// SRsrcFormatHi = RSRC_DATA_FORMAT{63-32}
				4116	BuildMI(MBB, MI, MI.getDebugLoc(), TII.get(AMDGPU::S_MOV_B32), SRsrcFormatHi)
				4117	.addImm(RsrcDataFormat >> 32);
				4118
				4119	// NewSRsrc = {Zero64, SRsrcFormat}
				4120	BuildMI(MBB, MI, MI.getDebugLoc(), TII.get(AMDGPU::REG_SEQUENCE), NewSRsrc)
				4121	.addReg(Zero64)
				4122	.addImm(AMDGPU::sub0_sub1)
				4123	.addReg(SRsrcFormatLo)
				4124	.addImm(AMDGPU::sub2)
				4125	.addReg(SRsrcFormatHi)
				4126	.addImm(AMDGPU::sub3);
				4127
				4128	return std::make_tuple(RsrcPtr, NewSRsrc);
				4129	}
				4130
				4131	void SIInstrInfo::legalizeOperands(MachineInstr &MI,
				4132	MachineDominatorTree *MDT) const {
Nicolai Haehnle	ce2b589	2016-11-18 11:55:52 +0000	[diff] [blame]	4133	MachineFunction &MF = *MI.getParent()->getParent();
				4134	MachineRegisterInfo &MRI = MF.getRegInfo();
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4135
				4136	// Legalize VOP2
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4137	if (isVOP2(MI) \|\| isVOPC(MI)) {
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	4138	legalizeOperandsVOP2(MRI, MI);
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	4139	return;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4140	}
				4141
				4142	// Legalize VOP3
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4143	if (isVOP3(MI)) {
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	4144	legalizeOperandsVOP3(MRI, MI);
Matt Arsenault	e068f9a	2015-09-24 07:51:28 +0000	[diff] [blame]	4145	return;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4146	}
				4147
Tom Stellard	467b5b9	2016-02-20 00:37:25 +0000	[diff] [blame]	4148	// Legalize SMRD
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4149	if (isSMRD(MI)) {
Tom Stellard	467b5b9	2016-02-20 00:37:25 +0000	[diff] [blame]	4150	legalizeOperandsSMRD(MRI, MI);
				4151	return;
				4152	}
				4153
Tom Stellard	4f3b04d	2014-04-17 21:00:07 +0000	[diff] [blame]	4154	// Legalize REG_SEQUENCE and PHI
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4155	// The register class of the operands much be the same type as the register
				4156	// class of the output.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4157	if (MI.getOpcode() == AMDGPU::PHI) {
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	4158	const TargetRegisterClass RC = nullptr, SRC = nullptr, *VRC = nullptr;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4159	for (unsigned i = 1, e = MI.getNumOperands(); i != e; i += 2) {
				4160	if (!MI.getOperand(i).isReg() \|\|
				4161	!TargetRegisterInfo::isVirtualRegister(MI.getOperand(i).getReg()))
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4162	continue;
				4163	const TargetRegisterClass *OpRC =
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4164	MRI.getRegClass(MI.getOperand(i).getReg());
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4165	if (RI.hasVGPRs(OpRC)) {
				4166	VRC = OpRC;
				4167	} else {
				4168	SRC = OpRC;
				4169	}
				4170	}
				4171
				4172	// If any of the operands are VGPR registers, then they all most be
				4173	// otherwise we will create illegal VGPR->SGPR copies when legalizing
				4174	// them.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4175	if (VRC \|\| !RI.isSGPRClass(getOpRegClass(MI, 0))) {
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4176	if (!VRC) {
				4177	assert(SRC);
Alexander Timofeev	37bd9bd	2019-06-06 21:13:02 +0000	[diff] [blame]	4178	VRC = RI.getEquivalentVGPRClass(SRC);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4179	}
				4180	RC = VRC;
				4181	} else {
				4182	RC = SRC;
				4183	}
				4184
				4185	// Update all the operands so they have the same type.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4186	for (unsigned I = 1, E = MI.getNumOperands(); I != E; I += 2) {
				4187	MachineOperand &Op = MI.getOperand(I);
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4188	if (!Op.isReg() \|\| !TargetRegisterInfo::isVirtualRegister(Op.getReg()))
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4189	continue;
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4190
				4191	// MI is a PHI instruction.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4192	MachineBasicBlock *InsertBB = MI.getOperand(I + 1).getMBB();
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4193	MachineBasicBlock::iterator Insert = InsertBB->getFirstTerminator();
				4194
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4195	// Avoid creating no-op copies with the same src and dst reg class. These
				4196	// confuse some of the machine passes.
				4197	legalizeGenericOperand(*InsertBB, Insert, RC, Op, MRI, MI.getDebugLoc());
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4198	}
				4199	}
				4200
				4201	// REG_SEQUENCE doesn't really require operand legalization, but if one has a
				4202	// VGPR dest type and SGPR sources, insert copies so all operands are
				4203	// VGPRs. This seems to help operand folding / the register coalescer.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4204	if (MI.getOpcode() == AMDGPU::REG_SEQUENCE) {
				4205	MachineBasicBlock *MBB = MI.getParent();
				4206	const TargetRegisterClass *DstRC = getOpRegClass(MI, 0);
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4207	if (RI.hasVGPRs(DstRC)) {
				4208	// Update all the operands so they are VGPR register classes. These may
				4209	// not be the same register class because REG_SEQUENCE supports mixing
				4210	// subregister index types e.g. sub0_sub1 + sub2 + sub3
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4211	for (unsigned I = 1, E = MI.getNumOperands(); I != E; I += 2) {
				4212	MachineOperand &Op = MI.getOperand(I);
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4213	if (!Op.isReg() \|\| !TargetRegisterInfo::isVirtualRegister(Op.getReg()))
				4214	continue;
				4215
				4216	const TargetRegisterClass *OpRC = MRI.getRegClass(Op.getReg());
				4217	const TargetRegisterClass *VRC = RI.getEquivalentVGPRClass(OpRC);
				4218	if (VRC == OpRC)
				4219	continue;
				4220
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4221	legalizeGenericOperand(*MBB, MI, VRC, Op, MRI, MI.getDebugLoc());
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4222	Op.setIsKill();
Tom Stellard	4f3b04d	2014-04-17 21:00:07 +0000	[diff] [blame]	4223	}
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4224	}
Matt Arsenault	e068f9a	2015-09-24 07:51:28 +0000	[diff] [blame]	4225
				4226	return;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4227	}
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4228
Tom Stellard	a568738	2014-05-15 14:41:55 +0000	[diff] [blame]	4229	// Legalize INSERT_SUBREG
				4230	// src0 must have the same register class as dst
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4231	if (MI.getOpcode() == AMDGPU::INSERT_SUBREG) {
				4232	unsigned Dst = MI.getOperand(0).getReg();
				4233	unsigned Src0 = MI.getOperand(1).getReg();
Tom Stellard	a568738	2014-05-15 14:41:55 +0000	[diff] [blame]	4234	const TargetRegisterClass *DstRC = MRI.getRegClass(Dst);
				4235	const TargetRegisterClass *Src0RC = MRI.getRegClass(Src0);
				4236	if (DstRC != Src0RC) {
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4237	MachineBasicBlock *MBB = MI.getParent();
				4238	MachineOperand &Op = MI.getOperand(1);
				4239	legalizeGenericOperand(*MBB, MI, DstRC, Op, MRI, MI.getDebugLoc());
Tom Stellard	a568738	2014-05-15 14:41:55 +0000	[diff] [blame]	4240	}
				4241	return;
				4242	}
				4243
Nicolai Haehnle	7a87977	2018-04-20 07:14:25 +0000	[diff] [blame]	4244	// Legalize SI_INIT_M0
				4245	if (MI.getOpcode() == AMDGPU::SI_INIT_M0) {
				4246	MachineOperand &Src = MI.getOperand(0);
				4247	if (Src.isReg() && RI.hasVGPRs(MRI.getRegClass(Src.getReg())))
				4248	Src.setReg(readlaneVGPRToSGPR(Src.getReg(), MI, MRI));
				4249	return;
				4250	}
				4251
Nicolai Haehnle	ce2b589	2016-11-18 11:55:52 +0000	[diff] [blame]	4252	// Legalize MIMG and MUBUF/MTBUF for shaders.
				4253	//
				4254	// Shaders only generate MUBUF/MTBUF instructions via intrinsics or via
				4255	// scratch memory access. In both cases, the legalization never involves
				4256	// conversion to the addr64 form.
				4257	if (isMIMG(MI) \|\|
Matthias Braun	f1caa28	2017-12-15 22:22:58 +0000	[diff] [blame]	4258	(AMDGPU::isShader(MF.getFunction().getCallingConv()) &&
Nicolai Haehnle	ce2b589	2016-11-18 11:55:52 +0000	[diff] [blame]	4259	(isMUBUF(MI) \|\| isMTBUF(MI)))) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4260	MachineOperand *SRsrc = getNamedOperand(MI, AMDGPU::OpName::srsrc);
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	4261	if (SRsrc && !RI.isSGPRClass(MRI.getRegClass(SRsrc->getReg()))) {
				4262	unsigned SGPR = readlaneVGPRToSGPR(SRsrc->getReg(), MI, MRI);
				4263	SRsrc->setReg(SGPR);
				4264	}
				4265
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4266	MachineOperand *SSamp = getNamedOperand(MI, AMDGPU::OpName::ssamp);
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	4267	if (SSamp && !RI.isSGPRClass(MRI.getRegClass(SSamp->getReg()))) {
				4268	unsigned SGPR = readlaneVGPRToSGPR(SSamp->getReg(), MI, MRI);
				4269	SSamp->setReg(SGPR);
				4270	}
				4271	return;
				4272	}
				4273
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4274	// Legalize MUBUF* instructions.
				4275	int RsrcIdx =
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4276	AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::srsrc);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4277	if (RsrcIdx != -1) {
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	4278	// We have an MUBUF instruction
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4279	MachineOperand *Rsrc = &MI.getOperand(RsrcIdx);
				4280	unsigned RsrcRC = get(MI.getOpcode()).OpInfo[RsrcIdx].RegClass;
				4281	if (RI.getCommonSubClass(MRI.getRegClass(Rsrc->getReg()),
				4282	RI.getRegClass(RsrcRC))) {
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	4283	// The operands are legal.
				4284	// FIXME: We may need to legalize operands besided srsrc.
				4285	return;
				4286	}
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4287
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4288	// Legalize a VGPR Rsrc.
				4289	//
				4290	// If the instruction is _ADDR64, we can avoid a waterfall by extracting
				4291	// the base pointer from the VGPR Rsrc, adding it to the VAddr, then using
				4292	// a zero-value SRsrc.
				4293	//
				4294	// If the instruction is _OFFSET (both idxen and offen disabled), and we
				4295	// support ADDR64 instructions, we can convert to ADDR64 and do the same as
				4296	// above.
				4297	//
				4298	// Otherwise we are on non-ADDR64 hardware, and/or we have
				4299	// idxen/offen/bothen and we fall back to a waterfall loop.
				4300
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4301	MachineBasicBlock &MBB = *MI.getParent();
Matt Arsenault	ef67d76	2015-09-09 17:03:29 +0000	[diff] [blame]	4302
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4303	MachineOperand *VAddr = getNamedOperand(MI, AMDGPU::OpName::vaddr);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4304	if (VAddr && AMDGPU::getIfAddr64Inst(MI.getOpcode()) != -1) {
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	4305	// This is already an ADDR64 instruction so we need to add the pointer
				4306	// extracted from the resource descriptor to the current value of VAddr.
Matt Arsenault	ef67d76	2015-09-09 17:03:29 +0000	[diff] [blame]	4307	unsigned NewVAddrLo = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				4308	unsigned NewVAddrHi = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4309	unsigned NewVAddr = MRI.createVirtualRegister(&AMDGPU::VReg_64RegClass);
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	4310
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4311	unsigned RsrcPtr, NewSRsrc;
				4312	std::tie(RsrcPtr, NewSRsrc) = extractRsrcPtr(this, MI, Rsrc);
				4313
				4314	// NewVaddrLo = RsrcPtr:sub0 + VAddr:sub0
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4315	DebugLoc DL = MI.getDebugLoc();
Matt Arsenault	51d2d0f	2015-09-01 02:02:21 +0000	[diff] [blame]	4316	BuildMI(MBB, MI, DL, get(AMDGPU::V_ADD_I32_e32), NewVAddrLo)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4317	.addReg(RsrcPtr, 0, AMDGPU::sub0)
				4318	.addReg(VAddr->getReg(), 0, AMDGPU::sub0);
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4319
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4320	// NewVaddrHi = RsrcPtr:sub1 + VAddr:sub1
Matt Arsenault	51d2d0f	2015-09-01 02:02:21 +0000	[diff] [blame]	4321	BuildMI(MBB, MI, DL, get(AMDGPU::V_ADDC_U32_e32), NewVAddrHi)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4322	.addReg(RsrcPtr, 0, AMDGPU::sub1)
				4323	.addReg(VAddr->getReg(), 0, AMDGPU::sub1);
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4324
Matt Arsenault	ef67d76	2015-09-09 17:03:29 +0000	[diff] [blame]	4325	// NewVaddr = {NewVaddrHi, NewVaddrLo}
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4326	BuildMI(MBB, MI, MI.getDebugLoc(), get(AMDGPU::REG_SEQUENCE), NewVAddr)
				4327	.addReg(NewVAddrLo)
				4328	.addImm(AMDGPU::sub0)
				4329	.addReg(NewVAddrHi)
				4330	.addImm(AMDGPU::sub1);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4331
				4332	VAddr->setReg(NewVAddr);
				4333	Rsrc->setReg(NewSRsrc);
				4334	} else if (!VAddr && ST.hasAddr64()) {
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	4335	// This instructions is the _OFFSET variant, so we need to convert it to
				4336	// ADDR64.
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4337	assert(MBB.getParent()->getSubtarget<GCNSubtarget>().getGeneration()
				4338	< AMDGPUSubtarget::VOLCANIC_ISLANDS &&
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4339	"FIXME: Need to emit flat atomics here");
				4340
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4341	unsigned RsrcPtr, NewSRsrc;
				4342	std::tie(RsrcPtr, NewSRsrc) = extractRsrcPtr(this, MI, Rsrc);
				4343
				4344	unsigned NewVAddr = MRI.createVirtualRegister(&AMDGPU::VReg_64RegClass);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4345	MachineOperand *VData = getNamedOperand(MI, AMDGPU::OpName::vdata);
				4346	MachineOperand *Offset = getNamedOperand(MI, AMDGPU::OpName::offset);
				4347	MachineOperand *SOffset = getNamedOperand(MI, AMDGPU::OpName::soffset);
				4348	unsigned Addr64Opcode = AMDGPU::getAddr64Inst(MI.getOpcode());
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4349
				4350	// Atomics rith return have have an additional tied operand and are
				4351	// missing some of the special bits.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4352	MachineOperand *VDataIn = getNamedOperand(MI, AMDGPU::OpName::vdata_in);
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4353	MachineInstr *Addr64;
				4354
				4355	if (!VDataIn) {
				4356	// Regular buffer load / store.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4357	MachineInstrBuilder MIB =
				4358	BuildMI(MBB, MI, MI.getDebugLoc(), get(Addr64Opcode))
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	4359	.add(*VData)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4360	.addReg(NewVAddr)
				4361	.addReg(NewSRsrc)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	4362	.add(*SOffset)
				4363	.add(*Offset);
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4364
				4365	// Atomics do not have this operand.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4366	if (const MachineOperand *GLC =
				4367	getNamedOperand(MI, AMDGPU::OpName::glc)) {
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4368	MIB.addImm(GLC->getImm());
				4369	}
Stanislav Mekhanoshin	a632294	2019-04-30 22:08:23 +0000	[diff] [blame]	4370	if (const MachineOperand *DLC =
				4371	getNamedOperand(MI, AMDGPU::OpName::dlc)) {
				4372	MIB.addImm(DLC->getImm());
				4373	}
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4374
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4375	MIB.addImm(getNamedImmOperand(MI, AMDGPU::OpName::slc));
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4376
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4377	if (const MachineOperand *TFE =
				4378	getNamedOperand(MI, AMDGPU::OpName::tfe)) {
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4379	MIB.addImm(TFE->getImm());
				4380	}
				4381
Chandler Carruth	c73c030	2018-08-16 21:30:05 +0000	[diff] [blame]	4382	MIB.cloneMemRefs(MI);
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4383	Addr64 = MIB;
				4384	} else {
				4385	// Atomics with return.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4386	Addr64 = BuildMI(MBB, MI, MI.getDebugLoc(), get(Addr64Opcode))
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	4387	.add(*VData)
				4388	.add(*VDataIn)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4389	.addReg(NewVAddr)
				4390	.addReg(NewSRsrc)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	4391	.add(*SOffset)
				4392	.add(*Offset)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4393	.addImm(getNamedImmOperand(MI, AMDGPU::OpName::slc))
Chandler Carruth	c73c030	2018-08-16 21:30:05 +0000	[diff] [blame]	4394	.cloneMemRefs(MI);
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4395	}
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4396
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4397	MI.removeFromParent();
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4398
Matt Arsenault	ef67d76	2015-09-09 17:03:29 +0000	[diff] [blame]	4399	// NewVaddr = {NewVaddrHi, NewVaddrLo}
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4400	BuildMI(MBB, Addr64, Addr64->getDebugLoc(), get(AMDGPU::REG_SEQUENCE),
				4401	NewVAddr)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4402	.addReg(RsrcPtr, 0, AMDGPU::sub0)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4403	.addImm(AMDGPU::sub0)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4404	.addReg(RsrcPtr, 0, AMDGPU::sub1)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4405	.addImm(AMDGPU::sub1);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4406	} else {
				4407	// This is another variant; legalize Rsrc with waterfall loop from VGPRs
				4408	// to SGPRs.
				4409	loadSRsrcFromVGPR(this, MI, Rsrc, MDT);
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4410	}
				4411	}
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4412	}
				4413
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4414	void SIInstrInfo::moveToVALU(MachineInstr &TopInst,
				4415	MachineDominatorTree *MDT) const {
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	4416	SetVectorType Worklist;
				4417	Worklist.insert(&TopInst);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4418
				4419	while (!Worklist.empty()) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4420	MachineInstr &Inst = *Worklist.pop_back_val();
				4421	MachineBasicBlock *MBB = Inst.getParent();
Tom Stellard	e038720	2014-03-21 15:51:54 +0000	[diff] [blame]	4422	MachineRegisterInfo &MRI = MBB->getParent()->getRegInfo();
				4423
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4424	unsigned Opcode = Inst.getOpcode();
				4425	unsigned NewOpcode = getVALUOp(Inst);
Matt Arsenault	27cc958	2014-04-18 01:53:18 +0000	[diff] [blame]	4426
Tom Stellard	e038720	2014-03-21 15:51:54 +0000	[diff] [blame]	4427	// Handle some special cases
Matt Arsenault	27cc958	2014-04-18 01:53:18 +0000	[diff] [blame]	4428	switch (Opcode) {
Tom Stellard	0c354f2	2014-04-30 15:31:29 +0000	[diff] [blame]	4429	default:
Tom Stellard	0c354f2	2014-04-30 15:31:29 +0000	[diff] [blame]	4430	break;
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	4431	case AMDGPU::S_ADD_U64_PSEUDO:
				4432	case AMDGPU::S_SUB_U64_PSEUDO:
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4433	splitScalar64BitAddSub(Worklist, Inst, MDT);
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	4434	Inst.eraseFromParent();
				4435	continue;
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4436	case AMDGPU::S_ADD_I32:
				4437	case AMDGPU::S_SUB_I32:
				4438	// FIXME: The u32 versions currently selected use the carry.
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4439	if (moveScalarAddSub(Worklist, Inst, MDT))
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4440	continue;
				4441
				4442	// Default handling
				4443	break;
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4444	case AMDGPU::S_AND_B64:
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4445	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_AND_B32, MDT);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4446	Inst.eraseFromParent();
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4447	continue;
				4448
				4449	case AMDGPU::S_OR_B64:
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4450	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_OR_B32, MDT);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4451	Inst.eraseFromParent();
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4452	continue;
				4453
				4454	case AMDGPU::S_XOR_B64:
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4455	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_XOR_B32, MDT);
				4456	Inst.eraseFromParent();
				4457	continue;
				4458
				4459	case AMDGPU::S_NAND_B64:
				4460	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_NAND_B32, MDT);
				4461	Inst.eraseFromParent();
				4462	continue;
				4463
				4464	case AMDGPU::S_NOR_B64:
				4465	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_NOR_B32, MDT);
				4466	Inst.eraseFromParent();
				4467	continue;
				4468
				4469	case AMDGPU::S_XNOR_B64:
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	4470	if (ST.hasDLInsts())
				4471	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_XNOR_B32, MDT);
				4472	else
				4473	splitScalar64BitXnor(Worklist, Inst, MDT);
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4474	Inst.eraseFromParent();
				4475	continue;
				4476
				4477	case AMDGPU::S_ANDN2_B64:
				4478	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_ANDN2_B32, MDT);
				4479	Inst.eraseFromParent();
				4480	continue;
				4481
				4482	case AMDGPU::S_ORN2_B64:
				4483	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_ORN2_B32, MDT);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4484	Inst.eraseFromParent();
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4485	continue;
				4486
				4487	case AMDGPU::S_NOT_B64:
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4488	splitScalar64BitUnaryOp(Worklist, Inst, AMDGPU::S_NOT_B32);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4489	Inst.eraseFromParent();
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4490	continue;
				4491
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	4492	case AMDGPU::S_BCNT1_I32_B64:
				4493	splitScalar64BitBCNT(Worklist, Inst);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4494	Inst.eraseFromParent();
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	4495	continue;
				4496
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	4497	case AMDGPU::S_BFE_I64:
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	4498	splitScalar64BitBFE(Worklist, Inst);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4499	Inst.eraseFromParent();
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	4500	continue;
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	4501
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	4502	case AMDGPU::S_LSHL_B32:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4503	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	4504	NewOpcode = AMDGPU::V_LSHLREV_B32_e64;
				4505	swapOperands(Inst);
				4506	}
				4507	break;
				4508	case AMDGPU::S_ASHR_I32:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4509	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	4510	NewOpcode = AMDGPU::V_ASHRREV_I32_e64;
				4511	swapOperands(Inst);
				4512	}
				4513	break;
				4514	case AMDGPU::S_LSHR_B32:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4515	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	4516	NewOpcode = AMDGPU::V_LSHRREV_B32_e64;
				4517	swapOperands(Inst);
				4518	}
				4519	break;
Marek Olsak	707a6d0	2015-02-03 21:53:01 +0000	[diff] [blame]	4520	case AMDGPU::S_LSHL_B64:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4521	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	707a6d0	2015-02-03 21:53:01 +0000	[diff] [blame]	4522	NewOpcode = AMDGPU::V_LSHLREV_B64;
				4523	swapOperands(Inst);
				4524	}
				4525	break;
				4526	case AMDGPU::S_ASHR_I64:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4527	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	707a6d0	2015-02-03 21:53:01 +0000	[diff] [blame]	4528	NewOpcode = AMDGPU::V_ASHRREV_I64;
				4529	swapOperands(Inst);
				4530	}
				4531	break;
				4532	case AMDGPU::S_LSHR_B64:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4533	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	707a6d0	2015-02-03 21:53:01 +0000	[diff] [blame]	4534	NewOpcode = AMDGPU::V_LSHRREV_B64;
				4535	swapOperands(Inst);
				4536	}
				4537	break;
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	4538
Marek Olsak	7ed6b2f	2015-11-25 21:22:45 +0000	[diff] [blame]	4539	case AMDGPU::S_ABS_I32:
				4540	lowerScalarAbs(Worklist, Inst);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4541	Inst.eraseFromParent();
Marek Olsak	7ed6b2f	2015-11-25 21:22:45 +0000	[diff] [blame]	4542	continue;
				4543
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4544	case AMDGPU::S_CBRANCH_SCC0:
				4545	case AMDGPU::S_CBRANCH_SCC1:
				4546	// Clear unused bits of vcc
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4547	BuildMI(*MBB, Inst, Inst.getDebugLoc(), get(AMDGPU::S_AND_B64),
				4548	AMDGPU::VCC)
				4549	.addReg(AMDGPU::EXEC)
				4550	.addReg(AMDGPU::VCC);
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4551	break;
				4552
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4553	case AMDGPU::S_BFE_U64:
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4554	case AMDGPU::S_BFM_B64:
				4555	llvm_unreachable("Moving this op to VALU not implemented");
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	4556
				4557	case AMDGPU::S_PACK_LL_B32_B16:
				4558	case AMDGPU::S_PACK_LH_B32_B16:
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	4559	case AMDGPU::S_PACK_HH_B32_B16:
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	4560	movePackToVALU(Worklist, MRI, Inst);
				4561	Inst.eraseFromParent();
				4562	continue;
Konstantin Zhuravlyov	ca8946a	2017-09-18 21:22:45 +0000	[diff] [blame]	4563
				4564	case AMDGPU::S_XNOR_B32:
				4565	lowerScalarXnor(Worklist, Inst);
				4566	Inst.eraseFromParent();
				4567	continue;
				4568
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4569	case AMDGPU::S_NAND_B32:
				4570	splitScalarNotBinop(Worklist, Inst, AMDGPU::S_AND_B32);
				4571	Inst.eraseFromParent();
				4572	continue;
				4573
				4574	case AMDGPU::S_NOR_B32:
				4575	splitScalarNotBinop(Worklist, Inst, AMDGPU::S_OR_B32);
				4576	Inst.eraseFromParent();
				4577	continue;
				4578
				4579	case AMDGPU::S_ANDN2_B32:
				4580	splitScalarBinOpN2(Worklist, Inst, AMDGPU::S_AND_B32);
				4581	Inst.eraseFromParent();
				4582	continue;
				4583
				4584	case AMDGPU::S_ORN2_B32:
				4585	splitScalarBinOpN2(Worklist, Inst, AMDGPU::S_OR_B32);
Konstantin Zhuravlyov	ca8946a	2017-09-18 21:22:45 +0000	[diff] [blame]	4586	Inst.eraseFromParent();
				4587	continue;
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	4588	}
Tom Stellard	e038720	2014-03-21 15:51:54 +0000	[diff] [blame]	4589
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4590	if (NewOpcode == AMDGPU::INSTRUCTION_LIST_END) {
				4591	// We cannot move this instruction to the VALU, so we should try to
				4592	// legalize its operands instead.
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4593	legalizeOperands(Inst, MDT);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4594	continue;
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4595	}
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4596
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4597	// Use the new VALU Opcode.
				4598	const MCInstrDesc &NewDesc = get(NewOpcode);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4599	Inst.setDesc(NewDesc);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4600
Matt Arsenault	f0b1e3a	2013-11-18 20:09:21 +0000	[diff] [blame]	4601	// Remove any references to SCC. Vector instructions can't read from it, and
				4602	// We're just about to add the implicit use / defs of VCC, and we don't want
				4603	// both.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4604	for (unsigned i = Inst.getNumOperands() - 1; i > 0; --i) {
				4605	MachineOperand &Op = Inst.getOperand(i);
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4606	if (Op.isReg() && Op.getReg() == AMDGPU::SCC) {
Michael Liao	6883d7e	2019-03-15 12:42:21 +0000	[diff] [blame]	4607	// Only propagate through live-def of SCC.
				4608	if (Op.isDef() && !Op.isDead())
				4609	addSCCDefUsersToVALUWorklist(Op, Inst, Worklist);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4610	Inst.RemoveOperand(i);
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4611	}
Matt Arsenault	f0b1e3a	2013-11-18 20:09:21 +0000	[diff] [blame]	4612	}
				4613
Matt Arsenault	27cc958	2014-04-18 01:53:18 +0000	[diff] [blame]	4614	if (Opcode == AMDGPU::S_SEXT_I32_I8 \|\| Opcode == AMDGPU::S_SEXT_I32_I16) {
				4615	// We are converting these to a BFE, so we need to add the missing
				4616	// operands for the size and offset.
				4617	unsigned Size = (Opcode == AMDGPU::S_SEXT_I32_I8) ? 8 : 16;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4618	Inst.addOperand(MachineOperand::CreateImm(0));
				4619	Inst.addOperand(MachineOperand::CreateImm(Size));
Matt Arsenault	27cc958	2014-04-18 01:53:18 +0000	[diff] [blame]	4620
Matt Arsenault	b5b5110	2014-06-10 19:18:21 +0000	[diff] [blame]	4621	} else if (Opcode == AMDGPU::S_BCNT1_I32_B32) {
				4622	// The VALU version adds the second operand to the result, so insert an
				4623	// extra 0 operand.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4624	Inst.addOperand(MachineOperand::CreateImm(0));
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4625	}
				4626
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4627	Inst.addImplicitDefUseOperands(*Inst.getParent()->getParent());
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4628
Matt Arsenault	78b8670	2014-04-18 05:19:26 +0000	[diff] [blame]	4629	if (Opcode == AMDGPU::S_BFE_I32 \|\| Opcode == AMDGPU::S_BFE_U32) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4630	const MachineOperand &OffsetWidthOp = Inst.getOperand(2);
Matt Arsenault	78b8670	2014-04-18 05:19:26 +0000	[diff] [blame]	4631	// If we need to move this to VGPRs, we need to unpack the second operand
				4632	// back into the 2 separate ones for bit offset and width.
				4633	assert(OffsetWidthOp.isImm() &&
				4634	"Scalar BFE is only implemented for constant width and offset");
				4635	uint32_t Imm = OffsetWidthOp.getImm();
				4636
				4637	uint32_t Offset = Imm & 0x3f; // Extract bits [5:0].
				4638	uint32_t BitWidth = (Imm & 0x7f0000) >> 16; // Extract bits [22:16].
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4639	Inst.RemoveOperand(2); // Remove old immediate.
				4640	Inst.addOperand(MachineOperand::CreateImm(Offset));
				4641	Inst.addOperand(MachineOperand::CreateImm(BitWidth));
Matt Arsenault	78b8670	2014-04-18 05:19:26 +0000	[diff] [blame]	4642	}
				4643
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4644	bool HasDst = Inst.getOperand(0).isReg() && Inst.getOperand(0).isDef();
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4645	unsigned NewDstReg = AMDGPU::NoRegister;
				4646	if (HasDst) {
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	4647	unsigned DstReg = Inst.getOperand(0).getReg();
				4648	if (TargetRegisterInfo::isPhysicalRegister(DstReg))
				4649	continue;
				4650
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4651	// Update the destination register class.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4652	const TargetRegisterClass *NewDstRC = getDestEquivalentVGPRClass(Inst);
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4653	if (!NewDstRC)
				4654	continue;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4655
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4656	if (Inst.isCopy() &&
				4657	TargetRegisterInfo::isVirtualRegister(Inst.getOperand(1).getReg()) &&
				4658	NewDstRC == RI.getRegClassForReg(MRI, Inst.getOperand(1).getReg())) {
				4659	// Instead of creating a copy where src and dst are the same register
				4660	// class, we just replace all uses of dst with src. These kinds of
				4661	// copies interfere with the heuristics MachineSink uses to decide
				4662	// whether or not to split a critical edge. Since the pass assumes
				4663	// that copies will end up as machine instructions and not be
				4664	// eliminated.
				4665	addUsersToMoveToVALUWorklist(DstReg, MRI, Worklist);
				4666	MRI.replaceRegWith(DstReg, Inst.getOperand(1).getReg());
				4667	MRI.clearKillFlags(Inst.getOperand(1).getReg());
				4668	Inst.getOperand(0).setReg(DstReg);
Matt Arsenault	69932e4	2018-03-19 14:07:15 +0000	[diff] [blame]	4669
				4670	// Make sure we don't leave around a dead VGPR->SGPR copy. Normally
				4671	// these are deleted later, but at -O0 it would leave a suspicious
				4672	// looking illegal copy of an undef register.
				4673	for (unsigned I = Inst.getNumOperands() - 1; I != 0; --I)
				4674	Inst.RemoveOperand(I);
				4675	Inst.setDesc(get(AMDGPU::IMPLICIT_DEF));
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4676	continue;
				4677	}
				4678
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4679	NewDstReg = MRI.createVirtualRegister(NewDstRC);
				4680	MRI.replaceRegWith(DstReg, NewDstReg);
				4681	}
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4682
Tom Stellard	e1a2445	2014-04-17 21:00:01 +0000	[diff] [blame]	4683	// Legalize the operands
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4684	legalizeOperands(Inst, MDT);
Tom Stellard	e1a2445	2014-04-17 21:00:01 +0000	[diff] [blame]	4685
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4686	if (HasDst)
				4687	addUsersToMoveToVALUWorklist(NewDstReg, MRI, Worklist);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4688	}
				4689	}
				4690
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4691	// Add/sub require special handling to deal with carry outs.
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4692	bool SIInstrInfo::moveScalarAddSub(SetVectorType &Worklist, MachineInstr &Inst,
				4693	MachineDominatorTree *MDT) const {
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4694	if (ST.hasAddNoCarry()) {
				4695	// Assume there is no user of scc since we don't select this in that case.
				4696	// Since scc isn't used, it doesn't really matter if the i32 or u32 variant
				4697	// is used.
				4698
				4699	MachineBasicBlock &MBB = *Inst.getParent();
				4700	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4701
				4702	unsigned OldDstReg = Inst.getOperand(0).getReg();
				4703	unsigned ResultReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				4704
				4705	unsigned Opc = Inst.getOpcode();
				4706	assert(Opc == AMDGPU::S_ADD_I32 \|\| Opc == AMDGPU::S_SUB_I32);
				4707
				4708	unsigned NewOpc = Opc == AMDGPU::S_ADD_I32 ?
				4709	AMDGPU::V_ADD_U32_e64 : AMDGPU::V_SUB_U32_e64;
				4710
				4711	assert(Inst.getOperand(3).getReg() == AMDGPU::SCC);
				4712	Inst.RemoveOperand(3);
				4713
				4714	Inst.setDesc(get(NewOpc));
Tim Renouf	cfdfba9	2019-03-18 19:35:44 +0000	[diff] [blame]	4715	Inst.addOperand(MachineOperand::CreateImm(0)); // clamp bit
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4716	Inst.addImplicitDefUseOperands(*MBB.getParent());
				4717	MRI.replaceRegWith(OldDstReg, ResultReg);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4718	legalizeOperands(Inst, MDT);
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4719
				4720	addUsersToMoveToVALUWorklist(ResultReg, MRI, Worklist);
				4721	return true;
				4722	}
				4723
				4724	return false;
				4725	}
				4726
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	4727	void SIInstrInfo::lowerScalarAbs(SetVectorType &Worklist,
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4728	MachineInstr &Inst) const {
				4729	MachineBasicBlock &MBB = *Inst.getParent();
Marek Olsak	7ed6b2f	2015-11-25 21:22:45 +0000	[diff] [blame]	4730	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4731	MachineBasicBlock::iterator MII = Inst;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4732	DebugLoc DL = Inst.getDebugLoc();
Marek Olsak	7ed6b2f	2015-11-25 21:22:45 +0000	[diff] [blame]	4733
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4734	MachineOperand &Dest = Inst.getOperand(0);
				4735	MachineOperand &Src = Inst.getOperand(1);
Marek Olsak	7ed6b2f	2015-11-25 21:22:45 +0000	[diff] [blame]	4736	unsigned TmpReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				4737	unsigned ResultReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				4738
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4739	unsigned SubOp = ST.hasAddNoCarry() ?
				4740	AMDGPU::V_SUB_U32_e32 : AMDGPU::V_SUB_I32_e32;
				4741
				4742	BuildMI(MBB, MII, DL, get(SubOp), TmpReg)
Marek Olsak	7ed6b2f	2015-11-25 21:22:45 +0000	[diff] [blame]	4743	.addImm(0)
				4744	.addReg(Src.getReg());
				4745
				4746	BuildMI(MBB, MII, DL, get(AMDGPU::V_MAX_I32_e64), ResultReg)
				4747	.addReg(Src.getReg())
				4748	.addReg(TmpReg);
				4749
				4750	MRI.replaceRegWith(Dest.getReg(), ResultReg);
				4751	addUsersToMoveToVALUWorklist(ResultReg, MRI, Worklist);
				4752	}
				4753
Konstantin Zhuravlyov	ca8946a	2017-09-18 21:22:45 +0000	[diff] [blame]	4754	void SIInstrInfo::lowerScalarXnor(SetVectorType &Worklist,
				4755	MachineInstr &Inst) const {
				4756	MachineBasicBlock &MBB = *Inst.getParent();
				4757	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4758	MachineBasicBlock::iterator MII = Inst;
				4759	const DebugLoc &DL = Inst.getDebugLoc();
				4760
				4761	MachineOperand &Dest = Inst.getOperand(0);
				4762	MachineOperand &Src0 = Inst.getOperand(1);
				4763	MachineOperand &Src1 = Inst.getOperand(2);
				4764
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	4765	if (ST.hasDLInsts()) {
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4766	unsigned NewDest = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				4767	legalizeGenericOperand(MBB, MII, &AMDGPU::VGPR_32RegClass, Src0, MRI, DL);
				4768	legalizeGenericOperand(MBB, MII, &AMDGPU::VGPR_32RegClass, Src1, MRI, DL);
				4769
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	4770	BuildMI(MBB, MII, DL, get(AMDGPU::V_XNOR_B32_e64), NewDest)
				4771	.add(Src0)
				4772	.add(Src1);
Konstantin Zhuravlyov	ca8946a	2017-09-18 21:22:45 +0000	[diff] [blame]	4773
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4774	MRI.replaceRegWith(Dest.getReg(), NewDest);
				4775	addUsersToMoveToVALUWorklist(NewDest, MRI, Worklist);
				4776	} else {
				4777	// Using the identity !(x ^ y) == (!x ^ y) == (x ^ !y), we can
				4778	// invert either source and then perform the XOR. If either source is a
				4779	// scalar register, then we can leave the inversion on the scalar unit to
				4780	// acheive a better distrubution of scalar and vector instructions.
				4781	bool Src0IsSGPR = Src0.isReg() &&
				4782	RI.isSGPRClass(MRI.getRegClass(Src0.getReg()));
				4783	bool Src1IsSGPR = Src1.isReg() &&
				4784	RI.isSGPRClass(MRI.getRegClass(Src1.getReg()));
				4785	MachineInstr *Not = nullptr;
				4786	MachineInstr *Xor = nullptr;
				4787	unsigned Temp = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				4788	unsigned NewDest = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				4789
				4790	// Build a pair of scalar instructions and add them to the work list.
				4791	// The next iteration over the work list will lower these to the vector
				4792	// unit as necessary.
				4793	if (Src0IsSGPR) {
				4794	Not = BuildMI(MBB, MII, DL, get(AMDGPU::S_NOT_B32), Temp)
				4795	.add(Src0);
				4796	Xor = BuildMI(MBB, MII, DL, get(AMDGPU::S_XOR_B32), NewDest)
				4797	.addReg(Temp)
				4798	.add(Src1);
				4799	} else if (Src1IsSGPR) {
				4800	Not = BuildMI(MBB, MII, DL, get(AMDGPU::S_NOT_B32), Temp)
				4801	.add(Src1);
				4802	Xor = BuildMI(MBB, MII, DL, get(AMDGPU::S_XOR_B32), NewDest)
				4803	.add(Src0)
				4804	.addReg(Temp);
				4805	} else {
				4806	Xor = BuildMI(MBB, MII, DL, get(AMDGPU::S_XOR_B32), Temp)
				4807	.add(Src0)
				4808	.add(Src1);
				4809	Not = BuildMI(MBB, MII, DL, get(AMDGPU::S_NOT_B32), NewDest)
				4810	.addReg(Temp);
				4811	Worklist.insert(Not);
				4812	}
				4813
				4814	MRI.replaceRegWith(Dest.getReg(), NewDest);
				4815
				4816	Worklist.insert(Xor);
				4817
				4818	addUsersToMoveToVALUWorklist(NewDest, MRI, Worklist);
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	4819	}
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4820	}
				4821
				4822	void SIInstrInfo::splitScalarNotBinop(SetVectorType &Worklist,
				4823	MachineInstr &Inst,
				4824	unsigned Opcode) const {
				4825	MachineBasicBlock &MBB = *Inst.getParent();
				4826	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4827	MachineBasicBlock::iterator MII = Inst;
				4828	const DebugLoc &DL = Inst.getDebugLoc();
				4829
				4830	MachineOperand &Dest = Inst.getOperand(0);
				4831	MachineOperand &Src0 = Inst.getOperand(1);
				4832	MachineOperand &Src1 = Inst.getOperand(2);
				4833
				4834	unsigned NewDest = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				4835	unsigned Interm = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				4836
				4837	MachineInstr &Op = *BuildMI(MBB, MII, DL, get(Opcode), Interm)
				4838	.add(Src0)
				4839	.add(Src1);
				4840
				4841	MachineInstr &Not = *BuildMI(MBB, MII, DL, get(AMDGPU::S_NOT_B32), NewDest)
				4842	.addReg(Interm);
				4843
				4844	Worklist.insert(&Op);
				4845	Worklist.insert(&Not);
				4846
				4847	MRI.replaceRegWith(Dest.getReg(), NewDest);
				4848	addUsersToMoveToVALUWorklist(NewDest, MRI, Worklist);
				4849	}
				4850
				4851	void SIInstrInfo::splitScalarBinOpN2(SetVectorType& Worklist,
				4852	MachineInstr &Inst,
				4853	unsigned Opcode) const {
				4854	MachineBasicBlock &MBB = *Inst.getParent();
				4855	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4856	MachineBasicBlock::iterator MII = Inst;
				4857	const DebugLoc &DL = Inst.getDebugLoc();
				4858
				4859	MachineOperand &Dest = Inst.getOperand(0);
				4860	MachineOperand &Src0 = Inst.getOperand(1);
				4861	MachineOperand &Src1 = Inst.getOperand(2);
				4862
				4863	unsigned NewDest = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				4864	unsigned Interm = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				4865
				4866	MachineInstr &Not = *BuildMI(MBB, MII, DL, get(AMDGPU::S_NOT_B32), Interm)
				4867	.add(Src1);
				4868
				4869	MachineInstr &Op = *BuildMI(MBB, MII, DL, get(Opcode), NewDest)
				4870	.add(Src0)
				4871	.addReg(Interm);
				4872
				4873	Worklist.insert(&Not);
				4874	Worklist.insert(&Op);
Konstantin Zhuravlyov	ca8946a	2017-09-18 21:22:45 +0000	[diff] [blame]	4875
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	4876	MRI.replaceRegWith(Dest.getReg(), NewDest);
				4877	addUsersToMoveToVALUWorklist(NewDest, MRI, Worklist);
Konstantin Zhuravlyov	ca8946a	2017-09-18 21:22:45 +0000	[diff] [blame]	4878	}
				4879
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	4880	void SIInstrInfo::splitScalar64BitUnaryOp(
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	4881	SetVectorType &Worklist, MachineInstr &Inst,
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4882	unsigned Opcode) const {
				4883	MachineBasicBlock &MBB = *Inst.getParent();
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	4884	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4885
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4886	MachineOperand &Dest = Inst.getOperand(0);
				4887	MachineOperand &Src0 = Inst.getOperand(1);
				4888	DebugLoc DL = Inst.getDebugLoc();
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	4889
				4890	MachineBasicBlock::iterator MII = Inst;
				4891
				4892	const MCInstrDesc &InstDesc = get(Opcode);
				4893	const TargetRegisterClass *Src0RC = Src0.isReg() ?
				4894	MRI.getRegClass(Src0.getReg()) :
				4895	&AMDGPU::SGPR_32RegClass;
				4896
				4897	const TargetRegisterClass *Src0SubRC = RI.getSubRegClass(Src0RC, AMDGPU::sub0);
				4898
				4899	MachineOperand SrcReg0Sub0 = buildExtractSubRegOrImm(MII, MRI, Src0, Src0RC,
				4900	AMDGPU::sub0, Src0SubRC);
				4901
				4902	const TargetRegisterClass *DestRC = MRI.getRegClass(Dest.getReg());
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	4903	const TargetRegisterClass *NewDestRC = RI.getEquivalentVGPRClass(DestRC);
				4904	const TargetRegisterClass *NewDestSubRC = RI.getSubRegClass(NewDestRC, AMDGPU::sub0);
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	4905
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	4906	unsigned DestSub0 = MRI.createVirtualRegister(NewDestSubRC);
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4907	MachineInstr &LoHalf = *BuildMI(MBB, MII, DL, InstDesc, DestSub0).add(SrcReg0Sub0);
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	4908
				4909	MachineOperand SrcReg0Sub1 = buildExtractSubRegOrImm(MII, MRI, Src0, Src0RC,
				4910	AMDGPU::sub1, Src0SubRC);
				4911
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	4912	unsigned DestSub1 = MRI.createVirtualRegister(NewDestSubRC);
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4913	MachineInstr &HiHalf = *BuildMI(MBB, MII, DL, InstDesc, DestSub1).add(SrcReg0Sub1);
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	4914
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	4915	unsigned FullDestReg = MRI.createVirtualRegister(NewDestRC);
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	4916	BuildMI(MBB, MII, DL, get(TargetOpcode::REG_SEQUENCE), FullDestReg)
				4917	.addReg(DestSub0)
				4918	.addImm(AMDGPU::sub0)
				4919	.addReg(DestSub1)
				4920	.addImm(AMDGPU::sub1);
				4921
				4922	MRI.replaceRegWith(Dest.getReg(), FullDestReg);
				4923
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4924	Worklist.insert(&LoHalf);
				4925	Worklist.insert(&HiHalf);
				4926
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	4927	// We don't need to legalizeOperands here because for a single operand, src0
				4928	// will support any kind of input.
				4929
				4930	// Move all users of this moved value.
				4931	addUsersToMoveToVALUWorklist(FullDestReg, MRI, Worklist);
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	4932	}
				4933
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4934	void SIInstrInfo::splitScalar64BitAddSub(SetVectorType &Worklist,
				4935	MachineInstr &Inst,
				4936	MachineDominatorTree *MDT) const {
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	4937	bool IsAdd = (Inst.getOpcode() == AMDGPU::S_ADD_U64_PSEUDO);
				4938
				4939	MachineBasicBlock &MBB = *Inst.getParent();
				4940	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4941
				4942	unsigned FullDestReg = MRI.createVirtualRegister(&AMDGPU::VReg_64RegClass);
				4943	unsigned DestSub0 = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				4944	unsigned DestSub1 = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				4945
				4946	unsigned CarryReg = MRI.createVirtualRegister(&AMDGPU::SReg_64_XEXECRegClass);
				4947	unsigned DeadCarryReg = MRI.createVirtualRegister(&AMDGPU::SReg_64_XEXECRegClass);
				4948
				4949	MachineOperand &Dest = Inst.getOperand(0);
				4950	MachineOperand &Src0 = Inst.getOperand(1);
				4951	MachineOperand &Src1 = Inst.getOperand(2);
				4952	const DebugLoc &DL = Inst.getDebugLoc();
				4953	MachineBasicBlock::iterator MII = Inst;
				4954
				4955	const TargetRegisterClass *Src0RC = MRI.getRegClass(Src0.getReg());
				4956	const TargetRegisterClass *Src1RC = MRI.getRegClass(Src1.getReg());
				4957	const TargetRegisterClass *Src0SubRC = RI.getSubRegClass(Src0RC, AMDGPU::sub0);
				4958	const TargetRegisterClass *Src1SubRC = RI.getSubRegClass(Src1RC, AMDGPU::sub0);
				4959
				4960	MachineOperand SrcReg0Sub0 = buildExtractSubRegOrImm(MII, MRI, Src0, Src0RC,
				4961	AMDGPU::sub0, Src0SubRC);
				4962	MachineOperand SrcReg1Sub0 = buildExtractSubRegOrImm(MII, MRI, Src1, Src1RC,
				4963	AMDGPU::sub0, Src1SubRC);
				4964
				4965
				4966	MachineOperand SrcReg0Sub1 = buildExtractSubRegOrImm(MII, MRI, Src0, Src0RC,
				4967	AMDGPU::sub1, Src0SubRC);
				4968	MachineOperand SrcReg1Sub1 = buildExtractSubRegOrImm(MII, MRI, Src1, Src1RC,
				4969	AMDGPU::sub1, Src1SubRC);
				4970
				4971	unsigned LoOpc = IsAdd ? AMDGPU::V_ADD_I32_e64 : AMDGPU::V_SUB_I32_e64;
				4972	MachineInstr *LoHalf =
				4973	BuildMI(MBB, MII, DL, get(LoOpc), DestSub0)
				4974	.addReg(CarryReg, RegState::Define)
				4975	.add(SrcReg0Sub0)
Tim Renouf	cfdfba9	2019-03-18 19:35:44 +0000	[diff] [blame]	4976	.add(SrcReg1Sub0)
				4977	.addImm(0); // clamp bit
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	4978
				4979	unsigned HiOpc = IsAdd ? AMDGPU::V_ADDC_U32_e64 : AMDGPU::V_SUBB_U32_e64;
				4980	MachineInstr *HiHalf =
				4981	BuildMI(MBB, MII, DL, get(HiOpc), DestSub1)
				4982	.addReg(DeadCarryReg, RegState::Define \| RegState::Dead)
				4983	.add(SrcReg0Sub1)
				4984	.add(SrcReg1Sub1)
Tim Renouf	cfdfba9	2019-03-18 19:35:44 +0000	[diff] [blame]	4985	.addReg(CarryReg, RegState::Kill)
				4986	.addImm(0); // clamp bit
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	4987
				4988	BuildMI(MBB, MII, DL, get(TargetOpcode::REG_SEQUENCE), FullDestReg)
				4989	.addReg(DestSub0)
				4990	.addImm(AMDGPU::sub0)
				4991	.addReg(DestSub1)
				4992	.addImm(AMDGPU::sub1);
				4993
				4994	MRI.replaceRegWith(Dest.getReg(), FullDestReg);
				4995
				4996	// Try to legalize the operands in case we need to swap the order to keep it
				4997	// valid.
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4998	legalizeOperands(*LoHalf, MDT);
				4999	legalizeOperands(*HiHalf, MDT);
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	5000
				5001	// Move all users of this moved vlaue.
				5002	addUsersToMoveToVALUWorklist(FullDestReg, MRI, Worklist);
				5003	}
				5004
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	5005	void SIInstrInfo::splitScalar64BitBinaryOp(SetVectorType &Worklist,
				5006	MachineInstr &Inst, unsigned Opcode,
				5007	MachineDominatorTree *MDT) const {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5008	MachineBasicBlock &MBB = *Inst.getParent();
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5009	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				5010
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5011	MachineOperand &Dest = Inst.getOperand(0);
				5012	MachineOperand &Src0 = Inst.getOperand(1);
				5013	MachineOperand &Src1 = Inst.getOperand(2);
				5014	DebugLoc DL = Inst.getDebugLoc();
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5015
				5016	MachineBasicBlock::iterator MII = Inst;
				5017
				5018	const MCInstrDesc &InstDesc = get(Opcode);
Matt Arsenault	684dc80	2014-03-24 20:08:13 +0000	[diff] [blame]	5019	const TargetRegisterClass *Src0RC = Src0.isReg() ?
				5020	MRI.getRegClass(Src0.getReg()) :
				5021	&AMDGPU::SGPR_32RegClass;
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5022
Matt Arsenault	684dc80	2014-03-24 20:08:13 +0000	[diff] [blame]	5023	const TargetRegisterClass *Src0SubRC = RI.getSubRegClass(Src0RC, AMDGPU::sub0);
				5024	const TargetRegisterClass *Src1RC = Src1.isReg() ?
				5025	MRI.getRegClass(Src1.getReg()) :
				5026	&AMDGPU::SGPR_32RegClass;
				5027
				5028	const TargetRegisterClass *Src1SubRC = RI.getSubRegClass(Src1RC, AMDGPU::sub0);
				5029
				5030	MachineOperand SrcReg0Sub0 = buildExtractSubRegOrImm(MII, MRI, Src0, Src0RC,
				5031	AMDGPU::sub0, Src0SubRC);
				5032	MachineOperand SrcReg1Sub0 = buildExtractSubRegOrImm(MII, MRI, Src1, Src1RC,
				5033	AMDGPU::sub0, Src1SubRC);
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	5034	MachineOperand SrcReg0Sub1 = buildExtractSubRegOrImm(MII, MRI, Src0, Src0RC,
				5035	AMDGPU::sub1, Src0SubRC);
				5036	MachineOperand SrcReg1Sub1 = buildExtractSubRegOrImm(MII, MRI, Src1, Src1RC,
				5037	AMDGPU::sub1, Src1SubRC);
Matt Arsenault	684dc80	2014-03-24 20:08:13 +0000	[diff] [blame]	5038
				5039	const TargetRegisterClass *DestRC = MRI.getRegClass(Dest.getReg());
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5040	const TargetRegisterClass *NewDestRC = RI.getEquivalentVGPRClass(DestRC);
				5041	const TargetRegisterClass *NewDestSubRC = RI.getSubRegClass(NewDestRC, AMDGPU::sub0);
Matt Arsenault	684dc80	2014-03-24 20:08:13 +0000	[diff] [blame]	5042
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5043	unsigned DestSub0 = MRI.createVirtualRegister(NewDestSubRC);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5044	MachineInstr &LoHalf = *BuildMI(MBB, MII, DL, InstDesc, DestSub0)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	5045	.add(SrcReg0Sub0)
				5046	.add(SrcReg1Sub0);
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5047
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5048	unsigned DestSub1 = MRI.createVirtualRegister(NewDestSubRC);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5049	MachineInstr &HiHalf = *BuildMI(MBB, MII, DL, InstDesc, DestSub1)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	5050	.add(SrcReg0Sub1)
				5051	.add(SrcReg1Sub1);
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5052
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5053	unsigned FullDestReg = MRI.createVirtualRegister(NewDestRC);
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5054	BuildMI(MBB, MII, DL, get(TargetOpcode::REG_SEQUENCE), FullDestReg)
				5055	.addReg(DestSub0)
				5056	.addImm(AMDGPU::sub0)
				5057	.addReg(DestSub1)
				5058	.addImm(AMDGPU::sub1);
				5059
				5060	MRI.replaceRegWith(Dest.getReg(), FullDestReg);
				5061
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	5062	Worklist.insert(&LoHalf);
				5063	Worklist.insert(&HiHalf);
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5064
				5065	// Move all users of this moved vlaue.
				5066	addUsersToMoveToVALUWorklist(FullDestReg, MRI, Worklist);
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5067	}
				5068
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	5069	void SIInstrInfo::splitScalar64BitXnor(SetVectorType &Worklist,
				5070	MachineInstr &Inst,
				5071	MachineDominatorTree *MDT) const {
				5072	MachineBasicBlock &MBB = *Inst.getParent();
				5073	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				5074
				5075	MachineOperand &Dest = Inst.getOperand(0);
				5076	MachineOperand &Src0 = Inst.getOperand(1);
				5077	MachineOperand &Src1 = Inst.getOperand(2);
				5078	const DebugLoc &DL = Inst.getDebugLoc();
				5079
				5080	MachineBasicBlock::iterator MII = Inst;
				5081
				5082	const TargetRegisterClass *DestRC = MRI.getRegClass(Dest.getReg());
				5083
				5084	unsigned Interm = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				5085
				5086	MachineOperand* Op0;
				5087	MachineOperand* Op1;
				5088
				5089	if (Src0.isReg() && RI.isSGPRReg(MRI, Src0.getReg())) {
				5090	Op0 = &Src0;
				5091	Op1 = &Src1;
				5092	} else {
				5093	Op0 = &Src1;
				5094	Op1 = &Src0;
				5095	}
				5096
				5097	BuildMI(MBB, MII, DL, get(AMDGPU::S_NOT_B64), Interm)
				5098	.add(*Op0);
				5099
				5100	unsigned NewDest = MRI.createVirtualRegister(DestRC);
				5101
				5102	MachineInstr &Xor = *BuildMI(MBB, MII, DL, get(AMDGPU::S_XOR_B64), NewDest)
				5103	.addReg(Interm)
				5104	.add(*Op1);
				5105
				5106	MRI.replaceRegWith(Dest.getReg(), NewDest);
				5107
				5108	Worklist.insert(&Xor);
				5109	}
				5110
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5111	void SIInstrInfo::splitScalar64BitBCNT(
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	5112	SetVectorType &Worklist, MachineInstr &Inst) const {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5113	MachineBasicBlock &MBB = *Inst.getParent();
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5114	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				5115
				5116	MachineBasicBlock::iterator MII = Inst;
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	5117	const DebugLoc &DL = Inst.getDebugLoc();
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5118
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5119	MachineOperand &Dest = Inst.getOperand(0);
				5120	MachineOperand &Src = Inst.getOperand(1);
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5121
Marek Olsak	c536850	2015-01-15 18:43:01 +0000	[diff] [blame]	5122	const MCInstrDesc &InstDesc = get(AMDGPU::V_BCNT_U32_B32_e64);
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5123	const TargetRegisterClass *SrcRC = Src.isReg() ?
				5124	MRI.getRegClass(Src.getReg()) :
				5125	&AMDGPU::SGPR_32RegClass;
				5126
				5127	unsigned MidReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5128	unsigned ResultReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5129
				5130	const TargetRegisterClass *SrcSubRC = RI.getSubRegClass(SrcRC, AMDGPU::sub0);
				5131
				5132	MachineOperand SrcRegSub0 = buildExtractSubRegOrImm(MII, MRI, Src, SrcRC,
				5133	AMDGPU::sub0, SrcSubRC);
				5134	MachineOperand SrcRegSub1 = buildExtractSubRegOrImm(MII, MRI, Src, SrcRC,
				5135	AMDGPU::sub1, SrcSubRC);
				5136
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	5137	BuildMI(MBB, MII, DL, InstDesc, MidReg).add(SrcRegSub0).addImm(0);
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5138
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	5139	BuildMI(MBB, MII, DL, InstDesc, ResultReg).add(SrcRegSub1).addReg(MidReg);
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5140
				5141	MRI.replaceRegWith(Dest.getReg(), ResultReg);
				5142
Matt Arsenault	5e7f95e	2015-08-26 20:48:04 +0000	[diff] [blame]	5143	// We don't need to legalize operands here. src0 for etiher instruction can be
				5144	// an SGPR, and the second input is unused or determined here.
				5145	addUsersToMoveToVALUWorklist(ResultReg, MRI, Worklist);
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5146	}
				5147
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	5148	void SIInstrInfo::splitScalar64BitBFE(SetVectorType &Worklist,
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5149	MachineInstr &Inst) const {
				5150	MachineBasicBlock &MBB = *Inst.getParent();
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5151	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				5152	MachineBasicBlock::iterator MII = Inst;
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	5153	const DebugLoc &DL = Inst.getDebugLoc();
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5154
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5155	MachineOperand &Dest = Inst.getOperand(0);
				5156	uint32_t Imm = Inst.getOperand(2).getImm();
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5157	uint32_t Offset = Imm & 0x3f; // Extract bits [5:0].
				5158	uint32_t BitWidth = (Imm & 0x7f0000) >> 16; // Extract bits [22:16].
				5159
Matt Arsenault	6ad3426	2014-11-14 18:40:49 +0000	[diff] [blame]	5160	(void) Offset;
				5161
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5162	// Only sext_inreg cases handled.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5163	assert(Inst.getOpcode() == AMDGPU::S_BFE_I64 && BitWidth <= 32 &&
				5164	Offset == 0 && "Not implemented");
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5165
				5166	if (BitWidth < 32) {
				5167	unsigned MidRegLo = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5168	unsigned MidRegHi = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5169	unsigned ResultReg = MRI.createVirtualRegister(&AMDGPU::VReg_64RegClass);
				5170
				5171	BuildMI(MBB, MII, DL, get(AMDGPU::V_BFE_I32), MidRegLo)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5172	.addReg(Inst.getOperand(1).getReg(), 0, AMDGPU::sub0)
				5173	.addImm(0)
				5174	.addImm(BitWidth);
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5175
				5176	BuildMI(MBB, MII, DL, get(AMDGPU::V_ASHRREV_I32_e32), MidRegHi)
				5177	.addImm(31)
				5178	.addReg(MidRegLo);
				5179
				5180	BuildMI(MBB, MII, DL, get(TargetOpcode::REG_SEQUENCE), ResultReg)
				5181	.addReg(MidRegLo)
				5182	.addImm(AMDGPU::sub0)
				5183	.addReg(MidRegHi)
				5184	.addImm(AMDGPU::sub1);
				5185
				5186	MRI.replaceRegWith(Dest.getReg(), ResultReg);
Matt Arsenault	445833c	2015-08-26 20:47:58 +0000	[diff] [blame]	5187	addUsersToMoveToVALUWorklist(ResultReg, MRI, Worklist);
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5188	return;
				5189	}
				5190
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5191	MachineOperand &Src = Inst.getOperand(1);
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5192	unsigned TmpReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5193	unsigned ResultReg = MRI.createVirtualRegister(&AMDGPU::VReg_64RegClass);
				5194
				5195	BuildMI(MBB, MII, DL, get(AMDGPU::V_ASHRREV_I32_e64), TmpReg)
				5196	.addImm(31)
				5197	.addReg(Src.getReg(), 0, AMDGPU::sub0);
				5198
				5199	BuildMI(MBB, MII, DL, get(TargetOpcode::REG_SEQUENCE), ResultReg)
				5200	.addReg(Src.getReg(), 0, AMDGPU::sub0)
				5201	.addImm(AMDGPU::sub0)
				5202	.addReg(TmpReg)
				5203	.addImm(AMDGPU::sub1);
				5204
				5205	MRI.replaceRegWith(Dest.getReg(), ResultReg);
Matt Arsenault	445833c	2015-08-26 20:47:58 +0000	[diff] [blame]	5206	addUsersToMoveToVALUWorklist(ResultReg, MRI, Worklist);
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5207	}
				5208
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5209	void SIInstrInfo::addUsersToMoveToVALUWorklist(
				5210	unsigned DstReg,
				5211	MachineRegisterInfo &MRI,
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	5212	SetVectorType &Worklist) const {
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5213	for (MachineRegisterInfo::use_iterator I = MRI.use_begin(DstReg),
Matt Arsenault	4c1e9ec	2016-12-20 18:55:06 +0000	[diff] [blame]	5214	E = MRI.use_end(); I != E;) {
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5215	MachineInstr &UseMI = *I->getParent();
Neil Henning	0799352	2019-01-29 14:28:17 +0000	[diff] [blame]	5216
				5217	unsigned OpNo = 0;
				5218
				5219	switch (UseMI.getOpcode()) {
				5220	case AMDGPU::COPY:
				5221	case AMDGPU::WQM:
				5222	case AMDGPU::WWM:
				5223	case AMDGPU::REG_SEQUENCE:
				5224	case AMDGPU::PHI:
				5225	case AMDGPU::INSERT_SUBREG:
				5226	break;
				5227	default:
				5228	OpNo = I.getOperandNo();
				5229	break;
				5230	}
				5231
				5232	if (!RI.hasVGPRs(getOpRegClass(UseMI, OpNo))) {
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	5233	Worklist.insert(&UseMI);
Matt Arsenault	4c1e9ec	2016-12-20 18:55:06 +0000	[diff] [blame]	5234
				5235	do {
				5236	++I;
				5237	} while (I != E && I->getParent() == &UseMI);
				5238	} else {
				5239	++I;
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5240	}
				5241	}
				5242	}
				5243
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	5244	void SIInstrInfo::movePackToVALU(SetVectorType &Worklist,
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	5245	MachineRegisterInfo &MRI,
				5246	MachineInstr &Inst) const {
				5247	unsigned ResultReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5248	MachineBasicBlock *MBB = Inst.getParent();
				5249	MachineOperand &Src0 = Inst.getOperand(1);
				5250	MachineOperand &Src1 = Inst.getOperand(2);
				5251	const DebugLoc &DL = Inst.getDebugLoc();
				5252
				5253	switch (Inst.getOpcode()) {
				5254	case AMDGPU::S_PACK_LL_B32_B16: {
Konstantin Zhuravlyov	d24aeb2	2017-04-13 23:17:00 +0000	[diff] [blame]	5255	unsigned ImmReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5256	unsigned TmpReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	5257
Konstantin Zhuravlyov	d24aeb2	2017-04-13 23:17:00 +0000	[diff] [blame]	5258	// FIXME: Can do a lot better if we know the high bits of src0 or src1 are
				5259	// 0.
				5260	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_MOV_B32_e32), ImmReg)
				5261	.addImm(0xffff);
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	5262
Konstantin Zhuravlyov	d24aeb2	2017-04-13 23:17:00 +0000	[diff] [blame]	5263	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_AND_B32_e64), TmpReg)
				5264	.addReg(ImmReg, RegState::Kill)
				5265	.add(Src0);
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	5266
Konstantin Zhuravlyov	d24aeb2	2017-04-13 23:17:00 +0000	[diff] [blame]	5267	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_LSHL_OR_B32), ResultReg)
				5268	.add(Src1)
				5269	.addImm(16)
				5270	.addReg(TmpReg, RegState::Kill);
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	5271	break;
				5272	}
				5273	case AMDGPU::S_PACK_LH_B32_B16: {
				5274	unsigned ImmReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5275	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_MOV_B32_e32), ImmReg)
				5276	.addImm(0xffff);
				5277	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_BFI_B32), ResultReg)
				5278	.addReg(ImmReg, RegState::Kill)
				5279	.add(Src0)
				5280	.add(Src1);
				5281	break;
				5282	}
				5283	case AMDGPU::S_PACK_HH_B32_B16: {
				5284	unsigned ImmReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5285	unsigned TmpReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5286	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_LSHRREV_B32_e64), TmpReg)
				5287	.addImm(16)
				5288	.add(Src0);
				5289	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_MOV_B32_e32), ImmReg)
Konstantin Zhuravlyov	88938d4	2017-04-21 19:35:05 +0000	[diff] [blame]	5290	.addImm(0xffff0000);
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	5291	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_AND_OR_B32), ResultReg)
				5292	.add(Src1)
				5293	.addReg(ImmReg, RegState::Kill)
				5294	.addReg(TmpReg, RegState::Kill);
				5295	break;
				5296	}
				5297	default:
				5298	llvm_unreachable("unhandled s_pack_* instruction");
				5299	}
				5300
				5301	MachineOperand &Dest = Inst.getOperand(0);
				5302	MRI.replaceRegWith(Dest.getReg(), ResultReg);
				5303	addUsersToMoveToVALUWorklist(ResultReg, MRI, Worklist);
				5304	}
				5305
Michael Liao	6883d7e	2019-03-15 12:42:21 +0000	[diff] [blame]	5306	void SIInstrInfo::addSCCDefUsersToVALUWorklist(MachineOperand &Op,
				5307	MachineInstr &SCCDefInst,
				5308	SetVectorType &Worklist) const {
				5309	// Ensure that def inst defines SCC, which is still live.
				5310	assert(Op.isReg() && Op.getReg() == AMDGPU::SCC && Op.isDef() &&
				5311	!Op.isDead() && Op.getParent() == &SCCDefInst);
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	5312	// This assumes that all the users of SCC are in the same block
				5313	// as the SCC def.
Michael Liao	6883d7e	2019-03-15 12:42:21 +0000	[diff] [blame]	5314	for (MachineInstr &MI : // Skip the def inst itself.
				5315	make_range(std::next(MachineBasicBlock::iterator(SCCDefInst)),
				5316	SCCDefInst.getParent()->end())) {
				5317	// Check if SCC is used first.
				5318	if (MI.findRegisterUseOperandIdx(AMDGPU::SCC, false, &RI) != -1)
				5319	Worklist.insert(&MI);
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	5320	// Exit if we find another SCC def.
Stanislav Mekhanoshin	13d3371	2018-11-09 17:58:59 +0000	[diff] [blame]	5321	if (MI.findRegisterDefOperandIdx(AMDGPU::SCC, false, false, &RI) != -1)
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	5322	return;
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	5323	}
				5324	}
				5325
Matt Arsenault	ba6aae7	2015-09-28 20:54:57 +0000	[diff] [blame]	5326	const TargetRegisterClass *SIInstrInfo::getDestEquivalentVGPRClass(
				5327	const MachineInstr &Inst) const {
				5328	const TargetRegisterClass *NewDstRC = getOpRegClass(Inst, 0);
				5329
				5330	switch (Inst.getOpcode()) {
				5331	// For target instructions, getOpRegClass just returns the virtual register
				5332	// class associated with the operand, so we need to find an equivalent VGPR
				5333	// register class in order to move the instruction to the VALU.
				5334	case AMDGPU::COPY:
				5335	case AMDGPU::PHI:
				5336	case AMDGPU::REG_SEQUENCE:
				5337	case AMDGPU::INSERT_SUBREG:
Connor Abbott	8c217d0	2017-08-04 18:36:49 +0000	[diff] [blame]	5338	case AMDGPU::WQM:
Connor Abbott	92638ab	2017-08-04 18:36:52 +0000	[diff] [blame]	5339	case AMDGPU::WWM:
Alexander Timofeev	37bd9bd	2019-06-06 21:13:02 +0000	[diff] [blame]	5340	if (RI.hasVGPRs(NewDstRC))
Matt Arsenault	ba6aae7	2015-09-28 20:54:57 +0000	[diff] [blame]	5341	return nullptr;
				5342
				5343	NewDstRC = RI.getEquivalentVGPRClass(NewDstRC);
				5344	if (!NewDstRC)
				5345	return nullptr;
				5346	return NewDstRC;
				5347	default:
				5348	return NewDstRC;
				5349	}
				5350	}
				5351
Matt Arsenault	6c06741	2015-11-03 22:30:15 +0000	[diff] [blame]	5352	// Find the one SGPR operand we are allowed to use.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5353	unsigned SIInstrInfo::findUsedSGPR(const MachineInstr &MI,
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5354	int OpIndices[3]) const {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5355	const MCInstrDesc &Desc = MI.getDesc();
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5356
				5357	// Find the one SGPR operand we are allowed to use.
Matt Arsenault	e223ceb	2015-10-21 21:15:01 +0000	[diff] [blame]	5358	//
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5359	// First we need to consider the instruction's operand requirements before
				5360	// legalizing. Some operands are required to be SGPRs, such as implicit uses
				5361	// of VCC, but we are still bound by the constant bus requirement to only use
				5362	// one.
				5363	//
				5364	// If the operand's class is an SGPR, we can never move it.
				5365
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5366	unsigned SGPRReg = findImplicitSGPRRead(MI);
Matt Arsenault	e223ceb	2015-10-21 21:15:01 +0000	[diff] [blame]	5367	if (SGPRReg != AMDGPU::NoRegister)
				5368	return SGPRReg;
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5369
				5370	unsigned UsedSGPRs[3] = { AMDGPU::NoRegister };
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5371	const MachineRegisterInfo &MRI = MI.getParent()->getParent()->getRegInfo();
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5372
				5373	for (unsigned i = 0; i < 3; ++i) {
				5374	int Idx = OpIndices[i];
				5375	if (Idx == -1)
				5376	break;
				5377
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5378	const MachineOperand &MO = MI.getOperand(Idx);
Matt Arsenault	6c06741	2015-11-03 22:30:15 +0000	[diff] [blame]	5379	if (!MO.isReg())
				5380	continue;
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5381
Matt Arsenault	6c06741	2015-11-03 22:30:15 +0000	[diff] [blame]	5382	// Is this operand statically required to be an SGPR based on the operand
				5383	// constraints?
				5384	const TargetRegisterClass *OpRC = RI.getRegClass(Desc.OpInfo[Idx].RegClass);
				5385	bool IsRequiredSGPR = RI.isSGPRClass(OpRC);
				5386	if (IsRequiredSGPR)
				5387	return MO.getReg();
				5388
				5389	// If this could be a VGPR or an SGPR, Check the dynamic register class.
				5390	unsigned Reg = MO.getReg();
				5391	const TargetRegisterClass *RegRC = MRI.getRegClass(Reg);
				5392	if (RI.isSGPRClass(RegRC))
				5393	UsedSGPRs[i] = Reg;
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5394	}
				5395
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5396	// We don't have a required SGPR operand, so we have a bit more freedom in
				5397	// selecting operands to move.
				5398
				5399	// Try to select the most used SGPR. If an SGPR is equal to one of the
				5400	// others, we choose that.
				5401	//
				5402	// e.g.
				5403	// V_FMA_F32 v0, s0, s0, s0 -> No moves
				5404	// V_FMA_F32 v0, s0, s1, s0 -> Move s1
				5405
Matt Arsenault	6c06741	2015-11-03 22:30:15 +0000	[diff] [blame]	5406	// TODO: If some of the operands are 64-bit SGPRs and some 32, we should
				5407	// prefer those.
				5408
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5409	if (UsedSGPRs[0] != AMDGPU::NoRegister) {
				5410	if (UsedSGPRs[0] == UsedSGPRs[1] \|\| UsedSGPRs[0] == UsedSGPRs[2])
				5411	SGPRReg = UsedSGPRs[0];
				5412	}
				5413
				5414	if (SGPRReg == AMDGPU::NoRegister && UsedSGPRs[1] != AMDGPU::NoRegister) {
				5415	if (UsedSGPRs[1] == UsedSGPRs[2])
				5416	SGPRReg = UsedSGPRs[1];
				5417	}
				5418
				5419	return SGPRReg;
				5420	}
				5421
Tom Stellard	6407e1e	2014-08-01 00:32:33 +0000	[diff] [blame]	5422	MachineOperand *SIInstrInfo::getNamedOperand(MachineInstr &MI,
Matt Arsenault	ace5b76	2014-10-17 18:00:43 +0000	[diff] [blame]	5423	unsigned OperandName) const {
Tom Stellard	1aaad69	2014-07-21 16:55:33 +0000	[diff] [blame]	5424	int Idx = AMDGPU::getNamedOperandIdx(MI.getOpcode(), OperandName);
				5425	if (Idx == -1)
				5426	return nullptr;
				5427
				5428	return &MI.getOperand(Idx);
				5429	}
Tom Stellard	794c8c0	2014-12-02 17:05:41 +0000	[diff] [blame]	5430
				5431	uint64_t SIInstrInfo::getDefaultRsrcDataFormat() const {
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	5432	if (ST.getGeneration() >= AMDGPUSubtarget::GFX10) {
				5433	return (16ULL << 44) \| // IMG_FORMAT_32_FLOAT
				5434	(1ULL << 56) \| // RESOURCE_LEVEL = 1
				5435	(3ULL << 60); // OOB_SELECT = 3
				5436	}
				5437
Tom Stellard	794c8c0	2014-12-02 17:05:41 +0000	[diff] [blame]	5438	uint64_t RsrcDataFormat = AMDGPU::RSRC_DATA_FORMAT;
Tom Stellard	4694ed0	2015-06-26 21:58:42 +0000	[diff] [blame]	5439	if (ST.isAmdHsaOS()) {
Marek Olsak	5c7a61d	2017-03-21 17:00:39 +0000	[diff] [blame]	5440	// Set ATC = 1. GFX9 doesn't have this bit.
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	5441	if (ST.getGeneration() <= AMDGPUSubtarget::VOLCANIC_ISLANDS)
Marek Olsak	5c7a61d	2017-03-21 17:00:39 +0000	[diff] [blame]	5442	RsrcDataFormat \|= (1ULL << 56);
Tom Stellard	794c8c0	2014-12-02 17:05:41 +0000	[diff] [blame]	5443
Marek Olsak	5c7a61d	2017-03-21 17:00:39 +0000	[diff] [blame]	5444	// Set MTYPE = 2 (MTYPE_UC = uncached). GFX9 doesn't have this.
				5445	// BTW, it disables TC L2 and therefore decreases performance.
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	5446	if (ST.getGeneration() == AMDGPUSubtarget::VOLCANIC_ISLANDS)
Michel Danzer	beb79ce	2016-03-16 09:10:35 +0000	[diff] [blame]	5447	RsrcDataFormat \|= (2ULL << 59);
Tom Stellard	4694ed0	2015-06-26 21:58:42 +0000	[diff] [blame]	5448	}
				5449
Tom Stellard	794c8c0	2014-12-02 17:05:41 +0000	[diff] [blame]	5450	return RsrcDataFormat;
				5451	}
Marek Olsak	d1a69a2	2015-09-29 23:37:32 +0000	[diff] [blame]	5452
				5453	uint64_t SIInstrInfo::getScratchRsrcWords23() const {
				5454	uint64_t Rsrc23 = getDefaultRsrcDataFormat() \|
				5455	AMDGPU::RSRC_TID_ENABLE \|
				5456	0xffffffff; // Size;
				5457
Marek Olsak	5c7a61d	2017-03-21 17:00:39 +0000	[diff] [blame]	5458	// GFX9 doesn't have ELEMENT_SIZE.
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	5459	if (ST.getGeneration() <= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	5c7a61d	2017-03-21 17:00:39 +0000	[diff] [blame]	5460	uint64_t EltSizeValue = Log2_32(ST.getMaxPrivateElementSize()) - 1;
				5461	Rsrc23 \|= EltSizeValue << AMDGPU::RSRC_ELEMENT_SIZE_SHIFT;
				5462	}
Matt Arsenault	24ee078	2016-02-12 02:40:47 +0000	[diff] [blame]	5463
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	5464	// IndexStride = 64 / 32.
				5465	uint64_t IndexStride = ST.getGeneration() <= AMDGPUSubtarget::GFX9 ? 3 : 2;
				5466	Rsrc23 \|= IndexStride << AMDGPU::RSRC_INDEX_STRIDE_SHIFT;
Matt Arsenault	24ee078	2016-02-12 02:40:47 +0000	[diff] [blame]	5467
Marek Olsak	d1a69a2	2015-09-29 23:37:32 +0000	[diff] [blame]	5468	// If TID_ENABLE is set, DATA_FORMAT specifies stride bits [14:17].
				5469	// Clear them unless we want a huge stride.
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	5470	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS &&
				5471	ST.getGeneration() <= AMDGPUSubtarget::GFX9)
Marek Olsak	d1a69a2	2015-09-29 23:37:32 +0000	[diff] [blame]	5472	Rsrc23 &= ~AMDGPU::RSRC_DATA_FORMAT;
				5473
				5474	return Rsrc23;
				5475	}
Nicolai Haehnle	02c3291	2016-01-13 16:10:10 +0000	[diff] [blame]	5476
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5477	bool SIInstrInfo::isLowLatencyInstruction(const MachineInstr &MI) const {
				5478	unsigned Opc = MI.getOpcode();
Nicolai Haehnle	02c3291	2016-01-13 16:10:10 +0000	[diff] [blame]	5479
				5480	return isSMRD(Opc);
				5481	}
				5482
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5483	bool SIInstrInfo::isHighLatencyInstruction(const MachineInstr &MI) const {
				5484	unsigned Opc = MI.getOpcode();
Nicolai Haehnle	02c3291	2016-01-13 16:10:10 +0000	[diff] [blame]	5485
				5486	return isMUBUF(Opc) \|\| isMTBUF(Opc) \|\| isMIMG(Opc);
				5487	}
Tom Stellard	2ff7262	2016-01-28 16:04:37 +0000	[diff] [blame]	5488
Matt Arsenault	3354f42	2016-09-10 01:20:33 +0000	[diff] [blame]	5489	unsigned SIInstrInfo::isStackAccess(const MachineInstr &MI,
				5490	int &FrameIndex) const {
				5491	const MachineOperand *Addr = getNamedOperand(MI, AMDGPU::OpName::vaddr);
				5492	if (!Addr \|\| !Addr->isFI())
				5493	return AMDGPU::NoRegister;
				5494
				5495	assert(!MI.memoperands_empty() &&
Matt Arsenault	0da6350	2018-08-31 05:49:54 +0000	[diff] [blame]	5496	(*MI.memoperands_begin())->getAddrSpace() == AMDGPUAS::PRIVATE_ADDRESS);
Matt Arsenault	3354f42	2016-09-10 01:20:33 +0000	[diff] [blame]	5497
				5498	FrameIndex = Addr->getIndex();
				5499	return getNamedOperand(MI, AMDGPU::OpName::vdata)->getReg();
				5500	}
				5501
				5502	unsigned SIInstrInfo::isSGPRStackAccess(const MachineInstr &MI,
				5503	int &FrameIndex) const {
				5504	const MachineOperand *Addr = getNamedOperand(MI, AMDGPU::OpName::addr);
				5505	assert(Addr && Addr->isFI());
				5506	FrameIndex = Addr->getIndex();
				5507	return getNamedOperand(MI, AMDGPU::OpName::data)->getReg();
				5508	}
				5509
				5510	unsigned SIInstrInfo::isLoadFromStackSlot(const MachineInstr &MI,
				5511	int &FrameIndex) const {
Matt Arsenault	3354f42	2016-09-10 01:20:33 +0000	[diff] [blame]	5512	if (!MI.mayLoad())
				5513	return AMDGPU::NoRegister;
				5514
				5515	if (isMUBUF(MI) \|\| isVGPRSpill(MI))
				5516	return isStackAccess(MI, FrameIndex);
				5517
				5518	if (isSGPRSpill(MI))
				5519	return isSGPRStackAccess(MI, FrameIndex);
				5520
				5521	return AMDGPU::NoRegister;
				5522	}
				5523
				5524	unsigned SIInstrInfo::isStoreToStackSlot(const MachineInstr &MI,
				5525	int &FrameIndex) const {
				5526	if (!MI.mayStore())
				5527	return AMDGPU::NoRegister;
				5528
				5529	if (isMUBUF(MI) \|\| isVGPRSpill(MI))
				5530	return isStackAccess(MI, FrameIndex);
				5531
				5532	if (isSGPRSpill(MI))
				5533	return isSGPRStackAccess(MI, FrameIndex);
				5534
				5535	return AMDGPU::NoRegister;
				5536	}
				5537
Matt Arsenault	9ab1fa6	2017-10-04 22:59:12 +0000	[diff] [blame]	5538	unsigned SIInstrInfo::getInstBundleSize(const MachineInstr &MI) const {
				5539	unsigned Size = 0;
				5540	MachineBasicBlock::const_instr_iterator I = MI.getIterator();
				5541	MachineBasicBlock::const_instr_iterator E = MI.getParent()->instr_end();
				5542	while (++I != E && I->isInsideBundle()) {
				5543	assert(!I->isBundle() && "No nested bundle!");
				5544	Size += getInstSizeInBytes(*I);
				5545	}
				5546
				5547	return Size;
				5548	}
				5549
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5550	unsigned SIInstrInfo::getInstSizeInBytes(const MachineInstr &MI) const {
				5551	unsigned Opc = MI.getOpcode();
				5552	const MCInstrDesc &Desc = getMCOpcodeFromPseudo(Opc);
				5553	unsigned DescSize = Desc.getSize();
				5554
				5555	// If we have a definitive size, we can use it. Otherwise we need to inspect
				5556	// the operands to know the size.
Matt Arsenault	0183c56	2018-07-27 09:15:03 +0000	[diff] [blame]	5557	if (isFixedSize(MI))
				5558	return DescSize;
				5559
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5560	// 4-byte instructions may have a 32-bit literal encoded after them. Check
				5561	// operands that coud ever be literals.
				5562	if (isVALU(MI) \|\| isSALU(MI)) {
				5563	int Src0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0);
				5564	if (Src0Idx == -1)
Nicolai Haehnle	283b995	2018-08-29 07:46:09 +0000	[diff] [blame]	5565	return DescSize; // No operands.
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5566
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	5567	if (isLiteralConstantLike(MI.getOperand(Src0Idx), Desc.OpInfo[Src0Idx]))
Stanislav Mekhanoshin	692560d	2019-05-01 16:32:58 +0000	[diff] [blame]	5568	return isVOP3(MI) ? 12 : (DescSize + 4);
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5569
				5570	int Src1Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src1);
				5571	if (Src1Idx == -1)
Nicolai Haehnle	283b995	2018-08-29 07:46:09 +0000	[diff] [blame]	5572	return DescSize;
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5573
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	5574	if (isLiteralConstantLike(MI.getOperand(Src1Idx), Desc.OpInfo[Src1Idx]))
Stanislav Mekhanoshin	692560d	2019-05-01 16:32:58 +0000	[diff] [blame]	5575	return isVOP3(MI) ? 12 : (DescSize + 4);
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5576
Nicolai Haehnle	283b995	2018-08-29 07:46:09 +0000	[diff] [blame]	5577	int Src2Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src2);
				5578	if (Src2Idx == -1)
				5579	return DescSize;
				5580
				5581	if (isLiteralConstantLike(MI.getOperand(Src2Idx), Desc.OpInfo[Src2Idx]))
Stanislav Mekhanoshin	692560d	2019-05-01 16:32:58 +0000	[diff] [blame]	5582	return isVOP3(MI) ? 12 : (DescSize + 4);
Nicolai Haehnle	283b995	2018-08-29 07:46:09 +0000	[diff] [blame]	5583
				5584	return DescSize;
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5585	}
				5586
Stanislav Mekhanoshin	692560d	2019-05-01 16:32:58 +0000	[diff] [blame]	5587	// Check whether we have extra NSA words.
				5588	if (isMIMG(MI)) {
				5589	int VAddr0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::vaddr0);
				5590	if (VAddr0Idx < 0)
				5591	return 8;
				5592
				5593	int RSrcIdx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::srsrc);
				5594	return 8 + 4 * ((RSrcIdx - VAddr0Idx + 2) / 4);
				5595	}
				5596
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5597	switch (Opc) {
				5598	case TargetOpcode::IMPLICIT_DEF:
				5599	case TargetOpcode::KILL:
				5600	case TargetOpcode::DBG_VALUE:
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5601	case TargetOpcode::EH_LABEL:
				5602	return 0;
Matt Arsenault	9ab1fa6	2017-10-04 22:59:12 +0000	[diff] [blame]	5603	case TargetOpcode::BUNDLE:
				5604	return getInstBundleSize(MI);
Craig Topper	784929d	2019-02-08 20:48:56 +0000	[diff] [blame]	5605	case TargetOpcode::INLINEASM:
				5606	case TargetOpcode::INLINEASM_BR: {
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5607	const MachineFunction *MF = MI.getParent()->getParent();
				5608	const char *AsmStr = MI.getOperand(0).getSymbolName();
Matt Arsenault	ca64ef2	2019-05-22 16:28:41 +0000	[diff] [blame]	5609	return getInlineAsmLength(AsmStr, *MF->getTarget().getMCAsmInfo(),
				5610	&MF->getSubtarget());
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5611	}
				5612	default:
Nicolai Haehnle	283b995	2018-08-29 07:46:09 +0000	[diff] [blame]	5613	return DescSize;
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5614	}
				5615	}
				5616
Tom Stellard	6695ba0	2016-10-28 23:53:48 +0000	[diff] [blame]	5617	bool SIInstrInfo::mayAccessFlatAddressSpace(const MachineInstr &MI) const {
				5618	if (!isFLAT(MI))
				5619	return false;
				5620
				5621	if (MI.memoperands_empty())
				5622	return true;
				5623
				5624	for (const MachineMemOperand *MMO : MI.memoperands()) {
Matt Arsenault	0da6350	2018-08-31 05:49:54 +0000	[diff] [blame]	5625	if (MMO->getAddrSpace() == AMDGPUAS::FLAT_ADDRESS)
Tom Stellard	6695ba0	2016-10-28 23:53:48 +0000	[diff] [blame]	5626	return true;
				5627	}
				5628	return false;
				5629	}
				5630
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	5631	bool SIInstrInfo::isNonUniformBranchInstr(MachineInstr &Branch) const {
				5632	return Branch.getOpcode() == AMDGPU::SI_NON_UNIFORM_BRCOND_PSEUDO;
				5633	}
				5634
				5635	void SIInstrInfo::convertNonUniformIfRegion(MachineBasicBlock *IfEntry,
				5636	MachineBasicBlock *IfEnd) const {
				5637	MachineBasicBlock::iterator TI = IfEntry->getFirstTerminator();
				5638	assert(TI != IfEntry->end());
				5639
				5640	MachineInstr Branch = &(TI);
				5641	MachineFunction *MF = IfEntry->getParent();
				5642	MachineRegisterInfo &MRI = IfEntry->getParent()->getRegInfo();
				5643
				5644	if (Branch->getOpcode() == AMDGPU::SI_NON_UNIFORM_BRCOND_PSEUDO) {
				5645	unsigned DstReg = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				5646	MachineInstr *SIIF =
				5647	BuildMI(*MF, Branch->getDebugLoc(), get(AMDGPU::SI_IF), DstReg)
				5648	.add(Branch->getOperand(0))
				5649	.add(Branch->getOperand(1));
				5650	MachineInstr *SIEND =
				5651	BuildMI(*MF, Branch->getDebugLoc(), get(AMDGPU::SI_END_CF))
				5652	.addReg(DstReg);
				5653
				5654	IfEntry->erase(TI);
				5655	IfEntry->insert(IfEntry->end(), SIIF);
				5656	IfEnd->insert(IfEnd->getFirstNonPHI(), SIEND);
				5657	}
				5658	}
				5659
				5660	void SIInstrInfo::convertNonUniformLoopRegion(
				5661	MachineBasicBlock LoopEntry, MachineBasicBlock LoopEnd) const {
				5662	MachineBasicBlock::iterator TI = LoopEnd->getFirstTerminator();
				5663	// We expect 2 terminators, one conditional and one unconditional.
				5664	assert(TI != LoopEnd->end());
				5665
				5666	MachineInstr Branch = &(TI);
				5667	MachineFunction *MF = LoopEnd->getParent();
				5668	MachineRegisterInfo &MRI = LoopEnd->getParent()->getRegInfo();
				5669
				5670	if (Branch->getOpcode() == AMDGPU::SI_NON_UNIFORM_BRCOND_PSEUDO) {
				5671
				5672	unsigned DstReg = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				5673	unsigned BackEdgeReg = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				5674	MachineInstrBuilder HeaderPHIBuilder =
				5675	BuildMI(*(MF), Branch->getDebugLoc(), get(TargetOpcode::PHI), DstReg);
				5676	for (MachineBasicBlock::pred_iterator PI = LoopEntry->pred_begin(),
				5677	E = LoopEntry->pred_end();
				5678	PI != E; ++PI) {
				5679	if (*PI == LoopEnd) {
				5680	HeaderPHIBuilder.addReg(BackEdgeReg);
				5681	} else {
				5682	MachineBasicBlock PMBB = PI;
				5683	unsigned ZeroReg = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				5684	materializeImmediate(*PMBB, PMBB->getFirstTerminator(), DebugLoc(),
				5685	ZeroReg, 0);
				5686	HeaderPHIBuilder.addReg(ZeroReg);
				5687	}
				5688	HeaderPHIBuilder.addMBB(*PI);
				5689	}
				5690	MachineInstr *HeaderPhi = HeaderPHIBuilder;
				5691	MachineInstr SIIFBREAK = BuildMI((MF), Branch->getDebugLoc(),
				5692	get(AMDGPU::SI_IF_BREAK), BackEdgeReg)
				5693	.addReg(DstReg)
				5694	.add(Branch->getOperand(0));
				5695	MachineInstr *SILOOP =
				5696	BuildMI(*(MF), Branch->getDebugLoc(), get(AMDGPU::SI_LOOP))
				5697	.addReg(BackEdgeReg)
				5698	.addMBB(LoopEntry);
				5699
				5700	LoopEntry->insert(LoopEntry->begin(), HeaderPhi);
				5701	LoopEnd->erase(TI);
				5702	LoopEnd->insert(LoopEnd->end(), SIIFBREAK);
				5703	LoopEnd->insert(LoopEnd->end(), SILOOP);
				5704	}
				5705	}
				5706
Tom Stellard	2ff7262	2016-01-28 16:04:37 +0000	[diff] [blame]	5707	ArrayRef<std::pair<int, const char *>>
				5708	SIInstrInfo::getSerializableTargetIndices() const {
				5709	static const std::pair<int, const char *> TargetIndices[] = {
				5710	{AMDGPU::TI_CONSTDATA_START, "amdgpu-constdata-start"},
				5711	{AMDGPU::TI_SCRATCH_RSRC_DWORD0, "amdgpu-scratch-rsrc-dword0"},
				5712	{AMDGPU::TI_SCRATCH_RSRC_DWORD1, "amdgpu-scratch-rsrc-dword1"},
				5713	{AMDGPU::TI_SCRATCH_RSRC_DWORD2, "amdgpu-scratch-rsrc-dword2"},
				5714	{AMDGPU::TI_SCRATCH_RSRC_DWORD3, "amdgpu-scratch-rsrc-dword3"}};
				5715	return makeArrayRef(TargetIndices);
				5716	}
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	5717
				5718	/// This is used by the post-RA scheduler (SchedulePostRAList.cpp). The
				5719	/// post-RA version of misched uses CreateTargetMIHazardRecognizer.
				5720	ScheduleHazardRecognizer *
				5721	SIInstrInfo::CreateTargetPostRAHazardRecognizer(const InstrItineraryData *II,
				5722	const ScheduleDAG *DAG) const {
				5723	return new GCNHazardRecognizer(DAG->MF);
				5724	}
				5725
				5726	/// This is the hazard recognizer used at -O0 by the PostRAHazardRecognizer
				5727	/// pass.
				5728	ScheduleHazardRecognizer *
				5729	SIInstrInfo::CreateTargetPostRAHazardRecognizer(const MachineFunction &MF) const {
				5730	return new GCNHazardRecognizer(MF);
				5731	}
Stanislav Mekhanoshin	6ec3e3a	2017-01-20 00:44:31 +0000	[diff] [blame]	5732
Matt Arsenault	3f031e7	2017-07-02 23:21:48 +0000	[diff] [blame]	5733	std::pair<unsigned, unsigned>
				5734	SIInstrInfo::decomposeMachineOperandsTargetFlags(unsigned TF) const {
				5735	return std::make_pair(TF & MO_MASK, TF & ~MO_MASK);
				5736	}
				5737
				5738	ArrayRef<std::pair<unsigned, const char *>>
				5739	SIInstrInfo::getSerializableDirectMachineOperandTargetFlags() const {
				5740	static const std::pair<unsigned, const char *> TargetFlags[] = {
				5741	{ MO_GOTPCREL, "amdgpu-gotprel" },
				5742	{ MO_GOTPCREL32_LO, "amdgpu-gotprel32-lo" },
				5743	{ MO_GOTPCREL32_HI, "amdgpu-gotprel32-hi" },
				5744	{ MO_REL32_LO, "amdgpu-rel32-lo" },
				5745	{ MO_REL32_HI, "amdgpu-rel32-hi" }
				5746	};
				5747
				5748	return makeArrayRef(TargetFlags);
				5749	}
				5750
Stanislav Mekhanoshin	6ec3e3a	2017-01-20 00:44:31 +0000	[diff] [blame]	5751	bool SIInstrInfo::isBasicBlockPrologue(const MachineInstr &MI) const {
				5752	return !MI.isTerminator() && MI.getOpcode() != AMDGPU::COPY &&
				5753	MI.modifiesRegister(AMDGPU::EXEC, &RI);
				5754	}
Stanislav Mekhanoshin	86b0a54	2017-04-14 00:33:44 +0000	[diff] [blame]	5755
				5756	MachineInstrBuilder
				5757	SIInstrInfo::getAddNoCarry(MachineBasicBlock &MBB,
				5758	MachineBasicBlock::iterator I,
				5759	const DebugLoc &DL,
				5760	unsigned DestReg) const {
Matt Arsenault	686d5c7	2017-11-30 23:42:30 +0000	[diff] [blame]	5761	if (ST.hasAddNoCarry())
				5762	return BuildMI(MBB, I, DL, get(AMDGPU::V_ADD_U32_e64), DestReg);
Stanislav Mekhanoshin	86b0a54	2017-04-14 00:33:44 +0000	[diff] [blame]	5763
Matt Arsenault	686d5c7	2017-11-30 23:42:30 +0000	[diff] [blame]	5764	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
Stanislav Mekhanoshin	86b0a54	2017-04-14 00:33:44 +0000	[diff] [blame]	5765	unsigned UnusedCarry = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
Matt Arsenault	686d5c7	2017-11-30 23:42:30 +0000	[diff] [blame]	5766	MRI.setRegAllocationHint(UnusedCarry, 0, AMDGPU::VCC);
Stanislav Mekhanoshin	86b0a54	2017-04-14 00:33:44 +0000	[diff] [blame]	5767
				5768	return BuildMI(MBB, I, DL, get(AMDGPU::V_ADD_I32_e64), DestReg)
				5769	.addReg(UnusedCarry, RegState::Define \| RegState::Dead);
				5770	}
Marek Olsak	ce76ea0	2017-10-24 10:27:13 +0000	[diff] [blame]	5771
				5772	bool SIInstrInfo::isKillTerminator(unsigned Opcode) {
				5773	switch (Opcode) {
				5774	case AMDGPU::SI_KILL_F32_COND_IMM_TERMINATOR:
				5775	case AMDGPU::SI_KILL_I1_TERMINATOR:
				5776	return true;
				5777	default:
				5778	return false;
				5779	}
				5780	}
				5781
				5782	const MCInstrDesc &SIInstrInfo::getKillTerminatorFromPseudo(unsigned Opcode) const {
				5783	switch (Opcode) {
				5784	case AMDGPU::SI_KILL_F32_COND_IMM_PSEUDO:
				5785	return get(AMDGPU::SI_KILL_F32_COND_IMM_TERMINATOR);
				5786	case AMDGPU::SI_KILL_I1_PSEUDO:
				5787	return get(AMDGPU::SI_KILL_I1_TERMINATOR);
				5788	default:
				5789	llvm_unreachable("invalid opcode, expected SI_KILL_*_PSEUDO");
				5790	}
				5791	}
Tom Stellard	44b30b4	2018-05-22 02:03:23 +0000	[diff] [blame]	5792
				5793	bool SIInstrInfo::isBufferSMRD(const MachineInstr &MI) const {
				5794	if (!isSMRD(MI))
				5795	return false;
				5796
				5797	// Check that it is using a buffer resource.
				5798	int Idx = AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::sbase);
				5799	if (Idx == -1) // e.g. s_memtime
				5800	return false;
				5801
				5802	const auto RCID = MI.getDesc().OpInfo[Idx].RegClass;
				5803	return RCID == AMDGPU::SReg_128RegClassID;
				5804	}
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5805
				5806	// This must be kept in sync with the SIEncodingFamily class in SIInstrInfo.td
				5807	enum SIEncodingFamily {
				5808	SI = 0,
				5809	VI = 1,
				5810	SDWA = 2,
				5811	SDWA9 = 3,
				5812	GFX80 = 4,
Stanislav Mekhanoshin	cee607e	2019-04-24 17:03:15 +0000	[diff] [blame]	5813	GFX9 = 5,
				5814	GFX10 = 6,
				5815	SDWA10 = 7
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5816	};
				5817
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	5818	static SIEncodingFamily subtargetEncodingFamily(const GCNSubtarget &ST) {
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5819	switch (ST.getGeneration()) {
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	5820	default:
				5821	break;
				5822	case AMDGPUSubtarget::SOUTHERN_ISLANDS:
				5823	case AMDGPUSubtarget::SEA_ISLANDS:
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5824	return SIEncodingFamily::SI;
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	5825	case AMDGPUSubtarget::VOLCANIC_ISLANDS:
				5826	case AMDGPUSubtarget::GFX9:
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5827	return SIEncodingFamily::VI;
Stanislav Mekhanoshin	cee607e	2019-04-24 17:03:15 +0000	[diff] [blame]	5828	case AMDGPUSubtarget::GFX10:
				5829	return SIEncodingFamily::GFX10;
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5830	}
				5831	llvm_unreachable("Unknown subtarget generation!");
				5832	}
				5833
				5834	int SIInstrInfo::pseudoToMCOpcode(int Opcode) const {
				5835	SIEncodingFamily Gen = subtargetEncodingFamily(ST);
				5836
				5837	if ((get(Opcode).TSFlags & SIInstrFlags::renamedInGFX9) != 0 &&
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	5838	ST.getGeneration() == AMDGPUSubtarget::GFX9)
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5839	Gen = SIEncodingFamily::GFX9;
				5840
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5841	// Adjust the encoding family to GFX80 for D16 buffer instructions when the
				5842	// subtarget has UnpackedD16VMem feature.
				5843	// TODO: remove this when we discard GFX80 encoding.
				5844	if (ST.hasUnpackedD16VMem() && (get(Opcode).TSFlags & SIInstrFlags::D16Buf))
				5845	Gen = SIEncodingFamily::GFX80;
				5846
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	5847	if (get(Opcode).TSFlags & SIInstrFlags::SDWA) {
				5848	switch (ST.getGeneration()) {
				5849	default:
				5850	Gen = SIEncodingFamily::SDWA;
				5851	break;
				5852	case AMDGPUSubtarget::GFX9:
				5853	Gen = SIEncodingFamily::SDWA9;
				5854	break;
				5855	case AMDGPUSubtarget::GFX10:
				5856	Gen = SIEncodingFamily::SDWA10;
				5857	break;
				5858	}
				5859	}
				5860
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5861	int MCOp = AMDGPU::getMCOpcode(Opcode, Gen);
				5862
				5863	// -1 means that Opcode is already a native instruction.
				5864	if (MCOp == -1)
				5865	return Opcode;
				5866
				5867	// (uint16_t)-1 means that Opcode is a pseudo instruction that has
				5868	// no encoding in the given subtarget generation.
				5869	if (MCOp == (uint16_t)-1)
				5870	return -1;
				5871
				5872	return MCOp;
				5873	}
Valery Pykhtin	3d9afa2	2018-11-30 14:21:56 +0000	[diff] [blame]	5874
				5875	static
				5876	TargetInstrInfo::RegSubRegPair getRegOrUndef(const MachineOperand &RegOpnd) {
				5877	assert(RegOpnd.isReg());
				5878	return RegOpnd.isUndef() ? TargetInstrInfo::RegSubRegPair() :
				5879	getRegSubRegPair(RegOpnd);
				5880	}
				5881
				5882	TargetInstrInfo::RegSubRegPair
				5883	llvm::getRegSequenceSubReg(MachineInstr &MI, unsigned SubReg) {
				5884	assert(MI.isRegSequence());
				5885	for (unsigned I = 0, E = (MI.getNumOperands() - 1)/ 2; I < E; ++I)
				5886	if (MI.getOperand(1 + 2 * I + 1).getImm() == SubReg) {
				5887	auto &RegOp = MI.getOperand(1 + 2 * I);
				5888	return getRegOrUndef(RegOp);
				5889	}
				5890	return TargetInstrInfo::RegSubRegPair();
				5891	}
				5892
				5893	// Try to find the definition of reg:subreg in subreg-manipulation pseudos
				5894	// Following a subreg of reg:subreg isn't supported
				5895	static bool followSubRegDef(MachineInstr &MI,
				5896	TargetInstrInfo::RegSubRegPair &RSR) {
				5897	if (!RSR.SubReg)
				5898	return false;
				5899	switch (MI.getOpcode()) {
				5900	default: break;
				5901	case AMDGPU::REG_SEQUENCE:
				5902	RSR = getRegSequenceSubReg(MI, RSR.SubReg);
				5903	return true;
				5904	// EXTRACT_SUBREG ins't supported as this would follow a subreg of subreg
				5905	case AMDGPU::INSERT_SUBREG:
				5906	if (RSR.SubReg == (unsigned)MI.getOperand(3).getImm())
				5907	// inserted the subreg we're looking for
				5908	RSR = getRegOrUndef(MI.getOperand(2));
				5909	else { // the subreg in the rest of the reg
				5910	auto R1 = getRegOrUndef(MI.getOperand(1));
				5911	if (R1.SubReg) // subreg of subreg isn't supported
				5912	return false;
				5913	RSR.Reg = R1.Reg;
				5914	}
				5915	return true;
				5916	}
				5917	return false;
				5918	}
				5919
				5920	MachineInstr *llvm::getVRegSubRegDef(const TargetInstrInfo::RegSubRegPair &P,
				5921	MachineRegisterInfo &MRI) {
				5922	assert(MRI.isSSA());
				5923	if (!TargetRegisterInfo::isVirtualRegister(P.Reg))
				5924	return nullptr;
				5925
				5926	auto RSR = P;
				5927	auto *DefInst = MRI.getVRegDef(RSR.Reg);
				5928	while (auto *MI = DefInst) {
				5929	DefInst = nullptr;
				5930	switch (MI->getOpcode()) {
				5931	case AMDGPU::COPY:
				5932	case AMDGPU::V_MOV_B32_e32: {
				5933	auto &Op1 = MI->getOperand(1);
				5934	if (Op1.isReg() &&
				5935	TargetRegisterInfo::isVirtualRegister(Op1.getReg())) {
				5936	if (Op1.isUndef())
				5937	return nullptr;
				5938	RSR = getRegSubRegPair(Op1);
				5939	DefInst = MRI.getVRegDef(RSR.Reg);
				5940	}
				5941	break;
				5942	}
				5943	default:
				5944	if (followSubRegDef(*MI, RSR)) {
				5945	if (!RSR.Reg)
				5946	return nullptr;
				5947	DefInst = MRI.getVRegDef(RSR.Reg);
				5948	}
				5949	}
				5950	if (!DefInst)
				5951	return MI;
				5952	}
				5953	return nullptr;
				5954	}
Valery Pykhtin	7fe97f8	2019-02-08 11:59:48 +0000	[diff] [blame]	5955
				5956	bool llvm::isEXECMaskConstantBetweenDefAndUses(unsigned VReg,
				5957	MachineRegisterInfo &MRI) {
				5958	assert(MRI.isSSA() && "Must be run on SSA");
				5959	auto *TRI = MRI.getTargetRegisterInfo();
				5960
				5961	auto *DefI = MRI.getVRegDef(VReg);
				5962	auto *BB = DefI->getParent();
				5963
				5964	DenseSet<MachineInstr*> Uses;
				5965	for (auto &Use : MRI.use_nodbg_operands(VReg)) {
				5966	auto *I = Use.getParent();
				5967	if (I->getParent() != BB)
				5968	return false;
				5969	Uses.insert(I);
				5970	}
				5971
				5972	auto E = BB->end();
				5973	for (auto I = std::next(DefI->getIterator()); I != E; ++I) {
				5974	Uses.erase(&*I);
				5975	// don't check the last use
				5976	if (Uses.empty() \|\| I->modifiesRegister(AMDGPU::EXEC, TRI))
				5977	break;
				5978	}
				5979	return Uses.empty();
				5980	}