Blame - llvm/lib/Target/AMDGPU/SIInstrInfo.cpp - toolchain/llvm-project

blob: 554427826217346b7c002e559a90ce93c078fd6c [file] [log] [blame]

Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1	//===- SIInstrInfo.cpp - SI Instruction Information ----------------------===//
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	2	//
Chandler Carruth	2946cd7	2019-01-19 08:50:56 +0000	[diff] [blame]	3	// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
				4	// See https://llvm.org/LICENSE.txt for license information.
				5	// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	6	//
				7	//===----------------------------------------------------------------------===//
				8	//
				9	/// \file
Adrian Prantl	5f8f34e4	2018-05-01 15:54:18 +0000	[diff] [blame]	10	/// SI Implementation of TargetInstrInfo.
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	11	//
				12	//===----------------------------------------------------------------------===//
				13
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	14	#include "SIInstrInfo.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	15	#include "AMDGPU.h"
				16	#include "AMDGPUSubtarget.h"
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	17	#include "GCNHazardRecognizer.h"
Tom Stellard	16a9a20	2013-08-14 23:24:17 +0000	[diff] [blame]	18	#include "SIDefines.h"
Tom Stellard	c149dc0	2013-11-27 21:23:35 +0000	[diff] [blame]	19	#include "SIMachineFunctionInfo.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	20	#include "SIRegisterInfo.h"
Tom Stellard	44b30b4	2018-05-22 02:03:23 +0000	[diff] [blame]	21	#include "MCTargetDesc/AMDGPUMCTargetDesc.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	22	#include "Utils/AMDGPUBaseInfo.h"
				23	#include "llvm/ADT/APInt.h"
				24	#include "llvm/ADT/ArrayRef.h"
				25	#include "llvm/ADT/SmallVector.h"
				26	#include "llvm/ADT/StringRef.h"
				27	#include "llvm/ADT/iterator_range.h"
				28	#include "llvm/Analysis/AliasAnalysis.h"
				29	#include "llvm/Analysis/MemoryLocation.h"
Stanislav Mekhanoshin	7fe9a5d	2017-09-13 22:20:47 +0000	[diff] [blame]	30	#include "llvm/Analysis/ValueTracking.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	31	#include "llvm/CodeGen/MachineBasicBlock.h"
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	32	#include "llvm/CodeGen/MachineDominators.h"
Tom Stellard	c5cf2f0	2014-08-21 20:40:54 +0000	[diff] [blame]	33	#include "llvm/CodeGen/MachineFrameInfo.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	34	#include "llvm/CodeGen/MachineFunction.h"
				35	#include "llvm/CodeGen/MachineInstr.h"
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	36	#include "llvm/CodeGen/MachineInstrBuilder.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	37	#include "llvm/CodeGen/MachineInstrBundle.h"
				38	#include "llvm/CodeGen/MachineMemOperand.h"
				39	#include "llvm/CodeGen/MachineOperand.h"
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	40	#include "llvm/CodeGen/MachineRegisterInfo.h"
Chandler Carruth	6bda14b	2017-06-06 11:49:48 +0000	[diff] [blame]	41	#include "llvm/CodeGen/RegisterScavenging.h"
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	42	#include "llvm/CodeGen/ScheduleDAG.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	43	#include "llvm/CodeGen/SelectionDAGNodes.h"
David Blaikie	b3bde2e	2017-11-17 01:07:10 +0000	[diff] [blame]	44	#include "llvm/CodeGen/TargetOpcodes.h"
				45	#include "llvm/CodeGen/TargetRegisterInfo.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	46	#include "llvm/IR/DebugLoc.h"
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	47	#include "llvm/IR/DiagnosticInfo.h"
Tom Stellard	4e07b1d	2014-06-10 21:20:41 +0000	[diff] [blame]	48	#include "llvm/IR/Function.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	49	#include "llvm/IR/InlineAsm.h"
				50	#include "llvm/IR/LLVMContext.h"
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	51	#include "llvm/MC/MCInstrDesc.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	52	#include "llvm/Support/Casting.h"
				53	#include "llvm/Support/CommandLine.h"
				54	#include "llvm/Support/Compiler.h"
				55	#include "llvm/Support/ErrorHandling.h"
David Blaikie	13e77db	2018-03-23 23:58:25 +0000	[diff] [blame]	56	#include "llvm/Support/MachineValueType.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	57	#include "llvm/Support/MathExtras.h"
				58	#include "llvm/Target/TargetMachine.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	59	#include <cassert>
				60	#include <cstdint>
				61	#include <iterator>
				62	#include <utility>
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	63
				64	using namespace llvm;
				65
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	66	#define GET_INSTRINFO_CTOR_DTOR
				67	#include "AMDGPUGenInstrInfo.inc"
				68
				69	namespace llvm {
				70	namespace AMDGPU {
				71	#define GET_D16ImageDimIntrinsics_IMPL
				72	#define GET_ImageDimIntrinsicTable_IMPL
				73	#define GET_RsrcIntrinsics_IMPL
				74	#include "AMDGPUGenSearchableTables.inc"
				75	}
				76	}
				77
				78
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	79	// Must be at least 4 to be able to branch over minimum unconditional branch
				80	// code. This is only for making it possible to write reasonably small tests for
				81	// long branches.
				82	static cl::opt<unsigned>
				83	BranchOffsetBits("amdgpu-s-branch-bits", cl::ReallyHidden, cl::init(16),
				84	cl::desc("Restrict range of branch instructions (DEBUG)"));
				85
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	86	SIInstrInfo::SIInstrInfo(const GCNSubtarget &ST)
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	87	: AMDGPUGenInstrInfo(AMDGPU::ADJCALLSTACKUP, AMDGPU::ADJCALLSTACKDOWN),
				88	RI(ST), ST(ST) {}
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	89
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	90	//===----------------------------------------------------------------------===//
				91	// TargetInstrInfo callbacks
				92	//===----------------------------------------------------------------------===//
				93
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	94	static unsigned getNumOperandsNoGlue(SDNode *Node) {
				95	unsigned N = Node->getNumOperands();
				96	while (N && Node->getOperand(N - 1).getValueType() == MVT::Glue)
				97	--N;
				98	return N;
				99	}
				100
Adrian Prantl	5f8f34e4	2018-05-01 15:54:18 +0000	[diff] [blame]	101	/// Returns true if both nodes have the same value for the given
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	102	/// operand \p Op, or if both nodes do not have this operand.
				103	static bool nodesHaveSameOperandValue(SDNode N0, SDNode N1, unsigned OpName) {
				104	unsigned Opc0 = N0->getMachineOpcode();
				105	unsigned Opc1 = N1->getMachineOpcode();
				106
				107	int Op0Idx = AMDGPU::getNamedOperandIdx(Opc0, OpName);
				108	int Op1Idx = AMDGPU::getNamedOperandIdx(Opc1, OpName);
				109
				110	if (Op0Idx == -1 && Op1Idx == -1)
				111	return true;
				112
				113
				114	if ((Op0Idx == -1 && Op1Idx != -1) \|\|
				115	(Op1Idx == -1 && Op0Idx != -1))
				116	return false;
				117
				118	// getNamedOperandIdx returns the index for the MachineInstr's operands,
				119	// which includes the result as the first operand. We are indexing into the
				120	// MachineSDNode's operands, so we need to skip the result operand to get
				121	// the real index.
				122	--Op0Idx;
				123	--Op1Idx;
				124
Tom Stellard	b8b8413	2014-09-03 15:22:39 +0000	[diff] [blame]	125	return N0->getOperand(Op0Idx) == N1->getOperand(Op1Idx);
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	126	}
				127
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	128	bool SIInstrInfo::isReallyTriviallyReMaterializable(const MachineInstr &MI,
Matt Arsenault	a48b866	2015-04-23 23:34:48 +0000	[diff] [blame]	129	AliasAnalysis *AA) const {
				130	// TODO: The generic check fails for VALU instructions that should be
				131	// rematerializable due to implicit reads of exec. We really want all of the
				132	// generic logic for this except for this.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	133	switch (MI.getOpcode()) {
Matt Arsenault	a48b866	2015-04-23 23:34:48 +0000	[diff] [blame]	134	case AMDGPU::V_MOV_B32_e32:
				135	case AMDGPU::V_MOV_B32_e64:
Matt Arsenault	80f766a	2015-09-10 01:23:28 +0000	[diff] [blame]	136	case AMDGPU::V_MOV_B64_PSEUDO:
Matt Arsenault	cba0c6d	2019-02-04 22:26:21 +0000	[diff] [blame]	137	// No implicit operands.
				138	return MI.getNumOperands() == MI.getDesc().getNumOperands();
Matt Arsenault	a48b866	2015-04-23 23:34:48 +0000	[diff] [blame]	139	default:
				140	return false;
				141	}
				142	}
				143
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	144	bool SIInstrInfo::areLoadsFromSameBasePtr(SDNode Load0, SDNode Load1,
				145	int64_t &Offset0,
				146	int64_t &Offset1) const {
				147	if (!Load0->isMachineOpcode() \|\| !Load1->isMachineOpcode())
				148	return false;
				149
				150	unsigned Opc0 = Load0->getMachineOpcode();
				151	unsigned Opc1 = Load1->getMachineOpcode();
				152
				153	// Make sure both are actually loads.
				154	if (!get(Opc0).mayLoad() \|\| !get(Opc1).mayLoad())
				155	return false;
				156
				157	if (isDS(Opc0) && isDS(Opc1)) {
Tom Stellard	20fa0be	2014-10-07 21:09:20 +0000	[diff] [blame]	158
				159	// FIXME: Handle this case:
				160	if (getNumOperandsNoGlue(Load0) != getNumOperandsNoGlue(Load1))
				161	return false;
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	162
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	163	// Check base reg.
Matt Arsenault	07f904b	2019-03-08 20:30:50 +0000	[diff] [blame]	164	if (Load0->getOperand(0) != Load1->getOperand(0))
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	165	return false;
				166
Matt Arsenault	972c12a	2014-09-17 17:48:32 +0000	[diff] [blame]	167	// Skip read2 / write2 variants for simplicity.
				168	// TODO: We should report true if the used offsets are adjacent (excluded
				169	// st64 versions).
Matt Arsenault	bbc59d8	2019-03-27 15:41:00 +0000	[diff] [blame]	170	int Offset0Idx = AMDGPU::getNamedOperandIdx(Opc0, AMDGPU::OpName::offset);
				171	int Offset1Idx = AMDGPU::getNamedOperandIdx(Opc1, AMDGPU::OpName::offset);
				172	if (Offset0Idx == -1 \|\| Offset1Idx == -1)
Matt Arsenault	972c12a	2014-09-17 17:48:32 +0000	[diff] [blame]	173	return false;
				174
Matt Arsenault	bbc59d8	2019-03-27 15:41:00 +0000	[diff] [blame]	175	// XXX - be careful of datalesss loads
				176	// getNamedOperandIdx returns the index for MachineInstrs. Since they
				177	// include the output in the operand list, but SDNodes don't, we need to
				178	// subtract the index by one.
				179	Offset0Idx -= get(Opc0).NumDefs;
				180	Offset1Idx -= get(Opc1).NumDefs;
				181	Offset0 = cast<ConstantSDNode>(Load0->getOperand(Offset0Idx))->getZExtValue();
				182	Offset1 = cast<ConstantSDNode>(Load1->getOperand(Offset1Idx))->getZExtValue();
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	183	return true;
				184	}
				185
				186	if (isSMRD(Opc0) && isSMRD(Opc1)) {
Nicolai Haehnle	ef44978	2017-04-24 16:53:52 +0000	[diff] [blame]	187	// Skip time and cache invalidation instructions.
				188	if (AMDGPU::getNamedOperandIdx(Opc0, AMDGPU::OpName::sbase) == -1 \|\|
				189	AMDGPU::getNamedOperandIdx(Opc1, AMDGPU::OpName::sbase) == -1)
				190	return false;
				191
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	192	assert(getNumOperandsNoGlue(Load0) == getNumOperandsNoGlue(Load1));
				193
				194	// Check base reg.
				195	if (Load0->getOperand(0) != Load1->getOperand(0))
				196	return false;
				197
Tom Stellard	f0a575f	2015-03-23 16:06:01 +0000	[diff] [blame]	198	const ConstantSDNode *Load0Offset =
				199	dyn_cast<ConstantSDNode>(Load0->getOperand(1));
				200	const ConstantSDNode *Load1Offset =
				201	dyn_cast<ConstantSDNode>(Load1->getOperand(1));
				202
				203	if (!Load0Offset \|\| !Load1Offset)
				204	return false;
				205
Tom Stellard	f0a575f	2015-03-23 16:06:01 +0000	[diff] [blame]	206	Offset0 = Load0Offset->getZExtValue();
				207	Offset1 = Load1Offset->getZExtValue();
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	208	return true;
				209	}
				210
				211	// MUBUF and MTBUF can access the same addresses.
				212	if ((isMUBUF(Opc0) \|\| isMTBUF(Opc0)) && (isMUBUF(Opc1) \|\| isMTBUF(Opc1))) {
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	213
				214	// MUBUF and MTBUF have vaddr at different indices.
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	215	if (!nodesHaveSameOperandValue(Load0, Load1, AMDGPU::OpName::soffset) \|\|
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	216	!nodesHaveSameOperandValue(Load0, Load1, AMDGPU::OpName::vaddr) \|\|
Tom Stellard	b8b8413	2014-09-03 15:22:39 +0000	[diff] [blame]	217	!nodesHaveSameOperandValue(Load0, Load1, AMDGPU::OpName::srsrc))
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	218	return false;
				219
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	220	int OffIdx0 = AMDGPU::getNamedOperandIdx(Opc0, AMDGPU::OpName::offset);
				221	int OffIdx1 = AMDGPU::getNamedOperandIdx(Opc1, AMDGPU::OpName::offset);
				222
				223	if (OffIdx0 == -1 \|\| OffIdx1 == -1)
				224	return false;
				225
				226	// getNamedOperandIdx returns the index for MachineInstrs. Since they
Matt Arsenault	07f904b	2019-03-08 20:30:50 +0000	[diff] [blame]	227	// include the output in the operand list, but SDNodes don't, we need to
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	228	// subtract the index by one.
Matt Arsenault	28f97f1	2019-03-27 16:12:29 +0000	[diff] [blame]	229	OffIdx0 -= get(Opc0).NumDefs;
				230	OffIdx1 -= get(Opc1).NumDefs;
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	231
				232	SDValue Off0 = Load0->getOperand(OffIdx0);
				233	SDValue Off1 = Load1->getOperand(OffIdx1);
				234
				235	// The offset might be a FrameIndexSDNode.
				236	if (!isa<ConstantSDNode>(Off0) \|\| !isa<ConstantSDNode>(Off1))
				237	return false;
				238
				239	Offset0 = cast<ConstantSDNode>(Off0)->getZExtValue();
				240	Offset1 = cast<ConstantSDNode>(Off1)->getZExtValue();
Matt Arsenault	c10853f	2014-08-06 00:29:43 +0000	[diff] [blame]	241	return true;
				242	}
				243
				244	return false;
				245	}
				246
Matt Arsenault	2e99112	2014-09-10 23:26:16 +0000	[diff] [blame]	247	static bool isStride64(unsigned Opc) {
				248	switch (Opc) {
				249	case AMDGPU::DS_READ2ST64_B32:
				250	case AMDGPU::DS_READ2ST64_B64:
				251	case AMDGPU::DS_WRITE2ST64_B32:
				252	case AMDGPU::DS_WRITE2ST64_B64:
				253	return true;
				254	default:
				255	return false;
				256	}
				257	}
				258
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	259	bool SIInstrInfo::getMemOperandWithOffset(const MachineInstr &LdSt,
				260	const MachineOperand *&BaseOp,
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	261	int64_t &Offset,
				262	const TargetRegisterInfo *TRI) const {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	263	unsigned Opc = LdSt.getOpcode();
Matt Arsenault	3add643	2015-10-20 04:35:43 +0000	[diff] [blame]	264
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	265	if (isDS(LdSt)) {
				266	const MachineOperand *OffsetImm =
				267	getNamedOperand(LdSt, AMDGPU::OpName::offset);
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	268	if (OffsetImm) {
				269	// Normal, single offset LDS instruction.
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	270	BaseOp = getNamedOperand(LdSt, AMDGPU::OpName::addr);
Matt Arsenault	cdd191d	2019-01-28 20:14:49 +0000	[diff] [blame]	271	// TODO: ds_consume/ds_append use M0 for the base address. Is it safe to
				272	// report that here?
				273	if (!BaseOp)
				274	return false;
				275
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	276	Offset = OffsetImm->getImm();
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	277	assert(BaseOp->isReg() && "getMemOperandWithOffset only supports base "
				278	"operands of type register.");
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	279	return true;
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	280	}
				281
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	282	// The 2 offset instructions use offset0 and offset1 instead. We can treat
				283	// these as a load with a single offset if the 2 offsets are consecutive. We
				284	// will use this for some partially aligned loads.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	285	const MachineOperand *Offset0Imm =
				286	getNamedOperand(LdSt, AMDGPU::OpName::offset0);
				287	const MachineOperand *Offset1Imm =
				288	getNamedOperand(LdSt, AMDGPU::OpName::offset1);
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	289
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	290	uint8_t Offset0 = Offset0Imm->getImm();
				291	uint8_t Offset1 = Offset1Imm->getImm();
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	292
Matt Arsenault	84db5d9	2015-07-14 17:57:36 +0000	[diff] [blame]	293	if (Offset1 > Offset0 && Offset1 - Offset0 == 1) {
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	294	// Each of these offsets is in element sized units, so we need to convert
				295	// to bytes of the individual reads.
				296
				297	unsigned EltSize;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	298	if (LdSt.mayLoad())
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	299	EltSize = TRI->getRegSizeInBits(*getOpRegClass(LdSt, 0)) / 16;
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	300	else {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	301	assert(LdSt.mayStore());
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	302	int Data0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::data0);
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	303	EltSize = TRI->getRegSizeInBits(*getOpRegClass(LdSt, Data0Idx)) / 8;
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	304	}
				305
Matt Arsenault	2e99112	2014-09-10 23:26:16 +0000	[diff] [blame]	306	if (isStride64(Opc))
				307	EltSize *= 64;
				308
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	309	BaseOp = getNamedOperand(LdSt, AMDGPU::OpName::addr);
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	310	Offset = EltSize * Offset0;
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	311	assert(BaseOp->isReg() && "getMemOperandWithOffset only supports base "
				312	"operands of type register.");
Matt Arsenault	7eb0a10	2014-07-30 01:01:10 +0000	[diff] [blame]	313	return true;
				314	}
				315
				316	return false;
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	317	}
				318
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	319	if (isMUBUF(LdSt) \|\| isMTBUF(LdSt)) {
Matt Arsenault	3666629	2016-11-15 20:14:27 +0000	[diff] [blame]	320	const MachineOperand *SOffset = getNamedOperand(LdSt, AMDGPU::OpName::soffset);
				321	if (SOffset && SOffset->isReg())
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	322	return false;
				323
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	324	const MachineOperand *AddrReg = getNamedOperand(LdSt, AMDGPU::OpName::vaddr);
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	325	if (!AddrReg)
				326	return false;
				327
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	328	const MachineOperand *OffsetImm =
				329	getNamedOperand(LdSt, AMDGPU::OpName::offset);
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	330	BaseOp = AddrReg;
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	331	Offset = OffsetImm->getImm();
Matt Arsenault	3666629	2016-11-15 20:14:27 +0000	[diff] [blame]	332
				333	if (SOffset) // soffset can be an inline immediate.
				334	Offset += SOffset->getImm();
				335
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	336	assert(BaseOp->isReg() && "getMemOperandWithOffset only supports base "
				337	"operands of type register.");
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	338	return true;
				339	}
				340
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	341	if (isSMRD(LdSt)) {
				342	const MachineOperand *OffsetImm =
				343	getNamedOperand(LdSt, AMDGPU::OpName::offset);
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	344	if (!OffsetImm)
				345	return false;
				346
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	347	const MachineOperand *SBaseReg = getNamedOperand(LdSt, AMDGPU::OpName::sbase);
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	348	BaseOp = SBaseReg;
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	349	Offset = OffsetImm->getImm();
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	350	assert(BaseOp->isReg() && "getMemOperandWithOffset only supports base "
				351	"operands of type register.");
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	352	return true;
				353	}
				354
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	355	if (isFLAT(LdSt)) {
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	356	const MachineOperand *VAddr = getNamedOperand(LdSt, AMDGPU::OpName::vaddr);
Matt Arsenault	37a58e0	2017-07-21 18:06:36 +0000	[diff] [blame]	357	if (VAddr) {
				358	// Can't analyze 2 offsets.
				359	if (getNamedOperand(LdSt, AMDGPU::OpName::saddr))
				360	return false;
				361
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	362	BaseOp = VAddr;
Matt Arsenault	37a58e0	2017-07-21 18:06:36 +0000	[diff] [blame]	363	} else {
				364	// scratch instructions have either vaddr or saddr.
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	365	BaseOp = getNamedOperand(LdSt, AMDGPU::OpName::saddr);
Matt Arsenault	37a58e0	2017-07-21 18:06:36 +0000	[diff] [blame]	366	}
				367
				368	Offset = getNamedOperand(LdSt, AMDGPU::OpName::offset)->getImm();
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	369	assert(BaseOp->isReg() && "getMemOperandWithOffset only supports base "
				370	"operands of type register.");
Matt Arsenault	43578ec	2016-06-02 20:05:20 +0000	[diff] [blame]	371	return true;
				372	}
				373
Matt Arsenault	1acc72f	2014-07-29 21:34:55 +0000	[diff] [blame]	374	return false;
				375	}
				376
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	377	static bool memOpsHaveSameBasePtr(const MachineInstr &MI1,
				378	const MachineOperand &BaseOp1,
				379	const MachineInstr &MI2,
				380	const MachineOperand &BaseOp2) {
				381	// Support only base operands with base registers.
				382	// Note: this could be extended to support FI operands.
				383	if (!BaseOp1.isReg() \|\| !BaseOp2.isReg())
				384	return false;
				385
				386	if (BaseOp1.isIdenticalTo(BaseOp2))
Stanislav Mekhanoshin	7fe9a5d	2017-09-13 22:20:47 +0000	[diff] [blame]	387	return true;
				388
				389	if (!MI1.hasOneMemOperand() \|\| !MI2.hasOneMemOperand())
				390	return false;
				391
				392	auto MO1 = *MI1.memoperands_begin();
				393	auto MO2 = *MI2.memoperands_begin();
				394	if (MO1->getAddrSpace() != MO2->getAddrSpace())
				395	return false;
				396
				397	auto Base1 = MO1->getValue();
				398	auto Base2 = MO2->getValue();
				399	if (!Base1 \|\| !Base2)
				400	return false;
				401	const MachineFunction &MF = *MI1.getParent()->getParent();
Matthias Braun	f1caa28	2017-12-15 22:22:58 +0000	[diff] [blame]	402	const DataLayout &DL = MF.getFunction().getParent()->getDataLayout();
Stanislav Mekhanoshin	7fe9a5d	2017-09-13 22:20:47 +0000	[diff] [blame]	403	Base1 = GetUnderlyingObject(Base1, DL);
				404	Base2 = GetUnderlyingObject(Base1, DL);
				405
				406	if (isa<UndefValue>(Base1) \|\| isa<UndefValue>(Base2))
				407	return false;
				408
				409	return Base1 == Base2;
				410	}
				411
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	412	bool SIInstrInfo::shouldClusterMemOps(const MachineOperand &BaseOp1,
				413	const MachineOperand &BaseOp2,
Jun Bum Lim	4c5bd58	2016-04-15 14:58:38 +0000	[diff] [blame]	414	unsigned NumLoads) const {
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	415	const MachineInstr &FirstLdSt = *BaseOp1.getParent();
				416	const MachineInstr &SecondLdSt = *BaseOp2.getParent();
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	417
				418	if (!memOpsHaveSameBasePtr(FirstLdSt, BaseOp1, SecondLdSt, BaseOp2))
Stanislav Mekhanoshin	7fe9a5d	2017-09-13 22:20:47 +0000	[diff] [blame]	419	return false;
				420
NAKAMURA Takumi	fe1202c	2016-06-20 00:37:41 +0000	[diff] [blame]	421	const MachineOperand *FirstDst = nullptr;
				422	const MachineOperand *SecondDst = nullptr;
Tom Stellard	a76bcc2	2016-03-28 16:10:13 +0000	[diff] [blame]	423
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	424	if ((isMUBUF(FirstLdSt) && isMUBUF(SecondLdSt)) \|\|
Matt Arsenault	74f6483	2017-02-01 20:22:51 +0000	[diff] [blame]	425	(isMTBUF(FirstLdSt) && isMTBUF(SecondLdSt)) \|\|
				426	(isFLAT(FirstLdSt) && isFLAT(SecondLdSt))) {
Stanislav Mekhanoshin	7fe9a5d	2017-09-13 22:20:47 +0000	[diff] [blame]	427	const unsigned MaxGlobalLoadCluster = 6;
				428	if (NumLoads > MaxGlobalLoadCluster)
				429	return false;
				430
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	431	FirstDst = getNamedOperand(FirstLdSt, AMDGPU::OpName::vdata);
Stanislav Mekhanoshin	949fac9	2017-09-06 15:31:30 +0000	[diff] [blame]	432	if (!FirstDst)
				433	FirstDst = getNamedOperand(FirstLdSt, AMDGPU::OpName::vdst);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	434	SecondDst = getNamedOperand(SecondLdSt, AMDGPU::OpName::vdata);
Stanislav Mekhanoshin	949fac9	2017-09-06 15:31:30 +0000	[diff] [blame]	435	if (!SecondDst)
				436	SecondDst = getNamedOperand(SecondLdSt, AMDGPU::OpName::vdst);
Matt Arsenault	437fd71	2016-11-29 19:30:41 +0000	[diff] [blame]	437	} else if (isSMRD(FirstLdSt) && isSMRD(SecondLdSt)) {
				438	FirstDst = getNamedOperand(FirstLdSt, AMDGPU::OpName::sdst);
				439	SecondDst = getNamedOperand(SecondLdSt, AMDGPU::OpName::sdst);
				440	} else if (isDS(FirstLdSt) && isDS(SecondLdSt)) {
				441	FirstDst = getNamedOperand(FirstLdSt, AMDGPU::OpName::vdst);
				442	SecondDst = getNamedOperand(SecondLdSt, AMDGPU::OpName::vdst);
Tom Stellard	a76bcc2	2016-03-28 16:10:13 +0000	[diff] [blame]	443	}
				444
				445	if (!FirstDst \|\| !SecondDst)
Matt Arsenault	0e75a06	2014-09-17 17:48:30 +0000	[diff] [blame]	446	return false;
				447
Tom Stellard	a76bcc2	2016-03-28 16:10:13 +0000	[diff] [blame]	448	// Try to limit clustering based on the total number of bytes loaded
				449	// rather than the number of instructions. This is done to help reduce
				450	// register pressure. The method used is somewhat inexact, though,
				451	// because it assumes that all loads in the cluster will load the
				452	// same number of bytes as FirstLdSt.
Matt Arsenault	0e75a06	2014-09-17 17:48:30 +0000	[diff] [blame]	453
Tom Stellard	a76bcc2	2016-03-28 16:10:13 +0000	[diff] [blame]	454	// The unit of this value is bytes.
				455	// FIXME: This needs finer tuning.
				456	unsigned LoadClusterThreshold = 16;
Matt Arsenault	0e75a06	2014-09-17 17:48:30 +0000	[diff] [blame]	457
Tom Stellard	a76bcc2	2016-03-28 16:10:13 +0000	[diff] [blame]	458	const MachineRegisterInfo &MRI =
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	459	FirstLdSt.getParent()->getParent()->getRegInfo();
Neil Henning	0a30f33	2019-04-01 15:19:52 +0000	[diff] [blame]	460
				461	const unsigned Reg = FirstDst->getReg();
				462
				463	const TargetRegisterClass *DstRC = TargetRegisterInfo::isVirtualRegister(Reg)
				464	? MRI.getRegClass(Reg)
				465	: RI.getPhysRegClass(Reg);
Tom Stellard	a76bcc2	2016-03-28 16:10:13 +0000	[diff] [blame]	466
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	467	return (NumLoads * (RI.getRegSizeInBits(*DstRC) / 8)) <= LoadClusterThreshold;
Matt Arsenault	0e75a06	2014-09-17 17:48:30 +0000	[diff] [blame]	468	}
				469
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	470	// FIXME: This behaves strangely. If, for example, you have 32 load + stores,
				471	// the first 16 loads will be interleaved with the stores, and the next 16 will
				472	// be clustered as expected. It should really split into 2 16 store batches.
				473	//
				474	// Loads are clustered until this returns false, rather than trying to schedule
				475	// groups of stores. This also means we have to deal with saying different
				476	// address space loads should be clustered, and ones which might cause bank
				477	// conflicts.
				478	//
				479	// This might be deprecated so it might not be worth that much effort to fix.
				480	bool SIInstrInfo::shouldScheduleLoadsNear(SDNode Load0, SDNode Load1,
				481	int64_t Offset0, int64_t Offset1,
				482	unsigned NumLoads) const {
				483	assert(Offset1 > Offset0 &&
				484	"Second offset should be larger than first offset!");
				485	// If we have less than 16 loads in a row, and the offsets are within 64
				486	// bytes, then schedule together.
				487
				488	// A cacheline is 64 bytes (for global memory).
				489	return (NumLoads <= 16 && (Offset1 - Offset0) < 64);
				490	}
				491
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	492	static void reportIllegalCopy(const SIInstrInfo *TII, MachineBasicBlock &MBB,
				493	MachineBasicBlock::iterator MI,
				494	const DebugLoc &DL, unsigned DestReg,
				495	unsigned SrcReg, bool KillSrc) {
				496	MachineFunction *MF = MBB.getParent();
Matthias Braun	f1caa28	2017-12-15 22:22:58 +0000	[diff] [blame]	497	DiagnosticInfoUnsupported IllegalCopy(MF->getFunction(),
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	498	"illegal SGPR to VGPR copy",
				499	DL, DS_Error);
Matthias Braun	f1caa28	2017-12-15 22:22:58 +0000	[diff] [blame]	500	LLVMContext &C = MF->getFunction().getContext();
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	501	C.diagnose(IllegalCopy);
				502
				503	BuildMI(MBB, MI, DL, TII->get(AMDGPU::SI_ILLEGAL_COPY), DestReg)
				504	.addReg(SrcReg, getKillRegState(KillSrc));
				505	}
				506
Benjamin Kramer	bdc4956	2016-06-12 15:39:02 +0000	[diff] [blame]	507	void SIInstrInfo::copyPhysReg(MachineBasicBlock &MBB,
				508	MachineBasicBlock::iterator MI,
				509	const DebugLoc &DL, unsigned DestReg,
				510	unsigned SrcReg, bool KillSrc) const {
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	511	const TargetRegisterClass *RC = RI.getPhysRegClass(DestReg);
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	512
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	513	if (RC == &AMDGPU::VGPR_32RegClass) {
				514	assert(AMDGPU::VGPR_32RegClass.contains(SrcReg) \|\|
				515	AMDGPU::SReg_32RegClass.contains(SrcReg));
				516	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), DestReg)
				517	.addReg(SrcReg, getKillRegState(KillSrc));
				518	return;
				519	}
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	520
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	521	if (RC == &AMDGPU::SReg_32_XM0RegClass \|\|
				522	RC == &AMDGPU::SReg_32RegClass) {
Nicolai Haehnle	e58e0e3	2016-09-12 16:25:20 +0000	[diff] [blame]	523	if (SrcReg == AMDGPU::SCC) {
				524	BuildMI(MBB, MI, DL, get(AMDGPU::S_CSELECT_B32), DestReg)
				525	.addImm(-1)
				526	.addImm(0);
				527	return;
				528	}
				529
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	530	if (DestReg == AMDGPU::VCC_LO) {
				531	if (AMDGPU::SReg_32RegClass.contains(SrcReg)) {
				532	BuildMI(MBB, MI, DL, get(AMDGPU::S_MOV_B32), AMDGPU::VCC_LO)
				533	.addReg(SrcReg, getKillRegState(KillSrc));
				534	} else {
				535	// FIXME: Hack until VReg_1 removed.
				536	assert(AMDGPU::VGPR_32RegClass.contains(SrcReg));
				537	BuildMI(MBB, MI, DL, get(AMDGPU::V_CMP_NE_U32_e32))
				538	.addImm(0)
				539	.addReg(SrcReg, getKillRegState(KillSrc));
				540	}
				541
				542	return;
				543	}
				544
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	545	if (!AMDGPU::SReg_32RegClass.contains(SrcReg)) {
				546	reportIllegalCopy(this, MBB, MI, DL, DestReg, SrcReg, KillSrc);
				547	return;
				548	}
				549
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	550	BuildMI(MBB, MI, DL, get(AMDGPU::S_MOV_B32), DestReg)
				551	.addReg(SrcReg, getKillRegState(KillSrc));
				552	return;
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	553	}
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	554
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	555	if (RC == &AMDGPU::SReg_64RegClass) {
Matt Arsenault	834b1aa	2015-02-14 02:55:54 +0000	[diff] [blame]	556	if (DestReg == AMDGPU::VCC) {
Matt Arsenault	9998168	2015-02-14 02:55:56 +0000	[diff] [blame]	557	if (AMDGPU::SReg_64RegClass.contains(SrcReg)) {
				558	BuildMI(MBB, MI, DL, get(AMDGPU::S_MOV_B64), AMDGPU::VCC)
				559	.addReg(SrcReg, getKillRegState(KillSrc));
				560	} else {
				561	// FIXME: Hack until VReg_1 removed.
				562	assert(AMDGPU::VGPR_32RegClass.contains(SrcReg));
Matt Arsenault	5d8eb25	2016-09-30 01:50:20 +0000	[diff] [blame]	563	BuildMI(MBB, MI, DL, get(AMDGPU::V_CMP_NE_U32_e32))
Matt Arsenault	9998168	2015-02-14 02:55:56 +0000	[diff] [blame]	564	.addImm(0)
				565	.addReg(SrcReg, getKillRegState(KillSrc));
				566	}
Matt Arsenault	834b1aa	2015-02-14 02:55:54 +0000	[diff] [blame]	567
Matt Arsenault	834b1aa	2015-02-14 02:55:54 +0000	[diff] [blame]	568	return;
				569	}
				570
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	571	if (!AMDGPU::SReg_64RegClass.contains(SrcReg)) {
				572	reportIllegalCopy(this, MBB, MI, DL, DestReg, SrcReg, KillSrc);
				573	return;
				574	}
				575
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	576	BuildMI(MBB, MI, DL, get(AMDGPU::S_MOV_B64), DestReg)
				577	.addReg(SrcReg, getKillRegState(KillSrc));
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	578	return;
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	579	}
				580
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	581	if (DestReg == AMDGPU::SCC) {
				582	assert(AMDGPU::SReg_32RegClass.contains(SrcReg));
				583	BuildMI(MBB, MI, DL, get(AMDGPU::S_CMP_LG_U32))
				584	.addReg(SrcReg, getKillRegState(KillSrc))
				585	.addImm(0);
				586	return;
				587	}
				588
				589	unsigned EltSize = 4;
				590	unsigned Opcode = AMDGPU::V_MOV_B32_e32;
				591	if (RI.isSGPRClass(RC)) {
Tim Renouf	361b5b2	2019-03-21 12:01:21 +0000	[diff] [blame]	592	// TODO: Copy vec3/vec5 with s_mov_b64s then final s_mov_b32.
				593	if (!(RI.getRegSizeInBits(*RC) % 64)) {
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	594	Opcode = AMDGPU::S_MOV_B64;
				595	EltSize = 8;
				596	} else {
				597	Opcode = AMDGPU::S_MOV_B32;
				598	EltSize = 4;
				599	}
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	600
				601	if (!RI.isSGPRClass(RI.getPhysRegClass(SrcReg))) {
				602	reportIllegalCopy(this, MBB, MI, DL, DestReg, SrcReg, KillSrc);
				603	return;
				604	}
Matt Arsenault	314cbf7	2016-11-07 16:39:22 +0000	[diff] [blame]	605	}
				606
				607	ArrayRef<int16_t> SubIndices = RI.getRegSplitParts(RC, EltSize);
Matt Arsenault	73d2f89	2016-07-15 22:32:02 +0000	[diff] [blame]	608	bool Forward = RI.getHWRegIndex(DestReg) <= RI.getHWRegIndex(SrcReg);
Nicolai Haehnle	dd58705	2015-12-19 01:16:06 +0000	[diff] [blame]	609
				610	for (unsigned Idx = 0; Idx < SubIndices.size(); ++Idx) {
				611	unsigned SubIdx;
				612	if (Forward)
				613	SubIdx = SubIndices[Idx];
				614	else
				615	SubIdx = SubIndices[SubIndices.size() - Idx - 1];
				616
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	617	MachineInstrBuilder Builder = BuildMI(MBB, MI, DL,
				618	get(Opcode), RI.getSubReg(DestReg, SubIdx));
				619
Nicolai Haehnle	dd58705	2015-12-19 01:16:06 +0000	[diff] [blame]	620	Builder.addReg(RI.getSubReg(SrcReg, SubIdx));
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	621
Nicolai Haehnle	dd58705	2015-12-19 01:16:06 +0000	[diff] [blame]	622	if (Idx == 0)
Christian Konig	d0e3da1	2013-03-01 09:46:27 +0000	[diff] [blame]	623	Builder.addReg(DestReg, RegState::Define \| RegState::Implicit);
Matt Arsenault	73d2f89	2016-07-15 22:32:02 +0000	[diff] [blame]	624
Matt Arsenault	05c2647	2017-06-12 17:19:20 +0000	[diff] [blame]	625	bool UseKill = KillSrc && Idx == SubIndices.size() - 1;
				626	Builder.addReg(SrcReg, getKillRegState(UseKill) \| RegState::Implicit);
Tom Stellard	75aadc2	2012-12-11 21:25:42 +0000	[diff] [blame]	627	}
				628	}
				629
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	630	int SIInstrInfo::commuteOpcode(unsigned Opcode) const {
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	631	int NewOpc;
				632
				633	// Try to map original to commuted opcode
Marek Olsak	191507e	2015-02-03 17:38:12 +0000	[diff] [blame]	634	NewOpc = AMDGPU::getCommuteRev(Opcode);
Marek Olsak	cfbdba2	2015-06-26 20:29:10 +0000	[diff] [blame]	635	if (NewOpc != -1)
				636	// Check if the commuted (REV) opcode exists on the target.
				637	return pseudoToMCOpcode(NewOpc) != -1 ? NewOpc : -1;
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	638
				639	// Try to map commuted to original opcode
Marek Olsak	191507e	2015-02-03 17:38:12 +0000	[diff] [blame]	640	NewOpc = AMDGPU::getCommuteOrig(Opcode);
Marek Olsak	cfbdba2	2015-06-26 20:29:10 +0000	[diff] [blame]	641	if (NewOpc != -1)
				642	// Check if the original (non-REV) opcode exists on the target.
				643	return pseudoToMCOpcode(NewOpc) != -1 ? NewOpc : -1;
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	644
				645	return Opcode;
				646	}
				647
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	648	void SIInstrInfo::materializeImmediate(MachineBasicBlock &MBB,
				649	MachineBasicBlock::iterator MI,
				650	const DebugLoc &DL, unsigned DestReg,
				651	int64_t Value) const {
				652	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				653	const TargetRegisterClass *RegClass = MRI.getRegClass(DestReg);
				654	if (RegClass == &AMDGPU::SReg_32RegClass \|\|
				655	RegClass == &AMDGPU::SGPR_32RegClass \|\|
				656	RegClass == &AMDGPU::SReg_32_XM0RegClass \|\|
				657	RegClass == &AMDGPU::SReg_32_XM0_XEXECRegClass) {
				658	BuildMI(MBB, MI, DL, get(AMDGPU::S_MOV_B32), DestReg)
				659	.addImm(Value);
				660	return;
				661	}
				662
				663	if (RegClass == &AMDGPU::SReg_64RegClass \|\|
				664	RegClass == &AMDGPU::SGPR_64RegClass \|\|
				665	RegClass == &AMDGPU::SReg_64_XEXECRegClass) {
				666	BuildMI(MBB, MI, DL, get(AMDGPU::S_MOV_B64), DestReg)
				667	.addImm(Value);
				668	return;
				669	}
				670
				671	if (RegClass == &AMDGPU::VGPR_32RegClass) {
				672	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), DestReg)
				673	.addImm(Value);
				674	return;
				675	}
				676	if (RegClass == &AMDGPU::VReg_64RegClass) {
				677	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B64_PSEUDO), DestReg)
				678	.addImm(Value);
				679	return;
				680	}
				681
				682	unsigned EltSize = 4;
				683	unsigned Opcode = AMDGPU::V_MOV_B32_e32;
				684	if (RI.isSGPRClass(RegClass)) {
				685	if (RI.getRegSizeInBits(*RegClass) > 32) {
				686	Opcode = AMDGPU::S_MOV_B64;
				687	EltSize = 8;
				688	} else {
				689	Opcode = AMDGPU::S_MOV_B32;
				690	EltSize = 4;
				691	}
				692	}
				693
				694	ArrayRef<int16_t> SubIndices = RI.getRegSplitParts(RegClass, EltSize);
				695	for (unsigned Idx = 0; Idx < SubIndices.size(); ++Idx) {
				696	int64_t IdxValue = Idx == 0 ? Value : 0;
				697
				698	MachineInstrBuilder Builder = BuildMI(MBB, MI, DL,
				699	get(Opcode), RI.getSubReg(DestReg, Idx));
				700	Builder.addImm(IdxValue);
				701	}
				702	}
				703
				704	const TargetRegisterClass *
				705	SIInstrInfo::getPreferredSelectRegClass(unsigned Size) const {
				706	return &AMDGPU::VGPR_32RegClass;
				707	}
				708
				709	void SIInstrInfo::insertVectorSelect(MachineBasicBlock &MBB,
				710	MachineBasicBlock::iterator I,
				711	const DebugLoc &DL, unsigned DstReg,
				712	ArrayRef<MachineOperand> Cond,
				713	unsigned TrueReg,
				714	unsigned FalseReg) const {
				715	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	716	MachineFunction *MF = MBB.getParent();
				717	const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();
				718	const TargetRegisterClass *BoolXExecRC =
				719	RI.getRegClass(AMDGPU::SReg_1_XEXECRegClassID);
NAKAMURA Takumi	994a43d	2017-05-16 04:01:23 +0000	[diff] [blame]	720	assert(MRI.getRegClass(DstReg) == &AMDGPU::VGPR_32RegClass &&
				721	"Not a VGPR32 reg");
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	722
				723	if (Cond.size() == 1) {
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	724	unsigned SReg = MRI.createVirtualRegister(BoolXExecRC);
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	725	BuildMI(MBB, I, DL, get(AMDGPU::COPY), SReg)
				726	.add(Cond[0]);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	727	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	728	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	729	.addReg(FalseReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	730	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	731	.addReg(TrueReg)
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	732	.addReg(SReg);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	733	} else if (Cond.size() == 2) {
				734	assert(Cond[0].isImm() && "Cond[0] is not an immediate");
				735	switch (Cond[0].getImm()) {
				736	case SIInstrInfo::SCC_TRUE: {
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	737	unsigned SReg = MRI.createVirtualRegister(BoolXExecRC);
				738	BuildMI(MBB, I, DL, get(ST.isWave32() ? AMDGPU::S_CSELECT_B32
				739	: AMDGPU::S_CSELECT_B64), SReg)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	740	.addImm(-1)
				741	.addImm(0);
				742	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	743	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	744	.addReg(FalseReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	745	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	746	.addReg(TrueReg)
				747	.addReg(SReg);
				748	break;
				749	}
				750	case SIInstrInfo::SCC_FALSE: {
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	751	unsigned SReg = MRI.createVirtualRegister(BoolXExecRC);
				752	BuildMI(MBB, I, DL, get(ST.isWave32() ? AMDGPU::S_CSELECT_B32
				753	: AMDGPU::S_CSELECT_B64), SReg)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	754	.addImm(0)
				755	.addImm(-1);
				756	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	757	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	758	.addReg(FalseReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	759	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	760	.addReg(TrueReg)
				761	.addReg(SReg);
				762	break;
				763	}
				764	case SIInstrInfo::VCCNZ: {
				765	MachineOperand RegOp = Cond[1];
				766	RegOp.setImplicit(false);
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	767	unsigned SReg = MRI.createVirtualRegister(BoolXExecRC);
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	768	BuildMI(MBB, I, DL, get(AMDGPU::COPY), SReg)
				769	.add(RegOp);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	770	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	771	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	772	.addReg(FalseReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	773	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	774	.addReg(TrueReg)
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	775	.addReg(SReg);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	776	break;
				777	}
				778	case SIInstrInfo::VCCZ: {
				779	MachineOperand RegOp = Cond[1];
				780	RegOp.setImplicit(false);
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	781	unsigned SReg = MRI.createVirtualRegister(BoolXExecRC);
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	782	BuildMI(MBB, I, DL, get(AMDGPU::COPY), SReg)
				783	.add(RegOp);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	784	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	785	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	786	.addReg(TrueReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	787	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	788	.addReg(FalseReg)
Nicolai Haehnle	ce4ddd0	2017-09-29 15:37:31 +0000	[diff] [blame]	789	.addReg(SReg);
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	790	break;
				791	}
				792	case SIInstrInfo::EXECNZ: {
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	793	unsigned SReg = MRI.createVirtualRegister(BoolXExecRC);
				794	unsigned SReg2 = MRI.createVirtualRegister(RI.getBoolRC());
				795	BuildMI(MBB, I, DL, get(ST.isWave32() ? AMDGPU::S_OR_SAVEEXEC_B32
				796	: AMDGPU::S_OR_SAVEEXEC_B64), SReg2)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	797	.addImm(0);
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	798	BuildMI(MBB, I, DL, get(ST.isWave32() ? AMDGPU::S_CSELECT_B32
				799	: AMDGPU::S_CSELECT_B64), SReg)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	800	.addImm(-1)
				801	.addImm(0);
				802	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	803	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	804	.addReg(FalseReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	805	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	806	.addReg(TrueReg)
				807	.addReg(SReg);
				808	break;
				809	}
				810	case SIInstrInfo::EXECZ: {
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	811	unsigned SReg = MRI.createVirtualRegister(BoolXExecRC);
				812	unsigned SReg2 = MRI.createVirtualRegister(RI.getBoolRC());
				813	BuildMI(MBB, I, DL, get(ST.isWave32() ? AMDGPU::S_OR_SAVEEXEC_B32
				814	: AMDGPU::S_OR_SAVEEXEC_B64), SReg2)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	815	.addImm(0);
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	816	BuildMI(MBB, I, DL, get(ST.isWave32() ? AMDGPU::S_CSELECT_B32
				817	: AMDGPU::S_CSELECT_B64), SReg)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	818	.addImm(0)
				819	.addImm(-1);
				820	BuildMI(MBB, I, DL, get(AMDGPU::V_CNDMASK_B32_e64), DstReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	821	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	822	.addReg(FalseReg)
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	823	.addImm(0)
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	824	.addReg(TrueReg)
				825	.addReg(SReg);
				826	llvm_unreachable("Unhandled branch predicate EXECZ");
				827	break;
				828	}
				829	default:
				830	llvm_unreachable("invalid branch predicate");
				831	}
				832	} else {
				833	llvm_unreachable("Can only handle Cond size 1 or 2");
				834	}
				835	}
				836
				837	unsigned SIInstrInfo::insertEQ(MachineBasicBlock *MBB,
				838	MachineBasicBlock::iterator I,
				839	const DebugLoc &DL,
				840	unsigned SrcReg, int Value) const {
				841	MachineRegisterInfo &MRI = MBB->getParent()->getRegInfo();
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	842	unsigned Reg = MRI.createVirtualRegister(RI.getBoolRC());
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	843	BuildMI(*MBB, I, DL, get(AMDGPU::V_CMP_EQ_I32_e64), Reg)
				844	.addImm(Value)
				845	.addReg(SrcReg);
				846
				847	return Reg;
				848	}
				849
				850	unsigned SIInstrInfo::insertNE(MachineBasicBlock *MBB,
				851	MachineBasicBlock::iterator I,
				852	const DebugLoc &DL,
				853	unsigned SrcReg, int Value) const {
				854	MachineRegisterInfo &MRI = MBB->getParent()->getRegInfo();
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	855	unsigned Reg = MRI.createVirtualRegister(RI.getBoolRC());
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	856	BuildMI(*MBB, I, DL, get(AMDGPU::V_CMP_NE_I32_e64), Reg)
				857	.addImm(Value)
				858	.addReg(SrcReg);
				859
				860	return Reg;
				861	}
				862
Tom Stellard	ef3b864	2015-01-07 19:56:17 +0000	[diff] [blame]	863	unsigned SIInstrInfo::getMovOpcode(const TargetRegisterClass *DstRC) const {
				864
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	865	if (RI.getRegSizeInBits(*DstRC) == 32) {
Tom Stellard	ef3b864	2015-01-07 19:56:17 +0000	[diff] [blame]	866	return RI.isSGPRClass(DstRC) ? AMDGPU::S_MOV_B32 : AMDGPU::V_MOV_B32_e32;
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	867	} else if (RI.getRegSizeInBits(*DstRC) == 64 && RI.isSGPRClass(DstRC)) {
Tom Stellard	ef3b864	2015-01-07 19:56:17 +0000	[diff] [blame]	868	return AMDGPU::S_MOV_B64;
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	869	} else if (RI.getRegSizeInBits(*DstRC) == 64 && !RI.isSGPRClass(DstRC)) {
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	870	return AMDGPU::V_MOV_B64_PSEUDO;
Tom Stellard	ef3b864	2015-01-07 19:56:17 +0000	[diff] [blame]	871	}
				872	return AMDGPU::COPY;
				873	}
				874
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	875	static unsigned getSGPRSpillSaveOpcode(unsigned Size) {
				876	switch (Size) {
				877	case 4:
				878	return AMDGPU::SI_SPILL_S32_SAVE;
				879	case 8:
				880	return AMDGPU::SI_SPILL_S64_SAVE;
Tim Renouf	361b5b2	2019-03-21 12:01:21 +0000	[diff] [blame]	881	case 12:
				882	return AMDGPU::SI_SPILL_S96_SAVE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	883	case 16:
				884	return AMDGPU::SI_SPILL_S128_SAVE;
Tim Renouf	033f99a	2019-03-22 10:11:21 +0000	[diff] [blame]	885	case 20:
				886	return AMDGPU::SI_SPILL_S160_SAVE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	887	case 32:
				888	return AMDGPU::SI_SPILL_S256_SAVE;
				889	case 64:
				890	return AMDGPU::SI_SPILL_S512_SAVE;
				891	default:
				892	llvm_unreachable("unknown register size");
				893	}
				894	}
				895
				896	static unsigned getVGPRSpillSaveOpcode(unsigned Size) {
				897	switch (Size) {
				898	case 4:
				899	return AMDGPU::SI_SPILL_V32_SAVE;
				900	case 8:
				901	return AMDGPU::SI_SPILL_V64_SAVE;
Tom Stellard	703b2ec	2016-04-12 23:57:30 +0000	[diff] [blame]	902	case 12:
				903	return AMDGPU::SI_SPILL_V96_SAVE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	904	case 16:
				905	return AMDGPU::SI_SPILL_V128_SAVE;
Tim Renouf	033f99a	2019-03-22 10:11:21 +0000	[diff] [blame]	906	case 20:
				907	return AMDGPU::SI_SPILL_V160_SAVE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	908	case 32:
				909	return AMDGPU::SI_SPILL_V256_SAVE;
				910	case 64:
				911	return AMDGPU::SI_SPILL_V512_SAVE;
				912	default:
				913	llvm_unreachable("unknown register size");
				914	}
				915	}
				916
Tom Stellard	c149dc0	2013-11-27 21:23:35 +0000	[diff] [blame]	917	void SIInstrInfo::storeRegToStackSlot(MachineBasicBlock &MBB,
				918	MachineBasicBlock::iterator MI,
				919	unsigned SrcReg, bool isKill,
				920	int FrameIndex,
				921	const TargetRegisterClass *RC,
				922	const TargetRegisterInfo *TRI) const {
Tom Stellard	4e07b1d	2014-06-10 21:20:41 +0000	[diff] [blame]	923	MachineFunction *MF = MBB.getParent();
Tom Stellard	42fb60e	2015-01-14 15:42:31 +0000	[diff] [blame]	924	SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();
Matthias Braun	941a705	2016-07-28 18:40:00 +0000	[diff] [blame]	925	MachineFrameInfo &FrameInfo = MF->getFrameInfo();
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	926	const DebugLoc &DL = MBB.findDebugLoc(MI);
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	927
Matthias Braun	941a705	2016-07-28 18:40:00 +0000	[diff] [blame]	928	unsigned Size = FrameInfo.getObjectSize(FrameIndex);
				929	unsigned Align = FrameInfo.getObjectAlignment(FrameIndex);
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	930	MachinePointerInfo PtrInfo
				931	= MachinePointerInfo::getFixedStack(*MF, FrameIndex);
				932	MachineMemOperand *MMO
				933	= MF->getMachineMemOperand(PtrInfo, MachineMemOperand::MOStore,
				934	Size, Align);
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	935	unsigned SpillSize = TRI->getSpillSize(*RC);
Tom Stellard	c149dc0	2013-11-27 21:23:35 +0000	[diff] [blame]	936
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	937	if (RI.isSGPRClass(RC)) {
Matt Arsenault	5b22dfa	2015-11-05 05:27:10 +0000	[diff] [blame]	938	MFI->setHasSpilledSGPRs();
				939
Matt Arsenault	2510a31	2016-09-03 06:57:55 +0000	[diff] [blame]	940	// We are only allowed to create one new instruction when spilling
				941	// registers, so we need to use pseudo instruction for spilling SGPRs.
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	942	const MCInstrDesc &OpDesc = get(getSGPRSpillSaveOpcode(SpillSize));
Matt Arsenault	2510a31	2016-09-03 06:57:55 +0000	[diff] [blame]	943
				944	// The SGPR spill/restore instructions only work on number sgprs, so we need
				945	// to make sure we are using the correct register class.
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	946	if (TargetRegisterInfo::isVirtualRegister(SrcReg) && SpillSize == 4) {
Matt Arsenault	b6e1cc2	2016-05-21 00:53:42 +0000	[diff] [blame]	947	MachineRegisterInfo &MRI = MF->getRegInfo();
				948	MRI.constrainRegClass(SrcReg, &AMDGPU::SReg_32_XM0RegClass);
				949	}
				950
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	951	MachineInstrBuilder Spill = BuildMI(MBB, MI, DL, OpDesc)
Matt Arsenault	3354f42	2016-09-10 01:20:33 +0000	[diff] [blame]	952	.addReg(SrcReg, getKillRegState(isKill)) // data
				953	.addFrameIndex(FrameIndex) // addr
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	954	.addMemOperand(MMO)
				955	.addReg(MFI->getScratchRSrcReg(), RegState::Implicit)
Matt Arsenault	b812b7a	2019-06-05 22:20:47 +0000	[diff] [blame]	956	.addReg(MFI->getStackPtrOffsetReg(), RegState::Implicit);
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	957	// Add the scratch resource registers as implicit uses because we may end up
				958	// needing them, and need to ensure that the reserved registers are
				959	// correctly handled.
Tom Stellard	42fb60e	2015-01-14 15:42:31 +0000	[diff] [blame]	960
Matt Arsenault	adc59d7	2018-04-23 15:51:26 +0000	[diff] [blame]	961	FrameInfo.setStackID(FrameIndex, SIStackID::SGPR_SPILL);
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	962	if (ST.hasScalarStores()) {
				963	// m0 is used for offset to scalar stores if used to spill.
Nicolai Haehnle	43cc6c4	2017-06-27 08:04:13 +0000	[diff] [blame]	964	Spill.addReg(AMDGPU::M0, RegState::ImplicitDefine \| RegState::Dead);
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	965	}
				966
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	967	return;
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	968	}
Tom Stellard	eba6107	2014-05-02 15:41:42 +0000	[diff] [blame]	969
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	970	assert(RI.hasVGPRs(RC) && "Only VGPR spilling expected");
				971
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	972	unsigned Opcode = getVGPRSpillSaveOpcode(SpillSize);
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	973	MFI->setHasSpilledVGPRs();
				974	BuildMI(MBB, MI, DL, get(Opcode))
Matt Arsenault	3354f42	2016-09-10 01:20:33 +0000	[diff] [blame]	975	.addReg(SrcReg, getKillRegState(isKill)) // data
				976	.addFrameIndex(FrameIndex) // addr
Matt Arsenault	2510a31	2016-09-03 06:57:55 +0000	[diff] [blame]	977	.addReg(MFI->getScratchRSrcReg()) // scratch_rsrc
Matt Arsenault	b812b7a	2019-06-05 22:20:47 +0000	[diff] [blame]	978	.addReg(MFI->getStackPtrOffsetReg()) // scratch_offset
Matt Arsenault	2510a31	2016-09-03 06:57:55 +0000	[diff] [blame]	979	.addImm(0) // offset
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	980	.addMemOperand(MMO);
				981	}
				982
				983	static unsigned getSGPRSpillRestoreOpcode(unsigned Size) {
				984	switch (Size) {
				985	case 4:
				986	return AMDGPU::SI_SPILL_S32_RESTORE;
				987	case 8:
				988	return AMDGPU::SI_SPILL_S64_RESTORE;
Tim Renouf	361b5b2	2019-03-21 12:01:21 +0000	[diff] [blame]	989	case 12:
				990	return AMDGPU::SI_SPILL_S96_RESTORE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	991	case 16:
				992	return AMDGPU::SI_SPILL_S128_RESTORE;
Tim Renouf	033f99a	2019-03-22 10:11:21 +0000	[diff] [blame]	993	case 20:
				994	return AMDGPU::SI_SPILL_S160_RESTORE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	995	case 32:
				996	return AMDGPU::SI_SPILL_S256_RESTORE;
				997	case 64:
				998	return AMDGPU::SI_SPILL_S512_RESTORE;
				999	default:
				1000	llvm_unreachable("unknown register size");
				1001	}
				1002	}
				1003
				1004	static unsigned getVGPRSpillRestoreOpcode(unsigned Size) {
				1005	switch (Size) {
				1006	case 4:
				1007	return AMDGPU::SI_SPILL_V32_RESTORE;
				1008	case 8:
				1009	return AMDGPU::SI_SPILL_V64_RESTORE;
Tom Stellard	703b2ec	2016-04-12 23:57:30 +0000	[diff] [blame]	1010	case 12:
				1011	return AMDGPU::SI_SPILL_V96_RESTORE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1012	case 16:
				1013	return AMDGPU::SI_SPILL_V128_RESTORE;
Tim Renouf	033f99a	2019-03-22 10:11:21 +0000	[diff] [blame]	1014	case 20:
				1015	return AMDGPU::SI_SPILL_V160_RESTORE;
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1016	case 32:
				1017	return AMDGPU::SI_SPILL_V256_RESTORE;
				1018	case 64:
				1019	return AMDGPU::SI_SPILL_V512_RESTORE;
				1020	default:
				1021	llvm_unreachable("unknown register size");
Tom Stellard	c149dc0	2013-11-27 21:23:35 +0000	[diff] [blame]	1022	}
				1023	}
				1024
				1025	void SIInstrInfo::loadRegFromStackSlot(MachineBasicBlock &MBB,
				1026	MachineBasicBlock::iterator MI,
				1027	unsigned DestReg, int FrameIndex,
				1028	const TargetRegisterClass *RC,
				1029	const TargetRegisterInfo *TRI) const {
Tom Stellard	4e07b1d	2014-06-10 21:20:41 +0000	[diff] [blame]	1030	MachineFunction *MF = MBB.getParent();
Matt Arsenault	88ce3dc	2018-11-26 21:28:40 +0000	[diff] [blame]	1031	SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();
Matthias Braun	941a705	2016-07-28 18:40:00 +0000	[diff] [blame]	1032	MachineFrameInfo &FrameInfo = MF->getFrameInfo();
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	1033	const DebugLoc &DL = MBB.findDebugLoc(MI);
Matthias Braun	941a705	2016-07-28 18:40:00 +0000	[diff] [blame]	1034	unsigned Align = FrameInfo.getObjectAlignment(FrameIndex);
				1035	unsigned Size = FrameInfo.getObjectSize(FrameIndex);
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1036	unsigned SpillSize = TRI->getSpillSize(*RC);
Tom Stellard	4e07b1d	2014-06-10 21:20:41 +0000	[diff] [blame]	1037
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1038	MachinePointerInfo PtrInfo
				1039	= MachinePointerInfo::getFixedStack(*MF, FrameIndex);
				1040
				1041	MachineMemOperand *MMO = MF->getMachineMemOperand(
				1042	PtrInfo, MachineMemOperand::MOLoad, Size, Align);
				1043
				1044	if (RI.isSGPRClass(RC)) {
Matt Arsenault	88ce3dc	2018-11-26 21:28:40 +0000	[diff] [blame]	1045	MFI->setHasSpilledSGPRs();
				1046
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1047	// FIXME: Maybe this should not include a memoperand because it will be
				1048	// lowered to non-memory instructions.
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1049	const MCInstrDesc &OpDesc = get(getSGPRSpillRestoreOpcode(SpillSize));
				1050	if (TargetRegisterInfo::isVirtualRegister(DestReg) && SpillSize == 4) {
Matt Arsenault	b6e1cc2	2016-05-21 00:53:42 +0000	[diff] [blame]	1051	MachineRegisterInfo &MRI = MF->getRegInfo();
				1052	MRI.constrainRegClass(DestReg, &AMDGPU::SReg_32_XM0RegClass);
				1053	}
				1054
Matt Arsenault	adc59d7	2018-04-23 15:51:26 +0000	[diff] [blame]	1055	FrameInfo.setStackID(FrameIndex, SIStackID::SGPR_SPILL);
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	1056	MachineInstrBuilder Spill = BuildMI(MBB, MI, DL, OpDesc, DestReg)
Matt Arsenault	3354f42	2016-09-10 01:20:33 +0000	[diff] [blame]	1057	.addFrameIndex(FrameIndex) // addr
Matt Arsenault	08906a3	2016-10-28 19:43:31 +0000	[diff] [blame]	1058	.addMemOperand(MMO)
				1059	.addReg(MFI->getScratchRSrcReg(), RegState::Implicit)
Matt Arsenault	b812b7a	2019-06-05 22:20:47 +0000	[diff] [blame]	1060	.addReg(MFI->getStackPtrOffsetReg(), RegState::Implicit);
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1061
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	1062	if (ST.hasScalarStores()) {
				1063	// m0 is used for offset to scalar stores if used to spill.
Nicolai Haehnle	43cc6c4	2017-06-27 08:04:13 +0000	[diff] [blame]	1064	Spill.addReg(AMDGPU::M0, RegState::ImplicitDefine \| RegState::Dead);
Marek Olsak	79c0587	2016-11-25 17:37:09 +0000	[diff] [blame]	1065	}
				1066
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1067	return;
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1068	}
Tom Stellard	eba6107	2014-05-02 15:41:42 +0000	[diff] [blame]	1069
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1070	assert(RI.hasVGPRs(RC) && "Only VGPR spilling expected");
				1071
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1072	unsigned Opcode = getVGPRSpillRestoreOpcode(SpillSize);
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1073	BuildMI(MBB, MI, DL, get(Opcode), DestReg)
Matt Arsenault	b812b7a	2019-06-05 22:20:47 +0000	[diff] [blame]	1074	.addFrameIndex(FrameIndex) // vaddr
				1075	.addReg(MFI->getScratchRSrcReg()) // scratch_rsrc
				1076	.addReg(MFI->getStackPtrOffsetReg()) // scratch_offset
				1077	.addImm(0) // offset
Matt Arsenault	08f14de	2015-11-06 18:07:53 +0000	[diff] [blame]	1078	.addMemOperand(MMO);
Tom Stellard	c149dc0	2013-11-27 21:23:35 +0000	[diff] [blame]	1079	}
				1080
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1081	/// \param @Offset Offset in bytes of the FrameIndex being spilled
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1082	unsigned SIInstrInfo::calculateLDSSpillAddress(
				1083	MachineBasicBlock &MBB, MachineInstr &MI, RegScavenger *RS, unsigned TmpReg,
				1084	unsigned FrameOffset, unsigned Size) const {
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1085	MachineFunction *MF = MBB.getParent();
				1086	SIMachineFunctionInfo *MFI = MF->getInfo<SIMachineFunctionInfo>();
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	1087	const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	1088	const DebugLoc &DL = MBB.findDebugLoc(MI);
Konstantin Zhuravlyov	1d65026	2016-09-06 20:22:28 +0000	[diff] [blame]	1089	unsigned WorkGroupSize = MFI->getMaxFlatWorkGroupSize();
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1090	unsigned WavefrontSize = ST.getWavefrontSize();
				1091
				1092	unsigned TIDReg = MFI->getTIDReg();
				1093	if (!MFI->hasCalculatedTID()) {
				1094	MachineBasicBlock &Entry = MBB.getParent()->front();
				1095	MachineBasicBlock::iterator Insert = Entry.front();
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	1096	const DebugLoc &DL = Insert->getDebugLoc();
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1097
Tom Stellard	19f4301	2016-07-28 14:30:43 +0000	[diff] [blame]	1098	TIDReg = RI.findUnusedRegister(MF->getRegInfo(), &AMDGPU::VGPR_32RegClass,
				1099	*MF);
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1100	if (TIDReg == AMDGPU::NoRegister)
				1101	return TIDReg;
				1102
Matthias Braun	f1caa28	2017-12-15 22:22:58 +0000	[diff] [blame]	1103	if (!AMDGPU::isShader(MF->getFunction().getCallingConv()) &&
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1104	WorkGroupSize > WavefrontSize) {
Matt Arsenault	ac234b6	2015-11-30 21:15:57 +0000	[diff] [blame]	1105	unsigned TIDIGXReg
Matt Arsenault	8623e8d	2017-08-03 23:00:29 +0000	[diff] [blame]	1106	= MFI->getPreloadedReg(AMDGPUFunctionArgInfo::WORKGROUP_ID_X);
Matt Arsenault	ac234b6	2015-11-30 21:15:57 +0000	[diff] [blame]	1107	unsigned TIDIGYReg
Matt Arsenault	8623e8d	2017-08-03 23:00:29 +0000	[diff] [blame]	1108	= MFI->getPreloadedReg(AMDGPUFunctionArgInfo::WORKGROUP_ID_Y);
Matt Arsenault	ac234b6	2015-11-30 21:15:57 +0000	[diff] [blame]	1109	unsigned TIDIGZReg
Matt Arsenault	8623e8d	2017-08-03 23:00:29 +0000	[diff] [blame]	1110	= MFI->getPreloadedReg(AMDGPUFunctionArgInfo::WORKGROUP_ID_Z);
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1111	unsigned InputPtrReg =
Matt Arsenault	8623e8d	2017-08-03 23:00:29 +0000	[diff] [blame]	1112	MFI->getPreloadedReg(AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR);
Benjamin Kramer	7149aab	2015-03-01 18:09:56 +0000	[diff] [blame]	1113	for (unsigned Reg : {TIDIGXReg, TIDIGYReg, TIDIGZReg}) {
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1114	if (!Entry.isLiveIn(Reg))
				1115	Entry.addLiveIn(Reg);
				1116	}
				1117
Matthias Braun	7dc03f0	2016-04-06 02:47:09 +0000	[diff] [blame]	1118	RS->enterBasicBlock(Entry);
Matt Arsenault	0c90e95	2015-11-06 18:17:45 +0000	[diff] [blame]	1119	// FIXME: Can we scavenge an SReg_64 and access the subregs?
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1120	unsigned STmp0 = RS->scavengeRegister(&AMDGPU::SGPR_32RegClass, 0);
				1121	unsigned STmp1 = RS->scavengeRegister(&AMDGPU::SGPR_32RegClass, 0);
				1122	BuildMI(Entry, Insert, DL, get(AMDGPU::S_LOAD_DWORD_IMM), STmp0)
				1123	.addReg(InputPtrReg)
				1124	.addImm(SI::KernelInputOffsets::NGROUPS_Z);
				1125	BuildMI(Entry, Insert, DL, get(AMDGPU::S_LOAD_DWORD_IMM), STmp1)
				1126	.addReg(InputPtrReg)
				1127	.addImm(SI::KernelInputOffsets::NGROUPS_Y);
				1128
				1129	// NGROUPS.X * NGROUPS.Y
				1130	BuildMI(Entry, Insert, DL, get(AMDGPU::S_MUL_I32), STmp1)
				1131	.addReg(STmp1)
				1132	.addReg(STmp0);
				1133	// (NGROUPS.X * NGROUPS.Y) * TIDIG.X
				1134	BuildMI(Entry, Insert, DL, get(AMDGPU::V_MUL_U32_U24_e32), TIDReg)
				1135	.addReg(STmp1)
				1136	.addReg(TIDIGXReg);
				1137	// NGROUPS.Z * TIDIG.Y + (NGROUPS.X * NGROPUS.Y * TIDIG.X)
				1138	BuildMI(Entry, Insert, DL, get(AMDGPU::V_MAD_U32_U24), TIDReg)
				1139	.addReg(STmp0)
				1140	.addReg(TIDIGYReg)
				1141	.addReg(TIDReg);
				1142	// (NGROUPS.Z * TIDIG.Y + (NGROUPS.X * NGROPUS.Y * TIDIG.X)) + TIDIG.Z
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	1143	getAddNoCarry(Entry, Insert, DL, TIDReg)
				1144	.addReg(TIDReg)
Tim Renouf	cfdfba9	2019-03-18 19:35:44 +0000	[diff] [blame]	1145	.addReg(TIDIGZReg)
				1146	.addImm(0); // clamp bit
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1147	} else {
				1148	// Get the wave id
				1149	BuildMI(Entry, Insert, DL, get(AMDGPU::V_MBCNT_LO_U32_B32_e64),
				1150	TIDReg)
				1151	.addImm(-1)
				1152	.addImm(0);
				1153
Marek Olsak	c536850	2015-01-15 18:43:01 +0000	[diff] [blame]	1154	BuildMI(Entry, Insert, DL, get(AMDGPU::V_MBCNT_HI_U32_B32_e64),
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1155	TIDReg)
				1156	.addImm(-1)
				1157	.addReg(TIDReg);
				1158	}
				1159
				1160	BuildMI(Entry, Insert, DL, get(AMDGPU::V_LSHLREV_B32_e32),
				1161	TIDReg)
				1162	.addImm(2)
				1163	.addReg(TIDReg);
				1164	MFI->setTIDReg(TIDReg);
				1165	}
				1166
				1167	// Add FrameIndex to LDS offset
Matt Arsenault	52ef401	2016-07-26 16:45:58 +0000	[diff] [blame]	1168	unsigned LDSOffset = MFI->getLDSSize() + (FrameOffset * WorkGroupSize);
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	1169	getAddNoCarry(MBB, MI, DL, TmpReg)
				1170	.addImm(LDSOffset)
Tim Renouf	cfdfba9	2019-03-18 19:35:44 +0000	[diff] [blame]	1171	.addReg(TIDReg)
				1172	.addImm(0); // clamp bit
Tom Stellard	9646890	2014-09-24 01:33:17 +0000	[diff] [blame]	1173
				1174	return TmpReg;
				1175	}
				1176
Tom Stellard	d37630e	2016-04-07 14:47:07 +0000	[diff] [blame]	1177	void SIInstrInfo::insertWaitStates(MachineBasicBlock &MBB,
				1178	MachineBasicBlock::iterator MI,
Nicolai Haehnle	87323da	2015-12-17 16:46:42 +0000	[diff] [blame]	1179	int Count) const {
Tom Stellard	341e293	2016-05-02 18:02:24 +0000	[diff] [blame]	1180	DebugLoc DL = MBB.findDebugLoc(MI);
Tom Stellard	eba6107	2014-05-02 15:41:42 +0000	[diff] [blame]	1181	while (Count > 0) {
				1182	int Arg;
				1183	if (Count >= 8)
				1184	Arg = 7;
				1185	else
				1186	Arg = Count - 1;
				1187	Count -= 8;
Tom Stellard	341e293	2016-05-02 18:02:24 +0000	[diff] [blame]	1188	BuildMI(MBB, MI, DL, get(AMDGPU::S_NOP))
Tom Stellard	eba6107	2014-05-02 15:41:42 +0000	[diff] [blame]	1189	.addImm(Arg);
				1190	}
				1191	}
				1192
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	1193	void SIInstrInfo::insertNoop(MachineBasicBlock &MBB,
				1194	MachineBasicBlock::iterator MI) const {
				1195	insertWaitStates(MBB, MI, 1);
				1196	}
				1197
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1198	void SIInstrInfo::insertReturn(MachineBasicBlock &MBB) const {
				1199	auto MF = MBB.getParent();
				1200	SIMachineFunctionInfo *Info = MF->getInfo<SIMachineFunctionInfo>();
				1201
				1202	assert(Info->isEntryFunction());
				1203
				1204	if (MBB.succ_empty()) {
				1205	bool HasNoTerminator = MBB.getFirstTerminator() == MBB.end();
David Stuttard	20ea21c	2019-03-12 09:52:58 +0000	[diff] [blame]	1206	if (HasNoTerminator) {
				1207	if (Info->returnsVoid()) {
				1208	BuildMI(MBB, MBB.end(), DebugLoc(), get(AMDGPU::S_ENDPGM)).addImm(0);
				1209	} else {
				1210	BuildMI(MBB, MBB.end(), DebugLoc(), get(AMDGPU::SI_RETURN_TO_EPILOG));
				1211	}
				1212	}
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1213	}
				1214	}
				1215
Stanislav Mekhanoshin	f92ed69	2019-01-21 19:11:26 +0000	[diff] [blame]	1216	unsigned SIInstrInfo::getNumWaitStates(const MachineInstr &MI) {
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	1217	switch (MI.getOpcode()) {
				1218	default: return 1; // FIXME: Do wait states equal cycles?
				1219
				1220	case AMDGPU::S_NOP:
				1221	return MI.getOperand(0).getImm() + 1;
				1222	}
				1223	}
				1224
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1225	bool SIInstrInfo::expandPostRAPseudo(MachineInstr &MI) const {
				1226	MachineBasicBlock &MBB = *MI.getParent();
Tom Stellard	eba6107	2014-05-02 15:41:42 +0000	[diff] [blame]	1227	DebugLoc DL = MBB.findDebugLoc(MI);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1228	switch (MI.getOpcode()) {
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	1229	default: return TargetInstrInfo::expandPostRAPseudo(MI);
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1230	case AMDGPU::S_MOV_B64_term:
Matt Arsenault	e674075	2016-09-29 01:44:16 +0000	[diff] [blame]	1231	// This is only a terminator to get the correct spill code placement during
				1232	// register allocation.
				1233	MI.setDesc(get(AMDGPU::S_MOV_B64));
				1234	break;
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1235
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	1236	case AMDGPU::S_MOV_B32_term:
				1237	// This is only a terminator to get the correct spill code placement during
				1238	// register allocation.
				1239	MI.setDesc(get(AMDGPU::S_MOV_B32));
				1240	break;
				1241
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1242	case AMDGPU::S_XOR_B64_term:
Matt Arsenault	e674075	2016-09-29 01:44:16 +0000	[diff] [blame]	1243	// This is only a terminator to get the correct spill code placement during
				1244	// register allocation.
				1245	MI.setDesc(get(AMDGPU::S_XOR_B64));
				1246	break;
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1247
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	1248	case AMDGPU::S_XOR_B32_term:
				1249	// This is only a terminator to get the correct spill code placement during
				1250	// register allocation.
				1251	MI.setDesc(get(AMDGPU::S_XOR_B32));
				1252	break;
				1253
				1254	case AMDGPU::S_OR_B32_term:
				1255	// This is only a terminator to get the correct spill code placement during
				1256	// register allocation.
				1257	MI.setDesc(get(AMDGPU::S_OR_B32));
				1258	break;
				1259
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1260	case AMDGPU::S_ANDN2_B64_term:
Matt Arsenault	e674075	2016-09-29 01:44:16 +0000	[diff] [blame]	1261	// This is only a terminator to get the correct spill code placement during
				1262	// register allocation.
				1263	MI.setDesc(get(AMDGPU::S_ANDN2_B64));
				1264	break;
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1265
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	1266	case AMDGPU::S_ANDN2_B32_term:
				1267	// This is only a terminator to get the correct spill code placement during
				1268	// register allocation.
				1269	MI.setDesc(get(AMDGPU::S_ANDN2_B32));
				1270	break;
				1271
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1272	case AMDGPU::V_MOV_B64_PSEUDO: {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1273	unsigned Dst = MI.getOperand(0).getReg();
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1274	unsigned DstLo = RI.getSubReg(Dst, AMDGPU::sub0);
				1275	unsigned DstHi = RI.getSubReg(Dst, AMDGPU::sub1);
				1276
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1277	const MachineOperand &SrcOp = MI.getOperand(1);
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1278	// FIXME: Will this work for 64-bit floating point immediates?
				1279	assert(!SrcOp.isFPImm());
				1280	if (SrcOp.isImm()) {
				1281	APInt Imm(64, SrcOp.getImm());
				1282	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), DstLo)
Matt Arsenault	80bc355	2016-06-13 15:53:52 +0000	[diff] [blame]	1283	.addImm(Imm.getLoBits(32).getZExtValue())
				1284	.addReg(Dst, RegState::Implicit \| RegState::Define);
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1285	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), DstHi)
Matt Arsenault	80bc355	2016-06-13 15:53:52 +0000	[diff] [blame]	1286	.addImm(Imm.getHiBits(32).getZExtValue())
				1287	.addReg(Dst, RegState::Implicit \| RegState::Define);
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1288	} else {
				1289	assert(SrcOp.isReg());
				1290	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), DstLo)
Matt Arsenault	80bc355	2016-06-13 15:53:52 +0000	[diff] [blame]	1291	.addReg(RI.getSubReg(SrcOp.getReg(), AMDGPU::sub0))
				1292	.addReg(Dst, RegState::Implicit \| RegState::Define);
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1293	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), DstHi)
Matt Arsenault	80bc355	2016-06-13 15:53:52 +0000	[diff] [blame]	1294	.addReg(RI.getSubReg(SrcOp.getReg(), AMDGPU::sub1))
				1295	.addReg(Dst, RegState::Implicit \| RegState::Define);
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1296	}
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1297	MI.eraseFromParent();
Tom Stellard	4842c05	2015-01-07 20:27:25 +0000	[diff] [blame]	1298	break;
				1299	}
Connor Abbott	66b9bd6	2017-08-04 18:36:54 +0000	[diff] [blame]	1300	case AMDGPU::V_SET_INACTIVE_B32: {
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	1301	unsigned NotOpc = ST.isWave32() ? AMDGPU::S_NOT_B32 : AMDGPU::S_NOT_B64;
				1302	unsigned Exec = ST.isWave32() ? AMDGPU::EXEC_LO : AMDGPU::EXEC;
				1303	BuildMI(MBB, MI, DL, get(NotOpc), Exec)
				1304	.addReg(Exec);
Connor Abbott	66b9bd6	2017-08-04 18:36:54 +0000	[diff] [blame]	1305	BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B32_e32), MI.getOperand(0).getReg())
				1306	.add(MI.getOperand(2));
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	1307	BuildMI(MBB, MI, DL, get(NotOpc), Exec)
				1308	.addReg(Exec);
Connor Abbott	66b9bd6	2017-08-04 18:36:54 +0000	[diff] [blame]	1309	MI.eraseFromParent();
				1310	break;
				1311	}
				1312	case AMDGPU::V_SET_INACTIVE_B64: {
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	1313	unsigned NotOpc = ST.isWave32() ? AMDGPU::S_NOT_B32 : AMDGPU::S_NOT_B64;
				1314	unsigned Exec = ST.isWave32() ? AMDGPU::EXEC_LO : AMDGPU::EXEC;
				1315	BuildMI(MBB, MI, DL, get(NotOpc), Exec)
				1316	.addReg(Exec);
Connor Abbott	66b9bd6	2017-08-04 18:36:54 +0000	[diff] [blame]	1317	MachineInstr *Copy = BuildMI(MBB, MI, DL, get(AMDGPU::V_MOV_B64_PSEUDO),
				1318	MI.getOperand(0).getReg())
				1319	.add(MI.getOperand(2));
				1320	expandPostRAPseudo(*Copy);
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	1321	BuildMI(MBB, MI, DL, get(NotOpc), Exec)
				1322	.addReg(Exec);
Connor Abbott	66b9bd6	2017-08-04 18:36:54 +0000	[diff] [blame]	1323	MI.eraseFromParent();
				1324	break;
				1325	}
Nicolai Haehnle	a785209	2016-10-24 14:56:02 +0000	[diff] [blame]	1326	case AMDGPU::V_MOVRELD_B32_V1:
				1327	case AMDGPU::V_MOVRELD_B32_V2:
				1328	case AMDGPU::V_MOVRELD_B32_V4:
				1329	case AMDGPU::V_MOVRELD_B32_V8:
				1330	case AMDGPU::V_MOVRELD_B32_V16: {
				1331	const MCInstrDesc &MovRelDesc = get(AMDGPU::V_MOVRELD_B32_e32);
				1332	unsigned VecReg = MI.getOperand(0).getReg();
				1333	bool IsUndef = MI.getOperand(1).isUndef();
				1334	unsigned SubReg = AMDGPU::sub0 + MI.getOperand(3).getImm();
				1335	assert(VecReg == MI.getOperand(1).getReg());
				1336
				1337	MachineInstr *MovRel =
				1338	BuildMI(MBB, MI, DL, MovRelDesc)
				1339	.addReg(RI.getSubReg(VecReg, SubReg), RegState::Undef)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	1340	.add(MI.getOperand(2))
Nicolai Haehnle	a785209	2016-10-24 14:56:02 +0000	[diff] [blame]	1341	.addReg(VecReg, RegState::ImplicitDefine)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	1342	.addReg(VecReg,
				1343	RegState::Implicit \| (IsUndef ? RegState::Undef : 0));
Nicolai Haehnle	a785209	2016-10-24 14:56:02 +0000	[diff] [blame]	1344
				1345	const int ImpDefIdx =
				1346	MovRelDesc.getNumOperands() + MovRelDesc.getNumImplicitUses();
				1347	const int ImpUseIdx = ImpDefIdx + 1;
				1348	MovRel->tieOperands(ImpDefIdx, ImpUseIdx);
				1349
				1350	MI.eraseFromParent();
				1351	break;
				1352	}
Tom Stellard	bf3e6e5	2016-06-14 20:29:59 +0000	[diff] [blame]	1353	case AMDGPU::SI_PC_ADD_REL_OFFSET: {
Tom Stellard	c93fc11	2015-12-10 02:13:01 +0000	[diff] [blame]	1354	MachineFunction &MF = *MBB.getParent();
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1355	unsigned Reg = MI.getOperand(0).getReg();
Matt Arsenault	11587d9	2016-08-10 19:11:45 +0000	[diff] [blame]	1356	unsigned RegLo = RI.getSubReg(Reg, AMDGPU::sub0);
				1357	unsigned RegHi = RI.getSubReg(Reg, AMDGPU::sub1);
Tom Stellard	c93fc11	2015-12-10 02:13:01 +0000	[diff] [blame]	1358
				1359	// Create a bundle so these instructions won't be re-ordered by the
				1360	// post-RA scheduler.
				1361	MIBundleBuilder Bundler(MBB, MI);
				1362	Bundler.append(BuildMI(MF, DL, get(AMDGPU::S_GETPC_B64), Reg));
				1363
				1364	// Add 32-bit offset from this instruction to the start of the
				1365	// constant data.
				1366	Bundler.append(BuildMI(MF, DL, get(AMDGPU::S_ADD_U32), RegLo)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1367	.addReg(RegLo)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	1368	.add(MI.getOperand(1)));
Tom Stellard	c93fc11	2015-12-10 02:13:01 +0000	[diff] [blame]	1369
Konstantin Zhuravlyov	c96b5d7	2016-10-14 04:37:34 +0000	[diff] [blame]	1370	MachineInstrBuilder MIB = BuildMI(MF, DL, get(AMDGPU::S_ADDC_U32), RegHi)
				1371	.addReg(RegHi);
Nicolai Haehnle	6d71be4	2019-06-16 17:32:01 +0000	[diff] [blame^]	1372	MIB.add(MI.getOperand(2));
Konstantin Zhuravlyov	c96b5d7	2016-10-14 04:37:34 +0000	[diff] [blame]	1373
				1374	Bundler.append(MIB);
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1375	finalizeBundle(MBB, Bundler.begin());
Tom Stellard	c93fc11	2015-12-10 02:13:01 +0000	[diff] [blame]	1376
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1377	MI.eraseFromParent();
Tom Stellard	c93fc11	2015-12-10 02:13:01 +0000	[diff] [blame]	1378	break;
				1379	}
Neil Henning	0a30f33	2019-04-01 15:19:52 +0000	[diff] [blame]	1380	case AMDGPU::ENTER_WWM: {
				1381	// This only gets its own opcode so that SIPreAllocateWWMRegs can tell when
				1382	// WWM is entered.
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	1383	MI.setDesc(get(ST.isWave32() ? AMDGPU::S_OR_SAVEEXEC_B32
				1384	: AMDGPU::S_OR_SAVEEXEC_B64));
Neil Henning	0a30f33	2019-04-01 15:19:52 +0000	[diff] [blame]	1385	break;
				1386	}
Connor Abbott	92638ab	2017-08-04 18:36:52 +0000	[diff] [blame]	1387	case AMDGPU::EXIT_WWM: {
Neil Henning	0a30f33	2019-04-01 15:19:52 +0000	[diff] [blame]	1388	// This only gets its own opcode so that SIPreAllocateWWMRegs can tell when
				1389	// WWM is exited.
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	1390	MI.setDesc(get(ST.isWave32() ? AMDGPU::S_MOV_B32 : AMDGPU::S_MOV_B64));
Connor Abbott	92638ab	2017-08-04 18:36:52 +0000	[diff] [blame]	1391	break;
				1392	}
Stanislav Mekhanoshin	739174c	2018-05-31 20:13:51 +0000	[diff] [blame]	1393	case TargetOpcode::BUNDLE: {
				1394	if (!MI.mayLoad())
				1395	return false;
				1396
				1397	// If it is a load it must be a memory clause
				1398	for (MachineBasicBlock::instr_iterator I = MI.getIterator();
				1399	I->isBundledWithSucc(); ++I) {
				1400	I->unbundleFromSucc();
				1401	for (MachineOperand &MO : I->operands())
				1402	if (MO.isReg())
				1403	MO.setIsInternalRead(false);
				1404	}
				1405
				1406	MI.eraseFromParent();
				1407	break;
				1408	}
Tom Stellard	eba6107	2014-05-02 15:41:42 +0000	[diff] [blame]	1409	}
				1410	return true;
				1411	}
				1412
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1413	bool SIInstrInfo::swapSourceModifiers(MachineInstr &MI,
				1414	MachineOperand &Src0,
				1415	unsigned Src0OpName,
				1416	MachineOperand &Src1,
				1417	unsigned Src1OpName) const {
				1418	MachineOperand *Src0Mods = getNamedOperand(MI, Src0OpName);
				1419	if (!Src0Mods)
				1420	return false;
				1421
				1422	MachineOperand *Src1Mods = getNamedOperand(MI, Src1OpName);
				1423	assert(Src1Mods &&
				1424	"All commutable instructions have both src0 and src1 modifiers");
				1425
				1426	int Src0ModsVal = Src0Mods->getImm();
				1427	int Src1ModsVal = Src1Mods->getImm();
				1428
				1429	Src1Mods->setImm(Src0ModsVal);
				1430	Src0Mods->setImm(Src1ModsVal);
				1431	return true;
				1432	}
				1433
				1434	static MachineInstr *swapRegAndNonRegOperand(MachineInstr &MI,
				1435	MachineOperand &RegOp,
Matt Arsenault	25dba30	2016-09-13 19:03:12 +0000	[diff] [blame]	1436	MachineOperand &NonRegOp) {
				1437	unsigned Reg = RegOp.getReg();
				1438	unsigned SubReg = RegOp.getSubReg();
				1439	bool IsKill = RegOp.isKill();
				1440	bool IsDead = RegOp.isDead();
				1441	bool IsUndef = RegOp.isUndef();
				1442	bool IsDebug = RegOp.isDebug();
				1443
				1444	if (NonRegOp.isImm())
				1445	RegOp.ChangeToImmediate(NonRegOp.getImm());
				1446	else if (NonRegOp.isFI())
				1447	RegOp.ChangeToFrameIndex(NonRegOp.getIndex());
				1448	else
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1449	return nullptr;
				1450
Matt Arsenault	25dba30	2016-09-13 19:03:12 +0000	[diff] [blame]	1451	NonRegOp.ChangeToRegister(Reg, false, false, IsKill, IsDead, IsUndef, IsDebug);
				1452	NonRegOp.setSubReg(SubReg);
				1453
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1454	return &MI;
				1455	}
				1456
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1457	MachineInstr *SIInstrInfo::commuteInstructionImpl(MachineInstr &MI, bool NewMI,
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1458	unsigned Src0Idx,
				1459	unsigned Src1Idx) const {
				1460	assert(!NewMI && "this should never be used");
				1461
				1462	unsigned Opc = MI.getOpcode();
				1463	int CommutedOpcode = commuteOpcode(Opc);
Marek Olsak	cfbdba2	2015-06-26 20:29:10 +0000	[diff] [blame]	1464	if (CommutedOpcode == -1)
				1465	return nullptr;
				1466
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1467	assert(AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0) ==
				1468	static_cast<int>(Src0Idx) &&
				1469	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src1) ==
				1470	static_cast<int>(Src1Idx) &&
				1471	"inconsistency with findCommutedOpIndices");
				1472
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1473	MachineOperand &Src0 = MI.getOperand(Src0Idx);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1474	MachineOperand &Src1 = MI.getOperand(Src1Idx);
Matt Arsenault	aa5ccfb	2014-10-17 18:00:37 +0000	[diff] [blame]	1475
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1476	MachineInstr *CommutedMI = nullptr;
				1477	if (Src0.isReg() && Src1.isReg()) {
				1478	if (isOperandLegal(MI, Src1Idx, &Src0)) {
				1479	// Be sure to copy the source modifiers to the right place.
				1480	CommutedMI
				1481	= TargetInstrInfo::commuteInstructionImpl(MI, NewMI, Src0Idx, Src1Idx);
Matt Arsenault	d282ada	2014-10-17 18:00:48 +0000	[diff] [blame]	1482	}
				1483
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1484	} else if (Src0.isReg() && !Src1.isReg()) {
				1485	// src0 should always be able to support any operand type, so no need to
				1486	// check operand legality.
				1487	CommutedMI = swapRegAndNonRegOperand(MI, Src0, Src1);
				1488	} else if (!Src0.isReg() && Src1.isReg()) {
				1489	if (isOperandLegal(MI, Src1Idx, &Src0))
				1490	CommutedMI = swapRegAndNonRegOperand(MI, Src1, Src0);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	1491	} else {
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1492	// FIXME: Found two non registers to commute. This does happen.
				1493	return nullptr;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	1494	}
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1495
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1496	if (CommutedMI) {
				1497	swapSourceModifiers(MI, Src0, AMDGPU::OpName::src0_modifiers,
				1498	Src1, AMDGPU::OpName::src1_modifiers);
				1499
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1500	CommutedMI->setDesc(get(CommutedOpcode));
Matt Arsenault	bbb47da	2016-09-08 17:19:29 +0000	[diff] [blame]	1501	}
Christian Konig	3c14580	2013-03-27 09:12:59 +0000	[diff] [blame]	1502
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1503	return CommutedMI;
Christian Konig	76edd4f	2013-02-26 17:52:29 +0000	[diff] [blame]	1504	}
				1505
Matt Arsenault	92befe7	2014-09-26 17:54:54 +0000	[diff] [blame]	1506	// This needs to be implemented because the source modifiers may be inserted
				1507	// between the true commutable operands, and the base
				1508	// TargetInstrInfo::commuteInstruction uses it.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	1509	bool SIInstrInfo::findCommutedOpIndices(MachineInstr &MI, unsigned &SrcOpIdx0,
Andrew Kaylor	16c4da0	2015-09-28 20:33:22 +0000	[diff] [blame]	1510	unsigned &SrcOpIdx1) const {
Alexander Timofeev	db7ee76	2018-09-11 11:56:50 +0000	[diff] [blame]	1511	return findCommutedOpIndices(MI.getDesc(), SrcOpIdx0, SrcOpIdx1);
				1512	}
				1513
				1514	bool SIInstrInfo::findCommutedOpIndices(MCInstrDesc Desc, unsigned &SrcOpIdx0,
				1515	unsigned &SrcOpIdx1) const {
				1516	if (!Desc.isCommutable())
Matt Arsenault	92befe7	2014-09-26 17:54:54 +0000	[diff] [blame]	1517	return false;
				1518
Alexander Timofeev	db7ee76	2018-09-11 11:56:50 +0000	[diff] [blame]	1519	unsigned Opc = Desc.getOpcode();
Matt Arsenault	92befe7	2014-09-26 17:54:54 +0000	[diff] [blame]	1520	int Src0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0);
				1521	if (Src0Idx == -1)
				1522	return false;
				1523
Matt Arsenault	92befe7	2014-09-26 17:54:54 +0000	[diff] [blame]	1524	int Src1Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src1);
				1525	if (Src1Idx == -1)
				1526	return false;
				1527
Andrew Kaylor	16c4da0	2015-09-28 20:33:22 +0000	[diff] [blame]	1528	return fixCommutedOpIndices(SrcOpIdx0, SrcOpIdx1, Src0Idx, Src1Idx);
Matt Arsenault	92befe7	2014-09-26 17:54:54 +0000	[diff] [blame]	1529	}
				1530
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1531	bool SIInstrInfo::isBranchOffsetInRange(unsigned BranchOp,
				1532	int64_t BrOffset) const {
				1533	// BranchRelaxation should never have to check s_setpc_b64 because its dest
				1534	// block is unanalyzable.
				1535	assert(BranchOp != AMDGPU::S_SETPC_B64);
				1536
				1537	// Convert to dwords.
				1538	BrOffset /= 4;
				1539
				1540	// The branch instructions do PC += signext(SIMM16 * 4) + 4, so the offset is
				1541	// from the next instruction.
				1542	BrOffset -= 1;
				1543
				1544	return isIntN(BranchOffsetBits, BrOffset);
				1545	}
				1546
				1547	MachineBasicBlock *SIInstrInfo::getBranchDestBlock(
				1548	const MachineInstr &MI) const {
				1549	if (MI.getOpcode() == AMDGPU::S_SETPC_B64) {
				1550	// This would be a difficult analysis to perform, but can always be legal so
				1551	// there's no need to analyze it.
				1552	return nullptr;
				1553	}
				1554
				1555	return MI.getOperand(0).getMBB();
				1556	}
				1557
				1558	unsigned SIInstrInfo::insertIndirectBranch(MachineBasicBlock &MBB,
				1559	MachineBasicBlock &DestBB,
				1560	const DebugLoc &DL,
				1561	int64_t BrOffset,
				1562	RegScavenger *RS) const {
				1563	assert(RS && "RegScavenger required for long branching");
				1564	assert(MBB.empty() &&
				1565	"new block should be inserted for expanding unconditional branch");
				1566	assert(MBB.pred_size() == 1);
				1567
				1568	MachineFunction *MF = MBB.getParent();
				1569	MachineRegisterInfo &MRI = MF->getRegInfo();
				1570
				1571	// FIXME: Virtual register workaround for RegScavenger not working with empty
				1572	// blocks.
				1573	unsigned PCReg = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				1574
				1575	auto I = MBB.end();
				1576
				1577	// We need to compute the offset relative to the instruction immediately after
				1578	// s_getpc_b64. Insert pc arithmetic code before last terminator.
				1579	MachineInstr *GetPC = BuildMI(MBB, I, DL, get(AMDGPU::S_GETPC_B64), PCReg);
				1580
				1581	// TODO: Handle > 32-bit block address.
				1582	if (BrOffset >= 0) {
				1583	BuildMI(MBB, I, DL, get(AMDGPU::S_ADD_U32))
				1584	.addReg(PCReg, RegState::Define, AMDGPU::sub0)
				1585	.addReg(PCReg, 0, AMDGPU::sub0)
Matt Arsenault	0f8a764	2019-06-05 20:32:25 +0000	[diff] [blame]	1586	.addMBB(&DestBB, MO_LONG_BRANCH_FORWARD);
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1587	BuildMI(MBB, I, DL, get(AMDGPU::S_ADDC_U32))
				1588	.addReg(PCReg, RegState::Define, AMDGPU::sub1)
				1589	.addReg(PCReg, 0, AMDGPU::sub1)
				1590	.addImm(0);
				1591	} else {
				1592	// Backwards branch.
				1593	BuildMI(MBB, I, DL, get(AMDGPU::S_SUB_U32))
				1594	.addReg(PCReg, RegState::Define, AMDGPU::sub0)
				1595	.addReg(PCReg, 0, AMDGPU::sub0)
Matt Arsenault	0f8a764	2019-06-05 20:32:25 +0000	[diff] [blame]	1596	.addMBB(&DestBB, MO_LONG_BRANCH_BACKWARD);
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1597	BuildMI(MBB, I, DL, get(AMDGPU::S_SUBB_U32))
				1598	.addReg(PCReg, RegState::Define, AMDGPU::sub1)
				1599	.addReg(PCReg, 0, AMDGPU::sub1)
				1600	.addImm(0);
				1601	}
				1602
				1603	// Insert the indirect branch after the other terminator.
				1604	BuildMI(&MBB, DL, get(AMDGPU::S_SETPC_B64))
				1605	.addReg(PCReg);
				1606
				1607	// FIXME: If spilling is necessary, this will fail because this scavenger has
				1608	// no emergency stack slots. It is non-trivial to spill in this situation,
				1609	// because the restore code needs to be specially placed after the
				1610	// jump. BranchRelaxation then needs to be made aware of the newly inserted
				1611	// block.
				1612	//
				1613	// If a spill is needed for the pc register pair, we need to insert a spill
				1614	// restore block right before the destination block, and insert a short branch
				1615	// into the old destination block's fallthrough predecessor.
				1616	// e.g.:
				1617	//
				1618	// s_cbranch_scc0 skip_long_branch:
				1619	//
				1620	// long_branch_bb:
				1621	// spill s[8:9]
				1622	// s_getpc_b64 s[8:9]
				1623	// s_add_u32 s8, s8, restore_bb
				1624	// s_addc_u32 s9, s9, 0
				1625	// s_setpc_b64 s[8:9]
				1626	//
				1627	// skip_long_branch:
				1628	// foo;
				1629	//
				1630	// .....
				1631	//
				1632	// dest_bb_fallthrough_predecessor:
				1633	// bar;
				1634	// s_branch dest_bb
				1635	//
				1636	// restore_bb:
				1637	// restore s[8:9]
				1638	// fallthrough dest_bb
				1639	///
				1640	// dest_bb:
				1641	// buzz;
				1642
				1643	RS->enterBasicBlockEnd(MBB);
Matt Arsenault	b0b741e	2018-10-30 01:33:14 +0000	[diff] [blame]	1644	unsigned Scav = RS->scavengeRegisterBackwards(
				1645	AMDGPU::SReg_64RegClass,
				1646	MachineBasicBlock::iterator(GetPC), false, 0);
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1647	MRI.replaceRegWith(PCReg, Scav);
				1648	MRI.clearVirtRegs();
				1649	RS->setRegUsed(Scav);
				1650
				1651	return 4 + 8 + 4 + 4;
				1652	}
				1653
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1654	unsigned SIInstrInfo::getBranchOpcode(SIInstrInfo::BranchPredicate Cond) {
				1655	switch (Cond) {
				1656	case SIInstrInfo::SCC_TRUE:
				1657	return AMDGPU::S_CBRANCH_SCC1;
				1658	case SIInstrInfo::SCC_FALSE:
				1659	return AMDGPU::S_CBRANCH_SCC0;
Matt Arsenault	4945905	2016-05-21 00:29:40 +0000	[diff] [blame]	1660	case SIInstrInfo::VCCNZ:
				1661	return AMDGPU::S_CBRANCH_VCCNZ;
				1662	case SIInstrInfo::VCCZ:
				1663	return AMDGPU::S_CBRANCH_VCCZ;
				1664	case SIInstrInfo::EXECNZ:
				1665	return AMDGPU::S_CBRANCH_EXECNZ;
				1666	case SIInstrInfo::EXECZ:
				1667	return AMDGPU::S_CBRANCH_EXECZ;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1668	default:
				1669	llvm_unreachable("invalid branch predicate");
				1670	}
				1671	}
				1672
				1673	SIInstrInfo::BranchPredicate SIInstrInfo::getBranchPredicate(unsigned Opcode) {
				1674	switch (Opcode) {
				1675	case AMDGPU::S_CBRANCH_SCC0:
				1676	return SCC_FALSE;
				1677	case AMDGPU::S_CBRANCH_SCC1:
				1678	return SCC_TRUE;
Matt Arsenault	4945905	2016-05-21 00:29:40 +0000	[diff] [blame]	1679	case AMDGPU::S_CBRANCH_VCCNZ:
				1680	return VCCNZ;
				1681	case AMDGPU::S_CBRANCH_VCCZ:
				1682	return VCCZ;
				1683	case AMDGPU::S_CBRANCH_EXECNZ:
				1684	return EXECNZ;
				1685	case AMDGPU::S_CBRANCH_EXECZ:
				1686	return EXECZ;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1687	default:
				1688	return INVALID_BR;
				1689	}
				1690	}
				1691
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1692	bool SIInstrInfo::analyzeBranchImpl(MachineBasicBlock &MBB,
				1693	MachineBasicBlock::iterator I,
				1694	MachineBasicBlock *&TBB,
				1695	MachineBasicBlock *&FBB,
				1696	SmallVectorImpl<MachineOperand> &Cond,
				1697	bool AllowModify) const {
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1698	if (I->getOpcode() == AMDGPU::S_BRANCH) {
				1699	// Unconditional Branch
				1700	TBB = I->getOperand(0).getMBB();
				1701	return false;
				1702	}
				1703
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1704	MachineBasicBlock *CondBB = nullptr;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1705
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1706	if (I->getOpcode() == AMDGPU::SI_NON_UNIFORM_BRCOND_PSEUDO) {
				1707	CondBB = I->getOperand(1).getMBB();
				1708	Cond.push_back(I->getOperand(0));
				1709	} else {
				1710	BranchPredicate Pred = getBranchPredicate(I->getOpcode());
				1711	if (Pred == INVALID_BR)
				1712	return true;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1713
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1714	CondBB = I->getOperand(0).getMBB();
				1715	Cond.push_back(MachineOperand::CreateImm(Pred));
				1716	Cond.push_back(I->getOperand(1)); // Save the branch register.
				1717	}
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1718	++I;
				1719
				1720	if (I == MBB.end()) {
				1721	// Conditional branch followed by fall-through.
				1722	TBB = CondBB;
				1723	return false;
				1724	}
				1725
				1726	if (I->getOpcode() == AMDGPU::S_BRANCH) {
				1727	TBB = CondBB;
				1728	FBB = I->getOperand(0).getMBB();
				1729	return false;
				1730	}
				1731
				1732	return true;
				1733	}
				1734
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1735	bool SIInstrInfo::analyzeBranch(MachineBasicBlock &MBB, MachineBasicBlock *&TBB,
				1736	MachineBasicBlock *&FBB,
				1737	SmallVectorImpl<MachineOperand> &Cond,
				1738	bool AllowModify) const {
				1739	MachineBasicBlock::iterator I = MBB.getFirstTerminator();
Matt Arsenault	eabb8dd	2018-11-16 05:03:02 +0000	[diff] [blame]	1740	auto E = MBB.end();
				1741	if (I == E)
				1742	return false;
				1743
				1744	// Skip over the instructions that are artificially terminators for special
				1745	// exec management.
				1746	while (I != E && !I->isBranch() && !I->isReturn() &&
				1747	I->getOpcode() != AMDGPU::SI_MASK_BRANCH) {
				1748	switch (I->getOpcode()) {
				1749	case AMDGPU::SI_MASK_BRANCH:
				1750	case AMDGPU::S_MOV_B64_term:
				1751	case AMDGPU::S_XOR_B64_term:
				1752	case AMDGPU::S_ANDN2_B64_term:
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	1753	case AMDGPU::S_MOV_B32_term:
				1754	case AMDGPU::S_XOR_B32_term:
				1755	case AMDGPU::S_OR_B32_term:
				1756	case AMDGPU::S_ANDN2_B32_term:
Matt Arsenault	eabb8dd	2018-11-16 05:03:02 +0000	[diff] [blame]	1757	break;
				1758	case AMDGPU::SI_IF:
				1759	case AMDGPU::SI_ELSE:
				1760	case AMDGPU::SI_KILL_I1_TERMINATOR:
				1761	case AMDGPU::SI_KILL_F32_COND_IMM_TERMINATOR:
				1762	// FIXME: It's messy that these need to be considered here at all.
				1763	return true;
				1764	default:
				1765	llvm_unreachable("unexpected non-branch terminator inst");
				1766	}
				1767
				1768	++I;
				1769	}
				1770
				1771	if (I == E)
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1772	return false;
				1773
				1774	if (I->getOpcode() != AMDGPU::SI_MASK_BRANCH)
				1775	return analyzeBranchImpl(MBB, I, TBB, FBB, Cond, AllowModify);
				1776
				1777	++I;
				1778
				1779	// TODO: Should be able to treat as fallthrough?
				1780	if (I == MBB.end())
				1781	return true;
				1782
				1783	if (analyzeBranchImpl(MBB, I, TBB, FBB, Cond, AllowModify))
				1784	return true;
				1785
				1786	MachineBasicBlock *MaskBrDest = I->getOperand(0).getMBB();
				1787
				1788	// Specifically handle the case where the conditional branch is to the same
				1789	// destination as the mask branch. e.g.
				1790	//
				1791	// si_mask_branch BB8
				1792	// s_cbranch_execz BB8
				1793	// s_cbranch BB9
				1794	//
				1795	// This is required to understand divergent loops which may need the branches
				1796	// to be relaxed.
				1797	if (TBB != MaskBrDest \|\| Cond.empty())
				1798	return true;
				1799
				1800	auto Pred = Cond[0].getImm();
				1801	return (Pred != EXECZ && Pred != EXECNZ);
				1802	}
				1803
Matt Arsenault	1b9fc8e	2016-09-14 20:43:16 +0000	[diff] [blame]	1804	unsigned SIInstrInfo::removeBranch(MachineBasicBlock &MBB,
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1805	int *BytesRemoved) const {
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1806	MachineBasicBlock::iterator I = MBB.getFirstTerminator();
				1807
				1808	unsigned Count = 0;
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1809	unsigned RemovedSize = 0;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1810	while (I != MBB.end()) {
				1811	MachineBasicBlock::iterator Next = std::next(I);
Matt Arsenault	6bc43d8	2016-10-06 16:20:41 +0000	[diff] [blame]	1812	if (I->getOpcode() == AMDGPU::SI_MASK_BRANCH) {
				1813	I = Next;
				1814	continue;
				1815	}
				1816
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1817	RemovedSize += getInstSizeInBytes(*I);
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1818	I->eraseFromParent();
				1819	++Count;
				1820	I = Next;
				1821	}
				1822
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1823	if (BytesRemoved)
				1824	*BytesRemoved = RemovedSize;
				1825
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1826	return Count;
				1827	}
				1828
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1829	// Copy the flags onto the implicit condition register operand.
				1830	static void preserveCondRegFlags(MachineOperand &CondReg,
				1831	const MachineOperand &OrigCond) {
				1832	CondReg.setIsUndef(OrigCond.isUndef());
				1833	CondReg.setIsKill(OrigCond.isKill());
				1834	}
				1835
Matt Arsenault	e8e0f5c	2016-09-14 17:24:15 +0000	[diff] [blame]	1836	unsigned SIInstrInfo::insertBranch(MachineBasicBlock &MBB,
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1837	MachineBasicBlock *TBB,
				1838	MachineBasicBlock *FBB,
				1839	ArrayRef<MachineOperand> Cond,
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1840	const DebugLoc &DL,
				1841	int *BytesAdded) const {
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1842	if (!FBB && Cond.empty()) {
				1843	BuildMI(&MBB, DL, get(AMDGPU::S_BRANCH))
				1844	.addMBB(TBB);
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1845	if (BytesAdded)
				1846	*BytesAdded = 4;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1847	return 1;
				1848	}
				1849
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1850	if(Cond.size() == 1 && Cond[0].isReg()) {
				1851	BuildMI(&MBB, DL, get(AMDGPU::SI_NON_UNIFORM_BRCOND_PSEUDO))
				1852	.add(Cond[0])
				1853	.addMBB(TBB);
				1854	return 1;
				1855	}
				1856
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1857	assert(TBB && Cond[0].isImm());
				1858
				1859	unsigned Opcode
				1860	= getBranchOpcode(static_cast<BranchPredicate>(Cond[0].getImm()));
				1861
				1862	if (!FBB) {
Matt Arsenault	52f14ec	2016-11-07 19:09:27 +0000	[diff] [blame]	1863	Cond[1].isUndef();
				1864	MachineInstr *CondBr =
				1865	BuildMI(&MBB, DL, get(Opcode))
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1866	.addMBB(TBB);
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1867
Matt Arsenault	52f14ec	2016-11-07 19:09:27 +0000	[diff] [blame]	1868	// Copy the flags onto the implicit condition register operand.
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1869	preserveCondRegFlags(CondBr->getOperand(1), Cond[1]);
Matt Arsenault	52f14ec	2016-11-07 19:09:27 +0000	[diff] [blame]	1870
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1871	if (BytesAdded)
				1872	*BytesAdded = 4;
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1873	return 1;
				1874	}
				1875
				1876	assert(TBB && FBB);
				1877
Matt Arsenault	52f14ec	2016-11-07 19:09:27 +0000	[diff] [blame]	1878	MachineInstr *CondBr =
				1879	BuildMI(&MBB, DL, get(Opcode))
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1880	.addMBB(TBB);
				1881	BuildMI(&MBB, DL, get(AMDGPU::S_BRANCH))
				1882	.addMBB(FBB);
				1883
Matt Arsenault	52f14ec	2016-11-07 19:09:27 +0000	[diff] [blame]	1884	MachineOperand &CondReg = CondBr->getOperand(1);
				1885	CondReg.setIsUndef(Cond[1].isUndef());
				1886	CondReg.setIsKill(Cond[1].isKill());
				1887
Matt Arsenault	a2b036e	2016-09-14 17:23:48 +0000	[diff] [blame]	1888	if (BytesAdded)
				1889	*BytesAdded = 8;
				1890
Matt Arsenault	6d09380	2016-05-21 00:29:27 +0000	[diff] [blame]	1891	return 2;
				1892	}
				1893
Matt Arsenault	1b9fc8e	2016-09-14 20:43:16 +0000	[diff] [blame]	1894	bool SIInstrInfo::reverseBranchCondition(
Matt Arsenault	72fcd5f	2016-05-21 00:29:34 +0000	[diff] [blame]	1895	SmallVectorImpl<MachineOperand> &Cond) const {
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	1896	if (Cond.size() != 2) {
				1897	return true;
				1898	}
				1899
				1900	if (Cond[0].isImm()) {
				1901	Cond[0].setImm(-Cond[0].getImm());
				1902	return false;
				1903	}
				1904
				1905	return true;
Matt Arsenault	72fcd5f	2016-05-21 00:29:34 +0000	[diff] [blame]	1906	}
				1907
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1908	bool SIInstrInfo::canInsertSelect(const MachineBasicBlock &MBB,
				1909	ArrayRef<MachineOperand> Cond,
				1910	unsigned TrueReg, unsigned FalseReg,
				1911	int &CondCycles,
				1912	int &TrueCycles, int &FalseCycles) const {
				1913	switch (Cond[0].getImm()) {
				1914	case VCCNZ:
				1915	case VCCZ: {
				1916	const MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				1917	const TargetRegisterClass *RC = MRI.getRegClass(TrueReg);
				1918	assert(MRI.getRegClass(FalseReg) == RC);
				1919
				1920	int NumInsts = AMDGPU::getRegBitWidth(RC->getID()) / 32;
				1921	CondCycles = TrueCycles = FalseCycles = NumInsts; // ???
				1922
				1923	// Limit to equal cost for branch vs. N v_cndmask_b32s.
				1924	return !RI.isSGPRClass(RC) && NumInsts <= 6;
				1925	}
				1926	case SCC_TRUE:
				1927	case SCC_FALSE: {
				1928	// FIXME: We could insert for VGPRs if we could replace the original compare
				1929	// with a vector one.
				1930	const MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				1931	const TargetRegisterClass *RC = MRI.getRegClass(TrueReg);
				1932	assert(MRI.getRegClass(FalseReg) == RC);
				1933
				1934	int NumInsts = AMDGPU::getRegBitWidth(RC->getID()) / 32;
				1935
				1936	// Multiples of 8 can do s_cselect_b64
				1937	if (NumInsts % 2 == 0)
				1938	NumInsts /= 2;
				1939
				1940	CondCycles = TrueCycles = FalseCycles = NumInsts; // ???
				1941	return RI.isSGPRClass(RC);
				1942	}
				1943	default:
				1944	return false;
				1945	}
				1946	}
				1947
				1948	void SIInstrInfo::insertSelect(MachineBasicBlock &MBB,
				1949	MachineBasicBlock::iterator I, const DebugLoc &DL,
				1950	unsigned DstReg, ArrayRef<MachineOperand> Cond,
				1951	unsigned TrueReg, unsigned FalseReg) const {
				1952	BranchPredicate Pred = static_cast<BranchPredicate>(Cond[0].getImm());
				1953	if (Pred == VCCZ \|\| Pred == SCC_FALSE) {
				1954	Pred = static_cast<BranchPredicate>(-Pred);
				1955	std::swap(TrueReg, FalseReg);
				1956	}
				1957
				1958	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				1959	const TargetRegisterClass *DstRC = MRI.getRegClass(DstReg);
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1960	unsigned DstSize = RI.getRegSizeInBits(*DstRC);
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1961
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1962	if (DstSize == 32) {
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1963	unsigned SelOp = Pred == SCC_TRUE ?
				1964	AMDGPU::S_CSELECT_B32 : AMDGPU::V_CNDMASK_B32_e32;
				1965
				1966	// Instruction's operands are backwards from what is expected.
				1967	MachineInstr *Select =
				1968	BuildMI(MBB, I, DL, get(SelOp), DstReg)
				1969	.addReg(FalseReg)
				1970	.addReg(TrueReg);
				1971
				1972	preserveCondRegFlags(Select->getOperand(3), Cond[1]);
				1973	return;
				1974	}
				1975
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	1976	if (DstSize == 64 && Pred == SCC_TRUE) {
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	1977	MachineInstr *Select =
				1978	BuildMI(MBB, I, DL, get(AMDGPU::S_CSELECT_B64), DstReg)
				1979	.addReg(FalseReg)
				1980	.addReg(TrueReg);
				1981
				1982	preserveCondRegFlags(Select->getOperand(3), Cond[1]);
				1983	return;
				1984	}
				1985
				1986	static const int16_t Sub0_15[] = {
				1987	AMDGPU::sub0, AMDGPU::sub1, AMDGPU::sub2, AMDGPU::sub3,
				1988	AMDGPU::sub4, AMDGPU::sub5, AMDGPU::sub6, AMDGPU::sub7,
				1989	AMDGPU::sub8, AMDGPU::sub9, AMDGPU::sub10, AMDGPU::sub11,
				1990	AMDGPU::sub12, AMDGPU::sub13, AMDGPU::sub14, AMDGPU::sub15,
				1991	};
				1992
				1993	static const int16_t Sub0_15_64[] = {
				1994	AMDGPU::sub0_sub1, AMDGPU::sub2_sub3,
				1995	AMDGPU::sub4_sub5, AMDGPU::sub6_sub7,
				1996	AMDGPU::sub8_sub9, AMDGPU::sub10_sub11,
				1997	AMDGPU::sub12_sub13, AMDGPU::sub14_sub15,
				1998	};
				1999
				2000	unsigned SelOp = AMDGPU::V_CNDMASK_B32_e32;
				2001	const TargetRegisterClass *EltRC = &AMDGPU::VGPR_32RegClass;
				2002	const int16_t *SubIndices = Sub0_15;
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	2003	int NElts = DstSize / 32;
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	2004
Tim Renouf	361b5b2	2019-03-21 12:01:21 +0000	[diff] [blame]	2005	// 64-bit select is only available for SALU.
				2006	// TODO: Split 96-bit into 64-bit and 32-bit, not 3x 32-bit.
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	2007	if (Pred == SCC_TRUE) {
Tim Renouf	361b5b2	2019-03-21 12:01:21 +0000	[diff] [blame]	2008	if (NElts % 2) {
				2009	SelOp = AMDGPU::S_CSELECT_B32;
				2010	EltRC = &AMDGPU::SGPR_32RegClass;
				2011	} else {
				2012	SelOp = AMDGPU::S_CSELECT_B64;
				2013	EltRC = &AMDGPU::SGPR_64RegClass;
				2014	SubIndices = Sub0_15_64;
				2015	NElts /= 2;
				2016	}
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	2017	}
				2018
				2019	MachineInstrBuilder MIB = BuildMI(
				2020	MBB, I, DL, get(AMDGPU::REG_SEQUENCE), DstReg);
				2021
				2022	I = MIB->getIterator();
				2023
				2024	SmallVector<unsigned, 8> Regs;
				2025	for (int Idx = 0; Idx != NElts; ++Idx) {
				2026	unsigned DstElt = MRI.createVirtualRegister(EltRC);
				2027	Regs.push_back(DstElt);
				2028
				2029	unsigned SubIdx = SubIndices[Idx];
				2030
				2031	MachineInstr *Select =
				2032	BuildMI(MBB, I, DL, get(SelOp), DstElt)
				2033	.addReg(FalseReg, 0, SubIdx)
				2034	.addReg(TrueReg, 0, SubIdx);
				2035	preserveCondRegFlags(Select->getOperand(3), Cond[1]);
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	2036	fixImplicitOperands(*Select);
Matt Arsenault	9f5e0ef	2017-01-25 04:25:02 +0000	[diff] [blame]	2037
				2038	MIB.addReg(DstElt)
				2039	.addImm(SubIdx);
				2040	}
				2041	}
				2042
Sam Kolton	27e0f8b	2017-03-31 11:42:43 +0000	[diff] [blame]	2043	bool SIInstrInfo::isFoldableCopy(const MachineInstr &MI) const {
				2044	switch (MI.getOpcode()) {
				2045	case AMDGPU::V_MOV_B32_e32:
				2046	case AMDGPU::V_MOV_B32_e64:
				2047	case AMDGPU::V_MOV_B64_PSEUDO: {
				2048	// If there are additional implicit register operands, this may be used for
				2049	// register indexing so the source register operand isn't simply copied.
				2050	unsigned NumOps = MI.getDesc().getNumOperands() +
				2051	MI.getDesc().getNumImplicitUses();
				2052
				2053	return MI.getNumOperands() == NumOps;
				2054	}
				2055	case AMDGPU::S_MOV_B32:
				2056	case AMDGPU::S_MOV_B64:
				2057	case AMDGPU::COPY:
				2058	return true;
				2059	default:
				2060	return false;
				2061	}
				2062	}
				2063
Jan Sjodin	312ccf7	2017-09-14 20:53:51 +0000	[diff] [blame]	2064	unsigned SIInstrInfo::getAddressSpaceForPseudoSourceKind(
Marcello Maggioni	5ca4128	2018-08-20 19:23:45 +0000	[diff] [blame]	2065	unsigned Kind) const {
Jan Sjodin	312ccf7	2017-09-14 20:53:51 +0000	[diff] [blame]	2066	switch(Kind) {
				2067	case PseudoSourceValue::Stack:
				2068	case PseudoSourceValue::FixedStack:
Matt Arsenault	0da6350	2018-08-31 05:49:54 +0000	[diff] [blame]	2069	return AMDGPUAS::PRIVATE_ADDRESS;
Jan Sjodin	312ccf7	2017-09-14 20:53:51 +0000	[diff] [blame]	2070	case PseudoSourceValue::ConstantPool:
				2071	case PseudoSourceValue::GOT:
				2072	case PseudoSourceValue::JumpTable:
				2073	case PseudoSourceValue::GlobalValueCallEntry:
				2074	case PseudoSourceValue::ExternalSymbolCallEntry:
				2075	case PseudoSourceValue::TargetCustom:
Matt Arsenault	0da6350	2018-08-31 05:49:54 +0000	[diff] [blame]	2076	return AMDGPUAS::CONSTANT_ADDRESS;
Jan Sjodin	312ccf7	2017-09-14 20:53:51 +0000	[diff] [blame]	2077	}
Matt Arsenault	0da6350	2018-08-31 05:49:54 +0000	[diff] [blame]	2078	return AMDGPUAS::FLAT_ADDRESS;
Jan Sjodin	312ccf7	2017-09-14 20:53:51 +0000	[diff] [blame]	2079	}
				2080
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2081	static void removeModOperands(MachineInstr &MI) {
				2082	unsigned Opc = MI.getOpcode();
				2083	int Src0ModIdx = AMDGPU::getNamedOperandIdx(Opc,
				2084	AMDGPU::OpName::src0_modifiers);
				2085	int Src1ModIdx = AMDGPU::getNamedOperandIdx(Opc,
				2086	AMDGPU::OpName::src1_modifiers);
				2087	int Src2ModIdx = AMDGPU::getNamedOperandIdx(Opc,
				2088	AMDGPU::OpName::src2_modifiers);
				2089
				2090	MI.RemoveOperand(Src2ModIdx);
				2091	MI.RemoveOperand(Src1ModIdx);
				2092	MI.RemoveOperand(Src0ModIdx);
				2093	}
				2094
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2095	bool SIInstrInfo::FoldImmediate(MachineInstr &UseMI, MachineInstr &DefMI,
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2096	unsigned Reg, MachineRegisterInfo *MRI) const {
				2097	if (!MRI->hasOneNonDBGUse(Reg))
				2098	return false;
				2099
Nicolai Haehnle	39980da	2017-11-28 08:41:50 +0000	[diff] [blame]	2100	switch (DefMI.getOpcode()) {
				2101	default:
				2102	return false;
				2103	case AMDGPU::S_MOV_B64:
				2104	// TODO: We could fold 64-bit immediates, but this get compilicated
				2105	// when there are sub-registers.
				2106	return false;
				2107
				2108	case AMDGPU::V_MOV_B32_e32:
				2109	case AMDGPU::S_MOV_B32:
				2110	break;
				2111	}
				2112
				2113	const MachineOperand *ImmOp = getNamedOperand(DefMI, AMDGPU::OpName::src0);
				2114	assert(ImmOp);
				2115	// FIXME: We could handle FrameIndex values here.
				2116	if (!ImmOp->isImm())
				2117	return false;
				2118
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2119	unsigned Opc = UseMI.getOpcode();
Tom Stellard	2add8a1	2016-09-06 20:00:26 +0000	[diff] [blame]	2120	if (Opc == AMDGPU::COPY) {
				2121	bool isVGPRCopy = RI.isVGPR(*MRI, UseMI.getOperand(0).getReg());
Tom Stellard	2add8a1	2016-09-06 20:00:26 +0000	[diff] [blame]	2122	unsigned NewOpc = isVGPRCopy ? AMDGPU::V_MOV_B32_e32 : AMDGPU::S_MOV_B32;
Tom Stellard	2add8a1	2016-09-06 20:00:26 +0000	[diff] [blame]	2123	UseMI.setDesc(get(NewOpc));
				2124	UseMI.getOperand(1).ChangeToImmediate(ImmOp->getImm());
				2125	UseMI.addImplicitDefUseOperands(*UseMI.getParent()->getParent());
				2126	return true;
				2127	}
				2128
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2129	if (Opc == AMDGPU::V_MAD_F32 \|\| Opc == AMDGPU::V_MAC_F32_e64 \|\|
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2130	Opc == AMDGPU::V_MAD_F16 \|\| Opc == AMDGPU::V_MAC_F16_e64 \|\|
				2131	Opc == AMDGPU::V_FMA_F32 \|\| Opc == AMDGPU::V_FMAC_F32_e64 \|\|
				2132	Opc == AMDGPU::V_FMA_F16 \|\| Opc == AMDGPU::V_FMAC_F16_e64) {
Matt Arsenault	2ed2193	2017-02-27 20:21:31 +0000	[diff] [blame]	2133	// Don't fold if we are using source or output modifiers. The new VOP2
				2134	// instructions don't have them.
				2135	if (hasAnyModifiersSet(UseMI))
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2136	return false;
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2137
Matt Arsenault	3d1c1de	2016-04-14 21:58:24 +0000	[diff] [blame]	2138	// If this is a free constant, there's no reason to do this.
				2139	// TODO: We could fold this here instead of letting SIFoldOperands do it
				2140	// later.
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2141	MachineOperand *Src0 = getNamedOperand(UseMI, AMDGPU::OpName::src0);
				2142
				2143	// Any src operand can be used for the legality check.
Nicolai Haehnle	39980da	2017-11-28 08:41:50 +0000	[diff] [blame]	2144	if (isInlineConstant(UseMI, Src0, ImmOp))
Matt Arsenault	3d1c1de	2016-04-14 21:58:24 +0000	[diff] [blame]	2145	return false;
				2146
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2147	bool IsF32 = Opc == AMDGPU::V_MAD_F32 \|\| Opc == AMDGPU::V_MAC_F32_e64 \|\|
				2148	Opc == AMDGPU::V_FMA_F32 \|\| Opc == AMDGPU::V_FMAC_F32_e64;
				2149	bool IsFMA = Opc == AMDGPU::V_FMA_F32 \|\| Opc == AMDGPU::V_FMAC_F32_e64 \|\|
				2150	Opc == AMDGPU::V_FMA_F16 \|\| Opc == AMDGPU::V_FMAC_F16_e64;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2151	MachineOperand *Src1 = getNamedOperand(UseMI, AMDGPU::OpName::src1);
				2152	MachineOperand *Src2 = getNamedOperand(UseMI, AMDGPU::OpName::src2);
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2153
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2154	// Multiplied part is the constant: Use v_madmk_{f16, f32}.
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2155	// We should only expect these to be on src0 due to canonicalizations.
				2156	if (Src0->isReg() && Src0->getReg() == Reg) {
Matt Arsenault	a266bd8	2016-03-02 04:05:14 +0000	[diff] [blame]	2157	if (!Src1->isReg() \|\| RI.isSGPRClass(MRI->getRegClass(Src1->getReg())))
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2158	return false;
				2159
Matt Arsenault	a266bd8	2016-03-02 04:05:14 +0000	[diff] [blame]	2160	if (!Src2->isReg() \|\| RI.isSGPRClass(MRI->getRegClass(Src2->getReg())))
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2161	return false;
				2162
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2163	unsigned NewOpc =
				2164	IsFMA ? (IsF32 ? AMDGPU::V_FMAMK_F32 : AMDGPU::V_FMAMK_F16)
				2165	: (IsF32 ? AMDGPU::V_MADMK_F32 : AMDGPU::V_MADMK_F16);
				2166	if (pseudoToMCOpcode(NewOpc) == -1)
				2167	return false;
				2168
Nikolay Haustov	6560781	2016-03-11 09:27:25 +0000	[diff] [blame]	2169	// We need to swap operands 0 and 1 since madmk constant is at operand 1.
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2170
Nicolai Haehnle	39980da	2017-11-28 08:41:50 +0000	[diff] [blame]	2171	const int64_t Imm = ImmOp->getImm();
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2172
				2173	// FIXME: This would be a lot easier if we could return a new instruction
				2174	// instead of having to modify in place.
				2175
				2176	// Remove these first since they are at the end.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2177	UseMI.RemoveOperand(
				2178	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::omod));
				2179	UseMI.RemoveOperand(
				2180	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::clamp));
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2181
				2182	unsigned Src1Reg = Src1->getReg();
				2183	unsigned Src1SubReg = Src1->getSubReg();
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2184	Src0->setReg(Src1Reg);
				2185	Src0->setSubReg(Src1SubReg);
Matt Arsenault	5e10016	2015-04-24 01:57:58 +0000	[diff] [blame]	2186	Src0->setIsKill(Src1->isKill());
				2187
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2188	if (Opc == AMDGPU::V_MAC_F32_e64 \|\|
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2189	Opc == AMDGPU::V_MAC_F16_e64 \|\|
				2190	Opc == AMDGPU::V_FMAC_F32_e64 \|\|
				2191	Opc == AMDGPU::V_FMAC_F16_e64)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2192	UseMI.untieRegOperand(
				2193	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src2));
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2194
Nikolay Haustov	6560781	2016-03-11 09:27:25 +0000	[diff] [blame]	2195	Src1->ChangeToImmediate(Imm);
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2196
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2197	removeModOperands(UseMI);
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2198	UseMI.setDesc(get(NewOpc));
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2199
				2200	bool DeleteDef = MRI->hasOneNonDBGUse(Reg);
				2201	if (DeleteDef)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2202	DefMI.eraseFromParent();
Matt Arsenault	f078330	2015-02-21 21:29:10 +0000	[diff] [blame]	2203
				2204	return true;
				2205	}
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2206
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2207	// Added part is the constant: Use v_madak_{f16, f32}.
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2208	if (Src2->isReg() && Src2->getReg() == Reg) {
				2209	// Not allowed to use constant bus for another operand.
				2210	// We can however allow an inline immediate as src0.
Alexander Timofeev	20cbe6f	2018-09-10 16:42:49 +0000	[diff] [blame]	2211	bool Src0Inlined = false;
				2212	if (Src0->isReg()) {
				2213	// Try to inline constant if possible.
				2214	// If the Def moves immediate and the use is single
				2215	// We are saving VGPR here.
				2216	MachineInstr *Def = MRI->getUniqueVRegDef(Src0->getReg());
				2217	if (Def && Def->isMoveImmediate() &&
				2218	isInlineConstant(Def->getOperand(1)) &&
				2219	MRI->hasOneUse(Src0->getReg())) {
				2220	Src0->ChangeToImmediate(Def->getOperand(1).getImm());
				2221	Src0Inlined = true;
				2222	} else if ((RI.isPhysicalRegister(Src0->getReg()) &&
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	2223	(ST.getConstantBusLimit(Opc) <= 1 &&
				2224	RI.isSGPRClass(RI.getPhysRegClass(Src0->getReg())))) \|\|
Alexander Timofeev	20cbe6f	2018-09-10 16:42:49 +0000	[diff] [blame]	2225	(RI.isVirtualRegister(Src0->getReg()) &&
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	2226	(ST.getConstantBusLimit(Opc) <= 1 &&
				2227	RI.isSGPRClass(MRI->getRegClass(Src0->getReg())))))
Alexander Timofeev	20cbe6f	2018-09-10 16:42:49 +0000	[diff] [blame]	2228	return false;
				2229	// VGPR is okay as Src0 - fallthrough
				2230	}
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2231
Alexander Timofeev	20cbe6f	2018-09-10 16:42:49 +0000	[diff] [blame]	2232	if (Src1->isReg() && !Src0Inlined ) {
				2233	// We have one slot for inlinable constant so far - try to fill it
				2234	MachineInstr *Def = MRI->getUniqueVRegDef(Src1->getReg());
				2235	if (Def && Def->isMoveImmediate() &&
				2236	isInlineConstant(Def->getOperand(1)) &&
				2237	MRI->hasOneUse(Src1->getReg()) &&
				2238	commuteInstruction(UseMI)) {
				2239	Src0->ChangeToImmediate(Def->getOperand(1).getImm());
				2240	} else if ((RI.isPhysicalRegister(Src1->getReg()) &&
				2241	RI.isSGPRClass(RI.getPhysRegClass(Src1->getReg()))) \|\|
				2242	(RI.isVirtualRegister(Src1->getReg()) &&
				2243	RI.isSGPRClass(MRI->getRegClass(Src1->getReg()))))
				2244	return false;
				2245	// VGPR is okay as Src1 - fallthrough
				2246	}
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2247
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2248	unsigned NewOpc =
				2249	IsFMA ? (IsF32 ? AMDGPU::V_FMAAK_F32 : AMDGPU::V_FMAAK_F16)
				2250	: (IsF32 ? AMDGPU::V_MADAK_F32 : AMDGPU::V_MADAK_F16);
				2251	if (pseudoToMCOpcode(NewOpc) == -1)
				2252	return false;
				2253
Nicolai Haehnle	39980da	2017-11-28 08:41:50 +0000	[diff] [blame]	2254	const int64_t Imm = ImmOp->getImm();
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2255
				2256	// FIXME: This would be a lot easier if we could return a new instruction
				2257	// instead of having to modify in place.
				2258
				2259	// Remove these first since they are at the end.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2260	UseMI.RemoveOperand(
				2261	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::omod));
				2262	UseMI.RemoveOperand(
				2263	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::clamp));
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2264
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2265	if (Opc == AMDGPU::V_MAC_F32_e64 \|\|
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2266	Opc == AMDGPU::V_MAC_F16_e64 \|\|
				2267	Opc == AMDGPU::V_FMAC_F32_e64 \|\|
				2268	Opc == AMDGPU::V_FMAC_F16_e64)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2269	UseMI.untieRegOperand(
				2270	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src2));
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2271
				2272	// ChangingToImmediate adds Src2 back to the instruction.
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2273	Src2->ChangeToImmediate(Imm);
				2274
				2275	// These come before src2.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2276	removeModOperands(UseMI);
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2277	UseMI.setDesc(get(NewOpc));
Alexander Timofeev	ba447ba	2019-05-26 20:33:26 +0000	[diff] [blame]	2278	// It might happen that UseMI was commuted
				2279	// and we now have SGPR as SRC1. If so 2 inlined
				2280	// constant and SGPR are illegal.
				2281	legalizeOperands(UseMI);
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2282
				2283	bool DeleteDef = MRI->hasOneNonDBGUse(Reg);
				2284	if (DeleteDef)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2285	DefMI.eraseFromParent();
Matt Arsenault	0325d3d	2015-02-21 21:29:07 +0000	[diff] [blame]	2286
				2287	return true;
				2288	}
				2289	}
				2290
				2291	return false;
				2292	}
				2293
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2294	static bool offsetsDoNotOverlap(int WidthA, int OffsetA,
				2295	int WidthB, int OffsetB) {
				2296	int LowOffset = OffsetA < OffsetB ? OffsetA : OffsetB;
				2297	int HighOffset = OffsetA < OffsetB ? OffsetB : OffsetA;
				2298	int LowWidth = (LowOffset == OffsetA) ? WidthA : WidthB;
				2299	return LowOffset + LowWidth <= HighOffset;
				2300	}
				2301
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	2302	bool SIInstrInfo::checkInstOffsetsDoNotOverlap(const MachineInstr &MIa,
				2303	const MachineInstr &MIb) const {
				2304	const MachineOperand BaseOp0, BaseOp1;
Chad Rosier	c27a18f	2016-03-09 16:00:35 +0000	[diff] [blame]	2305	int64_t Offset0, Offset1;
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2306
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	2307	if (getMemOperandWithOffset(MIa, BaseOp0, Offset0, &RI) &&
				2308	getMemOperandWithOffset(MIb, BaseOp1, Offset1, &RI)) {
				2309	if (!BaseOp0->isIdenticalTo(*BaseOp1))
				2310	return false;
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	2311
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2312	if (!MIa.hasOneMemOperand() \|\| !MIb.hasOneMemOperand()) {
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	2313	// FIXME: Handle ds_read2 / ds_write2.
				2314	return false;
				2315	}
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2316	unsigned Width0 = (*MIa.memoperands_begin())->getSize();
				2317	unsigned Width1 = (*MIb.memoperands_begin())->getSize();
Francis Visoiu Mistrih	d7eebd6	2018-11-28 12:00:20 +0000	[diff] [blame]	2318	if (offsetsDoNotOverlap(Width0, Offset0, Width1, Offset1)) {
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2319	return true;
				2320	}
				2321	}
				2322
				2323	return false;
				2324	}
				2325
Bjorn Pettersson	238c9d630	2019-04-19 09:08:38 +0000	[diff] [blame]	2326	bool SIInstrInfo::areMemAccessesTriviallyDisjoint(const MachineInstr &MIa,
				2327	const MachineInstr &MIb,
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2328	AliasAnalysis *AA) const {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2329	assert((MIa.mayLoad() \|\| MIa.mayStore()) &&
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2330	"MIa must load from or modify a memory location");
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2331	assert((MIb.mayLoad() \|\| MIb.mayStore()) &&
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2332	"MIb must load from or modify a memory location");
				2333
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2334	if (MIa.hasUnmodeledSideEffects() \|\| MIb.hasUnmodeledSideEffects())
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2335	return false;
				2336
				2337	// XXX - Can we relax this between address spaces?
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2338	if (MIa.hasOrderedMemoryRef() \|\| MIb.hasOrderedMemoryRef())
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2339	return false;
				2340
				2341	// TODO: Should we check the address space from the MachineMemOperand? That
				2342	// would allow us to distinguish objects we know don't alias based on the
Benjamin Kramer	df005cb	2015-08-08 18:27:36 +0000	[diff] [blame]	2343	// underlying address space, even if it was lowered to a different one,
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2344	// e.g. private accesses lowered to use MUBUF instructions on a scratch
				2345	// buffer.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2346	if (isDS(MIa)) {
				2347	if (isDS(MIb))
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2348	return checkInstOffsetsDoNotOverlap(MIa, MIb);
				2349
Matt Arsenault	9608a289	2017-07-29 01:26:21 +0000	[diff] [blame]	2350	return !isFLAT(MIb) \|\| isSegmentSpecificFLAT(MIb);
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2351	}
				2352
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2353	if (isMUBUF(MIa) \|\| isMTBUF(MIa)) {
				2354	if (isMUBUF(MIb) \|\| isMTBUF(MIb))
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2355	return checkInstOffsetsDoNotOverlap(MIa, MIb);
				2356
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2357	return !isFLAT(MIb) && !isSMRD(MIb);
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2358	}
				2359
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2360	if (isSMRD(MIa)) {
				2361	if (isSMRD(MIb))
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2362	return checkInstOffsetsDoNotOverlap(MIa, MIb);
				2363
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2364	return !isFLAT(MIb) && !isMUBUF(MIa) && !isMTBUF(MIa);
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2365	}
				2366
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2367	if (isFLAT(MIa)) {
				2368	if (isFLAT(MIb))
Matt Arsenault	c09cc3c	2014-11-19 00:01:31 +0000	[diff] [blame]	2369	return checkInstOffsetsDoNotOverlap(MIa, MIb);
				2370
				2371	return false;
				2372	}
				2373
				2374	return false;
				2375	}
				2376
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2377	static int64_t getFoldableImm(const MachineOperand* MO) {
				2378	if (!MO->isReg())
				2379	return false;
				2380	const MachineFunction *MF = MO->getParent()->getParent()->getParent();
				2381	const MachineRegisterInfo &MRI = MF->getRegInfo();
				2382	auto Def = MRI.getUniqueVRegDef(MO->getReg());
Matt Arsenault	c317287	2017-09-14 20:54:29 +0000	[diff] [blame]	2383	if (Def && Def->getOpcode() == AMDGPU::V_MOV_B32_e32 &&
				2384	Def->getOperand(1).isImm())
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2385	return Def->getOperand(1).getImm();
				2386	return AMDGPU::NoRegister;
				2387	}
				2388
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2389	MachineInstr *SIInstrInfo::convertToThreeAddress(MachineFunction::iterator &MBB,
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2390	MachineInstr &MI,
				2391	LiveVariables *LV) const {
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	2392	unsigned Opc = MI.getOpcode();
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2393	bool IsF16 = false;
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2394	bool IsFMA = Opc == AMDGPU::V_FMAC_F32_e32 \|\| Opc == AMDGPU::V_FMAC_F32_e64 \|\|
				2395	Opc == AMDGPU::V_FMAC_F16_e32 \|\| Opc == AMDGPU::V_FMAC_F16_e64;
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2396
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	2397	switch (Opc) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2398	default:
				2399	return nullptr;
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2400	case AMDGPU::V_MAC_F16_e64:
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2401	case AMDGPU::V_FMAC_F16_e64:
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2402	IsF16 = true;
Simon Pilgrim	0f5b350	2017-07-07 10:18:57 +0000	[diff] [blame]	2403	LLVM_FALLTHROUGH;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2404	case AMDGPU::V_MAC_F32_e64:
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	2405	case AMDGPU::V_FMAC_F32_e64:
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2406	break;
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2407	case AMDGPU::V_MAC_F16_e32:
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2408	case AMDGPU::V_FMAC_F16_e32:
Konstantin Zhuravlyov	f86e4b7	2016-11-13 07:01:11 +0000	[diff] [blame]	2409	IsF16 = true;
Simon Pilgrim	0f5b350	2017-07-07 10:18:57 +0000	[diff] [blame]	2410	LLVM_FALLTHROUGH;
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	2411	case AMDGPU::V_MAC_F32_e32:
				2412	case AMDGPU::V_FMAC_F32_e32: {
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2413	int Src0Idx = AMDGPU::getNamedOperandIdx(MI.getOpcode(),
				2414	AMDGPU::OpName::src0);
				2415	const MachineOperand *Src0 = &MI.getOperand(Src0Idx);
Matt Arsenault	fdcdd88	2017-09-21 00:45:59 +0000	[diff] [blame]	2416	if (!Src0->isReg() && !Src0->isImm())
				2417	return nullptr;
				2418
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2419	if (Src0->isImm() && !isInlineConstant(MI, Src0Idx, *Src0))
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2420	return nullptr;
Matt Arsenault	fdcdd88	2017-09-21 00:45:59 +0000	[diff] [blame]	2421
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2422	break;
				2423	}
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2424	}
				2425
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2426	const MachineOperand *Dst = getNamedOperand(MI, AMDGPU::OpName::vdst);
				2427	const MachineOperand *Src0 = getNamedOperand(MI, AMDGPU::OpName::src0);
Matt Arsenault	3cb9ff8	2017-03-11 05:40:40 +0000	[diff] [blame]	2428	const MachineOperand *Src0Mods =
				2429	getNamedOperand(MI, AMDGPU::OpName::src0_modifiers);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2430	const MachineOperand *Src1 = getNamedOperand(MI, AMDGPU::OpName::src1);
Matt Arsenault	3cb9ff8	2017-03-11 05:40:40 +0000	[diff] [blame]	2431	const MachineOperand *Src1Mods =
				2432	getNamedOperand(MI, AMDGPU::OpName::src1_modifiers);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2433	const MachineOperand *Src2 = getNamedOperand(MI, AMDGPU::OpName::src2);
Matt Arsenault	3cb9ff8	2017-03-11 05:40:40 +0000	[diff] [blame]	2434	const MachineOperand *Clamp = getNamedOperand(MI, AMDGPU::OpName::clamp);
				2435	const MachineOperand *Omod = getNamedOperand(MI, AMDGPU::OpName::omod);
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2436
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2437	if (!Src0Mods && !Src1Mods && !Clamp && !Omod &&
Matt Arsenault	c317287	2017-09-14 20:54:29 +0000	[diff] [blame]	2438	// If we have an SGPR input, we will violate the constant bus restriction.
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	2439	(ST.getConstantBusLimit(Opc) > 1 \|\|
				2440	!Src0->isReg() \|\|
				2441	!RI.isSGPRReg(MBB->getParent()->getRegInfo(), Src0->getReg()))) {
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2442	if (auto Imm = getFoldableImm(Src2)) {
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2443	unsigned NewOpc =
				2444	IsFMA ? (IsF16 ? AMDGPU::V_FMAAK_F16 : AMDGPU::V_FMAAK_F32)
				2445	: (IsF16 ? AMDGPU::V_MADAK_F16 : AMDGPU::V_MADAK_F32);
				2446	if (pseudoToMCOpcode(NewOpc) != -1)
				2447	return BuildMI(*MBB, MI, MI.getDebugLoc(), get(NewOpc))
				2448	.add(*Dst)
				2449	.add(*Src0)
				2450	.add(*Src1)
				2451	.addImm(Imm);
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2452	}
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2453	unsigned NewOpc =
				2454	IsFMA ? (IsF16 ? AMDGPU::V_FMAMK_F16 : AMDGPU::V_FMAMK_F32)
				2455	: (IsF16 ? AMDGPU::V_MADMK_F16 : AMDGPU::V_MADMK_F32);
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2456	if (auto Imm = getFoldableImm(Src1)) {
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2457	if (pseudoToMCOpcode(NewOpc) != -1)
				2458	return BuildMI(*MBB, MI, MI.getDebugLoc(), get(NewOpc))
				2459	.add(*Dst)
				2460	.add(*Src0)
				2461	.addImm(Imm)
				2462	.add(*Src2);
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2463	}
				2464	if (auto Imm = getFoldableImm(Src0)) {
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2465	if (pseudoToMCOpcode(NewOpc) != -1 &&
				2466	isOperandLegal(MI, AMDGPU::getNamedOperandIdx(NewOpc,
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2467	AMDGPU::OpName::src0), Src1))
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2468	return BuildMI(*MBB, MI, MI.getDebugLoc(), get(NewOpc))
Stanislav Mekhanoshin	710da42	2017-09-11 17:13:57 +0000	[diff] [blame]	2469	.add(*Dst)
				2470	.add(*Src1)
				2471	.addImm(Imm)
				2472	.add(*Src2);
				2473	}
				2474	}
				2475
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2476	unsigned NewOpc = IsFMA ? (IsF16 ? AMDGPU::V_FMA_F16 : AMDGPU::V_FMA_F32)
				2477	: (IsF16 ? AMDGPU::V_MAD_F16 : AMDGPU::V_MAD_F32);
				2478	if (pseudoToMCOpcode(NewOpc) == -1)
				2479	return nullptr;
				2480
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	2481	return BuildMI(*MBB, MI, MI.getDebugLoc(), get(NewOpc))
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	2482	.add(*Dst)
Matt Arsenault	3cb9ff8	2017-03-11 05:40:40 +0000	[diff] [blame]	2483	.addImm(Src0Mods ? Src0Mods->getImm() : 0)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	2484	.add(*Src0)
Matt Arsenault	3cb9ff8	2017-03-11 05:40:40 +0000	[diff] [blame]	2485	.addImm(Src1Mods ? Src1Mods->getImm() : 0)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	2486	.add(*Src1)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2487	.addImm(0) // Src mods
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	2488	.add(*Src2)
Matt Arsenault	3cb9ff8	2017-03-11 05:40:40 +0000	[diff] [blame]	2489	.addImm(Clamp ? Clamp->getImm() : 0)
				2490	.addImm(Omod ? Omod->getImm() : 0);
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	2491	}
				2492
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	2493	// It's not generally safe to move VALU instructions across these since it will
				2494	// start using the register as a base index rather than directly.
				2495	// XXX - Why isn't hasSideEffects sufficient for these?
				2496	static bool changesVGPRIndexingMode(const MachineInstr &MI) {
				2497	switch (MI.getOpcode()) {
				2498	case AMDGPU::S_SET_GPR_IDX_ON:
				2499	case AMDGPU::S_SET_GPR_IDX_MODE:
				2500	case AMDGPU::S_SET_GPR_IDX_OFF:
				2501	return true;
				2502	default:
				2503	return false;
				2504	}
				2505	}
				2506
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2507	bool SIInstrInfo::isSchedulingBoundary(const MachineInstr &MI,
Nicolai Haehnle	213e87f	2016-03-21 20:28:33 +0000	[diff] [blame]	2508	const MachineBasicBlock *MBB,
				2509	const MachineFunction &MF) const {
Matt Arsenault	95c7897	2016-07-09 01:13:51 +0000	[diff] [blame]	2510	// XXX - Do we want the SP check in the base implementation?
				2511
Nicolai Haehnle	213e87f	2016-03-21 20:28:33 +0000	[diff] [blame]	2512	// Target-independent instructions do not have an implicit-use of EXEC, even
				2513	// when they operate on VGPRs. Treating EXEC modifications as scheduling
				2514	// boundaries prevents incorrect movements of such instructions.
Matt Arsenault	95c7897	2016-07-09 01:13:51 +0000	[diff] [blame]	2515	return TargetInstrInfo::isSchedulingBoundary(MI, MBB, MF) \|\|
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	2516	MI.modifiesRegister(AMDGPU::EXEC, &RI) \|\|
Tom Stellard	8485fa0	2016-12-07 02:42:15 +0000	[diff] [blame]	2517	MI.getOpcode() == AMDGPU::S_SETREG_IMM32_B32 \|\|
				2518	MI.getOpcode() == AMDGPU::S_SETREG_B32 \|\|
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	2519	changesVGPRIndexingMode(MI);
Nicolai Haehnle	213e87f	2016-03-21 20:28:33 +0000	[diff] [blame]	2520	}
				2521
Marek Olsak	c5cec5e	2019-01-16 15:43:53 +0000	[diff] [blame]	2522	bool SIInstrInfo::isAlwaysGDS(uint16_t Opcode) const {
				2523	return Opcode == AMDGPU::DS_ORDERED_COUNT \|\|
				2524	Opcode == AMDGPU::DS_GWS_INIT \|\|
				2525	Opcode == AMDGPU::DS_GWS_SEMA_V \|\|
				2526	Opcode == AMDGPU::DS_GWS_SEMA_BR \|\|
				2527	Opcode == AMDGPU::DS_GWS_SEMA_P \|\|
				2528	Opcode == AMDGPU::DS_GWS_SEMA_RELEASE_ALL \|\|
				2529	Opcode == AMDGPU::DS_GWS_BARRIER;
				2530	}
				2531
Nicolai Haehnle	7f0d05d	2018-07-30 09:23:59 +0000	[diff] [blame]	2532	bool SIInstrInfo::hasUnwantedEffectsWhenEXECEmpty(const MachineInstr &MI) const {
				2533	unsigned Opcode = MI.getOpcode();
				2534
				2535	if (MI.mayStore() && isSMRD(MI))
				2536	return true; // scalar store or atomic
				2537
Matt Arsenault	b6cfa12	2019-06-06 22:51:51 +0000	[diff] [blame]	2538	// This will terminate the function when other lanes may need to continue.
				2539	if (MI.isReturn())
				2540	return true;
				2541
Nicolai Haehnle	7f0d05d	2018-07-30 09:23:59 +0000	[diff] [blame]	2542	// These instructions cause shader I/O that may cause hardware lockups
				2543	// when executed with an empty EXEC mask.
				2544	//
				2545	// Note: exp with VM = DONE = 0 is automatically skipped by hardware when
				2546	// EXEC = 0, but checking for that case here seems not worth it
				2547	// given the typical code patterns.
				2548	if (Opcode == AMDGPU::S_SENDMSG \|\| Opcode == AMDGPU::S_SENDMSGHALT \|\|
Marek Olsak	c5cec5e	2019-01-16 15:43:53 +0000	[diff] [blame]	2549	Opcode == AMDGPU::EXP \|\| Opcode == AMDGPU::EXP_DONE \|\|
Matt Arsenault	ddd2c9a	2019-06-07 23:02:52 +0000	[diff] [blame]	2550	Opcode == AMDGPU::DS_ORDERED_COUNT \|\| Opcode == AMDGPU::S_TRAP)
Nicolai Haehnle	7f0d05d	2018-07-30 09:23:59 +0000	[diff] [blame]	2551	return true;
				2552
Matt Arsenault	6dd08e3	2019-05-20 22:04:42 +0000	[diff] [blame]	2553	if (MI.isCall() \|\| MI.isInlineAsm())
Nicolai Haehnle	7f0d05d	2018-07-30 09:23:59 +0000	[diff] [blame]	2554	return true; // conservative assumption
				2555
				2556	// These are like SALU instructions in terms of effects, so it's questionable
				2557	// whether we should return true for those.
				2558	//
				2559	// However, executing them with EXEC = 0 causes them to operate on undefined
				2560	// data, which we avoid by returning true here.
				2561	if (Opcode == AMDGPU::V_READFIRSTLANE_B32 \|\| Opcode == AMDGPU::V_READLANE_B32)
				2562	return true;
				2563
				2564	return false;
				2565	}
				2566
Matt Arsenault	a353fd5	2019-03-28 14:01:39 +0000	[diff] [blame]	2567	bool SIInstrInfo::mayReadEXEC(const MachineRegisterInfo &MRI,
				2568	const MachineInstr &MI) const {
				2569	if (MI.isMetaInstruction())
				2570	return false;
				2571
				2572	// This won't read exec if this is an SGPR->SGPR copy.
				2573	if (MI.isCopyLike()) {
				2574	if (!RI.isSGPRReg(MRI, MI.getOperand(0).getReg()))
				2575	return true;
				2576
				2577	// Make sure this isn't copying exec as a normal operand
				2578	return MI.readsRegister(AMDGPU::EXEC, &RI);
				2579	}
				2580
Matt Arsenault	2cba91b	2019-05-21 23:23:16 +0000	[diff] [blame]	2581	// Make a conservative assumption about the callee.
				2582	if (MI.isCall())
				2583	return true;
				2584
Matt Arsenault	a353fd5	2019-03-28 14:01:39 +0000	[diff] [blame]	2585	// Be conservative with any unhandled generic opcodes.
				2586	if (!isTargetSpecificOpcode(MI.getOpcode()))
				2587	return true;
				2588
				2589	return !isSALU(MI) \|\| MI.readsRegister(AMDGPU::EXEC, &RI);
				2590	}
				2591
Matt Arsenault	d7bdcc4	2014-03-31 19:54:27 +0000	[diff] [blame]	2592	bool SIInstrInfo::isInlineConstant(const APInt &Imm) const {
Matt Arsenault	26faed3	2016-12-05 22:26:17 +0000	[diff] [blame]	2593	switch (Imm.getBitWidth()) {
Stanislav Mekhanoshin	05791d9	2019-05-14 16:18:00 +0000	[diff] [blame]	2594	case 1: // This likely will be a condition code mask.
				2595	return true;
				2596
Matt Arsenault	26faed3	2016-12-05 22:26:17 +0000	[diff] [blame]	2597	case 32:
				2598	return AMDGPU::isInlinableLiteral32(Imm.getSExtValue(),
				2599	ST.hasInv2PiInlineImm());
				2600	case 64:
				2601	return AMDGPU::isInlinableLiteral64(Imm.getSExtValue(),
				2602	ST.hasInv2PiInlineImm());
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2603	case 16:
Matt Arsenault	9dba9bd	2017-02-02 02:27:04 +0000	[diff] [blame]	2604	return ST.has16BitInsts() &&
				2605	AMDGPU::isInlinableLiteral16(Imm.getSExtValue(),
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2606	ST.hasInv2PiInlineImm());
Matt Arsenault	26faed3	2016-12-05 22:26:17 +0000	[diff] [blame]	2607	default:
				2608	llvm_unreachable("invalid bitwidth");
Matt Arsenault	303011a	2014-12-17 21:04:08 +0000	[diff] [blame]	2609	}
Matt Arsenault	d7bdcc4	2014-03-31 19:54:27 +0000	[diff] [blame]	2610	}
				2611
Matt Arsenault	11a4d67	2015-02-13 19:05:03 +0000	[diff] [blame]	2612	bool SIInstrInfo::isInlineConstant(const MachineOperand &MO,
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2613	uint8_t OperandType) const {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	2614	if (!MO.isImm() \|\|
				2615	OperandType < AMDGPU::OPERAND_SRC_FIRST \|\|
				2616	OperandType > AMDGPU::OPERAND_SRC_LAST)
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2617	return false;
				2618
				2619	// MachineOperand provides no way to tell the true operand size, since it only
				2620	// records a 64-bit value. We need to know the size to determine if a 32-bit
				2621	// floating point immediate bit pattern is legal for an integer immediate. It
				2622	// would be for any 32-bit integer operand, but would not be for a 64-bit one.
				2623
				2624	int64_t Imm = MO.getImm();
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	2625	switch (OperandType) {
				2626	case AMDGPU::OPERAND_REG_IMM_INT32:
				2627	case AMDGPU::OPERAND_REG_IMM_FP32:
				2628	case AMDGPU::OPERAND_REG_INLINE_C_INT32:
				2629	case AMDGPU::OPERAND_REG_INLINE_C_FP32: {
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2630	int32_t Trunc = static_cast<int32_t>(Imm);
Nicolai Haehnle	283b995	2018-08-29 07:46:09 +0000	[diff] [blame]	2631	return AMDGPU::isInlinableLiteral32(Trunc, ST.hasInv2PiInlineImm());
Matt Arsenault	11a4d67	2015-02-13 19:05:03 +0000	[diff] [blame]	2632	}
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	2633	case AMDGPU::OPERAND_REG_IMM_INT64:
				2634	case AMDGPU::OPERAND_REG_IMM_FP64:
				2635	case AMDGPU::OPERAND_REG_INLINE_C_INT64:
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	2636	case AMDGPU::OPERAND_REG_INLINE_C_FP64:
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2637	return AMDGPU::isInlinableLiteral64(MO.getImm(),
				2638	ST.hasInv2PiInlineImm());
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	2639	case AMDGPU::OPERAND_REG_IMM_INT16:
				2640	case AMDGPU::OPERAND_REG_IMM_FP16:
				2641	case AMDGPU::OPERAND_REG_INLINE_C_INT16:
				2642	case AMDGPU::OPERAND_REG_INLINE_C_FP16: {
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2643	if (isInt<16>(Imm) \|\| isUInt<16>(Imm)) {
Matt Arsenault	9dba9bd	2017-02-02 02:27:04 +0000	[diff] [blame]	2644	// A few special case instructions have 16-bit operands on subtargets
				2645	// where 16-bit instructions are not legal.
				2646	// TODO: Do the 32-bit immediates work? We shouldn't really need to handle
				2647	// constants in these cases
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2648	int16_t Trunc = static_cast<int16_t>(Imm);
Matt Arsenault	9dba9bd	2017-02-02 02:27:04 +0000	[diff] [blame]	2649	return ST.has16BitInsts() &&
				2650	AMDGPU::isInlinableLiteral16(Trunc, ST.hasInv2PiInlineImm());
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2651	}
Matt Arsenault	d7bdcc4	2014-03-31 19:54:27 +0000	[diff] [blame]	2652
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2653	return false;
				2654	}
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	2655	case AMDGPU::OPERAND_REG_IMM_V2INT16:
				2656	case AMDGPU::OPERAND_REG_IMM_V2FP16:
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	2657	case AMDGPU::OPERAND_REG_INLINE_C_V2INT16:
				2658	case AMDGPU::OPERAND_REG_INLINE_C_V2FP16: {
				2659	uint32_t Trunc = static_cast<uint32_t>(Imm);
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	2660	return AMDGPU::isInlinableLiteralV216(Trunc, ST.hasInv2PiInlineImm());
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	2661	}
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2662	default:
				2663	llvm_unreachable("invalid bitwidth");
				2664	}
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	2665	}
				2666
Matt Arsenault	c1ebd82	2016-08-13 01:43:54 +0000	[diff] [blame]	2667	bool SIInstrInfo::isLiteralConstantLike(const MachineOperand &MO,
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2668	const MCOperandInfo &OpInfo) const {
Matt Arsenault	c1ebd82	2016-08-13 01:43:54 +0000	[diff] [blame]	2669	switch (MO.getType()) {
				2670	case MachineOperand::MO_Register:
				2671	return false;
				2672	case MachineOperand::MO_Immediate:
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2673	return !isInlineConstant(MO, OpInfo);
Matt Arsenault	c1ebd82	2016-08-13 01:43:54 +0000	[diff] [blame]	2674	case MachineOperand::MO_FrameIndex:
				2675	case MachineOperand::MO_MachineBasicBlock:
				2676	case MachineOperand::MO_ExternalSymbol:
				2677	case MachineOperand::MO_GlobalAddress:
				2678	case MachineOperand::MO_MCSymbol:
				2679	return true;
				2680	default:
				2681	llvm_unreachable("unexpected operand type");
				2682	}
				2683	}
				2684
Matt Arsenault	becb140	2014-06-23 18:28:31 +0000	[diff] [blame]	2685	static bool compareMachineOp(const MachineOperand &Op0,
				2686	const MachineOperand &Op1) {
				2687	if (Op0.getType() != Op1.getType())
				2688	return false;
				2689
				2690	switch (Op0.getType()) {
				2691	case MachineOperand::MO_Register:
				2692	return Op0.getReg() == Op1.getReg();
				2693	case MachineOperand::MO_Immediate:
				2694	return Op0.getImm() == Op1.getImm();
Matt Arsenault	becb140	2014-06-23 18:28:31 +0000	[diff] [blame]	2695	default:
				2696	llvm_unreachable("Didn't expect to be comparing these operand types");
				2697	}
				2698	}
				2699
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2700	bool SIInstrInfo::isImmOperandLegal(const MachineInstr &MI, unsigned OpNo,
				2701	const MachineOperand &MO) const {
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	2702	const MCInstrDesc &InstDesc = MI.getDesc();
				2703	const MCOperandInfo &OpInfo = InstDesc.OpInfo[OpNo];
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	2704
Tom Stellard	fb77f00	2015-01-13 22:59:41 +0000	[diff] [blame]	2705	assert(MO.isImm() \|\| MO.isTargetIndex() \|\| MO.isFI());
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	2706
				2707	if (OpInfo.OperandType == MCOI::OPERAND_IMMEDIATE)
				2708	return true;
				2709
				2710	if (OpInfo.RegClass < 0)
				2711	return false;
				2712
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2713	if (MO.isImm() && isInlineConstant(MO, OpInfo))
				2714	return RI.opCanUseInlineConstant(OpInfo.OperandType);
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2715
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	2716	if (!RI.opCanUseLiteralConstant(OpInfo.OperandType))
				2717	return false;
				2718
				2719	if (!isVOP3(MI) \|\| !AMDGPU::isSISrcOperand(InstDesc, OpNo))
				2720	return true;
				2721
				2722	const MachineFunction *MF = MI.getParent()->getParent();
				2723	const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();
				2724	return ST.hasVOP3Literal();
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	2725	}
				2726
Tom Stellard	86d12eb	2014-08-01 00:32:28 +0000	[diff] [blame]	2727	bool SIInstrInfo::hasVALU32BitEncoding(unsigned Opcode) const {
Marek Olsak	a93603d	2015-01-15 18:42:51 +0000	[diff] [blame]	2728	int Op32 = AMDGPU::getVOPe32(Opcode);
				2729	if (Op32 == -1)
				2730	return false;
				2731
				2732	return pseudoToMCOpcode(Op32) != -1;
Tom Stellard	86d12eb	2014-08-01 00:32:28 +0000	[diff] [blame]	2733	}
				2734
Tom Stellard	b4a313a	2014-08-01 00:32:39 +0000	[diff] [blame]	2735	bool SIInstrInfo::hasModifiers(unsigned Opcode) const {
				2736	// The src0_modifier operand is present on all instructions
				2737	// that have modifiers.
				2738
				2739	return AMDGPU::getNamedOperandIdx(Opcode,
				2740	AMDGPU::OpName::src0_modifiers) != -1;
				2741	}
				2742
Matt Arsenault	ace5b76	2014-10-17 18:00:43 +0000	[diff] [blame]	2743	bool SIInstrInfo::hasModifiersSet(const MachineInstr &MI,
				2744	unsigned OpName) const {
				2745	const MachineOperand *Mods = getNamedOperand(MI, OpName);
				2746	return Mods && Mods->getImm();
				2747	}
				2748
Matt Arsenault	2ed2193	2017-02-27 20:21:31 +0000	[diff] [blame]	2749	bool SIInstrInfo::hasAnyModifiersSet(const MachineInstr &MI) const {
				2750	return hasModifiersSet(MI, AMDGPU::OpName::src0_modifiers) \|\|
				2751	hasModifiersSet(MI, AMDGPU::OpName::src1_modifiers) \|\|
				2752	hasModifiersSet(MI, AMDGPU::OpName::src2_modifiers) \|\|
				2753	hasModifiersSet(MI, AMDGPU::OpName::clamp) \|\|
				2754	hasModifiersSet(MI, AMDGPU::OpName::omod);
				2755	}
				2756
Matt Arsenault	35b1902	2018-08-28 18:22:34 +0000	[diff] [blame]	2757	bool SIInstrInfo::canShrink(const MachineInstr &MI,
				2758	const MachineRegisterInfo &MRI) const {
				2759	const MachineOperand *Src2 = getNamedOperand(MI, AMDGPU::OpName::src2);
				2760	// Can't shrink instruction with three operands.
				2761	// FIXME: v_cndmask_b32 has 3 operands and is shrinkable, but we need to add
				2762	// a special case for it. It can only be shrunk if the third operand
Tim Renouf	2e94f6e	2019-03-18 19:25:39 +0000	[diff] [blame]	2763	// is vcc, and src0_modifiers and src1_modifiers are not set.
				2764	// We should handle this the same way we handle vopc, by addding
Matt Arsenault	35b1902	2018-08-28 18:22:34 +0000	[diff] [blame]	2765	// a register allocation hint pre-regalloc and then do the shrinking
				2766	// post-regalloc.
				2767	if (Src2) {
				2768	switch (MI.getOpcode()) {
				2769	default: return false;
				2770
				2771	case AMDGPU::V_ADDC_U32_e64:
				2772	case AMDGPU::V_SUBB_U32_e64:
				2773	case AMDGPU::V_SUBBREV_U32_e64: {
				2774	const MachineOperand *Src1
				2775	= getNamedOperand(MI, AMDGPU::OpName::src1);
				2776	if (!Src1->isReg() \|\| !RI.isVGPR(MRI, Src1->getReg()))
				2777	return false;
				2778	// Additional verification is needed for sdst/src2.
				2779	return true;
				2780	}
				2781	case AMDGPU::V_MAC_F32_e64:
				2782	case AMDGPU::V_MAC_F16_e64:
				2783	case AMDGPU::V_FMAC_F32_e64:
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	2784	case AMDGPU::V_FMAC_F16_e64:
Matt Arsenault	35b1902	2018-08-28 18:22:34 +0000	[diff] [blame]	2785	if (!Src2->isReg() \|\| !RI.isVGPR(MRI, Src2->getReg()) \|\|
				2786	hasModifiersSet(MI, AMDGPU::OpName::src2_modifiers))
				2787	return false;
				2788	break;
				2789
				2790	case AMDGPU::V_CNDMASK_B32_e64:
				2791	break;
				2792	}
				2793	}
				2794
				2795	const MachineOperand *Src1 = getNamedOperand(MI, AMDGPU::OpName::src1);
				2796	if (Src1 && (!Src1->isReg() \|\| !RI.isVGPR(MRI, Src1->getReg()) \|\|
				2797	hasModifiersSet(MI, AMDGPU::OpName::src1_modifiers)))
				2798	return false;
				2799
				2800	// We don't need to check src0, all input types are legal, so just make sure
				2801	// src0 isn't using any modifiers.
				2802	if (hasModifiersSet(MI, AMDGPU::OpName::src0_modifiers))
				2803	return false;
				2804
Ron Lieberman	16de4fd	2018-12-03 13:04:54 +0000	[diff] [blame]	2805	// Can it be shrunk to a valid 32 bit opcode?
				2806	if (!hasVALU32BitEncoding(MI.getOpcode()))
				2807	return false;
				2808
Matt Arsenault	35b1902	2018-08-28 18:22:34 +0000	[diff] [blame]	2809	// Check output modifiers
				2810	return !hasModifiersSet(MI, AMDGPU::OpName::omod) &&
				2811	!hasModifiersSet(MI, AMDGPU::OpName::clamp);
Matt Arsenault	de6c421	2018-08-28 18:34:24 +0000	[diff] [blame]	2812	}
Matt Arsenault	35b1902	2018-08-28 18:22:34 +0000	[diff] [blame]	2813
Matt Arsenault	de6c421	2018-08-28 18:34:24 +0000	[diff] [blame]	2814	// Set VCC operand with all flags from \p Orig, except for setting it as
				2815	// implicit.
				2816	static void copyFlagsToImplicitVCC(MachineInstr &MI,
				2817	const MachineOperand &Orig) {
				2818
				2819	for (MachineOperand &Use : MI.implicit_operands()) {
				2820	if (Use.isUse() && Use.getReg() == AMDGPU::VCC) {
				2821	Use.setIsUndef(Orig.isUndef());
				2822	Use.setIsKill(Orig.isKill());
				2823	return;
				2824	}
				2825	}
				2826	}
				2827
				2828	MachineInstr *SIInstrInfo::buildShrunkInst(MachineInstr &MI,
				2829	unsigned Op32) const {
				2830	MachineBasicBlock *MBB = MI.getParent();;
				2831	MachineInstrBuilder Inst32 =
				2832	BuildMI(*MBB, MI, MI.getDebugLoc(), get(Op32));
				2833
				2834	// Add the dst operand if the 32-bit encoding also has an explicit $vdst.
				2835	// For VOPC instructions, this is replaced by an implicit def of vcc.
				2836	int Op32DstIdx = AMDGPU::getNamedOperandIdx(Op32, AMDGPU::OpName::vdst);
				2837	if (Op32DstIdx != -1) {
				2838	// dst
				2839	Inst32.add(MI.getOperand(0));
				2840	} else {
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	2841	assert(((MI.getOperand(0).getReg() == AMDGPU::VCC) \|\|
				2842	(MI.getOperand(0).getReg() == AMDGPU::VCC_LO)) &&
Matt Arsenault	de6c421	2018-08-28 18:34:24 +0000	[diff] [blame]	2843	"Unexpected case");
				2844	}
				2845
				2846	Inst32.add(*getNamedOperand(MI, AMDGPU::OpName::src0));
				2847
				2848	const MachineOperand *Src1 = getNamedOperand(MI, AMDGPU::OpName::src1);
				2849	if (Src1)
				2850	Inst32.add(*Src1);
				2851
				2852	const MachineOperand *Src2 = getNamedOperand(MI, AMDGPU::OpName::src2);
				2853
				2854	if (Src2) {
				2855	int Op32Src2Idx = AMDGPU::getNamedOperandIdx(Op32, AMDGPU::OpName::src2);
				2856	if (Op32Src2Idx != -1) {
				2857	Inst32.add(*Src2);
				2858	} else {
				2859	// In the case of V_CNDMASK_B32_e32, the explicit operand src2 is
				2860	// replaced with an implicit read of vcc. This was already added
				2861	// during the initial BuildMI, so find it to preserve the flags.
				2862	copyFlagsToImplicitVCC(Inst32, Src2);
				2863	}
				2864	}
				2865
				2866	return Inst32;
Matt Arsenault	35b1902	2018-08-28 18:22:34 +0000	[diff] [blame]	2867	}
				2868
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2869	bool SIInstrInfo::usesConstantBus(const MachineRegisterInfo &MRI,
Matt Arsenault	11a4d67	2015-02-13 19:05:03 +0000	[diff] [blame]	2870	const MachineOperand &MO,
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2871	const MCOperandInfo &OpInfo) const {
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2872	// Literal constants use the constant bus.
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2873	//if (isLiteralConstantLike(MO, OpInfo))
				2874	// return true;
				2875	if (MO.isImm())
				2876	return !isInlineConstant(MO, OpInfo);
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2877
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	2878	if (!MO.isReg())
				2879	return true; // Misc other operands like FrameIndex
				2880
				2881	if (!MO.isUse())
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2882	return false;
				2883
				2884	if (TargetRegisterInfo::isVirtualRegister(MO.getReg()))
				2885	return RI.isSGPRClass(MRI.getRegClass(MO.getReg()));
				2886
Dmitry Preobrazhensky	9111f35	2019-06-03 13:51:24 +0000	[diff] [blame]	2887	// Null is free
				2888	if (MO.getReg() == AMDGPU::SGPR_NULL)
				2889	return false;
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2890
				2891	// SGPRs use the constant bus
Dmitry Preobrazhensky	9111f35	2019-06-03 13:51:24 +0000	[diff] [blame]	2892	if (MO.isImplicit()) {
				2893	return MO.getReg() == AMDGPU::M0 \|\|
				2894	MO.getReg() == AMDGPU::VCC \|\|
				2895	MO.getReg() == AMDGPU::VCC_LO;
				2896	} else {
				2897	return AMDGPU::SReg_32RegClass.contains(MO.getReg()) \|\|
				2898	AMDGPU::SReg_64RegClass.contains(MO.getReg());
				2899	}
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	2900	}
				2901
Matt Arsenault	e223ceb	2015-10-21 21:15:01 +0000	[diff] [blame]	2902	static unsigned findImplicitSGPRRead(const MachineInstr &MI) {
				2903	for (const MachineOperand &MO : MI.implicit_operands()) {
				2904	// We only care about reads.
				2905	if (MO.isDef())
				2906	continue;
				2907
				2908	switch (MO.getReg()) {
				2909	case AMDGPU::VCC:
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	2910	case AMDGPU::VCC_LO:
				2911	case AMDGPU::VCC_HI:
Matt Arsenault	e223ceb	2015-10-21 21:15:01 +0000	[diff] [blame]	2912	case AMDGPU::M0:
				2913	case AMDGPU::FLAT_SCR:
				2914	return MO.getReg();
				2915
				2916	default:
				2917	break;
				2918	}
				2919	}
				2920
				2921	return AMDGPU::NoRegister;
				2922	}
				2923
Matt Arsenault	529cf25	2016-06-23 01:26:16 +0000	[diff] [blame]	2924	static bool shouldReadExec(const MachineInstr &MI) {
				2925	if (SIInstrInfo::isVALU(MI)) {
				2926	switch (MI.getOpcode()) {
				2927	case AMDGPU::V_READLANE_B32:
Stanislav Mekhanoshin	8f3da70	2019-04-26 16:37:51 +0000	[diff] [blame]	2928	case AMDGPU::V_READLANE_B32_gfx6_gfx7:
Stanislav Mekhanoshin	61beff0	2019-04-26 17:56:03 +0000	[diff] [blame]	2929	case AMDGPU::V_READLANE_B32_gfx10:
Matt Arsenault	529cf25	2016-06-23 01:26:16 +0000	[diff] [blame]	2930	case AMDGPU::V_READLANE_B32_vi:
				2931	case AMDGPU::V_WRITELANE_B32:
Stanislav Mekhanoshin	8f3da70	2019-04-26 16:37:51 +0000	[diff] [blame]	2932	case AMDGPU::V_WRITELANE_B32_gfx6_gfx7:
Stanislav Mekhanoshin	61beff0	2019-04-26 17:56:03 +0000	[diff] [blame]	2933	case AMDGPU::V_WRITELANE_B32_gfx10:
Matt Arsenault	529cf25	2016-06-23 01:26:16 +0000	[diff] [blame]	2934	case AMDGPU::V_WRITELANE_B32_vi:
				2935	return false;
				2936	}
				2937
				2938	return true;
				2939	}
				2940
				2941	if (SIInstrInfo::isGenericOpcode(MI.getOpcode()) \|\|
				2942	SIInstrInfo::isSALU(MI) \|\|
				2943	SIInstrInfo::isSMRD(MI))
				2944	return false;
				2945
				2946	return true;
				2947	}
				2948
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	2949	static bool isSubRegOf(const SIRegisterInfo &TRI,
				2950	const MachineOperand &SuperVec,
				2951	const MachineOperand &SubReg) {
				2952	if (TargetRegisterInfo::isPhysicalRegister(SubReg.getReg()))
				2953	return TRI.isSubRegister(SuperVec.getReg(), SubReg.getReg());
				2954
				2955	return SubReg.getSubReg() != AMDGPU::NoSubRegister &&
				2956	SubReg.getReg() == SuperVec.getReg();
				2957	}
				2958
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2959	bool SIInstrInfo::verifyInstruction(const MachineInstr &MI,
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	2960	StringRef &ErrInfo) const {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2961	uint16_t Opcode = MI.getOpcode();
Tom Stellard	dde28a8	2017-05-26 16:40:03 +0000	[diff] [blame]	2962	if (SIInstrInfo::isGenericOpcode(MI.getOpcode()))
				2963	return true;
				2964
Matt Arsenault	89ad17c	2017-06-12 16:37:55 +0000	[diff] [blame]	2965	const MachineFunction *MF = MI.getParent()->getParent();
				2966	const MachineRegisterInfo &MRI = MF->getRegInfo();
				2967
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	2968	int Src0Idx = AMDGPU::getNamedOperandIdx(Opcode, AMDGPU::OpName::src0);
				2969	int Src1Idx = AMDGPU::getNamedOperandIdx(Opcode, AMDGPU::OpName::src1);
				2970	int Src2Idx = AMDGPU::getNamedOperandIdx(Opcode, AMDGPU::OpName::src2);
				2971
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	2972	// Make sure the number of operands is correct.
				2973	const MCInstrDesc &Desc = get(Opcode);
				2974	if (!Desc.isVariadic() &&
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	2975	Desc.getNumOperands() != MI.getNumExplicitOperands()) {
				2976	ErrInfo = "Instruction has wrong number of operands.";
				2977	return false;
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	2978	}
				2979
Matt Arsenault	3d46319	2016-11-01 22:55:07 +0000	[diff] [blame]	2980	if (MI.isInlineAsm()) {
				2981	// Verify register classes for inlineasm constraints.
				2982	for (unsigned I = InlineAsm::MIOp_FirstOperand, E = MI.getNumOperands();
				2983	I != E; ++I) {
				2984	const TargetRegisterClass *RC = MI.getRegClassConstraint(I, this, &RI);
				2985	if (!RC)
				2986	continue;
				2987
				2988	const MachineOperand &Op = MI.getOperand(I);
				2989	if (!Op.isReg())
				2990	continue;
				2991
				2992	unsigned Reg = Op.getReg();
				2993	if (!TargetRegisterInfo::isVirtualRegister(Reg) && !RC->contains(Reg)) {
				2994	ErrInfo = "inlineasm operand has incorrect register class.";
				2995	return false;
				2996	}
				2997	}
				2998
				2999	return true;
				3000	}
				3001
Changpeng Fang	c996393	2015-12-18 20:04:28 +0000	[diff] [blame]	3002	// Make sure the register classes are correct.
Tom Stellard	b4a313a	2014-08-01 00:32:39 +0000	[diff] [blame]	3003	for (int i = 0, e = Desc.getNumOperands(); i != e; ++i) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3004	if (MI.getOperand(i).isFPImm()) {
Tom Stellard	fb77f00	2015-01-13 22:59:41 +0000	[diff] [blame]	3005	ErrInfo = "FPImm Machine Operands are not supported. ISel should bitcast "
				3006	"all fp values to integers.";
				3007	return false;
				3008	}
				3009
Marek Olsak	8eeebcc	2015-02-18 22:12:41 +0000	[diff] [blame]	3010	int RegClass = Desc.OpInfo[i].RegClass;
				3011
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	3012	switch (Desc.OpInfo[i].OperandType) {
Tom Stellard	1106b1c	2015-01-20 17:49:41 +0000	[diff] [blame]	3013	case MCOI::OPERAND_REGISTER:
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3014	if (MI.getOperand(i).isImm()) {
Tom Stellard	1106b1c	2015-01-20 17:49:41 +0000	[diff] [blame]	3015	ErrInfo = "Illegal immediate value for operand.";
				3016	return false;
				3017	}
				3018	break;
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	3019	case AMDGPU::OPERAND_REG_IMM_INT32:
				3020	case AMDGPU::OPERAND_REG_IMM_FP32:
Tom Stellard	1106b1c	2015-01-20 17:49:41 +0000	[diff] [blame]	3021	break;
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	3022	case AMDGPU::OPERAND_REG_INLINE_C_INT32:
				3023	case AMDGPU::OPERAND_REG_INLINE_C_FP32:
				3024	case AMDGPU::OPERAND_REG_INLINE_C_INT64:
				3025	case AMDGPU::OPERAND_REG_INLINE_C_FP64:
				3026	case AMDGPU::OPERAND_REG_INLINE_C_INT16:
				3027	case AMDGPU::OPERAND_REG_INLINE_C_FP16: {
				3028	const MachineOperand &MO = MI.getOperand(i);
				3029	if (!MO.isReg() && (!MO.isImm() \|\| !isInlineConstant(MI, i))) {
Marek Olsak	8eeebcc	2015-02-18 22:12:41 +0000	[diff] [blame]	3030	ErrInfo = "Illegal immediate value for operand.";
				3031	return false;
Tom Stellard	a305f93	2014-07-02 20:53:44 +0000	[diff] [blame]	3032	}
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	3033	break;
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	3034	}
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	3035	case MCOI::OPERAND_IMMEDIATE:
Matt Arsenault	ffc8275	2016-07-05 17:09:01 +0000	[diff] [blame]	3036	case AMDGPU::OPERAND_KIMM32:
Tom Stellard	b02094e	2014-07-21 15:45:01 +0000	[diff] [blame]	3037	// Check if this operand is an immediate.
				3038	// FrameIndex operands will be replaced by immediates, so they are
				3039	// allowed.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3040	if (!MI.getOperand(i).isImm() && !MI.getOperand(i).isFI()) {
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	3041	ErrInfo = "Expected immediate, but got non-immediate";
				3042	return false;
				3043	}
Justin Bogner	b03fd12	2016-08-17 05:10:15 +0000	[diff] [blame]	3044	LLVM_FALLTHROUGH;
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	3045	default:
				3046	continue;
				3047	}
				3048
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3049	if (!MI.getOperand(i).isReg())
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	3050	continue;
				3051
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	3052	if (RegClass != -1) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3053	unsigned Reg = MI.getOperand(i).getReg();
Matt Arsenault	1322b6f	2016-07-09 01:13:56 +0000	[diff] [blame]	3054	if (Reg == AMDGPU::NoRegister \|\|
				3055	TargetRegisterInfo::isVirtualRegister(Reg))
Tom Stellard	ca700e4	2014-03-17 17:03:49 +0000	[diff] [blame]	3056	continue;
				3057
				3058	const TargetRegisterClass *RC = RI.getRegClass(RegClass);
				3059	if (!RC->contains(Reg)) {
				3060	ErrInfo = "Operand has incorrect register class.";
				3061	return false;
				3062	}
				3063	}
				3064	}
				3065
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3066	// Verify SDWA
				3067	if (isSDWA(MI)) {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3068	if (!ST.hasSDWA()) {
				3069	ErrInfo = "SDWA is not supported on this target";
				3070	return false;
				3071	}
				3072
				3073	int DstIdx = AMDGPU::getNamedOperandIdx(Opcode, AMDGPU::OpName::vdst);
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3074
				3075	const int OpIndicies[] = { DstIdx, Src0Idx, Src1Idx, Src2Idx };
				3076
				3077	for (int OpIdx: OpIndicies) {
				3078	if (OpIdx == -1)
				3079	continue;
				3080	const MachineOperand &MO = MI.getOperand(OpIdx);
				3081
Sam Kolton	3c4933f	2017-06-22 06:26:41 +0000	[diff] [blame]	3082	if (!ST.hasSDWAScalar()) {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3083	// Only VGPRS on VI
				3084	if (!MO.isReg() \|\| !RI.hasVGPRs(RI.getRegClassForReg(MRI, MO.getReg()))) {
				3085	ErrInfo = "Only VGPRs allowed as operands in SDWA instructions on VI";
				3086	return false;
				3087	}
				3088	} else {
				3089	// No immediates on GFX9
				3090	if (!MO.isReg()) {
				3091	ErrInfo = "Only reg allowed as operands in SDWA instructions on GFX9";
				3092	return false;
				3093	}
				3094	}
				3095	}
				3096
Sam Kolton	3c4933f	2017-06-22 06:26:41 +0000	[diff] [blame]	3097	if (!ST.hasSDWAOmod()) {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3098	// No omod allowed on VI
				3099	const MachineOperand *OMod = getNamedOperand(MI, AMDGPU::OpName::omod);
				3100	if (OMod != nullptr &&
				3101	(!OMod->isImm() \|\| OMod->getImm() != 0)) {
				3102	ErrInfo = "OMod not allowed in SDWA instructions on VI";
				3103	return false;
				3104	}
				3105	}
				3106
				3107	uint16_t BasicOpcode = AMDGPU::getBasicFromSDWAOp(Opcode);
				3108	if (isVOPC(BasicOpcode)) {
Sam Kolton	3c4933f	2017-06-22 06:26:41 +0000	[diff] [blame]	3109	if (!ST.hasSDWASdst() && DstIdx != -1) {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3110	// Only vcc allowed as dst on VI for VOPC
				3111	const MachineOperand &Dst = MI.getOperand(DstIdx);
				3112	if (!Dst.isReg() \|\| Dst.getReg() != AMDGPU::VCC) {
				3113	ErrInfo = "Only VCC allowed as dst in SDWA instructions on VI";
				3114	return false;
				3115	}
Sam Kolton	a179d25	2017-06-27 15:02:23 +0000	[diff] [blame]	3116	} else if (!ST.hasSDWAOutModsVOPC()) {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3117	// No clamp allowed on GFX9 for VOPC
				3118	const MachineOperand *Clamp = getNamedOperand(MI, AMDGPU::OpName::clamp);
Sam Kolton	a179d25	2017-06-27 15:02:23 +0000	[diff] [blame]	3119	if (Clamp && (!Clamp->isImm() \|\| Clamp->getImm() != 0)) {
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3120	ErrInfo = "Clamp not allowed in VOPC SDWA instructions on VI";
				3121	return false;
				3122	}
Sam Kolton	a179d25	2017-06-27 15:02:23 +0000	[diff] [blame]	3123
				3124	// No omod allowed on GFX9 for VOPC
				3125	const MachineOperand *OMod = getNamedOperand(MI, AMDGPU::OpName::omod);
				3126	if (OMod && (!OMod->isImm() \|\| OMod->getImm() != 0)) {
				3127	ErrInfo = "OMod not allowed in VOPC SDWA instructions on VI";
				3128	return false;
				3129	}
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3130	}
				3131	}
Sam Kolton	5f7f32c	2017-12-04 16:22:32 +0000	[diff] [blame]	3132
				3133	const MachineOperand *DstUnused = getNamedOperand(MI, AMDGPU::OpName::dst_unused);
				3134	if (DstUnused && DstUnused->isImm() &&
				3135	DstUnused->getImm() == AMDGPU::SDWA::UNUSED_PRESERVE) {
				3136	const MachineOperand &Dst = MI.getOperand(DstIdx);
				3137	if (!Dst.isReg() \|\| !Dst.isTied()) {
				3138	ErrInfo = "Dst register should have tied register";
				3139	return false;
				3140	}
				3141
				3142	const MachineOperand &TiedMO =
				3143	MI.getOperand(MI.findTiedOperandIdx(DstIdx));
				3144	if (!TiedMO.isReg() \|\| !TiedMO.isImplicit() \|\| !TiedMO.isUse()) {
				3145	ErrInfo =
				3146	"Dst register should be tied to implicit use of preserved register";
				3147	return false;
				3148	} else if (TargetRegisterInfo::isPhysicalRegister(TiedMO.getReg()) &&
				3149	Dst.getReg() != TiedMO.getReg()) {
				3150	ErrInfo = "Dst register should use same physical register as preserved";
				3151	return false;
				3152	}
				3153	}
Sam Kolton	549c89d	2017-06-21 08:53:38 +0000	[diff] [blame]	3154	}
				3155
David Stuttard	f77079f	2019-01-14 11:55:24 +0000	[diff] [blame]	3156	// Verify MIMG
				3157	if (isMIMG(MI.getOpcode()) && !MI.mayStore()) {
				3158	// Ensure that the return type used is large enough for all the options
				3159	// being used TFE/LWE require an extra result register.
				3160	const MachineOperand *DMask = getNamedOperand(MI, AMDGPU::OpName::dmask);
				3161	if (DMask) {
				3162	uint64_t DMaskImm = DMask->getImm();
				3163	uint32_t RegCount =
				3164	isGather4(MI.getOpcode()) ? 4 : countPopulation(DMaskImm);
				3165	const MachineOperand *TFE = getNamedOperand(MI, AMDGPU::OpName::tfe);
				3166	const MachineOperand *LWE = getNamedOperand(MI, AMDGPU::OpName::lwe);
				3167	const MachineOperand *D16 = getNamedOperand(MI, AMDGPU::OpName::d16);
				3168
				3169	// Adjust for packed 16 bit values
				3170	if (D16 && D16->getImm() && !ST.hasUnpackedD16VMem())
				3171	RegCount >>= 1;
				3172
				3173	// Adjust if using LWE or TFE
				3174	if ((LWE && LWE->getImm()) \|\| (TFE && TFE->getImm()))
				3175	RegCount += 1;
				3176
				3177	const uint32_t DstIdx =
				3178	AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::vdata);
				3179	const MachineOperand &Dst = MI.getOperand(DstIdx);
				3180	if (Dst.isReg()) {
				3181	const TargetRegisterClass *DstRC = getOpRegClass(MI, DstIdx);
				3182	uint32_t DstSize = RI.getRegSizeInBits(*DstRC) / 32;
				3183	if (RegCount > DstSize) {
				3184	ErrInfo = "MIMG instruction returns too many registers for dst "
				3185	"register class";
				3186	return false;
				3187	}
				3188	}
				3189	}
				3190	}
				3191
Tim Renouf	2a99fa2	2018-02-28 19:10:32 +0000	[diff] [blame]	3192	// Verify VOP*. Ignore multiple sgpr operands on writelane.
				3193	if (Desc.getOpcode() != AMDGPU::V_WRITELANE_B32
				3194	&& (isVOP1(MI) \|\| isVOP2(MI) \|\| isVOP3(MI) \|\| isVOPC(MI) \|\| isSDWA(MI))) {
Matt Arsenault	e368cb3	2014-12-11 23:37:32 +0000	[diff] [blame]	3195	// Only look at the true operands. Only a real operand can use the constant
				3196	// bus, and we don't want to check pseudo-operands like the source modifier
				3197	// flags.
				3198	const int OpIndices[] = { Src0Idx, Src1Idx, Src2Idx };
				3199
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	3200	unsigned ConstantBusCount = 0;
Stanislav Mekhanoshin	a4bfb3c	2018-04-24 18:17:55 +0000	[diff] [blame]	3201	unsigned LiteralCount = 0;
Matt Arsenault	ffc8275	2016-07-05 17:09:01 +0000	[diff] [blame]	3202
				3203	if (AMDGPU::getNamedOperandIdx(Opcode, AMDGPU::OpName::imm) != -1)
				3204	++ConstantBusCount;
				3205
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3206	SmallVector<unsigned, 2> SGPRsUsed;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3207	unsigned SGPRUsed = findImplicitSGPRRead(MI);
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3208	if (SGPRUsed != AMDGPU::NoRegister) {
Matt Arsenault	e223ceb	2015-10-21 21:15:01 +0000	[diff] [blame]	3209	++ConstantBusCount;
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3210	SGPRsUsed.push_back(SGPRUsed);
				3211	}
Matt Arsenault	e223ceb	2015-10-21 21:15:01 +0000	[diff] [blame]	3212
Matt Arsenault	e368cb3	2014-12-11 23:37:32 +0000	[diff] [blame]	3213	for (int OpIdx : OpIndices) {
				3214	if (OpIdx == -1)
				3215	break;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3216	const MachineOperand &MO = MI.getOperand(OpIdx);
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	3217	if (usesConstantBus(MRI, MO, MI.getDesc().OpInfo[OpIdx])) {
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	3218	if (MO.isReg()) {
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	3219	SGPRUsed = MO.getReg();
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3220	if (llvm::all_of(SGPRsUsed, [this, SGPRUsed](unsigned SGPR) {
				3221	return !RI.regsOverlap(SGPRUsed, SGPR);
				3222	})) {
				3223	++ConstantBusCount;
				3224	SGPRsUsed.push_back(SGPRUsed);
				3225	}
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	3226	} else {
				3227	++ConstantBusCount;
Stanislav Mekhanoshin	a4bfb3c	2018-04-24 18:17:55 +0000	[diff] [blame]	3228	++LiteralCount;
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	3229	}
				3230	}
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	3231	}
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3232	const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();
				3233	// v_writelane_b32 is an exception from constant bus restriction:
				3234	// vsrc0 can be sgpr, const or m0 and lane select sgpr, m0 or inline-const
				3235	if (ConstantBusCount > ST.getConstantBusLimit(Opcode) &&
				3236	Opcode != AMDGPU::V_WRITELANE_B32) {
				3237	ErrInfo = "VOP* instruction violates constant bus restriction";
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	3238	return false;
				3239	}
Stanislav Mekhanoshin	a4bfb3c	2018-04-24 18:17:55 +0000	[diff] [blame]	3240
				3241	if (isVOP3(MI) && LiteralCount) {
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3242	if (LiteralCount && !ST.hasVOP3Literal()) {
				3243	ErrInfo = "VOP3 instruction uses literal";
				3244	return false;
				3245	}
				3246	if (LiteralCount > 1) {
				3247	ErrInfo = "VOP3 instruction uses more than one literal";
				3248	return false;
				3249	}
Stanislav Mekhanoshin	a4bfb3c	2018-04-24 18:17:55 +0000	[diff] [blame]	3250	}
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	3251	}
				3252
Matt Arsenault	becb140	2014-06-23 18:28:31 +0000	[diff] [blame]	3253	// Verify misc. restrictions on specific instructions.
				3254	if (Desc.getOpcode() == AMDGPU::V_DIV_SCALE_F32 \|\|
				3255	Desc.getOpcode() == AMDGPU::V_DIV_SCALE_F64) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3256	const MachineOperand &Src0 = MI.getOperand(Src0Idx);
				3257	const MachineOperand &Src1 = MI.getOperand(Src1Idx);
				3258	const MachineOperand &Src2 = MI.getOperand(Src2Idx);
Matt Arsenault	becb140	2014-06-23 18:28:31 +0000	[diff] [blame]	3259	if (Src0.isReg() && Src1.isReg() && Src2.isReg()) {
				3260	if (!compareMachineOp(Src0, Src1) &&
				3261	!compareMachineOp(Src0, Src2)) {
				3262	ErrInfo = "v_div_scale_{f32\|f64} require src0 = src1 or src2";
				3263	return false;
				3264	}
				3265	}
				3266	}
				3267
Nicolai Haehnle	79ea85c	2019-05-07 09:19:09 +0000	[diff] [blame]	3268	if (isSOP2(MI) \|\| isSOPC(MI)) {
				3269	const MachineOperand &Src0 = MI.getOperand(Src0Idx);
				3270	const MachineOperand &Src1 = MI.getOperand(Src1Idx);
				3271	unsigned Immediates = 0;
				3272
				3273	if (!Src0.isReg() &&
				3274	!isInlineConstant(Src0, Desc.OpInfo[Src0Idx].OperandType))
				3275	Immediates++;
				3276	if (!Src1.isReg() &&
				3277	!isInlineConstant(Src1, Desc.OpInfo[Src1Idx].OperandType))
				3278	Immediates++;
				3279
				3280	if (Immediates > 1) {
				3281	ErrInfo = "SOP2/SOPC instruction requires too many immediate constants";
				3282	return false;
				3283	}
				3284	}
				3285
Matt Arsenault	7ccf6cd	2016-09-16 21:41:16 +0000	[diff] [blame]	3286	if (isSOPK(MI)) {
Stanislav Mekhanoshin	491746a	2019-05-06 22:49:45 +0000	[diff] [blame]	3287	auto Op = getNamedOperand(MI, AMDGPU::OpName::simm16);
				3288	if (Desc.isBranch()) {
				3289	if (!Op->isMBB()) {
				3290	ErrInfo = "invalid branch target for SOPK instruction";
Matt Arsenault	7ccf6cd	2016-09-16 21:41:16 +0000	[diff] [blame]	3291	return false;
				3292	}
				3293	} else {
Stanislav Mekhanoshin	491746a	2019-05-06 22:49:45 +0000	[diff] [blame]	3294	uint64_t Imm = Op->getImm();
				3295	if (sopkIsZext(MI)) {
				3296	if (!isUInt<16>(Imm)) {
				3297	ErrInfo = "invalid immediate for SOPK instruction";
				3298	return false;
				3299	}
				3300	} else {
				3301	if (!isInt<16>(Imm)) {
				3302	ErrInfo = "invalid immediate for SOPK instruction";
				3303	return false;
				3304	}
Matt Arsenault	7ccf6cd	2016-09-16 21:41:16 +0000	[diff] [blame]	3305	}
				3306	}
				3307	}
				3308
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	3309	if (Desc.getOpcode() == AMDGPU::V_MOVRELS_B32_e32 \|\|
				3310	Desc.getOpcode() == AMDGPU::V_MOVRELS_B32_e64 \|\|
				3311	Desc.getOpcode() == AMDGPU::V_MOVRELD_B32_e32 \|\|
				3312	Desc.getOpcode() == AMDGPU::V_MOVRELD_B32_e64) {
				3313	const bool IsDst = Desc.getOpcode() == AMDGPU::V_MOVRELD_B32_e32 \|\|
				3314	Desc.getOpcode() == AMDGPU::V_MOVRELD_B32_e64;
				3315
				3316	const unsigned StaticNumOps = Desc.getNumOperands() +
				3317	Desc.getNumImplicitUses();
				3318	const unsigned NumImplicitOps = IsDst ? 2 : 1;
				3319
Nicolai Haehnle	368972c	2016-11-02 17:03:11 +0000	[diff] [blame]	3320	// Allow additional implicit operands. This allows a fixup done by the post
				3321	// RA scheduler where the main implicit operand is killed and implicit-defs
				3322	// are added for sub-registers that remain live after this instruction.
				3323	if (MI.getNumOperands() < StaticNumOps + NumImplicitOps) {
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	3324	ErrInfo = "missing implicit register operands";
				3325	return false;
				3326	}
				3327
				3328	const MachineOperand *Dst = getNamedOperand(MI, AMDGPU::OpName::vdst);
				3329	if (IsDst) {
				3330	if (!Dst->isUse()) {
				3331	ErrInfo = "v_movreld_b32 vdst should be a use operand";
				3332	return false;
				3333	}
				3334
				3335	unsigned UseOpIdx;
				3336	if (!MI.isRegTiedToUseOperand(StaticNumOps, &UseOpIdx) \|\|
				3337	UseOpIdx != StaticNumOps + 1) {
				3338	ErrInfo = "movrel implicit operands should be tied";
				3339	return false;
				3340	}
				3341	}
				3342
				3343	const MachineOperand &Src0 = MI.getOperand(Src0Idx);
				3344	const MachineOperand &ImpUse
				3345	= MI.getOperand(StaticNumOps + NumImplicitOps - 1);
				3346	if (!ImpUse.isReg() \|\| !ImpUse.isUse() \|\|
				3347	!isSubRegOf(RI, ImpUse, IsDst ? *Dst : Src0)) {
				3348	ErrInfo = "src0 should be subreg of implicit vector use";
				3349	return false;
				3350	}
				3351	}
				3352
Matt Arsenault	d092a06	2015-10-02 18:58:37 +0000	[diff] [blame]	3353	// Make sure we aren't losing exec uses in the td files. This mostly requires
				3354	// being careful when using let Uses to try to add other use registers.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3355	if (shouldReadExec(MI)) {
				3356	if (!MI.hasRegisterImplicitUseOperand(AMDGPU::EXEC)) {
Matt Arsenault	d092a06	2015-10-02 18:58:37 +0000	[diff] [blame]	3357	ErrInfo = "VALU instruction does not implicitly read exec mask";
				3358	return false;
				3359	}
				3360	}
				3361
Matt Arsenault	7b64755	2016-10-28 21:55:15 +0000	[diff] [blame]	3362	if (isSMRD(MI)) {
				3363	if (MI.mayStore()) {
				3364	// The register offset form of scalar stores may only use m0 as the
				3365	// soffset register.
				3366	const MachineOperand *Soff = getNamedOperand(MI, AMDGPU::OpName::soff);
				3367	if (Soff && Soff->getReg() != AMDGPU::M0) {
				3368	ErrInfo = "scalar stores must use m0 as offset register";
				3369	return false;
				3370	}
				3371	}
				3372	}
				3373
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	3374	if (isFLAT(MI) && !MF->getSubtarget<GCNSubtarget>().hasFlatInstOffsets()) {
Matt Arsenault	89ad17c	2017-06-12 16:37:55 +0000	[diff] [blame]	3375	const MachineOperand *Offset = getNamedOperand(MI, AMDGPU::OpName::offset);
				3376	if (Offset->getImm() != 0) {
				3377	ErrInfo = "subtarget does not support offsets in flat instructions";
				3378	return false;
				3379	}
				3380	}
				3381
Stanislav Mekhanoshin	692560d	2019-05-01 16:32:58 +0000	[diff] [blame]	3382	if (isMIMG(MI)) {
				3383	const MachineOperand *DimOp = getNamedOperand(MI, AMDGPU::OpName::dim);
				3384	if (DimOp) {
				3385	int VAddr0Idx = AMDGPU::getNamedOperandIdx(Opcode,
				3386	AMDGPU::OpName::vaddr0);
				3387	int SRsrcIdx = AMDGPU::getNamedOperandIdx(Opcode, AMDGPU::OpName::srsrc);
				3388	const AMDGPU::MIMGInfo *Info = AMDGPU::getMIMGInfo(Opcode);
				3389	const AMDGPU::MIMGBaseOpcodeInfo *BaseOpcode =
				3390	AMDGPU::getMIMGBaseOpcodeInfo(Info->BaseOpcode);
				3391	const AMDGPU::MIMGDimInfo *Dim =
				3392	AMDGPU::getMIMGDimInfoByEncoding(DimOp->getImm());
				3393
				3394	if (!Dim) {
				3395	ErrInfo = "dim is out of range";
				3396	return false;
				3397	}
				3398
				3399	bool IsNSA = SRsrcIdx - VAddr0Idx > 1;
				3400	unsigned AddrWords = BaseOpcode->NumExtraArgs +
				3401	(BaseOpcode->Gradients ? Dim->NumGradients : 0) +
				3402	(BaseOpcode->Coordinates ? Dim->NumCoords : 0) +
				3403	(BaseOpcode->LodOrClampOrMip ? 1 : 0);
				3404
				3405	unsigned VAddrWords;
				3406	if (IsNSA) {
				3407	VAddrWords = SRsrcIdx - VAddr0Idx;
				3408	} else {
				3409	const TargetRegisterClass *RC = getOpRegClass(MI, VAddr0Idx);
				3410	VAddrWords = MRI.getTargetRegisterInfo()->getRegSizeInBits(*RC) / 32;
				3411	if (AddrWords > 8)
				3412	AddrWords = 16;
				3413	else if (AddrWords > 4)
				3414	AddrWords = 8;
				3415	else if (AddrWords == 3 && VAddrWords == 4) {
				3416	// CodeGen uses the V4 variant of instructions for three addresses,
				3417	// because the selection DAG does not support non-power-of-two types.
				3418	AddrWords = 4;
				3419	}
				3420	}
				3421
				3422	if (VAddrWords != AddrWords) {
				3423	ErrInfo = "bad vaddr size";
				3424	return false;
				3425	}
				3426	}
				3427	}
				3428
Stanislav Mekhanoshin	4329361	2018-05-08 16:53:02 +0000	[diff] [blame]	3429	const MachineOperand *DppCt = getNamedOperand(MI, AMDGPU::OpName::dpp_ctrl);
				3430	if (DppCt) {
				3431	using namespace AMDGPU::DPP;
				3432
				3433	unsigned DC = DppCt->getImm();
				3434	if (DC == DppCtrl::DPP_UNUSED1 \|\| DC == DppCtrl::DPP_UNUSED2 \|\|
				3435	DC == DppCtrl::DPP_UNUSED3 \|\| DC > DppCtrl::DPP_LAST \|\|
				3436	(DC >= DppCtrl::DPP_UNUSED4_FIRST && DC <= DppCtrl::DPP_UNUSED4_LAST) \|\|
				3437	(DC >= DppCtrl::DPP_UNUSED5_FIRST && DC <= DppCtrl::DPP_UNUSED5_LAST) \|\|
				3438	(DC >= DppCtrl::DPP_UNUSED6_FIRST && DC <= DppCtrl::DPP_UNUSED6_LAST) \|\|
Stanislav Mekhanoshin	245b5ba	2019-06-12 18:02:41 +0000	[diff] [blame]	3439	(DC >= DppCtrl::DPP_UNUSED7_FIRST && DC <= DppCtrl::DPP_UNUSED7_LAST) \|\|
				3440	(DC >= DppCtrl::DPP_UNUSED8_FIRST && DC <= DppCtrl::DPP_UNUSED8_LAST)) {
Stanislav Mekhanoshin	4329361	2018-05-08 16:53:02 +0000	[diff] [blame]	3441	ErrInfo = "Invalid dpp_ctrl value";
				3442	return false;
				3443	}
Stanislav Mekhanoshin	245b5ba	2019-06-12 18:02:41 +0000	[diff] [blame]	3444	if (DC >= DppCtrl::WAVE_SHL1 && DC <= DppCtrl::WAVE_ROR1 &&
				3445	ST.getGeneration() >= AMDGPUSubtarget::GFX10) {
				3446	ErrInfo = "Invalid dpp_ctrl value: "
				3447	"wavefront shifts are not supported on GFX10+";
				3448	return false;
				3449	}
				3450	if (DC >= DppCtrl::BCAST15 && DC <= DppCtrl::BCAST31 &&
				3451	ST.getGeneration() >= AMDGPUSubtarget::GFX10) {
				3452	ErrInfo = "Invalid dpp_ctrl value: "
				3453	"broadcats are not supported on GFX10+";
				3454	return false;
				3455	}
				3456	if (DC >= DppCtrl::ROW_SHARE_FIRST && DC <= DppCtrl::ROW_XMASK_LAST &&
				3457	ST.getGeneration() < AMDGPUSubtarget::GFX10) {
				3458	ErrInfo = "Invalid dpp_ctrl value: "
				3459	"row_share and row_xmask are not supported before GFX10";
				3460	return false;
				3461	}
Stanislav Mekhanoshin	4329361	2018-05-08 16:53:02 +0000	[diff] [blame]	3462	}
				3463
Tom Stellard	93fabce	2013-10-10 17:11:55 +0000	[diff] [blame]	3464	return true;
				3465	}
				3466
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	3467	unsigned SIInstrInfo::getVALUOp(const MachineInstr &MI) const {
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3468	switch (MI.getOpcode()) {
				3469	default: return AMDGPU::INSTRUCTION_LIST_END;
				3470	case AMDGPU::REG_SEQUENCE: return AMDGPU::REG_SEQUENCE;
				3471	case AMDGPU::COPY: return AMDGPU::COPY;
				3472	case AMDGPU::PHI: return AMDGPU::PHI;
Tom Stellard	204e61b	2014-04-07 19:45:45 +0000	[diff] [blame]	3473	case AMDGPU::INSERT_SUBREG: return AMDGPU::INSERT_SUBREG;
Connor Abbott	8c217d0	2017-08-04 18:36:49 +0000	[diff] [blame]	3474	case AMDGPU::WQM: return AMDGPU::WQM;
Connor Abbott	92638ab	2017-08-04 18:36:52 +0000	[diff] [blame]	3475	case AMDGPU::WWM: return AMDGPU::WWM;
Tom Stellard	e038720	2014-03-21 15:51:54 +0000	[diff] [blame]	3476	case AMDGPU::S_MOV_B32:
				3477	return MI.getOperand(1).isReg() ?
Tom Stellard	8c12fd9	2014-03-24 16:12:34 +0000	[diff] [blame]	3478	AMDGPU::COPY : AMDGPU::V_MOV_B32_e32;
Tom Stellard	80942a1	2014-09-05 14:07:59 +0000	[diff] [blame]	3479	case AMDGPU::S_ADD_I32:
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	3480	return ST.hasAddNoCarry() ? AMDGPU::V_ADD_U32_e64 : AMDGPU::V_ADD_I32_e32;
				3481	case AMDGPU::S_ADDC_U32:
				3482	return AMDGPU::V_ADDC_U32_e32;
Tom Stellard	80942a1	2014-09-05 14:07:59 +0000	[diff] [blame]	3483	case AMDGPU::S_SUB_I32:
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	3484	return ST.hasAddNoCarry() ? AMDGPU::V_SUB_U32_e64 : AMDGPU::V_SUB_I32_e32;
				3485	// FIXME: These are not consistently handled, and selected when the carry is
				3486	// used.
				3487	case AMDGPU::S_ADD_U32:
				3488	return AMDGPU::V_ADD_I32_e32;
				3489	case AMDGPU::S_SUB_U32:
				3490	return AMDGPU::V_SUB_I32_e32;
Matt Arsenault	43b8e4e	2013-11-18 20:09:29 +0000	[diff] [blame]	3491	case AMDGPU::S_SUBB_U32: return AMDGPU::V_SUBB_U32_e32;
Stanislav Mekhanoshin	971cb8b	2019-05-06 22:27:05 +0000	[diff] [blame]	3492	case AMDGPU::S_MUL_I32: return AMDGPU::V_MUL_LO_U32;
Michael Liao	efb4f9e	2019-03-18 20:40:09 +0000	[diff] [blame]	3493	case AMDGPU::S_MUL_HI_U32: return AMDGPU::V_MUL_HI_U32;
				3494	case AMDGPU::S_MUL_HI_I32: return AMDGPU::V_MUL_HI_I32;
Matt Arsenault	124384f	2016-09-09 23:32:53 +0000	[diff] [blame]	3495	case AMDGPU::S_AND_B32: return AMDGPU::V_AND_B32_e64;
				3496	case AMDGPU::S_OR_B32: return AMDGPU::V_OR_B32_e64;
				3497	case AMDGPU::S_XOR_B32: return AMDGPU::V_XOR_B32_e64;
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	3498	case AMDGPU::S_XNOR_B32:
				3499	return ST.hasDLInsts() ? AMDGPU::V_XNOR_B32_e64 : AMDGPU::INSTRUCTION_LIST_END;
Matt Arsenault	124384f	2016-09-09 23:32:53 +0000	[diff] [blame]	3500	case AMDGPU::S_MIN_I32: return AMDGPU::V_MIN_I32_e64;
				3501	case AMDGPU::S_MIN_U32: return AMDGPU::V_MIN_U32_e64;
				3502	case AMDGPU::S_MAX_I32: return AMDGPU::V_MAX_I32_e64;
				3503	case AMDGPU::S_MAX_U32: return AMDGPU::V_MAX_U32_e64;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3504	case AMDGPU::S_ASHR_I32: return AMDGPU::V_ASHR_I32_e32;
				3505	case AMDGPU::S_ASHR_I64: return AMDGPU::V_ASHR_I64;
				3506	case AMDGPU::S_LSHL_B32: return AMDGPU::V_LSHL_B32_e32;
				3507	case AMDGPU::S_LSHL_B64: return AMDGPU::V_LSHL_B64;
				3508	case AMDGPU::S_LSHR_B32: return AMDGPU::V_LSHR_B32_e32;
				3509	case AMDGPU::S_LSHR_B64: return AMDGPU::V_LSHR_B64;
Matt Arsenault	27cc958	2014-04-18 01:53:18 +0000	[diff] [blame]	3510	case AMDGPU::S_SEXT_I32_I8: return AMDGPU::V_BFE_I32;
				3511	case AMDGPU::S_SEXT_I32_I16: return AMDGPU::V_BFE_I32;
Matt Arsenault	78b8670	2014-04-18 05:19:26 +0000	[diff] [blame]	3512	case AMDGPU::S_BFE_U32: return AMDGPU::V_BFE_U32;
				3513	case AMDGPU::S_BFE_I32: return AMDGPU::V_BFE_I32;
Marek Olsak	63a7b08	2015-03-24 13:40:21 +0000	[diff] [blame]	3514	case AMDGPU::S_BFM_B32: return AMDGPU::V_BFM_B32_e64;
Matt Arsenault	43160e7	2014-06-18 17:13:57 +0000	[diff] [blame]	3515	case AMDGPU::S_BREV_B32: return AMDGPU::V_BFREV_B32_e32;
Matt Arsenault	2c33562	2014-04-09 07:16:16 +0000	[diff] [blame]	3516	case AMDGPU::S_NOT_B32: return AMDGPU::V_NOT_B32_e32;
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	3517	case AMDGPU::S_NOT_B64: return AMDGPU::V_NOT_B32_e32;
Matt Arsenault	0cb92e1	2014-04-11 19:25:18 +0000	[diff] [blame]	3518	case AMDGPU::S_CMP_EQ_I32: return AMDGPU::V_CMP_EQ_I32_e32;
				3519	case AMDGPU::S_CMP_LG_I32: return AMDGPU::V_CMP_NE_I32_e32;
				3520	case AMDGPU::S_CMP_GT_I32: return AMDGPU::V_CMP_GT_I32_e32;
				3521	case AMDGPU::S_CMP_GE_I32: return AMDGPU::V_CMP_GE_I32_e32;
				3522	case AMDGPU::S_CMP_LT_I32: return AMDGPU::V_CMP_LT_I32_e32;
				3523	case AMDGPU::S_CMP_LE_I32: return AMDGPU::V_CMP_LE_I32_e32;
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	3524	case AMDGPU::S_CMP_EQ_U32: return AMDGPU::V_CMP_EQ_U32_e32;
				3525	case AMDGPU::S_CMP_LG_U32: return AMDGPU::V_CMP_NE_U32_e32;
				3526	case AMDGPU::S_CMP_GT_U32: return AMDGPU::V_CMP_GT_U32_e32;
				3527	case AMDGPU::S_CMP_GE_U32: return AMDGPU::V_CMP_GE_U32_e32;
				3528	case AMDGPU::S_CMP_LT_U32: return AMDGPU::V_CMP_LT_U32_e32;
				3529	case AMDGPU::S_CMP_LE_U32: return AMDGPU::V_CMP_LE_U32_e32;
Matt Arsenault	7b1dc2c	2016-09-17 02:02:19 +0000	[diff] [blame]	3530	case AMDGPU::S_CMP_EQ_U64: return AMDGPU::V_CMP_EQ_U64_e32;
				3531	case AMDGPU::S_CMP_LG_U64: return AMDGPU::V_CMP_NE_U64_e32;
Marek Olsak	c536850	2015-01-15 18:43:01 +0000	[diff] [blame]	3532	case AMDGPU::S_BCNT1_I32_B32: return AMDGPU::V_BCNT_U32_B32_e64;
Matt Arsenault	295b86e	2014-06-17 17:36:27 +0000	[diff] [blame]	3533	case AMDGPU::S_FF1_I32_B32: return AMDGPU::V_FFBL_B32_e32;
Matt Arsenault	8579601	2014-06-17 17:36:24 +0000	[diff] [blame]	3534	case AMDGPU::S_FLBIT_I32_B32: return AMDGPU::V_FFBH_U32_e32;
Marek Olsak	d2af89d	2015-03-04 17:33:45 +0000	[diff] [blame]	3535	case AMDGPU::S_FLBIT_I32: return AMDGPU::V_FFBH_I32_e64;
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	3536	case AMDGPU::S_CBRANCH_SCC0: return AMDGPU::S_CBRANCH_VCCZ;
				3537	case AMDGPU::S_CBRANCH_SCC1: return AMDGPU::S_CBRANCH_VCCNZ;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3538	}
Michael Liao	efb4f9e	2019-03-18 20:40:09 +0000	[diff] [blame]	3539	llvm_unreachable(
				3540	"Unexpected scalar opcode without corresponding vector one!");
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3541	}
				3542
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3543	const TargetRegisterClass *SIInstrInfo::getOpRegClass(const MachineInstr &MI,
				3544	unsigned OpNo) const {
				3545	const MachineRegisterInfo &MRI = MI.getParent()->getParent()->getRegInfo();
				3546	const MCInstrDesc &Desc = get(MI.getOpcode());
				3547	if (MI.isVariadic() \|\| OpNo >= Desc.getNumOperands() \|\|
Matt Arsenault	102a704	2014-12-11 23:37:34 +0000	[diff] [blame]	3548	Desc.OpInfo[OpNo].RegClass == -1) {
				3549	unsigned Reg = MI.getOperand(OpNo).getReg();
				3550
				3551	if (TargetRegisterInfo::isVirtualRegister(Reg))
				3552	return MRI.getRegClass(Reg);
Matt Arsenault	11a4d67	2015-02-13 19:05:03 +0000	[diff] [blame]	3553	return RI.getPhysRegClass(Reg);
Matt Arsenault	102a704	2014-12-11 23:37:34 +0000	[diff] [blame]	3554	}
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3555
				3556	unsigned RCID = Desc.OpInfo[OpNo].RegClass;
				3557	return RI.getRegClass(RCID);
				3558	}
				3559
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3560	void SIInstrInfo::legalizeOpWithMove(MachineInstr &MI, unsigned OpIdx) const {
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3561	MachineBasicBlock::iterator I = MI;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3562	MachineBasicBlock *MBB = MI.getParent();
				3563	MachineOperand &MO = MI.getOperand(OpIdx);
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3564	MachineRegisterInfo &MRI = MBB->getParent()->getRegInfo();
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	3565	const SIRegisterInfo *TRI =
				3566	static_cast<const SIRegisterInfo*>(MRI.getTargetRegisterInfo());
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3567	unsigned RCID = get(MI.getOpcode()).OpInfo[OpIdx].RegClass;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3568	const TargetRegisterClass *RC = RI.getRegClass(RCID);
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	3569	unsigned Size = TRI->getRegSizeInBits(*RC);
				3570	unsigned Opcode = (Size == 64) ? AMDGPU::V_MOV_B64_PSEUDO : AMDGPU::V_MOV_B32_e32;
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3571	if (MO.isReg())
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3572	Opcode = AMDGPU::COPY;
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3573	else if (RI.isSGPRClass(RC))
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	3574	Opcode = (Size == 64) ? AMDGPU::S_MOV_B64 : AMDGPU::S_MOV_B32;
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3575
Matt Arsenault	3a4d86a	2013-11-18 20:09:55 +0000	[diff] [blame]	3576	const TargetRegisterClass *VRC = RI.getEquivalentVGPRClass(RC);
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3577	if (RI.getCommonSubClass(&AMDGPU::VReg_64RegClass, VRC))
Tom Stellard	0c93c9e	2014-09-05 14:08:01 +0000	[diff] [blame]	3578	VRC = &AMDGPU::VReg_64RegClass;
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3579	else
Tom Stellard	45c0b3a	2015-01-07 20:59:25 +0000	[diff] [blame]	3580	VRC = &AMDGPU::VGPR_32RegClass;
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3581
Matt Arsenault	3a4d86a	2013-11-18 20:09:55 +0000	[diff] [blame]	3582	unsigned Reg = MRI.createVirtualRegister(VRC);
Matt Arsenault	3f3a275	2014-10-13 15:47:59 +0000	[diff] [blame]	3583	DebugLoc DL = MBB->findDebugLoc(I);
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	3584	BuildMI(*MI.getParent(), I, DL, get(Opcode), Reg).add(MO);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	3585	MO.ChangeToRegister(Reg, false);
				3586	}
				3587
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	3588	unsigned SIInstrInfo::buildExtractSubReg(MachineBasicBlock::iterator MI,
				3589	MachineRegisterInfo &MRI,
				3590	MachineOperand &SuperReg,
				3591	const TargetRegisterClass *SuperRC,
				3592	unsigned SubIdx,
				3593	const TargetRegisterClass *SubRC)
				3594	const {
Matt Arsenault	c8e2ce4	2015-09-24 07:16:37 +0000	[diff] [blame]	3595	MachineBasicBlock *MBB = MI->getParent();
				3596	DebugLoc DL = MI->getDebugLoc();
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	3597	unsigned SubReg = MRI.createVirtualRegister(SubRC);
				3598
Matt Arsenault	c8e2ce4	2015-09-24 07:16:37 +0000	[diff] [blame]	3599	if (SuperReg.getSubReg() == AMDGPU::NoSubRegister) {
				3600	BuildMI(*MBB, MI, DL, get(TargetOpcode::COPY), SubReg)
				3601	.addReg(SuperReg.getReg(), 0, SubIdx);
				3602	return SubReg;
				3603	}
				3604
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	3605	// Just in case the super register is itself a sub-register, copy it to a new
Matt Arsenault	08d8494	2014-06-03 23:06:13 +0000	[diff] [blame]	3606	// value so we don't need to worry about merging its subreg index with the
				3607	// SubIdx passed to this function. The register coalescer should be able to
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	3608	// eliminate this extra copy.
Matt Arsenault	c8e2ce4	2015-09-24 07:16:37 +0000	[diff] [blame]	3609	unsigned NewSuperReg = MRI.createVirtualRegister(SuperRC);
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	3610
Matt Arsenault	7480a0e	2014-11-17 21:11:37 +0000	[diff] [blame]	3611	BuildMI(*MBB, MI, DL, get(TargetOpcode::COPY), NewSuperReg)
				3612	.addReg(SuperReg.getReg(), 0, SuperReg.getSubReg());
				3613
				3614	BuildMI(*MBB, MI, DL, get(TargetOpcode::COPY), SubReg)
				3615	.addReg(NewSuperReg, 0, SubIdx);
				3616
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	3617	return SubReg;
				3618	}
				3619
Matt Arsenault	248b7b6	2014-03-24 20:08:09 +0000	[diff] [blame]	3620	MachineOperand SIInstrInfo::buildExtractSubRegOrImm(
				3621	MachineBasicBlock::iterator MII,
				3622	MachineRegisterInfo &MRI,
				3623	MachineOperand &Op,
				3624	const TargetRegisterClass *SuperRC,
				3625	unsigned SubIdx,
				3626	const TargetRegisterClass *SubRC) const {
				3627	if (Op.isImm()) {
Matt Arsenault	248b7b6	2014-03-24 20:08:09 +0000	[diff] [blame]	3628	if (SubIdx == AMDGPU::sub0)
Matt Arsenault	d745c28	2016-09-08 17:44:36 +0000	[diff] [blame]	3629	return MachineOperand::CreateImm(static_cast<int32_t>(Op.getImm()));
Matt Arsenault	248b7b6	2014-03-24 20:08:09 +0000	[diff] [blame]	3630	if (SubIdx == AMDGPU::sub1)
Matt Arsenault	d745c28	2016-09-08 17:44:36 +0000	[diff] [blame]	3631	return MachineOperand::CreateImm(static_cast<int32_t>(Op.getImm() >> 32));
Matt Arsenault	248b7b6	2014-03-24 20:08:09 +0000	[diff] [blame]	3632
				3633	llvm_unreachable("Unhandled register index for immediate");
				3634	}
				3635
				3636	unsigned SubReg = buildExtractSubReg(MII, MRI, Op, SuperRC,
				3637	SubIdx, SubRC);
				3638	return MachineOperand::CreateReg(SubReg, false);
				3639	}
				3640
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	3641	// Change the order of operands from (0, 1, 2) to (0, 2, 1)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3642	void SIInstrInfo::swapOperands(MachineInstr &Inst) const {
				3643	assert(Inst.getNumExplicitOperands() == 3);
				3644	MachineOperand Op1 = Inst.getOperand(1);
				3645	Inst.RemoveOperand(1);
				3646	Inst.addOperand(Op1);
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	3647	}
				3648
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3649	bool SIInstrInfo::isLegalRegOperand(const MachineRegisterInfo &MRI,
				3650	const MCOperandInfo &OpInfo,
				3651	const MachineOperand &MO) const {
				3652	if (!MO.isReg())
				3653	return false;
				3654
				3655	unsigned Reg = MO.getReg();
				3656	const TargetRegisterClass *RC =
				3657	TargetRegisterInfo::isVirtualRegister(Reg) ?
				3658	MRI.getRegClass(Reg) :
				3659	RI.getPhysRegClass(Reg);
				3660
Nicolai Haehnle	82fc962	2016-01-07 17:10:29 +0000	[diff] [blame]	3661	const SIRegisterInfo *TRI =
				3662	static_cast<const SIRegisterInfo*>(MRI.getTargetRegisterInfo());
				3663	RC = TRI->getSubRegClass(RC, MO.getSubReg());
				3664
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3665	// In order to be legal, the common sub-class must be equal to the
				3666	// class of the current operand. For example:
				3667	//
Sam Kolton	1eeb11b	2016-09-09 14:44:04 +0000	[diff] [blame]	3668	// v_mov_b32 s0 ; Operand defined as vsrc_b32
				3669	// ; RI.getCommonSubClass(s0,vsrc_b32) = sgpr ; LEGAL
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3670	//
				3671	// s_sendmsg 0, s0 ; Operand defined as m0reg
				3672	// ; RI.getCommonSubClass(s0,m0reg) = m0reg ; NOT LEGAL
				3673
				3674	return RI.getCommonSubClass(RC, RI.getRegClass(OpInfo.RegClass)) == RC;
				3675	}
				3676
				3677	bool SIInstrInfo::isLegalVSrcOperand(const MachineRegisterInfo &MRI,
				3678	const MCOperandInfo &OpInfo,
				3679	const MachineOperand &MO) const {
				3680	if (MO.isReg())
				3681	return isLegalRegOperand(MRI, OpInfo, MO);
				3682
				3683	// Handle non-register types that are treated like immediates.
				3684	assert(MO.isImm() \|\| MO.isTargetIndex() \|\| MO.isFI());
				3685	return true;
				3686	}
				3687
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3688	bool SIInstrInfo::isOperandLegal(const MachineInstr &MI, unsigned OpIdx,
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3689	const MachineOperand *MO) const {
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3690	const MachineFunction &MF = *MI.getParent()->getParent();
				3691	const MachineRegisterInfo &MRI = MF.getRegInfo();
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3692	const MCInstrDesc &InstDesc = MI.getDesc();
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3693	const MCOperandInfo &OpInfo = InstDesc.OpInfo[OpIdx];
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3694	const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3695	const TargetRegisterClass *DefinedRC =
				3696	OpInfo.RegClass != -1 ? RI.getRegClass(OpInfo.RegClass) : nullptr;
				3697	if (!MO)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3698	MO = &MI.getOperand(OpIdx);
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3699
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3700	int ConstantBusLimit = ST.getConstantBusLimit(MI.getOpcode());
				3701	int VOP3LiteralLimit = ST.hasVOP3Literal() ? 1 : 0;
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	3702	if (isVALU(MI) && usesConstantBus(MRI, *MO, OpInfo)) {
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3703	if (isVOP3(MI) && isLiteralConstantLike(*MO, OpInfo) && !VOP3LiteralLimit--)
				3704	return false;
Matt Arsenault	fcb345f	2016-02-11 06:15:39 +0000	[diff] [blame]	3705
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3706	SmallDenseSet<RegSubRegPair> SGPRsUsed;
Matt Arsenault	fcb345f	2016-02-11 06:15:39 +0000	[diff] [blame]	3707	if (MO->isReg())
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3708	SGPRsUsed.insert(RegSubRegPair(MO->getReg(), MO->getSubReg()));
Matt Arsenault	fcb345f	2016-02-11 06:15:39 +0000	[diff] [blame]	3709
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3710	for (unsigned i = 0, e = MI.getNumOperands(); i != e; ++i) {
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	3711	if (i == OpIdx)
				3712	continue;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3713	const MachineOperand &Op = MI.getOperand(i);
Matt Arsenault	ffc8275	2016-07-05 17:09:01 +0000	[diff] [blame]	3714	if (Op.isReg()) {
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3715	RegSubRegPair SGPR(Op.getReg(), Op.getSubReg());
				3716	if (!SGPRsUsed.count(SGPR) &&
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	3717	usesConstantBus(MRI, Op, InstDesc.OpInfo[i])) {
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3718	if (--ConstantBusLimit <= 0)
				3719	return false;
				3720	SGPRsUsed.insert(SGPR);
Matt Arsenault	ffc8275	2016-07-05 17:09:01 +0000	[diff] [blame]	3721	}
				3722	} else if (InstDesc.OpInfo[i].OperandType == AMDGPU::OPERAND_KIMM32) {
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3723	if (--ConstantBusLimit <= 0)
				3724	return false;
				3725	} else if (isVOP3(MI) && AMDGPU::isSISrcOperand(InstDesc, i) &&
				3726	isLiteralConstantLike(Op, InstDesc.OpInfo[i])) {
				3727	if (!VOP3LiteralLimit--)
				3728	return false;
				3729	if (--ConstantBusLimit <= 0)
				3730	return false;
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	3731	}
				3732	}
				3733	}
				3734
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3735	if (MO->isReg()) {
				3736	assert(DefinedRC);
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3737	return isLegalRegOperand(MRI, OpInfo, *MO);
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3738	}
				3739
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3740	// Handle non-register types that are treated like immediates.
Tom Stellard	fb77f00	2015-01-13 22:59:41 +0000	[diff] [blame]	3741	assert(MO->isImm() \|\| MO->isTargetIndex() \|\| MO->isFI());
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3742
Matt Arsenault	4364fef	2014-09-23 18:30:57 +0000	[diff] [blame]	3743	if (!DefinedRC) {
				3744	// This operand expects an immediate.
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3745	return true;
Matt Arsenault	4364fef	2014-09-23 18:30:57 +0000	[diff] [blame]	3746	}
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3747
Tom Stellard	73ae1cb	2014-09-23 21:26:25 +0000	[diff] [blame]	3748	return isImmOperandLegal(MI, OpIdx, *MO);
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	3749	}
				3750
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3751	void SIInstrInfo::legalizeOperandsVOP2(MachineRegisterInfo &MRI,
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3752	MachineInstr &MI) const {
				3753	unsigned Opc = MI.getOpcode();
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3754	const MCInstrDesc &InstrDesc = get(Opc);
				3755
				3756	int Src1Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src1);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3757	MachineOperand &Src1 = MI.getOperand(Src1Idx);
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3758
				3759	// If there is an implicit SGPR use such as VCC use for v_addc_u32/v_subb_u32
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	3760	// we need to only have one constant bus use before GFX10.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3761	bool HasImplicitSGPR = findImplicitSGPRRead(MI) != AMDGPU::NoRegister;
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3762	if (HasImplicitSGPR && ST.getConstantBusLimit(Opc) <= 1) {
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3763	int Src0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3764	MachineOperand &Src0 = MI.getOperand(Src0Idx);
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3765
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	3766	if (Src0.isReg() && (RI.isSGPRReg(MRI, Src0.getReg()) \|\|
				3767	isLiteralConstantLike(Src0, InstrDesc.OpInfo[Src0Idx])))
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3768	legalizeOpWithMove(MI, Src0Idx);
				3769	}
				3770
Tim Renouf	2a99fa2	2018-02-28 19:10:32 +0000	[diff] [blame]	3771	// Special case: V_WRITELANE_B32 accepts only immediate or SGPR operands for
				3772	// both the value to write (src0) and lane select (src1). Fix up non-SGPR
				3773	// src0/src1 with V_READFIRSTLANE.
				3774	if (Opc == AMDGPU::V_WRITELANE_B32) {
				3775	int Src0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0);
				3776	MachineOperand &Src0 = MI.getOperand(Src0Idx);
				3777	const DebugLoc &DL = MI.getDebugLoc();
				3778	if (Src0.isReg() && RI.isVGPR(MRI, Src0.getReg())) {
				3779	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				3780	BuildMI(*MI.getParent(), MI, DL, get(AMDGPU::V_READFIRSTLANE_B32), Reg)
				3781	.add(Src0);
				3782	Src0.ChangeToRegister(Reg, false);
				3783	}
				3784	if (Src1.isReg() && RI.isVGPR(MRI, Src1.getReg())) {
				3785	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				3786	const DebugLoc &DL = MI.getDebugLoc();
				3787	BuildMI(*MI.getParent(), MI, DL, get(AMDGPU::V_READFIRSTLANE_B32), Reg)
				3788	.add(Src1);
				3789	Src1.ChangeToRegister(Reg, false);
				3790	}
				3791	return;
				3792	}
				3793
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3794	// VOP2 src0 instructions support all operand types, so we don't need to check
				3795	// their legality. If src1 is already legal, we don't need to do anything.
				3796	if (isLegalRegOperand(MRI, InstrDesc.OpInfo[Src1Idx], Src1))
				3797	return;
				3798
Nicolai Haehnle	5dea645	2017-04-24 17:17:36 +0000	[diff] [blame]	3799	// Special case: V_READLANE_B32 accepts only immediate or SGPR operands for
				3800	// lane select. Fix up using V_READFIRSTLANE, since we assume that the lane
				3801	// select is uniform.
				3802	if (Opc == AMDGPU::V_READLANE_B32 && Src1.isReg() &&
				3803	RI.isVGPR(MRI, Src1.getReg())) {
				3804	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				3805	const DebugLoc &DL = MI.getDebugLoc();
				3806	BuildMI(*MI.getParent(), MI, DL, get(AMDGPU::V_READFIRSTLANE_B32), Reg)
				3807	.add(Src1);
				3808	Src1.ChangeToRegister(Reg, false);
				3809	return;
				3810	}
				3811
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3812	// We do not use commuteInstruction here because it is too aggressive and will
				3813	// commute if it is possible. We only want to commute here if it improves
				3814	// legality. This can be called a fairly large number of times so don't waste
				3815	// compile time pointlessly swapping and checking legality again.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3816	if (HasImplicitSGPR \|\| !MI.isCommutable()) {
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3817	legalizeOpWithMove(MI, Src1Idx);
				3818	return;
				3819	}
				3820
				3821	int Src0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3822	MachineOperand &Src0 = MI.getOperand(Src0Idx);
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3823
				3824	// If src0 can be used as src1, commuting will make the operands legal.
				3825	// Otherwise we have to give up and insert a move.
				3826	//
				3827	// TODO: Other immediate-like operand kinds could be commuted if there was a
				3828	// MachineOperand::ChangeTo* for them.
				3829	if ((!Src1.isImm() && !Src1.isReg()) \|\|
				3830	!isLegalRegOperand(MRI, InstrDesc.OpInfo[Src1Idx], Src0)) {
				3831	legalizeOpWithMove(MI, Src1Idx);
				3832	return;
				3833	}
				3834
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3835	int CommutedOpc = commuteOpcode(MI);
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3836	if (CommutedOpc == -1) {
				3837	legalizeOpWithMove(MI, Src1Idx);
				3838	return;
				3839	}
				3840
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3841	MI.setDesc(get(CommutedOpc));
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3842
				3843	unsigned Src0Reg = Src0.getReg();
				3844	unsigned Src0SubReg = Src0.getSubReg();
				3845	bool Src0Kill = Src0.isKill();
				3846
				3847	if (Src1.isImm())
				3848	Src0.ChangeToImmediate(Src1.getImm());
				3849	else if (Src1.isReg()) {
				3850	Src0.ChangeToRegister(Src1.getReg(), false, false, Src1.isKill());
				3851	Src0.setSubReg(Src1.getSubReg());
				3852	} else
				3853	llvm_unreachable("Should only have register or immediate operands");
				3854
				3855	Src1.ChangeToRegister(Src0Reg, false, false, Src0Kill);
				3856	Src1.setSubReg(Src0SubReg);
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	3857	fixImplicitOperands(MI);
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	3858	}
				3859
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	3860	// Legalize VOP3 operands. All operand types are supported for any operand
				3861	// but only one literal constant and only starting from GFX10.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3862	void SIInstrInfo::legalizeOperandsVOP3(MachineRegisterInfo &MRI,
				3863	MachineInstr &MI) const {
				3864	unsigned Opc = MI.getOpcode();
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3865
				3866	int VOP3Idx[3] = {
				3867	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0),
				3868	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src1),
				3869	AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src2)
				3870	};
				3871
Stanislav Mekhanoshin	5f581c9	2019-06-12 17:52:51 +0000	[diff] [blame]	3872	if (Opc == AMDGPU::V_PERMLANE16_B32 \|\|
				3873	Opc == AMDGPU::V_PERMLANEX16_B32) {
				3874	// src1 and src2 must be scalar
				3875	MachineOperand &Src1 = MI.getOperand(VOP3Idx[1]);
				3876	MachineOperand &Src2 = MI.getOperand(VOP3Idx[2]);
				3877	const DebugLoc &DL = MI.getDebugLoc();
				3878	if (Src1.isReg() && !RI.isSGPRClass(MRI.getRegClass(Src1.getReg()))) {
				3879	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				3880	BuildMI(*MI.getParent(), MI, DL, get(AMDGPU::V_READFIRSTLANE_B32), Reg)
				3881	.add(Src1);
				3882	Src1.ChangeToRegister(Reg, false);
				3883	}
				3884	if (Src2.isReg() && !RI.isSGPRClass(MRI.getRegClass(Src2.getReg()))) {
				3885	unsigned Reg = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				3886	BuildMI(*MI.getParent(), MI, DL, get(AMDGPU::V_READFIRSTLANE_B32), Reg)
				3887	.add(Src2);
				3888	Src2.ChangeToRegister(Reg, false);
				3889	}
				3890	}
				3891
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3892	// Find the one SGPR operand we are allowed to use.
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3893	int ConstantBusLimit = ST.getConstantBusLimit(Opc);
				3894	int LiteralLimit = ST.hasVOP3Literal() ? 1 : 0;
				3895	SmallDenseSet<unsigned> SGPRsUsed;
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3896	unsigned SGPRReg = findUsedSGPR(MI, VOP3Idx);
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3897	if (SGPRReg != AMDGPU::NoRegister) {
				3898	SGPRsUsed.insert(SGPRReg);
				3899	--ConstantBusLimit;
				3900	}
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3901
				3902	for (unsigned i = 0; i < 3; ++i) {
				3903	int Idx = VOP3Idx[i];
				3904	if (Idx == -1)
				3905	break;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3906	MachineOperand &MO = MI.getOperand(Idx);
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3907
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3908	if (!MO.isReg()) {
				3909	if (!isLiteralConstantLike(MO, get(Opc).OpInfo[Idx]))
				3910	continue;
				3911
				3912	if (LiteralLimit > 0 && ConstantBusLimit > 0) {
				3913	--LiteralLimit;
				3914	--ConstantBusLimit;
				3915	continue;
				3916	}
				3917
				3918	--LiteralLimit;
				3919	--ConstantBusLimit;
				3920	legalizeOpWithMove(MI, Idx);
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3921	continue;
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3922	}
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3923
				3924	if (!RI.isSGPRClass(MRI.getRegClass(MO.getReg())))
				3925	continue; // VGPRs are legal
				3926
Stanislav Mekhanoshin	f2baae0	2019-05-02 03:47:23 +0000	[diff] [blame]	3927	// We can use one SGPR in each VOP3 instruction prior to GFX10
				3928	// and two starting from GFX10.
				3929	if (SGPRsUsed.count(MO.getReg()))
				3930	continue;
				3931	if (ConstantBusLimit > 0) {
				3932	SGPRsUsed.insert(MO.getReg());
				3933	--ConstantBusLimit;
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	3934	continue;
				3935	}
				3936
				3937	// If we make it this far, then the operand is not legal and we must
				3938	// legalize it.
				3939	legalizeOpWithMove(MI, Idx);
				3940	}
				3941	}
				3942
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3943	unsigned SIInstrInfo::readlaneVGPRToSGPR(unsigned SrcReg, MachineInstr &UseMI,
				3944	MachineRegisterInfo &MRI) const {
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	3945	const TargetRegisterClass *VRC = MRI.getRegClass(SrcReg);
				3946	const TargetRegisterClass *SRC = RI.getEquivalentSGPRClass(VRC);
				3947	unsigned DstReg = MRI.createVirtualRegister(SRC);
Krzysztof Parzyszek	44e25f3	2017-04-24 18:55:33 +0000	[diff] [blame]	3948	unsigned SubRegs = RI.getRegSizeInBits(*VRC) / 32;
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	3949
Nicolai Haehnle	7a87977	2018-04-20 07:14:25 +0000	[diff] [blame]	3950	if (SubRegs == 1) {
				3951	BuildMI(*UseMI.getParent(), UseMI, UseMI.getDebugLoc(),
				3952	get(AMDGPU::V_READFIRSTLANE_B32), DstReg)
				3953	.addReg(SrcReg);
				3954	return DstReg;
				3955	}
				3956
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	3957	SmallVector<unsigned, 8> SRegs;
				3958	for (unsigned i = 0; i < SubRegs; ++i) {
				3959	unsigned SGPR = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3960	BuildMI(*UseMI.getParent(), UseMI, UseMI.getDebugLoc(),
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	3961	get(AMDGPU::V_READFIRSTLANE_B32), SGPR)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3962	.addReg(SrcReg, 0, RI.getSubRegFromChannel(i));
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	3963	SRegs.push_back(SGPR);
				3964	}
				3965
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3966	MachineInstrBuilder MIB =
				3967	BuildMI(*UseMI.getParent(), UseMI, UseMI.getDebugLoc(),
				3968	get(AMDGPU::REG_SEQUENCE), DstReg);
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	3969	for (unsigned i = 0; i < SubRegs; ++i) {
				3970	MIB.addReg(SRegs[i]);
				3971	MIB.addImm(RI.getSubRegFromChannel(i));
				3972	}
				3973	return DstReg;
				3974	}
				3975
Tom Stellard	467b5b9	2016-02-20 00:37:25 +0000	[diff] [blame]	3976	void SIInstrInfo::legalizeOperandsSMRD(MachineRegisterInfo &MRI,
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3977	MachineInstr &MI) const {
Tom Stellard	467b5b9	2016-02-20 00:37:25 +0000	[diff] [blame]	3978
				3979	// If the pointer is store in VGPRs, then we need to move them to
				3980	// SGPRs using v_readfirstlane. This is safe because we only select
				3981	// loads with uniform pointers to SMRD instruction so we know the
				3982	// pointer value is uniform.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	3983	MachineOperand *SBase = getNamedOperand(MI, AMDGPU::OpName::sbase);
Tom Stellard	467b5b9	2016-02-20 00:37:25 +0000	[diff] [blame]	3984	if (SBase && !RI.isSGPRClass(MRI.getRegClass(SBase->getReg()))) {
Nicolai Haehnle	a7b0005	2018-11-30 22:55:38 +0000	[diff] [blame]	3985	unsigned SGPR = readlaneVGPRToSGPR(SBase->getReg(), MI, MRI);
				3986	SBase->setReg(SGPR);
				3987	}
				3988	MachineOperand *SOff = getNamedOperand(MI, AMDGPU::OpName::soff);
				3989	if (SOff && !RI.isSGPRClass(MRI.getRegClass(SOff->getReg()))) {
				3990	unsigned SGPR = readlaneVGPRToSGPR(SOff->getReg(), MI, MRI);
				3991	SOff->setReg(SGPR);
Tom Stellard	467b5b9	2016-02-20 00:37:25 +0000	[diff] [blame]	3992	}
				3993	}
				3994
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	3995	void SIInstrInfo::legalizeGenericOperand(MachineBasicBlock &InsertMBB,
				3996	MachineBasicBlock::iterator I,
				3997	const TargetRegisterClass *DstRC,
				3998	MachineOperand &Op,
				3999	MachineRegisterInfo &MRI,
				4000	const DebugLoc &DL) const {
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4001	unsigned OpReg = Op.getReg();
				4002	unsigned OpSubReg = Op.getSubReg();
				4003
				4004	const TargetRegisterClass *OpRC = RI.getSubClassWithSubReg(
				4005	RI.getRegClassForReg(MRI, OpReg), OpSubReg);
				4006
				4007	// Check if operand is already the correct register class.
				4008	if (DstRC == OpRC)
				4009	return;
				4010
				4011	unsigned DstReg = MRI.createVirtualRegister(DstRC);
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	4012	MachineInstr *Copy =
				4013	BuildMI(InsertMBB, I, DL, get(AMDGPU::COPY), DstReg).add(Op);
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4014
				4015	Op.setReg(DstReg);
				4016	Op.setSubReg(0);
				4017
				4018	MachineInstr *Def = MRI.getVRegDef(OpReg);
				4019	if (!Def)
				4020	return;
				4021
				4022	// Try to eliminate the copy if it is copying an immediate value.
Alexander Timofeev	37bd9bd	2019-06-06 21:13:02 +0000	[diff] [blame]	4023	if (Def->isMoveImmediate())
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4024	FoldImmediate(Copy, Def, OpReg, &MRI);
				4025	}
				4026
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4027	// Emit the actual waterfall loop, executing the wrapped instruction for each
				4028	// unique value of \p Rsrc across all lanes. In the best case we execute 1
				4029	// iteration, in the worst case we execute 64 (once per lane).
				4030	static void
				4031	emitLoadSRsrcFromVGPRLoop(const SIInstrInfo &TII, MachineRegisterInfo &MRI,
				4032	MachineBasicBlock &OrigBB, MachineBasicBlock &LoopBB,
				4033	const DebugLoc &DL, MachineOperand &Rsrc) {
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4034	MachineFunction &MF = *OrigBB.getParent();
				4035	const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();
				4036	const SIRegisterInfo *TRI = ST.getRegisterInfo();
				4037	unsigned Exec = ST.isWave32() ? AMDGPU::EXEC_LO : AMDGPU::EXEC;
				4038	unsigned SaveExecOpc =
				4039	ST.isWave32() ? AMDGPU::S_AND_SAVEEXEC_B32 : AMDGPU::S_AND_SAVEEXEC_B64;
				4040	unsigned XorTermOpc =
				4041	ST.isWave32() ? AMDGPU::S_XOR_B32_term : AMDGPU::S_XOR_B64_term;
				4042	unsigned AndOpc =
				4043	ST.isWave32() ? AMDGPU::S_AND_B32 : AMDGPU::S_AND_B64;
				4044	const auto *BoolXExecRC = TRI->getRegClass(AMDGPU::SReg_1_XEXECRegClassID);
				4045
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4046	MachineBasicBlock::iterator I = LoopBB.begin();
				4047
				4048	unsigned VRsrc = Rsrc.getReg();
				4049	unsigned VRsrcUndef = getUndefRegState(Rsrc.isUndef());
				4050
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4051	unsigned SaveExec = MRI.createVirtualRegister(BoolXExecRC);
				4052	unsigned CondReg0 = MRI.createVirtualRegister(BoolXExecRC);
				4053	unsigned CondReg1 = MRI.createVirtualRegister(BoolXExecRC);
				4054	unsigned AndCond = MRI.createVirtualRegister(BoolXExecRC);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4055	unsigned SRsrcSub0 = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				4056	unsigned SRsrcSub1 = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				4057	unsigned SRsrcSub2 = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				4058	unsigned SRsrcSub3 = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				4059	unsigned SRsrc = MRI.createVirtualRegister(&AMDGPU::SReg_128RegClass);
				4060
				4061	// Beginning of the loop, read the next Rsrc variant.
				4062	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::V_READFIRSTLANE_B32), SRsrcSub0)
				4063	.addReg(VRsrc, VRsrcUndef, AMDGPU::sub0);
				4064	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::V_READFIRSTLANE_B32), SRsrcSub1)
				4065	.addReg(VRsrc, VRsrcUndef, AMDGPU::sub1);
				4066	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::V_READFIRSTLANE_B32), SRsrcSub2)
				4067	.addReg(VRsrc, VRsrcUndef, AMDGPU::sub2);
				4068	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::V_READFIRSTLANE_B32), SRsrcSub3)
				4069	.addReg(VRsrc, VRsrcUndef, AMDGPU::sub3);
				4070
				4071	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::REG_SEQUENCE), SRsrc)
				4072	.addReg(SRsrcSub0)
				4073	.addImm(AMDGPU::sub0)
				4074	.addReg(SRsrcSub1)
				4075	.addImm(AMDGPU::sub1)
				4076	.addReg(SRsrcSub2)
				4077	.addImm(AMDGPU::sub2)
				4078	.addReg(SRsrcSub3)
				4079	.addImm(AMDGPU::sub3);
				4080
				4081	// Update Rsrc operand to use the SGPR Rsrc.
				4082	Rsrc.setReg(SRsrc);
				4083	Rsrc.setIsKill(true);
				4084
				4085	// Identify all lanes with identical Rsrc operands in their VGPRs.
				4086	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::V_CMP_EQ_U64_e64), CondReg0)
				4087	.addReg(SRsrc, 0, AMDGPU::sub0_sub1)
				4088	.addReg(VRsrc, 0, AMDGPU::sub0_sub1);
				4089	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::V_CMP_EQ_U64_e64), CondReg1)
				4090	.addReg(SRsrc, 0, AMDGPU::sub2_sub3)
				4091	.addReg(VRsrc, 0, AMDGPU::sub2_sub3);
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4092	BuildMI(LoopBB, I, DL, TII.get(AndOpc), AndCond)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4093	.addReg(CondReg0)
				4094	.addReg(CondReg1);
				4095
				4096	MRI.setSimpleHint(SaveExec, AndCond);
				4097
				4098	// Update EXEC to matching lanes, saving original to SaveExec.
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4099	BuildMI(LoopBB, I, DL, TII.get(SaveExecOpc), SaveExec)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4100	.addReg(AndCond, RegState::Kill);
				4101
				4102	// The original instruction is here; we insert the terminators after it.
				4103	I = LoopBB.end();
				4104
				4105	// Update EXEC, switch all done bits to 0 and all todo bits to 1.
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4106	BuildMI(LoopBB, I, DL, TII.get(XorTermOpc), Exec)
				4107	.addReg(Exec)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4108	.addReg(SaveExec);
				4109	BuildMI(LoopBB, I, DL, TII.get(AMDGPU::S_CBRANCH_EXECNZ)).addMBB(&LoopBB);
				4110	}
				4111
				4112	// Build a waterfall loop around \p MI, replacing the VGPR \p Rsrc register
				4113	// with SGPRs by iterating over all unique values across all lanes.
				4114	static void loadSRsrcFromVGPR(const SIInstrInfo &TII, MachineInstr &MI,
				4115	MachineOperand &Rsrc, MachineDominatorTree *MDT) {
				4116	MachineBasicBlock &MBB = *MI.getParent();
				4117	MachineFunction &MF = *MBB.getParent();
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4118	const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();
				4119	const SIRegisterInfo *TRI = ST.getRegisterInfo();
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4120	MachineRegisterInfo &MRI = MF.getRegInfo();
				4121	MachineBasicBlock::iterator I(&MI);
				4122	const DebugLoc &DL = MI.getDebugLoc();
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4123	unsigned Exec = ST.isWave32() ? AMDGPU::EXEC_LO : AMDGPU::EXEC;
				4124	unsigned MovExecOpc = ST.isWave32() ? AMDGPU::S_MOV_B32 : AMDGPU::S_MOV_B64;
				4125	const auto *BoolXExecRC = TRI->getRegClass(AMDGPU::SReg_1_XEXECRegClassID);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4126
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4127	unsigned SaveExec = MRI.createVirtualRegister(BoolXExecRC);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4128
				4129	// Save the EXEC mask
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4130	BuildMI(MBB, I, DL, TII.get(MovExecOpc), SaveExec).addReg(Exec);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4131
				4132	// Killed uses in the instruction we are waterfalling around will be
				4133	// incorrect due to the added control-flow.
				4134	for (auto &MO : MI.uses()) {
				4135	if (MO.isReg() && MO.isUse()) {
				4136	MRI.clearKillFlags(MO.getReg());
				4137	}
				4138	}
				4139
				4140	// To insert the loop we need to split the block. Move everything after this
				4141	// point to a new block, and insert a new empty block between the two.
				4142	MachineBasicBlock *LoopBB = MF.CreateMachineBasicBlock();
				4143	MachineBasicBlock *RemainderBB = MF.CreateMachineBasicBlock();
				4144	MachineFunction::iterator MBBI(MBB);
				4145	++MBBI;
				4146
				4147	MF.insert(MBBI, LoopBB);
				4148	MF.insert(MBBI, RemainderBB);
				4149
				4150	LoopBB->addSuccessor(LoopBB);
				4151	LoopBB->addSuccessor(RemainderBB);
				4152
				4153	// Move MI to the LoopBB, and the remainder of the block to RemainderBB.
				4154	MachineBasicBlock::iterator J = I++;
				4155	RemainderBB->transferSuccessorsAndUpdatePHIs(&MBB);
				4156	RemainderBB->splice(RemainderBB->begin(), &MBB, I, MBB.end());
				4157	LoopBB->splice(LoopBB->begin(), &MBB, J);
				4158
				4159	MBB.addSuccessor(LoopBB);
				4160
				4161	// Update dominators. We know that MBB immediately dominates LoopBB, that
				4162	// LoopBB immediately dominates RemainderBB, and that RemainderBB immediately
				4163	// dominates all of the successors transferred to it from MBB that MBB used
				4164	// to dominate.
				4165	if (MDT) {
				4166	MDT->addNewBlock(LoopBB, &MBB);
				4167	MDT->addNewBlock(RemainderBB, LoopBB);
				4168	for (auto &Succ : RemainderBB->successors()) {
				4169	if (MDT->dominates(&MBB, Succ)) {
				4170	MDT->changeImmediateDominator(Succ, RemainderBB);
				4171	}
				4172	}
				4173	}
				4174
				4175	emitLoadSRsrcFromVGPRLoop(TII, MRI, MBB, *LoopBB, DL, Rsrc);
				4176
				4177	// Restore the EXEC mask
				4178	MachineBasicBlock::iterator First = RemainderBB->begin();
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4179	BuildMI(*RemainderBB, First, DL, TII.get(MovExecOpc), Exec).addReg(SaveExec);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4180	}
				4181
				4182	// Extract pointer from Rsrc and return a zero-value Rsrc replacement.
				4183	static std::tuple<unsigned, unsigned>
				4184	extractRsrcPtr(const SIInstrInfo &TII, MachineInstr &MI, MachineOperand &Rsrc) {
				4185	MachineBasicBlock &MBB = *MI.getParent();
				4186	MachineFunction &MF = *MBB.getParent();
				4187	MachineRegisterInfo &MRI = MF.getRegInfo();
				4188
				4189	// Extract the ptr from the resource descriptor.
				4190	unsigned RsrcPtr =
				4191	TII.buildExtractSubReg(MI, MRI, Rsrc, &AMDGPU::VReg_128RegClass,
				4192	AMDGPU::sub0_sub1, &AMDGPU::VReg_64RegClass);
				4193
				4194	// Create an empty resource descriptor
				4195	unsigned Zero64 = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				4196	unsigned SRsrcFormatLo = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				4197	unsigned SRsrcFormatHi = MRI.createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				4198	unsigned NewSRsrc = MRI.createVirtualRegister(&AMDGPU::SReg_128RegClass);
				4199	uint64_t RsrcDataFormat = TII.getDefaultRsrcDataFormat();
				4200
				4201	// Zero64 = 0
				4202	BuildMI(MBB, MI, MI.getDebugLoc(), TII.get(AMDGPU::S_MOV_B64), Zero64)
				4203	.addImm(0);
				4204
				4205	// SRsrcFormatLo = RSRC_DATA_FORMAT{31-0}
				4206	BuildMI(MBB, MI, MI.getDebugLoc(), TII.get(AMDGPU::S_MOV_B32), SRsrcFormatLo)
				4207	.addImm(RsrcDataFormat & 0xFFFFFFFF);
				4208
				4209	// SRsrcFormatHi = RSRC_DATA_FORMAT{63-32}
				4210	BuildMI(MBB, MI, MI.getDebugLoc(), TII.get(AMDGPU::S_MOV_B32), SRsrcFormatHi)
				4211	.addImm(RsrcDataFormat >> 32);
				4212
				4213	// NewSRsrc = {Zero64, SRsrcFormat}
				4214	BuildMI(MBB, MI, MI.getDebugLoc(), TII.get(AMDGPU::REG_SEQUENCE), NewSRsrc)
				4215	.addReg(Zero64)
				4216	.addImm(AMDGPU::sub0_sub1)
				4217	.addReg(SRsrcFormatLo)
				4218	.addImm(AMDGPU::sub2)
				4219	.addReg(SRsrcFormatHi)
				4220	.addImm(AMDGPU::sub3);
				4221
				4222	return std::make_tuple(RsrcPtr, NewSRsrc);
				4223	}
				4224
				4225	void SIInstrInfo::legalizeOperands(MachineInstr &MI,
				4226	MachineDominatorTree *MDT) const {
Nicolai Haehnle	ce2b589	2016-11-18 11:55:52 +0000	[diff] [blame]	4227	MachineFunction &MF = *MI.getParent()->getParent();
				4228	MachineRegisterInfo &MRI = MF.getRegInfo();
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4229
				4230	// Legalize VOP2
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4231	if (isVOP2(MI) \|\| isVOPC(MI)) {
Matt Arsenault	856d192	2015-12-01 19:57:17 +0000	[diff] [blame]	4232	legalizeOperandsVOP2(MRI, MI);
Tom Stellard	0e975cf	2014-08-01 00:32:35 +0000	[diff] [blame]	4233	return;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4234	}
				4235
				4236	// Legalize VOP3
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4237	if (isVOP3(MI)) {
Matt Arsenault	6005fcb	2015-10-21 21:51:02 +0000	[diff] [blame]	4238	legalizeOperandsVOP3(MRI, MI);
Matt Arsenault	e068f9a	2015-09-24 07:51:28 +0000	[diff] [blame]	4239	return;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4240	}
				4241
Tom Stellard	467b5b9	2016-02-20 00:37:25 +0000	[diff] [blame]	4242	// Legalize SMRD
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4243	if (isSMRD(MI)) {
Tom Stellard	467b5b9	2016-02-20 00:37:25 +0000	[diff] [blame]	4244	legalizeOperandsSMRD(MRI, MI);
				4245	return;
				4246	}
				4247
Tom Stellard	4f3b04d	2014-04-17 21:00:07 +0000	[diff] [blame]	4248	// Legalize REG_SEQUENCE and PHI
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4249	// The register class of the operands much be the same type as the register
				4250	// class of the output.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4251	if (MI.getOpcode() == AMDGPU::PHI) {
Craig Topper	062a2ba	2014-04-25 05:30:21 +0000	[diff] [blame]	4252	const TargetRegisterClass RC = nullptr, SRC = nullptr, *VRC = nullptr;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4253	for (unsigned i = 1, e = MI.getNumOperands(); i != e; i += 2) {
				4254	if (!MI.getOperand(i).isReg() \|\|
				4255	!TargetRegisterInfo::isVirtualRegister(MI.getOperand(i).getReg()))
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4256	continue;
				4257	const TargetRegisterClass *OpRC =
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4258	MRI.getRegClass(MI.getOperand(i).getReg());
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4259	if (RI.hasVGPRs(OpRC)) {
				4260	VRC = OpRC;
				4261	} else {
				4262	SRC = OpRC;
				4263	}
				4264	}
				4265
				4266	// If any of the operands are VGPR registers, then they all most be
				4267	// otherwise we will create illegal VGPR->SGPR copies when legalizing
				4268	// them.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4269	if (VRC \|\| !RI.isSGPRClass(getOpRegClass(MI, 0))) {
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4270	if (!VRC) {
				4271	assert(SRC);
Alexander Timofeev	37bd9bd	2019-06-06 21:13:02 +0000	[diff] [blame]	4272	VRC = RI.getEquivalentVGPRClass(SRC);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4273	}
				4274	RC = VRC;
				4275	} else {
				4276	RC = SRC;
				4277	}
				4278
				4279	// Update all the operands so they have the same type.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4280	for (unsigned I = 1, E = MI.getNumOperands(); I != E; I += 2) {
				4281	MachineOperand &Op = MI.getOperand(I);
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4282	if (!Op.isReg() \|\| !TargetRegisterInfo::isVirtualRegister(Op.getReg()))
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4283	continue;
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4284
				4285	// MI is a PHI instruction.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4286	MachineBasicBlock *InsertBB = MI.getOperand(I + 1).getMBB();
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4287	MachineBasicBlock::iterator Insert = InsertBB->getFirstTerminator();
				4288
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4289	// Avoid creating no-op copies with the same src and dst reg class. These
				4290	// confuse some of the machine passes.
				4291	legalizeGenericOperand(*InsertBB, Insert, RC, Op, MRI, MI.getDebugLoc());
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4292	}
				4293	}
				4294
				4295	// REG_SEQUENCE doesn't really require operand legalization, but if one has a
				4296	// VGPR dest type and SGPR sources, insert copies so all operands are
				4297	// VGPRs. This seems to help operand folding / the register coalescer.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4298	if (MI.getOpcode() == AMDGPU::REG_SEQUENCE) {
				4299	MachineBasicBlock *MBB = MI.getParent();
				4300	const TargetRegisterClass *DstRC = getOpRegClass(MI, 0);
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4301	if (RI.hasVGPRs(DstRC)) {
				4302	// Update all the operands so they are VGPR register classes. These may
				4303	// not be the same register class because REG_SEQUENCE supports mixing
				4304	// subregister index types e.g. sub0_sub1 + sub2 + sub3
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4305	for (unsigned I = 1, E = MI.getNumOperands(); I != E; I += 2) {
				4306	MachineOperand &Op = MI.getOperand(I);
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4307	if (!Op.isReg() \|\| !TargetRegisterInfo::isVirtualRegister(Op.getReg()))
				4308	continue;
				4309
				4310	const TargetRegisterClass *OpRC = MRI.getRegClass(Op.getReg());
				4311	const TargetRegisterClass *VRC = RI.getEquivalentVGPRClass(OpRC);
				4312	if (VRC == OpRC)
				4313	continue;
				4314
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4315	legalizeGenericOperand(*MBB, MI, VRC, Op, MRI, MI.getDebugLoc());
Matt Arsenault	2d6fdb8	2015-09-25 17:08:42 +0000	[diff] [blame]	4316	Op.setIsKill();
Tom Stellard	4f3b04d	2014-04-17 21:00:07 +0000	[diff] [blame]	4317	}
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4318	}
Matt Arsenault	e068f9a	2015-09-24 07:51:28 +0000	[diff] [blame]	4319
				4320	return;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4321	}
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4322
Tom Stellard	a568738	2014-05-15 14:41:55 +0000	[diff] [blame]	4323	// Legalize INSERT_SUBREG
				4324	// src0 must have the same register class as dst
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4325	if (MI.getOpcode() == AMDGPU::INSERT_SUBREG) {
				4326	unsigned Dst = MI.getOperand(0).getReg();
				4327	unsigned Src0 = MI.getOperand(1).getReg();
Tom Stellard	a568738	2014-05-15 14:41:55 +0000	[diff] [blame]	4328	const TargetRegisterClass *DstRC = MRI.getRegClass(Dst);
				4329	const TargetRegisterClass *Src0RC = MRI.getRegClass(Src0);
				4330	if (DstRC != Src0RC) {
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4331	MachineBasicBlock *MBB = MI.getParent();
				4332	MachineOperand &Op = MI.getOperand(1);
				4333	legalizeGenericOperand(*MBB, MI, DstRC, Op, MRI, MI.getDebugLoc());
Tom Stellard	a568738	2014-05-15 14:41:55 +0000	[diff] [blame]	4334	}
				4335	return;
				4336	}
				4337
Nicolai Haehnle	7a87977	2018-04-20 07:14:25 +0000	[diff] [blame]	4338	// Legalize SI_INIT_M0
				4339	if (MI.getOpcode() == AMDGPU::SI_INIT_M0) {
				4340	MachineOperand &Src = MI.getOperand(0);
				4341	if (Src.isReg() && RI.hasVGPRs(MRI.getRegClass(Src.getReg())))
				4342	Src.setReg(readlaneVGPRToSGPR(Src.getReg(), MI, MRI));
				4343	return;
				4344	}
				4345
Nicolai Haehnle	ce2b589	2016-11-18 11:55:52 +0000	[diff] [blame]	4346	// Legalize MIMG and MUBUF/MTBUF for shaders.
				4347	//
				4348	// Shaders only generate MUBUF/MTBUF instructions via intrinsics or via
				4349	// scratch memory access. In both cases, the legalization never involves
				4350	// conversion to the addr64 form.
				4351	if (isMIMG(MI) \|\|
Matthias Braun	f1caa28	2017-12-15 22:22:58 +0000	[diff] [blame]	4352	(AMDGPU::isShader(MF.getFunction().getCallingConv()) &&
Nicolai Haehnle	ce2b589	2016-11-18 11:55:52 +0000	[diff] [blame]	4353	(isMUBUF(MI) \|\| isMTBUF(MI)))) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4354	MachineOperand *SRsrc = getNamedOperand(MI, AMDGPU::OpName::srsrc);
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	4355	if (SRsrc && !RI.isSGPRClass(MRI.getRegClass(SRsrc->getReg()))) {
				4356	unsigned SGPR = readlaneVGPRToSGPR(SRsrc->getReg(), MI, MRI);
				4357	SRsrc->setReg(SGPR);
				4358	}
				4359
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4360	MachineOperand *SSamp = getNamedOperand(MI, AMDGPU::OpName::ssamp);
Tom Stellard	1397d49	2016-02-11 21:45:07 +0000	[diff] [blame]	4361	if (SSamp && !RI.isSGPRClass(MRI.getRegClass(SSamp->getReg()))) {
				4362	unsigned SGPR = readlaneVGPRToSGPR(SSamp->getReg(), MI, MRI);
				4363	SSamp->setReg(SGPR);
				4364	}
				4365	return;
				4366	}
				4367
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4368	// Legalize MUBUF* instructions.
				4369	int RsrcIdx =
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4370	AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::srsrc);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4371	if (RsrcIdx != -1) {
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	4372	// We have an MUBUF instruction
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4373	MachineOperand *Rsrc = &MI.getOperand(RsrcIdx);
				4374	unsigned RsrcRC = get(MI.getOpcode()).OpInfo[RsrcIdx].RegClass;
				4375	if (RI.getCommonSubClass(MRI.getRegClass(Rsrc->getReg()),
				4376	RI.getRegClass(RsrcRC))) {
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	4377	// The operands are legal.
				4378	// FIXME: We may need to legalize operands besided srsrc.
				4379	return;
				4380	}
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4381
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4382	// Legalize a VGPR Rsrc.
				4383	//
				4384	// If the instruction is _ADDR64, we can avoid a waterfall by extracting
				4385	// the base pointer from the VGPR Rsrc, adding it to the VAddr, then using
				4386	// a zero-value SRsrc.
				4387	//
				4388	// If the instruction is _OFFSET (both idxen and offen disabled), and we
				4389	// support ADDR64 instructions, we can convert to ADDR64 and do the same as
				4390	// above.
				4391	//
				4392	// Otherwise we are on non-ADDR64 hardware, and/or we have
				4393	// idxen/offen/bothen and we fall back to a waterfall loop.
				4394
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4395	MachineBasicBlock &MBB = *MI.getParent();
Matt Arsenault	ef67d76	2015-09-09 17:03:29 +0000	[diff] [blame]	4396
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4397	MachineOperand *VAddr = getNamedOperand(MI, AMDGPU::OpName::vaddr);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4398	if (VAddr && AMDGPU::getIfAddr64Inst(MI.getOpcode()) != -1) {
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	4399	// This is already an ADDR64 instruction so we need to add the pointer
				4400	// extracted from the resource descriptor to the current value of VAddr.
Matt Arsenault	ef67d76	2015-09-09 17:03:29 +0000	[diff] [blame]	4401	unsigned NewVAddrLo = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				4402	unsigned NewVAddrHi = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4403	unsigned NewVAddr = MRI.createVirtualRegister(&AMDGPU::VReg_64RegClass);
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	4404
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4405	unsigned RsrcPtr, NewSRsrc;
				4406	std::tie(RsrcPtr, NewSRsrc) = extractRsrcPtr(this, MI, Rsrc);
				4407
				4408	// NewVaddrLo = RsrcPtr:sub0 + VAddr:sub0
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4409	DebugLoc DL = MI.getDebugLoc();
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4410	fixImplicitOperands(*
				4411	BuildMI(MBB, MI, DL, get(AMDGPU::V_ADD_I32_e32), NewVAddrLo)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4412	.addReg(RsrcPtr, 0, AMDGPU::sub0)
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4413	.addReg(VAddr->getReg(), 0, AMDGPU::sub0));
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4414
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4415	// NewVaddrHi = RsrcPtr:sub1 + VAddr:sub1
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4416	fixImplicitOperands(*
				4417	BuildMI(MBB, MI, DL, get(AMDGPU::V_ADDC_U32_e32), NewVAddrHi)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4418	.addReg(RsrcPtr, 0, AMDGPU::sub1)
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4419	.addReg(VAddr->getReg(), 0, AMDGPU::sub1));
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4420
Matt Arsenault	ef67d76	2015-09-09 17:03:29 +0000	[diff] [blame]	4421	// NewVaddr = {NewVaddrHi, NewVaddrLo}
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4422	BuildMI(MBB, MI, MI.getDebugLoc(), get(AMDGPU::REG_SEQUENCE), NewVAddr)
				4423	.addReg(NewVAddrLo)
				4424	.addImm(AMDGPU::sub0)
				4425	.addReg(NewVAddrHi)
				4426	.addImm(AMDGPU::sub1);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4427
				4428	VAddr->setReg(NewVAddr);
				4429	Rsrc->setReg(NewSRsrc);
				4430	} else if (!VAddr && ST.hasAddr64()) {
Tom Stellard	155bbb7	2014-08-11 22:18:17 +0000	[diff] [blame]	4431	// This instructions is the _OFFSET variant, so we need to convert it to
				4432	// ADDR64.
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4433	assert(MBB.getParent()->getSubtarget<GCNSubtarget>().getGeneration()
				4434	< AMDGPUSubtarget::VOLCANIC_ISLANDS &&
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4435	"FIXME: Need to emit flat atomics here");
				4436
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4437	unsigned RsrcPtr, NewSRsrc;
				4438	std::tie(RsrcPtr, NewSRsrc) = extractRsrcPtr(this, MI, Rsrc);
				4439
				4440	unsigned NewVAddr = MRI.createVirtualRegister(&AMDGPU::VReg_64RegClass);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4441	MachineOperand *VData = getNamedOperand(MI, AMDGPU::OpName::vdata);
				4442	MachineOperand *Offset = getNamedOperand(MI, AMDGPU::OpName::offset);
				4443	MachineOperand *SOffset = getNamedOperand(MI, AMDGPU::OpName::soffset);
				4444	unsigned Addr64Opcode = AMDGPU::getAddr64Inst(MI.getOpcode());
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4445
				4446	// Atomics rith return have have an additional tied operand and are
				4447	// missing some of the special bits.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4448	MachineOperand *VDataIn = getNamedOperand(MI, AMDGPU::OpName::vdata_in);
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4449	MachineInstr *Addr64;
				4450
				4451	if (!VDataIn) {
				4452	// Regular buffer load / store.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4453	MachineInstrBuilder MIB =
				4454	BuildMI(MBB, MI, MI.getDebugLoc(), get(Addr64Opcode))
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	4455	.add(*VData)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4456	.addReg(NewVAddr)
				4457	.addReg(NewSRsrc)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	4458	.add(*SOffset)
				4459	.add(*Offset);
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4460
				4461	// Atomics do not have this operand.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4462	if (const MachineOperand *GLC =
				4463	getNamedOperand(MI, AMDGPU::OpName::glc)) {
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4464	MIB.addImm(GLC->getImm());
				4465	}
Stanislav Mekhanoshin	a632294	2019-04-30 22:08:23 +0000	[diff] [blame]	4466	if (const MachineOperand *DLC =
				4467	getNamedOperand(MI, AMDGPU::OpName::dlc)) {
				4468	MIB.addImm(DLC->getImm());
				4469	}
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4470
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4471	MIB.addImm(getNamedImmOperand(MI, AMDGPU::OpName::slc));
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4472
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4473	if (const MachineOperand *TFE =
				4474	getNamedOperand(MI, AMDGPU::OpName::tfe)) {
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4475	MIB.addImm(TFE->getImm());
				4476	}
				4477
Chandler Carruth	c73c030	2018-08-16 21:30:05 +0000	[diff] [blame]	4478	MIB.cloneMemRefs(MI);
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4479	Addr64 = MIB;
				4480	} else {
				4481	// Atomics with return.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4482	Addr64 = BuildMI(MBB, MI, MI.getDebugLoc(), get(Addr64Opcode))
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	4483	.add(*VData)
				4484	.add(*VDataIn)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4485	.addReg(NewVAddr)
				4486	.addReg(NewSRsrc)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	4487	.add(*SOffset)
				4488	.add(*Offset)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4489	.addImm(getNamedImmOperand(MI, AMDGPU::OpName::slc))
Chandler Carruth	c73c030	2018-08-16 21:30:05 +0000	[diff] [blame]	4490	.cloneMemRefs(MI);
Matt Arsenault	a40450c	2015-11-05 02:46:56 +0000	[diff] [blame]	4491	}
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4492
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4493	MI.removeFromParent();
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4494
Matt Arsenault	ef67d76	2015-09-09 17:03:29 +0000	[diff] [blame]	4495	// NewVaddr = {NewVaddrHi, NewVaddrLo}
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4496	BuildMI(MBB, Addr64, Addr64->getDebugLoc(), get(AMDGPU::REG_SEQUENCE),
				4497	NewVAddr)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4498	.addReg(RsrcPtr, 0, AMDGPU::sub0)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4499	.addImm(AMDGPU::sub0)
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4500	.addReg(RsrcPtr, 0, AMDGPU::sub1)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4501	.addImm(AMDGPU::sub1);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4502	} else {
				4503	// This is another variant; legalize Rsrc with waterfall loop from VGPRs
				4504	// to SGPRs.
				4505	loadSRsrcFromVGPR(this, MI, Rsrc, MDT);
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4506	}
				4507	}
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4508	}
				4509
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4510	void SIInstrInfo::moveToVALU(MachineInstr &TopInst,
				4511	MachineDominatorTree *MDT) const {
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	4512	SetVectorType Worklist;
				4513	Worklist.insert(&TopInst);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4514
				4515	while (!Worklist.empty()) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4516	MachineInstr &Inst = *Worklist.pop_back_val();
				4517	MachineBasicBlock *MBB = Inst.getParent();
Tom Stellard	e038720	2014-03-21 15:51:54 +0000	[diff] [blame]	4518	MachineRegisterInfo &MRI = MBB->getParent()->getRegInfo();
				4519
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4520	unsigned Opcode = Inst.getOpcode();
				4521	unsigned NewOpcode = getVALUOp(Inst);
Matt Arsenault	27cc958	2014-04-18 01:53:18 +0000	[diff] [blame]	4522
Tom Stellard	e038720	2014-03-21 15:51:54 +0000	[diff] [blame]	4523	// Handle some special cases
Matt Arsenault	27cc958	2014-04-18 01:53:18 +0000	[diff] [blame]	4524	switch (Opcode) {
Tom Stellard	0c354f2	2014-04-30 15:31:29 +0000	[diff] [blame]	4525	default:
Tom Stellard	0c354f2	2014-04-30 15:31:29 +0000	[diff] [blame]	4526	break;
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	4527	case AMDGPU::S_ADD_U64_PSEUDO:
				4528	case AMDGPU::S_SUB_U64_PSEUDO:
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4529	splitScalar64BitAddSub(Worklist, Inst, MDT);
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	4530	Inst.eraseFromParent();
				4531	continue;
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4532	case AMDGPU::S_ADD_I32:
				4533	case AMDGPU::S_SUB_I32:
				4534	// FIXME: The u32 versions currently selected use the carry.
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4535	if (moveScalarAddSub(Worklist, Inst, MDT))
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4536	continue;
				4537
				4538	// Default handling
				4539	break;
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4540	case AMDGPU::S_AND_B64:
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4541	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_AND_B32, MDT);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4542	Inst.eraseFromParent();
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4543	continue;
				4544
				4545	case AMDGPU::S_OR_B64:
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4546	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_OR_B32, MDT);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4547	Inst.eraseFromParent();
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4548	continue;
				4549
				4550	case AMDGPU::S_XOR_B64:
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4551	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_XOR_B32, MDT);
				4552	Inst.eraseFromParent();
				4553	continue;
				4554
				4555	case AMDGPU::S_NAND_B64:
				4556	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_NAND_B32, MDT);
				4557	Inst.eraseFromParent();
				4558	continue;
				4559
				4560	case AMDGPU::S_NOR_B64:
				4561	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_NOR_B32, MDT);
				4562	Inst.eraseFromParent();
				4563	continue;
				4564
				4565	case AMDGPU::S_XNOR_B64:
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	4566	if (ST.hasDLInsts())
				4567	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_XNOR_B32, MDT);
				4568	else
				4569	splitScalar64BitXnor(Worklist, Inst, MDT);
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4570	Inst.eraseFromParent();
				4571	continue;
				4572
				4573	case AMDGPU::S_ANDN2_B64:
				4574	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_ANDN2_B32, MDT);
				4575	Inst.eraseFromParent();
				4576	continue;
				4577
				4578	case AMDGPU::S_ORN2_B64:
				4579	splitScalar64BitBinaryOp(Worklist, Inst, AMDGPU::S_ORN2_B32, MDT);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4580	Inst.eraseFromParent();
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4581	continue;
				4582
				4583	case AMDGPU::S_NOT_B64:
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4584	splitScalar64BitUnaryOp(Worklist, Inst, AMDGPU::S_NOT_B32);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4585	Inst.eraseFromParent();
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4586	continue;
				4587
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	4588	case AMDGPU::S_BCNT1_I32_B64:
				4589	splitScalar64BitBCNT(Worklist, Inst);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4590	Inst.eraseFromParent();
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	4591	continue;
				4592
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	4593	case AMDGPU::S_BFE_I64:
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	4594	splitScalar64BitBFE(Worklist, Inst);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4595	Inst.eraseFromParent();
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	4596	continue;
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	4597
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	4598	case AMDGPU::S_LSHL_B32:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4599	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	4600	NewOpcode = AMDGPU::V_LSHLREV_B32_e64;
				4601	swapOperands(Inst);
				4602	}
				4603	break;
				4604	case AMDGPU::S_ASHR_I32:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4605	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	4606	NewOpcode = AMDGPU::V_ASHRREV_I32_e64;
				4607	swapOperands(Inst);
				4608	}
				4609	break;
				4610	case AMDGPU::S_LSHR_B32:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4611	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	4612	NewOpcode = AMDGPU::V_LSHRREV_B32_e64;
				4613	swapOperands(Inst);
				4614	}
				4615	break;
Marek Olsak	707a6d0	2015-02-03 21:53:01 +0000	[diff] [blame]	4616	case AMDGPU::S_LSHL_B64:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4617	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	707a6d0	2015-02-03 21:53:01 +0000	[diff] [blame]	4618	NewOpcode = AMDGPU::V_LSHLREV_B64;
				4619	swapOperands(Inst);
				4620	}
				4621	break;
				4622	case AMDGPU::S_ASHR_I64:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4623	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	707a6d0	2015-02-03 21:53:01 +0000	[diff] [blame]	4624	NewOpcode = AMDGPU::V_ASHRREV_I64;
				4625	swapOperands(Inst);
				4626	}
				4627	break;
				4628	case AMDGPU::S_LSHR_B64:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	4629	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	707a6d0	2015-02-03 21:53:01 +0000	[diff] [blame]	4630	NewOpcode = AMDGPU::V_LSHRREV_B64;
				4631	swapOperands(Inst);
				4632	}
				4633	break;
Marek Olsak	be04780	2014-12-07 12:19:03 +0000	[diff] [blame]	4634
Marek Olsak	7ed6b2f	2015-11-25 21:22:45 +0000	[diff] [blame]	4635	case AMDGPU::S_ABS_I32:
				4636	lowerScalarAbs(Worklist, Inst);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4637	Inst.eraseFromParent();
Marek Olsak	7ed6b2f	2015-11-25 21:22:45 +0000	[diff] [blame]	4638	continue;
				4639
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4640	case AMDGPU::S_CBRANCH_SCC0:
				4641	case AMDGPU::S_CBRANCH_SCC1:
				4642	// Clear unused bits of vcc
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4643	if (ST.isWave32())
				4644	BuildMI(*MBB, Inst, Inst.getDebugLoc(), get(AMDGPU::S_AND_B32),
				4645	AMDGPU::VCC_LO)
				4646	.addReg(AMDGPU::EXEC_LO)
				4647	.addReg(AMDGPU::VCC_LO);
				4648	else
				4649	BuildMI(*MBB, Inst, Inst.getDebugLoc(), get(AMDGPU::S_AND_B64),
				4650	AMDGPU::VCC)
				4651	.addReg(AMDGPU::EXEC)
				4652	.addReg(AMDGPU::VCC);
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4653	break;
				4654
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4655	case AMDGPU::S_BFE_U64:
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	4656	case AMDGPU::S_BFM_B64:
				4657	llvm_unreachable("Moving this op to VALU not implemented");
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	4658
				4659	case AMDGPU::S_PACK_LL_B32_B16:
				4660	case AMDGPU::S_PACK_LH_B32_B16:
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	4661	case AMDGPU::S_PACK_HH_B32_B16:
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	4662	movePackToVALU(Worklist, MRI, Inst);
				4663	Inst.eraseFromParent();
				4664	continue;
Konstantin Zhuravlyov	ca8946a	2017-09-18 21:22:45 +0000	[diff] [blame]	4665
				4666	case AMDGPU::S_XNOR_B32:
				4667	lowerScalarXnor(Worklist, Inst);
				4668	Inst.eraseFromParent();
				4669	continue;
				4670
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4671	case AMDGPU::S_NAND_B32:
				4672	splitScalarNotBinop(Worklist, Inst, AMDGPU::S_AND_B32);
				4673	Inst.eraseFromParent();
				4674	continue;
				4675
				4676	case AMDGPU::S_NOR_B32:
				4677	splitScalarNotBinop(Worklist, Inst, AMDGPU::S_OR_B32);
				4678	Inst.eraseFromParent();
				4679	continue;
				4680
				4681	case AMDGPU::S_ANDN2_B32:
				4682	splitScalarBinOpN2(Worklist, Inst, AMDGPU::S_AND_B32);
				4683	Inst.eraseFromParent();
				4684	continue;
				4685
				4686	case AMDGPU::S_ORN2_B32:
				4687	splitScalarBinOpN2(Worklist, Inst, AMDGPU::S_OR_B32);
Konstantin Zhuravlyov	ca8946a	2017-09-18 21:22:45 +0000	[diff] [blame]	4688	Inst.eraseFromParent();
				4689	continue;
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	4690	}
Tom Stellard	e038720	2014-03-21 15:51:54 +0000	[diff] [blame]	4691
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4692	if (NewOpcode == AMDGPU::INSTRUCTION_LIST_END) {
				4693	// We cannot move this instruction to the VALU, so we should try to
				4694	// legalize its operands instead.
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4695	legalizeOperands(Inst, MDT);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4696	continue;
Tom Stellard	1583409	2014-03-21 15:51:57 +0000	[diff] [blame]	4697	}
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4698
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4699	// Use the new VALU Opcode.
				4700	const MCInstrDesc &NewDesc = get(NewOpcode);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4701	Inst.setDesc(NewDesc);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4702
Matt Arsenault	f0b1e3a	2013-11-18 20:09:21 +0000	[diff] [blame]	4703	// Remove any references to SCC. Vector instructions can't read from it, and
				4704	// We're just about to add the implicit use / defs of VCC, and we don't want
				4705	// both.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4706	for (unsigned i = Inst.getNumOperands() - 1; i > 0; --i) {
				4707	MachineOperand &Op = Inst.getOperand(i);
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4708	if (Op.isReg() && Op.getReg() == AMDGPU::SCC) {
Michael Liao	6883d7e	2019-03-15 12:42:21 +0000	[diff] [blame]	4709	// Only propagate through live-def of SCC.
				4710	if (Op.isDef() && !Op.isDead())
				4711	addSCCDefUsersToVALUWorklist(Op, Inst, Worklist);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4712	Inst.RemoveOperand(i);
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4713	}
Matt Arsenault	f0b1e3a	2013-11-18 20:09:21 +0000	[diff] [blame]	4714	}
				4715
Matt Arsenault	27cc958	2014-04-18 01:53:18 +0000	[diff] [blame]	4716	if (Opcode == AMDGPU::S_SEXT_I32_I8 \|\| Opcode == AMDGPU::S_SEXT_I32_I16) {
				4717	// We are converting these to a BFE, so we need to add the missing
				4718	// operands for the size and offset.
				4719	unsigned Size = (Opcode == AMDGPU::S_SEXT_I32_I8) ? 8 : 16;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4720	Inst.addOperand(MachineOperand::CreateImm(0));
				4721	Inst.addOperand(MachineOperand::CreateImm(Size));
Matt Arsenault	27cc958	2014-04-18 01:53:18 +0000	[diff] [blame]	4722
Matt Arsenault	b5b5110	2014-06-10 19:18:21 +0000	[diff] [blame]	4723	} else if (Opcode == AMDGPU::S_BCNT1_I32_B32) {
				4724	// The VALU version adds the second operand to the result, so insert an
				4725	// extra 0 operand.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4726	Inst.addOperand(MachineOperand::CreateImm(0));
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4727	}
				4728
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4729	Inst.addImplicitDefUseOperands(*Inst.getParent()->getParent());
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	4730	fixImplicitOperands(Inst);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4731
Matt Arsenault	78b8670	2014-04-18 05:19:26 +0000	[diff] [blame]	4732	if (Opcode == AMDGPU::S_BFE_I32 \|\| Opcode == AMDGPU::S_BFE_U32) {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4733	const MachineOperand &OffsetWidthOp = Inst.getOperand(2);
Matt Arsenault	78b8670	2014-04-18 05:19:26 +0000	[diff] [blame]	4734	// If we need to move this to VGPRs, we need to unpack the second operand
				4735	// back into the 2 separate ones for bit offset and width.
				4736	assert(OffsetWidthOp.isImm() &&
				4737	"Scalar BFE is only implemented for constant width and offset");
				4738	uint32_t Imm = OffsetWidthOp.getImm();
				4739
				4740	uint32_t Offset = Imm & 0x3f; // Extract bits [5:0].
				4741	uint32_t BitWidth = (Imm & 0x7f0000) >> 16; // Extract bits [22:16].
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4742	Inst.RemoveOperand(2); // Remove old immediate.
				4743	Inst.addOperand(MachineOperand::CreateImm(Offset));
				4744	Inst.addOperand(MachineOperand::CreateImm(BitWidth));
Matt Arsenault	78b8670	2014-04-18 05:19:26 +0000	[diff] [blame]	4745	}
				4746
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4747	bool HasDst = Inst.getOperand(0).isReg() && Inst.getOperand(0).isDef();
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4748	unsigned NewDstReg = AMDGPU::NoRegister;
				4749	if (HasDst) {
Matt Arsenault	21a4382	2017-04-06 21:09:53 +0000	[diff] [blame]	4750	unsigned DstReg = Inst.getOperand(0).getReg();
				4751	if (TargetRegisterInfo::isPhysicalRegister(DstReg))
				4752	continue;
				4753
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4754	// Update the destination register class.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4755	const TargetRegisterClass *NewDstRC = getDestEquivalentVGPRClass(Inst);
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4756	if (!NewDstRC)
				4757	continue;
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4758
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4759	if (Inst.isCopy() &&
				4760	TargetRegisterInfo::isVirtualRegister(Inst.getOperand(1).getReg()) &&
				4761	NewDstRC == RI.getRegClassForReg(MRI, Inst.getOperand(1).getReg())) {
				4762	// Instead of creating a copy where src and dst are the same register
				4763	// class, we just replace all uses of dst with src. These kinds of
				4764	// copies interfere with the heuristics MachineSink uses to decide
				4765	// whether or not to split a critical edge. Since the pass assumes
				4766	// that copies will end up as machine instructions and not be
				4767	// eliminated.
				4768	addUsersToMoveToVALUWorklist(DstReg, MRI, Worklist);
				4769	MRI.replaceRegWith(DstReg, Inst.getOperand(1).getReg());
				4770	MRI.clearKillFlags(Inst.getOperand(1).getReg());
				4771	Inst.getOperand(0).setReg(DstReg);
Matt Arsenault	69932e4	2018-03-19 14:07:15 +0000	[diff] [blame]	4772
				4773	// Make sure we don't leave around a dead VGPR->SGPR copy. Normally
				4774	// these are deleted later, but at -O0 it would leave a suspicious
				4775	// looking illegal copy of an undef register.
				4776	for (unsigned I = Inst.getNumOperands() - 1; I != 0; --I)
				4777	Inst.RemoveOperand(I);
				4778	Inst.setDesc(get(AMDGPU::IMPLICIT_DEF));
Tom Stellard	0d162b1	2016-11-16 18:42:17 +0000	[diff] [blame]	4779	continue;
				4780	}
				4781
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4782	NewDstReg = MRI.createVirtualRegister(NewDstRC);
				4783	MRI.replaceRegWith(DstReg, NewDstReg);
				4784	}
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4785
Tom Stellard	e1a2445	2014-04-17 21:00:01 +0000	[diff] [blame]	4786	// Legalize the operands
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4787	legalizeOperands(Inst, MDT);
Tom Stellard	e1a2445	2014-04-17 21:00:01 +0000	[diff] [blame]	4788
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	4789	if (HasDst)
				4790	addUsersToMoveToVALUWorklist(NewDstReg, MRI, Worklist);
Tom Stellard	8216602	2013-11-13 23:36:37 +0000	[diff] [blame]	4791	}
				4792	}
				4793
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4794	// Add/sub require special handling to deal with carry outs.
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4795	bool SIInstrInfo::moveScalarAddSub(SetVectorType &Worklist, MachineInstr &Inst,
				4796	MachineDominatorTree *MDT) const {
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4797	if (ST.hasAddNoCarry()) {
				4798	// Assume there is no user of scc since we don't select this in that case.
				4799	// Since scc isn't used, it doesn't really matter if the i32 or u32 variant
				4800	// is used.
				4801
				4802	MachineBasicBlock &MBB = *Inst.getParent();
				4803	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4804
				4805	unsigned OldDstReg = Inst.getOperand(0).getReg();
				4806	unsigned ResultReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				4807
				4808	unsigned Opc = Inst.getOpcode();
				4809	assert(Opc == AMDGPU::S_ADD_I32 \|\| Opc == AMDGPU::S_SUB_I32);
				4810
				4811	unsigned NewOpc = Opc == AMDGPU::S_ADD_I32 ?
				4812	AMDGPU::V_ADD_U32_e64 : AMDGPU::V_SUB_U32_e64;
				4813
				4814	assert(Inst.getOperand(3).getReg() == AMDGPU::SCC);
				4815	Inst.RemoveOperand(3);
				4816
				4817	Inst.setDesc(get(NewOpc));
Tim Renouf	cfdfba9	2019-03-18 19:35:44 +0000	[diff] [blame]	4818	Inst.addOperand(MachineOperand::CreateImm(0)); // clamp bit
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4819	Inst.addImplicitDefUseOperands(*MBB.getParent());
				4820	MRI.replaceRegWith(OldDstReg, ResultReg);
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	4821	legalizeOperands(Inst, MDT);
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4822
				4823	addUsersToMoveToVALUWorklist(ResultReg, MRI, Worklist);
				4824	return true;
				4825	}
				4826
				4827	return false;
				4828	}
				4829
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	4830	void SIInstrInfo::lowerScalarAbs(SetVectorType &Worklist,
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4831	MachineInstr &Inst) const {
				4832	MachineBasicBlock &MBB = *Inst.getParent();
Marek Olsak	7ed6b2f	2015-11-25 21:22:45 +0000	[diff] [blame]	4833	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4834	MachineBasicBlock::iterator MII = Inst;
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4835	DebugLoc DL = Inst.getDebugLoc();
Marek Olsak	7ed6b2f	2015-11-25 21:22:45 +0000	[diff] [blame]	4836
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4837	MachineOperand &Dest = Inst.getOperand(0);
				4838	MachineOperand &Src = Inst.getOperand(1);
Marek Olsak	7ed6b2f	2015-11-25 21:22:45 +0000	[diff] [blame]	4839	unsigned TmpReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				4840	unsigned ResultReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				4841
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	4842	unsigned SubOp = ST.hasAddNoCarry() ?
				4843	AMDGPU::V_SUB_U32_e32 : AMDGPU::V_SUB_I32_e32;
				4844
				4845	BuildMI(MBB, MII, DL, get(SubOp), TmpReg)
Marek Olsak	7ed6b2f	2015-11-25 21:22:45 +0000	[diff] [blame]	4846	.addImm(0)
				4847	.addReg(Src.getReg());
				4848
				4849	BuildMI(MBB, MII, DL, get(AMDGPU::V_MAX_I32_e64), ResultReg)
				4850	.addReg(Src.getReg())
				4851	.addReg(TmpReg);
				4852
				4853	MRI.replaceRegWith(Dest.getReg(), ResultReg);
				4854	addUsersToMoveToVALUWorklist(ResultReg, MRI, Worklist);
				4855	}
				4856
Konstantin Zhuravlyov	ca8946a	2017-09-18 21:22:45 +0000	[diff] [blame]	4857	void SIInstrInfo::lowerScalarXnor(SetVectorType &Worklist,
				4858	MachineInstr &Inst) const {
				4859	MachineBasicBlock &MBB = *Inst.getParent();
				4860	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4861	MachineBasicBlock::iterator MII = Inst;
				4862	const DebugLoc &DL = Inst.getDebugLoc();
				4863
				4864	MachineOperand &Dest = Inst.getOperand(0);
				4865	MachineOperand &Src0 = Inst.getOperand(1);
				4866	MachineOperand &Src1 = Inst.getOperand(2);
				4867
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	4868	if (ST.hasDLInsts()) {
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4869	unsigned NewDest = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				4870	legalizeGenericOperand(MBB, MII, &AMDGPU::VGPR_32RegClass, Src0, MRI, DL);
				4871	legalizeGenericOperand(MBB, MII, &AMDGPU::VGPR_32RegClass, Src1, MRI, DL);
				4872
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	4873	BuildMI(MBB, MII, DL, get(AMDGPU::V_XNOR_B32_e64), NewDest)
				4874	.add(Src0)
				4875	.add(Src1);
Konstantin Zhuravlyov	ca8946a	2017-09-18 21:22:45 +0000	[diff] [blame]	4876
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4877	MRI.replaceRegWith(Dest.getReg(), NewDest);
				4878	addUsersToMoveToVALUWorklist(NewDest, MRI, Worklist);
				4879	} else {
				4880	// Using the identity !(x ^ y) == (!x ^ y) == (x ^ !y), we can
				4881	// invert either source and then perform the XOR. If either source is a
				4882	// scalar register, then we can leave the inversion on the scalar unit to
				4883	// acheive a better distrubution of scalar and vector instructions.
				4884	bool Src0IsSGPR = Src0.isReg() &&
				4885	RI.isSGPRClass(MRI.getRegClass(Src0.getReg()));
				4886	bool Src1IsSGPR = Src1.isReg() &&
				4887	RI.isSGPRClass(MRI.getRegClass(Src1.getReg()));
				4888	MachineInstr *Not = nullptr;
				4889	MachineInstr *Xor = nullptr;
				4890	unsigned Temp = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				4891	unsigned NewDest = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				4892
				4893	// Build a pair of scalar instructions and add them to the work list.
				4894	// The next iteration over the work list will lower these to the vector
				4895	// unit as necessary.
				4896	if (Src0IsSGPR) {
				4897	Not = BuildMI(MBB, MII, DL, get(AMDGPU::S_NOT_B32), Temp)
				4898	.add(Src0);
				4899	Xor = BuildMI(MBB, MII, DL, get(AMDGPU::S_XOR_B32), NewDest)
				4900	.addReg(Temp)
				4901	.add(Src1);
				4902	} else if (Src1IsSGPR) {
				4903	Not = BuildMI(MBB, MII, DL, get(AMDGPU::S_NOT_B32), Temp)
				4904	.add(Src1);
				4905	Xor = BuildMI(MBB, MII, DL, get(AMDGPU::S_XOR_B32), NewDest)
				4906	.add(Src0)
				4907	.addReg(Temp);
				4908	} else {
				4909	Xor = BuildMI(MBB, MII, DL, get(AMDGPU::S_XOR_B32), Temp)
				4910	.add(Src0)
				4911	.add(Src1);
				4912	Not = BuildMI(MBB, MII, DL, get(AMDGPU::S_NOT_B32), NewDest)
				4913	.addReg(Temp);
				4914	Worklist.insert(Not);
				4915	}
				4916
				4917	MRI.replaceRegWith(Dest.getReg(), NewDest);
				4918
				4919	Worklist.insert(Xor);
				4920
				4921	addUsersToMoveToVALUWorklist(NewDest, MRI, Worklist);
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	4922	}
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	4923	}
				4924
				4925	void SIInstrInfo::splitScalarNotBinop(SetVectorType &Worklist,
				4926	MachineInstr &Inst,
				4927	unsigned Opcode) const {
				4928	MachineBasicBlock &MBB = *Inst.getParent();
				4929	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4930	MachineBasicBlock::iterator MII = Inst;
				4931	const DebugLoc &DL = Inst.getDebugLoc();
				4932
				4933	MachineOperand &Dest = Inst.getOperand(0);
				4934	MachineOperand &Src0 = Inst.getOperand(1);
				4935	MachineOperand &Src1 = Inst.getOperand(2);
				4936
				4937	unsigned NewDest = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				4938	unsigned Interm = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				4939
				4940	MachineInstr &Op = *BuildMI(MBB, MII, DL, get(Opcode), Interm)
				4941	.add(Src0)
				4942	.add(Src1);
				4943
				4944	MachineInstr &Not = *BuildMI(MBB, MII, DL, get(AMDGPU::S_NOT_B32), NewDest)
				4945	.addReg(Interm);
				4946
				4947	Worklist.insert(&Op);
				4948	Worklist.insert(&Not);
				4949
				4950	MRI.replaceRegWith(Dest.getReg(), NewDest);
				4951	addUsersToMoveToVALUWorklist(NewDest, MRI, Worklist);
				4952	}
				4953
				4954	void SIInstrInfo::splitScalarBinOpN2(SetVectorType& Worklist,
				4955	MachineInstr &Inst,
				4956	unsigned Opcode) const {
				4957	MachineBasicBlock &MBB = *Inst.getParent();
				4958	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4959	MachineBasicBlock::iterator MII = Inst;
				4960	const DebugLoc &DL = Inst.getDebugLoc();
				4961
				4962	MachineOperand &Dest = Inst.getOperand(0);
				4963	MachineOperand &Src0 = Inst.getOperand(1);
				4964	MachineOperand &Src1 = Inst.getOperand(2);
				4965
				4966	unsigned NewDest = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				4967	unsigned Interm = MRI.createVirtualRegister(&AMDGPU::SReg_32_XM0RegClass);
				4968
				4969	MachineInstr &Not = *BuildMI(MBB, MII, DL, get(AMDGPU::S_NOT_B32), Interm)
				4970	.add(Src1);
				4971
				4972	MachineInstr &Op = *BuildMI(MBB, MII, DL, get(Opcode), NewDest)
				4973	.add(Src0)
				4974	.addReg(Interm);
				4975
				4976	Worklist.insert(&Not);
				4977	Worklist.insert(&Op);
Konstantin Zhuravlyov	ca8946a	2017-09-18 21:22:45 +0000	[diff] [blame]	4978
Matt Arsenault	0084adc	2018-04-30 19:08:16 +0000	[diff] [blame]	4979	MRI.replaceRegWith(Dest.getReg(), NewDest);
				4980	addUsersToMoveToVALUWorklist(NewDest, MRI, Worklist);
Konstantin Zhuravlyov	ca8946a	2017-09-18 21:22:45 +0000	[diff] [blame]	4981	}
				4982
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	4983	void SIInstrInfo::splitScalar64BitUnaryOp(
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	4984	SetVectorType &Worklist, MachineInstr &Inst,
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4985	unsigned Opcode) const {
				4986	MachineBasicBlock &MBB = *Inst.getParent();
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	4987	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				4988
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	4989	MachineOperand &Dest = Inst.getOperand(0);
				4990	MachineOperand &Src0 = Inst.getOperand(1);
				4991	DebugLoc DL = Inst.getDebugLoc();
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	4992
				4993	MachineBasicBlock::iterator MII = Inst;
				4994
				4995	const MCInstrDesc &InstDesc = get(Opcode);
				4996	const TargetRegisterClass *Src0RC = Src0.isReg() ?
				4997	MRI.getRegClass(Src0.getReg()) :
				4998	&AMDGPU::SGPR_32RegClass;
				4999
				5000	const TargetRegisterClass *Src0SubRC = RI.getSubRegClass(Src0RC, AMDGPU::sub0);
				5001
				5002	MachineOperand SrcReg0Sub0 = buildExtractSubRegOrImm(MII, MRI, Src0, Src0RC,
				5003	AMDGPU::sub0, Src0SubRC);
				5004
				5005	const TargetRegisterClass *DestRC = MRI.getRegClass(Dest.getReg());
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5006	const TargetRegisterClass *NewDestRC = RI.getEquivalentVGPRClass(DestRC);
				5007	const TargetRegisterClass *NewDestSubRC = RI.getSubRegClass(NewDestRC, AMDGPU::sub0);
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	5008
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5009	unsigned DestSub0 = MRI.createVirtualRegister(NewDestSubRC);
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	5010	MachineInstr &LoHalf = *BuildMI(MBB, MII, DL, InstDesc, DestSub0).add(SrcReg0Sub0);
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	5011
				5012	MachineOperand SrcReg0Sub1 = buildExtractSubRegOrImm(MII, MRI, Src0, Src0RC,
				5013	AMDGPU::sub1, Src0SubRC);
				5014
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5015	unsigned DestSub1 = MRI.createVirtualRegister(NewDestSubRC);
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	5016	MachineInstr &HiHalf = *BuildMI(MBB, MII, DL, InstDesc, DestSub1).add(SrcReg0Sub1);
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	5017
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5018	unsigned FullDestReg = MRI.createVirtualRegister(NewDestRC);
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	5019	BuildMI(MBB, MII, DL, get(TargetOpcode::REG_SEQUENCE), FullDestReg)
				5020	.addReg(DestSub0)
				5021	.addImm(AMDGPU::sub0)
				5022	.addReg(DestSub1)
				5023	.addImm(AMDGPU::sub1);
				5024
				5025	MRI.replaceRegWith(Dest.getReg(), FullDestReg);
				5026
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	5027	Worklist.insert(&LoHalf);
				5028	Worklist.insert(&HiHalf);
				5029
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5030	// We don't need to legalizeOperands here because for a single operand, src0
				5031	// will support any kind of input.
				5032
				5033	// Move all users of this moved value.
				5034	addUsersToMoveToVALUWorklist(FullDestReg, MRI, Worklist);
Matt Arsenault	689f325	2014-06-09 16:36:31 +0000	[diff] [blame]	5035	}
				5036
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	5037	void SIInstrInfo::splitScalar64BitAddSub(SetVectorType &Worklist,
				5038	MachineInstr &Inst,
				5039	MachineDominatorTree *MDT) const {
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	5040	bool IsAdd = (Inst.getOpcode() == AMDGPU::S_ADD_U64_PSEUDO);
				5041
				5042	MachineBasicBlock &MBB = *Inst.getParent();
				5043	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	5044	const auto *CarryRC = RI.getRegClass(AMDGPU::SReg_1_XEXECRegClassID);
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	5045
				5046	unsigned FullDestReg = MRI.createVirtualRegister(&AMDGPU::VReg_64RegClass);
				5047	unsigned DestSub0 = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5048	unsigned DestSub1 = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5049
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	5050	unsigned CarryReg = MRI.createVirtualRegister(CarryRC);
				5051	unsigned DeadCarryReg = MRI.createVirtualRegister(CarryRC);
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	5052
				5053	MachineOperand &Dest = Inst.getOperand(0);
				5054	MachineOperand &Src0 = Inst.getOperand(1);
				5055	MachineOperand &Src1 = Inst.getOperand(2);
				5056	const DebugLoc &DL = Inst.getDebugLoc();
				5057	MachineBasicBlock::iterator MII = Inst;
				5058
				5059	const TargetRegisterClass *Src0RC = MRI.getRegClass(Src0.getReg());
				5060	const TargetRegisterClass *Src1RC = MRI.getRegClass(Src1.getReg());
				5061	const TargetRegisterClass *Src0SubRC = RI.getSubRegClass(Src0RC, AMDGPU::sub0);
				5062	const TargetRegisterClass *Src1SubRC = RI.getSubRegClass(Src1RC, AMDGPU::sub0);
				5063
				5064	MachineOperand SrcReg0Sub0 = buildExtractSubRegOrImm(MII, MRI, Src0, Src0RC,
				5065	AMDGPU::sub0, Src0SubRC);
				5066	MachineOperand SrcReg1Sub0 = buildExtractSubRegOrImm(MII, MRI, Src1, Src1RC,
				5067	AMDGPU::sub0, Src1SubRC);
				5068
				5069
				5070	MachineOperand SrcReg0Sub1 = buildExtractSubRegOrImm(MII, MRI, Src0, Src0RC,
				5071	AMDGPU::sub1, Src0SubRC);
				5072	MachineOperand SrcReg1Sub1 = buildExtractSubRegOrImm(MII, MRI, Src1, Src1RC,
				5073	AMDGPU::sub1, Src1SubRC);
				5074
				5075	unsigned LoOpc = IsAdd ? AMDGPU::V_ADD_I32_e64 : AMDGPU::V_SUB_I32_e64;
				5076	MachineInstr *LoHalf =
				5077	BuildMI(MBB, MII, DL, get(LoOpc), DestSub0)
				5078	.addReg(CarryReg, RegState::Define)
				5079	.add(SrcReg0Sub0)
Tim Renouf	cfdfba9	2019-03-18 19:35:44 +0000	[diff] [blame]	5080	.add(SrcReg1Sub0)
				5081	.addImm(0); // clamp bit
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	5082
				5083	unsigned HiOpc = IsAdd ? AMDGPU::V_ADDC_U32_e64 : AMDGPU::V_SUBB_U32_e64;
				5084	MachineInstr *HiHalf =
				5085	BuildMI(MBB, MII, DL, get(HiOpc), DestSub1)
				5086	.addReg(DeadCarryReg, RegState::Define \| RegState::Dead)
				5087	.add(SrcReg0Sub1)
				5088	.add(SrcReg1Sub1)
Tim Renouf	cfdfba9	2019-03-18 19:35:44 +0000	[diff] [blame]	5089	.addReg(CarryReg, RegState::Kill)
				5090	.addImm(0); // clamp bit
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	5091
				5092	BuildMI(MBB, MII, DL, get(TargetOpcode::REG_SEQUENCE), FullDestReg)
				5093	.addReg(DestSub0)
				5094	.addImm(AMDGPU::sub0)
				5095	.addReg(DestSub1)
				5096	.addImm(AMDGPU::sub1);
				5097
				5098	MRI.replaceRegWith(Dest.getReg(), FullDestReg);
				5099
				5100	// Try to legalize the operands in case we need to swap the order to keep it
				5101	// valid.
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	5102	legalizeOperands(*LoHalf, MDT);
				5103	legalizeOperands(*HiHalf, MDT);
Matt Arsenault	301162c	2017-11-15 21:51:43 +0000	[diff] [blame]	5104
				5105	// Move all users of this moved vlaue.
				5106	addUsersToMoveToVALUWorklist(FullDestReg, MRI, Worklist);
				5107	}
				5108
Scott Linder	823549a	2018-10-08 18:47:01 +0000	[diff] [blame]	5109	void SIInstrInfo::splitScalar64BitBinaryOp(SetVectorType &Worklist,
				5110	MachineInstr &Inst, unsigned Opcode,
				5111	MachineDominatorTree *MDT) const {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5112	MachineBasicBlock &MBB = *Inst.getParent();
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5113	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				5114
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5115	MachineOperand &Dest = Inst.getOperand(0);
				5116	MachineOperand &Src0 = Inst.getOperand(1);
				5117	MachineOperand &Src1 = Inst.getOperand(2);
				5118	DebugLoc DL = Inst.getDebugLoc();
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5119
				5120	MachineBasicBlock::iterator MII = Inst;
				5121
				5122	const MCInstrDesc &InstDesc = get(Opcode);
Matt Arsenault	684dc80	2014-03-24 20:08:13 +0000	[diff] [blame]	5123	const TargetRegisterClass *Src0RC = Src0.isReg() ?
				5124	MRI.getRegClass(Src0.getReg()) :
				5125	&AMDGPU::SGPR_32RegClass;
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5126
Matt Arsenault	684dc80	2014-03-24 20:08:13 +0000	[diff] [blame]	5127	const TargetRegisterClass *Src0SubRC = RI.getSubRegClass(Src0RC, AMDGPU::sub0);
				5128	const TargetRegisterClass *Src1RC = Src1.isReg() ?
				5129	MRI.getRegClass(Src1.getReg()) :
				5130	&AMDGPU::SGPR_32RegClass;
				5131
				5132	const TargetRegisterClass *Src1SubRC = RI.getSubRegClass(Src1RC, AMDGPU::sub0);
				5133
				5134	MachineOperand SrcReg0Sub0 = buildExtractSubRegOrImm(MII, MRI, Src0, Src0RC,
				5135	AMDGPU::sub0, Src0SubRC);
				5136	MachineOperand SrcReg1Sub0 = buildExtractSubRegOrImm(MII, MRI, Src1, Src1RC,
				5137	AMDGPU::sub0, Src1SubRC);
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	5138	MachineOperand SrcReg0Sub1 = buildExtractSubRegOrImm(MII, MRI, Src0, Src0RC,
				5139	AMDGPU::sub1, Src0SubRC);
				5140	MachineOperand SrcReg1Sub1 = buildExtractSubRegOrImm(MII, MRI, Src1, Src1RC,
				5141	AMDGPU::sub1, Src1SubRC);
Matt Arsenault	684dc80	2014-03-24 20:08:13 +0000	[diff] [blame]	5142
				5143	const TargetRegisterClass *DestRC = MRI.getRegClass(Dest.getReg());
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5144	const TargetRegisterClass *NewDestRC = RI.getEquivalentVGPRClass(DestRC);
				5145	const TargetRegisterClass *NewDestSubRC = RI.getSubRegClass(NewDestRC, AMDGPU::sub0);
Matt Arsenault	684dc80	2014-03-24 20:08:13 +0000	[diff] [blame]	5146
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5147	unsigned DestSub0 = MRI.createVirtualRegister(NewDestSubRC);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5148	MachineInstr &LoHalf = *BuildMI(MBB, MII, DL, InstDesc, DestSub0)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	5149	.add(SrcReg0Sub0)
				5150	.add(SrcReg1Sub0);
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5151
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5152	unsigned DestSub1 = MRI.createVirtualRegister(NewDestSubRC);
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5153	MachineInstr &HiHalf = *BuildMI(MBB, MII, DL, InstDesc, DestSub1)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	5154	.add(SrcReg0Sub1)
				5155	.add(SrcReg1Sub1);
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5156
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5157	unsigned FullDestReg = MRI.createVirtualRegister(NewDestRC);
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5158	BuildMI(MBB, MII, DL, get(TargetOpcode::REG_SEQUENCE), FullDestReg)
				5159	.addReg(DestSub0)
				5160	.addImm(AMDGPU::sub0)
				5161	.addReg(DestSub1)
				5162	.addImm(AMDGPU::sub1);
				5163
				5164	MRI.replaceRegWith(Dest.getReg(), FullDestReg);
				5165
Graham Sellers	04f7a4d	2018-11-29 16:05:38 +0000	[diff] [blame]	5166	Worklist.insert(&LoHalf);
				5167	Worklist.insert(&HiHalf);
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5168
				5169	// Move all users of this moved vlaue.
				5170	addUsersToMoveToVALUWorklist(FullDestReg, MRI, Worklist);
Matt Arsenault	f35182c	2014-03-24 20:08:05 +0000	[diff] [blame]	5171	}
				5172
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	5173	void SIInstrInfo::splitScalar64BitXnor(SetVectorType &Worklist,
				5174	MachineInstr &Inst,
				5175	MachineDominatorTree *MDT) const {
				5176	MachineBasicBlock &MBB = *Inst.getParent();
				5177	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				5178
				5179	MachineOperand &Dest = Inst.getOperand(0);
				5180	MachineOperand &Src0 = Inst.getOperand(1);
				5181	MachineOperand &Src1 = Inst.getOperand(2);
				5182	const DebugLoc &DL = Inst.getDebugLoc();
				5183
				5184	MachineBasicBlock::iterator MII = Inst;
				5185
				5186	const TargetRegisterClass *DestRC = MRI.getRegClass(Dest.getReg());
				5187
				5188	unsigned Interm = MRI.createVirtualRegister(&AMDGPU::SReg_64RegClass);
				5189
				5190	MachineOperand* Op0;
				5191	MachineOperand* Op1;
				5192
				5193	if (Src0.isReg() && RI.isSGPRReg(MRI, Src0.getReg())) {
				5194	Op0 = &Src0;
				5195	Op1 = &Src1;
				5196	} else {
				5197	Op0 = &Src1;
				5198	Op1 = &Src0;
				5199	}
				5200
				5201	BuildMI(MBB, MII, DL, get(AMDGPU::S_NOT_B64), Interm)
				5202	.add(*Op0);
				5203
				5204	unsigned NewDest = MRI.createVirtualRegister(DestRC);
				5205
				5206	MachineInstr &Xor = *BuildMI(MBB, MII, DL, get(AMDGPU::S_XOR_B64), NewDest)
				5207	.addReg(Interm)
				5208	.add(*Op1);
				5209
				5210	MRI.replaceRegWith(Dest.getReg(), NewDest);
				5211
				5212	Worklist.insert(&Xor);
				5213	}
				5214
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5215	void SIInstrInfo::splitScalar64BitBCNT(
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	5216	SetVectorType &Worklist, MachineInstr &Inst) const {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5217	MachineBasicBlock &MBB = *Inst.getParent();
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5218	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				5219
				5220	MachineBasicBlock::iterator MII = Inst;
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	5221	const DebugLoc &DL = Inst.getDebugLoc();
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5222
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5223	MachineOperand &Dest = Inst.getOperand(0);
				5224	MachineOperand &Src = Inst.getOperand(1);
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5225
Marek Olsak	c536850	2015-01-15 18:43:01 +0000	[diff] [blame]	5226	const MCInstrDesc &InstDesc = get(AMDGPU::V_BCNT_U32_B32_e64);
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5227	const TargetRegisterClass *SrcRC = Src.isReg() ?
				5228	MRI.getRegClass(Src.getReg()) :
				5229	&AMDGPU::SGPR_32RegClass;
				5230
				5231	unsigned MidReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5232	unsigned ResultReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5233
				5234	const TargetRegisterClass *SrcSubRC = RI.getSubRegClass(SrcRC, AMDGPU::sub0);
				5235
				5236	MachineOperand SrcRegSub0 = buildExtractSubRegOrImm(MII, MRI, Src, SrcRC,
				5237	AMDGPU::sub0, SrcSubRC);
				5238	MachineOperand SrcRegSub1 = buildExtractSubRegOrImm(MII, MRI, Src, SrcRC,
				5239	AMDGPU::sub1, SrcSubRC);
				5240
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	5241	BuildMI(MBB, MII, DL, InstDesc, MidReg).add(SrcRegSub0).addImm(0);
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5242
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	5243	BuildMI(MBB, MII, DL, InstDesc, ResultReg).add(SrcRegSub1).addReg(MidReg);
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5244
				5245	MRI.replaceRegWith(Dest.getReg(), ResultReg);
				5246
Matt Arsenault	5e7f95e	2015-08-26 20:48:04 +0000	[diff] [blame]	5247	// We don't need to legalize operands here. src0 for etiher instruction can be
				5248	// an SGPR, and the second input is unused or determined here.
				5249	addUsersToMoveToVALUWorklist(ResultReg, MRI, Worklist);
Matt Arsenault	8333e43	2014-06-10 19:18:24 +0000	[diff] [blame]	5250	}
				5251
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	5252	void SIInstrInfo::splitScalar64BitBFE(SetVectorType &Worklist,
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5253	MachineInstr &Inst) const {
				5254	MachineBasicBlock &MBB = *Inst.getParent();
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5255	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
				5256	MachineBasicBlock::iterator MII = Inst;
Graham Sellers	ba559ac	2018-12-01 12:27:53 +0000	[diff] [blame]	5257	const DebugLoc &DL = Inst.getDebugLoc();
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5258
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5259	MachineOperand &Dest = Inst.getOperand(0);
				5260	uint32_t Imm = Inst.getOperand(2).getImm();
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5261	uint32_t Offset = Imm & 0x3f; // Extract bits [5:0].
				5262	uint32_t BitWidth = (Imm & 0x7f0000) >> 16; // Extract bits [22:16].
				5263
Matt Arsenault	6ad3426	2014-11-14 18:40:49 +0000	[diff] [blame]	5264	(void) Offset;
				5265
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5266	// Only sext_inreg cases handled.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5267	assert(Inst.getOpcode() == AMDGPU::S_BFE_I64 && BitWidth <= 32 &&
				5268	Offset == 0 && "Not implemented");
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5269
				5270	if (BitWidth < 32) {
				5271	unsigned MidRegLo = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5272	unsigned MidRegHi = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5273	unsigned ResultReg = MRI.createVirtualRegister(&AMDGPU::VReg_64RegClass);
				5274
				5275	BuildMI(MBB, MII, DL, get(AMDGPU::V_BFE_I32), MidRegLo)
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5276	.addReg(Inst.getOperand(1).getReg(), 0, AMDGPU::sub0)
				5277	.addImm(0)
				5278	.addImm(BitWidth);
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5279
				5280	BuildMI(MBB, MII, DL, get(AMDGPU::V_ASHRREV_I32_e32), MidRegHi)
				5281	.addImm(31)
				5282	.addReg(MidRegLo);
				5283
				5284	BuildMI(MBB, MII, DL, get(TargetOpcode::REG_SEQUENCE), ResultReg)
				5285	.addReg(MidRegLo)
				5286	.addImm(AMDGPU::sub0)
				5287	.addReg(MidRegHi)
				5288	.addImm(AMDGPU::sub1);
				5289
				5290	MRI.replaceRegWith(Dest.getReg(), ResultReg);
Matt Arsenault	445833c	2015-08-26 20:47:58 +0000	[diff] [blame]	5291	addUsersToMoveToVALUWorklist(ResultReg, MRI, Worklist);
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5292	return;
				5293	}
				5294
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5295	MachineOperand &Src = Inst.getOperand(1);
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5296	unsigned TmpReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5297	unsigned ResultReg = MRI.createVirtualRegister(&AMDGPU::VReg_64RegClass);
				5298
				5299	BuildMI(MBB, MII, DL, get(AMDGPU::V_ASHRREV_I32_e64), TmpReg)
				5300	.addImm(31)
				5301	.addReg(Src.getReg(), 0, AMDGPU::sub0);
				5302
				5303	BuildMI(MBB, MII, DL, get(TargetOpcode::REG_SEQUENCE), ResultReg)
				5304	.addReg(Src.getReg(), 0, AMDGPU::sub0)
				5305	.addImm(AMDGPU::sub0)
				5306	.addReg(TmpReg)
				5307	.addImm(AMDGPU::sub1);
				5308
				5309	MRI.replaceRegWith(Dest.getReg(), ResultReg);
Matt Arsenault	445833c	2015-08-26 20:47:58 +0000	[diff] [blame]	5310	addUsersToMoveToVALUWorklist(ResultReg, MRI, Worklist);
Matt Arsenault	9481221	2014-11-14 18:18:16 +0000	[diff] [blame]	5311	}
				5312
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5313	void SIInstrInfo::addUsersToMoveToVALUWorklist(
				5314	unsigned DstReg,
				5315	MachineRegisterInfo &MRI,
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	5316	SetVectorType &Worklist) const {
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5317	for (MachineRegisterInfo::use_iterator I = MRI.use_begin(DstReg),
Matt Arsenault	4c1e9ec	2016-12-20 18:55:06 +0000	[diff] [blame]	5318	E = MRI.use_end(); I != E;) {
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5319	MachineInstr &UseMI = *I->getParent();
Neil Henning	0799352	2019-01-29 14:28:17 +0000	[diff] [blame]	5320
				5321	unsigned OpNo = 0;
				5322
				5323	switch (UseMI.getOpcode()) {
				5324	case AMDGPU::COPY:
				5325	case AMDGPU::WQM:
				5326	case AMDGPU::WWM:
				5327	case AMDGPU::REG_SEQUENCE:
				5328	case AMDGPU::PHI:
				5329	case AMDGPU::INSERT_SUBREG:
				5330	break;
				5331	default:
				5332	OpNo = I.getOperandNo();
				5333	break;
				5334	}
				5335
				5336	if (!RI.hasVGPRs(getOpRegClass(UseMI, OpNo))) {
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	5337	Worklist.insert(&UseMI);
Matt Arsenault	4c1e9ec	2016-12-20 18:55:06 +0000	[diff] [blame]	5338
				5339	do {
				5340	++I;
				5341	} while (I != E && I->getParent() == &UseMI);
				5342	} else {
				5343	++I;
Matt Arsenault	f003c38	2015-08-26 20:47:50 +0000	[diff] [blame]	5344	}
				5345	}
				5346	}
				5347
Alfred Huang	5b27072	2017-07-14 17:56:55 +0000	[diff] [blame]	5348	void SIInstrInfo::movePackToVALU(SetVectorType &Worklist,
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	5349	MachineRegisterInfo &MRI,
				5350	MachineInstr &Inst) const {
				5351	unsigned ResultReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5352	MachineBasicBlock *MBB = Inst.getParent();
				5353	MachineOperand &Src0 = Inst.getOperand(1);
				5354	MachineOperand &Src1 = Inst.getOperand(2);
				5355	const DebugLoc &DL = Inst.getDebugLoc();
				5356
				5357	switch (Inst.getOpcode()) {
				5358	case AMDGPU::S_PACK_LL_B32_B16: {
Konstantin Zhuravlyov	d24aeb2	2017-04-13 23:17:00 +0000	[diff] [blame]	5359	unsigned ImmReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5360	unsigned TmpReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	5361
Konstantin Zhuravlyov	d24aeb2	2017-04-13 23:17:00 +0000	[diff] [blame]	5362	// FIXME: Can do a lot better if we know the high bits of src0 or src1 are
				5363	// 0.
				5364	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_MOV_B32_e32), ImmReg)
				5365	.addImm(0xffff);
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	5366
Konstantin Zhuravlyov	d24aeb2	2017-04-13 23:17:00 +0000	[diff] [blame]	5367	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_AND_B32_e64), TmpReg)
				5368	.addReg(ImmReg, RegState::Kill)
				5369	.add(Src0);
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	5370
Konstantin Zhuravlyov	d24aeb2	2017-04-13 23:17:00 +0000	[diff] [blame]	5371	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_LSHL_OR_B32), ResultReg)
				5372	.add(Src1)
				5373	.addImm(16)
				5374	.addReg(TmpReg, RegState::Kill);
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	5375	break;
				5376	}
				5377	case AMDGPU::S_PACK_LH_B32_B16: {
				5378	unsigned ImmReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5379	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_MOV_B32_e32), ImmReg)
				5380	.addImm(0xffff);
				5381	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_BFI_B32), ResultReg)
				5382	.addReg(ImmReg, RegState::Kill)
				5383	.add(Src0)
				5384	.add(Src1);
				5385	break;
				5386	}
				5387	case AMDGPU::S_PACK_HH_B32_B16: {
				5388	unsigned ImmReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5389	unsigned TmpReg = MRI.createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				5390	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_LSHRREV_B32_e64), TmpReg)
				5391	.addImm(16)
				5392	.add(Src0);
				5393	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_MOV_B32_e32), ImmReg)
Konstantin Zhuravlyov	88938d4	2017-04-21 19:35:05 +0000	[diff] [blame]	5394	.addImm(0xffff0000);
Matt Arsenault	eb522e6	2017-02-27 22:15:25 +0000	[diff] [blame]	5395	BuildMI(*MBB, Inst, DL, get(AMDGPU::V_AND_OR_B32), ResultReg)
				5396	.add(Src1)
				5397	.addReg(ImmReg, RegState::Kill)
				5398	.addReg(TmpReg, RegState::Kill);
				5399	break;
				5400	}
				5401	default:
				5402	llvm_unreachable("unhandled s_pack_* instruction");
				5403	}
				5404
				5405	MachineOperand &Dest = Inst.getOperand(0);
				5406	MRI.replaceRegWith(Dest.getReg(), ResultReg);
				5407	addUsersToMoveToVALUWorklist(ResultReg, MRI, Worklist);
				5408	}
				5409
Michael Liao	6883d7e	2019-03-15 12:42:21 +0000	[diff] [blame]	5410	void SIInstrInfo::addSCCDefUsersToVALUWorklist(MachineOperand &Op,
				5411	MachineInstr &SCCDefInst,
				5412	SetVectorType &Worklist) const {
				5413	// Ensure that def inst defines SCC, which is still live.
				5414	assert(Op.isReg() && Op.getReg() == AMDGPU::SCC && Op.isDef() &&
				5415	!Op.isDead() && Op.getParent() == &SCCDefInst);
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	5416	// This assumes that all the users of SCC are in the same block
				5417	// as the SCC def.
Michael Liao	6883d7e	2019-03-15 12:42:21 +0000	[diff] [blame]	5418	for (MachineInstr &MI : // Skip the def inst itself.
				5419	make_range(std::next(MachineBasicBlock::iterator(SCCDefInst)),
				5420	SCCDefInst.getParent()->end())) {
				5421	// Check if SCC is used first.
				5422	if (MI.findRegisterUseOperandIdx(AMDGPU::SCC, false, &RI) != -1)
				5423	Worklist.insert(&MI);
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	5424	// Exit if we find another SCC def.
Stanislav Mekhanoshin	13d3371	2018-11-09 17:58:59 +0000	[diff] [blame]	5425	if (MI.findRegisterDefOperandIdx(AMDGPU::SCC, false, false, &RI) != -1)
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	5426	return;
Tom Stellard	bc4497b	2016-02-12 23:45:29 +0000	[diff] [blame]	5427	}
				5428	}
				5429
Matt Arsenault	ba6aae7	2015-09-28 20:54:57 +0000	[diff] [blame]	5430	const TargetRegisterClass *SIInstrInfo::getDestEquivalentVGPRClass(
				5431	const MachineInstr &Inst) const {
				5432	const TargetRegisterClass *NewDstRC = getOpRegClass(Inst, 0);
				5433
				5434	switch (Inst.getOpcode()) {
				5435	// For target instructions, getOpRegClass just returns the virtual register
				5436	// class associated with the operand, so we need to find an equivalent VGPR
				5437	// register class in order to move the instruction to the VALU.
				5438	case AMDGPU::COPY:
				5439	case AMDGPU::PHI:
				5440	case AMDGPU::REG_SEQUENCE:
				5441	case AMDGPU::INSERT_SUBREG:
Connor Abbott	8c217d0	2017-08-04 18:36:49 +0000	[diff] [blame]	5442	case AMDGPU::WQM:
Connor Abbott	92638ab	2017-08-04 18:36:52 +0000	[diff] [blame]	5443	case AMDGPU::WWM:
Alexander Timofeev	37bd9bd	2019-06-06 21:13:02 +0000	[diff] [blame]	5444	if (RI.hasVGPRs(NewDstRC))
Matt Arsenault	ba6aae7	2015-09-28 20:54:57 +0000	[diff] [blame]	5445	return nullptr;
				5446
				5447	NewDstRC = RI.getEquivalentVGPRClass(NewDstRC);
				5448	if (!NewDstRC)
				5449	return nullptr;
				5450	return NewDstRC;
				5451	default:
				5452	return NewDstRC;
				5453	}
				5454	}
				5455
Matt Arsenault	6c06741	2015-11-03 22:30:15 +0000	[diff] [blame]	5456	// Find the one SGPR operand we are allowed to use.
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5457	unsigned SIInstrInfo::findUsedSGPR(const MachineInstr &MI,
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5458	int OpIndices[3]) const {
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5459	const MCInstrDesc &Desc = MI.getDesc();
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5460
				5461	// Find the one SGPR operand we are allowed to use.
Matt Arsenault	e223ceb	2015-10-21 21:15:01 +0000	[diff] [blame]	5462	//
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5463	// First we need to consider the instruction's operand requirements before
				5464	// legalizing. Some operands are required to be SGPRs, such as implicit uses
				5465	// of VCC, but we are still bound by the constant bus requirement to only use
				5466	// one.
				5467	//
				5468	// If the operand's class is an SGPR, we can never move it.
				5469
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5470	unsigned SGPRReg = findImplicitSGPRRead(MI);
Matt Arsenault	e223ceb	2015-10-21 21:15:01 +0000	[diff] [blame]	5471	if (SGPRReg != AMDGPU::NoRegister)
				5472	return SGPRReg;
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5473
				5474	unsigned UsedSGPRs[3] = { AMDGPU::NoRegister };
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5475	const MachineRegisterInfo &MRI = MI.getParent()->getParent()->getRegInfo();
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5476
				5477	for (unsigned i = 0; i < 3; ++i) {
				5478	int Idx = OpIndices[i];
				5479	if (Idx == -1)
				5480	break;
				5481
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5482	const MachineOperand &MO = MI.getOperand(Idx);
Matt Arsenault	6c06741	2015-11-03 22:30:15 +0000	[diff] [blame]	5483	if (!MO.isReg())
				5484	continue;
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5485
Matt Arsenault	6c06741	2015-11-03 22:30:15 +0000	[diff] [blame]	5486	// Is this operand statically required to be an SGPR based on the operand
				5487	// constraints?
				5488	const TargetRegisterClass *OpRC = RI.getRegClass(Desc.OpInfo[Idx].RegClass);
				5489	bool IsRequiredSGPR = RI.isSGPRClass(OpRC);
				5490	if (IsRequiredSGPR)
				5491	return MO.getReg();
				5492
				5493	// If this could be a VGPR or an SGPR, Check the dynamic register class.
				5494	unsigned Reg = MO.getReg();
				5495	const TargetRegisterClass *RegRC = MRI.getRegClass(Reg);
				5496	if (RI.isSGPRClass(RegRC))
				5497	UsedSGPRs[i] = Reg;
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5498	}
				5499
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5500	// We don't have a required SGPR operand, so we have a bit more freedom in
				5501	// selecting operands to move.
				5502
				5503	// Try to select the most used SGPR. If an SGPR is equal to one of the
				5504	// others, we choose that.
				5505	//
				5506	// e.g.
				5507	// V_FMA_F32 v0, s0, s0, s0 -> No moves
				5508	// V_FMA_F32 v0, s0, s1, s0 -> Move s1
				5509
Matt Arsenault	6c06741	2015-11-03 22:30:15 +0000	[diff] [blame]	5510	// TODO: If some of the operands are 64-bit SGPRs and some 32, we should
				5511	// prefer those.
				5512
Matt Arsenault	ee522bf	2014-09-26 17:55:06 +0000	[diff] [blame]	5513	if (UsedSGPRs[0] != AMDGPU::NoRegister) {
				5514	if (UsedSGPRs[0] == UsedSGPRs[1] \|\| UsedSGPRs[0] == UsedSGPRs[2])
				5515	SGPRReg = UsedSGPRs[0];
				5516	}
				5517
				5518	if (SGPRReg == AMDGPU::NoRegister && UsedSGPRs[1] != AMDGPU::NoRegister) {
				5519	if (UsedSGPRs[1] == UsedSGPRs[2])
				5520	SGPRReg = UsedSGPRs[1];
				5521	}
				5522
				5523	return SGPRReg;
				5524	}
				5525
Tom Stellard	6407e1e	2014-08-01 00:32:33 +0000	[diff] [blame]	5526	MachineOperand *SIInstrInfo::getNamedOperand(MachineInstr &MI,
Matt Arsenault	ace5b76	2014-10-17 18:00:43 +0000	[diff] [blame]	5527	unsigned OperandName) const {
Tom Stellard	1aaad69	2014-07-21 16:55:33 +0000	[diff] [blame]	5528	int Idx = AMDGPU::getNamedOperandIdx(MI.getOpcode(), OperandName);
				5529	if (Idx == -1)
				5530	return nullptr;
				5531
				5532	return &MI.getOperand(Idx);
				5533	}
Tom Stellard	794c8c0	2014-12-02 17:05:41 +0000	[diff] [blame]	5534
				5535	uint64_t SIInstrInfo::getDefaultRsrcDataFormat() const {
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	5536	if (ST.getGeneration() >= AMDGPUSubtarget::GFX10) {
				5537	return (16ULL << 44) \| // IMG_FORMAT_32_FLOAT
				5538	(1ULL << 56) \| // RESOURCE_LEVEL = 1
				5539	(3ULL << 60); // OOB_SELECT = 3
				5540	}
				5541
Tom Stellard	794c8c0	2014-12-02 17:05:41 +0000	[diff] [blame]	5542	uint64_t RsrcDataFormat = AMDGPU::RSRC_DATA_FORMAT;
Tom Stellard	4694ed0	2015-06-26 21:58:42 +0000	[diff] [blame]	5543	if (ST.isAmdHsaOS()) {
Marek Olsak	5c7a61d	2017-03-21 17:00:39 +0000	[diff] [blame]	5544	// Set ATC = 1. GFX9 doesn't have this bit.
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	5545	if (ST.getGeneration() <= AMDGPUSubtarget::VOLCANIC_ISLANDS)
Marek Olsak	5c7a61d	2017-03-21 17:00:39 +0000	[diff] [blame]	5546	RsrcDataFormat \|= (1ULL << 56);
Tom Stellard	794c8c0	2014-12-02 17:05:41 +0000	[diff] [blame]	5547
Marek Olsak	5c7a61d	2017-03-21 17:00:39 +0000	[diff] [blame]	5548	// Set MTYPE = 2 (MTYPE_UC = uncached). GFX9 doesn't have this.
				5549	// BTW, it disables TC L2 and therefore decreases performance.
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	5550	if (ST.getGeneration() == AMDGPUSubtarget::VOLCANIC_ISLANDS)
Michel Danzer	beb79ce	2016-03-16 09:10:35 +0000	[diff] [blame]	5551	RsrcDataFormat \|= (2ULL << 59);
Tom Stellard	4694ed0	2015-06-26 21:58:42 +0000	[diff] [blame]	5552	}
				5553
Tom Stellard	794c8c0	2014-12-02 17:05:41 +0000	[diff] [blame]	5554	return RsrcDataFormat;
				5555	}
Marek Olsak	d1a69a2	2015-09-29 23:37:32 +0000	[diff] [blame]	5556
				5557	uint64_t SIInstrInfo::getScratchRsrcWords23() const {
				5558	uint64_t Rsrc23 = getDefaultRsrcDataFormat() \|
				5559	AMDGPU::RSRC_TID_ENABLE \|
				5560	0xffffffff; // Size;
				5561
Marek Olsak	5c7a61d	2017-03-21 17:00:39 +0000	[diff] [blame]	5562	// GFX9 doesn't have ELEMENT_SIZE.
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	5563	if (ST.getGeneration() <= AMDGPUSubtarget::VOLCANIC_ISLANDS) {
Marek Olsak	5c7a61d	2017-03-21 17:00:39 +0000	[diff] [blame]	5564	uint64_t EltSizeValue = Log2_32(ST.getMaxPrivateElementSize()) - 1;
				5565	Rsrc23 \|= EltSizeValue << AMDGPU::RSRC_ELEMENT_SIZE_SHIFT;
				5566	}
Matt Arsenault	24ee078	2016-02-12 02:40:47 +0000	[diff] [blame]	5567
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	5568	// IndexStride = 64 / 32.
				5569	uint64_t IndexStride = ST.getGeneration() <= AMDGPUSubtarget::GFX9 ? 3 : 2;
				5570	Rsrc23 \|= IndexStride << AMDGPU::RSRC_INDEX_STRIDE_SHIFT;
Matt Arsenault	24ee078	2016-02-12 02:40:47 +0000	[diff] [blame]	5571
Marek Olsak	d1a69a2	2015-09-29 23:37:32 +0000	[diff] [blame]	5572	// If TID_ENABLE is set, DATA_FORMAT specifies stride bits [14:17].
				5573	// Clear them unless we want a huge stride.
Stanislav Mekhanoshin	28a1936	2019-05-04 04:20:37 +0000	[diff] [blame]	5574	if (ST.getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS &&
				5575	ST.getGeneration() <= AMDGPUSubtarget::GFX9)
Marek Olsak	d1a69a2	2015-09-29 23:37:32 +0000	[diff] [blame]	5576	Rsrc23 &= ~AMDGPU::RSRC_DATA_FORMAT;
				5577
				5578	return Rsrc23;
				5579	}
Nicolai Haehnle	02c3291	2016-01-13 16:10:10 +0000	[diff] [blame]	5580
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5581	bool SIInstrInfo::isLowLatencyInstruction(const MachineInstr &MI) const {
				5582	unsigned Opc = MI.getOpcode();
Nicolai Haehnle	02c3291	2016-01-13 16:10:10 +0000	[diff] [blame]	5583
				5584	return isSMRD(Opc);
				5585	}
				5586
Duncan P. N. Exon Smith	9cfc75c	2016-06-30 00:01:54 +0000	[diff] [blame]	5587	bool SIInstrInfo::isHighLatencyInstruction(const MachineInstr &MI) const {
				5588	unsigned Opc = MI.getOpcode();
Nicolai Haehnle	02c3291	2016-01-13 16:10:10 +0000	[diff] [blame]	5589
				5590	return isMUBUF(Opc) \|\| isMTBUF(Opc) \|\| isMIMG(Opc);
				5591	}
Tom Stellard	2ff7262	2016-01-28 16:04:37 +0000	[diff] [blame]	5592
Matt Arsenault	3354f42	2016-09-10 01:20:33 +0000	[diff] [blame]	5593	unsigned SIInstrInfo::isStackAccess(const MachineInstr &MI,
				5594	int &FrameIndex) const {
				5595	const MachineOperand *Addr = getNamedOperand(MI, AMDGPU::OpName::vaddr);
				5596	if (!Addr \|\| !Addr->isFI())
				5597	return AMDGPU::NoRegister;
				5598
				5599	assert(!MI.memoperands_empty() &&
Matt Arsenault	0da6350	2018-08-31 05:49:54 +0000	[diff] [blame]	5600	(*MI.memoperands_begin())->getAddrSpace() == AMDGPUAS::PRIVATE_ADDRESS);
Matt Arsenault	3354f42	2016-09-10 01:20:33 +0000	[diff] [blame]	5601
				5602	FrameIndex = Addr->getIndex();
				5603	return getNamedOperand(MI, AMDGPU::OpName::vdata)->getReg();
				5604	}
				5605
				5606	unsigned SIInstrInfo::isSGPRStackAccess(const MachineInstr &MI,
				5607	int &FrameIndex) const {
				5608	const MachineOperand *Addr = getNamedOperand(MI, AMDGPU::OpName::addr);
				5609	assert(Addr && Addr->isFI());
				5610	FrameIndex = Addr->getIndex();
				5611	return getNamedOperand(MI, AMDGPU::OpName::data)->getReg();
				5612	}
				5613
				5614	unsigned SIInstrInfo::isLoadFromStackSlot(const MachineInstr &MI,
				5615	int &FrameIndex) const {
Matt Arsenault	3354f42	2016-09-10 01:20:33 +0000	[diff] [blame]	5616	if (!MI.mayLoad())
				5617	return AMDGPU::NoRegister;
				5618
				5619	if (isMUBUF(MI) \|\| isVGPRSpill(MI))
				5620	return isStackAccess(MI, FrameIndex);
				5621
				5622	if (isSGPRSpill(MI))
				5623	return isSGPRStackAccess(MI, FrameIndex);
				5624
				5625	return AMDGPU::NoRegister;
				5626	}
				5627
				5628	unsigned SIInstrInfo::isStoreToStackSlot(const MachineInstr &MI,
				5629	int &FrameIndex) const {
				5630	if (!MI.mayStore())
				5631	return AMDGPU::NoRegister;
				5632
				5633	if (isMUBUF(MI) \|\| isVGPRSpill(MI))
				5634	return isStackAccess(MI, FrameIndex);
				5635
				5636	if (isSGPRSpill(MI))
				5637	return isSGPRStackAccess(MI, FrameIndex);
				5638
				5639	return AMDGPU::NoRegister;
				5640	}
				5641
Matt Arsenault	9ab1fa6	2017-10-04 22:59:12 +0000	[diff] [blame]	5642	unsigned SIInstrInfo::getInstBundleSize(const MachineInstr &MI) const {
				5643	unsigned Size = 0;
				5644	MachineBasicBlock::const_instr_iterator I = MI.getIterator();
				5645	MachineBasicBlock::const_instr_iterator E = MI.getParent()->instr_end();
				5646	while (++I != E && I->isInsideBundle()) {
				5647	assert(!I->isBundle() && "No nested bundle!");
				5648	Size += getInstSizeInBytes(*I);
				5649	}
				5650
				5651	return Size;
				5652	}
				5653
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5654	unsigned SIInstrInfo::getInstSizeInBytes(const MachineInstr &MI) const {
				5655	unsigned Opc = MI.getOpcode();
				5656	const MCInstrDesc &Desc = getMCOpcodeFromPseudo(Opc);
				5657	unsigned DescSize = Desc.getSize();
				5658
				5659	// If we have a definitive size, we can use it. Otherwise we need to inspect
				5660	// the operands to know the size.
Matt Arsenault	0183c56	2018-07-27 09:15:03 +0000	[diff] [blame]	5661	if (isFixedSize(MI))
				5662	return DescSize;
				5663
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5664	// 4-byte instructions may have a 32-bit literal encoded after them. Check
				5665	// operands that coud ever be literals.
				5666	if (isVALU(MI) \|\| isSALU(MI)) {
				5667	int Src0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src0);
				5668	if (Src0Idx == -1)
Nicolai Haehnle	283b995	2018-08-29 07:46:09 +0000	[diff] [blame]	5669	return DescSize; // No operands.
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5670
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	5671	if (isLiteralConstantLike(MI.getOperand(Src0Idx), Desc.OpInfo[Src0Idx]))
Stanislav Mekhanoshin	692560d	2019-05-01 16:32:58 +0000	[diff] [blame]	5672	return isVOP3(MI) ? 12 : (DescSize + 4);
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5673
				5674	int Src1Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src1);
				5675	if (Src1Idx == -1)
Nicolai Haehnle	283b995	2018-08-29 07:46:09 +0000	[diff] [blame]	5676	return DescSize;
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5677
Matt Arsenault	4bd7236	2016-12-10 00:39:12 +0000	[diff] [blame]	5678	if (isLiteralConstantLike(MI.getOperand(Src1Idx), Desc.OpInfo[Src1Idx]))
Stanislav Mekhanoshin	692560d	2019-05-01 16:32:58 +0000	[diff] [blame]	5679	return isVOP3(MI) ? 12 : (DescSize + 4);
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5680
Nicolai Haehnle	283b995	2018-08-29 07:46:09 +0000	[diff] [blame]	5681	int Src2Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::src2);
				5682	if (Src2Idx == -1)
				5683	return DescSize;
				5684
				5685	if (isLiteralConstantLike(MI.getOperand(Src2Idx), Desc.OpInfo[Src2Idx]))
Stanislav Mekhanoshin	692560d	2019-05-01 16:32:58 +0000	[diff] [blame]	5686	return isVOP3(MI) ? 12 : (DescSize + 4);
Nicolai Haehnle	283b995	2018-08-29 07:46:09 +0000	[diff] [blame]	5687
				5688	return DescSize;
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5689	}
				5690
Stanislav Mekhanoshin	692560d	2019-05-01 16:32:58 +0000	[diff] [blame]	5691	// Check whether we have extra NSA words.
				5692	if (isMIMG(MI)) {
				5693	int VAddr0Idx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::vaddr0);
				5694	if (VAddr0Idx < 0)
				5695	return 8;
				5696
				5697	int RSrcIdx = AMDGPU::getNamedOperandIdx(Opc, AMDGPU::OpName::srsrc);
				5698	return 8 + 4 * ((RSrcIdx - VAddr0Idx + 2) / 4);
				5699	}
				5700
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5701	switch (Opc) {
				5702	case TargetOpcode::IMPLICIT_DEF:
				5703	case TargetOpcode::KILL:
				5704	case TargetOpcode::DBG_VALUE:
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5705	case TargetOpcode::EH_LABEL:
				5706	return 0;
Matt Arsenault	9ab1fa6	2017-10-04 22:59:12 +0000	[diff] [blame]	5707	case TargetOpcode::BUNDLE:
				5708	return getInstBundleSize(MI);
Craig Topper	784929d	2019-02-08 20:48:56 +0000	[diff] [blame]	5709	case TargetOpcode::INLINEASM:
				5710	case TargetOpcode::INLINEASM_BR: {
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5711	const MachineFunction *MF = MI.getParent()->getParent();
				5712	const char *AsmStr = MI.getOperand(0).getSymbolName();
Matt Arsenault	ca64ef2	2019-05-22 16:28:41 +0000	[diff] [blame]	5713	return getInlineAsmLength(AsmStr, *MF->getTarget().getMCAsmInfo(),
				5714	&MF->getSubtarget());
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5715	}
				5716	default:
Nicolai Haehnle	283b995	2018-08-29 07:46:09 +0000	[diff] [blame]	5717	return DescSize;
Matt Arsenault	02458c2	2016-06-06 20:10:33 +0000	[diff] [blame]	5718	}
				5719	}
				5720
Tom Stellard	6695ba0	2016-10-28 23:53:48 +0000	[diff] [blame]	5721	bool SIInstrInfo::mayAccessFlatAddressSpace(const MachineInstr &MI) const {
				5722	if (!isFLAT(MI))
				5723	return false;
				5724
				5725	if (MI.memoperands_empty())
				5726	return true;
				5727
				5728	for (const MachineMemOperand *MMO : MI.memoperands()) {
Matt Arsenault	0da6350	2018-08-31 05:49:54 +0000	[diff] [blame]	5729	if (MMO->getAddrSpace() == AMDGPUAS::FLAT_ADDRESS)
Tom Stellard	6695ba0	2016-10-28 23:53:48 +0000	[diff] [blame]	5730	return true;
				5731	}
				5732	return false;
				5733	}
				5734
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	5735	bool SIInstrInfo::isNonUniformBranchInstr(MachineInstr &Branch) const {
				5736	return Branch.getOpcode() == AMDGPU::SI_NON_UNIFORM_BRCOND_PSEUDO;
				5737	}
				5738
				5739	void SIInstrInfo::convertNonUniformIfRegion(MachineBasicBlock *IfEntry,
				5740	MachineBasicBlock *IfEnd) const {
				5741	MachineBasicBlock::iterator TI = IfEntry->getFirstTerminator();
				5742	assert(TI != IfEntry->end());
				5743
				5744	MachineInstr Branch = &(TI);
				5745	MachineFunction *MF = IfEntry->getParent();
				5746	MachineRegisterInfo &MRI = IfEntry->getParent()->getRegInfo();
				5747
				5748	if (Branch->getOpcode() == AMDGPU::SI_NON_UNIFORM_BRCOND_PSEUDO) {
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	5749	unsigned DstReg = MRI.createVirtualRegister(RI.getBoolRC());
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	5750	MachineInstr *SIIF =
				5751	BuildMI(*MF, Branch->getDebugLoc(), get(AMDGPU::SI_IF), DstReg)
				5752	.add(Branch->getOperand(0))
				5753	.add(Branch->getOperand(1));
				5754	MachineInstr *SIEND =
				5755	BuildMI(*MF, Branch->getDebugLoc(), get(AMDGPU::SI_END_CF))
				5756	.addReg(DstReg);
				5757
				5758	IfEntry->erase(TI);
				5759	IfEntry->insert(IfEntry->end(), SIIF);
				5760	IfEnd->insert(IfEnd->getFirstNonPHI(), SIEND);
				5761	}
				5762	}
				5763
				5764	void SIInstrInfo::convertNonUniformLoopRegion(
				5765	MachineBasicBlock LoopEntry, MachineBasicBlock LoopEnd) const {
				5766	MachineBasicBlock::iterator TI = LoopEnd->getFirstTerminator();
				5767	// We expect 2 terminators, one conditional and one unconditional.
				5768	assert(TI != LoopEnd->end());
				5769
				5770	MachineInstr Branch = &(TI);
				5771	MachineFunction *MF = LoopEnd->getParent();
				5772	MachineRegisterInfo &MRI = LoopEnd->getParent()->getRegInfo();
				5773
				5774	if (Branch->getOpcode() == AMDGPU::SI_NON_UNIFORM_BRCOND_PSEUDO) {
				5775
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	5776	unsigned DstReg = MRI.createVirtualRegister(RI.getBoolRC());
				5777	unsigned BackEdgeReg = MRI.createVirtualRegister(RI.getBoolRC());
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	5778	MachineInstrBuilder HeaderPHIBuilder =
				5779	BuildMI(*(MF), Branch->getDebugLoc(), get(TargetOpcode::PHI), DstReg);
				5780	for (MachineBasicBlock::pred_iterator PI = LoopEntry->pred_begin(),
				5781	E = LoopEntry->pred_end();
				5782	PI != E; ++PI) {
				5783	if (*PI == LoopEnd) {
				5784	HeaderPHIBuilder.addReg(BackEdgeReg);
				5785	} else {
				5786	MachineBasicBlock PMBB = PI;
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	5787	unsigned ZeroReg = MRI.createVirtualRegister(RI.getBoolRC());
Jan Sjodin	a06bfe0	2017-05-15 20:18:37 +0000	[diff] [blame]	5788	materializeImmediate(*PMBB, PMBB->getFirstTerminator(), DebugLoc(),
				5789	ZeroReg, 0);
				5790	HeaderPHIBuilder.addReg(ZeroReg);
				5791	}
				5792	HeaderPHIBuilder.addMBB(*PI);
				5793	}
				5794	MachineInstr *HeaderPhi = HeaderPHIBuilder;
				5795	MachineInstr SIIFBREAK = BuildMI((MF), Branch->getDebugLoc(),
				5796	get(AMDGPU::SI_IF_BREAK), BackEdgeReg)
				5797	.addReg(DstReg)
				5798	.add(Branch->getOperand(0));
				5799	MachineInstr *SILOOP =
				5800	BuildMI(*(MF), Branch->getDebugLoc(), get(AMDGPU::SI_LOOP))
				5801	.addReg(BackEdgeReg)
				5802	.addMBB(LoopEntry);
				5803
				5804	LoopEntry->insert(LoopEntry->begin(), HeaderPhi);
				5805	LoopEnd->erase(TI);
				5806	LoopEnd->insert(LoopEnd->end(), SIIFBREAK);
				5807	LoopEnd->insert(LoopEnd->end(), SILOOP);
				5808	}
				5809	}
				5810
Tom Stellard	2ff7262	2016-01-28 16:04:37 +0000	[diff] [blame]	5811	ArrayRef<std::pair<int, const char *>>
				5812	SIInstrInfo::getSerializableTargetIndices() const {
				5813	static const std::pair<int, const char *> TargetIndices[] = {
				5814	{AMDGPU::TI_CONSTDATA_START, "amdgpu-constdata-start"},
				5815	{AMDGPU::TI_SCRATCH_RSRC_DWORD0, "amdgpu-scratch-rsrc-dword0"},
				5816	{AMDGPU::TI_SCRATCH_RSRC_DWORD1, "amdgpu-scratch-rsrc-dword1"},
				5817	{AMDGPU::TI_SCRATCH_RSRC_DWORD2, "amdgpu-scratch-rsrc-dword2"},
				5818	{AMDGPU::TI_SCRATCH_RSRC_DWORD3, "amdgpu-scratch-rsrc-dword3"}};
				5819	return makeArrayRef(TargetIndices);
				5820	}
Tom Stellard	cb6ba62	2016-04-30 00:23:06 +0000	[diff] [blame]	5821
				5822	/// This is used by the post-RA scheduler (SchedulePostRAList.cpp). The
				5823	/// post-RA version of misched uses CreateTargetMIHazardRecognizer.
				5824	ScheduleHazardRecognizer *
				5825	SIInstrInfo::CreateTargetPostRAHazardRecognizer(const InstrItineraryData *II,
				5826	const ScheduleDAG *DAG) const {
				5827	return new GCNHazardRecognizer(DAG->MF);
				5828	}
				5829
				5830	/// This is the hazard recognizer used at -O0 by the PostRAHazardRecognizer
				5831	/// pass.
				5832	ScheduleHazardRecognizer *
				5833	SIInstrInfo::CreateTargetPostRAHazardRecognizer(const MachineFunction &MF) const {
				5834	return new GCNHazardRecognizer(MF);
				5835	}
Stanislav Mekhanoshin	6ec3e3a	2017-01-20 00:44:31 +0000	[diff] [blame]	5836
Matt Arsenault	3f031e7	2017-07-02 23:21:48 +0000	[diff] [blame]	5837	std::pair<unsigned, unsigned>
				5838	SIInstrInfo::decomposeMachineOperandsTargetFlags(unsigned TF) const {
				5839	return std::make_pair(TF & MO_MASK, TF & ~MO_MASK);
				5840	}
				5841
				5842	ArrayRef<std::pair<unsigned, const char *>>
				5843	SIInstrInfo::getSerializableDirectMachineOperandTargetFlags() const {
				5844	static const std::pair<unsigned, const char *> TargetFlags[] = {
				5845	{ MO_GOTPCREL, "amdgpu-gotprel" },
				5846	{ MO_GOTPCREL32_LO, "amdgpu-gotprel32-lo" },
				5847	{ MO_GOTPCREL32_HI, "amdgpu-gotprel32-hi" },
				5848	{ MO_REL32_LO, "amdgpu-rel32-lo" },
				5849	{ MO_REL32_HI, "amdgpu-rel32-hi" }
				5850	};
				5851
				5852	return makeArrayRef(TargetFlags);
				5853	}
				5854
Stanislav Mekhanoshin	6ec3e3a	2017-01-20 00:44:31 +0000	[diff] [blame]	5855	bool SIInstrInfo::isBasicBlockPrologue(const MachineInstr &MI) const {
				5856	return !MI.isTerminator() && MI.getOpcode() != AMDGPU::COPY &&
				5857	MI.modifiesRegister(AMDGPU::EXEC, &RI);
				5858	}
Stanislav Mekhanoshin	86b0a54	2017-04-14 00:33:44 +0000	[diff] [blame]	5859
				5860	MachineInstrBuilder
				5861	SIInstrInfo::getAddNoCarry(MachineBasicBlock &MBB,
				5862	MachineBasicBlock::iterator I,
				5863	const DebugLoc &DL,
				5864	unsigned DestReg) const {
Matt Arsenault	686d5c7	2017-11-30 23:42:30 +0000	[diff] [blame]	5865	if (ST.hasAddNoCarry())
				5866	return BuildMI(MBB, I, DL, get(AMDGPU::V_ADD_U32_e64), DestReg);
Stanislav Mekhanoshin	86b0a54	2017-04-14 00:33:44 +0000	[diff] [blame]	5867
Matt Arsenault	686d5c7	2017-11-30 23:42:30 +0000	[diff] [blame]	5868	MachineRegisterInfo &MRI = MBB.getParent()->getRegInfo();
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	5869	unsigned UnusedCarry = MRI.createVirtualRegister(RI.getBoolRC());
				5870	MRI.setRegAllocationHint(UnusedCarry, 0, RI.getVCC());
Stanislav Mekhanoshin	86b0a54	2017-04-14 00:33:44 +0000	[diff] [blame]	5871
				5872	return BuildMI(MBB, I, DL, get(AMDGPU::V_ADD_I32_e64), DestReg)
				5873	.addReg(UnusedCarry, RegState::Define \| RegState::Dead);
				5874	}
Marek Olsak	ce76ea0	2017-10-24 10:27:13 +0000	[diff] [blame]	5875
				5876	bool SIInstrInfo::isKillTerminator(unsigned Opcode) {
				5877	switch (Opcode) {
				5878	case AMDGPU::SI_KILL_F32_COND_IMM_TERMINATOR:
				5879	case AMDGPU::SI_KILL_I1_TERMINATOR:
				5880	return true;
				5881	default:
				5882	return false;
				5883	}
				5884	}
				5885
				5886	const MCInstrDesc &SIInstrInfo::getKillTerminatorFromPseudo(unsigned Opcode) const {
				5887	switch (Opcode) {
				5888	case AMDGPU::SI_KILL_F32_COND_IMM_PSEUDO:
				5889	return get(AMDGPU::SI_KILL_F32_COND_IMM_TERMINATOR);
				5890	case AMDGPU::SI_KILL_I1_PSEUDO:
				5891	return get(AMDGPU::SI_KILL_I1_TERMINATOR);
				5892	default:
				5893	llvm_unreachable("invalid opcode, expected SI_KILL_*_PSEUDO");
				5894	}
				5895	}
Tom Stellard	44b30b4	2018-05-22 02:03:23 +0000	[diff] [blame]	5896
Stanislav Mekhanoshin	5250021	2019-06-16 17:13:09 +0000	[diff] [blame]	5897	void SIInstrInfo::fixImplicitOperands(MachineInstr &MI) const {
				5898	MachineBasicBlock *MBB = MI.getParent();
				5899	MachineFunction *MF = MBB->getParent();
				5900	const GCNSubtarget &ST = MF->getSubtarget<GCNSubtarget>();
				5901
				5902	if (!ST.isWave32())
				5903	return;
				5904
				5905	for (auto &Op : MI.implicit_operands()) {
				5906	if (Op.isReg() && Op.getReg() == AMDGPU::VCC)
				5907	Op.setReg(AMDGPU::VCC_LO);
				5908	}
				5909	}
				5910
Tom Stellard	44b30b4	2018-05-22 02:03:23 +0000	[diff] [blame]	5911	bool SIInstrInfo::isBufferSMRD(const MachineInstr &MI) const {
				5912	if (!isSMRD(MI))
				5913	return false;
				5914
				5915	// Check that it is using a buffer resource.
				5916	int Idx = AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::sbase);
				5917	if (Idx == -1) // e.g. s_memtime
				5918	return false;
				5919
				5920	const auto RCID = MI.getDesc().OpInfo[Idx].RegClass;
				5921	return RCID == AMDGPU::SReg_128RegClassID;
				5922	}
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5923
				5924	// This must be kept in sync with the SIEncodingFamily class in SIInstrInfo.td
				5925	enum SIEncodingFamily {
				5926	SI = 0,
				5927	VI = 1,
				5928	SDWA = 2,
				5929	SDWA9 = 3,
				5930	GFX80 = 4,
Stanislav Mekhanoshin	cee607e	2019-04-24 17:03:15 +0000	[diff] [blame]	5931	GFX9 = 5,
				5932	GFX10 = 6,
				5933	SDWA10 = 7
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5934	};
				5935
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	5936	static SIEncodingFamily subtargetEncodingFamily(const GCNSubtarget &ST) {
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5937	switch (ST.getGeneration()) {
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	5938	default:
				5939	break;
				5940	case AMDGPUSubtarget::SOUTHERN_ISLANDS:
				5941	case AMDGPUSubtarget::SEA_ISLANDS:
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5942	return SIEncodingFamily::SI;
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	5943	case AMDGPUSubtarget::VOLCANIC_ISLANDS:
				5944	case AMDGPUSubtarget::GFX9:
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5945	return SIEncodingFamily::VI;
Stanislav Mekhanoshin	cee607e	2019-04-24 17:03:15 +0000	[diff] [blame]	5946	case AMDGPUSubtarget::GFX10:
				5947	return SIEncodingFamily::GFX10;
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5948	}
				5949	llvm_unreachable("Unknown subtarget generation!");
				5950	}
				5951
				5952	int SIInstrInfo::pseudoToMCOpcode(int Opcode) const {
				5953	SIEncodingFamily Gen = subtargetEncodingFamily(ST);
				5954
				5955	if ((get(Opcode).TSFlags & SIInstrFlags::renamedInGFX9) != 0 &&
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	5956	ST.getGeneration() == AMDGPUSubtarget::GFX9)
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5957	Gen = SIEncodingFamily::GFX9;
				5958
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5959	// Adjust the encoding family to GFX80 for D16 buffer instructions when the
				5960	// subtarget has UnpackedD16VMem feature.
				5961	// TODO: remove this when we discard GFX80 encoding.
				5962	if (ST.hasUnpackedD16VMem() && (get(Opcode).TSFlags & SIInstrFlags::D16Buf))
				5963	Gen = SIEncodingFamily::GFX80;
				5964
Stanislav Mekhanoshin	5cf8167	2019-05-02 04:01:39 +0000	[diff] [blame]	5965	if (get(Opcode).TSFlags & SIInstrFlags::SDWA) {
				5966	switch (ST.getGeneration()) {
				5967	default:
				5968	Gen = SIEncodingFamily::SDWA;
				5969	break;
				5970	case AMDGPUSubtarget::GFX9:
				5971	Gen = SIEncodingFamily::SDWA9;
				5972	break;
				5973	case AMDGPUSubtarget::GFX10:
				5974	Gen = SIEncodingFamily::SDWA10;
				5975	break;
				5976	}
				5977	}
				5978
Tom Stellard	c5a154d	2018-06-28 23:47:12 +0000	[diff] [blame]	5979	int MCOp = AMDGPU::getMCOpcode(Opcode, Gen);
				5980
				5981	// -1 means that Opcode is already a native instruction.
				5982	if (MCOp == -1)
				5983	return Opcode;
				5984
				5985	// (uint16_t)-1 means that Opcode is a pseudo instruction that has
				5986	// no encoding in the given subtarget generation.
				5987	if (MCOp == (uint16_t)-1)
				5988	return -1;
				5989
				5990	return MCOp;
				5991	}
Valery Pykhtin	3d9afa2	2018-11-30 14:21:56 +0000	[diff] [blame]	5992
				5993	static
				5994	TargetInstrInfo::RegSubRegPair getRegOrUndef(const MachineOperand &RegOpnd) {
				5995	assert(RegOpnd.isReg());
				5996	return RegOpnd.isUndef() ? TargetInstrInfo::RegSubRegPair() :
				5997	getRegSubRegPair(RegOpnd);
				5998	}
				5999
				6000	TargetInstrInfo::RegSubRegPair
				6001	llvm::getRegSequenceSubReg(MachineInstr &MI, unsigned SubReg) {
				6002	assert(MI.isRegSequence());
				6003	for (unsigned I = 0, E = (MI.getNumOperands() - 1)/ 2; I < E; ++I)
				6004	if (MI.getOperand(1 + 2 * I + 1).getImm() == SubReg) {
				6005	auto &RegOp = MI.getOperand(1 + 2 * I);
				6006	return getRegOrUndef(RegOp);
				6007	}
				6008	return TargetInstrInfo::RegSubRegPair();
				6009	}
				6010
				6011	// Try to find the definition of reg:subreg in subreg-manipulation pseudos
				6012	// Following a subreg of reg:subreg isn't supported
				6013	static bool followSubRegDef(MachineInstr &MI,
				6014	TargetInstrInfo::RegSubRegPair &RSR) {
				6015	if (!RSR.SubReg)
				6016	return false;
				6017	switch (MI.getOpcode()) {
				6018	default: break;
				6019	case AMDGPU::REG_SEQUENCE:
				6020	RSR = getRegSequenceSubReg(MI, RSR.SubReg);
				6021	return true;
				6022	// EXTRACT_SUBREG ins't supported as this would follow a subreg of subreg
				6023	case AMDGPU::INSERT_SUBREG:
				6024	if (RSR.SubReg == (unsigned)MI.getOperand(3).getImm())
				6025	// inserted the subreg we're looking for
				6026	RSR = getRegOrUndef(MI.getOperand(2));
				6027	else { // the subreg in the rest of the reg
				6028	auto R1 = getRegOrUndef(MI.getOperand(1));
				6029	if (R1.SubReg) // subreg of subreg isn't supported
				6030	return false;
				6031	RSR.Reg = R1.Reg;
				6032	}
				6033	return true;
				6034	}
				6035	return false;
				6036	}
				6037
				6038	MachineInstr *llvm::getVRegSubRegDef(const TargetInstrInfo::RegSubRegPair &P,
				6039	MachineRegisterInfo &MRI) {
				6040	assert(MRI.isSSA());
				6041	if (!TargetRegisterInfo::isVirtualRegister(P.Reg))
				6042	return nullptr;
				6043
				6044	auto RSR = P;
				6045	auto *DefInst = MRI.getVRegDef(RSR.Reg);
				6046	while (auto *MI = DefInst) {
				6047	DefInst = nullptr;
				6048	switch (MI->getOpcode()) {
				6049	case AMDGPU::COPY:
				6050	case AMDGPU::V_MOV_B32_e32: {
				6051	auto &Op1 = MI->getOperand(1);
				6052	if (Op1.isReg() &&
				6053	TargetRegisterInfo::isVirtualRegister(Op1.getReg())) {
				6054	if (Op1.isUndef())
				6055	return nullptr;
				6056	RSR = getRegSubRegPair(Op1);
				6057	DefInst = MRI.getVRegDef(RSR.Reg);
				6058	}
				6059	break;
				6060	}
				6061	default:
				6062	if (followSubRegDef(*MI, RSR)) {
				6063	if (!RSR.Reg)
				6064	return nullptr;
				6065	DefInst = MRI.getVRegDef(RSR.Reg);
				6066	}
				6067	}
				6068	if (!DefInst)
				6069	return MI;
				6070	}
				6071	return nullptr;
				6072	}
Valery Pykhtin	7fe97f8	2019-02-08 11:59:48 +0000	[diff] [blame]	6073
				6074	bool llvm::isEXECMaskConstantBetweenDefAndUses(unsigned VReg,
Matt Arsenault	642f39c	2019-06-14 13:26:23 +0000	[diff] [blame]	6075	const MachineRegisterInfo &MRI) {
Valery Pykhtin	7fe97f8	2019-02-08 11:59:48 +0000	[diff] [blame]	6076	assert(MRI.isSSA() && "Must be run on SSA");
				6077	auto *TRI = MRI.getTargetRegisterInfo();
				6078
				6079	auto *DefI = MRI.getVRegDef(VReg);
				6080	auto *BB = DefI->getParent();
				6081
				6082	DenseSet<MachineInstr*> Uses;
				6083	for (auto &Use : MRI.use_nodbg_operands(VReg)) {
				6084	auto *I = Use.getParent();
				6085	if (I->getParent() != BB)
				6086	return false;
				6087	Uses.insert(I);
				6088	}
				6089
				6090	auto E = BB->end();
				6091	for (auto I = std::next(DefI->getIterator()); I != E; ++I) {
				6092	Uses.erase(&*I);
				6093	// don't check the last use
				6094	if (Uses.empty() \|\| I->modifiesRegister(AMDGPU::EXEC, TRI))
				6095	break;
				6096	}
				6097	return Uses.empty();
				6098	}