Blame - llvm/lib/Target/AMDGPU/SILoadStoreOptimizer.cpp - toolchain/llvm-project

blob: d755f7609ccf7a717737c85eaf1a5309748c461d [file] [log] [blame]

Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	1	//===- SILoadStoreOptimizer.cpp -------------------------------------------===//
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	2	//
				3	// The LLVM Compiler Infrastructure
				4	//
				5	// This file is distributed under the University of Illinois Open Source
				6	// License. See LICENSE.TXT for details.
				7	//
				8	//===----------------------------------------------------------------------===//
				9	//
				10	// This pass tries to fuse DS instructions with close by immediate offsets.
				11	// This will fuse operations such as
				12	// ds_read_b32 v0, v2 offset:16
				13	// ds_read_b32 v1, v2 offset:32
				14	// ==>
				15	// ds_read2_b32 v[0:1], v2, offset0:4 offset1:8
				16	//
Nicolai Haehnle	b4f28de	2017-11-28 08:42:46 +0000	[diff] [blame]	17	// The same is done for certain SMEM and VMEM opcodes, e.g.:
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	18	// s_buffer_load_dword s4, s[0:3], 4
				19	// s_buffer_load_dword s5, s[0:3], 8
				20	// ==>
				21	// s_buffer_load_dwordx2 s[4:5], s[0:3], 4
				22	//
Farhana Aleen	ce095c5	2018-12-14 21:13:14 +0000	[diff] [blame^]	23	// This pass also tries to promote constant offset to the immediate by
				24	// adjusting the base. It tries to use a base from the nearby instructions that
				25	// allows it to have a 13bit constant offset and then promotes the 13bit offset
				26	// to the immediate.
				27	// E.g.
				28	// s_movk_i32 s0, 0x1800
				29	// v_add_co_u32_e32 v0, vcc, s0, v2
				30	// v_addc_co_u32_e32 v1, vcc, 0, v6, vcc
				31	//
				32	// s_movk_i32 s0, 0x1000
				33	// v_add_co_u32_e32 v5, vcc, s0, v2
				34	// v_addc_co_u32_e32 v6, vcc, 0, v6, vcc
				35	// global_load_dwordx2 v[5:6], v[5:6], off
				36	// global_load_dwordx2 v[0:1], v[0:1], off
				37	// =>
				38	// s_movk_i32 s0, 0x1000
				39	// v_add_co_u32_e32 v5, vcc, s0, v2
				40	// v_addc_co_u32_e32 v6, vcc, 0, v6, vcc
				41	// global_load_dwordx2 v[5:6], v[5:6], off
				42	// global_load_dwordx2 v[0:1], v[5:6], off offset:2048
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	43	//
				44	// Future improvements:
				45	//
				46	// - This currently relies on the scheduler to place loads and stores next to
				47	// each other, and then only merges adjacent pairs of instructions. It would
				48	// be good to be more flexible with interleaved instructions, and possibly run
				49	// before scheduling. It currently missing stores of constants because loading
				50	// the constant into the data register is placed between the stores, although
				51	// this is arguably a scheduling problem.
				52	//
				53	// - Live interval recomputing seems inefficient. This currently only matches
				54	// one pair, and recomputes live intervals and moves on to the next pair. It
Konstantin Zhuravlyov	ecc7cbf	2016-03-29 15:15:44 +0000	[diff] [blame]	55	// would be better to compute a list of all merges that need to occur.
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	56	//
				57	// - With a list of instructions to process, we can also merge more. If a
				58	// cluster of loads have offsets that are too large to fit in the 8-bit
				59	// offsets, but are close enough to fit in the 8 bits, we can add to the base
				60	// pointer and use the new reduced offsets.
				61	//
				62	//===----------------------------------------------------------------------===//
				63
				64	#include "AMDGPU.h"
Matt Arsenault	43e92fe	2016-06-24 06:30:11 +0000	[diff] [blame]	65	#include "AMDGPUSubtarget.h"
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	66	#include "MCTargetDesc/AMDGPUMCTargetDesc.h"
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	67	#include "SIInstrInfo.h"
				68	#include "SIRegisterInfo.h"
Eugene Zelenko	6620376	2017-01-21 00:53:49 +0000	[diff] [blame]	69	#include "Utils/AMDGPUBaseInfo.h"
				70	#include "llvm/ADT/ArrayRef.h"
				71	#include "llvm/ADT/SmallVector.h"
				72	#include "llvm/ADT/StringRef.h"
				73	#include "llvm/Analysis/AliasAnalysis.h"
				74	#include "llvm/CodeGen/MachineBasicBlock.h"
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	75	#include "llvm/CodeGen/MachineFunction.h"
				76	#include "llvm/CodeGen/MachineFunctionPass.h"
Eugene Zelenko	6620376	2017-01-21 00:53:49 +0000	[diff] [blame]	77	#include "llvm/CodeGen/MachineInstr.h"
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	78	#include "llvm/CodeGen/MachineInstrBuilder.h"
Eugene Zelenko	6620376	2017-01-21 00:53:49 +0000	[diff] [blame]	79	#include "llvm/CodeGen/MachineOperand.h"
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	80	#include "llvm/CodeGen/MachineRegisterInfo.h"
Eugene Zelenko	6620376	2017-01-21 00:53:49 +0000	[diff] [blame]	81	#include "llvm/IR/DebugLoc.h"
				82	#include "llvm/Pass.h"
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	83	#include "llvm/Support/Debug.h"
Eugene Zelenko	6620376	2017-01-21 00:53:49 +0000	[diff] [blame]	84	#include "llvm/Support/MathExtras.h"
Benjamin Kramer	799003b	2015-03-23 19:32:43 +0000	[diff] [blame]	85	#include "llvm/Support/raw_ostream.h"
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	86	#include <algorithm>
Eugene Zelenko	6620376	2017-01-21 00:53:49 +0000	[diff] [blame]	87	#include <cassert>
Eugene Zelenko	59e1282	2017-08-08 00:47:13 +0000	[diff] [blame]	88	#include <cstdlib>
Eugene Zelenko	6620376	2017-01-21 00:53:49 +0000	[diff] [blame]	89	#include <iterator>
				90	#include <utility>
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	91
				92	using namespace llvm;
				93
				94	#define DEBUG_TYPE "si-load-store-opt"
				95
				96	namespace {
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	97	enum InstClassEnum {
				98	UNKNOWN,
				99	DS_READ,
				100	DS_WRITE,
				101	S_BUFFER_LOAD_IMM,
				102	BUFFER_LOAD_OFFEN = AMDGPU::BUFFER_LOAD_DWORD_OFFEN,
				103	BUFFER_LOAD_OFFSET = AMDGPU::BUFFER_LOAD_DWORD_OFFSET,
				104	BUFFER_STORE_OFFEN = AMDGPU::BUFFER_STORE_DWORD_OFFEN,
				105	BUFFER_STORE_OFFSET = AMDGPU::BUFFER_STORE_DWORD_OFFSET,
				106	BUFFER_LOAD_OFFEN_exact = AMDGPU::BUFFER_LOAD_DWORD_OFFEN_exact,
				107	BUFFER_LOAD_OFFSET_exact = AMDGPU::BUFFER_LOAD_DWORD_OFFSET_exact,
				108	BUFFER_STORE_OFFEN_exact = AMDGPU::BUFFER_STORE_DWORD_OFFEN_exact,
				109	BUFFER_STORE_OFFSET_exact = AMDGPU::BUFFER_STORE_DWORD_OFFSET_exact,
				110	};
				111
				112	enum RegisterEnum {
				113	SBASE = 0x1,
				114	SRSRC = 0x2,
				115	SOFFSET = 0x4,
				116	VADDR = 0x8,
				117	ADDR = 0x10,
				118	};
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	119
				120	class SILoadStoreOptimizer : public MachineFunctionPass {
NAKAMURA Takumi	aba2b3d	2017-10-10 08:30:53 +0000	[diff] [blame]	121	struct CombineInfo {
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	122	MachineBasicBlock::iterator I;
				123	MachineBasicBlock::iterator Paired;
				124	unsigned EltSize;
				125	unsigned Offset0;
				126	unsigned Offset1;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	127	unsigned Width0;
				128	unsigned Width1;
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	129	unsigned BaseOff;
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	130	InstClassEnum InstClass;
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	131	bool GLC0;
				132	bool GLC1;
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	133	bool SLC0;
				134	bool SLC1;
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	135	bool UseST64;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	136	SmallVector<MachineInstr *, 8> InstsToMove;
				137	};
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	138
Farhana Aleen	ce095c5	2018-12-14 21:13:14 +0000	[diff] [blame^]	139	struct BaseRegisters {
				140	unsigned LoReg = 0;
				141	unsigned HiReg = 0;
				142
				143	unsigned LoSubReg = 0;
				144	unsigned HiSubReg = 0;
				145	};
				146
				147	struct MemAddress {
				148	BaseRegisters Base;
				149	int64_t Offset = 0;
				150	};
				151
				152	using MemInfoMap = DenseMap<MachineInstr *, MemAddress>;
				153
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	154	private:
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	155	const GCNSubtarget *STM = nullptr;
Eugene Zelenko	6620376	2017-01-21 00:53:49 +0000	[diff] [blame]	156	const SIInstrInfo *TII = nullptr;
				157	const SIRegisterInfo *TRI = nullptr;
				158	MachineRegisterInfo *MRI = nullptr;
				159	AliasAnalysis *AA = nullptr;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	160	bool OptimizeAgain;
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	161
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	162	static bool offsetsCanBeCombined(CombineInfo &CI);
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	163	static bool widthsFit(const CombineInfo &CI);
				164	static unsigned getNewOpcode(const CombineInfo &CI);
				165	static std::pair<unsigned, unsigned> getSubRegIdxs(const CombineInfo &CI);
				166	const TargetRegisterClass *getTargetRegisterClass(const CombineInfo &CI);
				167	unsigned getOpcodeWidth(const MachineInstr &MI);
				168	InstClassEnum getInstClass(unsigned Opc);
				169	unsigned getRegs(unsigned Opc);
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	170
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	171	bool findMatchingInst(CombineInfo &CI);
Matt Arsenault	3f71c0e	2017-11-29 00:55:57 +0000	[diff] [blame]	172
				173	unsigned read2Opcode(unsigned EltSize) const;
				174	unsigned read2ST64Opcode(unsigned EltSize) const;
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	175	MachineBasicBlock::iterator mergeRead2Pair(CombineInfo &CI);
Matt Arsenault	3f71c0e	2017-11-29 00:55:57 +0000	[diff] [blame]	176
				177	unsigned write2Opcode(unsigned EltSize) const;
				178	unsigned write2ST64Opcode(unsigned EltSize) const;
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	179	MachineBasicBlock::iterator mergeWrite2Pair(CombineInfo &CI);
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	180	MachineBasicBlock::iterator mergeSBufferLoadImmPair(CombineInfo &CI);
Marek Olsak	4c421a2d	2017-11-09 01:52:36 +0000	[diff] [blame]	181	MachineBasicBlock::iterator mergeBufferLoadPair(CombineInfo &CI);
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	182	MachineBasicBlock::iterator mergeBufferStorePair(CombineInfo &CI);
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	183
Farhana Aleen	ce095c5	2018-12-14 21:13:14 +0000	[diff] [blame^]	184	void updateBaseAndOffset(MachineInstr &I, unsigned NewBase,
				185	int32_t NewOffset);
				186	unsigned computeBase(MachineInstr &MI, const MemAddress &Addr);
				187	MachineOperand createRegOrImm(int32_t Val, MachineInstr &MI);
				188	Optional<int32_t> extractConstOffset(const MachineOperand &Op);
				189	void processBaseWithConstOffset(const MachineOperand &Base, MemAddress &Addr);
				190	/// Promotes constant offset to the immediate by adjusting the base. It
				191	/// tries to use a base from the nearby instructions that allows it to have
				192	/// a 13bit constant offset which gets promoted to the immediate.
				193	bool promoteConstantOffsetToImm(MachineInstr &CI,
				194	MemInfoMap &Visited,
				195	SmallPtrSet<MachineInstr *, 4> &Promoted);
				196
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	197	public:
				198	static char ID;
				199
Francis Visoiu Mistrih	8b61764	2017-05-18 17:21:13 +0000	[diff] [blame]	200	SILoadStoreOptimizer() : MachineFunctionPass(ID) {
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	201	initializeSILoadStoreOptimizerPass(*PassRegistry::getPassRegistry());
				202	}
				203
				204	bool optimizeBlock(MachineBasicBlock &MBB);
				205
				206	bool runOnMachineFunction(MachineFunction &MF) override;
				207
Mark Searles	7687d42	2018-01-22 21:46:43 +0000	[diff] [blame]	208	StringRef getPassName() const override { return "SI Load Store Optimizer"; }
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	209
				210	void getAnalysisUsage(AnalysisUsage &AU) const override {
				211	AU.setPreservesCFG();
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	212	AU.addRequired<AAResultsWrapperPass>();
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	213
				214	MachineFunctionPass::getAnalysisUsage(AU);
				215	}
				216	};
				217
Eugene Zelenko	6620376	2017-01-21 00:53:49 +0000	[diff] [blame]	218	} // end anonymous namespace.
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	219
				220	INITIALIZE_PASS_BEGIN(SILoadStoreOptimizer, DEBUG_TYPE,
Mark Searles	7687d42	2018-01-22 21:46:43 +0000	[diff] [blame]	221	"SI Load Store Optimizer", false, false)
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	222	INITIALIZE_PASS_DEPENDENCY(AAResultsWrapperPass)
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	223	INITIALIZE_PASS_END(SILoadStoreOptimizer, DEBUG_TYPE, "SI Load Store Optimizer",
				224	false, false)
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	225
				226	char SILoadStoreOptimizer::ID = 0;
				227
				228	char &llvm::SILoadStoreOptimizerID = SILoadStoreOptimizer::ID;
				229
Francis Visoiu Mistrih	8b61764	2017-05-18 17:21:13 +0000	[diff] [blame]	230	FunctionPass *llvm::createSILoadStoreOptimizerPass() {
				231	return new SILoadStoreOptimizer();
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	232	}
				233
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	234	static void moveInstsAfter(MachineBasicBlock::iterator I,
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	235	ArrayRef<MachineInstr *> InstsToMove) {
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	236	MachineBasicBlock *MBB = I->getParent();
				237	++I;
				238	for (MachineInstr *MI : InstsToMove) {
				239	MI->removeFromParent();
				240	MBB->insert(I, MI);
				241	}
				242	}
				243
Nicolai Haehnle	6cf306d	2018-02-23 10:45:56 +0000	[diff] [blame]	244	static void addDefsUsesToList(const MachineInstr &MI,
				245	DenseSet<unsigned> &RegDefs,
				246	DenseSet<unsigned> &PhysRegUses) {
				247	for (const MachineOperand &Op : MI.operands()) {
				248	if (Op.isReg()) {
				249	if (Op.isDef())
				250	RegDefs.insert(Op.getReg());
				251	else if (Op.readsReg() &&
				252	TargetRegisterInfo::isPhysicalRegister(Op.getReg()))
				253	PhysRegUses.insert(Op.getReg());
				254	}
Matt Arsenault	b02cebf	2018-02-08 01:56:14 +0000	[diff] [blame]	255	}
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	256	}
				257
Eugene Zelenko	6620376	2017-01-21 00:53:49 +0000	[diff] [blame]	258	static bool memAccessesCanBeReordered(MachineBasicBlock::iterator A,
				259	MachineBasicBlock::iterator B,
				260	const SIInstrInfo *TII,
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	261	AliasAnalysis *AA) {
Matt Arsenault	67e72de	2017-08-31 01:53:09 +0000	[diff] [blame]	262	// RAW or WAR - cannot reorder
				263	// WAW - cannot reorder
				264	// RAR - safe to reorder
				265	return !(A->mayStore() \|\| B->mayStore()) \|\|
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	266	TII->areMemAccessesTriviallyDisjoint(A, B, AA);
Alexander Timofeev	f867a40	2016-11-03 14:37:13 +0000	[diff] [blame]	267	}
				268
Nicolai Haehnle	7b0e25b	2016-10-27 08:15:07 +0000	[diff] [blame]	269	// Add MI and its defs to the lists if MI reads one of the defs that are
				270	// already in the list. Returns true in that case.
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	271	static bool addToListsIfDependent(MachineInstr &MI, DenseSet<unsigned> &RegDefs,
				272	DenseSet<unsigned> &PhysRegUses,
				273	SmallVectorImpl<MachineInstr *> &Insts) {
Matt Arsenault	67e72de	2017-08-31 01:53:09 +0000	[diff] [blame]	274	for (MachineOperand &Use : MI.operands()) {
				275	// If one of the defs is read, then there is a use of Def between I and the
				276	// instruction that I will potentially be merged with. We will need to move
				277	// this instruction after the merged instructions.
Nicolai Haehnle	6cf306d	2018-02-23 10:45:56 +0000	[diff] [blame]	278	//
				279	// Similarly, if there is a def which is read by an instruction that is to
				280	// be moved for merging, then we need to move the def-instruction as well.
				281	// This can only happen for physical registers such as M0; virtual
				282	// registers are in SSA form.
				283	if (Use.isReg() &&
				284	((Use.readsReg() && RegDefs.count(Use.getReg())) \|\|
				285	(Use.isDef() && TargetRegisterInfo::isPhysicalRegister(Use.getReg()) &&
				286	PhysRegUses.count(Use.getReg())))) {
Nicolai Haehnle	7b0e25b	2016-10-27 08:15:07 +0000	[diff] [blame]	287	Insts.push_back(&MI);
Nicolai Haehnle	6cf306d	2018-02-23 10:45:56 +0000	[diff] [blame]	288	addDefsUsesToList(MI, RegDefs, PhysRegUses);
Nicolai Haehnle	7b0e25b	2016-10-27 08:15:07 +0000	[diff] [blame]	289	return true;
				290	}
				291	}
				292
				293	return false;
				294	}
				295
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	296	static bool canMoveInstsAcrossMemOp(MachineInstr &MemOp,
				297	ArrayRef<MachineInstr *> InstsToMove,
				298	const SIInstrInfo TII, AliasAnalysis AA) {
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	299	assert(MemOp.mayLoadOrStore());
				300
				301	for (MachineInstr *InstToMove : InstsToMove) {
				302	if (!InstToMove->mayLoadOrStore())
				303	continue;
Alexander Timofeev	f867a40	2016-11-03 14:37:13 +0000	[diff] [blame]	304	if (!memAccessesCanBeReordered(MemOp, *InstToMove, TII, AA))
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	305	return false;
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	306	}
				307	return true;
				308	}
				309
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	310	bool SILoadStoreOptimizer::offsetsCanBeCombined(CombineInfo &CI) {
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	311	// XXX - Would the same offset be OK? Is there any reason this would happen or
				312	// be useful?
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	313	if (CI.Offset0 == CI.Offset1)
Matt Arsenault	fe0a2e6	2014-10-10 22:12:32 +0000	[diff] [blame]	314	return false;
				315
				316	// This won't be valid if the offset isn't aligned.
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	317	if ((CI.Offset0 % CI.EltSize != 0) \|\| (CI.Offset1 % CI.EltSize != 0))
Matt Arsenault	fe0a2e6	2014-10-10 22:12:32 +0000	[diff] [blame]	318	return false;
				319
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	320	unsigned EltOffset0 = CI.Offset0 / CI.EltSize;
				321	unsigned EltOffset1 = CI.Offset1 / CI.EltSize;
				322	CI.UseST64 = false;
				323	CI.BaseOff = 0;
Matt Arsenault	fe0a2e6	2014-10-10 22:12:32 +0000	[diff] [blame]	324
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	325	// Handle SMEM and VMEM instructions.
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	326	if ((CI.InstClass != DS_READ) && (CI.InstClass != DS_WRITE)) {
				327	return (EltOffset0 + CI.Width0 == EltOffset1 \|\|
				328	EltOffset1 + CI.Width1 == EltOffset0) &&
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	329	CI.GLC0 == CI.GLC1 &&
				330	(CI.InstClass == S_BUFFER_LOAD_IMM \|\| CI.SLC0 == CI.SLC1);
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	331	}
				332
Matt Arsenault	fe0a2e6	2014-10-10 22:12:32 +0000	[diff] [blame]	333	// If the offset in elements doesn't fit in 8-bits, we might be able to use
				334	// the stride 64 versions.
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	335	if ((EltOffset0 % 64 == 0) && (EltOffset1 % 64) == 0 &&
				336	isUInt<8>(EltOffset0 / 64) && isUInt<8>(EltOffset1 / 64)) {
				337	CI.Offset0 = EltOffset0 / 64;
				338	CI.Offset1 = EltOffset1 / 64;
				339	CI.UseST64 = true;
				340	return true;
				341	}
Matt Arsenault	fe0a2e6	2014-10-10 22:12:32 +0000	[diff] [blame]	342
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	343	// Check if the new offsets fit in the reduced 8-bit range.
				344	if (isUInt<8>(EltOffset0) && isUInt<8>(EltOffset1)) {
				345	CI.Offset0 = EltOffset0;
				346	CI.Offset1 = EltOffset1;
				347	return true;
				348	}
				349
				350	// Try to shift base address to decrease offsets.
				351	unsigned OffsetDiff = std::abs((int)EltOffset1 - (int)EltOffset0);
				352	CI.BaseOff = std::min(CI.Offset0, CI.Offset1);
				353
				354	if ((OffsetDiff % 64 == 0) && isUInt<8>(OffsetDiff / 64)) {
				355	CI.Offset0 = (EltOffset0 - CI.BaseOff / CI.EltSize) / 64;
				356	CI.Offset1 = (EltOffset1 - CI.BaseOff / CI.EltSize) / 64;
				357	CI.UseST64 = true;
				358	return true;
				359	}
				360
				361	if (isUInt<8>(OffsetDiff)) {
				362	CI.Offset0 = EltOffset0 - CI.BaseOff / CI.EltSize;
				363	CI.Offset1 = EltOffset1 - CI.BaseOff / CI.EltSize;
				364	return true;
				365	}
				366
				367	return false;
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	368	}
				369
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	370	bool SILoadStoreOptimizer::widthsFit(const CombineInfo &CI) {
				371	const unsigned Width = (CI.Width0 + CI.Width1);
				372	switch (CI.InstClass) {
				373	default:
				374	return Width <= 4;
				375	case S_BUFFER_LOAD_IMM:
				376	switch (Width) {
				377	default:
				378	return false;
				379	case 2:
				380	case 4:
				381	return true;
				382	}
				383	}
				384	}
				385
				386	unsigned SILoadStoreOptimizer::getOpcodeWidth(const MachineInstr &MI) {
				387	const unsigned Opc = MI.getOpcode();
				388
				389	if (TII->isMUBUF(MI)) {
				390	return AMDGPU::getMUBUFDwords(Opc);
				391	}
				392
				393	switch (Opc) {
				394	default:
				395	return 0;
				396	case AMDGPU::S_BUFFER_LOAD_DWORD_IMM:
				397	return 1;
				398	case AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM:
				399	return 2;
				400	case AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM:
				401	return 4;
				402	}
				403	}
				404
				405	InstClassEnum SILoadStoreOptimizer::getInstClass(unsigned Opc) {
				406	if (TII->isMUBUF(Opc)) {
				407	const int baseOpcode = AMDGPU::getMUBUFBaseOpcode(Opc);
				408
				409	// If we couldn't identify the opcode, bail out.
				410	if (baseOpcode == -1) {
				411	return UNKNOWN;
				412	}
				413
				414	switch (baseOpcode) {
				415	default:
				416	return UNKNOWN;
				417	case AMDGPU::BUFFER_LOAD_DWORD_OFFEN:
				418	return BUFFER_LOAD_OFFEN;
				419	case AMDGPU::BUFFER_LOAD_DWORD_OFFSET:
				420	return BUFFER_LOAD_OFFSET;
				421	case AMDGPU::BUFFER_STORE_DWORD_OFFEN:
				422	return BUFFER_STORE_OFFEN;
				423	case AMDGPU::BUFFER_STORE_DWORD_OFFSET:
				424	return BUFFER_STORE_OFFSET;
				425	case AMDGPU::BUFFER_LOAD_DWORD_OFFEN_exact:
				426	return BUFFER_LOAD_OFFEN_exact;
				427	case AMDGPU::BUFFER_LOAD_DWORD_OFFSET_exact:
				428	return BUFFER_LOAD_OFFSET_exact;
				429	case AMDGPU::BUFFER_STORE_DWORD_OFFEN_exact:
				430	return BUFFER_STORE_OFFEN_exact;
				431	case AMDGPU::BUFFER_STORE_DWORD_OFFSET_exact:
				432	return BUFFER_STORE_OFFSET_exact;
				433	}
				434	}
				435
				436	switch (Opc) {
				437	default:
				438	return UNKNOWN;
				439	case AMDGPU::S_BUFFER_LOAD_DWORD_IMM:
				440	case AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM:
				441	case AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM:
				442	return S_BUFFER_LOAD_IMM;
				443	case AMDGPU::DS_READ_B32:
				444	case AMDGPU::DS_READ_B64:
				445	case AMDGPU::DS_READ_B32_gfx9:
				446	case AMDGPU::DS_READ_B64_gfx9:
				447	return DS_READ;
				448	case AMDGPU::DS_WRITE_B32:
				449	case AMDGPU::DS_WRITE_B64:
				450	case AMDGPU::DS_WRITE_B32_gfx9:
				451	case AMDGPU::DS_WRITE_B64_gfx9:
				452	return DS_WRITE;
				453	}
				454	}
				455
				456	unsigned SILoadStoreOptimizer::getRegs(unsigned Opc) {
				457	if (TII->isMUBUF(Opc)) {
				458	unsigned result = 0;
				459
				460	if (AMDGPU::getMUBUFHasVAddr(Opc)) {
				461	result \|= VADDR;
				462	}
				463
				464	if (AMDGPU::getMUBUFHasSrsrc(Opc)) {
				465	result \|= SRSRC;
				466	}
				467
				468	if (AMDGPU::getMUBUFHasSoffset(Opc)) {
				469	result \|= SOFFSET;
				470	}
				471
				472	return result;
				473	}
				474
				475	switch (Opc) {
				476	default:
				477	return 0;
				478	case AMDGPU::S_BUFFER_LOAD_DWORD_IMM:
				479	case AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM:
				480	case AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM:
				481	return SBASE;
				482	case AMDGPU::DS_READ_B32:
				483	case AMDGPU::DS_READ_B64:
				484	case AMDGPU::DS_READ_B32_gfx9:
				485	case AMDGPU::DS_READ_B64_gfx9:
				486	case AMDGPU::DS_WRITE_B32:
				487	case AMDGPU::DS_WRITE_B64:
				488	case AMDGPU::DS_WRITE_B32_gfx9:
				489	case AMDGPU::DS_WRITE_B64_gfx9:
				490	return ADDR;
				491	}
				492	}
				493
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	494	bool SILoadStoreOptimizer::findMatchingInst(CombineInfo &CI) {
Matt Arsenault	67e72de	2017-08-31 01:53:09 +0000	[diff] [blame]	495	MachineBasicBlock *MBB = CI.I->getParent();
				496	MachineBasicBlock::iterator E = MBB->end();
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	497	MachineBasicBlock::iterator MBBI = CI.I;
Matt Arsenault	3cb6163	2017-08-30 03:26:18 +0000	[diff] [blame]	498
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	499	const unsigned Opc = CI.I->getOpcode();
				500	const InstClassEnum InstClass = getInstClass(Opc);
				501
				502	if (InstClass == UNKNOWN) {
				503	return false;
				504	}
				505
				506	const unsigned Regs = getRegs(Opc);
				507
				508	unsigned AddrOpName[5] = {0};
				509	int AddrIdx[5];
				510	const MachineOperand *AddrReg[5];
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	511	unsigned NumAddresses = 0;
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	512
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	513	if (Regs & ADDR) {
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	514	AddrOpName[NumAddresses++] = AMDGPU::OpName::addr;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	515	}
				516
				517	if (Regs & SBASE) {
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	518	AddrOpName[NumAddresses++] = AMDGPU::OpName::sbase;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	519	}
				520
				521	if (Regs & SRSRC) {
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	522	AddrOpName[NumAddresses++] = AMDGPU::OpName::srsrc;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	523	}
				524
				525	if (Regs & SOFFSET) {
				526	AddrOpName[NumAddresses++] = AMDGPU::OpName::soffset;
				527	}
				528
				529	if (Regs & VADDR) {
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	530	AddrOpName[NumAddresses++] = AMDGPU::OpName::vaddr;
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	531	}
Matt Arsenault	3cb6163	2017-08-30 03:26:18 +0000	[diff] [blame]	532
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	533	for (unsigned i = 0; i < NumAddresses; i++) {
				534	AddrIdx[i] = AMDGPU::getNamedOperandIdx(CI.I->getOpcode(), AddrOpName[i]);
				535	AddrReg[i] = &CI.I->getOperand(AddrIdx[i]);
				536
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	537	// We only ever merge operations with the same base address register, so
				538	// don't bother scanning forward if there are no other uses.
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	539	if (AddrReg[i]->isReg() &&
				540	(TargetRegisterInfo::isPhysicalRegister(AddrReg[i]->getReg()) \|\|
				541	MRI->hasOneNonDBGUse(AddrReg[i]->getReg())))
				542	return false;
				543	}
Matt Arsenault	3cb6163	2017-08-30 03:26:18 +0000	[diff] [blame]	544
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	545	++MBBI;
				546
Nicolai Haehnle	6cf306d	2018-02-23 10:45:56 +0000	[diff] [blame]	547	DenseSet<unsigned> RegDefsToMove;
				548	DenseSet<unsigned> PhysRegUsesToMove;
				549	addDefsUsesToList(*CI.I, RegDefsToMove, PhysRegUsesToMove);
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	550
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	551	for (; MBBI != E; ++MBBI) {
				552	const bool IsDS = (InstClass == DS_READ) \|\| (InstClass == DS_WRITE);
				553
				554	if ((getInstClass(MBBI->getOpcode()) != InstClass) \|\|
				555	(IsDS && (MBBI->getOpcode() != Opc))) {
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	556	// This is not a matching DS instruction, but we can keep looking as
				557	// long as one of these conditions are met:
				558	// 1. It is safe to move I down past MBBI.
				559	// 2. It is safe to move MBBI down past the instruction that I will
				560	// be merged into.
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	561
Matt Arsenault	2d69c92	2017-08-29 21:25:51 +0000	[diff] [blame]	562	if (MBBI->hasUnmodeledSideEffects()) {
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	563	// We can't re-order this instruction with respect to other memory
Matt Arsenault	2d69c92	2017-08-29 21:25:51 +0000	[diff] [blame]	564	// operations, so we fail both conditions mentioned above.
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	565	return false;
Matt Arsenault	2d69c92	2017-08-29 21:25:51 +0000	[diff] [blame]	566	}
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	567
				568	if (MBBI->mayLoadOrStore() &&
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	569	(!memAccessesCanBeReordered(CI.I, MBBI, TII, AA) \|\|
				570	!canMoveInstsAcrossMemOp(*MBBI, CI.InstsToMove, TII, AA))) {
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	571	// We fail condition #1, but we may still be able to satisfy condition
				572	// #2. Add this instruction to the move list and then we will check
				573	// if condition #2 holds once we have selected the matching instruction.
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	574	CI.InstsToMove.push_back(&*MBBI);
Nicolai Haehnle	6cf306d	2018-02-23 10:45:56 +0000	[diff] [blame]	575	addDefsUsesToList(*MBBI, RegDefsToMove, PhysRegUsesToMove);
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	576	continue;
				577	}
				578
				579	// When we match I with another DS instruction we will be moving I down
				580	// to the location of the matched instruction any uses of I will need to
				581	// be moved down as well.
Nicolai Haehnle	6cf306d	2018-02-23 10:45:56 +0000	[diff] [blame]	582	addToListsIfDependent(*MBBI, RegDefsToMove, PhysRegUsesToMove,
				583	CI.InstsToMove);
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	584	continue;
				585	}
				586
				587	// Don't merge volatiles.
				588	if (MBBI->hasOrderedMemoryRef())
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	589	return false;
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	590
Nicolai Haehnle	7b0e25b	2016-10-27 08:15:07 +0000	[diff] [blame]	591	// Handle a case like
				592	// DS_WRITE_B32 addr, v, idx0
				593	// w = DS_READ_B32 addr, idx0
				594	// DS_WRITE_B32 addr, f(w), idx1
				595	// where the DS_READ_B32 ends up in InstsToMove and therefore prevents
				596	// merging of the two writes.
Nicolai Haehnle	6cf306d	2018-02-23 10:45:56 +0000	[diff] [blame]	597	if (addToListsIfDependent(*MBBI, RegDefsToMove, PhysRegUsesToMove,
				598	CI.InstsToMove))
Nicolai Haehnle	7b0e25b	2016-10-27 08:15:07 +0000	[diff] [blame]	599	continue;
				600
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	601	bool Match = true;
				602	for (unsigned i = 0; i < NumAddresses; i++) {
				603	const MachineOperand &AddrRegNext = MBBI->getOperand(AddrIdx[i]);
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	604
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	605	if (AddrReg[i]->isImm() \|\| AddrRegNext.isImm()) {
				606	if (AddrReg[i]->isImm() != AddrRegNext.isImm() \|\|
				607	AddrReg[i]->getImm() != AddrRegNext.getImm()) {
				608	Match = false;
				609	break;
				610	}
				611	continue;
				612	}
				613
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	614	// Check same base pointer. Be careful of subregisters, which can occur
				615	// with vectors of pointers.
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	616	if (AddrReg[i]->getReg() != AddrRegNext.getReg() \|\|
				617	AddrReg[i]->getSubReg() != AddrRegNext.getSubReg()) {
				618	Match = false;
				619	break;
				620	}
				621	}
				622
				623	if (Match) {
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	624	int OffsetIdx =
				625	AMDGPU::getNamedOperandIdx(CI.I->getOpcode(), AMDGPU::OpName::offset);
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	626	CI.Offset0 = CI.I->getOperand(OffsetIdx).getImm();
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	627	CI.Width0 = getOpcodeWidth(*CI.I);
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	628	CI.Offset1 = MBBI->getOperand(OffsetIdx).getImm();
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	629	CI.Width1 = getOpcodeWidth(*MBBI);
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	630	CI.Paired = MBBI;
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	631
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	632	if ((CI.InstClass == DS_READ) \|\| (CI.InstClass == DS_WRITE)) {
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	633	CI.Offset0 &= 0xffff;
				634	CI.Offset1 &= 0xffff;
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	635	} else {
				636	CI.GLC0 = TII->getNamedOperand(*CI.I, AMDGPU::OpName::glc)->getImm();
				637	CI.GLC1 = TII->getNamedOperand(*MBBI, AMDGPU::OpName::glc)->getImm();
Marek Olsak	4c421a2d	2017-11-09 01:52:36 +0000	[diff] [blame]	638	if (CI.InstClass != S_BUFFER_LOAD_IMM) {
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	639	CI.SLC0 = TII->getNamedOperand(*CI.I, AMDGPU::OpName::slc)->getImm();
				640	CI.SLC1 = TII->getNamedOperand(*MBBI, AMDGPU::OpName::slc)->getImm();
				641	}
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	642	}
				643
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	644	// Check both offsets fit in the reduced range.
				645	// We also need to go through the list of instructions that we plan to
				646	// move and make sure they are all safe to move down past the merged
				647	// instruction.
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	648	if (widthsFit(CI) && offsetsCanBeCombined(CI))
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	649	if (canMoveInstsAcrossMemOp(*MBBI, CI.InstsToMove, TII, AA))
				650	return true;
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	651	}
				652
				653	// We've found a load/store that we couldn't merge for some reason.
				654	// We could potentially keep looking, but we'd need to make sure that
				655	// it was safe to move I and also all the instruction in InstsToMove
				656	// down past this instruction.
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	657	// check if we can move I across MBBI and if we can move all I's users
				658	if (!memAccessesCanBeReordered(CI.I, MBBI, TII, AA) \|\|
Nicolai Haehnle	6cf306d	2018-02-23 10:45:56 +0000	[diff] [blame]	659	!canMoveInstsAcrossMemOp(*MBBI, CI.InstsToMove, TII, AA))
Alexander Timofeev	f867a40	2016-11-03 14:37:13 +0000	[diff] [blame]	660	break;
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	661	}
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	662	return false;
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	663	}
				664
Matt Arsenault	3f71c0e	2017-11-29 00:55:57 +0000	[diff] [blame]	665	unsigned SILoadStoreOptimizer::read2Opcode(unsigned EltSize) const {
				666	if (STM->ldsRequiresM0Init())
				667	return (EltSize == 4) ? AMDGPU::DS_READ2_B32 : AMDGPU::DS_READ2_B64;
				668	return (EltSize == 4) ? AMDGPU::DS_READ2_B32_gfx9 : AMDGPU::DS_READ2_B64_gfx9;
				669	}
				670
				671	unsigned SILoadStoreOptimizer::read2ST64Opcode(unsigned EltSize) const {
				672	if (STM->ldsRequiresM0Init())
				673	return (EltSize == 4) ? AMDGPU::DS_READ2ST64_B32 : AMDGPU::DS_READ2ST64_B64;
				674
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	675	return (EltSize == 4) ? AMDGPU::DS_READ2ST64_B32_gfx9
				676	: AMDGPU::DS_READ2ST64_B64_gfx9;
Matt Arsenault	3f71c0e	2017-11-29 00:55:57 +0000	[diff] [blame]	677	}
				678
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	679	MachineBasicBlock::iterator
				680	SILoadStoreOptimizer::mergeRead2Pair(CombineInfo &CI) {
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	681	MachineBasicBlock *MBB = CI.I->getParent();
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	682
				683	// Be careful, since the addresses could be subregisters themselves in weird
				684	// cases, like vectors of pointers.
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	685	const auto AddrReg = TII->getNamedOperand(CI.I, AMDGPU::OpName::addr);
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	686
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	687	const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdst);
				688	const auto Dest1 = TII->getNamedOperand(CI.Paired, AMDGPU::OpName::vdst);
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	689
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	690	unsigned NewOffset0 = CI.Offset0;
				691	unsigned NewOffset1 = CI.Offset1;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	692	unsigned Opc =
				693	CI.UseST64 ? read2ST64Opcode(CI.EltSize) : read2Opcode(CI.EltSize);
Matt Arsenault	fe0a2e6	2014-10-10 22:12:32 +0000	[diff] [blame]	694
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	695	unsigned SubRegIdx0 = (CI.EltSize == 4) ? AMDGPU::sub0 : AMDGPU::sub0_sub1;
				696	unsigned SubRegIdx1 = (CI.EltSize == 4) ? AMDGPU::sub1 : AMDGPU::sub2_sub3;
Tom Stellard	e175d8a	2016-08-26 21:36:47 +0000	[diff] [blame]	697
				698	if (NewOffset0 > NewOffset1) {
				699	// Canonicalize the merged instruction so the smaller offset comes first.
				700	std::swap(NewOffset0, NewOffset1);
				701	std::swap(SubRegIdx0, SubRegIdx1);
				702	}
				703
Matt Arsenault	fe0a2e6	2014-10-10 22:12:32 +0000	[diff] [blame]	704	assert((isUInt<8>(NewOffset0) && isUInt<8>(NewOffset1)) &&
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	705	(NewOffset0 != NewOffset1) && "Computed offset doesn't fit");
Matt Arsenault	fe0a2e6	2014-10-10 22:12:32 +0000	[diff] [blame]	706
				707	const MCInstrDesc &Read2Desc = TII->get(Opc);
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	708
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	709	const TargetRegisterClass *SuperRC =
				710	(CI.EltSize == 4) ? &AMDGPU::VReg_64RegClass : &AMDGPU::VReg_128RegClass;
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	711	unsigned DestReg = MRI->createVirtualRegister(SuperRC);
				712
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	713	DebugLoc DL = CI.I->getDebugLoc();
				714
				715	unsigned BaseReg = AddrReg->getReg();
Stanislav Mekhanoshin	8dfcd83	2018-09-25 23:33:18 +0000	[diff] [blame]	716	unsigned BaseSubReg = AddrReg->getSubReg();
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	717	unsigned BaseRegFlags = 0;
				718	if (CI.BaseOff) {
Mark Searles	7687d42	2018-01-22 21:46:43 +0000	[diff] [blame]	719	unsigned ImmReg = MRI->createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				720	BuildMI(*MBB, CI.Paired, DL, TII->get(AMDGPU::S_MOV_B32), ImmReg)
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	721	.addImm(CI.BaseOff);
Mark Searles	7687d42	2018-01-22 21:46:43 +0000	[diff] [blame]	722
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	723	BaseReg = MRI->createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				724	BaseRegFlags = RegState::Kill;
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	725
Mark Searles	7687d42	2018-01-22 21:46:43 +0000	[diff] [blame]	726	TII->getAddNoCarry(*MBB, CI.Paired, DL, BaseReg)
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	727	.addReg(ImmReg)
				728	.addReg(AddrReg->getReg(), 0, BaseSubReg);
Stanislav Mekhanoshin	8dfcd83	2018-09-25 23:33:18 +0000	[diff] [blame]	729	BaseSubReg = 0;
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	730	}
				731
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	732	MachineInstrBuilder Read2 =
				733	BuildMI(*MBB, CI.Paired, DL, Read2Desc, DestReg)
				734	.addReg(BaseReg, BaseRegFlags, BaseSubReg) // addr
				735	.addImm(NewOffset0) // offset0
				736	.addImm(NewOffset1) // offset1
				737	.addImm(0) // gds
				738	.cloneMergedMemRefs({&CI.I, &CI.Paired});
Stanislav Mekhanoshin	86b0a54	2017-04-14 00:33:44 +0000	[diff] [blame]	739
NAKAMURA Takumi	9720f57	2016-08-30 11:50:21 +0000	[diff] [blame]	740	(void)Read2;
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	741
Matt Arsenault	84db5d9	2015-07-14 17:57:36 +0000	[diff] [blame]	742	const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
				743
				744	// Copy to the old destination registers.
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	745	BuildMI(*MBB, CI.Paired, DL, CopyDesc)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	746	.add(*Dest0) // Copy to same destination including flags and sub reg.
				747	.addReg(DestReg, 0, SubRegIdx0);
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	748	MachineInstr Copy1 = BuildMI(MBB, CI.Paired, DL, CopyDesc)
Diana Picus	116bbab	2017-01-13 09:58:52 +0000	[diff] [blame]	749	.add(*Dest1)
				750	.addReg(DestReg, RegState::Kill, SubRegIdx1);
Matt Arsenault	84db5d9	2015-07-14 17:57:36 +0000	[diff] [blame]	751
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	752	moveInstsAfter(Copy1, CI.InstsToMove);
Matt Arsenault	84db5d9	2015-07-14 17:57:36 +0000	[diff] [blame]	753
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	754	MachineBasicBlock::iterator Next = std::next(CI.I);
				755	CI.I->eraseFromParent();
				756	CI.Paired->eraseFromParent();
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	757
Nicola Zaghen	d34e60c	2018-05-14 12:53:11 +0000	[diff] [blame]	758	LLVM_DEBUG(dbgs() << "Inserted read2: " << *Read2 << '\n');
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	759	return Next;
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	760	}
				761
Matt Arsenault	3f71c0e	2017-11-29 00:55:57 +0000	[diff] [blame]	762	unsigned SILoadStoreOptimizer::write2Opcode(unsigned EltSize) const {
				763	if (STM->ldsRequiresM0Init())
				764	return (EltSize == 4) ? AMDGPU::DS_WRITE2_B32 : AMDGPU::DS_WRITE2_B64;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	765	return (EltSize == 4) ? AMDGPU::DS_WRITE2_B32_gfx9
				766	: AMDGPU::DS_WRITE2_B64_gfx9;
Matt Arsenault	3f71c0e	2017-11-29 00:55:57 +0000	[diff] [blame]	767	}
				768
				769	unsigned SILoadStoreOptimizer::write2ST64Opcode(unsigned EltSize) const {
				770	if (STM->ldsRequiresM0Init())
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	771	return (EltSize == 4) ? AMDGPU::DS_WRITE2ST64_B32
				772	: AMDGPU::DS_WRITE2ST64_B64;
Matt Arsenault	3f71c0e	2017-11-29 00:55:57 +0000	[diff] [blame]	773
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	774	return (EltSize == 4) ? AMDGPU::DS_WRITE2ST64_B32_gfx9
				775	: AMDGPU::DS_WRITE2ST64_B64_gfx9;
Matt Arsenault	3f71c0e	2017-11-29 00:55:57 +0000	[diff] [blame]	776	}
				777
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	778	MachineBasicBlock::iterator
				779	SILoadStoreOptimizer::mergeWrite2Pair(CombineInfo &CI) {
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	780	MachineBasicBlock *MBB = CI.I->getParent();
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	781
				782	// Be sure to use .addOperand(), and not .addReg() with these. We want to be
				783	// sure we preserve the subregister index and any register flags set on them.
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	784	const MachineOperand *AddrReg =
				785	TII->getNamedOperand(*CI.I, AMDGPU::OpName::addr);
				786	const MachineOperand *Data0 =
				787	TII->getNamedOperand(*CI.I, AMDGPU::OpName::data0);
				788	const MachineOperand *Data1 =
				789	TII->getNamedOperand(*CI.Paired, AMDGPU::OpName::data0);
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	790
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	791	unsigned NewOffset0 = CI.Offset0;
				792	unsigned NewOffset1 = CI.Offset1;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	793	unsigned Opc =
				794	CI.UseST64 ? write2ST64Opcode(CI.EltSize) : write2Opcode(CI.EltSize);
Matt Arsenault	fe0a2e6	2014-10-10 22:12:32 +0000	[diff] [blame]	795
Tom Stellard	e175d8a	2016-08-26 21:36:47 +0000	[diff] [blame]	796	if (NewOffset0 > NewOffset1) {
				797	// Canonicalize the merged instruction so the smaller offset comes first.
				798	std::swap(NewOffset0, NewOffset1);
				799	std::swap(Data0, Data1);
				800	}
				801
Matt Arsenault	fe0a2e6	2014-10-10 22:12:32 +0000	[diff] [blame]	802	assert((isUInt<8>(NewOffset0) && isUInt<8>(NewOffset1)) &&
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	803	(NewOffset0 != NewOffset1) && "Computed offset doesn't fit");
Matt Arsenault	fe0a2e6	2014-10-10 22:12:32 +0000	[diff] [blame]	804
				805	const MCInstrDesc &Write2Desc = TII->get(Opc);
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	806	DebugLoc DL = CI.I->getDebugLoc();
Matt Arsenault	fe0a2e6	2014-10-10 22:12:32 +0000	[diff] [blame]	807
Mark Searles	7687d42	2018-01-22 21:46:43 +0000	[diff] [blame]	808	unsigned BaseReg = AddrReg->getReg();
Stanislav Mekhanoshin	8dfcd83	2018-09-25 23:33:18 +0000	[diff] [blame]	809	unsigned BaseSubReg = AddrReg->getSubReg();
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	810	unsigned BaseRegFlags = 0;
				811	if (CI.BaseOff) {
Mark Searles	7687d42	2018-01-22 21:46:43 +0000	[diff] [blame]	812	unsigned ImmReg = MRI->createVirtualRegister(&AMDGPU::SGPR_32RegClass);
				813	BuildMI(*MBB, CI.Paired, DL, TII->get(AMDGPU::S_MOV_B32), ImmReg)
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	814	.addImm(CI.BaseOff);
Mark Searles	7687d42	2018-01-22 21:46:43 +0000	[diff] [blame]	815
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	816	BaseReg = MRI->createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				817	BaseRegFlags = RegState::Kill;
Matt Arsenault	84445dd	2017-11-30 22:51:26 +0000	[diff] [blame]	818
Mark Searles	7687d42	2018-01-22 21:46:43 +0000	[diff] [blame]	819	TII->getAddNoCarry(*MBB, CI.Paired, DL, BaseReg)
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	820	.addReg(ImmReg)
				821	.addReg(AddrReg->getReg(), 0, BaseSubReg);
Stanislav Mekhanoshin	8dfcd83	2018-09-25 23:33:18 +0000	[diff] [blame]	822	BaseSubReg = 0;
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	823	}
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	824
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	825	MachineInstrBuilder Write2 =
				826	BuildMI(*MBB, CI.Paired, DL, Write2Desc)
				827	.addReg(BaseReg, BaseRegFlags, BaseSubReg) // addr
				828	.add(*Data0) // data0
				829	.add(*Data1) // data1
				830	.addImm(NewOffset0) // offset0
				831	.addImm(NewOffset1) // offset1
				832	.addImm(0) // gds
				833	.cloneMergedMemRefs({&CI.I, &CI.Paired});
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	834
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	835	moveInstsAfter(Write2, CI.InstsToMove);
				836
				837	MachineBasicBlock::iterator Next = std::next(CI.I);
				838	CI.I->eraseFromParent();
				839	CI.Paired->eraseFromParent();
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	840
Nicola Zaghen	d34e60c	2018-05-14 12:53:11 +0000	[diff] [blame]	841	LLVM_DEBUG(dbgs() << "Inserted write2 inst: " << *Write2 << '\n');
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	842	return Next;
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	843	}
				844
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	845	MachineBasicBlock::iterator
				846	SILoadStoreOptimizer::mergeSBufferLoadImmPair(CombineInfo &CI) {
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	847	MachineBasicBlock *MBB = CI.I->getParent();
				848	DebugLoc DL = CI.I->getDebugLoc();
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	849	const unsigned Opcode = getNewOpcode(CI);
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	850
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	851	const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI);
				852
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	853	unsigned DestReg = MRI->createVirtualRegister(SuperRC);
				854	unsigned MergedOffset = std::min(CI.Offset0, CI.Offset1);
				855
				856	BuildMI(*MBB, CI.Paired, DL, TII->get(Opcode), DestReg)
				857	.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::sbase))
				858	.addImm(MergedOffset) // offset
				859	.addImm(CI.GLC0) // glc
Chandler Carruth	c73c030	2018-08-16 21:30:05 +0000	[diff] [blame]	860	.cloneMergedMemRefs({&CI.I, &CI.Paired});
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	861
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	862	std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI);
				863	const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
				864	const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	865
				866	// Copy to the old destination registers.
				867	const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
				868	const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::sdst);
				869	const auto Dest1 = TII->getNamedOperand(CI.Paired, AMDGPU::OpName::sdst);
				870
				871	BuildMI(*MBB, CI.Paired, DL, CopyDesc)
				872	.add(*Dest0) // Copy to same destination including flags and sub reg.
				873	.addReg(DestReg, 0, SubRegIdx0);
				874	MachineInstr Copy1 = BuildMI(MBB, CI.Paired, DL, CopyDesc)
				875	.add(*Dest1)
				876	.addReg(DestReg, RegState::Kill, SubRegIdx1);
				877
				878	moveInstsAfter(Copy1, CI.InstsToMove);
				879
				880	MachineBasicBlock::iterator Next = std::next(CI.I);
				881	CI.I->eraseFromParent();
				882	CI.Paired->eraseFromParent();
				883	return Next;
				884	}
				885
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	886	MachineBasicBlock::iterator
				887	SILoadStoreOptimizer::mergeBufferLoadPair(CombineInfo &CI) {
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	888	MachineBasicBlock *MBB = CI.I->getParent();
				889	DebugLoc DL = CI.I->getDebugLoc();
Marek Olsak	4c421a2d	2017-11-09 01:52:36 +0000	[diff] [blame]	890
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	891	const unsigned Opcode = getNewOpcode(CI);
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	892
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	893	const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI);
				894
				895	// Copy to the new source register.
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	896	unsigned DestReg = MRI->createVirtualRegister(SuperRC);
				897	unsigned MergedOffset = std::min(CI.Offset0, CI.Offset1);
				898
Marek Olsak	4c421a2d	2017-11-09 01:52:36 +0000	[diff] [blame]	899	auto MIB = BuildMI(*MBB, CI.Paired, DL, TII->get(Opcode), DestReg);
				900
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	901	const unsigned Regs = getRegs(Opcode);
				902
				903	if (Regs & VADDR)
				904	MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr));
Marek Olsak	4c421a2d	2017-11-09 01:52:36 +0000	[diff] [blame]	905
				906	MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	907	.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))
				908	.addImm(MergedOffset) // offset
				909	.addImm(CI.GLC0) // glc
				910	.addImm(CI.SLC0) // slc
				911	.addImm(0) // tfe
Chandler Carruth	c73c030	2018-08-16 21:30:05 +0000	[diff] [blame]	912	.cloneMergedMemRefs({&CI.I, &CI.Paired});
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	913
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	914	std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI);
				915	const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
				916	const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	917
				918	// Copy to the old destination registers.
				919	const MCInstrDesc &CopyDesc = TII->get(TargetOpcode::COPY);
				920	const auto Dest0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);
				921	const auto Dest1 = TII->getNamedOperand(CI.Paired, AMDGPU::OpName::vdata);
				922
				923	BuildMI(*MBB, CI.Paired, DL, CopyDesc)
				924	.add(*Dest0) // Copy to same destination including flags and sub reg.
				925	.addReg(DestReg, 0, SubRegIdx0);
				926	MachineInstr Copy1 = BuildMI(MBB, CI.Paired, DL, CopyDesc)
				927	.add(*Dest1)
				928	.addReg(DestReg, RegState::Kill, SubRegIdx1);
				929
				930	moveInstsAfter(Copy1, CI.InstsToMove);
				931
				932	MachineBasicBlock::iterator Next = std::next(CI.I);
				933	CI.I->eraseFromParent();
				934	CI.Paired->eraseFromParent();
				935	return Next;
				936	}
				937
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	938	unsigned SILoadStoreOptimizer::getNewOpcode(const CombineInfo &CI) {
				939	const unsigned Width = CI.Width0 + CI.Width1;
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	940
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	941	switch (CI.InstClass) {
				942	default:
				943	return AMDGPU::getMUBUFOpcode(CI.InstClass, Width);
				944	case UNKNOWN:
				945	llvm_unreachable("Unknown instruction class");
				946	case S_BUFFER_LOAD_IMM:
				947	switch (Width) {
				948	default:
				949	return 0;
				950	case 2:
				951	return AMDGPU::S_BUFFER_LOAD_DWORDX2_IMM;
				952	case 4:
				953	return AMDGPU::S_BUFFER_LOAD_DWORDX4_IMM;
				954	}
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	955	}
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	956	}
				957
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	958	std::pair<unsigned, unsigned>
				959	SILoadStoreOptimizer::getSubRegIdxs(const CombineInfo &CI) {
				960	if (CI.Offset0 > CI.Offset1) {
				961	switch (CI.Width0) {
				962	default:
				963	return std::make_pair(0, 0);
				964	case 1:
				965	switch (CI.Width1) {
				966	default:
				967	return std::make_pair(0, 0);
				968	case 1:
				969	return std::make_pair(AMDGPU::sub1, AMDGPU::sub0);
				970	case 2:
				971	return std::make_pair(AMDGPU::sub2, AMDGPU::sub0_sub1);
				972	case 3:
				973	return std::make_pair(AMDGPU::sub3, AMDGPU::sub0_sub1_sub2);
				974	}
				975	case 2:
				976	switch (CI.Width1) {
				977	default:
				978	return std::make_pair(0, 0);
				979	case 1:
				980	return std::make_pair(AMDGPU::sub1_sub2, AMDGPU::sub0);
				981	case 2:
				982	return std::make_pair(AMDGPU::sub2_sub3, AMDGPU::sub0_sub1);
				983	}
				984	case 3:
				985	switch (CI.Width1) {
				986	default:
				987	return std::make_pair(0, 0);
				988	case 1:
				989	return std::make_pair(AMDGPU::sub1_sub2_sub3, AMDGPU::sub0);
				990	}
				991	}
				992	} else {
				993	switch (CI.Width0) {
				994	default:
				995	return std::make_pair(0, 0);
				996	case 1:
				997	switch (CI.Width1) {
				998	default:
				999	return std::make_pair(0, 0);
				1000	case 1:
				1001	return std::make_pair(AMDGPU::sub0, AMDGPU::sub1);
				1002	case 2:
				1003	return std::make_pair(AMDGPU::sub0, AMDGPU::sub1_sub2);
				1004	case 3:
				1005	return std::make_pair(AMDGPU::sub0, AMDGPU::sub1_sub2_sub3);
				1006	}
				1007	case 2:
				1008	switch (CI.Width1) {
				1009	default:
				1010	return std::make_pair(0, 0);
				1011	case 1:
				1012	return std::make_pair(AMDGPU::sub0_sub1, AMDGPU::sub2);
				1013	case 2:
				1014	return std::make_pair(AMDGPU::sub0_sub1, AMDGPU::sub2_sub3);
				1015	}
				1016	case 3:
				1017	switch (CI.Width1) {
				1018	default:
				1019	return std::make_pair(0, 0);
				1020	case 1:
				1021	return std::make_pair(AMDGPU::sub0_sub1_sub2, AMDGPU::sub3);
				1022	}
				1023	}
				1024	}
				1025	}
				1026
				1027	const TargetRegisterClass *
				1028	SILoadStoreOptimizer::getTargetRegisterClass(const CombineInfo &CI) {
				1029	if (CI.InstClass == S_BUFFER_LOAD_IMM) {
				1030	switch (CI.Width0 + CI.Width1) {
				1031	default:
				1032	return nullptr;
				1033	case 2:
				1034	return &AMDGPU::SReg_64_XEXECRegClass;
				1035	case 4:
				1036	return &AMDGPU::SReg_128RegClass;
				1037	case 8:
				1038	return &AMDGPU::SReg_256RegClass;
				1039	case 16:
				1040	return &AMDGPU::SReg_512RegClass;
				1041	}
				1042	} else {
				1043	switch (CI.Width0 + CI.Width1) {
				1044	default:
				1045	return nullptr;
				1046	case 2:
				1047	return &AMDGPU::VReg_64RegClass;
				1048	case 3:
				1049	return &AMDGPU::VReg_96RegClass;
				1050	case 4:
				1051	return &AMDGPU::VReg_128RegClass;
				1052	}
				1053	}
				1054	}
				1055
				1056	MachineBasicBlock::iterator
				1057	SILoadStoreOptimizer::mergeBufferStorePair(CombineInfo &CI) {
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	1058	MachineBasicBlock *MBB = CI.I->getParent();
				1059	DebugLoc DL = CI.I->getDebugLoc();
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	1060
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1061	const unsigned Opcode = getNewOpcode(CI);
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	1062
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1063	std::pair<unsigned, unsigned> SubRegIdx = getSubRegIdxs(CI);
				1064	const unsigned SubRegIdx0 = std::get<0>(SubRegIdx);
				1065	const unsigned SubRegIdx1 = std::get<1>(SubRegIdx);
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	1066
				1067	// Copy to the new source register.
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1068	const TargetRegisterClass *SuperRC = getTargetRegisterClass(CI);
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	1069	unsigned SrcReg = MRI->createVirtualRegister(SuperRC);
				1070
				1071	const auto Src0 = TII->getNamedOperand(CI.I, AMDGPU::OpName::vdata);
				1072	const auto Src1 = TII->getNamedOperand(CI.Paired, AMDGPU::OpName::vdata);
				1073
				1074	BuildMI(*MBB, CI.Paired, DL, TII->get(AMDGPU::REG_SEQUENCE), SrcReg)
				1075	.add(*Src0)
				1076	.addImm(SubRegIdx0)
				1077	.add(*Src1)
				1078	.addImm(SubRegIdx1);
				1079
				1080	auto MIB = BuildMI(*MBB, CI.Paired, DL, TII->get(Opcode))
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1081	.addReg(SrcReg, RegState::Kill);
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	1082
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1083	const unsigned Regs = getRegs(Opcode);
				1084
				1085	if (Regs & VADDR)
				1086	MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::vaddr));
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	1087
				1088	MIB.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::srsrc))
				1089	.add(TII->getNamedOperand(CI.I, AMDGPU::OpName::soffset))
				1090	.addImm(std::min(CI.Offset0, CI.Offset1)) // offset
Chandler Carruth	c73c030	2018-08-16 21:30:05 +0000	[diff] [blame]	1091	.addImm(CI.GLC0) // glc
				1092	.addImm(CI.SLC0) // slc
				1093	.addImm(0) // tfe
				1094	.cloneMergedMemRefs({&CI.I, &CI.Paired});
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	1095
				1096	moveInstsAfter(MIB, CI.InstsToMove);
				1097
				1098	MachineBasicBlock::iterator Next = std::next(CI.I);
				1099	CI.I->eraseFromParent();
				1100	CI.Paired->eraseFromParent();
				1101	return Next;
				1102	}
				1103
Farhana Aleen	ce095c5	2018-12-14 21:13:14 +0000	[diff] [blame^]	1104	MachineOperand
				1105	SILoadStoreOptimizer::createRegOrImm(int32_t Val, MachineInstr &MI) {
				1106	APInt V(32, Val, true);
				1107	if (TII->isInlineConstant(V))
				1108	return MachineOperand::CreateImm(Val);
				1109
				1110	unsigned Reg = MRI->createVirtualRegister(&AMDGPU::SReg_32RegClass);
				1111	MachineInstr *Mov =
				1112	BuildMI(*MI.getParent(), MI.getIterator(), MI.getDebugLoc(),
				1113	TII->get(AMDGPU::S_MOV_B32), Reg)
				1114	.addImm(Val);
				1115	LLVM_DEBUG(dbgs() << " "; Mov->dump());
				1116	return MachineOperand::CreateReg(Reg, false);
				1117	}
				1118
				1119	// Compute base address using Addr and return the final register.
				1120	unsigned SILoadStoreOptimizer::computeBase(MachineInstr &MI,
				1121	const MemAddress &Addr) {
				1122	MachineBasicBlock *MBB = MI.getParent();
				1123	MachineBasicBlock::iterator MBBI = MI.getIterator();
				1124	DebugLoc DL = MI.getDebugLoc();
				1125
				1126	assert((TRI->getRegSizeInBits(Addr.Base.LoReg, *MRI) == 32 \|\|
				1127	Addr.Base.LoSubReg) &&
				1128	"Expected 32-bit Base-Register-Low!!");
				1129
				1130	assert((TRI->getRegSizeInBits(Addr.Base.HiReg, *MRI) == 32 \|\|
				1131	Addr.Base.HiSubReg) &&
				1132	"Expected 32-bit Base-Register-Hi!!");
				1133
				1134	LLVM_DEBUG(dbgs() << " Re-Computed Anchor-Base:\n");
				1135	MachineOperand OffsetLo = createRegOrImm(static_cast<int32_t>(Addr.Offset), MI);
				1136	MachineOperand OffsetHi =
				1137	createRegOrImm(static_cast<int32_t>(Addr.Offset >> 32), MI);
				1138	unsigned CarryReg = MRI->createVirtualRegister(&AMDGPU::SReg_64_XEXECRegClass);
				1139	unsigned DeadCarryReg =
				1140	MRI->createVirtualRegister(&AMDGPU::SReg_64_XEXECRegClass);
				1141
				1142	unsigned DestSub0 = MRI->createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				1143	unsigned DestSub1 = MRI->createVirtualRegister(&AMDGPU::VGPR_32RegClass);
				1144	MachineInstr *LoHalf =
				1145	BuildMI(*MBB, MBBI, DL, TII->get(AMDGPU::V_ADD_I32_e64), DestSub0)
				1146	.addReg(CarryReg, RegState::Define)
				1147	.addReg(Addr.Base.LoReg, 0, Addr.Base.LoSubReg)
				1148	.add(OffsetLo);
				1149	LLVM_DEBUG(dbgs() << " "; LoHalf->dump(););
				1150
				1151	MachineInstr *HiHalf =
				1152	BuildMI(*MBB, MBBI, DL, TII->get(AMDGPU::V_ADDC_U32_e64), DestSub1)
				1153	.addReg(DeadCarryReg, RegState::Define \| RegState::Dead)
				1154	.addReg(Addr.Base.HiReg, 0, Addr.Base.HiSubReg)
				1155	.add(OffsetHi)
				1156	.addReg(CarryReg, RegState::Kill);
				1157	LLVM_DEBUG(dbgs() << " "; HiHalf->dump(););
				1158
				1159	unsigned FullDestReg = MRI->createVirtualRegister(&AMDGPU::VReg_64RegClass);
				1160	MachineInstr *FullBase =
				1161	BuildMI(*MBB, MBBI, DL, TII->get(TargetOpcode::REG_SEQUENCE), FullDestReg)
				1162	.addReg(DestSub0)
				1163	.addImm(AMDGPU::sub0)
				1164	.addReg(DestSub1)
				1165	.addImm(AMDGPU::sub1);
				1166	LLVM_DEBUG(dbgs() << " "; FullBase->dump(); dbgs() << "\n";);
				1167
				1168	return FullDestReg;
				1169	}
				1170
				1171	// Update base and offset with the NewBase and NewOffset in MI.
				1172	void SILoadStoreOptimizer::updateBaseAndOffset(MachineInstr &MI,
				1173	unsigned NewBase,
				1174	int32_t NewOffset) {
				1175	TII->getNamedOperand(MI, AMDGPU::OpName::vaddr)->setReg(NewBase);
				1176	TII->getNamedOperand(MI, AMDGPU::OpName::offset)->setImm(NewOffset);
				1177	}
				1178
				1179	Optional<int32_t>
				1180	SILoadStoreOptimizer::extractConstOffset(const MachineOperand &Op) {
				1181	if (Op.isImm())
				1182	return Op.getImm();
				1183
				1184	if (!Op.isReg())
				1185	return None;
				1186
				1187	MachineInstr *Def = MRI->getUniqueVRegDef(Op.getReg());
				1188	if (!Def \|\| Def->getOpcode() != AMDGPU::S_MOV_B32 \|\|
				1189	!Def->getOperand(1).isImm())
				1190	return None;
				1191
				1192	return Def->getOperand(1).getImm();
				1193	}
				1194
				1195	// Analyze Base and extracts:
				1196	// - 32bit base registers, subregisters
				1197	// - 64bit constant offset
				1198	// Expecting base computation as:
				1199	// %OFFSET0:sgpr_32 = S_MOV_B32 8000
				1200	// %LO:vgpr_32, %c:sreg_64_xexec =
				1201	// V_ADD_I32_e64 %BASE_LO:vgpr_32, %103:sgpr_32,
				1202	// %HI:vgpr_32, = V_ADDC_U32_e64 %BASE_HI:vgpr_32, 0, killed %c:sreg_64_xexec
				1203	// %Base:vreg_64 =
				1204	// REG_SEQUENCE %LO:vgpr_32, %subreg.sub0, %HI:vgpr_32, %subreg.sub1
				1205	void SILoadStoreOptimizer::processBaseWithConstOffset(const MachineOperand &Base,
				1206	MemAddress &Addr) {
				1207	if (!Base.isReg())
				1208	return;
				1209
				1210	MachineInstr *Def = MRI->getUniqueVRegDef(Base.getReg());
				1211	if (!Def \|\| Def->getOpcode() != AMDGPU::REG_SEQUENCE
				1212	\|\| Def->getNumOperands() != 5)
				1213	return;
				1214
				1215	MachineOperand BaseLo = Def->getOperand(1);
				1216	MachineOperand BaseHi = Def->getOperand(3);
				1217	if (!BaseLo.isReg() \|\| !BaseHi.isReg())
				1218	return;
				1219
				1220	MachineInstr *BaseLoDef = MRI->getUniqueVRegDef(BaseLo.getReg());
				1221	MachineInstr *BaseHiDef = MRI->getUniqueVRegDef(BaseHi.getReg());
				1222
				1223	if (!BaseLoDef \|\| BaseLoDef->getOpcode() != AMDGPU::V_ADD_I32_e64 \|\|
				1224	!BaseHiDef \|\| BaseHiDef->getOpcode() != AMDGPU::V_ADDC_U32_e64)
				1225	return;
				1226
				1227	const auto Src0 = TII->getNamedOperand(BaseLoDef, AMDGPU::OpName::src0);
				1228	const auto Src1 = TII->getNamedOperand(BaseLoDef, AMDGPU::OpName::src1);
				1229
				1230	auto Offset0P = extractConstOffset(*Src0);
				1231	if (Offset0P)
				1232	BaseLo = *Src1;
				1233	else {
				1234	if (!(Offset0P = extractConstOffset(*Src1)))
				1235	return;
				1236	BaseLo = *Src0;
				1237	}
				1238
				1239	Src0 = TII->getNamedOperand(*BaseHiDef, AMDGPU::OpName::src0);
				1240	Src1 = TII->getNamedOperand(*BaseHiDef, AMDGPU::OpName::src1);
				1241
				1242	if (Src0->isImm())
				1243	std::swap(Src0, Src1);
				1244
				1245	if (!Src1->isImm())
				1246	return;
				1247
				1248	assert(isInt<32>(*Offset0P) && isInt<32>(Src1->getImm())
				1249	&& "Expected 32bit immediate!!!");
				1250	uint64_t Offset1 = Src1->getImm();
				1251	BaseHi = *Src0;
				1252
				1253	Addr.Base.LoReg = BaseLo.getReg();
				1254	Addr.Base.HiReg = BaseHi.getReg();
				1255	Addr.Base.LoSubReg = BaseLo.getSubReg();
				1256	Addr.Base.HiSubReg = BaseHi.getSubReg();
				1257	Addr.Offset = (*Offset0P & 0x00000000ffffffff) \| (Offset1 << 32);
				1258	}
				1259
				1260	bool SILoadStoreOptimizer::promoteConstantOffsetToImm(
				1261	MachineInstr &MI,
				1262	MemInfoMap &Visited,
				1263	SmallPtrSet<MachineInstr *, 4> &AnchorList) {
				1264
				1265	// TODO: Support flat and scratch.
				1266	if (AMDGPU::getGlobalSaddrOp(MI.getOpcode()) < 0 \|\|
				1267	TII->getNamedOperand(MI, AMDGPU::OpName::vdata) != NULL)
				1268	return false;
				1269
				1270	// TODO: Support Store.
				1271	if (!MI.mayLoad())
				1272	return false;
				1273
				1274	if (AnchorList.count(&MI))
				1275	return false;
				1276
				1277	LLVM_DEBUG(dbgs() << "\nTryToPromoteConstantOffsetToImmFor "; MI.dump());
				1278
				1279	if (TII->getNamedOperand(MI, AMDGPU::OpName::offset)->getImm()) {
				1280	LLVM_DEBUG(dbgs() << " Const-offset is already promoted.\n";);
				1281	return false;
				1282	}
				1283
				1284	// Step1: Find the base-registers and a 64bit constant offset.
				1285	MachineOperand &Base = *TII->getNamedOperand(MI, AMDGPU::OpName::vaddr);
				1286	MemAddress MAddr;
				1287	if (Visited.find(&MI) == Visited.end()) {
				1288	processBaseWithConstOffset(Base, MAddr);
				1289	Visited[&MI] = MAddr;
				1290	} else
				1291	MAddr = Visited[&MI];
				1292
				1293	if (MAddr.Offset == 0) {
				1294	LLVM_DEBUG(dbgs() << " Failed to extract constant-offset or there are no"
				1295	" constant offsets that can be promoted.\n";);
				1296	return false;
				1297	}
				1298
				1299	LLVM_DEBUG(dbgs() << " BASE: {" << MAddr.Base.HiReg << ", "
				1300	<< MAddr.Base.LoReg << "} Offset: " << MAddr.Offset << "\n\n";);
				1301
				1302	// Step2: Traverse through MI's basic block and find an anchor(that has the
				1303	// same base-registers) with the highest 13bit distance from MI's offset.
				1304	// E.g. (64bit loads)
				1305	// bb:
				1306	// addr1 = &a + 4096; load1 = load(addr1, 0)
				1307	// addr2 = &a + 6144; load2 = load(addr2, 0)
				1308	// addr3 = &a + 8192; load3 = load(addr3, 0)
				1309	// addr4 = &a + 10240; load4 = load(addr4, 0)
				1310	// addr5 = &a + 12288; load5 = load(addr5, 0)
				1311	//
				1312	// Starting from the first load, the optimization will try to find a new base
				1313	// from which (&a + 4096) has 13 bit distance. Both &a + 6144 and &a + 8192
				1314	// has 13bit distance from &a + 4096. The heuristic considers &a + 8192
				1315	// as the new-base(anchor) because of the maximum distance which can
				1316	// accomodate more intermediate bases presumeably.
				1317	//
				1318	// Step3: move (&a + 8192) above load1. Compute and promote offsets from
				1319	// (&a + 8192) for load1, load2, load4.
				1320	// addr = &a + 8192
				1321	// load1 = load(addr, -4096)
				1322	// load2 = load(addr, -2048)
				1323	// load3 = load(addr, 0)
				1324	// load4 = load(addr, 2048)
				1325	// addr5 = &a + 12288; load5 = load(addr5, 0)
				1326	//
				1327	MachineInstr *AnchorInst = nullptr;
				1328	MemAddress AnchorAddr;
				1329	uint32_t MaxDist = std::numeric_limits<uint32_t>::min();
				1330	SmallVector<std::pair<MachineInstr *, int64_t>, 4> InstsWCommonBase;
				1331
				1332	MachineBasicBlock *MBB = MI.getParent();
				1333	MachineBasicBlock::iterator E = MBB->end();
				1334	MachineBasicBlock::iterator MBBI = MI.getIterator();
				1335	++MBBI;
				1336	const SITargetLowering *TLI =
				1337	static_cast<const SITargetLowering *>(STM->getTargetLowering());
				1338
				1339	for ( ; MBBI != E; ++MBBI) {
				1340	MachineInstr &MINext = *MBBI;
				1341	// TODO: Support finding an anchor(with same base) from store addresses or
				1342	// any other load addresses where the opcodes are different.
				1343	if (MINext.getOpcode() != MI.getOpcode() \|\|
				1344	TII->getNamedOperand(MINext, AMDGPU::OpName::offset)->getImm())
				1345	continue;
				1346
				1347	const MachineOperand &BaseNext =
				1348	*TII->getNamedOperand(MINext, AMDGPU::OpName::vaddr);
				1349	MemAddress MAddrNext;
				1350	if (Visited.find(&MINext) == Visited.end()) {
				1351	processBaseWithConstOffset(BaseNext, MAddrNext);
				1352	Visited[&MINext] = MAddrNext;
				1353	} else
				1354	MAddrNext = Visited[&MINext];
				1355
				1356	if (MAddrNext.Base.LoReg != MAddr.Base.LoReg \|\|
				1357	MAddrNext.Base.HiReg != MAddr.Base.HiReg \|\|
				1358	MAddrNext.Base.LoSubReg != MAddr.Base.LoSubReg \|\|
				1359	MAddrNext.Base.HiSubReg != MAddr.Base.HiSubReg)
				1360	continue;
				1361
				1362	InstsWCommonBase.push_back(std::make_pair(&MINext, MAddrNext.Offset));
				1363
				1364	int64_t Dist = MAddr.Offset - MAddrNext.Offset;
				1365	TargetLoweringBase::AddrMode AM;
				1366	AM.HasBaseReg = true;
				1367	AM.BaseOffs = Dist;
				1368	if (TLI->isLegalGlobalAddressingMode(AM) &&
				1369	(uint32_t)abs(Dist) > MaxDist) {
				1370	MaxDist = abs(Dist);
				1371
				1372	AnchorAddr = MAddrNext;
				1373	AnchorInst = &MINext;
				1374	}
				1375	}
				1376
				1377	if (AnchorInst) {
				1378	LLVM_DEBUG(dbgs() << " Anchor-Inst(with max-distance from Offset): ";
				1379	AnchorInst->dump());
				1380	LLVM_DEBUG(dbgs() << " Anchor-Offset from BASE: "
				1381	<< AnchorAddr.Offset << "\n\n");
				1382
				1383	// Instead of moving up, just re-compute anchor-instruction's base address.
				1384	unsigned Base = computeBase(MI, AnchorAddr);
				1385
				1386	updateBaseAndOffset(MI, Base, MAddr.Offset - AnchorAddr.Offset);
				1387	LLVM_DEBUG(dbgs() << " After promotion: "; MI.dump(););
				1388
				1389	for (auto P : InstsWCommonBase) {
				1390	TargetLoweringBase::AddrMode AM;
				1391	AM.HasBaseReg = true;
				1392	AM.BaseOffs = P.second - AnchorAddr.Offset;
				1393
				1394	if (TLI->isLegalGlobalAddressingMode(AM)) {
				1395	LLVM_DEBUG(dbgs() << " Promote Offset(" << P.second;
				1396	dbgs() << ")"; P.first->dump());
				1397	updateBaseAndOffset(*P.first, Base, P.second - AnchorAddr.Offset);
				1398	LLVM_DEBUG(dbgs() << " After promotion: "; P.first->dump());
				1399	}
				1400	}
				1401	AnchorList.insert(AnchorInst);
				1402	return true;
				1403	}
				1404
				1405	return false;
				1406	}
				1407
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1408	// Scan through looking for adjacent LDS operations with constant offsets from
				1409	// the same base register. We rely on the scheduler to do the hard work of
				1410	// clustering nearby loads, and assume these are all adjacent.
				1411	bool SILoadStoreOptimizer::optimizeBlock(MachineBasicBlock &MBB) {
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1412	bool Modified = false;
				1413
Farhana Aleen	ce095c5	2018-12-14 21:13:14 +0000	[diff] [blame^]	1414	// Contain the list
				1415	MemInfoMap Visited;
				1416	// Contains the list of instructions for which constant offsets are being
				1417	// promoted to the IMM.
				1418	SmallPtrSet<MachineInstr *, 4> AnchorList;
				1419
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1420	for (MachineBasicBlock::iterator I = MBB.begin(), E = MBB.end(); I != E;) {
				1421	MachineInstr &MI = *I;
				1422
Farhana Aleen	ce095c5	2018-12-14 21:13:14 +0000	[diff] [blame^]	1423	if (promoteConstantOffsetToImm(MI, Visited, AnchorList))
				1424	Modified = true;
				1425
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1426	// Don't combine if volatile.
				1427	if (MI.hasOrderedMemoryRef()) {
				1428	++I;
				1429	continue;
				1430	}
				1431
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1432	const unsigned Opc = MI.getOpcode();
				1433
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	1434	CombineInfo CI;
				1435	CI.I = I;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1436	CI.InstClass = getInstClass(Opc);
Matt Arsenault	3f71c0e	2017-11-29 00:55:57 +0000	[diff] [blame]	1437
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1438	switch (CI.InstClass) {
				1439	default:
				1440	break;
				1441	case DS_READ:
Matt Arsenault	3f71c0e	2017-11-29 00:55:57 +0000	[diff] [blame]	1442	CI.EltSize =
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1443	(Opc == AMDGPU::DS_READ_B64 \|\| Opc == AMDGPU::DS_READ_B64_gfx9) ? 8
				1444	: 4;
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	1445	if (findMatchingInst(CI)) {
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1446	Modified = true;
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	1447	I = mergeRead2Pair(CI);
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1448	} else {
				1449	++I;
				1450	}
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1451	continue;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1452	case DS_WRITE:
				1453	CI.EltSize =
				1454	(Opc == AMDGPU::DS_WRITE_B64 \|\| Opc == AMDGPU::DS_WRITE_B64_gfx9) ? 8
				1455	: 4;
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	1456	if (findMatchingInst(CI)) {
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1457	Modified = true;
Stanislav Mekhanoshin	d026f79	2017-04-13 17:53:07 +0000	[diff] [blame]	1458	I = mergeWrite2Pair(CI);
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1459	} else {
				1460	++I;
				1461	}
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1462	continue;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1463	case S_BUFFER_LOAD_IMM:
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	1464	CI.EltSize = AMDGPU::getSMRDEncodedOffset(*STM, 4);
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	1465	if (findMatchingInst(CI)) {
				1466	Modified = true;
				1467	I = mergeSBufferLoadImmPair(CI);
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1468	OptimizeAgain \|= (CI.Width0 + CI.Width1) < 16;
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	1469	} else {
				1470	++I;
				1471	}
				1472	continue;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1473	case BUFFER_LOAD_OFFEN:
				1474	case BUFFER_LOAD_OFFSET:
				1475	case BUFFER_LOAD_OFFEN_exact:
				1476	case BUFFER_LOAD_OFFSET_exact:
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	1477	CI.EltSize = 4;
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	1478	if (findMatchingInst(CI)) {
				1479	Modified = true;
Marek Olsak	4c421a2d	2017-11-09 01:52:36 +0000	[diff] [blame]	1480	I = mergeBufferLoadPair(CI);
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1481	OptimizeAgain \|= (CI.Width0 + CI.Width1) < 4;
Marek Olsak	6a0548a	2017-11-09 01:52:30 +0000	[diff] [blame]	1482	} else {
				1483	++I;
				1484	}
				1485	continue;
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1486	case BUFFER_STORE_OFFEN:
				1487	case BUFFER_STORE_OFFSET:
				1488	case BUFFER_STORE_OFFEN_exact:
				1489	case BUFFER_STORE_OFFSET_exact:
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	1490	CI.EltSize = 4;
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	1491	if (findMatchingInst(CI)) {
				1492	Modified = true;
				1493	I = mergeBufferStorePair(CI);
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1494	OptimizeAgain \|= (CI.Width0 + CI.Width1) < 4;
Marek Olsak	58410f3	2017-11-09 01:52:55 +0000	[diff] [blame]	1495	} else {
				1496	++I;
				1497	}
				1498	continue;
				1499	}
				1500
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1501	++I;
				1502	}
				1503
				1504	return Modified;
				1505	}
				1506
				1507	bool SILoadStoreOptimizer::runOnMachineFunction(MachineFunction &MF) {
Matthias Braun	f1caa28	2017-12-15 22:22:58 +0000	[diff] [blame]	1508	if (skipFunction(MF.getFunction()))
Andrew Kaylor	7de74af	2016-04-25 22:23:44 +0000	[diff] [blame]	1509	return false;
				1510
Tom Stellard	5bfbae5	2018-07-11 20:59:01 +0000	[diff] [blame]	1511	STM = &MF.getSubtarget<GCNSubtarget>();
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	1512	if (!STM->loadStoreOptEnabled())
Matt Arsenault	03d8584	2016-06-27 20:32:13 +0000	[diff] [blame]	1513	return false;
				1514
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	1515	TII = STM->getInstrInfo();
Matt Arsenault	43e92fe	2016-06-24 06:30:11 +0000	[diff] [blame]	1516	TRI = &TII->getRegisterInfo();
				1517
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1518	MRI = &MF.getRegInfo();
Tom Stellard	c2ff0eb	2016-08-29 19:15:22 +0000	[diff] [blame]	1519	AA = &getAnalysis<AAResultsWrapperPass>().getAAResults();
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1520
Matt Arsenault	67e72de	2017-08-31 01:53:09 +0000	[diff] [blame]	1521	assert(MRI->isSSA() && "Must be run on SSA");
				1522
Nicola Zaghen	d34e60c	2018-05-14 12:53:11 +0000	[diff] [blame]	1523	LLVM_DEBUG(dbgs() << "Running SILoadStoreOptimizer\n");
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1524
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1525	bool Modified = false;
				1526
Nicolai Haehnle	b4f28de	2017-11-28 08:42:46 +0000	[diff] [blame]	1527	for (MachineBasicBlock &MBB : MF) {
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1528	do {
				1529	OptimizeAgain = false;
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	1530	Modified \|= optimizeBlock(MBB);
Neil Henning	76504a4	2018-12-12 16:15:21 +0000	[diff] [blame]	1531	} while (OptimizeAgain);
Marek Olsak	b953cc3	2017-11-09 01:52:23 +0000	[diff] [blame]	1532	}
				1533
Matt Arsenault	4103328	2014-10-10 22:01:59 +0000	[diff] [blame]	1534	return Modified;
				1535	}