Blame - llvm/test/CodeGen/AMDGPU/indirect-addressing-si.ll - toolchain/llvm-project

blob: 0e5ac1e6addcc351f701b79b21261dd982a57eaf [file] [log] [blame]

Matt Arsenault	3f71c0e	2017-11-29 00:55:57 +0000	[diff] [blame]	1	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,MOVREL,PREGFX9 %s
				2	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,MOVREL,PREGFX9 %s
				3	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -amdgpu-vgpr-index-mode -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,IDXMODE,PREGFX9 %s
				4	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,IDXMODE,GFX9 %s
Tom Stellard	eef2ad9	2013-08-05 22:45:56 +0000	[diff] [blame]	5
				6	; Tests for indirect addressing on SI, which is implemented using dynamic
				7	; indexing of vectors.
				8
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	9	; GCN-LABEL: {{^}}extract_w_offset:
				10	; GCN-DAG: s_load_dword [[IN:s[0-9]+]]
				11	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 4.0
				12	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0x40400000
				13	; GCN-DAG: v_mov_b32_e32 [[BASEREG:v[0-9]+]], 2.0
				14	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 1.0
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	15
				16	; MOVREL-DAG: s_mov_b32 m0, [[IN]]
				17	; MOVREL: v_movrels_b32_e32 v{{[0-9]+}}, [[BASEREG]]
				18
				19	; IDXMODE: s_set_gpr_idx_on [[IN]], src0{{$}}
				20	; IDXMODE-NEXT: v_mov_b32_e32 v{{[0-9]+}}, [[BASEREG]]
				21	; IDXMODE-NEXT: s_set_gpr_idx_off
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	22	define amdgpu_kernel void @extract_w_offset(float addrspace(1)* %out, i32 %in) {
Tom Stellard	eef2ad9	2013-08-05 22:45:56 +0000	[diff] [blame]	23	entry:
Matt Arsenault	2841927	2015-10-07 00:42:51 +0000	[diff] [blame]	24	%idx = add i32 %in, 1
				25	%elt = extractelement <4 x float> <float 1.0, float 2.0, float 3.0, float 4.0>, i32 %idx
				26	store float %elt, float addrspace(1)* %out
				27	ret void
				28	}
				29
				30	; XXX: Could do v_or_b32 directly
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	31	; GCN-LABEL: {{^}}extract_w_offset_salu_use_vector:
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	32	; MOVREL: s_mov_b32 m0
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	33	; GCN-DAG: s_or_b32
				34	; GCN-DAG: s_or_b32
				35	; GCN-DAG: s_or_b32
				36	; GCN-DAG: s_or_b32
				37	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}
				38	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}
				39	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}
				40	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, s{{[0-9]+}}
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	41
				42	; MOVREL: v_movrels_b32_e32
				43
				44	; IDXMODE: s_set_gpr_idx_on s{{[0-9]+}}, src0{{$}}
				45	; IDXMODE-NEXT: v_mov_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}
				46	; IDXMODE-NEXT: s_set_gpr_idx_off
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	47	define amdgpu_kernel void @extract_w_offset_salu_use_vector(i32 addrspace(1)* %out, i32 %in, <4 x i32> %or.val) {
Matt Arsenault	2841927	2015-10-07 00:42:51 +0000	[diff] [blame]	48	entry:
				49	%idx = add i32 %in, 1
				50	%vec = or <4 x i32> %or.val, <i32 1, i32 2, i32 3, i32 4>
				51	%elt = extractelement <4 x i32> %vec, i32 %idx
				52	store i32 %elt, i32 addrspace(1)* %out
Tom Stellard	eef2ad9	2013-08-05 22:45:56 +0000	[diff] [blame]	53	ret void
				54	}
				55
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	56	; GCN-LABEL: {{^}}extract_wo_offset:
				57	; GCN-DAG: s_load_dword [[IN:s[0-9]+]]
				58	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 4.0
				59	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0x40400000
				60	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 2.0
				61	; GCN-DAG: v_mov_b32_e32 [[BASEREG:v[0-9]+]], 1.0
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	62
				63	; MOVREL-DAG: s_mov_b32 m0, [[IN]]
				64	; MOVREL: v_movrels_b32_e32 v{{[0-9]+}}, [[BASEREG]]
				65
				66	; IDXMODE: s_set_gpr_idx_on [[IN]], src0{{$}}
				67	; IDXMODE-NEXT: v_mov_b32_e32 v{{[0-9]+}}, [[BASEREG]]
				68	; IDXMODE-NEXT: s_set_gpr_idx_off
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	69	define amdgpu_kernel void @extract_wo_offset(float addrspace(1)* %out, i32 %in) {
Tom Stellard	eef2ad9	2013-08-05 22:45:56 +0000	[diff] [blame]	70	entry:
Matt Arsenault	2841927	2015-10-07 00:42:51 +0000	[diff] [blame]	71	%elt = extractelement <4 x float> <float 1.0, float 2.0, float 3.0, float 4.0>, i32 %in
				72	store float %elt, float addrspace(1)* %out
Tom Stellard	eef2ad9	2013-08-05 22:45:56 +0000	[diff] [blame]	73	ret void
				74	}
				75
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	76	; GCN-LABEL: {{^}}extract_neg_offset_sgpr:
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	77	; The offset depends on the register that holds the first element of the vector.
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	78	; MOVREL: s_add_i32 m0, s{{[0-9]+}}, 0xfffffe{{[0-9a-z]+}}
				79	; MOVREL: v_movrels_b32_e32 v{{[0-9]}}, v0
				80
				81	; IDXMODE: s_addk_i32 [[ADD_IDX:s[0-9]+]], 0xfe00{{$}}
Matthias Braun	325cd2c	2016-11-11 01:34:21 +0000	[diff] [blame]	82	; IDXMODE: v_mov_b32_e32 v2, 2
				83	; IDXMODE: v_mov_b32_e32 v3, 3
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	84	; IDXMODE-NEXT: s_set_gpr_idx_on [[ADD_IDX]], src0{{$}}
				85	; IDXMODE-NEXT: v_mov_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}
				86	; IDXMODE-NEXT: s_set_gpr_idx_off
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	87	define amdgpu_kernel void @extract_neg_offset_sgpr(i32 addrspace(1)* %out, i32 %offset) {
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	88	entry:
				89	%index = add i32 %offset, -512
				90	%value = extractelement <4 x i32> <i32 0, i32 1, i32 2, i32 3>, i32 %index
				91	store i32 %value, i32 addrspace(1)* %out
				92	ret void
				93	}
				94
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	95	; GCN-LABEL: {{^}}extract_neg_offset_sgpr_loaded:
Matt Arsenault	2841927	2015-10-07 00:42:51 +0000	[diff] [blame]	96	; The offset depends on the register that holds the first element of the vector.
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	97	; MOVREL: s_add_i32 m0, s{{[0-9]+}}, 0xfffffe{{[0-9a-z]+}}
				98	; MOVREL: v_movrels_b32_e32 v{{[0-9]}}, v0
				99
				100	; IDXMODE: s_addk_i32 [[ADD_IDX:s[0-9]+]], 0xfe00{{$}}
Matthias Braun	325cd2c	2016-11-11 01:34:21 +0000	[diff] [blame]	101	; IDXMODE: v_mov_b32_e32 v0,
Konstantin Zhuravlyov	0a1a7b6	2016-11-17 16:41:49 +0000	[diff] [blame]	102	; IDXMODE: v_mov_b32_e32 v1,
				103	; IDXMODE: v_mov_b32_e32 v2,
				104	; IDXMODE: v_mov_b32_e32 v3,
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	105	; IDXMODE-NEXT: s_set_gpr_idx_on [[ADD_IDX]], src0{{$}}
				106	; IDXMODE-NEXT: v_mov_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}
				107	; IDXMODE-NEXT: s_set_gpr_idx_off
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	108	define amdgpu_kernel void @extract_neg_offset_sgpr_loaded(i32 addrspace(1)* %out, <4 x i32> %vec0, <4 x i32> %vec1, i32 %offset) {
Matt Arsenault	2841927	2015-10-07 00:42:51 +0000	[diff] [blame]	109	entry:
				110	%index = add i32 %offset, -512
				111	%or = or <4 x i32> %vec0, %vec1
				112	%value = extractelement <4 x i32> %or, i32 %index
				113	store i32 %value, i32 addrspace(1)* %out
				114	ret void
				115	}
				116
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	117	; GCN-LABEL: {{^}}extract_neg_offset_vgpr:
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	118	; The offset depends on the register that holds the first element of the vector.
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	119
				120	; FIXME: The waitcnt for the argument load can go after the loop
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	121	; GCN: s_mov_b64 s{{\[[0-9]+:[0-9]+\]}}, exec
Mark Searles	70359ac	2017-06-02 14:19:25 +0000	[diff] [blame]	122	; GCN: [[LOOPBB:BB[0-9]+_[0-9]+]]:
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	123	; GCN: v_readfirstlane_b32 [[READLANE:s[0-9]+]], v{{[0-9]+}}
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	124	; GCN: s_and_saveexec_b64 vcc, vcc
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	125
				126	; MOVREL: s_add_i32 m0, [[READLANE]], 0xfffffe0
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	127	; MOVREL: v_movrels_b32_e32 [[RESULT:v[0-9]+]], v1
				128
				129	; IDXMODE: s_addk_i32 [[ADD_IDX:s[0-9]+]], 0xfe00
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	130	; IDXMODE: s_set_gpr_idx_on [[ADD_IDX]], src0
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	131	; IDXMODE: v_mov_b32_e32 [[RESULT:v[0-9]+]], v1
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	132	; IDXMODE: s_set_gpr_idx_off
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	133
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	134	; GCN: s_cbranch_execnz
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	135
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	136	; GCN: buffer_store_dword [[RESULT]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	137	define amdgpu_kernel void @extract_neg_offset_vgpr(i32 addrspace(1)* %out) {
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	138	entry:
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	139	%id = call i32 @llvm.amdgcn.workitem.id.x() #1
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	140	%index = add i32 %id, -512
				141	%value = extractelement <4 x i32> <i32 0, i32 1, i32 2, i32 3>, i32 %index
				142	store i32 %value, i32 addrspace(1)* %out
				143	ret void
				144	}
				145
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	146	; GCN-LABEL: {{^}}extract_undef_offset_sgpr:
Philip Reames	3580c90	2017-12-30 18:42:37 +0000	[diff] [blame]	147	; undefined behavior, but shouldn't crash compiler
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	148	define amdgpu_kernel void @extract_undef_offset_sgpr(i32 addrspace(1)* %out, <4 x i32> addrspace(1)* %in) {
Matt Arsenault	21a4625	2016-06-27 19:57:44 +0000	[diff] [blame]	149	entry:
				150	%ld = load volatile <4 x i32>, <4 x i32> addrspace(1)* %in
				151	%value = extractelement <4 x i32> %ld, i32 undef
				152	store i32 %value, i32 addrspace(1)* %out
				153	ret void
				154	}
				155
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	156	; GCN-LABEL: {{^}}insert_undef_offset_sgpr_vector_src:
Philip Reames	3580c90	2017-12-30 18:42:37 +0000	[diff] [blame]	157	; undefined behavior, but shouldn't crash compiler
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	158	define amdgpu_kernel void @insert_undef_offset_sgpr_vector_src(<4 x i32> addrspace(1)* %out, <4 x i32> addrspace(1)* %in) {
Matt Arsenault	21a4625	2016-06-27 19:57:44 +0000	[diff] [blame]	159	entry:
				160	%ld = load <4 x i32>, <4 x i32> addrspace(1)* %in
				161	%value = insertelement <4 x i32> %ld, i32 5, i32 undef
				162	store <4 x i32> %value, <4 x i32> addrspace(1)* %out
				163	ret void
				164	}
				165
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	166	; GCN-LABEL: {{^}}insert_w_offset:
				167	; GCN-DAG: s_load_dword [[IN:s[0-9]+]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	168	; MOVREL-DAG: s_mov_b32 m0, [[IN]]
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	169	; GCN-DAG: v_mov_b32_e32 v[[ELT0:[0-9]+]], 1.0
				170	; GCN-DAG: v_mov_b32_e32 v[[ELT1:[0-9]+]], 2.0
				171	; GCN-DAG: v_mov_b32_e32 v[[ELT2:[0-9]+]], 0x40400000
				172	; GCN-DAG: v_mov_b32_e32 v[[ELT3:[0-9]+]], 4.0
				173	; GCN-DAG: v_mov_b32_e32 v[[INS:[0-9]+]], 0x40a00000
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	174
				175	; MOVREL: v_movreld_b32_e32 v[[ELT1]], v[[INS]]
				176	; MOVREL: buffer_store_dwordx4 v{{\[}}[[ELT0]]:[[ELT3]]{{\]}}
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	177	define amdgpu_kernel void @insert_w_offset(<4 x float> addrspace(1)* %out, i32 %in) {
Tom Stellard	eef2ad9	2013-08-05 22:45:56 +0000	[diff] [blame]	178	entry:
				179	%0 = add i32 %in, 1
				180	%1 = insertelement <4 x float> <float 1.0, float 2.0, float 3.0, float 4.0>, float 5.0, i32 %0
Matt Arsenault	f403df3	2016-08-26 06:31:32 +0000	[diff] [blame]	181	store <4 x float> %1, <4 x float> addrspace(1)* %out
Tom Stellard	eef2ad9	2013-08-05 22:45:56 +0000	[diff] [blame]	182	ret void
				183	}
				184
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	185	; GCN-LABEL: {{^}}insert_wo_offset:
				186	; GCN: s_load_dword [[IN:s[0-9]+]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	187
				188	; MOVREL: s_mov_b32 m0, [[IN]]
				189	; MOVREL: v_movreld_b32_e32 v[[ELT0:[0-9]+]]
				190
				191	; IDXMODE: s_set_gpr_idx_on [[IN]], dst
				192	; IDXMODE-NEXT: v_mov_b32_e32 v[[ELT0:[0-9]+]], v{{[0-9]+}}
				193	; IDXMODE-NEXT: s_set_gpr_idx_off
				194
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	195	; GCN: buffer_store_dwordx4 v{{\[}}[[ELT0]]:
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	196	define amdgpu_kernel void @insert_wo_offset(<4 x float> addrspace(1)* %out, i32 %in) {
Tom Stellard	eef2ad9	2013-08-05 22:45:56 +0000	[diff] [blame]	197	entry:
				198	%0 = insertelement <4 x float> <float 1.0, float 2.0, float 3.0, float 4.0>, float 5.0, i32 %in
Matt Arsenault	f403df3	2016-08-26 06:31:32 +0000	[diff] [blame]	199	store <4 x float> %0, <4 x float> addrspace(1)* %out
Tom Stellard	eef2ad9	2013-08-05 22:45:56 +0000	[diff] [blame]	200	ret void
				201	}
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	202
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	203	; GCN-LABEL: {{^}}insert_neg_offset_sgpr:
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	204	; The offset depends on the register that holds the first element of the vector.
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	205	; MOVREL: s_add_i32 m0, s{{[0-9]+}}, 0xfffffe{{[0-9a-z]+}}
				206	; MOVREL: v_movreld_b32_e32 v0, 5
				207
				208	; IDXMODE: s_addk_i32 [[ADD_IDX:s[0-9]+]], 0xfe00{{$}}
				209	; IDXMODE: s_set_gpr_idx_on [[ADD_IDX]], dst
				210	; IDXMODE-NEXT: v_mov_b32_e32 v0, 5
				211	; IDXMODE-NEXT: s_set_gpr_idx_off
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	212	define amdgpu_kernel void @insert_neg_offset_sgpr(i32 addrspace(1)* %in, <4 x i32> addrspace(1)* %out, i32 %offset) {
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	213	entry:
				214	%index = add i32 %offset, -512
				215	%value = insertelement <4 x i32> <i32 0, i32 1, i32 2, i32 3>, i32 5, i32 %index
				216	store <4 x i32> %value, <4 x i32> addrspace(1)* %out
				217	ret void
				218	}
				219
Matt Arsenault	2841927	2015-10-07 00:42:51 +0000	[diff] [blame]	220	; The vector indexed into is originally loaded into an SGPR rather
				221	; than built with a reg_sequence
				222
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	223	; GCN-LABEL: {{^}}insert_neg_offset_sgpr_loadreg:
Matt Arsenault	2841927	2015-10-07 00:42:51 +0000	[diff] [blame]	224	; The offset depends on the register that holds the first element of the vector.
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	225	; MOVREL: s_add_i32 m0, s{{[0-9]+}}, 0xfffffe{{[0-9a-z]+}}
				226	; MOVREL: v_movreld_b32_e32 v0, 5
				227
				228	; IDXMODE: s_addk_i32 [[ADD_IDX:s[0-9]+]], 0xfe00{{$}}
				229	; IDXMODE: s_set_gpr_idx_on [[ADD_IDX]], dst
				230	; IDXMODE-NEXT: v_mov_b32_e32 v0, 5
				231	; IDXMODE-NEXT: s_set_gpr_idx_off
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	232	define amdgpu_kernel void @insert_neg_offset_sgpr_loadreg(i32 addrspace(1)* %in, <4 x i32> addrspace(1)* %out, <4 x i32> %vec, i32 %offset) {
Matt Arsenault	2841927	2015-10-07 00:42:51 +0000	[diff] [blame]	233	entry:
				234	%index = add i32 %offset, -512
				235	%value = insertelement <4 x i32> %vec, i32 5, i32 %index
				236	store <4 x i32> %value, <4 x i32> addrspace(1)* %out
				237	ret void
				238	}
				239
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	240	; GCN-LABEL: {{^}}insert_neg_offset_vgpr:
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	241	; The offset depends on the register that holds the first element of the vector.
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	242
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	243	; GCN-DAG: v_mov_b32_e32 [[VEC_ELT0:v[0-9]+]], 1{{$}}
				244	; GCN-DAG: v_mov_b32_e32 [[VEC_ELT1:v[0-9]+]], 2{{$}}
				245	; GCN-DAG: v_mov_b32_e32 [[VEC_ELT2:v[0-9]+]], 3{{$}}
				246	; GCN-DAG: v_mov_b32_e32 [[VEC_ELT3:v[0-9]+]], 4{{$}}
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	247
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	248	; GCN: s_mov_b64 [[SAVEEXEC:s\[[0-9]+:[0-9]+\]]], exec
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	249	; GCN: [[LOOPBB:BB[0-9]+_[0-9]+]]:
				250	; GCN: v_readfirstlane_b32 [[READLANE:s[0-9]+]]
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	251	; GCN: s_and_saveexec_b64 vcc, vcc
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	252
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	253	; MOVREL: s_add_i32 m0, [[READLANE]], 0xfffffe00
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	254	; MOVREL: v_movreld_b32_e32 [[VEC_ELT0]], 5
				255
				256	; IDXMODE: s_addk_i32 [[ADD_IDX:s[0-9]+]], 0xfe00{{$}}
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	257	; IDXMODE: s_set_gpr_idx_on [[ADD_IDX]], dst
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	258	; IDXMODE: v_mov_b32_e32 v{{[0-9]+}}, 5
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	259	; IDXMODE: s_set_gpr_idx_off
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	260
				261	; GCN: s_cbranch_execnz [[LOOPBB]]
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	262	; GCN: s_mov_b64 exec, [[SAVEEXEC]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	263
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	264	; GCN: buffer_store_dword
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	265	define amdgpu_kernel void @insert_neg_offset_vgpr(i32 addrspace(1)* %in, <4 x i32> addrspace(1)* %out) {
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	266	entry:
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	267	%id = call i32 @llvm.amdgcn.workitem.id.x() #1
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	268	%index = add i32 %id, -512
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	269	%value = insertelement <4 x i32> <i32 1, i32 2, i32 3, i32 4>, i32 5, i32 %index
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	270	store <4 x i32> %value, <4 x i32> addrspace(1)* %out
				271	ret void
				272	}
				273
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	274	; GCN-LABEL: {{^}}insert_neg_inline_offset_vgpr:
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	275
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	276	; GCN-DAG: v_mov_b32_e32 [[VEC_ELT0:v[0-9]+]], 1{{$}}
				277	; GCN-DAG: v_mov_b32_e32 [[VEC_ELT1:v[0-9]+]], 2{{$}}
				278	; GCN-DAG: v_mov_b32_e32 [[VEC_ELT2:v[0-9]+]], 3{{$}}
				279	; GCN-DAG: v_mov_b32_e32 [[VEC_ELT3:v[0-9]+]], 4{{$}}
				280	; GCN-DAG: v_mov_b32_e32 [[VAL:v[0-9]+]], 0x1f4{{$}}
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	281
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	282	; GCN: s_mov_b64 [[SAVEEXEC:s\[[0-9]+:[0-9]+\]]], exec
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	283
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	284	; The offset depends on the register that holds the first element of the vector.
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	285	; GCN: v_readfirstlane_b32 [[READLANE:s[0-9]+]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	286
				287	; MOVREL: s_add_i32 m0, [[READLANE]], -16
				288	; MOVREL: v_movreld_b32_e32 [[VEC_ELT0]], [[VAL]]
				289
				290	; IDXMODE: s_add_i32 [[ADD_IDX:s[0-9]+]], [[READLANE]], -16
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	291	; IDXMODE: s_set_gpr_idx_on [[ADD_IDX]], dst
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	292	; IDXMODE: v_mov_b32_e32 [[VEC_ELT0]], [[VAL]]
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	293	; IDXMODE: s_set_gpr_idx_off
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	294
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	295	; GCN: s_cbranch_execnz
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	296	define amdgpu_kernel void @insert_neg_inline_offset_vgpr(i32 addrspace(1)* %in, <4 x i32> addrspace(1)* %out) {
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	297	entry:
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	298	%id = call i32 @llvm.amdgcn.workitem.id.x() #1
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	299	%index = add i32 %id, -16
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	300	%value = insertelement <4 x i32> <i32 1, i32 2, i32 3, i32 4>, i32 500, i32 %index
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	301	store <4 x i32> %value, <4 x i32> addrspace(1)* %out
				302	ret void
				303	}
				304
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	305	; When the block is split to insert the loop, make sure any other
				306	; places that need to be expanded in the same block are also handled.
				307
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	308	; GCN-LABEL: {{^}}extract_vgpr_offset_multiple_in_block:
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	309
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	310	; FIXME: Why is vector copied in between?
				311
Matt Arsenault	4e309b0	2017-07-29 01:03:53 +0000	[diff] [blame]	312	; GCN-DAG: {{buffer\|flat\|global}}_load_dword [[IDX0:v[0-9]+]]
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	313	; GCN-DAG: s_mov_b32 [[S_ELT1:s[0-9]+]], 9
				314	; GCN-DAG: s_mov_b32 [[S_ELT0:s[0-9]+]], 7
				315	; GCN-DAG: v_mov_b32_e32 [[VEC_ELT0:v[0-9]+]], [[S_ELT0]]
				316	; GCN-DAG: v_mov_b32_e32 [[VEC_ELT1:v[0-9]+]], [[S_ELT1]]
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	317
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	318	; GCN: s_mov_b64 [[MASK:s\[[0-9]+:[0-9]+\]]], exec
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	319
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	320	; GCN: [[LOOP0:BB[0-9]+_[0-9]+]]:
Mark Searles	70359ac	2017-06-02 14:19:25 +0000	[diff] [blame]	321	; GCN-NEXT: s_waitcnt vmcnt(0)
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	322	; GCN-NEXT: v_readfirstlane_b32 [[READLANE:s[0-9]+]], [[IDX0]]
				323	; GCN: v_cmp_eq_u32_e32 vcc, [[READLANE]], [[IDX0]]
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	324	; GCN: s_and_saveexec_b64 vcc, vcc
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	325
				326	; MOVREL: s_mov_b32 m0, [[READLANE]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	327	; MOVREL: v_movrels_b32_e32 [[MOVREL0:v[0-9]+]], [[VEC_ELT0]]
				328
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	329	; IDXMODE: s_set_gpr_idx_on [[READLANE]], src0
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	330	; IDXMODE: v_mov_b32_e32 [[MOVREL0:v[0-9]+]], [[VEC_ELT0]]
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	331	; IDXMODE: s_set_gpr_idx_off
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	332
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	333	; GCN-NEXT: s_xor_b64 exec, exec, vcc
				334	; GCN-NEXT: s_cbranch_execnz [[LOOP0]]
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	335
				336	; FIXME: Redundant copy
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	337	; GCN: s_mov_b64 exec, [[MASK]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	338
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	339	; GCN: v_mov_b32_e32 [[VEC_ELT1_2:v[0-9]+]], [[S_ELT1]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	340
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	341	; GCN: s_mov_b64 [[MASK2:s\[[0-9]+:[0-9]+\]]], exec
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	342
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	343	; GCN: [[LOOP1:BB[0-9]+_[0-9]+]]:
				344	; GCN-NEXT: v_readfirstlane_b32 [[READLANE:s[0-9]+]], [[IDX0]]
				345	; GCN: v_cmp_eq_u32_e32 vcc, [[READLANE]], [[IDX0]]
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	346	; GCN: s_and_saveexec_b64 vcc, vcc
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	347
				348	; MOVREL: s_mov_b32 m0, [[READLANE]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	349	; MOVREL-NEXT: v_movrels_b32_e32 [[MOVREL1:v[0-9]+]], [[VEC_ELT1_2]]
				350
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	351	; IDXMODE: s_set_gpr_idx_on [[READLANE]], src0
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	352	; IDXMODE-NEXT: v_mov_b32_e32 [[MOVREL1:v[0-9]+]], [[VEC_ELT1_2]]
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	353	; IDXMODE: s_set_gpr_idx_off
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	354
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	355	; GCN-NEXT: s_xor_b64 exec, exec, vcc
				356	; GCN: s_cbranch_execnz [[LOOP1]]
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	357
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	358	; GCN: buffer_store_dword [[MOVREL0]]
				359	; GCN: buffer_store_dword [[MOVREL1]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	360	define amdgpu_kernel void @extract_vgpr_offset_multiple_in_block(i32 addrspace(1)* %out0, i32 addrspace(1)* %out1, i32 addrspace(1)* %in) #0 {
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	361	entry:
				362	%id = call i32 @llvm.amdgcn.workitem.id.x() #1
				363	%id.ext = zext i32 %id to i64
				364	%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %id.ext
				365	%idx0 = load volatile i32, i32 addrspace(1)* %gep
				366	%idx1 = add i32 %idx0, 1
				367	%val0 = extractelement <4 x i32> <i32 7, i32 9, i32 11, i32 13>, i32 %idx0
Matt Arsenault	3c7581b	2017-06-08 19:03:20 +0000	[diff] [blame]	368	%live.out.reg = call i32 asm sideeffect "s_mov_b32 $0, 17", "={s4}" ()
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	369	%val1 = extractelement <4 x i32> <i32 7, i32 9, i32 11, i32 13>, i32 %idx1
				370	store volatile i32 %val0, i32 addrspace(1)* %out0
				371	store volatile i32 %val1, i32 addrspace(1)* %out0
Matt Arsenault	3cb4dde	2016-06-22 23:40:57 +0000	[diff] [blame]	372	%cmp = icmp eq i32 %id, 0
				373	br i1 %cmp, label %bb1, label %bb2
				374
				375	bb1:
				376	store volatile i32 %live.out.reg, i32 addrspace(1)* undef
				377	br label %bb2
				378
				379	bb2:
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	380	ret void
				381	}
				382
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	383	; GCN-LABEL: {{^}}insert_vgpr_offset_multiple_in_block:
				384	; GCN-DAG: s_load_dwordx4 s{{\[}}[[S_ELT0:[0-9]+]]:[[S_ELT3:[0-9]+]]{{\]}}
Matt Arsenault	4e309b0	2017-07-29 01:03:53 +0000	[diff] [blame]	385	; GCN-DAG: {{buffer\|flat\|global}}_load_dword [[IDX0:v[0-9]+]]
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	386	; GCN-DAG: v_mov_b32 [[INS0:v[0-9]+]], 62
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	387
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	388	; GCN-DAG: v_mov_b32_e32 v[[VEC_ELT3:[0-9]+]], s[[S_ELT3]]
				389	; GCN: v_mov_b32_e32 v[[VEC_ELT2:[0-9]+]], s{{[0-9]+}}
				390	; GCN: v_mov_b32_e32 v[[VEC_ELT1:[0-9]+]], s{{[0-9]+}}
				391	; GCN: v_mov_b32_e32 v[[VEC_ELT0:[0-9]+]], s[[S_ELT0]]
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	392
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	393	; GCN: [[LOOP0:BB[0-9]+_[0-9]+]]:
Mark Searles	70359ac	2017-06-02 14:19:25 +0000	[diff] [blame]	394	; GCN-NEXT: s_waitcnt vmcnt(0)
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	395	; GCN-NEXT: v_readfirstlane_b32 [[READLANE:s[0-9]+]], [[IDX0]]
				396	; GCN: v_cmp_eq_u32_e32 vcc, [[READLANE]], [[IDX0]]
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	397	; GCN: s_and_saveexec_b64 vcc, vcc
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	398
				399	; MOVREL: s_mov_b32 m0, [[READLANE]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	400	; MOVREL-NEXT: v_movreld_b32_e32 v[[VEC_ELT0]], [[INS0]]
				401
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	402	; IDXMODE: s_set_gpr_idx_on [[READLANE]], dst
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	403	; IDXMODE-NEXT: v_mov_b32_e32 v[[VEC_ELT0]], [[INS0]]
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	404	; IDXMODE: s_set_gpr_idx_off
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	405
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	406	; GCN-NEXT: s_xor_b64 exec, exec, vcc
				407	; GCN: s_cbranch_execnz [[LOOP0]]
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	408
				409	; FIXME: Redundant copy
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	410	; GCN: s_mov_b64 exec, [[MASK:s\[[0-9]+:[0-9]+\]]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	411
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	412	; GCN: s_mov_b64 [[MASK]], exec
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	413
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	414	; GCN: [[LOOP1:BB[0-9]+_[0-9]+]]:
				415	; GCN-NEXT: v_readfirstlane_b32 [[READLANE:s[0-9]+]], [[IDX0]]
				416	; GCN: v_cmp_eq_u32_e32 vcc, [[READLANE]], [[IDX0]]
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	417	; GCN: s_and_saveexec_b64 vcc, vcc
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	418
				419	; MOVREL: s_mov_b32 m0, [[READLANE]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	420	; MOVREL-NEXT: v_movreld_b32_e32 v[[VEC_ELT1]], 63
				421
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	422	; IDXMODE: s_set_gpr_idx_on [[READLANE]], dst
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	423	; IDXMODE-NEXT: v_mov_b32_e32 v[[VEC_ELT1]], 63
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	424	; IDXMODE: s_set_gpr_idx_off
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	425
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	426	; GCN-NEXT: s_xor_b64 exec, exec, vcc
				427	; GCN: s_cbranch_execnz [[LOOP1]]
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	428
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	429	; GCN: buffer_store_dwordx4 v{{\[}}[[VEC_ELT0]]:
Matt Arsenault	3cb4dde	2016-06-22 23:40:57 +0000	[diff] [blame]	430
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	431	; GCN: buffer_store_dword [[INS0]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	432	define amdgpu_kernel void @insert_vgpr_offset_multiple_in_block(<4 x i32> addrspace(1)* %out0, <4 x i32> addrspace(1)* %out1, i32 addrspace(1)* %in, <4 x i32> %vec0) #0 {
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	433	entry:
				434	%id = call i32 @llvm.amdgcn.workitem.id.x() #1
				435	%id.ext = zext i32 %id to i64
				436	%gep = getelementptr inbounds i32, i32 addrspace(1)* %in, i64 %id.ext
				437	%idx0 = load volatile i32, i32 addrspace(1)* %gep
				438	%idx1 = add i32 %idx0, 1
Matt Arsenault	3cb4dde	2016-06-22 23:40:57 +0000	[diff] [blame]	439	%live.out.val = call i32 asm sideeffect "v_mov_b32 $0, 62", "=v"()
				440	%vec1 = insertelement <4 x i32> %vec0, i32 %live.out.val, i32 %idx0
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	441	%vec2 = insertelement <4 x i32> %vec1, i32 63, i32 %idx1
				442	store volatile <4 x i32> %vec2, <4 x i32> addrspace(1)* %out0
Matt Arsenault	3cb4dde	2016-06-22 23:40:57 +0000	[diff] [blame]	443	%cmp = icmp eq i32 %id, 0
				444	br i1 %cmp, label %bb1, label %bb2
				445
				446	bb1:
				447	store volatile i32 %live.out.val, i32 addrspace(1)* undef
				448	br label %bb2
				449
				450	bb2:
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	451	ret void
				452	}
				453
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	454
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	455	; GCN-LABEL: {{^}}insert_adjacent_blocks:
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	456	define amdgpu_kernel void @insert_adjacent_blocks(i32 %arg, float %val0) #0 {
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	457	bb:
				458	%tmp = icmp eq i32 %arg, 0
				459	br i1 %tmp, label %bb1, label %bb4
				460
				461	bb1: ; preds = %bb
				462	%tmp2 = load volatile <4 x float>, <4 x float> addrspace(1)* undef
				463	%tmp3 = insertelement <4 x float> %tmp2, float %val0, i32 undef
Matt Arsenault	ad55ee5	2016-12-06 01:02:51 +0000	[diff] [blame]	464	call void asm sideeffect "; reg use $0", "v"(<4 x float> %tmp3) #0 ; Prevent block optimize out
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	465	br label %bb7
				466
				467	bb4: ; preds = %bb
				468	%tmp5 = load volatile <4 x float>, <4 x float> addrspace(1)* undef
				469	%tmp6 = insertelement <4 x float> %tmp5, float %val0, i32 undef
Matt Arsenault	ad55ee5	2016-12-06 01:02:51 +0000	[diff] [blame]	470	call void asm sideeffect "; reg use $0", "v"(<4 x float> %tmp6) #0 ; Prevent block optimize out
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	471	br label %bb7
				472
				473	bb7: ; preds = %bb4, %bb1
				474	%tmp8 = phi <4 x float> [ %tmp3, %bb1 ], [ %tmp6, %bb4 ]
				475	store volatile <4 x float> %tmp8, <4 x float> addrspace(1)* undef
				476	ret void
				477	}
				478
				479	; FIXME: Should be able to fold zero input to movreld to inline imm?
				480
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	481	; GCN-LABEL: {{^}}multi_same_block:
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	482
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	483	; GCN-DAG: v_mov_b32_e32 v[[VEC0_ELT0:[0-9]+]], 0x41880000
				484	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0x41900000
				485	; GCN-DAG: v_mov_b32_e32 v[[VEC0_ELT2:[0-9]+]], 0x41980000
				486	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0x41a00000
				487	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0x41a80000
				488	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0x41b00000
				489	; GCN-DAG: s_load_dword [[ARG:s[0-9]+]]
Matthias Braun	325cd2c	2016-11-11 01:34:21 +0000	[diff] [blame]	490	; IDXMODE-DAG: s_add_i32 [[ARG_ADD:s[0-9]+]], [[ARG]], -16
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	491
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	492	; MOVREL-DAG: s_add_i32 m0, [[ARG]], -16
				493	; MOVREL: v_movreld_b32_e32 v[[VEC0_ELT0]], 4.0
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	494	; GCN-NOT: m0
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	495
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	496	; IDXMODE: s_set_gpr_idx_on [[ARG_ADD]], dst
				497	; IDXMODE: v_mov_b32_e32 v[[VEC0_ELT0]], 4.0
				498	; IDXMODE: s_set_gpr_idx_off
				499
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	500	; GCN: v_mov_b32_e32 v[[VEC0_ELT2]], 0x4188cccd
				501	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0x4190cccd
				502	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0x4198cccd
				503	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0x41a0cccd
				504	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0x41a8cccd
				505	; GCN-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0x41b0cccd
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	506
				507	; MOVREL: v_movreld_b32_e32 v[[VEC0_ELT2]], -4.0
				508
				509	; IDXMODE: s_set_gpr_idx_on [[ARG_ADD]], dst
				510	; IDXMODE: v_mov_b32_e32 v[[VEC0_ELT2]], -4.0
				511	; IDXMODE: s_set_gpr_idx_off
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	512
Matt Arsenault	3f71c0e	2017-11-29 00:55:57 +0000	[diff] [blame]	513	; PREGFX9: s_mov_b32 m0, -1
				514	; GFX9-NOT: s_mov_b32 m0
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	515	; GCN: ds_write_b32
				516	; GCN: ds_write_b32
				517	; GCN: s_endpgm
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	518	define amdgpu_kernel void @multi_same_block(i32 %arg) #0 {
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	519	bb:
				520	%tmp1 = add i32 %arg, -16
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	521	%tmp2 = insertelement <6 x float> <float 1.700000e+01, float 1.800000e+01, float 1.900000e+01, float 2.000000e+01, float 2.100000e+01, float 2.200000e+01>, float 4.000000e+00, i32 %tmp1
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	522	%tmp3 = add i32 %arg, -16
Matt Arsenault	cb540bc	2016-07-19 00:35:03 +0000	[diff] [blame]	523	%tmp4 = insertelement <6 x float> <float 0x40311999A0000000, float 0x40321999A0000000, float 0x40331999A0000000, float 0x40341999A0000000, float 0x40351999A0000000, float 0x40361999A0000000>, float -4.0, i32 %tmp3
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	524	%tmp5 = bitcast <6 x float> %tmp2 to <6 x i32>
				525	%tmp6 = extractelement <6 x i32> %tmp5, i32 1
				526	%tmp7 = bitcast <6 x float> %tmp4 to <6 x i32>
				527	%tmp8 = extractelement <6 x i32> %tmp7, i32 5
				528	store volatile i32 %tmp6, i32 addrspace(3)* undef, align 4
				529	store volatile i32 %tmp8, i32 addrspace(3)* undef, align 4
				530	ret void
				531	}
				532
Matt Arsenault	b4d9503	2016-06-28 01:09:00 +0000	[diff] [blame]	533	; offset puts outside of superegister bounaries, so clamp to 1st element.
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	534	; GCN-LABEL: {{^}}extract_largest_inbounds_offset:
				535	; GCN-DAG: buffer_load_dwordx4 v{{\[}}[[LO_ELT:[0-9]+]]:[[HI_ELT:[0-9]+]]{{\]}}
				536	; GCN-DAG: s_load_dword [[IDX:s[0-9]+]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	537	; MOVREL: s_mov_b32 m0, [[IDX]]
				538	; MOVREL: v_movrels_b32_e32 [[EXTRACT:v[0-9]+]], v[[HI_ELT]]
				539
				540	; IDXMODE: s_set_gpr_idx_on [[IDX]], src0
				541	; IDXMODE: v_mov_b32_e32 [[EXTRACT:v[0-9]+]], v[[HI_ELT]]
				542	; IDXMODE: s_set_gpr_idx_off
				543
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	544	; GCN: buffer_store_dword [[EXTRACT]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	545	define amdgpu_kernel void @extract_largest_inbounds_offset(i32 addrspace(1)* %out, <4 x i32> addrspace(1)* %in, i32 %idx) {
Matt Arsenault	b4d9503	2016-06-28 01:09:00 +0000	[diff] [blame]	546	entry:
				547	%ld = load volatile <4 x i32>, <4 x i32> addrspace(1)* %in
				548	%offset = add i32 %idx, 3
				549	%value = extractelement <4 x i32> %ld, i32 %offset
				550	store i32 %value, i32 addrspace(1)* %out
				551	ret void
				552	}
				553
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	554	; GCN-LABEL: {{^}}extract_out_of_bounds_offset:
				555	; GCN-DAG: buffer_load_dwordx4 v{{\[}}[[LO_ELT:[0-9]+]]:[[HI_ELT:[0-9]+]]{{\]}}
				556	; GCN-DAG: s_load_dword [[IDX:s[0-9]+]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	557	; MOVREL: s_add_i32 m0, [[IDX]], 4
				558	; MOVREL: v_movrels_b32_e32 [[EXTRACT:v[0-9]+]], v[[LO_ELT]]
				559
				560	; IDXMODE: s_add_i32 [[ADD_IDX:s[0-9]+]], [[IDX]], 4
				561	; IDXMODE: s_set_gpr_idx_on [[ADD_IDX]], src0
				562	; IDXMODE: v_mov_b32_e32 [[EXTRACT:v[0-9]+]], v[[LO_ELT]]
				563	; IDXMODE: s_set_gpr_idx_off
				564
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	565	; GCN: buffer_store_dword [[EXTRACT]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	566	define amdgpu_kernel void @extract_out_of_bounds_offset(i32 addrspace(1)* %out, <4 x i32> addrspace(1)* %in, i32 %idx) {
Matt Arsenault	b4d9503	2016-06-28 01:09:00 +0000	[diff] [blame]	567	entry:
				568	%ld = load volatile <4 x i32>, <4 x i32> addrspace(1)* %in
				569	%offset = add i32 %idx, 4
				570	%value = extractelement <4 x i32> %ld, i32 %offset
				571	store i32 %value, i32 addrspace(1)* %out
				572	ret void
				573	}
				574
Matt Arsenault	1322b6f	2016-07-09 01:13:56 +0000	[diff] [blame]	575	; Test that the or is folded into the base address register instead of
				576	; added to m0
				577
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	578	; GCN-LABEL: {{^}}extractelement_v4i32_or_index:
				579	; GCN: s_load_dword [[IDX_IN:s[0-9]+]]
				580	; GCN: s_lshl_b32 [[IDX_SHL:s[0-9]+]], [[IDX_IN]]
				581	; GCN-NOT: [[IDX_SHL]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	582
				583	; MOVREL: s_mov_b32 m0, [[IDX_SHL]]
				584	; MOVREL: v_movrels_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}
				585
				586	; IDXMODE: s_set_gpr_idx_on [[IDX_SHL]], src0
				587	; IDXMODE: v_mov_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}
				588	; IDXMODE: s_set_gpr_idx_off
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	589	define amdgpu_kernel void @extractelement_v4i32_or_index(i32 addrspace(1)* %out, <4 x i32> addrspace(1)* %in, i32 %idx.in) {
Matt Arsenault	1322b6f	2016-07-09 01:13:56 +0000	[diff] [blame]	590	entry:
				591	%ld = load volatile <4 x i32>, <4 x i32> addrspace(1)* %in
				592	%idx.shl = shl i32 %idx.in, 2
				593	%idx = or i32 %idx.shl, 1
				594	%value = extractelement <4 x i32> %ld, i32 %idx
				595	store i32 %value, i32 addrspace(1)* %out
				596	ret void
				597	}
				598
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	599	; GCN-LABEL: {{^}}insertelement_v4f32_or_index:
				600	; GCN: s_load_dword [[IDX_IN:s[0-9]+]]
				601	; GCN: s_lshl_b32 [[IDX_SHL:s[0-9]+]], [[IDX_IN]]
				602	; GCN-NOT: [[IDX_SHL]]
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	603
				604	; MOVREL: s_mov_b32 m0, [[IDX_SHL]]
				605	; MOVREL: v_movreld_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}
				606
				607	; IDXMODE: s_set_gpr_idx_on [[IDX_SHL]], dst
				608	; IDXMODE: v_mov_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}
				609	; IDXMODE: s_set_gpr_idx_off
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	610	define amdgpu_kernel void @insertelement_v4f32_or_index(<4 x float> addrspace(1)* %out, <4 x float> %a, i32 %idx.in) nounwind {
Matt Arsenault	1322b6f	2016-07-09 01:13:56 +0000	[diff] [blame]	611	%idx.shl = shl i32 %idx.in, 2
				612	%idx = or i32 %idx.shl, 1
				613	%vecins = insertelement <4 x float> %a, float 5.000000e+00, i32 %idx
				614	store <4 x float> %vecins, <4 x float> addrspace(1)* %out, align 16
				615	ret void
				616	}
				617
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	618	; GCN-LABEL: {{^}}broken_phi_bb:
				619	; GCN: v_mov_b32_e32 [[PHIREG:v[0-9]+]], 8
Matt Arsenault	f0ba86a	2016-07-21 09:40:57 +0000	[diff] [blame]	620
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	621	; GCN: s_branch [[BB2:BB[0-9]+_[0-9]+]]
Matt Arsenault	f0ba86a	2016-07-21 09:40:57 +0000	[diff] [blame]	622
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	623	; GCN: {{^BB[0-9]+_[0-9]+}}:
				624	; GCN: s_mov_b64 exec,
Matt Arsenault	f0ba86a	2016-07-21 09:40:57 +0000	[diff] [blame]	625
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	626	; GCN: [[BB2]]:
				627	; GCN: v_cmp_le_i32_e32 vcc, s{{[0-9]+}}, [[PHIREG]]
				628	; GCN: buffer_load_dword
Matt Arsenault	f0ba86a	2016-07-21 09:40:57 +0000	[diff] [blame]	629
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	630	; GCN: [[REGLOOP:BB[0-9]+_[0-9]+]]:
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	631	; MOVREL: v_movreld_b32_e32
				632
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	633	; IDXMODE: s_set_gpr_idx_on
Matt Arsenault	d486d3f	2016-10-12 18:49:05 +0000	[diff] [blame]	634	; IDXMODE: v_mov_b32_e32
Changpeng Fang	da38b5f	2018-02-16 16:31:30 +0000	[diff] [blame]	635	; IDXMODE: s_set_gpr_idx_off
				636
Matt Arsenault	93401f4	2016-10-07 03:55:04 +0000	[diff] [blame]	637	; GCN: s_cbranch_execnz [[REGLOOP]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	638	define amdgpu_kernel void @broken_phi_bb(i32 %arg, i32 %arg1) #0 {
Matt Arsenault	f0ba86a	2016-07-21 09:40:57 +0000	[diff] [blame]	639	bb:
				640	br label %bb2
				641
				642	bb2: ; preds = %bb4, %bb
				643	%tmp = phi i32 [ 8, %bb ], [ %tmp7, %bb4 ]
				644	%tmp3 = icmp slt i32 %tmp, %arg
				645	br i1 %tmp3, label %bb4, label %bb8
				646
				647	bb4: ; preds = %bb2
				648	%vgpr = load volatile i32, i32 addrspace(1)* undef
				649	%tmp5 = insertelement <8 x i32> undef, i32 undef, i32 %vgpr
				650	%tmp6 = insertelement <8 x i32> %tmp5, i32 %arg1, i32 %vgpr
				651	%tmp7 = extractelement <8 x i32> %tmp6, i32 0
				652	br label %bb2
				653
				654	bb8: ; preds = %bb2
				655	ret void
				656	}
				657
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	658	declare i32 @llvm.amdgcn.workitem.id.x() #1
Matt Arsenault	ad55ee5	2016-12-06 01:02:51 +0000	[diff] [blame]	659	declare void @llvm.amdgcn.s.barrier() #2
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	660
Matt Arsenault	9babdf4	2016-06-22 20:15:28 +0000	[diff] [blame]	661	attributes #0 = { nounwind }
Tom Stellard	8b0182a	2015-04-23 20:32:01 +0000	[diff] [blame]	662	attributes #1 = { nounwind readnone }
Matt Arsenault	ad55ee5	2016-12-06 01:02:51 +0000	[diff] [blame]	663	attributes #2 = { nounwind convergent }