Blame - llvm/test/CodeGen/AMDGPU/fadd-fma-fmul-combine.ll - toolchain/llvm-project

blob: 9edf55cbc69fe0ce0b8d4afc0723470451d572b5 [file] [log] [blame]

Matt Arsenault	e482403	2017-01-11 02:02:12 +0000	[diff] [blame]	1	; RUN: llc -march=amdgcn -mattr=+fast-fmaf,-fp32-denormals -enable-unsafe-fp-math -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GCN-FLUSH %s
				2	; RUN: llc -march=amdgcn -mattr=-fast-fmaf,-fp32-denormals -enable-unsafe-fp-math -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GCN-FLUSH %s
				3
				4	; RUN: llc -march=amdgcn -mattr=+fast-fmaf,+fp32-denormals -enable-unsafe-fp-math -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GCN-FASTFMA %s
				5	; RUN: llc -march=amdgcn -mattr=-fast-fmaf,+fp32-denormals -enable-unsafe-fp-math -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=GCN-SLOWFMA %s
				6
				7	; FIXME: This should also fold when fma is actually fast if an FMA
				8	; exists in the original program.
				9
				10	; (fadd (fma x, y, (fmul u, v), z) -> (fma x, y (fma u, v, z))
				11
				12	; GCN-LABEL: {{^}}fast_add_fmuladd_fmul:
				13	; GCN: buffer_load_dword [[X:v[0-9]+]]
				14	; GCN: buffer_load_dword [[Y:v[0-9]+]]
				15	; GCN: buffer_load_dword [[Z:v[0-9]+]]
				16	; GCN: buffer_load_dword [[U:v[0-9]+]]
				17	; GCN: buffer_load_dword [[V:v[0-9]+]]
				18
				19	; GCN-FLUSH: v_mac_f32_e32 [[Z]], [[V]], [[U]]
				20	; GCN-FLUSH-NEXT: v_mac_f32_e32 [[Z]], [[Y]], [[X]]
				21	; GCN-FLUSH-NEXT: buffer_store_dword [[Z]]
				22
				23	; GCN-FASTFMA: v_fma_f32 [[FMA0:v[0-9]+]], [[U]], [[V]], [[Z]]
				24	; GCN-FASTFMA: v_fma_f32 [[FMA1:v[0-9]+]], [[X]], [[Y]], [[FMA0]]
				25	; GCN-FASTFMA: buffer_store_dword [[FMA1]]
				26
				27	; GCN-SLOWFMA: v_mul_f32_e32
				28	; GCN-SLOWFMA: v_mul_f32_e32
				29	; GCN-SLOWFMA: v_add_f32_e32
				30	; GCN-SLOWFMA: v_add_f32_e32
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	31	define amdgpu_kernel void @fast_add_fmuladd_fmul() #0 {
Matt Arsenault	e482403	2017-01-11 02:02:12 +0000	[diff] [blame]	32	%x = load volatile float, float addrspace(1)* undef
				33	%y = load volatile float, float addrspace(1)* undef
				34	%z = load volatile float, float addrspace(1)* undef
				35	%u = load volatile float, float addrspace(1)* undef
				36	%v = load volatile float, float addrspace(1)* undef
				37	%mul.u.v = fmul fast float %u, %v
				38	%fma = call fast float @llvm.fmuladd.f32(float %x, float %y, float %mul.u.v)
				39	%add = fadd fast float %fma, %z
				40	store volatile float %add, float addrspace(1)* undef
				41	ret void
				42	}
				43
				44	; GCN-LABEL: {{^}}fast_sub_fmuladd_fmul:
				45	; GCN: buffer_load_dword [[X:v[0-9]+]]
				46	; GCN: buffer_load_dword [[Y:v[0-9]+]]
				47	; GCN: buffer_load_dword [[Z:v[0-9]+]]
				48	; GCN: buffer_load_dword [[U:v[0-9]+]]
				49	; GCN: buffer_load_dword [[V:v[0-9]+]]
				50
				51	; GCN-FLUSH: v_mad_f32 [[TMP:v[0-9]]], [[U]], [[V]], -[[Z]]
				52	; GCN-FLUSH-NEXT: v_mac_f32_e32 [[TMP]], [[Y]], [[X]]
				53	; GCN-FLUSH-NEXT: buffer_store_dword [[Z]]
				54
				55	; GCN-FASTFMA: v_fma_f32 [[FMA0:v[0-9]+]], [[U]], [[V]], -[[Z]]
				56	; GCN-FASTFMA: v_fma_f32 [[FMA1:v[0-9]+]], [[X]], [[Y]], [[FMA0]]
				57	; GCN-FASTFMA: buffer_store_dword [[FMA1]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	58	define amdgpu_kernel void @fast_sub_fmuladd_fmul() #0 {
Matt Arsenault	e482403	2017-01-11 02:02:12 +0000	[diff] [blame]	59	%x = load volatile float, float addrspace(1)* undef
				60	%y = load volatile float, float addrspace(1)* undef
				61	%z = load volatile float, float addrspace(1)* undef
				62	%u = load volatile float, float addrspace(1)* undef
				63	%v = load volatile float, float addrspace(1)* undef
				64	%mul.u.v = fmul fast float %u, %v
				65	%fma = call fast float @llvm.fmuladd.f32(float %x, float %y, float %mul.u.v)
				66	%add = fsub fast float %fma, %z
				67	store volatile float %add, float addrspace(1)* undef
				68	ret void
				69	}
				70
				71	; GCN-LABEL: {{^}}fast_add_fmuladd_fmul_multi_use_mul:
				72	; GCN: buffer_load_dword [[X:v[0-9]+]]
				73	; GCN: buffer_load_dword [[Y:v[0-9]+]]
				74	; GCN: buffer_load_dword [[Z:v[0-9]+]]
				75	; GCN: buffer_load_dword [[U:v[0-9]+]]
				76	; GCN: buffer_load_dword [[V:v[0-9]+]]
				77
				78	; GCN-FLUSH-DAG: v_mul_f32_e32 [[MUL:v[0-9]+]], [[V]], [[U]]
				79	; GCN-FLUSH-DAG: v_mac_f32_e32 [[MUL]], [[Y]], [[X]]
				80	; GCN-FLUSH: v_add_f32_e32 v{{[0-9]+}}, [[Z]], [[U]]
				81
				82	; GCN-FASTFMA: v_mul_f32_e32 [[MUL:v[0-9]+]], [[V]], [[U]]
				83	; GCN-FASTFMA: v_fma_f32 [[FMA1:v[0-9]+]], [[X]], [[Y]], [[MUL]]
				84	; GCN-FASTFMA: v_add_f32_e32 v{{[0-9]+}}, [[Z]], [[FMA1]]
				85
				86	; GCN-SLOWFMA: v_mul_f32_e32
				87	; GCN-SLOWFMA: v_mul_f32_e32
				88	; GCN-SLOWFMA: v_add_f32_e32
				89	; GCN-SLOWFMA: v_add_f32_e32
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	90	define amdgpu_kernel void @fast_add_fmuladd_fmul_multi_use_mul() #0 {
Matt Arsenault	e482403	2017-01-11 02:02:12 +0000	[diff] [blame]	91	%x = load volatile float, float addrspace(1)* undef
				92	%y = load volatile float, float addrspace(1)* undef
				93	%z = load volatile float, float addrspace(1)* undef
				94	%u = load volatile float, float addrspace(1)* undef
				95	%v = load volatile float, float addrspace(1)* undef
				96	%mul.u.v = fmul fast float %u, %v
				97	store volatile float %mul.u.v, float addrspace(1)* undef
				98	%fma = call fast float @llvm.fmuladd.f32(float %x, float %y, float %mul.u.v)
				99	%add = fadd fast float %fma, %z
				100	store volatile float %add, float addrspace(1)* undef
				101	ret void
				102	}
				103
				104	; GCN-LABEL: {{^}}fast_add_fmuladd_fmul_multi_use_mul_commute:
				105	; GCN: buffer_load_dword [[X:v[0-9]+]]
				106	; GCN: buffer_load_dword [[Y:v[0-9]+]]
				107	; GCN: buffer_load_dword [[Z:v[0-9]+]]
				108	; GCN: buffer_load_dword [[U:v[0-9]+]]
				109	; GCN: buffer_load_dword [[V:v[0-9]+]]
				110
				111	; GCN-FLUSH-DAG: v_mul_f32_e32 [[MUL:v[0-9]+]], [[V]], [[U]]
				112	; GCN-FLUSH-DAG: v_mac_f32_e32 [[MUL]], [[Y]], [[X]]
				113	; GCN-FLUSH: v_add_f32_e32 v{{[0-9]+}}, [[U]], [[Z]]
				114
				115	; GCN-FASTFMA: v_mul_f32_e32 [[MUL:v[0-9]+]], [[V]], [[U]]
				116	; GCN-FASTFMA: v_fma_f32 [[FMA1:v[0-9]+]], [[X]], [[Y]], [[MUL]]
				117	; GCN-FASTFMA: v_add_f32_e32 v{{[0-9]+}}, [[FMA1]], [[Z]]
				118
				119	; GCN-SLOWFMA: v_mul_f32_e32
				120	; GCN-SLOWFMA: v_mul_f32_e32
				121	; GCN-SLOWFMA: v_add_f32_e32
				122	; GCN-SLOWFMA: v_add_f32_e32
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	123	define amdgpu_kernel void @fast_add_fmuladd_fmul_multi_use_mul_commute() #0 {
Matt Arsenault	e482403	2017-01-11 02:02:12 +0000	[diff] [blame]	124	%x = load volatile float, float addrspace(1)* undef
				125	%y = load volatile float, float addrspace(1)* undef
				126	%z = load volatile float, float addrspace(1)* undef
				127	%u = load volatile float, float addrspace(1)* undef
				128	%v = load volatile float, float addrspace(1)* undef
				129	%mul.u.v = fmul fast float %u, %v
				130	store volatile float %mul.u.v, float addrspace(1)* undef
				131	%fma = call fast float @llvm.fmuladd.f32(float %x, float %y, float %mul.u.v)
				132	%add = fadd fast float %z, %fma
				133	store volatile float %add, float addrspace(1)* undef
				134	ret void
				135	}
				136
				137	; GCN-LABEL: {{^}}fast_add_fmuladd_fmul_multi_use_fmuladd:
				138	; GCN: buffer_load_dword [[X:v[0-9]+]]
				139	; GCN: buffer_load_dword [[Y:v[0-9]+]]
				140	; GCN: buffer_load_dword [[Z:v[0-9]+]]
				141	; GCN: buffer_load_dword [[U:v[0-9]+]]
				142	; GCN: buffer_load_dword [[V:v[0-9]+]]
				143
				144	; GCN-SLOWFMA: v_mul_f32_e32
				145	; GCN-SLOWFMA: v_mul_f32_e32
				146	; GCN-SLOWFMA: v_add_f32_e32
				147	; GCN-SLOWFMA: v_add_f32_e32
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	148	define amdgpu_kernel void @fast_add_fmuladd_fmul_multi_use_fmuladd() #0 {
Matt Arsenault	e482403	2017-01-11 02:02:12 +0000	[diff] [blame]	149	%x = load volatile float, float addrspace(1)* undef
				150	%y = load volatile float, float addrspace(1)* undef
				151	%z = load volatile float, float addrspace(1)* undef
				152	%u = load volatile float, float addrspace(1)* undef
				153	%v = load volatile float, float addrspace(1)* undef
				154	%mul.u.v = fmul fast float %u, %v
				155	%fma = call fast float @llvm.fmuladd.f32(float %x, float %y, float %mul.u.v)
				156	store volatile float %fma, float addrspace(1)* undef
				157	%add = fadd fast float %fma, %z
				158	store volatile float %add, float addrspace(1)* undef
				159	ret void
				160	}
				161
				162	; GCN-LABEL: {{^}}fast_add_fmuladd_fmul_multi_use_fmuladd_commute:
				163	; GCN: buffer_load_dword [[X:v[0-9]+]]
				164	; GCN: buffer_load_dword [[Y:v[0-9]+]]
				165	; GCN: buffer_load_dword [[Z:v[0-9]+]]
				166	; GCN: buffer_load_dword [[U:v[0-9]+]]
				167	; GCN: buffer_load_dword [[V:v[0-9]+]]
				168
				169	; GCN-SLOWFMA: v_mul_f32_e32
				170	; GCN-SLOWFMA: v_mul_f32_e32
				171	; GCN-SLOWFMA: v_add_f32_e32
				172	; GCN-SLOWFMA: v_add_f32_e32
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	173	define amdgpu_kernel void @fast_add_fmuladd_fmul_multi_use_fmuladd_commute() #0 {
Matt Arsenault	e482403	2017-01-11 02:02:12 +0000	[diff] [blame]	174	%x = load volatile float, float addrspace(1)* undef
				175	%y = load volatile float, float addrspace(1)* undef
				176	%z = load volatile float, float addrspace(1)* undef
				177	%u = load volatile float, float addrspace(1)* undef
				178	%v = load volatile float, float addrspace(1)* undef
				179	%mul.u.v = fmul fast float %u, %v
				180	%fma = call fast float @llvm.fmuladd.f32(float %x, float %y, float %mul.u.v)
				181	store volatile float %fma, float addrspace(1)* undef
				182	%add = fadd fast float %z, %fma
				183	store volatile float %add, float addrspace(1)* undef
				184	ret void
				185	}
				186
				187	; GCN-LABEL: {{^}}fast_sub_fmuladd_fmul_multi_use_mul:
				188	; GCN: buffer_load_dword [[X:v[0-9]+]]
				189	; GCN: buffer_load_dword [[Y:v[0-9]+]]
				190	; GCN: buffer_load_dword [[Z:v[0-9]+]]
				191	; GCN: buffer_load_dword [[U:v[0-9]+]]
				192	; GCN: buffer_load_dword [[V:v[0-9]+]]
				193
				194	; GCN-DAG: v_mul_f32_e32 [[MUL:v[0-9]+]], [[V]], [[U]]
				195
				196	; GCN-FLUSH: v_mad_f32 [[MAD:v[0-9]+]], [[Y]], [[X]], [[MUL]]
				197	; GCN-FLUSH: v_subrev_f32_e32 [[SUB:v[0-9]+]], [[Z]], [[MAD]]
				198
				199	; GCN-FASTFMA: v_fma_f32 [[MAD:v[0-9]+]], [[X]], [[Y]], [[MUL]]
				200	; GCN-FASTFMA: v_subrev_f32_e32 [[SUB:v[0-9]+]], [[Z]], [[MAD]]
				201
				202	; GCN-SLOWFMA-DAG: v_mul_f32_e32 v{{[0-9]+}}, [[Y]], [[X]]
				203	; GCN-SLOWFMA: v_add_f32_e32
				204	; GCN-SLOWFMA: v_subrev_f32_e32 [[MAD:v[0-9]+]]
				205
				206	; GCN: buffer_store_dword [[MUL]]
				207	; GCN: buffer_store_dword [[MAD]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	208	define amdgpu_kernel void @fast_sub_fmuladd_fmul_multi_use_mul() #0 {
Matt Arsenault	e482403	2017-01-11 02:02:12 +0000	[diff] [blame]	209	%x = load volatile float, float addrspace(1)* undef
				210	%y = load volatile float, float addrspace(1)* undef
				211	%z = load volatile float, float addrspace(1)* undef
				212	%u = load volatile float, float addrspace(1)* undef
				213	%v = load volatile float, float addrspace(1)* undef
				214	%mul.u.v = fmul fast float %u, %v
				215	%fma = call fast float @llvm.fmuladd.f32(float %x, float %y, float %mul.u.v)
				216	%add = fsub fast float %fma, %z
				217	store volatile float %mul.u.v, float addrspace(1)* undef
				218	store volatile float %add, float addrspace(1)* undef
				219	ret void
				220	}
				221
				222	; GCN-LABEL: {{^}}fast_sub_fmuladd_fmul_multi_use_fmuladd:
				223	; GCN: buffer_load_dword [[X:v[0-9]+]]
				224	; GCN: buffer_load_dword [[Y:v[0-9]+]]
				225	; GCN: buffer_load_dword [[Z:v[0-9]+]]
				226	; GCN: buffer_load_dword [[U:v[0-9]+]]
				227	; GCN: buffer_load_dword [[V:v[0-9]+]]
				228
				229	; GCN-DAG: v_mul_f32_e32 [[MUL:v[0-9]+]], [[V]], [[U]]
				230
				231	; GCN-FLUSH-NEXT: v_mac_f32_e32 [[MUL]], [[Y]], [[X]]
				232	; GCN-FLUSH-NEXT: v_subrev_f32_e32 [[SUB:v[0-9]+]], [[Z]], [[MUL]]
				233	; GCN-FLUSH-NEXT: buffer_store_dword [[MUL]]
				234	; GCN-FLUSH-NEXT: buffer_store_dword [[SUB]]
				235
				236	; GCN-FASTFMA-NEXT: v_fma_f32 [[FMA:v[0-9]+]], [[X]], [[Y]], [[U]]
				237	; GCN-FASTFMA-NEXT: v_subrev_f32_e32 [[SUB:v[0-9]+]], [[Z]], [[FMA]]
				238	; GCN-FASTFMA-NEXT: buffer_store_dword [[FMA]]
				239	; GCN-FASTFMA-NEXT: buffer_store_dword [[SUB]]
				240
				241	; GCN-SLOWFMA-DAG: v_mul_f32_e32 v{{[0-9]+}}, [[Y]], [[X]]
				242	; GCN-SLOWFMA: v_add_f32_e32
				243	; GCN-SLOWFMA: v_subrev_f32_e32
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	244	define amdgpu_kernel void @fast_sub_fmuladd_fmul_multi_use_fmuladd() #0 {
Matt Arsenault	e482403	2017-01-11 02:02:12 +0000	[diff] [blame]	245	%x = load volatile float, float addrspace(1)* undef
				246	%y = load volatile float, float addrspace(1)* undef
				247	%z = load volatile float, float addrspace(1)* undef
				248	%u = load volatile float, float addrspace(1)* undef
				249	%v = load volatile float, float addrspace(1)* undef
				250	%mul.u.v = fmul fast float %u, %v
				251	%fma = call fast float @llvm.fmuladd.f32(float %x, float %y, float %mul.u.v)
				252	%add = fsub fast float %fma, %z
				253	store volatile float %fma, float addrspace(1)* undef
				254	store volatile float %add, float addrspace(1)* undef
				255	ret void
				256	}
				257
				258	declare float @llvm.fma.f32(float, float, float) #1
				259	declare float @llvm.fmuladd.f32(float, float, float) #1
				260
				261	attributes #0 = { nounwind }
				262	attributes #1 = { nounwind readnone }