Blame - llvm/test/CodeGen/AMDGPU/mad-combine.ll - toolchain/llvm-project

blob: 8a6bf853a7c6acd9219ae3644343f435d877e670 [file] [log] [blame]

Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	1	; Make sure we still form mad even when unsafe math or fp-contract is allowed instead of fma.
				2
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	3	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=SI-STD -check-prefix=SI-STD-SAFE -check-prefix=FUNC %s
				4	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs -fp-contract=fast < %s \| FileCheck -check-prefix=SI -check-prefix=SI-STD -check-prefix=SI-STD-SAFE -check-prefix=FUNC %s
				5	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs -enable-unsafe-fp-math < %s \| FileCheck -check-prefix=SI -check-prefix=SI-STD -check-prefix=SI-STD-UNSAFE -check-prefix=FUNC %s
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	6
				7	; Make sure we don't form mad with denormals
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	8	; RUN: llc -march=amdgcn -mcpu=tahiti -mattr=+fp32-denormals -fp-contract=fast -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=SI-DENORM -check-prefix=SI-DENORM-FASTFMAF -check-prefix=FUNC %s
				9	; RUN: llc -march=amdgcn -mcpu=verde -mattr=+fp32-denormals -fp-contract=fast -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=SI-DENORM -check-prefix=SI-DENORM-SLOWFMAF -check-prefix=FUNC %s
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	10
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	11	declare i32 @llvm.amdgcn.workitem.id.x() #0
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	12	declare float @llvm.fabs.f32(float) #0
				13	declare float @llvm.fma.f32(float, float, float) #0
				14	declare float @llvm.fmuladd.f32(float, float, float) #0
				15
				16	; (fadd (fmul x, y), z) -> (fma x, y, z)
				17	; FUNC-LABEL: {{^}}combine_to_mad_f32_0:
				18	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				19	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				20	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				21
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	22	; SI-STD: v_mac_f32_e32 [[C]], [[A]], [[B]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	23
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	24	; SI-DENORM-FASTFMAF: v_fma_f32 [[RESULT:v[0-9]+]], [[A]], [[B]], [[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	25
				26	; SI-DENORM-SLOWFMAF-NOT: v_fma
				27	; SI-DENORM-SLOWFMAF-NOT: v_mad
				28
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	29	; SI-DENORM-SLOWFMAF: v_mul_f32_e32 [[TMP:v[0-9]+]], [[A]], [[B]]
				30	; SI-DENORM-SLOWFMAF: v_add_f32_e32 [[RESULT:v[0-9]+]], [[TMP]], [[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	31
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	32	; SI-DENORM: buffer_store_dword [[RESULT]]
				33	; SI-STD: buffer_store_dword [[C]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	34	define amdgpu_kernel void @combine_to_mad_f32_0(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	35	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	36	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				37	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				38	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				39	%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	40
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	41	%a = load volatile float, float addrspace(1)* %gep.0
				42	%b = load volatile float, float addrspace(1)* %gep.1
				43	%c = load volatile float, float addrspace(1)* %gep.2
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	44
				45	%mul = fmul float %a, %b
				46	%fma = fadd float %mul, %c
				47	store float %fma, float addrspace(1)* %gep.out
				48	ret void
				49	}
				50
				51	; (fadd (fmul x, y), z) -> (fma x, y, z)
				52	; FUNC-LABEL: {{^}}combine_to_mad_f32_0_2use:
				53	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				54	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				55	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				56	; SI-DAG: buffer_load_dword [[D:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:12{{$}}
				57
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	58	; SI-STD-DAG: v_mac_f32_e32 [[C]], [[A]], [[B]]
				59	; SI-STD-DAG: v_mac_f32_e32 [[D]], [[A]], [[B]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	60
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	61	; SI-DENORM-FASTFMAF-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], [[A]], [[B]], [[C]]
				62	; SI-DENORM-FASTFMAF-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[A]], [[B]], [[D]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	63
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	64	; SI-DENORM-SLOWFMAF: v_mul_f32_e32 [[TMP:v[0-9]+]], [[A]], [[B]]
				65	; SI-DENORM-SLOWFMAF-DAG: v_add_f32_e32 [[RESULT0:v[0-9]+]], [[TMP]], [[C]]
				66	; SI-DENORM-SLOWFMAF-DAG: v_add_f32_e32 [[RESULT1:v[0-9]+]], [[TMP]], [[D]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	67
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	68	; SI-DENORM-DAG: buffer_store_dword [[RESULT0]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				69	; SI-DENORM-DAG: buffer_store_dword [[RESULT1]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				70	; SI-STD-DAG: buffer_store_dword [[C]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				71	; SI-STD-DAG: buffer_store_dword [[D]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	72	; SI: s_endpgm
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	73	define amdgpu_kernel void @combine_to_mad_f32_0_2use(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	74	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	75	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				76	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				77	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				78	%gep.3 = getelementptr float, float addrspace(1)* %gep.0, i32 3
				79	%gep.out.0 = getelementptr float, float addrspace(1)* %out, i32 %tid
				80	%gep.out.1 = getelementptr float, float addrspace(1)* %gep.out.0, i32 1
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	81
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	82	%a = load volatile float, float addrspace(1)* %gep.0
				83	%b = load volatile float, float addrspace(1)* %gep.1
				84	%c = load volatile float, float addrspace(1)* %gep.2
				85	%d = load volatile float, float addrspace(1)* %gep.3
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	86
				87	%mul = fmul float %a, %b
				88	%fma0 = fadd float %mul, %c
				89	%fma1 = fadd float %mul, %d
				90
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	91	store volatile float %fma0, float addrspace(1)* %gep.out.0
				92	store volatile float %fma1, float addrspace(1)* %gep.out.1
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	93	ret void
				94	}
				95
				96	; (fadd x, (fmul y, z)) -> (fma y, z, x)
				97	; FUNC-LABEL: {{^}}combine_to_mad_f32_1:
				98	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				99	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				100	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				101
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	102	; SI-STD: v_mac_f32_e32 [[C]], [[A]], [[B]]
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	103	; SI-DENORM-FASTFMAF: v_fma_f32 [[RESULT:v[0-9]+]], [[A]], [[B]], [[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	104
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	105	; SI-DENORM-SLOWFMAF: v_mul_f32_e32 [[TMP:v[0-9]+]], [[A]], [[B]]
				106	; SI-DENORM-SLOWFMAF: v_add_f32_e32 [[RESULT:v[0-9]+]], [[C]], [[TMP]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	107
Tom Stellard	db5a11f	2015-07-13 15:47:57 +0000	[diff] [blame]	108	; SI-DENORM: buffer_store_dword [[RESULT]]
				109	; SI-STD: buffer_store_dword [[C]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	110	define amdgpu_kernel void @combine_to_mad_f32_1(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	111	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	112	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				113	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				114	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				115	%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	116
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	117	%a = load volatile float, float addrspace(1)* %gep.0
				118	%b = load volatile float, float addrspace(1)* %gep.1
				119	%c = load volatile float, float addrspace(1)* %gep.2
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	120
				121	%mul = fmul float %a, %b
				122	%fma = fadd float %c, %mul
				123	store float %fma, float addrspace(1)* %gep.out
				124	ret void
				125	}
				126
				127	; (fsub (fmul x, y), z) -> (fma x, y, (fneg z))
				128	; FUNC-LABEL: {{^}}combine_to_mad_fsub_0_f32:
				129	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				130	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				131	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				132
				133	; SI-STD: v_mad_f32 [[RESULT:v[0-9]+]], [[A]], [[B]], -[[C]]
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	134	; SI-DENORM-FASTFMAF: v_fma_f32 [[RESULT:v[0-9]+]], [[A]], [[B]], -[[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	135
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	136	; SI-DENORM-SLOWFMAF: v_mul_f32_e32 [[TMP:v[0-9]+]], [[A]], [[B]]
				137	; SI-DENORM-SLOWFMAF: v_sub_f32_e32 [[RESULT:v[0-9]+]], [[TMP]], [[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	138
				139	; SI: buffer_store_dword [[RESULT]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	140	define amdgpu_kernel void @combine_to_mad_fsub_0_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	141	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	142	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				143	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				144	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				145	%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	146
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	147	%a = load volatile float, float addrspace(1)* %gep.0
				148	%b = load volatile float, float addrspace(1)* %gep.1
				149	%c = load volatile float, float addrspace(1)* %gep.2
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	150
				151	%mul = fmul float %a, %b
				152	%fma = fsub float %mul, %c
				153	store float %fma, float addrspace(1)* %gep.out
				154	ret void
				155	}
				156
				157	; (fsub (fmul x, y), z) -> (fma x, y, (fneg z))
				158	; FUNC-LABEL: {{^}}combine_to_mad_fsub_0_f32_2use:
				159	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				160	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				161	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				162	; SI-DAG: buffer_load_dword [[D:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:12{{$}}
				163
				164	; SI-STD-DAG: v_mad_f32 [[RESULT0:v[0-9]+]], [[A]], [[B]], -[[C]]
				165	; SI-STD-DAG: v_mad_f32 [[RESULT1:v[0-9]+]], [[A]], [[B]], -[[D]]
				166
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	167	; SI-DENORM-FASTFMAF-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], [[A]], [[B]], -[[C]]
				168	; SI-DENORM-FASTFMAF-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[A]], [[B]], -[[D]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	169
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	170	; SI-DENORM-SLOWFMAF: v_mul_f32_e32 [[TMP:v[0-9]+]], [[A]], [[B]]
				171	; SI-DENORM-SLOWFMAF-DAG: v_sub_f32_e32 [[RESULT0:v[0-9]+]], [[TMP]], [[C]]
				172	; SI-DENORM-SLOWFMAF-DAG: v_sub_f32_e32 [[RESULT1:v[0-9]+]], [[TMP]], [[D]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	173
				174	; SI-DAG: buffer_store_dword [[RESULT0]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				175	; SI-DAG: buffer_store_dword [[RESULT1]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				176	; SI: s_endpgm
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	177	define amdgpu_kernel void @combine_to_mad_fsub_0_f32_2use(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	178	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	179	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				180	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				181	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				182	%gep.3 = getelementptr float, float addrspace(1)* %gep.0, i32 3
				183	%gep.out.0 = getelementptr float, float addrspace(1)* %out, i32 %tid
				184	%gep.out.1 = getelementptr float, float addrspace(1)* %gep.out.0, i32 1
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	185
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	186	%a = load volatile float, float addrspace(1)* %gep.0
				187	%b = load volatile float, float addrspace(1)* %gep.1
				188	%c = load volatile float, float addrspace(1)* %gep.2
				189	%d = load volatile float, float addrspace(1)* %gep.3
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	190
				191	%mul = fmul float %a, %b
				192	%fma0 = fsub float %mul, %c
				193	%fma1 = fsub float %mul, %d
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	194	store volatile float %fma0, float addrspace(1)* %gep.out.0
				195	store volatile float %fma1, float addrspace(1)* %gep.out.1
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	196	ret void
				197	}
				198
				199	; (fsub x, (fmul y, z)) -> (fma (fneg y), z, x)
				200	; FUNC-LABEL: {{^}}combine_to_mad_fsub_1_f32:
				201	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				202	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				203	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				204
				205	; SI-STD: v_mad_f32 [[RESULT:v[0-9]+]], -[[A]], [[B]], [[C]]
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	206	; SI-DENORM-FASTFMAF: v_fma_f32 [[RESULT:v[0-9]+]], -[[A]], [[B]], [[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	207
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	208	; SI-DENORM-SLOWFMAF: v_mul_f32_e32 [[TMP:v[0-9]+]], [[A]], [[B]]
				209	; SI-DENORM-SLOWFMAF: v_sub_f32_e32 [[RESULT:v[0-9]+]], [[C]], [[TMP]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	210
				211	; SI: buffer_store_dword [[RESULT]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	212	define amdgpu_kernel void @combine_to_mad_fsub_1_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	213	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	214	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				215	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				216	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				217	%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	218
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	219	%a = load volatile float, float addrspace(1)* %gep.0
				220	%b = load volatile float, float addrspace(1)* %gep.1
				221	%c = load volatile float, float addrspace(1)* %gep.2
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	222
				223	%mul = fmul float %a, %b
				224	%fma = fsub float %c, %mul
				225	store float %fma, float addrspace(1)* %gep.out
				226	ret void
				227	}
				228
				229	; (fsub x, (fmul y, z)) -> (fma (fneg y), z, x)
				230	; FUNC-LABEL: {{^}}combine_to_mad_fsub_1_f32_2use:
				231	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				232	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				233	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				234
				235	; SI-STD-DAG: v_mad_f32 [[RESULT0:v[0-9]+]], -[[A]], [[B]], [[C]]
				236	; SI-STD-DAG: v_mad_f32 [[RESULT1:v[0-9]+]], -[[A]], [[B]], [[D]]
				237
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	238	; SI-DENORM-FASTFMAF-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], -[[A]], [[B]], [[C]]
				239	; SI-DENORM-FASTFMAF-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], -[[A]], [[B]], [[D]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	240
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	241	; SI-DENORM-SLOWFMAF: v_mul_f32_e32 [[TMP:v[0-9]+]], [[A]], [[B]]
				242	; SI-DENORM-SLOWFMAF-DAG: v_sub_f32_e32 [[RESULT0:v[0-9]+]], [[C]], [[TMP]]
				243	; SI-DENORM-SLOWFMAF-DAG: v_sub_f32_e32 [[RESULT1:v[0-9]+]], [[D]], [[TMP]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	244
				245	; SI-DAG: buffer_store_dword [[RESULT0]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				246	; SI-DAG: buffer_store_dword [[RESULT1]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				247	; SI: s_endpgm
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	248	define amdgpu_kernel void @combine_to_mad_fsub_1_f32_2use(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	249	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	250	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				251	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				252	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				253	%gep.3 = getelementptr float, float addrspace(1)* %gep.0, i32 3
				254	%gep.out.0 = getelementptr float, float addrspace(1)* %out, i32 %tid
				255	%gep.out.1 = getelementptr float, float addrspace(1)* %gep.out.0, i32 1
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	256
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	257	%a = load volatile float, float addrspace(1)* %gep.0
				258	%b = load volatile float, float addrspace(1)* %gep.1
				259	%c = load volatile float, float addrspace(1)* %gep.2
				260	%d = load volatile float, float addrspace(1)* %gep.3
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	261
				262	%mul = fmul float %a, %b
				263	%fma0 = fsub float %c, %mul
				264	%fma1 = fsub float %d, %mul
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	265	store volatile float %fma0, float addrspace(1)* %gep.out.0
				266	store volatile float %fma1, float addrspace(1)* %gep.out.1
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	267	ret void
				268	}
				269
				270	; (fsub (fneg (fmul x, y)), z) -> (fma (fneg x), y, (fneg z))
				271	; FUNC-LABEL: {{^}}combine_to_mad_fsub_2_f32:
				272	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				273	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				274	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				275
Matt Arsenault	4103a81	2017-01-12 00:23:20 +0000	[diff] [blame]	276	; SI-STD: v_mad_f32 [[RESULT:v[0-9]+]], [[A]], -[[B]], -[[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	277
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	278	; SI-DENORM-FASTFMAF: v_fma_f32 [[RESULT:v[0-9]+]], -[[A]], [[B]], -[[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	279
Matt Arsenault	4103a81	2017-01-12 00:23:20 +0000	[diff] [blame]	280	; SI-DENORM-SLOWFMAF: v_mul_f32_e64 [[TMP:v[0-9]+]], [[A]], -[[B]]
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	281	; SI-DENORM-SLOWFMAF: v_sub_f32_e32 [[RESULT:v[0-9]+]], [[TMP]], [[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	282
				283	; SI: buffer_store_dword [[RESULT]]
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	284	define amdgpu_kernel void @combine_to_mad_fsub_2_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	285	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	286	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				287	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				288	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				289	%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	290
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	291	%a = load volatile float, float addrspace(1)* %gep.0
				292	%b = load volatile float, float addrspace(1)* %gep.1
				293	%c = load volatile float, float addrspace(1)* %gep.2
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	294
				295	%mul = fmul float %a, %b
				296	%mul.neg = fsub float -0.0, %mul
				297	%fma = fsub float %mul.neg, %c
				298
				299	store float %fma, float addrspace(1)* %gep.out
				300	ret void
				301	}
				302
				303	; (fsub (fneg (fmul x, y)), z) -> (fma (fneg x), y, (fneg z))
				304	; FUNC-LABEL: {{^}}combine_to_mad_fsub_2_f32_2uses_neg:
				305	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				306	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				307	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				308
Matt Arsenault	4103a81	2017-01-12 00:23:20 +0000	[diff] [blame]	309	; SI-STD-DAG: v_mad_f32 [[RESULT0:v[0-9]+]], [[A]], -[[B]], -[[C]]
				310	; SI-STD-DAG: v_mad_f32 [[RESULT1:v[0-9]+]], [[A]], -[[B]], -[[D]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	311
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	312	; SI-DENORM-FASTFMAF-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], -[[A]], [[B]], -[[C]]
				313	; SI-DENORM-FASTFMAF-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], -[[A]], [[B]], -[[D]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	314
Matt Arsenault	4103a81	2017-01-12 00:23:20 +0000	[diff] [blame]	315	; SI-DENORM-SLOWFMAF: v_mul_f32_e64 [[TMP:v[0-9]+]], [[A]], -[[B]]
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	316	; SI-DENORM-SLOWFMAF-DAG: v_sub_f32_e32 [[RESULT0:v[0-9]+]], [[TMP]], [[C]]
				317	; SI-DENORM-SLOWFMAF-DAG: v_sub_f32_e32 [[RESULT1:v[0-9]+]], [[TMP]], [[D]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	318
				319	; SI-DAG: buffer_store_dword [[RESULT0]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				320	; SI-DAG: buffer_store_dword [[RESULT1]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				321	; SI: s_endpgm
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	322	define amdgpu_kernel void @combine_to_mad_fsub_2_f32_2uses_neg(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	323	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	324	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				325	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				326	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				327	%gep.3 = getelementptr float, float addrspace(1)* %gep.0, i32 3
				328	%gep.out.0 = getelementptr float, float addrspace(1)* %out, i32 %tid
				329	%gep.out.1 = getelementptr float, float addrspace(1)* %gep.out.0, i32 1
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	330
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	331	%a = load volatile float, float addrspace(1)* %gep.0
				332	%b = load volatile float, float addrspace(1)* %gep.1
				333	%c = load volatile float, float addrspace(1)* %gep.2
				334	%d = load volatile float, float addrspace(1)* %gep.3
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	335
				336	%mul = fmul float %a, %b
				337	%mul.neg = fsub float -0.0, %mul
				338	%fma0 = fsub float %mul.neg, %c
				339	%fma1 = fsub float %mul.neg, %d
				340
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	341	store volatile float %fma0, float addrspace(1)* %gep.out.0
				342	store volatile float %fma1, float addrspace(1)* %gep.out.1
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	343	ret void
				344	}
				345
				346	; (fsub (fneg (fmul x, y)), z) -> (fma (fneg x), y, (fneg z))
				347	; FUNC-LABEL: {{^}}combine_to_mad_fsub_2_f32_2uses_mul:
				348	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				349	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				350	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				351
				352	; SI-STD-DAG: v_mad_f32 [[RESULT0:v[0-9]+]], -[[A]], [[B]], -[[C]]
				353	; SI-STD-DAG: v_mad_f32 [[RESULT1:v[0-9]+]], [[A]], [[B]], -[[D]]
				354
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	355	; SI-DENORM-FASTFMAF-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], -[[A]], [[B]], -[[C]]
				356	; SI-DENORM-FASTFMAF-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[A]], [[B]], -[[D]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	357
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	358	; SI-DENORM-SLOWFMAF: v_mul_f32_e32 [[TMP:v[0-9]+]], [[A]], [[B]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	359	; SI-DENORM-SLOWFMAF-DAG: v_sub_f32_e64 [[RESULT0:v[0-9]+]], -[[TMP]], [[C]]
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	360	; SI-DENORM-SLOWFMAF-DAG: v_sub_f32_e32 [[RESULT1:v[0-9]+]], [[TMP]], [[D]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	361
				362	; SI-DAG: buffer_store_dword [[RESULT0]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				363	; SI-DAG: buffer_store_dword [[RESULT1]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				364	; SI: s_endpgm
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	365	define amdgpu_kernel void @combine_to_mad_fsub_2_f32_2uses_mul(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	366	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	367	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				368	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				369	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				370	%gep.3 = getelementptr float, float addrspace(1)* %gep.0, i32 3
				371	%gep.out.0 = getelementptr float, float addrspace(1)* %out, i32 %tid
				372	%gep.out.1 = getelementptr float, float addrspace(1)* %gep.out.0, i32 1
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	373
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	374	%a = load volatile float, float addrspace(1)* %gep.0
				375	%b = load volatile float, float addrspace(1)* %gep.1
				376	%c = load volatile float, float addrspace(1)* %gep.2
				377	%d = load volatile float, float addrspace(1)* %gep.3
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	378
				379	%mul = fmul float %a, %b
				380	%mul.neg = fsub float -0.0, %mul
				381	%fma0 = fsub float %mul.neg, %c
				382	%fma1 = fsub float %mul, %d
				383
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	384	store volatile float %fma0, float addrspace(1)* %gep.out.0
				385	store volatile float %fma1, float addrspace(1)* %gep.out.1
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	386	ret void
				387	}
				388
				389	; fold (fsub (fma x, y, (fmul u, v)), z) -> (fma x, y (fma u, v, (fneg z)))
				390
				391	; FUNC-LABEL: {{^}}aggressive_combine_to_mad_fsub_0_f32:
				392	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				393	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				394	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				395	; SI-DAG: buffer_load_dword [[D:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:12{{$}}
				396	; SI-DAG: buffer_load_dword [[E:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:16{{$}}
				397
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	398	; SI-STD: v_mul_f32_e32 [[TMP0:v[0-9]+]], [[D]], [[E]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	399	; SI-STD: v_fma_f32 [[TMP1:v[0-9]+]], [[A]], [[B]], [[TMP0]]
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	400	; SI-STD: v_sub_f32_e32 [[RESULT:v[0-9]+]], [[TMP1]], [[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	401
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	402	; SI-DENORM: v_mul_f32_e32 [[TMP0:v[0-9]+]], [[D]], [[E]]
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	403	; SI-DENORM: v_fma_f32 [[TMP1:v[0-9]+]], [[A]], [[B]], [[TMP0]]
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	404	; SI-DENORM: v_sub_f32_e32 [[RESULT1:v[0-9]+]], [[TMP1]], [[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	405
				406	; SI: buffer_store_dword [[RESULT]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	407	define amdgpu_kernel void @aggressive_combine_to_mad_fsub_0_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	408	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	409	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				410	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				411	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				412	%gep.3 = getelementptr float, float addrspace(1)* %gep.0, i32 3
				413	%gep.4 = getelementptr float, float addrspace(1)* %gep.0, i32 4
				414	%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	415
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	416	%x = load volatile float, float addrspace(1)* %gep.0
				417	%y = load volatile float, float addrspace(1)* %gep.1
				418	%z = load volatile float, float addrspace(1)* %gep.2
				419	%u = load volatile float, float addrspace(1)* %gep.3
				420	%v = load volatile float, float addrspace(1)* %gep.4
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	421
				422	%tmp0 = fmul float %u, %v
				423	%tmp1 = call float @llvm.fma.f32(float %x, float %y, float %tmp0) #0
				424	%tmp2 = fsub float %tmp1, %z
				425
				426	store float %tmp2, float addrspace(1)* %gep.out
				427	ret void
				428	}
				429
				430	; fold (fsub x, (fma y, z, (fmul u, v)))
				431	; -> (fma (fneg y), z, (fma (fneg u), v, x))
				432
				433	; FUNC-LABEL: {{^}}aggressive_combine_to_mad_fsub_1_f32:
				434	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				435	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				436	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				437	; SI-DAG: buffer_load_dword [[D:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:12{{$}}
				438	; SI-DAG: buffer_load_dword [[E:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:16{{$}}
				439
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	440	; SI-STD: v_mul_f32_e32 [[TMP0:v[0-9]+]], [[D]], [[E]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	441	; SI-STD: v_fma_f32 [[TMP1:v[0-9]+]], [[B]], [[C]], [[TMP0]]
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	442	; SI-STD: v_sub_f32_e32 [[RESULT:v[0-9]+]], [[A]], [[TMP1]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	443
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	444	; SI-DENORM: v_mul_f32_e32 [[TMP0:v[0-9]+]], [[D]], [[E]]
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	445	; SI-DENORM: v_fma_f32 [[TMP1:v[0-9]+]], [[B]], [[C]], [[TMP0]]
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	446	; SI-DENORM: v_sub_f32_e32 [[RESULT:v[0-9]+]], [[A]], [[TMP1]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	447
				448	; SI: buffer_store_dword [[RESULT]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				449	; SI: s_endpgm
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	450	define amdgpu_kernel void @aggressive_combine_to_mad_fsub_1_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	451	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	452	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				453	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				454	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				455	%gep.3 = getelementptr float, float addrspace(1)* %gep.0, i32 3
				456	%gep.4 = getelementptr float, float addrspace(1)* %gep.0, i32 4
				457	%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	458
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	459	%x = load volatile float, float addrspace(1)* %gep.0
				460	%y = load volatile float, float addrspace(1)* %gep.1
				461	%z = load volatile float, float addrspace(1)* %gep.2
				462	%u = load volatile float, float addrspace(1)* %gep.3
				463	%v = load volatile float, float addrspace(1)* %gep.4
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	464
				465	%tmp0 = fmul float %u, %v
				466	%tmp1 = call float @llvm.fma.f32(float %y, float %z, float %tmp0) #0
				467	%tmp2 = fsub float %x, %tmp1
				468
				469	store float %tmp2, float addrspace(1)* %gep.out
				470	ret void
				471	}
				472
				473	; fold (fsub (fma x, y, (fmul u, v)), z) -> (fma x, y (fma u, v, (fneg z)))
				474
				475	; FUNC-LABEL: {{^}}aggressive_combine_to_mad_fsub_2_f32:
				476	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				477	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				478	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				479	; SI-DAG: buffer_load_dword [[D:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:12{{$}}
				480	; SI-DAG: buffer_load_dword [[E:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:16{{$}}
				481
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	482	; SI-STD-SAFE: v_mul_f32_e32 [[TMP0:v[0-9]+]], [[D]], [[E]]
				483	; SI-STD-SAFE: v_mac_f32_e32 [[TMP0]], [[A]], [[B]]
				484	; SI-STD-SAFE: v_sub_f32_e32 [[RESULT:v[0-9]+]], [[TMP0]], [[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	485
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	486	; SI-STD-UNSAFE: v_mad_f32 [[RESULT:v[0-9]+]], [[D]], [[E]], -[[C]]
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	487	; SI-STD-UNSAFE: v_mac_f32_e32 [[RESULT]], [[A]], [[B]]
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	488
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	489	; SI-DENORM-FASTFMAF: v_mul_f32_e32 [[TMP0:v[0-9]+]], [[D]], [[E]]
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	490	; SI-DENORM-FASTFMAF: v_fma_f32 [[TMP1:v[0-9]+]], [[A]], [[B]], [[TMP0]]
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	491	; SI-DENORM-FASTFMAF: v_sub_f32_e32 [[RESULT:v[0-9]+]], [[TMP1]], [[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	492
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	493	; SI-DENORM-SLOWFMAF-DAG: v_mul_f32_e32 [[TMP0:v[0-9]+]], [[D]], [[E]]
				494	; SI-DENORM-SLOWFMAF-DAG: v_mul_f32_e32 [[TMP1:v[0-9]+]], [[A]], [[B]]
				495	; SI-DENORM-SLOWFMAF: v_add_f32_e32 [[TMP2:v[0-9]+]], [[TMP1]], [[TMP0]]
				496	; SI-DENORM-SLOWFMAF: v_sub_f32_e32 [[RESULT:v[0-9]+]], [[TMP2]], [[C]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	497
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	498	; SI: buffer_store_dword [[RESULT]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	499	; SI: s_endpgm
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	500	define amdgpu_kernel void @aggressive_combine_to_mad_fsub_2_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	501	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	502	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				503	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				504	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				505	%gep.3 = getelementptr float, float addrspace(1)* %gep.0, i32 3
				506	%gep.4 = getelementptr float, float addrspace(1)* %gep.0, i32 4
				507	%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	508
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	509	%x = load volatile float, float addrspace(1)* %gep.0
				510	%y = load volatile float, float addrspace(1)* %gep.1
				511	%z = load volatile float, float addrspace(1)* %gep.2
				512	%u = load volatile float, float addrspace(1)* %gep.3
				513	%v = load volatile float, float addrspace(1)* %gep.4
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	514
				515	%tmp0 = fmul float %u, %v
				516	%tmp1 = call float @llvm.fmuladd.f32(float %x, float %y, float %tmp0) #0
				517	%tmp2 = fsub float %tmp1, %z
				518
				519	store float %tmp2, float addrspace(1)* %gep.out
				520	ret void
				521	}
				522
				523	; fold (fsub x, (fmuladd y, z, (fmul u, v)))
				524	; -> (fmuladd (fneg y), z, (fmuladd (fneg u), v, x))
				525
				526	; FUNC-LABEL: {{^}}aggressive_combine_to_mad_fsub_3_f32:
				527	; SI-DAG: buffer_load_dword [[A:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				528	; SI-DAG: buffer_load_dword [[B:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
				529	; SI-DAG: buffer_load_dword [[C:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				530	; SI-DAG: buffer_load_dword [[D:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:12{{$}}
				531	; SI-DAG: buffer_load_dword [[E:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:16{{$}}
				532
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	533	; SI-STD-SAFE: v_mul_f32_e32 [[TMP0:v[0-9]+]], [[D]], [[E]]
				534	; SI-STD-SAFE: v_mac_f32_e32 [[TMP0]], [[B]], [[C]]
				535	; SI-STD-SAFE: v_sub_f32_e32 [[RESULT:v[0-9]+]], [[A]], [[TMP0]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	536
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	537	; SI-STD-UNSAFE: v_mad_f32 [[TMP:v[0-9]+]], -[[D]], [[E]], [[A]]
				538	; SI-STD-UNSAFE: v_mad_f32 [[RESULT:v[0-9]+]], -[[B]], [[C]], [[TMP]]
				539
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	540	; SI-DENORM-FASTFMAF: v_mul_f32_e32 [[TMP0:v[0-9]+]], [[D]], [[E]]
Nicolai Haehnle	8813d5d	2017-01-31 14:35:37 +0000	[diff] [blame]	541	; SI-DENORM-FASTFMAF: v_fma_f32 [[TMP1:v[0-9]+]], [[B]], [[C]], [[TMP0]]
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	542	; SI-DENORM-FASTFMAF: v_sub_f32_e32 [[RESULT:v[0-9]+]], [[A]], [[TMP1]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	543
Matt Arsenault	6c29c5a	2017-07-10 19:53:57 +0000	[diff] [blame^]	544	; SI-DENORM-SLOWFMAF-DAG: v_mul_f32_e32 [[TMP0:v[0-9]+]], [[D]], [[E]]
				545	; SI-DENORM-SLOWFMAF-DAG: v_mul_f32_e32 [[TMP1:v[0-9]+]], [[B]], [[C]]
				546	; SI-DENORM-SLOWFMAF: v_add_f32_e32 [[TMP2:v[0-9]+]], [[TMP1]], [[TMP0]]
				547	; SI-DENORM-SLOWFMAF: v_sub_f32_e32 [[RESULT:v[0-9]+]], [[A]], [[TMP2]]
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	548
				549	; SI: buffer_store_dword [[RESULT]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
				550	; SI: s_endpgm
Matt Arsenault	3dbeefa	2017-03-21 21:39:51 +0000	[diff] [blame]	551	define amdgpu_kernel void @aggressive_combine_to_mad_fsub_3_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) #1 {
Matt Arsenault	9c47dd5	2016-02-11 06:02:01 +0000	[diff] [blame]	552	%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #0
David Blaikie	79e6c74	2015-02-27 19:29:02 +0000	[diff] [blame]	553	%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
				554	%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
				555	%gep.2 = getelementptr float, float addrspace(1)* %gep.0, i32 2
				556	%gep.3 = getelementptr float, float addrspace(1)* %gep.0, i32 3
				557	%gep.4 = getelementptr float, float addrspace(1)* %gep.0, i32 4
				558	%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	559
Matt Arsenault	44e5483	2016-04-12 13:38:18 +0000	[diff] [blame]	560	%x = load volatile float, float addrspace(1)* %gep.0
				561	%y = load volatile float, float addrspace(1)* %gep.1
				562	%z = load volatile float, float addrspace(1)* %gep.2
				563	%u = load volatile float, float addrspace(1)* %gep.3
				564	%v = load volatile float, float addrspace(1)* %gep.4
Matt Arsenault	8d63003	2015-02-20 22:10:41 +0000	[diff] [blame]	565
				566	%tmp0 = fmul float %u, %v
				567	%tmp1 = call float @llvm.fmuladd.f32(float %y, float %z, float %tmp0) #0
				568	%tmp2 = fsub float %x, %tmp1
				569
				570	store float %tmp2, float addrspace(1)* %gep.out
				571	ret void
				572	}
				573
				574	attributes #0 = { nounwind readnone }
				575	attributes #1 = { nounwind }