Blame - llvm/test/CodeGen/Thumb2/mve-vecreduce-loops.ll - toolchain/llvm-project

blob: 539f760642c26b8e7189d38f2447dd9d73f9dfc7 [file] [log] [blame]

David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -tail-predication=enabled -verify-machineinstrs %s -o - \| FileCheck %s
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	3
				4	define i32 @add_i32(i32* nocapture readonly %x, i32 %n) {
				5	; CHECK-LABEL: add_i32:
				6	; CHECK: @ %bb.0: @ %entry
				7	; CHECK-NEXT: .save {r7, lr}
				8	; CHECK-NEXT: push {r7, lr}
				9	; CHECK-NEXT: cmp r1, #1
				10	; CHECK-NEXT: blt .LBB0_3
				11	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				12	; CHECK-NEXT: mov r12, r0
				13	; CHECK-NEXT: cmp r1, #4
				14	; CHECK-NEXT: bhs .LBB0_4
				15	; CHECK-NEXT: @ %bb.2:
				16	; CHECK-NEXT: movs r3, #0
				17	; CHECK-NEXT: movs r0, #0
				18	; CHECK-NEXT: b .LBB0_7
				19	; CHECK-NEXT: .LBB0_3:
				20	; CHECK-NEXT: movs r0, #0
				21	; CHECK-NEXT: b .LBB0_9
				22	; CHECK-NEXT: .LBB0_4: @ %vector.ph
				23	; CHECK-NEXT: bic r3, r1, #3
				24	; CHECK-NEXT: movs r2, #1
				25	; CHECK-NEXT: subs r0, r3, #4
				26	; CHECK-NEXT: add.w lr, r2, r0, lsr #2
				27	; CHECK-NEXT: movs r0, #0
				28	; CHECK-NEXT: mov r2, r12
				29	; CHECK-NEXT: dls lr, lr
				30	; CHECK-NEXT: .LBB0_5: @ %vector.body
				31	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				32	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				33	; CHECK-NEXT: vaddva.u32 r0, q0
				34	; CHECK-NEXT: le lr, .LBB0_5
				35	; CHECK-NEXT: @ %bb.6: @ %middle.block
				36	; CHECK-NEXT: cmp r3, r1
				37	; CHECK-NEXT: it eq
				38	; CHECK-NEXT: popeq {r7, pc}
				39	; CHECK-NEXT: .LBB0_7: @ %for.body.preheader1
				40	; CHECK-NEXT: sub.w lr, r1, r3
				41	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				42	; CHECK-NEXT: dls lr, lr
				43	; CHECK-NEXT: .LBB0_8: @ %for.body
				44	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				45	; CHECK-NEXT: ldr r2, [r1], #4
				46	; CHECK-NEXT: add r0, r2
				47	; CHECK-NEXT: le lr, .LBB0_8
				48	; CHECK-NEXT: .LBB0_9: @ %for.cond.cleanup
				49	; CHECK-NEXT: pop {r7, pc}
				50	entry:
				51	%cmp6 = icmp sgt i32 %n, 0
				52	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				53
				54	for.body.preheader: ; preds = %entry
				55	%min.iters.check = icmp ult i32 %n, 4
				56	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				57
				58	vector.ph: ; preds = %for.body.preheader
				59	%n.vec = and i32 %n, -4
				60	br label %vector.body
				61
				62	vector.body: ; preds = %vector.body, %vector.ph
				63	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				64	%vec.phi = phi i32 [ 0, %vector.ph ], [ %3, %vector.body ]
				65	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				66	%1 = bitcast i32* %0 to <4 x i32>*
				67	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				68	%2 = call i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32> %wide.load)
				69	%3 = add i32 %2, %vec.phi
				70	%index.next = add i32 %index, 4
				71	%4 = icmp eq i32 %index.next, %n.vec
				72	br i1 %4, label %middle.block, label %vector.body
				73
				74	middle.block: ; preds = %vector.body
				75	%cmp.n = icmp eq i32 %n.vec, %n
				76	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				77
				78	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				79	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				80	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %3, %middle.block ]
				81	br label %for.body
				82
				83	for.body: ; preds = %for.body.preheader1, %for.body
				84	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				85	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				86	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				87	%5 = load i32, i32* %arrayidx, align 4
				88	%add = add nsw i32 %5, %r.07
				89	%inc = add nuw nsw i32 %i.08, 1
				90	%exitcond = icmp eq i32 %inc, %n
				91	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				92
				93	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				94	%r.0.lcssa = phi i32 [ 0, %entry ], [ %3, %middle.block ], [ %add, %for.body ]
				95	ret i32 %r.0.lcssa
				96	}
				97
				98	define i32 @mul_i32(i32* nocapture readonly %x, i32 %n) {
				99	; CHECK-LABEL: mul_i32:
				100	; CHECK: @ %bb.0: @ %entry
				101	; CHECK-NEXT: .save {r7, lr}
				102	; CHECK-NEXT: push {r7, lr}
				103	; CHECK-NEXT: movs r2, #1
				104	; CHECK-NEXT: cmp r1, #1
				105	; CHECK-NEXT: blt .LBB1_8
				106	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				107	; CHECK-NEXT: cmp r1, #4
				108	; CHECK-NEXT: bhs .LBB1_3
				109	; CHECK-NEXT: @ %bb.2:
				110	; CHECK-NEXT: mov.w r12, #0
				111	; CHECK-NEXT: b .LBB1_6
				112	; CHECK-NEXT: .LBB1_3: @ %vector.ph
				113	; CHECK-NEXT: bic r12, r1, #3
				114	; CHECK-NEXT: vmov.i32 q0, #0x1
				115	; CHECK-NEXT: sub.w r3, r12, #4
				116	; CHECK-NEXT: add.w lr, r2, r3, lsr #2
				117	; CHECK-NEXT: mov r2, r0
				118	; CHECK-NEXT: dls lr, lr
				119	; CHECK-NEXT: .LBB1_4: @ %vector.body
				120	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				121	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				122	; CHECK-NEXT: vmul.i32 q0, q1, q0
				123	; CHECK-NEXT: le lr, .LBB1_4
				124	; CHECK-NEXT: @ %bb.5: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	125	; CHECK-NEXT: vmov r2, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	126	; CHECK-NEXT: cmp r12, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	127	; CHECK-NEXT: vmov r3, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	128	; CHECK-NEXT: mul lr, r3, r2
				129	; CHECK-NEXT: vmov r3, s1
				130	; CHECK-NEXT: vmov r2, s0
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	131	; CHECK-NEXT: mul r2, r3, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	132	; CHECK-NEXT: mul r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	133	; CHECK-NEXT: beq .LBB1_8
				134	; CHECK-NEXT: .LBB1_6: @ %for.body.preheader1
				135	; CHECK-NEXT: sub.w lr, r1, r12
				136	; CHECK-NEXT: add.w r0, r0, r12, lsl #2
				137	; CHECK-NEXT: dls lr, lr
				138	; CHECK-NEXT: .LBB1_7: @ %for.body
				139	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				140	; CHECK-NEXT: ldr r1, [r0], #4
				141	; CHECK-NEXT: muls r2, r1, r2
				142	; CHECK-NEXT: le lr, .LBB1_7
				143	; CHECK-NEXT: .LBB1_8: @ %for.cond.cleanup
				144	; CHECK-NEXT: mov r0, r2
				145	; CHECK-NEXT: pop {r7, pc}
				146	entry:
				147	%cmp6 = icmp sgt i32 %n, 0
				148	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				149
				150	for.body.preheader: ; preds = %entry
				151	%min.iters.check = icmp ult i32 %n, 4
				152	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				153
				154	vector.ph: ; preds = %for.body.preheader
				155	%n.vec = and i32 %n, -4
				156	br label %vector.body
				157
				158	vector.body: ; preds = %vector.body, %vector.ph
				159	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				160	%vec.phi = phi <4 x i32> [ <i32 1, i32 1, i32 1, i32 1>, %vector.ph ], [ %2, %vector.body ]
				161	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				162	%1 = bitcast i32* %0 to <4 x i32>*
				163	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				164	%2 = mul <4 x i32> %wide.load, %vec.phi
				165	%index.next = add i32 %index, 4
				166	%3 = icmp eq i32 %index.next, %n.vec
				167	br i1 %3, label %middle.block, label %vector.body
				168
				169	middle.block: ; preds = %vector.body
				170	%4 = call i32 @llvm.experimental.vector.reduce.mul.v4i32(<4 x i32> %2)
				171	%cmp.n = icmp eq i32 %n.vec, %n
				172	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				173
				174	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				175	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				176	%r.07.ph = phi i32 [ 1, %for.body.preheader ], [ %4, %middle.block ]
				177	br label %for.body
				178
				179	for.body: ; preds = %for.body.preheader1, %for.body
				180	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				181	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				182	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				183	%5 = load i32, i32* %arrayidx, align 4
				184	%add = mul nsw i32 %5, %r.07
				185	%inc = add nuw nsw i32 %i.08, 1
				186	%exitcond = icmp eq i32 %inc, %n
				187	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				188
				189	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				190	%r.0.lcssa = phi i32 [ 1, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				191	ret i32 %r.0.lcssa
				192	}
				193
				194	define i32 @and_i32(i32* nocapture readonly %x, i32 %n) {
				195	; CHECK-LABEL: and_i32:
				196	; CHECK: @ %bb.0: @ %entry
				197	; CHECK-NEXT: .save {r7, lr}
				198	; CHECK-NEXT: push {r7, lr}
				199	; CHECK-NEXT: cmp r1, #1
				200	; CHECK-NEXT: blt .LBB2_3
				201	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				202	; CHECK-NEXT: cmp r1, #4
				203	; CHECK-NEXT: bhs .LBB2_4
				204	; CHECK-NEXT: @ %bb.2:
				205	; CHECK-NEXT: mov.w r2, #-1
				206	; CHECK-NEXT: movs r3, #0
				207	; CHECK-NEXT: b .LBB2_7
				208	; CHECK-NEXT: .LBB2_3:
				209	; CHECK-NEXT: mov.w r2, #-1
				210	; CHECK-NEXT: b .LBB2_9
				211	; CHECK-NEXT: .LBB2_4: @ %vector.ph
				212	; CHECK-NEXT: bic r3, r1, #3
				213	; CHECK-NEXT: movs r2, #1
				214	; CHECK-NEXT: sub.w r12, r3, #4
				215	; CHECK-NEXT: vmov.i8 q0, #0xff
				216	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				217	; CHECK-NEXT: mov r2, r0
				218	; CHECK-NEXT: dls lr, lr
				219	; CHECK-NEXT: .LBB2_5: @ %vector.body
				220	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				221	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				222	; CHECK-NEXT: vand q0, q1, q0
				223	; CHECK-NEXT: le lr, .LBB2_5
				224	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	225	; CHECK-NEXT: vmov r12, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	226	; CHECK-NEXT: cmp r3, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	227	; CHECK-NEXT: vmov r2, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	228	; CHECK-NEXT: vmov lr, s1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	229	; CHECK-NEXT: and.w r12, r12, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	230	; CHECK-NEXT: vmov r2, s0
				231	; CHECK-NEXT: and.w r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	232	; CHECK-NEXT: and.w r2, r2, r12
				233	; CHECK-NEXT: beq .LBB2_9
				234	; CHECK-NEXT: .LBB2_7: @ %for.body.preheader1
				235	; CHECK-NEXT: sub.w lr, r1, r3
				236	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				237	; CHECK-NEXT: dls lr, lr
				238	; CHECK-NEXT: .LBB2_8: @ %for.body
				239	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				240	; CHECK-NEXT: ldr r1, [r0], #4
				241	; CHECK-NEXT: ands r2, r1
				242	; CHECK-NEXT: le lr, .LBB2_8
				243	; CHECK-NEXT: .LBB2_9: @ %for.cond.cleanup
				244	; CHECK-NEXT: mov r0, r2
				245	; CHECK-NEXT: pop {r7, pc}
				246	entry:
				247	%cmp6 = icmp sgt i32 %n, 0
				248	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				249
				250	for.body.preheader: ; preds = %entry
				251	%min.iters.check = icmp ult i32 %n, 4
				252	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				253
				254	vector.ph: ; preds = %for.body.preheader
				255	%n.vec = and i32 %n, -4
				256	br label %vector.body
				257
				258	vector.body: ; preds = %vector.body, %vector.ph
				259	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				260	%vec.phi = phi <4 x i32> [ <i32 -1, i32 -1, i32 -1, i32 -1>, %vector.ph ], [ %2, %vector.body ]
				261	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				262	%1 = bitcast i32* %0 to <4 x i32>*
				263	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				264	%2 = and <4 x i32> %wide.load, %vec.phi
				265	%index.next = add i32 %index, 4
				266	%3 = icmp eq i32 %index.next, %n.vec
				267	br i1 %3, label %middle.block, label %vector.body
				268
				269	middle.block: ; preds = %vector.body
				270	%4 = call i32 @llvm.experimental.vector.reduce.and.v4i32(<4 x i32> %2)
				271	%cmp.n = icmp eq i32 %n.vec, %n
				272	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				273
				274	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				275	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				276	%r.07.ph = phi i32 [ -1, %for.body.preheader ], [ %4, %middle.block ]
				277	br label %for.body
				278
				279	for.body: ; preds = %for.body.preheader1, %for.body
				280	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				281	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				282	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				283	%5 = load i32, i32* %arrayidx, align 4
				284	%add = and i32 %5, %r.07
				285	%inc = add nuw nsw i32 %i.08, 1
				286	%exitcond = icmp eq i32 %inc, %n
				287	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				288
				289	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				290	%r.0.lcssa = phi i32 [ -1, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				291	ret i32 %r.0.lcssa
				292	}
				293
				294	define i32 @or_i32(i32* nocapture readonly %x, i32 %n) {
				295	; CHECK-LABEL: or_i32:
				296	; CHECK: @ %bb.0: @ %entry
				297	; CHECK-NEXT: .save {r7, lr}
				298	; CHECK-NEXT: push {r7, lr}
				299	; CHECK-NEXT: cmp r1, #1
				300	; CHECK-NEXT: blt .LBB3_3
				301	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				302	; CHECK-NEXT: cmp r1, #4
				303	; CHECK-NEXT: bhs .LBB3_4
				304	; CHECK-NEXT: @ %bb.2:
				305	; CHECK-NEXT: movs r3, #0
				306	; CHECK-NEXT: movs r2, #0
				307	; CHECK-NEXT: b .LBB3_7
				308	; CHECK-NEXT: .LBB3_3:
				309	; CHECK-NEXT: movs r2, #0
				310	; CHECK-NEXT: b .LBB3_9
				311	; CHECK-NEXT: .LBB3_4: @ %vector.ph
				312	; CHECK-NEXT: bic r3, r1, #3
				313	; CHECK-NEXT: movs r2, #1
				314	; CHECK-NEXT: sub.w r12, r3, #4
				315	; CHECK-NEXT: vmov.i32 q0, #0x0
				316	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				317	; CHECK-NEXT: mov r2, r0
				318	; CHECK-NEXT: dls lr, lr
				319	; CHECK-NEXT: .LBB3_5: @ %vector.body
				320	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				321	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				322	; CHECK-NEXT: vorr q0, q1, q0
				323	; CHECK-NEXT: le lr, .LBB3_5
				324	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	325	; CHECK-NEXT: vmov r12, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	326	; CHECK-NEXT: cmp r3, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	327	; CHECK-NEXT: vmov r2, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	328	; CHECK-NEXT: vmov lr, s1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	329	; CHECK-NEXT: orr.w r12, r12, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	330	; CHECK-NEXT: vmov r2, s0
				331	; CHECK-NEXT: orr.w r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	332	; CHECK-NEXT: orr.w r2, r2, r12
				333	; CHECK-NEXT: beq .LBB3_9
				334	; CHECK-NEXT: .LBB3_7: @ %for.body.preheader1
				335	; CHECK-NEXT: sub.w lr, r1, r3
				336	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				337	; CHECK-NEXT: dls lr, lr
				338	; CHECK-NEXT: .LBB3_8: @ %for.body
				339	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				340	; CHECK-NEXT: ldr r1, [r0], #4
				341	; CHECK-NEXT: orrs r2, r1
				342	; CHECK-NEXT: le lr, .LBB3_8
				343	; CHECK-NEXT: .LBB3_9: @ %for.cond.cleanup
				344	; CHECK-NEXT: mov r0, r2
				345	; CHECK-NEXT: pop {r7, pc}
				346	entry:
				347	%cmp6 = icmp sgt i32 %n, 0
				348	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				349
				350	for.body.preheader: ; preds = %entry
				351	%min.iters.check = icmp ult i32 %n, 4
				352	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				353
				354	vector.ph: ; preds = %for.body.preheader
				355	%n.vec = and i32 %n, -4
				356	br label %vector.body
				357
				358	vector.body: ; preds = %vector.body, %vector.ph
				359	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				360	%vec.phi = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %2, %vector.body ]
				361	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				362	%1 = bitcast i32* %0 to <4 x i32>*
				363	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				364	%2 = or <4 x i32> %wide.load, %vec.phi
				365	%index.next = add i32 %index, 4
				366	%3 = icmp eq i32 %index.next, %n.vec
				367	br i1 %3, label %middle.block, label %vector.body
				368
				369	middle.block: ; preds = %vector.body
				370	%4 = call i32 @llvm.experimental.vector.reduce.or.v4i32(<4 x i32> %2)
				371	%cmp.n = icmp eq i32 %n.vec, %n
				372	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				373
				374	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				375	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				376	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %4, %middle.block ]
				377	br label %for.body
				378
				379	for.body: ; preds = %for.body.preheader1, %for.body
				380	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				381	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				382	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				383	%5 = load i32, i32* %arrayidx, align 4
				384	%add = or i32 %5, %r.07
				385	%inc = add nuw nsw i32 %i.08, 1
				386	%exitcond = icmp eq i32 %inc, %n
				387	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				388
				389	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				390	%r.0.lcssa = phi i32 [ 0, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				391	ret i32 %r.0.lcssa
				392	}
				393
				394	define i32 @xor_i32(i32* nocapture readonly %x, i32 %n) {
				395	; CHECK-LABEL: xor_i32:
				396	; CHECK: @ %bb.0: @ %entry
				397	; CHECK-NEXT: .save {r7, lr}
				398	; CHECK-NEXT: push {r7, lr}
				399	; CHECK-NEXT: cmp r1, #1
				400	; CHECK-NEXT: blt .LBB4_3
				401	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				402	; CHECK-NEXT: cmp r1, #4
				403	; CHECK-NEXT: bhs .LBB4_4
				404	; CHECK-NEXT: @ %bb.2:
				405	; CHECK-NEXT: movs r3, #0
				406	; CHECK-NEXT: movs r2, #0
				407	; CHECK-NEXT: b .LBB4_7
				408	; CHECK-NEXT: .LBB4_3:
				409	; CHECK-NEXT: movs r2, #0
				410	; CHECK-NEXT: b .LBB4_9
				411	; CHECK-NEXT: .LBB4_4: @ %vector.ph
				412	; CHECK-NEXT: bic r3, r1, #3
				413	; CHECK-NEXT: movs r2, #1
				414	; CHECK-NEXT: sub.w r12, r3, #4
				415	; CHECK-NEXT: vmov.i32 q0, #0x0
				416	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				417	; CHECK-NEXT: mov r2, r0
				418	; CHECK-NEXT: dls lr, lr
				419	; CHECK-NEXT: .LBB4_5: @ %vector.body
				420	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				421	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				422	; CHECK-NEXT: veor q0, q1, q0
				423	; CHECK-NEXT: le lr, .LBB4_5
				424	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	425	; CHECK-NEXT: vmov r12, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	426	; CHECK-NEXT: cmp r3, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	427	; CHECK-NEXT: vmov r2, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	428	; CHECK-NEXT: vmov lr, s1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	429	; CHECK-NEXT: eor.w r12, r12, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	430	; CHECK-NEXT: vmov r2, s0
				431	; CHECK-NEXT: eor.w r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	432	; CHECK-NEXT: eor.w r2, r2, r12
				433	; CHECK-NEXT: beq .LBB4_9
				434	; CHECK-NEXT: .LBB4_7: @ %for.body.preheader1
				435	; CHECK-NEXT: sub.w lr, r1, r3
				436	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				437	; CHECK-NEXT: dls lr, lr
				438	; CHECK-NEXT: .LBB4_8: @ %for.body
				439	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				440	; CHECK-NEXT: ldr r1, [r0], #4
				441	; CHECK-NEXT: eors r2, r1
				442	; CHECK-NEXT: le lr, .LBB4_8
				443	; CHECK-NEXT: .LBB4_9: @ %for.cond.cleanup
				444	; CHECK-NEXT: mov r0, r2
				445	; CHECK-NEXT: pop {r7, pc}
				446	entry:
				447	%cmp6 = icmp sgt i32 %n, 0
				448	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				449
				450	for.body.preheader: ; preds = %entry
				451	%min.iters.check = icmp ult i32 %n, 4
				452	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				453
				454	vector.ph: ; preds = %for.body.preheader
				455	%n.vec = and i32 %n, -4
				456	br label %vector.body
				457
				458	vector.body: ; preds = %vector.body, %vector.ph
				459	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				460	%vec.phi = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %2, %vector.body ]
				461	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				462	%1 = bitcast i32* %0 to <4 x i32>*
				463	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				464	%2 = xor <4 x i32> %wide.load, %vec.phi
				465	%index.next = add i32 %index, 4
				466	%3 = icmp eq i32 %index.next, %n.vec
				467	br i1 %3, label %middle.block, label %vector.body
				468
				469	middle.block: ; preds = %vector.body
				470	%4 = call i32 @llvm.experimental.vector.reduce.xor.v4i32(<4 x i32> %2)
				471	%cmp.n = icmp eq i32 %n.vec, %n
				472	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				473
				474	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				475	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				476	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %4, %middle.block ]
				477	br label %for.body
				478
				479	for.body: ; preds = %for.body.preheader1, %for.body
				480	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				481	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				482	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				483	%5 = load i32, i32* %arrayidx, align 4
				484	%add = xor i32 %5, %r.07
				485	%inc = add nuw nsw i32 %i.08, 1
				486	%exitcond = icmp eq i32 %inc, %n
				487	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				488
				489	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				490	%r.0.lcssa = phi i32 [ 0, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				491	ret i32 %r.0.lcssa
				492	}
				493
				494	define float @fadd_f32(float* nocapture readonly %x, i32 %n) {
				495	; CHECK-LABEL: fadd_f32:
				496	; CHECK: @ %bb.0: @ %entry
				497	; CHECK-NEXT: .save {r7, lr}
				498	; CHECK-NEXT: push {r7, lr}
				499	; CHECK-NEXT: cmp r1, #1
				500	; CHECK-NEXT: blt .LBB5_3
				501	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				502	; CHECK-NEXT: cmp r1, #4
				503	; CHECK-NEXT: bhs .LBB5_4
				504	; CHECK-NEXT: @ %bb.2:
				505	; CHECK-NEXT: vldr s0, .LCPI5_0
				506	; CHECK-NEXT: movs r2, #0
				507	; CHECK-NEXT: b .LBB5_7
				508	; CHECK-NEXT: .LBB5_3:
				509	; CHECK-NEXT: vldr s0, .LCPI5_0
				510	; CHECK-NEXT: b .LBB5_9
				511	; CHECK-NEXT: .LBB5_4: @ %vector.ph
				512	; CHECK-NEXT: bic r2, r1, #3
				513	; CHECK-NEXT: movs r3, #1
				514	; CHECK-NEXT: sub.w r12, r2, #4
				515	; CHECK-NEXT: vmov.i32 q0, #0x0
				516	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				517	; CHECK-NEXT: mov r3, r0
				518	; CHECK-NEXT: dls lr, lr
				519	; CHECK-NEXT: .LBB5_5: @ %vector.body
				520	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				521	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				522	; CHECK-NEXT: vadd.f32 q0, q1, q0
				523	; CHECK-NEXT: le lr, .LBB5_5
				524	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	525	; CHECK-NEXT: vadd.f32 s4, s2, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	526	; CHECK-NEXT: cmp r2, r1
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	527	; CHECK-NEXT: vadd.f32 s0, s0, s1
				528	; CHECK-NEXT: vadd.f32 s0, s0, s4
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	529	; CHECK-NEXT: beq .LBB5_9
				530	; CHECK-NEXT: .LBB5_7: @ %for.body.preheader1
				531	; CHECK-NEXT: sub.w lr, r1, r2
				532	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				533	; CHECK-NEXT: dls lr, lr
				534	; CHECK-NEXT: .LBB5_8: @ %for.body
				535	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				536	; CHECK-NEXT: vldr s2, [r0]
				537	; CHECK-NEXT: adds r0, #4
				538	; CHECK-NEXT: vadd.f32 s0, s2, s0
				539	; CHECK-NEXT: le lr, .LBB5_8
				540	; CHECK-NEXT: .LBB5_9: @ %for.cond.cleanup
				541	; CHECK-NEXT: vmov r0, s0
				542	; CHECK-NEXT: pop {r7, pc}
				543	; CHECK-NEXT: .p2align 2
				544	; CHECK-NEXT: @ %bb.10:
				545	; CHECK-NEXT: .LCPI5_0:
				546	; CHECK-NEXT: .long 0x00000000 @ float 0
				547	entry:
				548	%cmp6 = icmp sgt i32 %n, 0
				549	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				550
				551	for.body.preheader: ; preds = %entry
				552	%min.iters.check = icmp ult i32 %n, 4
				553	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				554
				555	vector.ph: ; preds = %for.body.preheader
				556	%n.vec = and i32 %n, -4
				557	br label %vector.body
				558
				559	vector.body: ; preds = %vector.body, %vector.ph
				560	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				561	%vec.phi = phi <4 x float> [ zeroinitializer, %vector.ph ], [ %2, %vector.body ]
				562	%0 = getelementptr inbounds float, float* %x, i32 %index
				563	%1 = bitcast float* %0 to <4 x float>*
				564	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				565	%2 = fadd fast <4 x float> %wide.load, %vec.phi
				566	%index.next = add i32 %index, 4
				567	%3 = icmp eq i32 %index.next, %n.vec
				568	br i1 %3, label %middle.block, label %vector.body
				569
				570	middle.block: ; preds = %vector.body
				571	%4 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.000000e+00, <4 x float> %2)
				572	%cmp.n = icmp eq i32 %n.vec, %n
				573	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				574
				575	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				576	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				577	%r.07.ph = phi float [ 0.000000e+00, %for.body.preheader ], [ %4, %middle.block ]
				578	br label %for.body
				579
				580	for.body: ; preds = %for.body.preheader1, %for.body
				581	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				582	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				583	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				584	%5 = load float, float* %arrayidx, align 4
				585	%add = fadd fast float %5, %r.07
				586	%inc = add nuw nsw i32 %i.08, 1
				587	%exitcond = icmp eq i32 %inc, %n
				588	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				589
				590	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				591	%r.0.lcssa = phi float [ 0.000000e+00, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				592	ret float %r.0.lcssa
				593	}
				594
				595	define float @fmul_f32(float* nocapture readonly %x, i32 %n) {
				596	; CHECK-LABEL: fmul_f32:
				597	; CHECK: @ %bb.0: @ %entry
				598	; CHECK-NEXT: .save {r7, lr}
				599	; CHECK-NEXT: push {r7, lr}
				600	; CHECK-NEXT: cmp r1, #1
				601	; CHECK-NEXT: blt .LBB6_3
				602	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				603	; CHECK-NEXT: cmp r1, #4
				604	; CHECK-NEXT: bhs .LBB6_4
				605	; CHECK-NEXT: @ %bb.2:
				606	; CHECK-NEXT: vmov.f32 s0, #1.000000e+00
				607	; CHECK-NEXT: movs r2, #0
				608	; CHECK-NEXT: b .LBB6_7
				609	; CHECK-NEXT: .LBB6_3:
				610	; CHECK-NEXT: vmov.f32 s0, #1.000000e+00
				611	; CHECK-NEXT: b .LBB6_9
				612	; CHECK-NEXT: .LBB6_4: @ %vector.ph
				613	; CHECK-NEXT: bic r2, r1, #3
				614	; CHECK-NEXT: movs r3, #1
				615	; CHECK-NEXT: sub.w r12, r2, #4
				616	; CHECK-NEXT: vmov.f32 q0, #1.000000e+00
				617	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				618	; CHECK-NEXT: mov r3, r0
				619	; CHECK-NEXT: dls lr, lr
				620	; CHECK-NEXT: .LBB6_5: @ %vector.body
				621	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				622	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				623	; CHECK-NEXT: vmul.f32 q0, q1, q0
				624	; CHECK-NEXT: le lr, .LBB6_5
				625	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	626	; CHECK-NEXT: vmul.f32 s4, s2, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	627	; CHECK-NEXT: cmp r2, r1
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	628	; CHECK-NEXT: vmul.f32 s0, s0, s1
				629	; CHECK-NEXT: vmul.f32 s0, s0, s4
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	630	; CHECK-NEXT: beq .LBB6_9
				631	; CHECK-NEXT: .LBB6_7: @ %for.body.preheader1
				632	; CHECK-NEXT: sub.w lr, r1, r2
				633	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				634	; CHECK-NEXT: dls lr, lr
				635	; CHECK-NEXT: .LBB6_8: @ %for.body
				636	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				637	; CHECK-NEXT: vldr s2, [r0]
				638	; CHECK-NEXT: adds r0, #4
				639	; CHECK-NEXT: vmul.f32 s0, s2, s0
				640	; CHECK-NEXT: le lr, .LBB6_8
				641	; CHECK-NEXT: .LBB6_9: @ %for.cond.cleanup
				642	; CHECK-NEXT: vmov r0, s0
				643	; CHECK-NEXT: pop {r7, pc}
				644	entry:
				645	%cmp6 = icmp sgt i32 %n, 0
				646	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				647
				648	for.body.preheader: ; preds = %entry
				649	%min.iters.check = icmp ult i32 %n, 4
				650	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				651
				652	vector.ph: ; preds = %for.body.preheader
				653	%n.vec = and i32 %n, -4
				654	br label %vector.body
				655
				656	vector.body: ; preds = %vector.body, %vector.ph
				657	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				658	%vec.phi = phi <4 x float> [ <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, %vector.ph ], [ %2, %vector.body ]
				659	%0 = getelementptr inbounds float, float* %x, i32 %index
				660	%1 = bitcast float* %0 to <4 x float>*
				661	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				662	%2 = fmul fast <4 x float> %wide.load, %vec.phi
				663	%index.next = add i32 %index, 4
				664	%3 = icmp eq i32 %index.next, %n.vec
				665	br i1 %3, label %middle.block, label %vector.body
				666
				667	middle.block: ; preds = %vector.body
				668	%4 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.000000e+00, <4 x float> %2)
				669	%cmp.n = icmp eq i32 %n.vec, %n
				670	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				671
				672	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				673	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				674	%r.07.ph = phi float [ 1.000000e+00, %for.body.preheader ], [ %4, %middle.block ]
				675	br label %for.body
				676
				677	for.body: ; preds = %for.body.preheader1, %for.body
				678	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				679	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				680	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				681	%5 = load float, float* %arrayidx, align 4
				682	%add = fmul fast float %5, %r.07
				683	%inc = add nuw nsw i32 %i.08, 1
				684	%exitcond = icmp eq i32 %inc, %n
				685	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				686
				687	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				688	%r.0.lcssa = phi float [ 1.000000e+00, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				689	ret float %r.0.lcssa
				690	}
				691
				692	define i32 @smin_i32(i32* nocapture readonly %x, i32 %n) {
				693	; CHECK-LABEL: smin_i32:
				694	; CHECK: @ %bb.0: @ %entry
				695	; CHECK-NEXT: .save {r7, lr}
				696	; CHECK-NEXT: push {r7, lr}
				697	; CHECK-NEXT: cmp r1, #1
				698	; CHECK-NEXT: blt .LBB7_3
				699	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				700	; CHECK-NEXT: cmp r1, #4
				701	; CHECK-NEXT: bhs .LBB7_4
				702	; CHECK-NEXT: @ %bb.2:
				703	; CHECK-NEXT: mvn r2, #-2147483648
				704	; CHECK-NEXT: movs r3, #0
				705	; CHECK-NEXT: b .LBB7_7
				706	; CHECK-NEXT: .LBB7_3:
				707	; CHECK-NEXT: mvn r2, #-2147483648
				708	; CHECK-NEXT: b .LBB7_9
				709	; CHECK-NEXT: .LBB7_4: @ %vector.ph
				710	; CHECK-NEXT: bic r3, r1, #3
				711	; CHECK-NEXT: movs r2, #1
				712	; CHECK-NEXT: sub.w r12, r3, #4
				713	; CHECK-NEXT: vmvn.i32 q0, #0x80000000
				714	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				715	; CHECK-NEXT: mov r2, r0
				716	; CHECK-NEXT: dls lr, lr
				717	; CHECK-NEXT: .LBB7_5: @ %vector.body
				718	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				719	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				720	; CHECK-NEXT: vmin.s32 q0, q0, q1
				721	; CHECK-NEXT: le lr, .LBB7_5
				722	; CHECK-NEXT: @ %bb.6: @ %middle.block
				723	; CHECK-NEXT: mvn r2, #-2147483648
				724	; CHECK-NEXT: cmp r3, r1
				725	; CHECK-NEXT: vminv.s32 r2, q0
				726	; CHECK-NEXT: beq .LBB7_9
				727	; CHECK-NEXT: .LBB7_7: @ %for.body.preheader1
				728	; CHECK-NEXT: sub.w lr, r1, r3
				729	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				730	; CHECK-NEXT: dls lr, lr
				731	; CHECK-NEXT: .LBB7_8: @ %for.body
				732	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				733	; CHECK-NEXT: ldr r1, [r0], #4
				734	; CHECK-NEXT: cmp r2, r1
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	735	; CHECK-NEXT: csel r2, r2, r1, lt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	736	; CHECK-NEXT: le lr, .LBB7_8
				737	; CHECK-NEXT: .LBB7_9: @ %for.cond.cleanup
				738	; CHECK-NEXT: mov r0, r2
				739	; CHECK-NEXT: pop {r7, pc}
				740	entry:
				741	%cmp6 = icmp sgt i32 %n, 0
				742	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				743
				744	for.body.preheader: ; preds = %entry
				745	%min.iters.check = icmp ult i32 %n, 4
				746	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				747
				748	vector.ph: ; preds = %for.body.preheader
				749	%n.vec = and i32 %n, -4
				750	br label %vector.body
				751
				752	vector.body: ; preds = %vector.body, %vector.ph
				753	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				754	%vec.phi = phi <4 x i32> [ <i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647>, %vector.ph ], [ %3, %vector.body ]
				755	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				756	%1 = bitcast i32* %0 to <4 x i32>*
				757	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				758	%2 = icmp slt <4 x i32> %vec.phi, %wide.load
				759	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				760	%index.next = add i32 %index, 4
				761	%4 = icmp eq i32 %index.next, %n.vec
				762	br i1 %4, label %middle.block, label %vector.body
				763
				764	middle.block: ; preds = %vector.body
				765	%5 = call i32 @llvm.experimental.vector.reduce.smin.v4i32(<4 x i32> %3)
				766	%cmp.n = icmp eq i32 %n.vec, %n
				767	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				768
				769	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				770	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				771	%r.07.ph = phi i32 [ 2147483647, %for.body.preheader ], [ %5, %middle.block ]
				772	br label %for.body
				773
				774	for.body: ; preds = %for.body.preheader1, %for.body
				775	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				776	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				777	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				778	%6 = load i32, i32* %arrayidx, align 4
				779	%c = icmp slt i32 %r.07, %6
				780	%add = select i1 %c, i32 %r.07, i32 %6
				781	%inc = add nuw nsw i32 %i.08, 1
				782	%exitcond = icmp eq i32 %inc, %n
				783	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				784
				785	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				786	%r.0.lcssa = phi i32 [ 2147483647, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				787	ret i32 %r.0.lcssa
				788	}
				789
				790	define i32 @smin_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				791	; CHECK-LABEL: smin_i32_inloop:
				792	; CHECK: @ %bb.0: @ %entry
				793	; CHECK-NEXT: .save {r4, lr}
				794	; CHECK-NEXT: push {r4, lr}
				795	; CHECK-NEXT: cmp r1, #1
				796	; CHECK-NEXT: blt .LBB8_3
				797	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				798	; CHECK-NEXT: mov r12, r0
				799	; CHECK-NEXT: mvn r0, #-2147483648
				800	; CHECK-NEXT: cmp r1, #4
				801	; CHECK-NEXT: bhs .LBB8_4
				802	; CHECK-NEXT: @ %bb.2:
				803	; CHECK-NEXT: movs r3, #0
				804	; CHECK-NEXT: b .LBB8_7
				805	; CHECK-NEXT: .LBB8_3:
				806	; CHECK-NEXT: mvn r0, #-2147483648
				807	; CHECK-NEXT: b .LBB8_9
				808	; CHECK-NEXT: .LBB8_4: @ %vector.ph
				809	; CHECK-NEXT: bic r3, r1, #3
				810	; CHECK-NEXT: movs r2, #1
				811	; CHECK-NEXT: sub.w lr, r3, #4
				812	; CHECK-NEXT: add.w lr, r2, lr, lsr #2
				813	; CHECK-NEXT: mov r2, r12
				814	; CHECK-NEXT: dls lr, lr
				815	; CHECK-NEXT: .LBB8_5: @ %vector.body
				816	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				817	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				818	; CHECK-NEXT: mvn r4, #-2147483648
				819	; CHECK-NEXT: vminv.s32 r4, q0
				820	; CHECK-NEXT: cmp r0, r4
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	821	; CHECK-NEXT: csel r0, r0, r4, lt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	822	; CHECK-NEXT: le lr, .LBB8_5
				823	; CHECK-NEXT: @ %bb.6: @ %middle.block
				824	; CHECK-NEXT: cmp r3, r1
				825	; CHECK-NEXT: it eq
				826	; CHECK-NEXT: popeq {r4, pc}
				827	; CHECK-NEXT: .LBB8_7: @ %for.body.preheader1
				828	; CHECK-NEXT: sub.w lr, r1, r3
				829	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				830	; CHECK-NEXT: dls lr, lr
				831	; CHECK-NEXT: .LBB8_8: @ %for.body
				832	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				833	; CHECK-NEXT: ldr r2, [r1], #4
				834	; CHECK-NEXT: cmp r0, r2
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	835	; CHECK-NEXT: csel r0, r0, r2, lt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	836	; CHECK-NEXT: le lr, .LBB8_8
				837	; CHECK-NEXT: .LBB8_9: @ %for.cond.cleanup
				838	; CHECK-NEXT: pop {r4, pc}
				839	entry:
				840	%cmp6 = icmp sgt i32 %n, 0
				841	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				842
				843	for.body.preheader: ; preds = %entry
				844	%min.iters.check = icmp ult i32 %n, 4
				845	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				846
				847	vector.ph: ; preds = %for.body.preheader
				848	%n.vec = and i32 %n, -4
				849	br label %vector.body
				850
				851	vector.body: ; preds = %vector.body, %vector.ph
				852	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				853	%vec.phi = phi i32 [ 2147483647, %vector.ph ], [ %3, %vector.body ]
				854	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				855	%1 = bitcast i32* %0 to <4 x i32>*
				856	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				857	%l5 = call i32 @llvm.experimental.vector.reduce.smin.v4i32(<4 x i32> %wide.load)
				858	%2 = icmp slt i32 %vec.phi, %l5
				859	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				860	%index.next = add i32 %index, 4
				861	%4 = icmp eq i32 %index.next, %n.vec
				862	br i1 %4, label %middle.block, label %vector.body
				863
				864	middle.block: ; preds = %vector.body
				865	%5 = phi i32 [ %3, %vector.body ]
				866	%cmp.n = icmp eq i32 %n.vec, %n
				867	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				868
				869	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				870	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				871	%r.07.ph = phi i32 [ 2147483647, %for.body.preheader ], [ %5, %middle.block ]
				872	br label %for.body
				873
				874	for.body: ; preds = %for.body.preheader1, %for.body
				875	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				876	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				877	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				878	%6 = load i32, i32* %arrayidx, align 4
				879	%c = icmp slt i32 %r.07, %6
				880	%add = select i1 %c, i32 %r.07, i32 %6
				881	%inc = add nuw nsw i32 %i.08, 1
				882	%exitcond = icmp eq i32 %inc, %n
				883	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				884
				885	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				886	%r.0.lcssa = phi i32 [ 2147483647, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				887	ret i32 %r.0.lcssa
				888	}
				889
				890	define i32 @smax_i32(i32* nocapture readonly %x, i32 %n) {
				891	; CHECK-LABEL: smax_i32:
				892	; CHECK: @ %bb.0: @ %entry
				893	; CHECK-NEXT: .save {r7, lr}
				894	; CHECK-NEXT: push {r7, lr}
				895	; CHECK-NEXT: cmp r1, #1
				896	; CHECK-NEXT: blt .LBB9_3
				897	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				898	; CHECK-NEXT: cmp r1, #4
				899	; CHECK-NEXT: bhs .LBB9_4
				900	; CHECK-NEXT: @ %bb.2:
				901	; CHECK-NEXT: mov.w r2, #-2147483648
				902	; CHECK-NEXT: movs r3, #0
				903	; CHECK-NEXT: b .LBB9_7
				904	; CHECK-NEXT: .LBB9_3:
				905	; CHECK-NEXT: mov.w r2, #-2147483648
				906	; CHECK-NEXT: b .LBB9_9
				907	; CHECK-NEXT: .LBB9_4: @ %vector.ph
				908	; CHECK-NEXT: bic r3, r1, #3
				909	; CHECK-NEXT: movs r2, #1
				910	; CHECK-NEXT: sub.w r12, r3, #4
				911	; CHECK-NEXT: vmov.i32 q0, #0x80000000
				912	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				913	; CHECK-NEXT: mov r2, r0
				914	; CHECK-NEXT: dls lr, lr
				915	; CHECK-NEXT: .LBB9_5: @ %vector.body
				916	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				917	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				918	; CHECK-NEXT: vmax.s32 q0, q0, q1
				919	; CHECK-NEXT: le lr, .LBB9_5
				920	; CHECK-NEXT: @ %bb.6: @ %middle.block
				921	; CHECK-NEXT: mov.w r2, #-2147483648
				922	; CHECK-NEXT: cmp r3, r1
				923	; CHECK-NEXT: vmaxv.s32 r2, q0
				924	; CHECK-NEXT: beq .LBB9_9
				925	; CHECK-NEXT: .LBB9_7: @ %for.body.preheader1
				926	; CHECK-NEXT: sub.w lr, r1, r3
				927	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				928	; CHECK-NEXT: dls lr, lr
				929	; CHECK-NEXT: .LBB9_8: @ %for.body
				930	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				931	; CHECK-NEXT: ldr r1, [r0], #4
				932	; CHECK-NEXT: cmp r2, r1
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	933	; CHECK-NEXT: csel r2, r2, r1, gt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	934	; CHECK-NEXT: le lr, .LBB9_8
				935	; CHECK-NEXT: .LBB9_9: @ %for.cond.cleanup
				936	; CHECK-NEXT: mov r0, r2
				937	; CHECK-NEXT: pop {r7, pc}
				938	entry:
				939	%cmp6 = icmp sgt i32 %n, 0
				940	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				941
				942	for.body.preheader: ; preds = %entry
				943	%min.iters.check = icmp ult i32 %n, 4
				944	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				945
				946	vector.ph: ; preds = %for.body.preheader
				947	%n.vec = and i32 %n, -4
				948	br label %vector.body
				949
				950	vector.body: ; preds = %vector.body, %vector.ph
				951	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				952	%vec.phi = phi <4 x i32> [ <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>, %vector.ph ], [ %3, %vector.body ]
				953	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				954	%1 = bitcast i32* %0 to <4 x i32>*
				955	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				956	%2 = icmp sgt <4 x i32> %vec.phi, %wide.load
				957	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				958	%index.next = add i32 %index, 4
				959	%4 = icmp eq i32 %index.next, %n.vec
				960	br i1 %4, label %middle.block, label %vector.body
				961
				962	middle.block: ; preds = %vector.body
				963	%5 = call i32 @llvm.experimental.vector.reduce.smax.v4i32(<4 x i32> %3)
				964	%cmp.n = icmp eq i32 %n.vec, %n
				965	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				966
				967	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				968	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				969	%r.07.ph = phi i32 [ -2147483648, %for.body.preheader ], [ %5, %middle.block ]
				970	br label %for.body
				971
				972	for.body: ; preds = %for.body.preheader1, %for.body
				973	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				974	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				975	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				976	%6 = load i32, i32* %arrayidx, align 4
				977	%c = icmp sgt i32 %r.07, %6
				978	%add = select i1 %c, i32 %r.07, i32 %6
				979	%inc = add nuw nsw i32 %i.08, 1
				980	%exitcond = icmp eq i32 %inc, %n
				981	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				982
				983	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				984	%r.0.lcssa = phi i32 [ -2147483648, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				985	ret i32 %r.0.lcssa
				986	}
				987
				988	define i32 @smax_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				989	; CHECK-LABEL: smax_i32_inloop:
				990	; CHECK: @ %bb.0: @ %entry
				991	; CHECK-NEXT: .save {r4, lr}
				992	; CHECK-NEXT: push {r4, lr}
				993	; CHECK-NEXT: cmp r1, #1
				994	; CHECK-NEXT: blt .LBB10_3
				995	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				996	; CHECK-NEXT: mov r12, r0
				997	; CHECK-NEXT: mov.w r0, #-2147483648
				998	; CHECK-NEXT: cmp r1, #4
				999	; CHECK-NEXT: bhs .LBB10_4
				1000	; CHECK-NEXT: @ %bb.2:
				1001	; CHECK-NEXT: movs r3, #0
				1002	; CHECK-NEXT: b .LBB10_7
				1003	; CHECK-NEXT: .LBB10_3:
				1004	; CHECK-NEXT: mov.w r0, #-2147483648
				1005	; CHECK-NEXT: b .LBB10_9
				1006	; CHECK-NEXT: .LBB10_4: @ %vector.ph
				1007	; CHECK-NEXT: bic r3, r1, #3
				1008	; CHECK-NEXT: movs r2, #1
				1009	; CHECK-NEXT: sub.w lr, r3, #4
				1010	; CHECK-NEXT: add.w lr, r2, lr, lsr #2
				1011	; CHECK-NEXT: mov r2, r12
				1012	; CHECK-NEXT: dls lr, lr
				1013	; CHECK-NEXT: .LBB10_5: @ %vector.body
				1014	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1015	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				1016	; CHECK-NEXT: mov.w r4, #-2147483648
				1017	; CHECK-NEXT: vmaxv.s32 r4, q0
				1018	; CHECK-NEXT: cmp r0, r4
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1019	; CHECK-NEXT: csel r0, r0, r4, gt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1020	; CHECK-NEXT: le lr, .LBB10_5
				1021	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1022	; CHECK-NEXT: cmp r3, r1
				1023	; CHECK-NEXT: it eq
				1024	; CHECK-NEXT: popeq {r4, pc}
				1025	; CHECK-NEXT: .LBB10_7: @ %for.body.preheader1
				1026	; CHECK-NEXT: sub.w lr, r1, r3
				1027	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				1028	; CHECK-NEXT: dls lr, lr
				1029	; CHECK-NEXT: .LBB10_8: @ %for.body
				1030	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1031	; CHECK-NEXT: ldr r2, [r1], #4
				1032	; CHECK-NEXT: cmp r0, r2
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1033	; CHECK-NEXT: csel r0, r0, r2, gt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1034	; CHECK-NEXT: le lr, .LBB10_8
				1035	; CHECK-NEXT: .LBB10_9: @ %for.cond.cleanup
				1036	; CHECK-NEXT: pop {r4, pc}
				1037	entry:
				1038	%cmp6 = icmp sgt i32 %n, 0
				1039	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1040
				1041	for.body.preheader: ; preds = %entry
				1042	%min.iters.check = icmp ult i32 %n, 4
				1043	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1044
				1045	vector.ph: ; preds = %for.body.preheader
				1046	%n.vec = and i32 %n, -4
				1047	br label %vector.body
				1048
				1049	vector.body: ; preds = %vector.body, %vector.ph
				1050	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1051	%vec.phi = phi i32 [ -2147483648, %vector.ph ], [ %3, %vector.body ]
				1052	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1053	%1 = bitcast i32* %0 to <4 x i32>*
				1054	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1055	%l5 = call i32 @llvm.experimental.vector.reduce.smax.v4i32(<4 x i32> %wide.load)
				1056	%2 = icmp sgt i32 %vec.phi, %l5
				1057	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				1058	%index.next = add i32 %index, 4
				1059	%4 = icmp eq i32 %index.next, %n.vec
				1060	br i1 %4, label %middle.block, label %vector.body
				1061
				1062	middle.block: ; preds = %vector.body
				1063	%5 = phi i32 [ %3, %vector.body ]
				1064	%cmp.n = icmp eq i32 %n.vec, %n
				1065	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1066
				1067	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1068	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1069	%r.07.ph = phi i32 [ -2147483648, %for.body.preheader ], [ %5, %middle.block ]
				1070	br label %for.body
				1071
				1072	for.body: ; preds = %for.body.preheader1, %for.body
				1073	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1074	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1075	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1076	%6 = load i32, i32* %arrayidx, align 4
				1077	%c = icmp sgt i32 %r.07, %6
				1078	%add = select i1 %c, i32 %r.07, i32 %6
				1079	%inc = add nuw nsw i32 %i.08, 1
				1080	%exitcond = icmp eq i32 %inc, %n
				1081	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1082
				1083	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1084	%r.0.lcssa = phi i32 [ -2147483648, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1085	ret i32 %r.0.lcssa
				1086	}
				1087
				1088	define i32 @umin_i32(i32* nocapture readonly %x, i32 %n) {
				1089	; CHECK-LABEL: umin_i32:
				1090	; CHECK: @ %bb.0: @ %entry
				1091	; CHECK-NEXT: .save {r7, lr}
				1092	; CHECK-NEXT: push {r7, lr}
				1093	; CHECK-NEXT: cmp r1, #1
				1094	; CHECK-NEXT: blt .LBB11_3
				1095	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1096	; CHECK-NEXT: cmp r1, #4
				1097	; CHECK-NEXT: bhs .LBB11_4
				1098	; CHECK-NEXT: @ %bb.2:
				1099	; CHECK-NEXT: mov.w r2, #-1
				1100	; CHECK-NEXT: movs r3, #0
				1101	; CHECK-NEXT: b .LBB11_7
				1102	; CHECK-NEXT: .LBB11_3:
				1103	; CHECK-NEXT: mov.w r2, #-1
				1104	; CHECK-NEXT: b .LBB11_9
				1105	; CHECK-NEXT: .LBB11_4: @ %vector.ph
				1106	; CHECK-NEXT: bic r3, r1, #3
				1107	; CHECK-NEXT: movs r2, #1
				1108	; CHECK-NEXT: sub.w r12, r3, #4
				1109	; CHECK-NEXT: vmov.i8 q0, #0xff
				1110	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				1111	; CHECK-NEXT: mov r2, r0
				1112	; CHECK-NEXT: dls lr, lr
				1113	; CHECK-NEXT: .LBB11_5: @ %vector.body
				1114	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1115	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				1116	; CHECK-NEXT: vmin.u32 q0, q0, q1
				1117	; CHECK-NEXT: le lr, .LBB11_5
				1118	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1119	; CHECK-NEXT: mov.w r2, #-1
				1120	; CHECK-NEXT: cmp r3, r1
				1121	; CHECK-NEXT: vminv.u32 r2, q0
				1122	; CHECK-NEXT: beq .LBB11_9
				1123	; CHECK-NEXT: .LBB11_7: @ %for.body.preheader1
				1124	; CHECK-NEXT: sub.w lr, r1, r3
				1125	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				1126	; CHECK-NEXT: dls lr, lr
				1127	; CHECK-NEXT: .LBB11_8: @ %for.body
				1128	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1129	; CHECK-NEXT: ldr r1, [r0], #4
				1130	; CHECK-NEXT: cmp r2, r1
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1131	; CHECK-NEXT: csel r2, r2, r1, lo
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1132	; CHECK-NEXT: le lr, .LBB11_8
				1133	; CHECK-NEXT: .LBB11_9: @ %for.cond.cleanup
				1134	; CHECK-NEXT: mov r0, r2
				1135	; CHECK-NEXT: pop {r7, pc}
				1136	entry:
				1137	%cmp6 = icmp sgt i32 %n, 0
				1138	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1139
				1140	for.body.preheader: ; preds = %entry
				1141	%min.iters.check = icmp ult i32 %n, 4
				1142	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1143
				1144	vector.ph: ; preds = %for.body.preheader
				1145	%n.vec = and i32 %n, -4
				1146	br label %vector.body
				1147
				1148	vector.body: ; preds = %vector.body, %vector.ph
				1149	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1150	%vec.phi = phi <4 x i32> [ <i32 -1, i32 -1, i32 -1, i32 -1>, %vector.ph ], [ %3, %vector.body ]
				1151	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1152	%1 = bitcast i32* %0 to <4 x i32>*
				1153	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1154	%2 = icmp ult <4 x i32> %vec.phi, %wide.load
				1155	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				1156	%index.next = add i32 %index, 4
				1157	%4 = icmp eq i32 %index.next, %n.vec
				1158	br i1 %4, label %middle.block, label %vector.body
				1159
				1160	middle.block: ; preds = %vector.body
				1161	%5 = call i32 @llvm.experimental.vector.reduce.umin.v4i32(<4 x i32> %3)
				1162	%cmp.n = icmp eq i32 %n.vec, %n
				1163	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1164
				1165	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1166	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1167	%r.07.ph = phi i32 [ -1, %for.body.preheader ], [ %5, %middle.block ]
				1168	br label %for.body
				1169
				1170	for.body: ; preds = %for.body.preheader1, %for.body
				1171	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1172	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1173	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1174	%6 = load i32, i32* %arrayidx, align 4
				1175	%c = icmp ult i32 %r.07, %6
				1176	%add = select i1 %c, i32 %r.07, i32 %6
				1177	%inc = add nuw nsw i32 %i.08, 1
				1178	%exitcond = icmp eq i32 %inc, %n
				1179	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1180
				1181	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1182	%r.0.lcssa = phi i32 [ -1, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1183	ret i32 %r.0.lcssa
				1184	}
				1185
				1186	define i32 @umin_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				1187	; CHECK-LABEL: umin_i32_inloop:
				1188	; CHECK: @ %bb.0: @ %entry
				1189	; CHECK-NEXT: .save {r4, lr}
				1190	; CHECK-NEXT: push {r4, lr}
				1191	; CHECK-NEXT: cmp r1, #1
				1192	; CHECK-NEXT: blt .LBB12_3
				1193	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1194	; CHECK-NEXT: mov r12, r0
				1195	; CHECK-NEXT: mov.w r0, #-1
				1196	; CHECK-NEXT: cmp r1, #4
				1197	; CHECK-NEXT: bhs .LBB12_4
				1198	; CHECK-NEXT: @ %bb.2:
				1199	; CHECK-NEXT: movs r3, #0
				1200	; CHECK-NEXT: b .LBB12_7
				1201	; CHECK-NEXT: .LBB12_3:
				1202	; CHECK-NEXT: mov.w r0, #-1
				1203	; CHECK-NEXT: b .LBB12_9
				1204	; CHECK-NEXT: .LBB12_4: @ %vector.ph
				1205	; CHECK-NEXT: bic r3, r1, #3
				1206	; CHECK-NEXT: movs r2, #1
				1207	; CHECK-NEXT: sub.w lr, r3, #4
				1208	; CHECK-NEXT: add.w lr, r2, lr, lsr #2
				1209	; CHECK-NEXT: mov r2, r12
				1210	; CHECK-NEXT: dls lr, lr
				1211	; CHECK-NEXT: .LBB12_5: @ %vector.body
				1212	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1213	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				1214	; CHECK-NEXT: mov.w r4, #-1
				1215	; CHECK-NEXT: vminv.u32 r4, q0
				1216	; CHECK-NEXT: cmp r0, r4
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1217	; CHECK-NEXT: csel r0, r0, r4, lo
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1218	; CHECK-NEXT: le lr, .LBB12_5
				1219	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1220	; CHECK-NEXT: cmp r3, r1
				1221	; CHECK-NEXT: it eq
				1222	; CHECK-NEXT: popeq {r4, pc}
				1223	; CHECK-NEXT: .LBB12_7: @ %for.body.preheader1
				1224	; CHECK-NEXT: sub.w lr, r1, r3
				1225	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				1226	; CHECK-NEXT: dls lr, lr
				1227	; CHECK-NEXT: .LBB12_8: @ %for.body
				1228	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1229	; CHECK-NEXT: ldr r2, [r1], #4
				1230	; CHECK-NEXT: cmp r0, r2
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1231	; CHECK-NEXT: csel r0, r0, r2, hi
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1232	; CHECK-NEXT: le lr, .LBB12_8
				1233	; CHECK-NEXT: .LBB12_9: @ %for.cond.cleanup
				1234	; CHECK-NEXT: pop {r4, pc}
				1235	entry:
				1236	%cmp6 = icmp sgt i32 %n, 0
				1237	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1238
				1239	for.body.preheader: ; preds = %entry
				1240	%min.iters.check = icmp ult i32 %n, 4
				1241	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1242
				1243	vector.ph: ; preds = %for.body.preheader
				1244	%n.vec = and i32 %n, -4
				1245	br label %vector.body
				1246
				1247	vector.body: ; preds = %vector.body, %vector.ph
				1248	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1249	%vec.phi = phi i32 [ -1, %vector.ph ], [ %3, %vector.body ]
				1250	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1251	%1 = bitcast i32* %0 to <4 x i32>*
				1252	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1253	%l5 = call i32 @llvm.experimental.vector.reduce.umin.v4i32(<4 x i32> %wide.load)
				1254	%2 = icmp ult i32 %vec.phi, %l5
				1255	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				1256	%index.next = add i32 %index, 4
				1257	%4 = icmp eq i32 %index.next, %n.vec
				1258	br i1 %4, label %middle.block, label %vector.body
				1259
				1260	middle.block: ; preds = %vector.body
				1261	%5 = phi i32 [ %3, %vector.body ]
				1262	%cmp.n = icmp eq i32 %n.vec, %n
				1263	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1264
				1265	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1266	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1267	%r.07.ph = phi i32 [ -1, %for.body.preheader ], [ %5, %middle.block ]
				1268	br label %for.body
				1269
				1270	for.body: ; preds = %for.body.preheader1, %for.body
				1271	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1272	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1273	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1274	%6 = load i32, i32* %arrayidx, align 4
				1275	%c = icmp ugt i32 %r.07, %6
				1276	%add = select i1 %c, i32 %r.07, i32 %6
				1277	%inc = add nuw nsw i32 %i.08, 1
				1278	%exitcond = icmp eq i32 %inc, %n
				1279	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1280
				1281	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1282	%r.0.lcssa = phi i32 [ -1, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1283	ret i32 %r.0.lcssa
				1284	}
				1285
				1286	define i32 @umax_i32(i32* nocapture readonly %x, i32 %n) {
				1287	; CHECK-LABEL: umax_i32:
				1288	; CHECK: @ %bb.0: @ %entry
				1289	; CHECK-NEXT: .save {r7, lr}
				1290	; CHECK-NEXT: push {r7, lr}
				1291	; CHECK-NEXT: cmp r1, #1
				1292	; CHECK-NEXT: blt .LBB13_3
				1293	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1294	; CHECK-NEXT: cmp r1, #4
				1295	; CHECK-NEXT: bhs .LBB13_4
				1296	; CHECK-NEXT: @ %bb.2:
				1297	; CHECK-NEXT: movs r3, #0
				1298	; CHECK-NEXT: movs r2, #0
				1299	; CHECK-NEXT: b .LBB13_7
				1300	; CHECK-NEXT: .LBB13_3:
				1301	; CHECK-NEXT: movs r2, #0
				1302	; CHECK-NEXT: b .LBB13_9
				1303	; CHECK-NEXT: .LBB13_4: @ %vector.ph
				1304	; CHECK-NEXT: bic r3, r1, #3
				1305	; CHECK-NEXT: movs r2, #1
				1306	; CHECK-NEXT: sub.w r12, r3, #4
				1307	; CHECK-NEXT: vmov.i32 q0, #0x0
				1308	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				1309	; CHECK-NEXT: mov r2, r0
				1310	; CHECK-NEXT: dls lr, lr
				1311	; CHECK-NEXT: .LBB13_5: @ %vector.body
				1312	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1313	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				1314	; CHECK-NEXT: vmax.u32 q0, q0, q1
				1315	; CHECK-NEXT: le lr, .LBB13_5
				1316	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1317	; CHECK-NEXT: movs r2, #0
				1318	; CHECK-NEXT: cmp r3, r1
				1319	; CHECK-NEXT: vmaxv.u32 r2, q0
				1320	; CHECK-NEXT: beq .LBB13_9
				1321	; CHECK-NEXT: .LBB13_7: @ %for.body.preheader1
				1322	; CHECK-NEXT: sub.w lr, r1, r3
				1323	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				1324	; CHECK-NEXT: dls lr, lr
				1325	; CHECK-NEXT: .LBB13_8: @ %for.body
				1326	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1327	; CHECK-NEXT: ldr r1, [r0], #4
				1328	; CHECK-NEXT: cmp r2, r1
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1329	; CHECK-NEXT: csel r2, r2, r1, hi
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1330	; CHECK-NEXT: le lr, .LBB13_8
				1331	; CHECK-NEXT: .LBB13_9: @ %for.cond.cleanup
				1332	; CHECK-NEXT: mov r0, r2
				1333	; CHECK-NEXT: pop {r7, pc}
				1334	entry:
				1335	%cmp6 = icmp sgt i32 %n, 0
				1336	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1337
				1338	for.body.preheader: ; preds = %entry
				1339	%min.iters.check = icmp ult i32 %n, 4
				1340	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1341
				1342	vector.ph: ; preds = %for.body.preheader
				1343	%n.vec = and i32 %n, -4
				1344	br label %vector.body
				1345
				1346	vector.body: ; preds = %vector.body, %vector.ph
				1347	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1348	%vec.phi = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %3, %vector.body ]
				1349	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1350	%1 = bitcast i32* %0 to <4 x i32>*
				1351	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1352	%2 = icmp ugt <4 x i32> %vec.phi, %wide.load
				1353	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				1354	%index.next = add i32 %index, 4
				1355	%4 = icmp eq i32 %index.next, %n.vec
				1356	br i1 %4, label %middle.block, label %vector.body
				1357
				1358	middle.block: ; preds = %vector.body
				1359	%5 = call i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32> %3)
				1360	%cmp.n = icmp eq i32 %n.vec, %n
				1361	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1362
				1363	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1364	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1365	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %5, %middle.block ]
				1366	br label %for.body
				1367
				1368	for.body: ; preds = %for.body.preheader1, %for.body
				1369	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1370	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1371	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1372	%6 = load i32, i32* %arrayidx, align 4
				1373	%c = icmp ugt i32 %r.07, %6
				1374	%add = select i1 %c, i32 %r.07, i32 %6
				1375	%inc = add nuw nsw i32 %i.08, 1
				1376	%exitcond = icmp eq i32 %inc, %n
				1377	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1378
				1379	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1380	%r.0.lcssa = phi i32 [ 0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1381	ret i32 %r.0.lcssa
				1382	}
				1383
				1384	define i32 @umax_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				1385	; CHECK-LABEL: umax_i32_inloop:
				1386	; CHECK: @ %bb.0: @ %entry
				1387	; CHECK-NEXT: .save {r4, lr}
				1388	; CHECK-NEXT: push {r4, lr}
				1389	; CHECK-NEXT: cmp r1, #1
				1390	; CHECK-NEXT: blt .LBB14_8
				1391	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1392	; CHECK-NEXT: mov r12, r0
				1393	; CHECK-NEXT: movs r3, #0
				1394	; CHECK-NEXT: cmp r1, #4
				1395	; CHECK-NEXT: mov.w r0, #0
				1396	; CHECK-NEXT: blo .LBB14_5
				1397	; CHECK-NEXT: @ %bb.2: @ %vector.ph
				1398	; CHECK-NEXT: bic r3, r1, #3
				1399	; CHECK-NEXT: movs r2, #1
				1400	; CHECK-NEXT: subs r0, r3, #4
				1401	; CHECK-NEXT: add.w lr, r2, r0, lsr #2
				1402	; CHECK-NEXT: movs r0, #0
				1403	; CHECK-NEXT: mov r2, r12
				1404	; CHECK-NEXT: dls lr, lr
				1405	; CHECK-NEXT: .LBB14_3: @ %vector.body
				1406	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1407	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				1408	; CHECK-NEXT: movs r4, #0
				1409	; CHECK-NEXT: vmaxv.u32 r4, q0
				1410	; CHECK-NEXT: cmp r0, r4
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1411	; CHECK-NEXT: csel r0, r0, r4, hi
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1412	; CHECK-NEXT: le lr, .LBB14_3
				1413	; CHECK-NEXT: @ %bb.4: @ %middle.block
				1414	; CHECK-NEXT: cmp r3, r1
				1415	; CHECK-NEXT: it eq
				1416	; CHECK-NEXT: popeq {r4, pc}
				1417	; CHECK-NEXT: .LBB14_5: @ %for.body.preheader1
				1418	; CHECK-NEXT: sub.w lr, r1, r3
				1419	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				1420	; CHECK-NEXT: dls lr, lr
				1421	; CHECK-NEXT: .LBB14_6: @ %for.body
				1422	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1423	; CHECK-NEXT: ldr r2, [r1], #4
				1424	; CHECK-NEXT: cmp r0, r2
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1425	; CHECK-NEXT: csel r0, r0, r2, hi
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1426	; CHECK-NEXT: le lr, .LBB14_6
				1427	; CHECK-NEXT: @ %bb.7: @ %for.cond.cleanup
				1428	; CHECK-NEXT: pop {r4, pc}
				1429	; CHECK-NEXT: .LBB14_8:
				1430	; CHECK-NEXT: movs r0, #0
				1431	; CHECK-NEXT: pop {r4, pc}
				1432	entry:
				1433	%cmp6 = icmp sgt i32 %n, 0
				1434	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1435
				1436	for.body.preheader: ; preds = %entry
				1437	%min.iters.check = icmp ult i32 %n, 4
				1438	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1439
				1440	vector.ph: ; preds = %for.body.preheader
				1441	%n.vec = and i32 %n, -4
				1442	br label %vector.body
				1443
				1444	vector.body: ; preds = %vector.body, %vector.ph
				1445	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1446	%vec.phi = phi i32 [ 0, %vector.ph ], [ %3, %vector.body ]
				1447	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1448	%1 = bitcast i32* %0 to <4 x i32>*
				1449	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1450	%l5 = call i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32> %wide.load)
				1451	%2 = icmp ugt i32 %vec.phi, %l5
				1452	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				1453	%index.next = add i32 %index, 4
				1454	%4 = icmp eq i32 %index.next, %n.vec
				1455	br i1 %4, label %middle.block, label %vector.body
				1456
				1457	middle.block: ; preds = %vector.body
				1458	%5 = phi i32 [ %3, %vector.body ]
				1459	%cmp.n = icmp eq i32 %n.vec, %n
				1460	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1461
				1462	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1463	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1464	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %5, %middle.block ]
				1465	br label %for.body
				1466
				1467	for.body: ; preds = %for.body.preheader1, %for.body
				1468	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1469	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1470	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1471	%6 = load i32, i32* %arrayidx, align 4
				1472	%c = icmp ugt i32 %r.07, %6
				1473	%add = select i1 %c, i32 %r.07, i32 %6
				1474	%inc = add nuw nsw i32 %i.08, 1
				1475	%exitcond = icmp eq i32 %inc, %n
				1476	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1477
				1478	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1479	%r.0.lcssa = phi i32 [ 0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1480	ret i32 %r.0.lcssa
				1481	}
				1482
				1483	define float @fmin_f32(float* nocapture readonly %x, i32 %n) {
				1484	; CHECK-LABEL: fmin_f32:
				1485	; CHECK: @ %bb.0: @ %entry
				1486	; CHECK-NEXT: .save {r7, lr}
				1487	; CHECK-NEXT: push {r7, lr}
				1488	; CHECK-NEXT: cmp r1, #1
				1489	; CHECK-NEXT: blt .LBB15_3
				1490	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1491	; CHECK-NEXT: cmp r1, #4
				1492	; CHECK-NEXT: bhs .LBB15_4
				1493	; CHECK-NEXT: @ %bb.2:
				1494	; CHECK-NEXT: vldr s0, .LCPI15_0
				1495	; CHECK-NEXT: movs r2, #0
				1496	; CHECK-NEXT: b .LBB15_7
				1497	; CHECK-NEXT: .LBB15_3:
				1498	; CHECK-NEXT: vldr s0, .LCPI15_0
				1499	; CHECK-NEXT: b .LBB15_9
				1500	; CHECK-NEXT: .LBB15_4: @ %vector.ph
				1501	; CHECK-NEXT: bic r2, r1, #3
				1502	; CHECK-NEXT: movs r3, #1
				1503	; CHECK-NEXT: sub.w r12, r2, #4
				1504	; CHECK-NEXT: vmov.i32 q0, #0x0
				1505	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				1506	; CHECK-NEXT: mov r3, r0
				1507	; CHECK-NEXT: dls lr, lr
				1508	; CHECK-NEXT: .LBB15_5: @ %vector.body
				1509	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1510	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				1511	; CHECK-NEXT: vcmp.f32 lt, q0, q1
				1512	; CHECK-NEXT: vpsel q0, q0, q1
				1513	; CHECK-NEXT: le lr, .LBB15_5
				1514	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1515	; CHECK-NEXT: vmov.f32 s4, s2
				1516	; CHECK-NEXT: cmp r2, r1
				1517	; CHECK-NEXT: vmov.f32 s5, s3
				1518	; CHECK-NEXT: vminnm.f32 q0, q0, q1
				1519	; CHECK-NEXT: vmov r3, s1
				1520	; CHECK-NEXT: vdup.32 q1, r3
				1521	; CHECK-NEXT: vminnm.f32 q0, q0, q1
				1522	; CHECK-NEXT: beq .LBB15_9
				1523	; CHECK-NEXT: .LBB15_7: @ %for.body.preheader1
				1524	; CHECK-NEXT: sub.w lr, r1, r2
				1525	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				1526	; CHECK-NEXT: dls lr, lr
				1527	; CHECK-NEXT: .LBB15_8: @ %for.body
				1528	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1529	; CHECK-NEXT: vldmia r0!, {s4}
				1530	; CHECK-NEXT: vcmp.f32 s0, s4
				1531	; CHECK-NEXT: vmrs APSR_nzcv, fpscr
				1532	; CHECK-NEXT: vselge.f32 s0, s4, s0
				1533	; CHECK-NEXT: le lr, .LBB15_8
				1534	; CHECK-NEXT: .LBB15_9: @ %for.cond.cleanup
				1535	; CHECK-NEXT: vmov r0, s0
				1536	; CHECK-NEXT: pop {r7, pc}
				1537	; CHECK-NEXT: .p2align 2
				1538	; CHECK-NEXT: @ %bb.10:
				1539	; CHECK-NEXT: .LCPI15_0:
				1540	; CHECK-NEXT: .long 0x00000000 @ float 0
				1541	entry:
				1542	%cmp6 = icmp sgt i32 %n, 0
				1543	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1544
				1545	for.body.preheader: ; preds = %entry
				1546	%min.iters.check = icmp ult i32 %n, 4
				1547	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1548
				1549	vector.ph: ; preds = %for.body.preheader
				1550	%n.vec = and i32 %n, -4
				1551	br label %vector.body
				1552
				1553	vector.body: ; preds = %vector.body, %vector.ph
				1554	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1555	%vec.phi = phi <4 x float> [ zeroinitializer, %vector.ph ], [ %3, %vector.body ]
				1556	%0 = getelementptr inbounds float, float* %x, i32 %index
				1557	%1 = bitcast float* %0 to <4 x float>*
				1558	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				1559	%2 = fcmp ult <4 x float> %vec.phi, %wide.load
				1560	%3 = select <4 x i1> %2, <4 x float> %vec.phi, <4 x float> %wide.load
				1561	%index.next = add i32 %index, 4
				1562	%4 = icmp eq i32 %index.next, %n.vec
				1563	br i1 %4, label %middle.block, label %vector.body
				1564
				1565	middle.block: ; preds = %vector.body
				1566	%5 = call float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float> %3)
				1567	%cmp.n = icmp eq i32 %n.vec, %n
				1568	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1569
				1570	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1571	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1572	%r.07.ph = phi float [ 0.0, %for.body.preheader ], [ %5, %middle.block ]
				1573	br label %for.body
				1574
				1575	for.body: ; preds = %for.body.preheader1, %for.body
				1576	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1577	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1578	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				1579	%6 = load float, float* %arrayidx, align 4
				1580	%c = fcmp ult float %r.07, %6
				1581	%add = select i1 %c, float %r.07, float %6
				1582	%inc = add nuw nsw i32 %i.08, 1
				1583	%exitcond = icmp eq i32 %inc, %n
				1584	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1585
				1586	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1587	%r.0.lcssa = phi float [ 0.0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1588	ret float %r.0.lcssa
				1589	}
				1590
				1591	define float @fmax_f32(float* nocapture readonly %x, i32 %n) {
				1592	; CHECK-LABEL: fmax_f32:
				1593	; CHECK: @ %bb.0: @ %entry
				1594	; CHECK-NEXT: .save {r7, lr}
				1595	; CHECK-NEXT: push {r7, lr}
				1596	; CHECK-NEXT: cmp r1, #1
				1597	; CHECK-NEXT: blt .LBB16_3
				1598	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1599	; CHECK-NEXT: cmp r1, #4
				1600	; CHECK-NEXT: bhs .LBB16_4
				1601	; CHECK-NEXT: @ %bb.2:
				1602	; CHECK-NEXT: vldr s0, .LCPI16_0
				1603	; CHECK-NEXT: movs r2, #0
				1604	; CHECK-NEXT: b .LBB16_7
				1605	; CHECK-NEXT: .LBB16_3:
				1606	; CHECK-NEXT: vldr s0, .LCPI16_0
				1607	; CHECK-NEXT: b .LBB16_9
				1608	; CHECK-NEXT: .LBB16_4: @ %vector.ph
				1609	; CHECK-NEXT: bic r2, r1, #3
				1610	; CHECK-NEXT: movs r3, #1
				1611	; CHECK-NEXT: sub.w r12, r2, #4
				1612	; CHECK-NEXT: vmov.i32 q0, #0x0
				1613	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				1614	; CHECK-NEXT: mov r3, r0
				1615	; CHECK-NEXT: dls lr, lr
				1616	; CHECK-NEXT: .LBB16_5: @ %vector.body
				1617	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1618	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				1619	; CHECK-NEXT: vcmp.f32 lt, q1, q0
				1620	; CHECK-NEXT: vpsel q0, q0, q1
				1621	; CHECK-NEXT: le lr, .LBB16_5
				1622	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1623	; CHECK-NEXT: vmov.f32 s4, s2
				1624	; CHECK-NEXT: cmp r2, r1
				1625	; CHECK-NEXT: vmov.f32 s5, s3
				1626	; CHECK-NEXT: vmaxnm.f32 q0, q0, q1
				1627	; CHECK-NEXT: vmov r3, s1
				1628	; CHECK-NEXT: vdup.32 q1, r3
				1629	; CHECK-NEXT: vmaxnm.f32 q0, q0, q1
				1630	; CHECK-NEXT: beq .LBB16_9
				1631	; CHECK-NEXT: .LBB16_7: @ %for.body.preheader1
				1632	; CHECK-NEXT: sub.w lr, r1, r2
				1633	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				1634	; CHECK-NEXT: dls lr, lr
				1635	; CHECK-NEXT: .LBB16_8: @ %for.body
				1636	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1637	; CHECK-NEXT: vldmia r0!, {s4}
				1638	; CHECK-NEXT: vcmp.f32 s4, s0
				1639	; CHECK-NEXT: vmrs APSR_nzcv, fpscr
				1640	; CHECK-NEXT: vselge.f32 s0, s4, s0
				1641	; CHECK-NEXT: le lr, .LBB16_8
				1642	; CHECK-NEXT: .LBB16_9: @ %for.cond.cleanup
				1643	; CHECK-NEXT: vmov r0, s0
				1644	; CHECK-NEXT: pop {r7, pc}
				1645	; CHECK-NEXT: .p2align 2
				1646	; CHECK-NEXT: @ %bb.10:
				1647	; CHECK-NEXT: .LCPI16_0:
				1648	; CHECK-NEXT: .long 0x00000000 @ float 0
				1649	entry:
				1650	%cmp6 = icmp sgt i32 %n, 0
				1651	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1652
				1653	for.body.preheader: ; preds = %entry
				1654	%min.iters.check = icmp ult i32 %n, 4
				1655	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1656
				1657	vector.ph: ; preds = %for.body.preheader
				1658	%n.vec = and i32 %n, -4
				1659	br label %vector.body
				1660
				1661	vector.body: ; preds = %vector.body, %vector.ph
				1662	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1663	%vec.phi = phi <4 x float> [ zeroinitializer, %vector.ph ], [ %3, %vector.body ]
				1664	%0 = getelementptr inbounds float, float* %x, i32 %index
				1665	%1 = bitcast float* %0 to <4 x float>*
				1666	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				1667	%2 = fcmp ugt <4 x float> %vec.phi, %wide.load
				1668	%3 = select <4 x i1> %2, <4 x float> %vec.phi, <4 x float> %wide.load
				1669	%index.next = add i32 %index, 4
				1670	%4 = icmp eq i32 %index.next, %n.vec
				1671	br i1 %4, label %middle.block, label %vector.body
				1672
				1673	middle.block: ; preds = %vector.body
				1674	%5 = call float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float> %3)
				1675	%cmp.n = icmp eq i32 %n.vec, %n
				1676	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1677
				1678	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1679	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1680	%r.07.ph = phi float [ 0.0, %for.body.preheader ], [ %5, %middle.block ]
				1681	br label %for.body
				1682
				1683	for.body: ; preds = %for.body.preheader1, %for.body
				1684	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1685	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1686	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				1687	%6 = load float, float* %arrayidx, align 4
				1688	%c = fcmp ugt float %r.07, %6
				1689	%add = select i1 %c, float %r.07, float %6
				1690	%inc = add nuw nsw i32 %i.08, 1
				1691	%exitcond = icmp eq i32 %inc, %n
				1692	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1693
				1694	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1695	%r.0.lcssa = phi float [ 0.0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1696	ret float %r.0.lcssa
				1697	}
				1698
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1699	define i32 @add4i32(i32* noalias nocapture readonly %x, i32 %n) {
				1700	; CHECK-LABEL: add4i32:
				1701	; CHECK: @ %bb.0: @ %entry
				1702	; CHECK-NEXT: .save {r7, lr}
				1703	; CHECK-NEXT: push {r7, lr}
				1704	; CHECK-NEXT: cbz r1, .LBB17_4
				1705	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1706	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1707	; CHECK-NEXT: dlstp.32 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1708	; CHECK-NEXT: .LBB17_2: @ %vector.body
				1709	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1710	; CHECK-NEXT: vldrw.u32 q0, [r0], #16
				1711	; CHECK-NEXT: vaddva.u32 r2, q0
				1712	; CHECK-NEXT: letp lr, .LBB17_2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1713	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
				1714	; CHECK-NEXT: mov r0, r2
				1715	; CHECK-NEXT: pop {r7, pc}
				1716	; CHECK-NEXT: .LBB17_4:
				1717	; CHECK-NEXT: movs r2, #0
				1718	; CHECK-NEXT: mov r0, r2
				1719	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1720	entry:
				1721	%cmp6.not = icmp eq i32 %n, 0
				1722	br i1 %cmp6.not, label %for.cond.cleanup, label %vector.ph
				1723
				1724	vector.ph: ; preds = %entry
				1725	%n.rnd.up = add i32 %n, 3
				1726	%n.vec = and i32 %n.rnd.up, -4
				1727	%trip.count.minus.1 = add i32 %n, -1
				1728	br label %vector.body
				1729
				1730	vector.body: ; preds = %vector.body, %vector.ph
				1731	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1732	%vec.phi = phi i32 [ 0, %vector.ph ], [ %4, %vector.body ]
				1733	%active.lane.mask = call <4 x i1> @llvm.get.active.lane.mask.v4i1.i32(i32 %index, i32 %trip.count.minus.1)
				1734	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1735	%1 = bitcast i32* %0 to <4 x i32>*
				1736	%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %1, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
				1737	%2 = select <4 x i1> %active.lane.mask, <4 x i32> %wide.masked.load, <4 x i32> zeroinitializer
				1738	%3 = call i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32> %2)
				1739	%4 = add i32 %3, %vec.phi
				1740	%index.next = add i32 %index, 4
				1741	%5 = icmp eq i32 %index.next, %n.vec
				1742	br i1 %5, label %for.cond.cleanup, label %vector.body
				1743
				1744	for.cond.cleanup: ; preds = %vector.body, %entry
				1745	%s.0.lcssa = phi i32 [ 0, %entry ], [ %4, %vector.body ]
				1746	ret i32 %s.0.lcssa
				1747	}
				1748
				1749	define i32 @mla4i32(i32* noalias nocapture readonly %x, i32* noalias nocapture readonly %y, i32 %n) {
				1750	; CHECK-LABEL: mla4i32:
				1751	; CHECK: @ %bb.0: @ %entry
				1752	; CHECK-NEXT: .save {r7, lr}
				1753	; CHECK-NEXT: push {r7, lr}
				1754	; CHECK-NEXT: cbz r2, .LBB18_4
				1755	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1756	; CHECK-NEXT: mov.w r12, #0
				1757	; CHECK-NEXT: dlstp.32 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1758	; CHECK-NEXT: .LBB18_2: @ %vector.body
				1759	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1760	; CHECK-NEXT: vldrw.u32 q0, [r0], #16
				1761	; CHECK-NEXT: vldrw.u32 q1, [r1], #16
				1762	; CHECK-NEXT: vmlava.u32 r12, q1, q0
				1763	; CHECK-NEXT: letp lr, .LBB18_2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1764	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1765	; CHECK-NEXT: mov r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1766	; CHECK-NEXT: pop {r7, pc}
				1767	; CHECK-NEXT: .LBB18_4:
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1768	; CHECK-NEXT: mov.w r12, #0
				1769	; CHECK-NEXT: mov r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1770	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1771	entry:
				1772	%cmp8.not = icmp eq i32 %n, 0
				1773	br i1 %cmp8.not, label %for.cond.cleanup, label %vector.ph
				1774
				1775	vector.ph: ; preds = %entry
				1776	%n.rnd.up = add i32 %n, 3
				1777	%n.vec = and i32 %n.rnd.up, -4
				1778	%trip.count.minus.1 = add i32 %n, -1
				1779	br label %vector.body
				1780
				1781	vector.body: ; preds = %vector.body, %vector.ph
				1782	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1783	%vec.phi = phi i32 [ 0, %vector.ph ], [ %7, %vector.body ]
				1784	%active.lane.mask = call <4 x i1> @llvm.get.active.lane.mask.v4i1.i32(i32 %index, i32 %trip.count.minus.1)
				1785	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1786	%1 = bitcast i32* %0 to <4 x i32>*
				1787	%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %1, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
				1788	%2 = getelementptr inbounds i32, i32* %y, i32 %index
				1789	%3 = bitcast i32* %2 to <4 x i32>*
				1790	%wide.masked.load13 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %3, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
				1791	%4 = mul nsw <4 x i32> %wide.masked.load13, %wide.masked.load
				1792	%5 = select <4 x i1> %active.lane.mask, <4 x i32> %4, <4 x i32> zeroinitializer
				1793	%6 = call i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32> %5)
				1794	%7 = add i32 %6, %vec.phi
				1795	%index.next = add i32 %index, 4
				1796	%8 = icmp eq i32 %index.next, %n.vec
				1797	br i1 %8, label %for.cond.cleanup, label %vector.body
				1798
				1799	for.cond.cleanup: ; preds = %vector.body, %entry
				1800	%s.0.lcssa = phi i32 [ 0, %entry ], [ %7, %vector.body ]
				1801	ret i32 %s.0.lcssa
				1802	}
				1803
				1804	define i32 @add8i32(i16* noalias nocapture readonly %x, i32 %n) {
				1805	; CHECK-LABEL: add8i32:
				1806	; CHECK: @ %bb.0: @ %entry
				1807	; CHECK-NEXT: .save {r7, lr}
				1808	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1809	; CHECK-NEXT: cbz r1, .LBB19_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1810	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1811	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1812	; CHECK-NEXT: dlstp.16 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1813	; CHECK-NEXT: .LBB19_2: @ %vector.body
				1814	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1815	; CHECK-NEXT: vldrh.u16 q0, [r0], #16
				1816	; CHECK-NEXT: vaddva.s16 r2, q0
				1817	; CHECK-NEXT: letp lr, .LBB19_2
				1818	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1819	; CHECK-NEXT: mov r0, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1820	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1821	; CHECK-NEXT: .LBB19_4:
				1822	; CHECK-NEXT: movs r2, #0
				1823	; CHECK-NEXT: mov r0, r2
				1824	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1825	entry:
				1826	%cmp6.not = icmp eq i32 %n, 0
				1827	br i1 %cmp6.not, label %for.cond.cleanup, label %vector.ph
				1828
				1829	vector.ph: ; preds = %entry
				1830	%n.rnd.up = add i32 %n, 7
				1831	%n.vec = and i32 %n.rnd.up, -8
				1832	%trip.count.minus.1 = add i32 %n, -1
				1833	br label %vector.body
				1834
				1835	vector.body: ; preds = %vector.body, %vector.ph
				1836	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1837	%vec.phi = phi i32 [ 0, %vector.ph ], [ %5, %vector.body ]
				1838	%active.lane.mask = call <8 x i1> @llvm.get.active.lane.mask.v8i1.i32(i32 %index, i32 %trip.count.minus.1)
				1839	%0 = getelementptr inbounds i16, i16* %x, i32 %index
				1840	%1 = bitcast i16* %0 to <8 x i16>*
				1841	%wide.masked.load = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %1, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				1842	%2 = sext <8 x i16> %wide.masked.load to <8 x i32>
				1843	%3 = select <8 x i1> %active.lane.mask, <8 x i32> %2, <8 x i32> zeroinitializer
				1844	%4 = call i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32> %3)
				1845	%5 = add i32 %4, %vec.phi
				1846	%index.next = add i32 %index, 8
				1847	%6 = icmp eq i32 %index.next, %n.vec
				1848	br i1 %6, label %for.cond.cleanup, label %vector.body
				1849
				1850	for.cond.cleanup: ; preds = %vector.body, %entry
				1851	%s.0.lcssa = phi i32 [ 0, %entry ], [ %5, %vector.body ]
				1852	ret i32 %s.0.lcssa
				1853	}
				1854
				1855	define i32 @mla8i32(i16* noalias nocapture readonly %x, i16* noalias nocapture readonly %y, i32 %n) {
				1856	; CHECK-LABEL: mla8i32:
				1857	; CHECK: @ %bb.0: @ %entry
				1858	; CHECK-NEXT: .save {r7, lr}
				1859	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1860	; CHECK-NEXT: cbz r2, .LBB20_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1861	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1862	; CHECK-NEXT: mov.w r12, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1863	; CHECK-NEXT: dlstp.16 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1864	; CHECK-NEXT: .LBB20_2: @ %vector.body
				1865	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1866	; CHECK-NEXT: vldrh.u16 q0, [r0], #16
				1867	; CHECK-NEXT: vldrh.u16 q1, [r1], #16
				1868	; CHECK-NEXT: vmlava.s16 r12, q1, q0
				1869	; CHECK-NEXT: letp lr, .LBB20_2
				1870	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1871	; CHECK-NEXT: mov r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1872	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1873	; CHECK-NEXT: .LBB20_4:
				1874	; CHECK-NEXT: mov.w r12, #0
				1875	; CHECK-NEXT: mov r0, r12
				1876	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1877	entry:
				1878	%cmp9.not = icmp eq i32 %n, 0
				1879	br i1 %cmp9.not, label %for.cond.cleanup, label %vector.ph
				1880
				1881	vector.ph: ; preds = %entry
				1882	%n.rnd.up = add i32 %n, 7
				1883	%n.vec = and i32 %n.rnd.up, -8
				1884	%trip.count.minus.1 = add i32 %n, -1
				1885	br label %vector.body
				1886
				1887	vector.body: ; preds = %vector.body, %vector.ph
				1888	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1889	%vec.phi = phi i32 [ 0, %vector.ph ], [ %9, %vector.body ]
				1890	%active.lane.mask = call <8 x i1> @llvm.get.active.lane.mask.v8i1.i32(i32 %index, i32 %trip.count.minus.1)
				1891	%0 = getelementptr inbounds i16, i16* %x, i32 %index
				1892	%1 = bitcast i16* %0 to <8 x i16>*
				1893	%wide.masked.load = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %1, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				1894	%2 = sext <8 x i16> %wide.masked.load to <8 x i32>
				1895	%3 = getelementptr inbounds i16, i16* %y, i32 %index
				1896	%4 = bitcast i16* %3 to <8 x i16>*
				1897	%wide.masked.load14 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %4, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				1898	%5 = sext <8 x i16> %wide.masked.load14 to <8 x i32>
				1899	%6 = mul nsw <8 x i32> %5, %2
				1900	%7 = select <8 x i1> %active.lane.mask, <8 x i32> %6, <8 x i32> zeroinitializer
				1901	%8 = call i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32> %7)
				1902	%9 = add i32 %8, %vec.phi
				1903	%index.next = add i32 %index, 8
				1904	%10 = icmp eq i32 %index.next, %n.vec
				1905	br i1 %10, label %for.cond.cleanup, label %vector.body
				1906
				1907	for.cond.cleanup: ; preds = %vector.body, %entry
				1908	%s.0.lcssa = phi i32 [ 0, %entry ], [ %9, %vector.body ]
				1909	ret i32 %s.0.lcssa
				1910	}
				1911
				1912	define i32 @add16i32(i8* noalias nocapture readonly %x, i32 %n) {
				1913	; CHECK-LABEL: add16i32:
				1914	; CHECK: @ %bb.0: @ %entry
				1915	; CHECK-NEXT: .save {r7, lr}
				1916	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1917	; CHECK-NEXT: cbz r1, .LBB21_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1918	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1919	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1920	; CHECK-NEXT: dlstp.8 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1921	; CHECK-NEXT: .LBB21_2: @ %vector.body
				1922	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1923	; CHECK-NEXT: vldrb.u8 q0, [r0], #16
				1924	; CHECK-NEXT: vaddva.u8 r2, q0
				1925	; CHECK-NEXT: letp lr, .LBB21_2
				1926	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1927	; CHECK-NEXT: mov r0, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1928	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1929	; CHECK-NEXT: .LBB21_4:
				1930	; CHECK-NEXT: movs r2, #0
				1931	; CHECK-NEXT: mov r0, r2
				1932	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1933	entry:
				1934	%cmp6.not = icmp eq i32 %n, 0
				1935	br i1 %cmp6.not, label %for.cond.cleanup, label %vector.ph
				1936
				1937	vector.ph: ; preds = %entry
				1938	%n.rnd.up = add i32 %n, 15
				1939	%n.vec = and i32 %n.rnd.up, -16
				1940	%trip.count.minus.1 = add i32 %n, -1
				1941	br label %vector.body
				1942
				1943	vector.body: ; preds = %vector.body, %vector.ph
				1944	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1945	%vec.phi = phi i32 [ 0, %vector.ph ], [ %5, %vector.body ]
				1946	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %trip.count.minus.1)
				1947	%0 = getelementptr inbounds i8, i8* %x, i32 %index
				1948	%1 = bitcast i8* %0 to <16 x i8>*
				1949	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				1950	%2 = zext <16 x i8> %wide.masked.load to <16 x i32>
				1951	%3 = select <16 x i1> %active.lane.mask, <16 x i32> %2, <16 x i32> zeroinitializer
				1952	%4 = call i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32> %3)
				1953	%5 = add i32 %4, %vec.phi
				1954	%index.next = add i32 %index, 16
				1955	%6 = icmp eq i32 %index.next, %n.vec
				1956	br i1 %6, label %for.cond.cleanup, label %vector.body
				1957
				1958	for.cond.cleanup: ; preds = %vector.body, %entry
				1959	%s.0.lcssa = phi i32 [ 0, %entry ], [ %5, %vector.body ]
				1960	ret i32 %s.0.lcssa
				1961	}
				1962
				1963	define i32 @mla16i32(i8* noalias nocapture readonly %x, i8* noalias nocapture readonly %y, i32 %n) {
				1964	; CHECK-LABEL: mla16i32:
				1965	; CHECK: @ %bb.0: @ %entry
				1966	; CHECK-NEXT: .save {r7, lr}
				1967	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1968	; CHECK-NEXT: cbz r2, .LBB22_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1969	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1970	; CHECK-NEXT: mov.w r12, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1971	; CHECK-NEXT: dlstp.8 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1972	; CHECK-NEXT: .LBB22_2: @ %vector.body
				1973	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1974	; CHECK-NEXT: vldrb.u8 q0, [r0], #16
				1975	; CHECK-NEXT: vldrb.u8 q1, [r1], #16
				1976	; CHECK-NEXT: vmlava.u8 r12, q1, q0
				1977	; CHECK-NEXT: letp lr, .LBB22_2
				1978	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1979	; CHECK-NEXT: mov r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1980	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1981	; CHECK-NEXT: .LBB22_4:
				1982	; CHECK-NEXT: mov.w r12, #0
				1983	; CHECK-NEXT: mov r0, r12
				1984	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1985	entry:
				1986	%cmp9.not = icmp eq i32 %n, 0
				1987	br i1 %cmp9.not, label %for.cond.cleanup, label %vector.ph
				1988
				1989	vector.ph: ; preds = %entry
				1990	%n.rnd.up = add i32 %n, 15
				1991	%n.vec = and i32 %n.rnd.up, -16
				1992	%trip.count.minus.1 = add i32 %n, -1
				1993	br label %vector.body
				1994
				1995	vector.body: ; preds = %vector.body, %vector.ph
				1996	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1997	%vec.phi = phi i32 [ 0, %vector.ph ], [ %9, %vector.body ]
				1998	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %trip.count.minus.1)
				1999	%0 = getelementptr inbounds i8, i8* %x, i32 %index
				2000	%1 = bitcast i8* %0 to <16 x i8>*
				2001	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2002	%2 = zext <16 x i8> %wide.masked.load to <16 x i32>
				2003	%3 = getelementptr inbounds i8, i8* %y, i32 %index
				2004	%4 = bitcast i8* %3 to <16 x i8>*
				2005	%wide.masked.load14 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %4, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2006	%5 = zext <16 x i8> %wide.masked.load14 to <16 x i32>
				2007	%6 = mul nuw nsw <16 x i32> %5, %2
				2008	%7 = select <16 x i1> %active.lane.mask, <16 x i32> %6, <16 x i32> zeroinitializer
				2009	%8 = call i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32> %7)
				2010	%9 = add i32 %8, %vec.phi
				2011	%index.next = add i32 %index, 16
				2012	%10 = icmp eq i32 %index.next, %n.vec
				2013	br i1 %10, label %for.cond.cleanup, label %vector.body
				2014
				2015	for.cond.cleanup: ; preds = %vector.body, %entry
				2016	%s.0.lcssa = phi i32 [ 0, %entry ], [ %9, %vector.body ]
				2017	ret i32 %s.0.lcssa
				2018	}
				2019
				2020	define signext i16 @add8i16(i16* noalias nocapture readonly %x, i32 %n) {
				2021	; CHECK-LABEL: add8i16:
				2022	; CHECK: @ %bb.0: @ %entry
				2023	; CHECK-NEXT: .save {r7, lr}
				2024	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2025	; CHECK-NEXT: cbz r1, .LBB23_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2026	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2027	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2028	; CHECK-NEXT: dlstp.16 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2029	; CHECK-NEXT: .LBB23_2: @ %vector.body
				2030	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2031	; CHECK-NEXT: vldrh.u16 q0, [r0], #16
				2032	; CHECK-NEXT: vaddva.u16 r2, q0
				2033	; CHECK-NEXT: letp lr, .LBB23_2
				2034	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2035	; CHECK-NEXT: sxth r0, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2036	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2037	; CHECK-NEXT: .LBB23_4:
				2038	; CHECK-NEXT: movs r2, #0
				2039	; CHECK-NEXT: sxth r0, r2
				2040	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2041	entry:
				2042	%cmp8.not = icmp eq i32 %n, 0
				2043	br i1 %cmp8.not, label %for.cond.cleanup, label %vector.ph
				2044
				2045	vector.ph: ; preds = %entry
				2046	%n.rnd.up = add i32 %n, 7
				2047	%n.vec = and i32 %n.rnd.up, -8
				2048	%trip.count.minus.1 = add i32 %n, -1
				2049	br label %vector.body
				2050
				2051	vector.body: ; preds = %vector.body, %vector.ph
				2052	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2053	%vec.phi = phi i16 [ 0, %vector.ph ], [ %4, %vector.body ]
				2054	%active.lane.mask = call <8 x i1> @llvm.get.active.lane.mask.v8i1.i32(i32 %index, i32 %trip.count.minus.1)
				2055	%0 = getelementptr inbounds i16, i16* %x, i32 %index
				2056	%1 = bitcast i16* %0 to <8 x i16>*
				2057	%wide.masked.load = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %1, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				2058	%2 = select <8 x i1> %active.lane.mask, <8 x i16> %wide.masked.load, <8 x i16> zeroinitializer
				2059	%3 = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %2)
				2060	%4 = add i16 %3, %vec.phi
				2061	%index.next = add i32 %index, 8
				2062	%5 = icmp eq i32 %index.next, %n.vec
				2063	br i1 %5, label %for.cond.cleanup, label %vector.body
				2064
				2065	for.cond.cleanup: ; preds = %vector.body, %entry
				2066	%s.0.lcssa = phi i16 [ 0, %entry ], [ %4, %vector.body ]
				2067	ret i16 %s.0.lcssa
				2068	}
				2069
				2070	define signext i16 @mla8i16(i16* noalias nocapture readonly %x, i16* noalias nocapture readonly %y, i32 %n) {
				2071	; CHECK-LABEL: mla8i16:
				2072	; CHECK: @ %bb.0: @ %entry
				2073	; CHECK-NEXT: .save {r7, lr}
				2074	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2075	; CHECK-NEXT: cbz r2, .LBB24_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2076	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2077	; CHECK-NEXT: mov.w r12, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2078	; CHECK-NEXT: dlstp.16 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2079	; CHECK-NEXT: .LBB24_2: @ %vector.body
				2080	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2081	; CHECK-NEXT: vldrh.u16 q0, [r0], #16
				2082	; CHECK-NEXT: vldrh.u16 q1, [r1], #16
				2083	; CHECK-NEXT: vmlava.u16 r12, q1, q0
				2084	; CHECK-NEXT: letp lr, .LBB24_2
				2085	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2086	; CHECK-NEXT: sxth.w r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2087	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2088	; CHECK-NEXT: .LBB24_4:
				2089	; CHECK-NEXT: mov.w r12, #0
				2090	; CHECK-NEXT: sxth.w r0, r12
				2091	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2092	entry:
				2093	%cmp11.not = icmp eq i32 %n, 0
				2094	br i1 %cmp11.not, label %for.cond.cleanup, label %vector.ph
				2095
				2096	vector.ph: ; preds = %entry
				2097	%n.rnd.up = add i32 %n, 7
				2098	%n.vec = and i32 %n.rnd.up, -8
				2099	%trip.count.minus.1 = add i32 %n, -1
				2100	br label %vector.body
				2101
				2102	vector.body: ; preds = %vector.body, %vector.ph
				2103	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2104	%vec.phi = phi i16 [ 0, %vector.ph ], [ %7, %vector.body ]
				2105	%active.lane.mask = call <8 x i1> @llvm.get.active.lane.mask.v8i1.i32(i32 %index, i32 %trip.count.minus.1)
				2106	%0 = getelementptr inbounds i16, i16* %x, i32 %index
				2107	%1 = bitcast i16* %0 to <8 x i16>*
				2108	%wide.masked.load = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %1, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				2109	%2 = getelementptr inbounds i16, i16* %y, i32 %index
				2110	%3 = bitcast i16* %2 to <8 x i16>*
				2111	%wide.masked.load16 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %3, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				2112	%4 = mul <8 x i16> %wide.masked.load16, %wide.masked.load
				2113	%5 = select <8 x i1> %active.lane.mask, <8 x i16> %4, <8 x i16> zeroinitializer
				2114	%6 = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %5)
				2115	%7 = add i16 %6, %vec.phi
				2116	%index.next = add i32 %index, 8
				2117	%8 = icmp eq i32 %index.next, %n.vec
				2118	br i1 %8, label %for.cond.cleanup, label %vector.body
				2119
				2120	for.cond.cleanup: ; preds = %vector.body, %entry
				2121	%s.0.lcssa = phi i16 [ 0, %entry ], [ %7, %vector.body ]
				2122	ret i16 %s.0.lcssa
				2123	}
				2124
				2125	define signext i16 @add16i16(i8* noalias nocapture readonly %x, i32 %n) {
				2126	; CHECK-LABEL: add16i16:
				2127	; CHECK: @ %bb.0: @ %entry
				2128	; CHECK-NEXT: .save {r7, lr}
				2129	; CHECK-NEXT: push {r7, lr}
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame^]	2130	; CHECK-NEXT: cbz r1, .LBB25_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2131	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2132	; CHECK-NEXT: movs r2, #0
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame^]	2133	; CHECK-NEXT: dlstp.8 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2134	; CHECK-NEXT: .LBB25_2: @ %vector.body
				2135	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame^]	2136	; CHECK-NEXT: vldrb.u8 q0, [r0], #16
				2137	; CHECK-NEXT: vaddva.u8 r2, q0
				2138	; CHECK-NEXT: letp lr, .LBB25_2
				2139	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2140	; CHECK-NEXT: sxth r0, r2
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame^]	2141	; CHECK-NEXT: pop {r7, pc}
				2142	; CHECK-NEXT: .LBB25_4:
				2143	; CHECK-NEXT: movs r2, #0
				2144	; CHECK-NEXT: sxth r0, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2145	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2146	entry:
				2147	%cmp8.not = icmp eq i32 %n, 0
				2148	br i1 %cmp8.not, label %for.cond.cleanup, label %vector.ph
				2149
				2150	vector.ph: ; preds = %entry
				2151	%n.rnd.up = add i32 %n, 15
				2152	%n.vec = and i32 %n.rnd.up, -16
				2153	%trip.count.minus.1 = add i32 %n, -1
				2154	br label %vector.body
				2155
				2156	vector.body: ; preds = %vector.body, %vector.ph
				2157	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2158	%vec.phi = phi i16 [ 0, %vector.ph ], [ %5, %vector.body ]
				2159	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %trip.count.minus.1)
				2160	%0 = getelementptr inbounds i8, i8* %x, i32 %index
				2161	%1 = bitcast i8* %0 to <16 x i8>*
				2162	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2163	%2 = zext <16 x i8> %wide.masked.load to <16 x i16>
				2164	%3 = select <16 x i1> %active.lane.mask, <16 x i16> %2, <16 x i16> zeroinitializer
				2165	%4 = call i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16> %3)
				2166	%5 = add i16 %4, %vec.phi
				2167	%index.next = add i32 %index, 16
				2168	%6 = icmp eq i32 %index.next, %n.vec
				2169	br i1 %6, label %for.cond.cleanup, label %vector.body
				2170
				2171	for.cond.cleanup: ; preds = %vector.body, %entry
				2172	%s.0.lcssa = phi i16 [ 0, %entry ], [ %5, %vector.body ]
				2173	ret i16 %s.0.lcssa
				2174	}
				2175
				2176	define signext i16 @mla16i16(i8* noalias nocapture readonly %x, i8* noalias nocapture readonly %y, i32 %n) {
				2177	; CHECK-LABEL: mla16i16:
				2178	; CHECK: @ %bb.0: @ %entry
				2179	; CHECK-NEXT: .save {r7, lr}
				2180	; CHECK-NEXT: push {r7, lr}
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame^]	2181	; CHECK-NEXT: cbz r2, .LBB26_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2182	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2183	; CHECK-NEXT: mov.w r12, #0
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame^]	2184	; CHECK-NEXT: dlstp.8 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2185	; CHECK-NEXT: .LBB26_2: @ %vector.body
				2186	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame^]	2187	; CHECK-NEXT: vldrb.u8 q0, [r0], #16
				2188	; CHECK-NEXT: vldrb.u8 q1, [r1], #16
				2189	; CHECK-NEXT: vmlava.u8 r12, q1, q0
				2190	; CHECK-NEXT: letp lr, .LBB26_2
				2191	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2192	; CHECK-NEXT: sxth.w r0, r12
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame^]	2193	; CHECK-NEXT: pop {r7, pc}
				2194	; CHECK-NEXT: .LBB26_4:
				2195	; CHECK-NEXT: mov.w r12, #0
				2196	; CHECK-NEXT: sxth.w r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2197	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2198	entry:
				2199	%cmp13.not = icmp eq i32 %n, 0
				2200	br i1 %cmp13.not, label %for.cond.cleanup, label %vector.ph
				2201
				2202	vector.ph: ; preds = %entry
				2203	%n.rnd.up = add i32 %n, 15
				2204	%n.vec = and i32 %n.rnd.up, -16
				2205	%trip.count.minus.1 = add i32 %n, -1
				2206	br label %vector.body
				2207
				2208	vector.body: ; preds = %vector.body, %vector.ph
				2209	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2210	%vec.phi = phi i16 [ 0, %vector.ph ], [ %9, %vector.body ]
				2211	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %trip.count.minus.1)
				2212	%0 = getelementptr inbounds i8, i8* %x, i32 %index
				2213	%1 = bitcast i8* %0 to <16 x i8>*
				2214	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2215	%2 = zext <16 x i8> %wide.masked.load to <16 x i16>
				2216	%3 = getelementptr inbounds i8, i8* %y, i32 %index
				2217	%4 = bitcast i8* %3 to <16 x i8>*
				2218	%wide.masked.load18 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %4, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2219	%5 = zext <16 x i8> %wide.masked.load18 to <16 x i16>
				2220	%6 = mul nuw <16 x i16> %5, %2
				2221	%7 = select <16 x i1> %active.lane.mask, <16 x i16> %6, <16 x i16> zeroinitializer
				2222	%8 = call i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16> %7)
				2223	%9 = add i16 %8, %vec.phi
				2224	%index.next = add i32 %index, 16
				2225	%10 = icmp eq i32 %index.next, %n.vec
				2226	br i1 %10, label %for.cond.cleanup, label %vector.body
				2227
				2228	for.cond.cleanup: ; preds = %vector.body, %entry
				2229	%s.0.lcssa = phi i16 [ 0, %entry ], [ %9, %vector.body ]
				2230	ret i16 %s.0.lcssa
				2231	}
				2232
				2233	define zeroext i8 @add16i8(i8* noalias nocapture readonly %x, i32 %n) {
				2234	; CHECK-LABEL: add16i8:
				2235	; CHECK: @ %bb.0: @ %entry
				2236	; CHECK-NEXT: .save {r7, lr}
				2237	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2238	; CHECK-NEXT: cbz r1, .LBB27_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2239	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2240	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2241	; CHECK-NEXT: dlstp.8 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2242	; CHECK-NEXT: .LBB27_2: @ %vector.body
				2243	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2244	; CHECK-NEXT: vldrb.u8 q0, [r0], #16
				2245	; CHECK-NEXT: vaddva.u8 r2, q0
				2246	; CHECK-NEXT: letp lr, .LBB27_2
				2247	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2248	; CHECK-NEXT: uxtb r0, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2249	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2250	; CHECK-NEXT: .LBB27_4:
				2251	; CHECK-NEXT: movs r2, #0
				2252	; CHECK-NEXT: uxtb r0, r2
				2253	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2254	entry:
				2255	%cmp7.not = icmp eq i32 %n, 0
				2256	br i1 %cmp7.not, label %for.cond.cleanup, label %vector.ph
				2257
				2258	vector.ph: ; preds = %entry
				2259	%n.rnd.up = add i32 %n, 15
				2260	%n.vec = and i32 %n.rnd.up, -16
				2261	%trip.count.minus.1 = add i32 %n, -1
				2262	br label %vector.body
				2263
				2264	vector.body: ; preds = %vector.body, %vector.ph
				2265	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2266	%vec.phi = phi i8 [ 0, %vector.ph ], [ %4, %vector.body ]
				2267	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %trip.count.minus.1)
				2268	%0 = getelementptr inbounds i8, i8* %x, i32 %index
				2269	%1 = bitcast i8* %0 to <16 x i8>*
				2270	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2271	%2 = select <16 x i1> %active.lane.mask, <16 x i8> %wide.masked.load, <16 x i8> zeroinitializer
				2272	%3 = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %2)
				2273	%4 = add i8 %3, %vec.phi
				2274	%index.next = add i32 %index, 16
				2275	%5 = icmp eq i32 %index.next, %n.vec
				2276	br i1 %5, label %for.cond.cleanup, label %vector.body
				2277
				2278	for.cond.cleanup: ; preds = %vector.body, %entry
				2279	%s.0.lcssa = phi i8 [ 0, %entry ], [ %4, %vector.body ]
				2280	ret i8 %s.0.lcssa
				2281	}
				2282
				2283	define zeroext i8 @mla16i8(i8* noalias nocapture readonly %x, i8* noalias nocapture readonly %y, i32 %n) {
				2284	; CHECK-LABEL: mla16i8:
				2285	; CHECK: @ %bb.0: @ %entry
				2286	; CHECK-NEXT: .save {r7, lr}
				2287	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2288	; CHECK-NEXT: cbz r2, .LBB28_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2289	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2290	; CHECK-NEXT: mov.w r12, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2291	; CHECK-NEXT: dlstp.8 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2292	; CHECK-NEXT: .LBB28_2: @ %vector.body
				2293	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2294	; CHECK-NEXT: vldrb.u8 q0, [r0], #16
				2295	; CHECK-NEXT: vldrb.u8 q1, [r1], #16
				2296	; CHECK-NEXT: vmlava.u8 r12, q1, q0
				2297	; CHECK-NEXT: letp lr, .LBB28_2
				2298	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2299	; CHECK-NEXT: uxtb.w r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2300	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2301	; CHECK-NEXT: .LBB28_4:
				2302	; CHECK-NEXT: mov.w r12, #0
				2303	; CHECK-NEXT: uxtb.w r0, r12
				2304	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2305	entry:
				2306	%cmp10.not = icmp eq i32 %n, 0
				2307	br i1 %cmp10.not, label %for.cond.cleanup, label %vector.ph
				2308
				2309	vector.ph: ; preds = %entry
				2310	%n.rnd.up = add i32 %n, 15
				2311	%n.vec = and i32 %n.rnd.up, -16
				2312	%trip.count.minus.1 = add i32 %n, -1
				2313	br label %vector.body
				2314
				2315	vector.body: ; preds = %vector.body, %vector.ph
				2316	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2317	%vec.phi = phi i8 [ 0, %vector.ph ], [ %7, %vector.body ]
				2318	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %trip.count.minus.1)
				2319	%0 = getelementptr inbounds i8, i8* %x, i32 %index
				2320	%1 = bitcast i8* %0 to <16 x i8>*
				2321	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2322	%2 = getelementptr inbounds i8, i8* %y, i32 %index
				2323	%3 = bitcast i8* %2 to <16 x i8>*
				2324	%wide.masked.load15 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %3, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2325	%4 = mul <16 x i8> %wide.masked.load15, %wide.masked.load
				2326	%5 = select <16 x i1> %active.lane.mask, <16 x i8> %4, <16 x i8> zeroinitializer
				2327	%6 = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %5)
				2328	%7 = add i8 %6, %vec.phi
				2329	%index.next = add i32 %index, 16
				2330	%8 = icmp eq i32 %index.next, %n.vec
				2331	br i1 %8, label %for.cond.cleanup, label %vector.body
				2332
				2333	for.cond.cleanup: ; preds = %vector.body, %entry
				2334	%s.0.lcssa = phi i8 [ 0, %entry ], [ %7, %vector.body ]
				2335	ret i8 %s.0.lcssa
				2336	}
				2337
				2338	define i64 @add4i64(i32* noalias nocapture readonly %x, i32 %n) {
				2339	; CHECK-LABEL: add4i64:
				2340	; CHECK: @ %bb.0: @ %entry
				2341	; CHECK-NEXT: .save {r7, lr}
				2342	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2343	; CHECK-NEXT: cbz r1, .LBB29_3
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2344	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2345	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2346	; CHECK-NEXT: mov r3, r2
				2347	; CHECK-NEXT: dlstp.32 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2348	; CHECK-NEXT: .LBB29_2: @ %vector.body
				2349	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2350	; CHECK-NEXT: vldrw.u32 q0, [r0], #16
				2351	; CHECK-NEXT: vaddlva.s32 r2, r3, q0
				2352	; CHECK-NEXT: letp lr, .LBB29_2
				2353	; CHECK-NEXT: b .LBB29_4
				2354	; CHECK-NEXT: .LBB29_3:
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2355	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2356	; CHECK-NEXT: mov r3, r2
				2357	; CHECK-NEXT: .LBB29_4: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2358	; CHECK-NEXT: mov r0, r2
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2359	; CHECK-NEXT: mov r1, r3
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2360	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2361	entry:
				2362	%cmp6.not = icmp eq i32 %n, 0
				2363	br i1 %cmp6.not, label %for.cond.cleanup, label %vector.ph
				2364
				2365	vector.ph: ; preds = %entry
				2366	%n.rnd.up = add i32 %n, 3
				2367	%n.vec = and i32 %n.rnd.up, -4
				2368	%trip.count.minus.1 = add i32 %n, -1
				2369	br label %vector.body
				2370
				2371	vector.body: ; preds = %vector.body, %vector.ph
				2372	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2373	%vec.phi = phi i64 [ 0, %vector.ph ], [ %5, %vector.body ]
				2374	%active.lane.mask = call <4 x i1> @llvm.get.active.lane.mask.v4i1.i32(i32 %index, i32 %trip.count.minus.1)
				2375	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				2376	%1 = bitcast i32* %0 to <4 x i32>*
				2377	%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %1, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
				2378	%2 = sext <4 x i32> %wide.masked.load to <4 x i64>
				2379	%3 = select <4 x i1> %active.lane.mask, <4 x i64> %2, <4 x i64> zeroinitializer
				2380	%4 = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %3)
				2381	%5 = add i64 %4, %vec.phi
				2382	%index.next = add i32 %index, 4
				2383	%6 = icmp eq i32 %index.next, %n.vec
				2384	br i1 %6, label %for.cond.cleanup, label %vector.body
				2385
				2386	for.cond.cleanup: ; preds = %vector.body, %entry
				2387	%s.0.lcssa = phi i64 [ 0, %entry ], [ %5, %vector.body ]
				2388	ret i64 %s.0.lcssa
				2389	}
				2390
				2391	define i64 @mla4i64(i32* noalias nocapture readonly %x, i32* noalias nocapture readonly %y, i32 %n) {
				2392	; CHECK-LABEL: mla4i64:
				2393	; CHECK: @ %bb.0: @ %entry
				2394	; CHECK-NEXT: .save {r7, lr}
				2395	; CHECK-NEXT: push {r7, lr}
				2396	; CHECK-NEXT: cbz r2, .LBB30_3
				2397	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2398	; CHECK-NEXT: mov.w r12, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2399	; CHECK-NEXT: mov r3, r12
				2400	; CHECK-NEXT: dlstp.32 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2401	; CHECK-NEXT: .LBB30_2: @ %vector.body
				2402	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2403	; CHECK-NEXT: vldrw.u32 q0, [r0], #16
				2404	; CHECK-NEXT: vldrw.u32 q1, [r1], #16
				2405	; CHECK-NEXT: vmlalva.s32 r12, r3, q1, q0
				2406	; CHECK-NEXT: letp lr, .LBB30_2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2407	; CHECK-NEXT: b .LBB30_4
				2408	; CHECK-NEXT: .LBB30_3:
				2409	; CHECK-NEXT: mov.w r12, #0
				2410	; CHECK-NEXT: mov r3, r12
				2411	; CHECK-NEXT: .LBB30_4: @ %for.cond.cleanup
				2412	; CHECK-NEXT: mov r0, r12
				2413	; CHECK-NEXT: mov r1, r3
				2414	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2415	entry:
				2416	%cmp9.not = icmp eq i32 %n, 0
				2417	br i1 %cmp9.not, label %for.cond.cleanup, label %vector.ph
				2418
				2419	vector.ph: ; preds = %entry
				2420	%n.rnd.up = add i32 %n, 3
				2421	%n.vec = and i32 %n.rnd.up, -4
				2422	%trip.count.minus.1 = add i32 %n, -1
				2423	br label %vector.body
				2424
				2425	vector.body: ; preds = %vector.body, %vector.ph
				2426	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2427	%vec.phi = phi i64 [ 0, %vector.ph ], [ %9, %vector.body ]
				2428	%active.lane.mask = call <4 x i1> @llvm.get.active.lane.mask.v4i1.i32(i32 %index, i32 %trip.count.minus.1)
				2429	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				2430	%1 = bitcast i32* %0 to <4 x i32>*
				2431	%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %1, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
				2432	%2 = sext <4 x i32> %wide.masked.load to <4 x i64>
				2433	%3 = getelementptr inbounds i32, i32* %y, i32 %index
				2434	%4 = bitcast i32* %3 to <4 x i32>*
				2435	%wide.masked.load14 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %4, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
				2436	%5 = sext <4 x i32> %wide.masked.load14 to <4 x i64>
				2437	%6 = mul nsw <4 x i64> %5, %2
				2438	%7 = select <4 x i1> %active.lane.mask, <4 x i64> %6, <4 x i64> zeroinitializer
				2439	%8 = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %7)
				2440	%9 = add i64 %8, %vec.phi
				2441	%index.next = add i32 %index, 4
				2442	%10 = icmp eq i32 %index.next, %n.vec
				2443	br i1 %10, label %for.cond.cleanup, label %vector.body
				2444
				2445	for.cond.cleanup: ; preds = %vector.body, %entry
				2446	%s.0.lcssa = phi i64 [ 0, %entry ], [ %9, %vector.body ]
				2447	ret i64 %s.0.lcssa
				2448	}
				2449
				2450	define i64 @mla8i64(i16* noalias nocapture readonly %x, i16* noalias nocapture readonly %y, i32 %n) {
				2451	; CHECK-LABEL: mla8i64:
				2452	; CHECK: @ %bb.0: @ %entry
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2453	; CHECK-NEXT: .save {r7, lr}
				2454	; CHECK-NEXT: push {r7, lr}
				2455	; CHECK-NEXT: cbz r2, .LBB31_3
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2456	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2457	; CHECK-NEXT: mov.w r12, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2458	; CHECK-NEXT: mov r3, r12
				2459	; CHECK-NEXT: dlstp.16 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2460	; CHECK-NEXT: .LBB31_2: @ %vector.body
				2461	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2462	; CHECK-NEXT: vldrh.u16 q0, [r0], #16
				2463	; CHECK-NEXT: vldrh.u16 q1, [r1], #16
				2464	; CHECK-NEXT: vmlalva.s16 r12, r3, q1, q0
				2465	; CHECK-NEXT: letp lr, .LBB31_2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2466	; CHECK-NEXT: b .LBB31_4
				2467	; CHECK-NEXT: .LBB31_3:
				2468	; CHECK-NEXT: mov.w r12, #0
				2469	; CHECK-NEXT: mov r3, r12
				2470	; CHECK-NEXT: .LBB31_4: @ %for.cond.cleanup
				2471	; CHECK-NEXT: mov r0, r12
				2472	; CHECK-NEXT: mov r1, r3
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2473	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2474	entry:
				2475	%cmp9.not = icmp eq i32 %n, 0
				2476	br i1 %cmp9.not, label %for.cond.cleanup, label %vector.ph
				2477
				2478	vector.ph: ; preds = %entry
				2479	%n.rnd.up = add i32 %n, 7
				2480	%n.vec = and i32 %n.rnd.up, -8
				2481	%trip.count.minus.1 = add i32 %n, -1
				2482	br label %vector.body
				2483
				2484	vector.body: ; preds = %vector.body, %vector.ph
				2485	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2486	%vec.phi = phi i64 [ 0, %vector.ph ], [ %9, %vector.body ]
				2487	%active.lane.mask = call <8 x i1> @llvm.get.active.lane.mask.v8i1.i32(i32 %index, i32 %trip.count.minus.1)
				2488	%0 = getelementptr inbounds i16, i16* %x, i32 %index
				2489	%1 = bitcast i16* %0 to <8 x i16>*
				2490	%wide.masked.load = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %1, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				2491	%2 = sext <8 x i16> %wide.masked.load to <8 x i64>
				2492	%3 = getelementptr inbounds i16, i16* %y, i32 %index
				2493	%4 = bitcast i16* %3 to <8 x i16>*
				2494	%wide.masked.load14 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %4, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				2495	%5 = sext <8 x i16> %wide.masked.load14 to <8 x i64>
				2496	%6 = mul nsw <8 x i64> %5, %2
				2497	%7 = select <8 x i1> %active.lane.mask, <8 x i64> %6, <8 x i64> zeroinitializer
				2498	%8 = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %7)
				2499	%9 = add i64 %8, %vec.phi
				2500	%index.next = add i32 %index, 8
				2501	%10 = icmp eq i32 %index.next, %n.vec
				2502	br i1 %10, label %for.cond.cleanup, label %vector.body
				2503
				2504	for.cond.cleanup: ; preds = %vector.body, %entry
				2505	%s.0.lcssa = phi i64 [ 0, %entry ], [ %9, %vector.body ]
				2506	ret i64 %s.0.lcssa
				2507	}
				2508
				2509	declare <4 x i1> @llvm.get.active.lane.mask.v4i1.i32(i32, i32) #1
				2510	declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>) #2
				2511	declare <8 x i1> @llvm.get.active.lane.mask.v8i1.i32(i32, i32) #1
				2512	declare <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>*, i32 immarg, <8 x i1>, <8 x i16>) #2
				2513	declare i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32>) #3
				2514	declare <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32, i32) #1
				2515	declare <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>*, i32 immarg, <16 x i1>, <16 x i8>) #2
				2516	declare i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32>) #3
				2517	declare i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16>) #3
				2518	declare i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16>) #3
				2519	declare i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8>) #3
				2520	declare i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64>) #3
				2521	declare i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64>) #3
				2522
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	2523	declare i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32>)
				2524	declare i32 @llvm.experimental.vector.reduce.mul.v4i32(<4 x i32>)
				2525	declare i32 @llvm.experimental.vector.reduce.and.v4i32(<4 x i32>)
				2526	declare i32 @llvm.experimental.vector.reduce.or.v4i32(<4 x i32>)
				2527	declare i32 @llvm.experimental.vector.reduce.xor.v4i32(<4 x i32>)
				2528	declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float, <4 x float>)
				2529	declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float, <4 x float>)
				2530	declare i32 @llvm.experimental.vector.reduce.smin.v4i32(<4 x i32>)
				2531	declare i32 @llvm.experimental.vector.reduce.smax.v4i32(<4 x i32>)
				2532	declare i32 @llvm.experimental.vector.reduce.umin.v4i32(<4 x i32>)
				2533	declare i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32>)
				2534	declare float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float>)
				2535	declare float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float>)