Blame - llvm/test/CodeGen/Thumb2/mve-vecreduce-loops.ll - toolchain/llvm-project

blob: 0d22a7f3cd99df4b55291a6b6e09ea272422612a [file] [log] [blame]

David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				2	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs %s -o - \| FileCheck %s
				3
				4	define i32 @add_i32(i32* nocapture readonly %x, i32 %n) {
				5	; CHECK-LABEL: add_i32:
				6	; CHECK: @ %bb.0: @ %entry
				7	; CHECK-NEXT: .save {r7, lr}
				8	; CHECK-NEXT: push {r7, lr}
				9	; CHECK-NEXT: cmp r1, #1
				10	; CHECK-NEXT: blt .LBB0_3
				11	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				12	; CHECK-NEXT: mov r12, r0
				13	; CHECK-NEXT: cmp r1, #4
				14	; CHECK-NEXT: bhs .LBB0_4
				15	; CHECK-NEXT: @ %bb.2:
				16	; CHECK-NEXT: movs r3, #0
				17	; CHECK-NEXT: movs r0, #0
				18	; CHECK-NEXT: b .LBB0_7
				19	; CHECK-NEXT: .LBB0_3:
				20	; CHECK-NEXT: movs r0, #0
				21	; CHECK-NEXT: b .LBB0_9
				22	; CHECK-NEXT: .LBB0_4: @ %vector.ph
				23	; CHECK-NEXT: bic r3, r1, #3
				24	; CHECK-NEXT: movs r2, #1
				25	; CHECK-NEXT: subs r0, r3, #4
				26	; CHECK-NEXT: add.w lr, r2, r0, lsr #2
				27	; CHECK-NEXT: movs r0, #0
				28	; CHECK-NEXT: mov r2, r12
				29	; CHECK-NEXT: dls lr, lr
				30	; CHECK-NEXT: .LBB0_5: @ %vector.body
				31	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				32	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				33	; CHECK-NEXT: vaddva.u32 r0, q0
				34	; CHECK-NEXT: le lr, .LBB0_5
				35	; CHECK-NEXT: @ %bb.6: @ %middle.block
				36	; CHECK-NEXT: cmp r3, r1
				37	; CHECK-NEXT: it eq
				38	; CHECK-NEXT: popeq {r7, pc}
				39	; CHECK-NEXT: .LBB0_7: @ %for.body.preheader1
				40	; CHECK-NEXT: sub.w lr, r1, r3
				41	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				42	; CHECK-NEXT: dls lr, lr
				43	; CHECK-NEXT: .LBB0_8: @ %for.body
				44	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				45	; CHECK-NEXT: ldr r2, [r1], #4
				46	; CHECK-NEXT: add r0, r2
				47	; CHECK-NEXT: le lr, .LBB0_8
				48	; CHECK-NEXT: .LBB0_9: @ %for.cond.cleanup
				49	; CHECK-NEXT: pop {r7, pc}
				50	entry:
				51	%cmp6 = icmp sgt i32 %n, 0
				52	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				53
				54	for.body.preheader: ; preds = %entry
				55	%min.iters.check = icmp ult i32 %n, 4
				56	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				57
				58	vector.ph: ; preds = %for.body.preheader
				59	%n.vec = and i32 %n, -4
				60	br label %vector.body
				61
				62	vector.body: ; preds = %vector.body, %vector.ph
				63	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				64	%vec.phi = phi i32 [ 0, %vector.ph ], [ %3, %vector.body ]
				65	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				66	%1 = bitcast i32* %0 to <4 x i32>*
				67	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				68	%2 = call i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32> %wide.load)
				69	%3 = add i32 %2, %vec.phi
				70	%index.next = add i32 %index, 4
				71	%4 = icmp eq i32 %index.next, %n.vec
				72	br i1 %4, label %middle.block, label %vector.body
				73
				74	middle.block: ; preds = %vector.body
				75	%cmp.n = icmp eq i32 %n.vec, %n
				76	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				77
				78	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				79	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				80	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %3, %middle.block ]
				81	br label %for.body
				82
				83	for.body: ; preds = %for.body.preheader1, %for.body
				84	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				85	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				86	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				87	%5 = load i32, i32* %arrayidx, align 4
				88	%add = add nsw i32 %5, %r.07
				89	%inc = add nuw nsw i32 %i.08, 1
				90	%exitcond = icmp eq i32 %inc, %n
				91	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				92
				93	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				94	%r.0.lcssa = phi i32 [ 0, %entry ], [ %3, %middle.block ], [ %add, %for.body ]
				95	ret i32 %r.0.lcssa
				96	}
				97
				98	define i32 @mul_i32(i32* nocapture readonly %x, i32 %n) {
				99	; CHECK-LABEL: mul_i32:
				100	; CHECK: @ %bb.0: @ %entry
				101	; CHECK-NEXT: .save {r7, lr}
				102	; CHECK-NEXT: push {r7, lr}
				103	; CHECK-NEXT: movs r2, #1
				104	; CHECK-NEXT: cmp r1, #1
				105	; CHECK-NEXT: blt .LBB1_8
				106	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				107	; CHECK-NEXT: cmp r1, #4
				108	; CHECK-NEXT: bhs .LBB1_3
				109	; CHECK-NEXT: @ %bb.2:
				110	; CHECK-NEXT: mov.w r12, #0
				111	; CHECK-NEXT: b .LBB1_6
				112	; CHECK-NEXT: .LBB1_3: @ %vector.ph
				113	; CHECK-NEXT: bic r12, r1, #3
				114	; CHECK-NEXT: vmov.i32 q0, #0x1
				115	; CHECK-NEXT: sub.w r3, r12, #4
				116	; CHECK-NEXT: add.w lr, r2, r3, lsr #2
				117	; CHECK-NEXT: mov r2, r0
				118	; CHECK-NEXT: dls lr, lr
				119	; CHECK-NEXT: .LBB1_4: @ %vector.body
				120	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				121	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				122	; CHECK-NEXT: vmul.i32 q0, q1, q0
				123	; CHECK-NEXT: le lr, .LBB1_4
				124	; CHECK-NEXT: @ %bb.5: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	125	; CHECK-NEXT: vmov r2, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	126	; CHECK-NEXT: cmp r12, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	127	; CHECK-NEXT: vmov r3, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	128	; CHECK-NEXT: mul lr, r3, r2
				129	; CHECK-NEXT: vmov r3, s1
				130	; CHECK-NEXT: vmov r2, s0
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	131	; CHECK-NEXT: mul r2, r3, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	132	; CHECK-NEXT: mul r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	133	; CHECK-NEXT: beq .LBB1_8
				134	; CHECK-NEXT: .LBB1_6: @ %for.body.preheader1
				135	; CHECK-NEXT: sub.w lr, r1, r12
				136	; CHECK-NEXT: add.w r0, r0, r12, lsl #2
				137	; CHECK-NEXT: dls lr, lr
				138	; CHECK-NEXT: .LBB1_7: @ %for.body
				139	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				140	; CHECK-NEXT: ldr r1, [r0], #4
				141	; CHECK-NEXT: muls r2, r1, r2
				142	; CHECK-NEXT: le lr, .LBB1_7
				143	; CHECK-NEXT: .LBB1_8: @ %for.cond.cleanup
				144	; CHECK-NEXT: mov r0, r2
				145	; CHECK-NEXT: pop {r7, pc}
				146	entry:
				147	%cmp6 = icmp sgt i32 %n, 0
				148	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				149
				150	for.body.preheader: ; preds = %entry
				151	%min.iters.check = icmp ult i32 %n, 4
				152	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				153
				154	vector.ph: ; preds = %for.body.preheader
				155	%n.vec = and i32 %n, -4
				156	br label %vector.body
				157
				158	vector.body: ; preds = %vector.body, %vector.ph
				159	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				160	%vec.phi = phi <4 x i32> [ <i32 1, i32 1, i32 1, i32 1>, %vector.ph ], [ %2, %vector.body ]
				161	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				162	%1 = bitcast i32* %0 to <4 x i32>*
				163	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				164	%2 = mul <4 x i32> %wide.load, %vec.phi
				165	%index.next = add i32 %index, 4
				166	%3 = icmp eq i32 %index.next, %n.vec
				167	br i1 %3, label %middle.block, label %vector.body
				168
				169	middle.block: ; preds = %vector.body
				170	%4 = call i32 @llvm.experimental.vector.reduce.mul.v4i32(<4 x i32> %2)
				171	%cmp.n = icmp eq i32 %n.vec, %n
				172	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				173
				174	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				175	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				176	%r.07.ph = phi i32 [ 1, %for.body.preheader ], [ %4, %middle.block ]
				177	br label %for.body
				178
				179	for.body: ; preds = %for.body.preheader1, %for.body
				180	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				181	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				182	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				183	%5 = load i32, i32* %arrayidx, align 4
				184	%add = mul nsw i32 %5, %r.07
				185	%inc = add nuw nsw i32 %i.08, 1
				186	%exitcond = icmp eq i32 %inc, %n
				187	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				188
				189	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				190	%r.0.lcssa = phi i32 [ 1, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				191	ret i32 %r.0.lcssa
				192	}
				193
				194	define i32 @and_i32(i32* nocapture readonly %x, i32 %n) {
				195	; CHECK-LABEL: and_i32:
				196	; CHECK: @ %bb.0: @ %entry
				197	; CHECK-NEXT: .save {r7, lr}
				198	; CHECK-NEXT: push {r7, lr}
				199	; CHECK-NEXT: cmp r1, #1
				200	; CHECK-NEXT: blt .LBB2_3
				201	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				202	; CHECK-NEXT: cmp r1, #4
				203	; CHECK-NEXT: bhs .LBB2_4
				204	; CHECK-NEXT: @ %bb.2:
				205	; CHECK-NEXT: mov.w r2, #-1
				206	; CHECK-NEXT: movs r3, #0
				207	; CHECK-NEXT: b .LBB2_7
				208	; CHECK-NEXT: .LBB2_3:
				209	; CHECK-NEXT: mov.w r2, #-1
				210	; CHECK-NEXT: b .LBB2_9
				211	; CHECK-NEXT: .LBB2_4: @ %vector.ph
				212	; CHECK-NEXT: bic r3, r1, #3
				213	; CHECK-NEXT: movs r2, #1
				214	; CHECK-NEXT: sub.w r12, r3, #4
				215	; CHECK-NEXT: vmov.i8 q0, #0xff
				216	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				217	; CHECK-NEXT: mov r2, r0
				218	; CHECK-NEXT: dls lr, lr
				219	; CHECK-NEXT: .LBB2_5: @ %vector.body
				220	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				221	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				222	; CHECK-NEXT: vand q0, q1, q0
				223	; CHECK-NEXT: le lr, .LBB2_5
				224	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	225	; CHECK-NEXT: vmov r12, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	226	; CHECK-NEXT: cmp r3, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	227	; CHECK-NEXT: vmov r2, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	228	; CHECK-NEXT: vmov lr, s1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	229	; CHECK-NEXT: and.w r12, r12, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	230	; CHECK-NEXT: vmov r2, s0
				231	; CHECK-NEXT: and.w r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	232	; CHECK-NEXT: and.w r2, r2, r12
				233	; CHECK-NEXT: beq .LBB2_9
				234	; CHECK-NEXT: .LBB2_7: @ %for.body.preheader1
				235	; CHECK-NEXT: sub.w lr, r1, r3
				236	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				237	; CHECK-NEXT: dls lr, lr
				238	; CHECK-NEXT: .LBB2_8: @ %for.body
				239	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				240	; CHECK-NEXT: ldr r1, [r0], #4
				241	; CHECK-NEXT: ands r2, r1
				242	; CHECK-NEXT: le lr, .LBB2_8
				243	; CHECK-NEXT: .LBB2_9: @ %for.cond.cleanup
				244	; CHECK-NEXT: mov r0, r2
				245	; CHECK-NEXT: pop {r7, pc}
				246	entry:
				247	%cmp6 = icmp sgt i32 %n, 0
				248	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				249
				250	for.body.preheader: ; preds = %entry
				251	%min.iters.check = icmp ult i32 %n, 4
				252	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				253
				254	vector.ph: ; preds = %for.body.preheader
				255	%n.vec = and i32 %n, -4
				256	br label %vector.body
				257
				258	vector.body: ; preds = %vector.body, %vector.ph
				259	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				260	%vec.phi = phi <4 x i32> [ <i32 -1, i32 -1, i32 -1, i32 -1>, %vector.ph ], [ %2, %vector.body ]
				261	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				262	%1 = bitcast i32* %0 to <4 x i32>*
				263	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				264	%2 = and <4 x i32> %wide.load, %vec.phi
				265	%index.next = add i32 %index, 4
				266	%3 = icmp eq i32 %index.next, %n.vec
				267	br i1 %3, label %middle.block, label %vector.body
				268
				269	middle.block: ; preds = %vector.body
				270	%4 = call i32 @llvm.experimental.vector.reduce.and.v4i32(<4 x i32> %2)
				271	%cmp.n = icmp eq i32 %n.vec, %n
				272	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				273
				274	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				275	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				276	%r.07.ph = phi i32 [ -1, %for.body.preheader ], [ %4, %middle.block ]
				277	br label %for.body
				278
				279	for.body: ; preds = %for.body.preheader1, %for.body
				280	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				281	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				282	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				283	%5 = load i32, i32* %arrayidx, align 4
				284	%add = and i32 %5, %r.07
				285	%inc = add nuw nsw i32 %i.08, 1
				286	%exitcond = icmp eq i32 %inc, %n
				287	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				288
				289	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				290	%r.0.lcssa = phi i32 [ -1, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				291	ret i32 %r.0.lcssa
				292	}
				293
				294	define i32 @or_i32(i32* nocapture readonly %x, i32 %n) {
				295	; CHECK-LABEL: or_i32:
				296	; CHECK: @ %bb.0: @ %entry
				297	; CHECK-NEXT: .save {r7, lr}
				298	; CHECK-NEXT: push {r7, lr}
				299	; CHECK-NEXT: cmp r1, #1
				300	; CHECK-NEXT: blt .LBB3_3
				301	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				302	; CHECK-NEXT: cmp r1, #4
				303	; CHECK-NEXT: bhs .LBB3_4
				304	; CHECK-NEXT: @ %bb.2:
				305	; CHECK-NEXT: movs r3, #0
				306	; CHECK-NEXT: movs r2, #0
				307	; CHECK-NEXT: b .LBB3_7
				308	; CHECK-NEXT: .LBB3_3:
				309	; CHECK-NEXT: movs r2, #0
				310	; CHECK-NEXT: b .LBB3_9
				311	; CHECK-NEXT: .LBB3_4: @ %vector.ph
				312	; CHECK-NEXT: bic r3, r1, #3
				313	; CHECK-NEXT: movs r2, #1
				314	; CHECK-NEXT: sub.w r12, r3, #4
				315	; CHECK-NEXT: vmov.i32 q0, #0x0
				316	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				317	; CHECK-NEXT: mov r2, r0
				318	; CHECK-NEXT: dls lr, lr
				319	; CHECK-NEXT: .LBB3_5: @ %vector.body
				320	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				321	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				322	; CHECK-NEXT: vorr q0, q1, q0
				323	; CHECK-NEXT: le lr, .LBB3_5
				324	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	325	; CHECK-NEXT: vmov r12, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	326	; CHECK-NEXT: cmp r3, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	327	; CHECK-NEXT: vmov r2, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	328	; CHECK-NEXT: vmov lr, s1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	329	; CHECK-NEXT: orr.w r12, r12, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	330	; CHECK-NEXT: vmov r2, s0
				331	; CHECK-NEXT: orr.w r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	332	; CHECK-NEXT: orr.w r2, r2, r12
				333	; CHECK-NEXT: beq .LBB3_9
				334	; CHECK-NEXT: .LBB3_7: @ %for.body.preheader1
				335	; CHECK-NEXT: sub.w lr, r1, r3
				336	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				337	; CHECK-NEXT: dls lr, lr
				338	; CHECK-NEXT: .LBB3_8: @ %for.body
				339	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				340	; CHECK-NEXT: ldr r1, [r0], #4
				341	; CHECK-NEXT: orrs r2, r1
				342	; CHECK-NEXT: le lr, .LBB3_8
				343	; CHECK-NEXT: .LBB3_9: @ %for.cond.cleanup
				344	; CHECK-NEXT: mov r0, r2
				345	; CHECK-NEXT: pop {r7, pc}
				346	entry:
				347	%cmp6 = icmp sgt i32 %n, 0
				348	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				349
				350	for.body.preheader: ; preds = %entry
				351	%min.iters.check = icmp ult i32 %n, 4
				352	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				353
				354	vector.ph: ; preds = %for.body.preheader
				355	%n.vec = and i32 %n, -4
				356	br label %vector.body
				357
				358	vector.body: ; preds = %vector.body, %vector.ph
				359	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				360	%vec.phi = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %2, %vector.body ]
				361	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				362	%1 = bitcast i32* %0 to <4 x i32>*
				363	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				364	%2 = or <4 x i32> %wide.load, %vec.phi
				365	%index.next = add i32 %index, 4
				366	%3 = icmp eq i32 %index.next, %n.vec
				367	br i1 %3, label %middle.block, label %vector.body
				368
				369	middle.block: ; preds = %vector.body
				370	%4 = call i32 @llvm.experimental.vector.reduce.or.v4i32(<4 x i32> %2)
				371	%cmp.n = icmp eq i32 %n.vec, %n
				372	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				373
				374	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				375	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				376	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %4, %middle.block ]
				377	br label %for.body
				378
				379	for.body: ; preds = %for.body.preheader1, %for.body
				380	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				381	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				382	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				383	%5 = load i32, i32* %arrayidx, align 4
				384	%add = or i32 %5, %r.07
				385	%inc = add nuw nsw i32 %i.08, 1
				386	%exitcond = icmp eq i32 %inc, %n
				387	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				388
				389	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				390	%r.0.lcssa = phi i32 [ 0, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				391	ret i32 %r.0.lcssa
				392	}
				393
				394	define i32 @xor_i32(i32* nocapture readonly %x, i32 %n) {
				395	; CHECK-LABEL: xor_i32:
				396	; CHECK: @ %bb.0: @ %entry
				397	; CHECK-NEXT: .save {r7, lr}
				398	; CHECK-NEXT: push {r7, lr}
				399	; CHECK-NEXT: cmp r1, #1
				400	; CHECK-NEXT: blt .LBB4_3
				401	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				402	; CHECK-NEXT: cmp r1, #4
				403	; CHECK-NEXT: bhs .LBB4_4
				404	; CHECK-NEXT: @ %bb.2:
				405	; CHECK-NEXT: movs r3, #0
				406	; CHECK-NEXT: movs r2, #0
				407	; CHECK-NEXT: b .LBB4_7
				408	; CHECK-NEXT: .LBB4_3:
				409	; CHECK-NEXT: movs r2, #0
				410	; CHECK-NEXT: b .LBB4_9
				411	; CHECK-NEXT: .LBB4_4: @ %vector.ph
				412	; CHECK-NEXT: bic r3, r1, #3
				413	; CHECK-NEXT: movs r2, #1
				414	; CHECK-NEXT: sub.w r12, r3, #4
				415	; CHECK-NEXT: vmov.i32 q0, #0x0
				416	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				417	; CHECK-NEXT: mov r2, r0
				418	; CHECK-NEXT: dls lr, lr
				419	; CHECK-NEXT: .LBB4_5: @ %vector.body
				420	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				421	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				422	; CHECK-NEXT: veor q0, q1, q0
				423	; CHECK-NEXT: le lr, .LBB4_5
				424	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	425	; CHECK-NEXT: vmov r12, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	426	; CHECK-NEXT: cmp r3, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	427	; CHECK-NEXT: vmov r2, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	428	; CHECK-NEXT: vmov lr, s1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	429	; CHECK-NEXT: eor.w r12, r12, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	430	; CHECK-NEXT: vmov r2, s0
				431	; CHECK-NEXT: eor.w r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	432	; CHECK-NEXT: eor.w r2, r2, r12
				433	; CHECK-NEXT: beq .LBB4_9
				434	; CHECK-NEXT: .LBB4_7: @ %for.body.preheader1
				435	; CHECK-NEXT: sub.w lr, r1, r3
				436	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				437	; CHECK-NEXT: dls lr, lr
				438	; CHECK-NEXT: .LBB4_8: @ %for.body
				439	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				440	; CHECK-NEXT: ldr r1, [r0], #4
				441	; CHECK-NEXT: eors r2, r1
				442	; CHECK-NEXT: le lr, .LBB4_8
				443	; CHECK-NEXT: .LBB4_9: @ %for.cond.cleanup
				444	; CHECK-NEXT: mov r0, r2
				445	; CHECK-NEXT: pop {r7, pc}
				446	entry:
				447	%cmp6 = icmp sgt i32 %n, 0
				448	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				449
				450	for.body.preheader: ; preds = %entry
				451	%min.iters.check = icmp ult i32 %n, 4
				452	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				453
				454	vector.ph: ; preds = %for.body.preheader
				455	%n.vec = and i32 %n, -4
				456	br label %vector.body
				457
				458	vector.body: ; preds = %vector.body, %vector.ph
				459	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				460	%vec.phi = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %2, %vector.body ]
				461	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				462	%1 = bitcast i32* %0 to <4 x i32>*
				463	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				464	%2 = xor <4 x i32> %wide.load, %vec.phi
				465	%index.next = add i32 %index, 4
				466	%3 = icmp eq i32 %index.next, %n.vec
				467	br i1 %3, label %middle.block, label %vector.body
				468
				469	middle.block: ; preds = %vector.body
				470	%4 = call i32 @llvm.experimental.vector.reduce.xor.v4i32(<4 x i32> %2)
				471	%cmp.n = icmp eq i32 %n.vec, %n
				472	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				473
				474	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				475	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				476	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %4, %middle.block ]
				477	br label %for.body
				478
				479	for.body: ; preds = %for.body.preheader1, %for.body
				480	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				481	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				482	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				483	%5 = load i32, i32* %arrayidx, align 4
				484	%add = xor i32 %5, %r.07
				485	%inc = add nuw nsw i32 %i.08, 1
				486	%exitcond = icmp eq i32 %inc, %n
				487	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				488
				489	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				490	%r.0.lcssa = phi i32 [ 0, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				491	ret i32 %r.0.lcssa
				492	}
				493
				494	define float @fadd_f32(float* nocapture readonly %x, i32 %n) {
				495	; CHECK-LABEL: fadd_f32:
				496	; CHECK: @ %bb.0: @ %entry
				497	; CHECK-NEXT: .save {r7, lr}
				498	; CHECK-NEXT: push {r7, lr}
				499	; CHECK-NEXT: cmp r1, #1
				500	; CHECK-NEXT: blt .LBB5_3
				501	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				502	; CHECK-NEXT: cmp r1, #4
				503	; CHECK-NEXT: bhs .LBB5_4
				504	; CHECK-NEXT: @ %bb.2:
				505	; CHECK-NEXT: vldr s0, .LCPI5_0
				506	; CHECK-NEXT: movs r2, #0
				507	; CHECK-NEXT: b .LBB5_7
				508	; CHECK-NEXT: .LBB5_3:
				509	; CHECK-NEXT: vldr s0, .LCPI5_0
				510	; CHECK-NEXT: b .LBB5_9
				511	; CHECK-NEXT: .LBB5_4: @ %vector.ph
				512	; CHECK-NEXT: bic r2, r1, #3
				513	; CHECK-NEXT: movs r3, #1
				514	; CHECK-NEXT: sub.w r12, r2, #4
				515	; CHECK-NEXT: vmov.i32 q0, #0x0
				516	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				517	; CHECK-NEXT: mov r3, r0
				518	; CHECK-NEXT: dls lr, lr
				519	; CHECK-NEXT: .LBB5_5: @ %vector.body
				520	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				521	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				522	; CHECK-NEXT: vadd.f32 q0, q1, q0
				523	; CHECK-NEXT: le lr, .LBB5_5
				524	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	525	; CHECK-NEXT: vadd.f32 s4, s2, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	526	; CHECK-NEXT: cmp r2, r1
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	527	; CHECK-NEXT: vadd.f32 s0, s0, s1
				528	; CHECK-NEXT: vadd.f32 s0, s0, s4
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	529	; CHECK-NEXT: beq .LBB5_9
				530	; CHECK-NEXT: .LBB5_7: @ %for.body.preheader1
				531	; CHECK-NEXT: sub.w lr, r1, r2
				532	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				533	; CHECK-NEXT: dls lr, lr
				534	; CHECK-NEXT: .LBB5_8: @ %for.body
				535	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				536	; CHECK-NEXT: vldr s2, [r0]
				537	; CHECK-NEXT: adds r0, #4
				538	; CHECK-NEXT: vadd.f32 s0, s2, s0
				539	; CHECK-NEXT: le lr, .LBB5_8
				540	; CHECK-NEXT: .LBB5_9: @ %for.cond.cleanup
				541	; CHECK-NEXT: vmov r0, s0
				542	; CHECK-NEXT: pop {r7, pc}
				543	; CHECK-NEXT: .p2align 2
				544	; CHECK-NEXT: @ %bb.10:
				545	; CHECK-NEXT: .LCPI5_0:
				546	; CHECK-NEXT: .long 0x00000000 @ float 0
				547	entry:
				548	%cmp6 = icmp sgt i32 %n, 0
				549	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				550
				551	for.body.preheader: ; preds = %entry
				552	%min.iters.check = icmp ult i32 %n, 4
				553	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				554
				555	vector.ph: ; preds = %for.body.preheader
				556	%n.vec = and i32 %n, -4
				557	br label %vector.body
				558
				559	vector.body: ; preds = %vector.body, %vector.ph
				560	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				561	%vec.phi = phi <4 x float> [ zeroinitializer, %vector.ph ], [ %2, %vector.body ]
				562	%0 = getelementptr inbounds float, float* %x, i32 %index
				563	%1 = bitcast float* %0 to <4 x float>*
				564	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				565	%2 = fadd fast <4 x float> %wide.load, %vec.phi
				566	%index.next = add i32 %index, 4
				567	%3 = icmp eq i32 %index.next, %n.vec
				568	br i1 %3, label %middle.block, label %vector.body
				569
				570	middle.block: ; preds = %vector.body
				571	%4 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.000000e+00, <4 x float> %2)
				572	%cmp.n = icmp eq i32 %n.vec, %n
				573	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				574
				575	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				576	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				577	%r.07.ph = phi float [ 0.000000e+00, %for.body.preheader ], [ %4, %middle.block ]
				578	br label %for.body
				579
				580	for.body: ; preds = %for.body.preheader1, %for.body
				581	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				582	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				583	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				584	%5 = load float, float* %arrayidx, align 4
				585	%add = fadd fast float %5, %r.07
				586	%inc = add nuw nsw i32 %i.08, 1
				587	%exitcond = icmp eq i32 %inc, %n
				588	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				589
				590	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				591	%r.0.lcssa = phi float [ 0.000000e+00, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				592	ret float %r.0.lcssa
				593	}
				594
				595	define float @fmul_f32(float* nocapture readonly %x, i32 %n) {
				596	; CHECK-LABEL: fmul_f32:
				597	; CHECK: @ %bb.0: @ %entry
				598	; CHECK-NEXT: .save {r7, lr}
				599	; CHECK-NEXT: push {r7, lr}
				600	; CHECK-NEXT: cmp r1, #1
				601	; CHECK-NEXT: blt .LBB6_3
				602	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				603	; CHECK-NEXT: cmp r1, #4
				604	; CHECK-NEXT: bhs .LBB6_4
				605	; CHECK-NEXT: @ %bb.2:
				606	; CHECK-NEXT: vmov.f32 s0, #1.000000e+00
				607	; CHECK-NEXT: movs r2, #0
				608	; CHECK-NEXT: b .LBB6_7
				609	; CHECK-NEXT: .LBB6_3:
				610	; CHECK-NEXT: vmov.f32 s0, #1.000000e+00
				611	; CHECK-NEXT: b .LBB6_9
				612	; CHECK-NEXT: .LBB6_4: @ %vector.ph
				613	; CHECK-NEXT: bic r2, r1, #3
				614	; CHECK-NEXT: movs r3, #1
				615	; CHECK-NEXT: sub.w r12, r2, #4
				616	; CHECK-NEXT: vmov.f32 q0, #1.000000e+00
				617	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				618	; CHECK-NEXT: mov r3, r0
				619	; CHECK-NEXT: dls lr, lr
				620	; CHECK-NEXT: .LBB6_5: @ %vector.body
				621	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				622	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				623	; CHECK-NEXT: vmul.f32 q0, q1, q0
				624	; CHECK-NEXT: le lr, .LBB6_5
				625	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	626	; CHECK-NEXT: vmul.f32 s4, s2, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	627	; CHECK-NEXT: cmp r2, r1
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	628	; CHECK-NEXT: vmul.f32 s0, s0, s1
				629	; CHECK-NEXT: vmul.f32 s0, s0, s4
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	630	; CHECK-NEXT: beq .LBB6_9
				631	; CHECK-NEXT: .LBB6_7: @ %for.body.preheader1
				632	; CHECK-NEXT: sub.w lr, r1, r2
				633	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				634	; CHECK-NEXT: dls lr, lr
				635	; CHECK-NEXT: .LBB6_8: @ %for.body
				636	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				637	; CHECK-NEXT: vldr s2, [r0]
				638	; CHECK-NEXT: adds r0, #4
				639	; CHECK-NEXT: vmul.f32 s0, s2, s0
				640	; CHECK-NEXT: le lr, .LBB6_8
				641	; CHECK-NEXT: .LBB6_9: @ %for.cond.cleanup
				642	; CHECK-NEXT: vmov r0, s0
				643	; CHECK-NEXT: pop {r7, pc}
				644	entry:
				645	%cmp6 = icmp sgt i32 %n, 0
				646	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				647
				648	for.body.preheader: ; preds = %entry
				649	%min.iters.check = icmp ult i32 %n, 4
				650	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				651
				652	vector.ph: ; preds = %for.body.preheader
				653	%n.vec = and i32 %n, -4
				654	br label %vector.body
				655
				656	vector.body: ; preds = %vector.body, %vector.ph
				657	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				658	%vec.phi = phi <4 x float> [ <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, %vector.ph ], [ %2, %vector.body ]
				659	%0 = getelementptr inbounds float, float* %x, i32 %index
				660	%1 = bitcast float* %0 to <4 x float>*
				661	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				662	%2 = fmul fast <4 x float> %wide.load, %vec.phi
				663	%index.next = add i32 %index, 4
				664	%3 = icmp eq i32 %index.next, %n.vec
				665	br i1 %3, label %middle.block, label %vector.body
				666
				667	middle.block: ; preds = %vector.body
				668	%4 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.000000e+00, <4 x float> %2)
				669	%cmp.n = icmp eq i32 %n.vec, %n
				670	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				671
				672	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				673	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				674	%r.07.ph = phi float [ 1.000000e+00, %for.body.preheader ], [ %4, %middle.block ]
				675	br label %for.body
				676
				677	for.body: ; preds = %for.body.preheader1, %for.body
				678	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				679	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				680	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				681	%5 = load float, float* %arrayidx, align 4
				682	%add = fmul fast float %5, %r.07
				683	%inc = add nuw nsw i32 %i.08, 1
				684	%exitcond = icmp eq i32 %inc, %n
				685	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				686
				687	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				688	%r.0.lcssa = phi float [ 1.000000e+00, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				689	ret float %r.0.lcssa
				690	}
				691
				692	define i32 @smin_i32(i32* nocapture readonly %x, i32 %n) {
				693	; CHECK-LABEL: smin_i32:
				694	; CHECK: @ %bb.0: @ %entry
				695	; CHECK-NEXT: .save {r7, lr}
				696	; CHECK-NEXT: push {r7, lr}
				697	; CHECK-NEXT: cmp r1, #1
				698	; CHECK-NEXT: blt .LBB7_3
				699	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				700	; CHECK-NEXT: cmp r1, #4
				701	; CHECK-NEXT: bhs .LBB7_4
				702	; CHECK-NEXT: @ %bb.2:
				703	; CHECK-NEXT: mvn r2, #-2147483648
				704	; CHECK-NEXT: movs r3, #0
				705	; CHECK-NEXT: b .LBB7_7
				706	; CHECK-NEXT: .LBB7_3:
				707	; CHECK-NEXT: mvn r2, #-2147483648
				708	; CHECK-NEXT: b .LBB7_9
				709	; CHECK-NEXT: .LBB7_4: @ %vector.ph
				710	; CHECK-NEXT: bic r3, r1, #3
				711	; CHECK-NEXT: movs r2, #1
				712	; CHECK-NEXT: sub.w r12, r3, #4
				713	; CHECK-NEXT: vmvn.i32 q0, #0x80000000
				714	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				715	; CHECK-NEXT: mov r2, r0
				716	; CHECK-NEXT: dls lr, lr
				717	; CHECK-NEXT: .LBB7_5: @ %vector.body
				718	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				719	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				720	; CHECK-NEXT: vmin.s32 q0, q0, q1
				721	; CHECK-NEXT: le lr, .LBB7_5
				722	; CHECK-NEXT: @ %bb.6: @ %middle.block
				723	; CHECK-NEXT: mvn r2, #-2147483648
				724	; CHECK-NEXT: cmp r3, r1
				725	; CHECK-NEXT: vminv.s32 r2, q0
				726	; CHECK-NEXT: beq .LBB7_9
				727	; CHECK-NEXT: .LBB7_7: @ %for.body.preheader1
				728	; CHECK-NEXT: sub.w lr, r1, r3
				729	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				730	; CHECK-NEXT: dls lr, lr
				731	; CHECK-NEXT: .LBB7_8: @ %for.body
				732	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				733	; CHECK-NEXT: ldr r1, [r0], #4
				734	; CHECK-NEXT: cmp r2, r1
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	735	; CHECK-NEXT: csel r2, r2, r1, lt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	736	; CHECK-NEXT: le lr, .LBB7_8
				737	; CHECK-NEXT: .LBB7_9: @ %for.cond.cleanup
				738	; CHECK-NEXT: mov r0, r2
				739	; CHECK-NEXT: pop {r7, pc}
				740	entry:
				741	%cmp6 = icmp sgt i32 %n, 0
				742	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				743
				744	for.body.preheader: ; preds = %entry
				745	%min.iters.check = icmp ult i32 %n, 4
				746	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				747
				748	vector.ph: ; preds = %for.body.preheader
				749	%n.vec = and i32 %n, -4
				750	br label %vector.body
				751
				752	vector.body: ; preds = %vector.body, %vector.ph
				753	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				754	%vec.phi = phi <4 x i32> [ <i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647>, %vector.ph ], [ %3, %vector.body ]
				755	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				756	%1 = bitcast i32* %0 to <4 x i32>*
				757	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				758	%2 = icmp slt <4 x i32> %vec.phi, %wide.load
				759	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				760	%index.next = add i32 %index, 4
				761	%4 = icmp eq i32 %index.next, %n.vec
				762	br i1 %4, label %middle.block, label %vector.body
				763
				764	middle.block: ; preds = %vector.body
				765	%5 = call i32 @llvm.experimental.vector.reduce.smin.v4i32(<4 x i32> %3)
				766	%cmp.n = icmp eq i32 %n.vec, %n
				767	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				768
				769	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				770	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				771	%r.07.ph = phi i32 [ 2147483647, %for.body.preheader ], [ %5, %middle.block ]
				772	br label %for.body
				773
				774	for.body: ; preds = %for.body.preheader1, %for.body
				775	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				776	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				777	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				778	%6 = load i32, i32* %arrayidx, align 4
				779	%c = icmp slt i32 %r.07, %6
				780	%add = select i1 %c, i32 %r.07, i32 %6
				781	%inc = add nuw nsw i32 %i.08, 1
				782	%exitcond = icmp eq i32 %inc, %n
				783	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				784
				785	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				786	%r.0.lcssa = phi i32 [ 2147483647, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				787	ret i32 %r.0.lcssa
				788	}
				789
				790	define i32 @smin_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				791	; CHECK-LABEL: smin_i32_inloop:
				792	; CHECK: @ %bb.0: @ %entry
				793	; CHECK-NEXT: .save {r4, lr}
				794	; CHECK-NEXT: push {r4, lr}
				795	; CHECK-NEXT: cmp r1, #1
				796	; CHECK-NEXT: blt .LBB8_3
				797	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				798	; CHECK-NEXT: mov r12, r0
				799	; CHECK-NEXT: mvn r0, #-2147483648
				800	; CHECK-NEXT: cmp r1, #4
				801	; CHECK-NEXT: bhs .LBB8_4
				802	; CHECK-NEXT: @ %bb.2:
				803	; CHECK-NEXT: movs r3, #0
				804	; CHECK-NEXT: b .LBB8_7
				805	; CHECK-NEXT: .LBB8_3:
				806	; CHECK-NEXT: mvn r0, #-2147483648
				807	; CHECK-NEXT: b .LBB8_9
				808	; CHECK-NEXT: .LBB8_4: @ %vector.ph
				809	; CHECK-NEXT: bic r3, r1, #3
				810	; CHECK-NEXT: movs r2, #1
				811	; CHECK-NEXT: sub.w lr, r3, #4
				812	; CHECK-NEXT: add.w lr, r2, lr, lsr #2
				813	; CHECK-NEXT: mov r2, r12
				814	; CHECK-NEXT: dls lr, lr
				815	; CHECK-NEXT: .LBB8_5: @ %vector.body
				816	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				817	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				818	; CHECK-NEXT: mvn r4, #-2147483648
				819	; CHECK-NEXT: vminv.s32 r4, q0
				820	; CHECK-NEXT: cmp r0, r4
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	821	; CHECK-NEXT: csel r0, r0, r4, lt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	822	; CHECK-NEXT: le lr, .LBB8_5
				823	; CHECK-NEXT: @ %bb.6: @ %middle.block
				824	; CHECK-NEXT: cmp r3, r1
				825	; CHECK-NEXT: it eq
				826	; CHECK-NEXT: popeq {r4, pc}
				827	; CHECK-NEXT: .LBB8_7: @ %for.body.preheader1
				828	; CHECK-NEXT: sub.w lr, r1, r3
				829	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				830	; CHECK-NEXT: dls lr, lr
				831	; CHECK-NEXT: .LBB8_8: @ %for.body
				832	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				833	; CHECK-NEXT: ldr r2, [r1], #4
				834	; CHECK-NEXT: cmp r0, r2
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	835	; CHECK-NEXT: csel r0, r0, r2, lt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	836	; CHECK-NEXT: le lr, .LBB8_8
				837	; CHECK-NEXT: .LBB8_9: @ %for.cond.cleanup
				838	; CHECK-NEXT: pop {r4, pc}
				839	entry:
				840	%cmp6 = icmp sgt i32 %n, 0
				841	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				842
				843	for.body.preheader: ; preds = %entry
				844	%min.iters.check = icmp ult i32 %n, 4
				845	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				846
				847	vector.ph: ; preds = %for.body.preheader
				848	%n.vec = and i32 %n, -4
				849	br label %vector.body
				850
				851	vector.body: ; preds = %vector.body, %vector.ph
				852	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				853	%vec.phi = phi i32 [ 2147483647, %vector.ph ], [ %3, %vector.body ]
				854	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				855	%1 = bitcast i32* %0 to <4 x i32>*
				856	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				857	%l5 = call i32 @llvm.experimental.vector.reduce.smin.v4i32(<4 x i32> %wide.load)
				858	%2 = icmp slt i32 %vec.phi, %l5
				859	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				860	%index.next = add i32 %index, 4
				861	%4 = icmp eq i32 %index.next, %n.vec
				862	br i1 %4, label %middle.block, label %vector.body
				863
				864	middle.block: ; preds = %vector.body
				865	%5 = phi i32 [ %3, %vector.body ]
				866	%cmp.n = icmp eq i32 %n.vec, %n
				867	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				868
				869	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				870	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				871	%r.07.ph = phi i32 [ 2147483647, %for.body.preheader ], [ %5, %middle.block ]
				872	br label %for.body
				873
				874	for.body: ; preds = %for.body.preheader1, %for.body
				875	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				876	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				877	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				878	%6 = load i32, i32* %arrayidx, align 4
				879	%c = icmp slt i32 %r.07, %6
				880	%add = select i1 %c, i32 %r.07, i32 %6
				881	%inc = add nuw nsw i32 %i.08, 1
				882	%exitcond = icmp eq i32 %inc, %n
				883	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				884
				885	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				886	%r.0.lcssa = phi i32 [ 2147483647, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				887	ret i32 %r.0.lcssa
				888	}
				889
				890	define i32 @smax_i32(i32* nocapture readonly %x, i32 %n) {
				891	; CHECK-LABEL: smax_i32:
				892	; CHECK: @ %bb.0: @ %entry
				893	; CHECK-NEXT: .save {r7, lr}
				894	; CHECK-NEXT: push {r7, lr}
				895	; CHECK-NEXT: cmp r1, #1
				896	; CHECK-NEXT: blt .LBB9_3
				897	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				898	; CHECK-NEXT: cmp r1, #4
				899	; CHECK-NEXT: bhs .LBB9_4
				900	; CHECK-NEXT: @ %bb.2:
				901	; CHECK-NEXT: mov.w r2, #-2147483648
				902	; CHECK-NEXT: movs r3, #0
				903	; CHECK-NEXT: b .LBB9_7
				904	; CHECK-NEXT: .LBB9_3:
				905	; CHECK-NEXT: mov.w r2, #-2147483648
				906	; CHECK-NEXT: b .LBB9_9
				907	; CHECK-NEXT: .LBB9_4: @ %vector.ph
				908	; CHECK-NEXT: bic r3, r1, #3
				909	; CHECK-NEXT: movs r2, #1
				910	; CHECK-NEXT: sub.w r12, r3, #4
				911	; CHECK-NEXT: vmov.i32 q0, #0x80000000
				912	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				913	; CHECK-NEXT: mov r2, r0
				914	; CHECK-NEXT: dls lr, lr
				915	; CHECK-NEXT: .LBB9_5: @ %vector.body
				916	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				917	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				918	; CHECK-NEXT: vmax.s32 q0, q0, q1
				919	; CHECK-NEXT: le lr, .LBB9_5
				920	; CHECK-NEXT: @ %bb.6: @ %middle.block
				921	; CHECK-NEXT: mov.w r2, #-2147483648
				922	; CHECK-NEXT: cmp r3, r1
				923	; CHECK-NEXT: vmaxv.s32 r2, q0
				924	; CHECK-NEXT: beq .LBB9_9
				925	; CHECK-NEXT: .LBB9_7: @ %for.body.preheader1
				926	; CHECK-NEXT: sub.w lr, r1, r3
				927	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				928	; CHECK-NEXT: dls lr, lr
				929	; CHECK-NEXT: .LBB9_8: @ %for.body
				930	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				931	; CHECK-NEXT: ldr r1, [r0], #4
				932	; CHECK-NEXT: cmp r2, r1
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	933	; CHECK-NEXT: csel r2, r2, r1, gt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	934	; CHECK-NEXT: le lr, .LBB9_8
				935	; CHECK-NEXT: .LBB9_9: @ %for.cond.cleanup
				936	; CHECK-NEXT: mov r0, r2
				937	; CHECK-NEXT: pop {r7, pc}
				938	entry:
				939	%cmp6 = icmp sgt i32 %n, 0
				940	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				941
				942	for.body.preheader: ; preds = %entry
				943	%min.iters.check = icmp ult i32 %n, 4
				944	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				945
				946	vector.ph: ; preds = %for.body.preheader
				947	%n.vec = and i32 %n, -4
				948	br label %vector.body
				949
				950	vector.body: ; preds = %vector.body, %vector.ph
				951	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				952	%vec.phi = phi <4 x i32> [ <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>, %vector.ph ], [ %3, %vector.body ]
				953	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				954	%1 = bitcast i32* %0 to <4 x i32>*
				955	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				956	%2 = icmp sgt <4 x i32> %vec.phi, %wide.load
				957	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				958	%index.next = add i32 %index, 4
				959	%4 = icmp eq i32 %index.next, %n.vec
				960	br i1 %4, label %middle.block, label %vector.body
				961
				962	middle.block: ; preds = %vector.body
				963	%5 = call i32 @llvm.experimental.vector.reduce.smax.v4i32(<4 x i32> %3)
				964	%cmp.n = icmp eq i32 %n.vec, %n
				965	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				966
				967	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				968	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				969	%r.07.ph = phi i32 [ -2147483648, %for.body.preheader ], [ %5, %middle.block ]
				970	br label %for.body
				971
				972	for.body: ; preds = %for.body.preheader1, %for.body
				973	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				974	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				975	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				976	%6 = load i32, i32* %arrayidx, align 4
				977	%c = icmp sgt i32 %r.07, %6
				978	%add = select i1 %c, i32 %r.07, i32 %6
				979	%inc = add nuw nsw i32 %i.08, 1
				980	%exitcond = icmp eq i32 %inc, %n
				981	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				982
				983	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				984	%r.0.lcssa = phi i32 [ -2147483648, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				985	ret i32 %r.0.lcssa
				986	}
				987
				988	define i32 @smax_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				989	; CHECK-LABEL: smax_i32_inloop:
				990	; CHECK: @ %bb.0: @ %entry
				991	; CHECK-NEXT: .save {r4, lr}
				992	; CHECK-NEXT: push {r4, lr}
				993	; CHECK-NEXT: cmp r1, #1
				994	; CHECK-NEXT: blt .LBB10_3
				995	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				996	; CHECK-NEXT: mov r12, r0
				997	; CHECK-NEXT: mov.w r0, #-2147483648
				998	; CHECK-NEXT: cmp r1, #4
				999	; CHECK-NEXT: bhs .LBB10_4
				1000	; CHECK-NEXT: @ %bb.2:
				1001	; CHECK-NEXT: movs r3, #0
				1002	; CHECK-NEXT: b .LBB10_7
				1003	; CHECK-NEXT: .LBB10_3:
				1004	; CHECK-NEXT: mov.w r0, #-2147483648
				1005	; CHECK-NEXT: b .LBB10_9
				1006	; CHECK-NEXT: .LBB10_4: @ %vector.ph
				1007	; CHECK-NEXT: bic r3, r1, #3
				1008	; CHECK-NEXT: movs r2, #1
				1009	; CHECK-NEXT: sub.w lr, r3, #4
				1010	; CHECK-NEXT: add.w lr, r2, lr, lsr #2
				1011	; CHECK-NEXT: mov r2, r12
				1012	; CHECK-NEXT: dls lr, lr
				1013	; CHECK-NEXT: .LBB10_5: @ %vector.body
				1014	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1015	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				1016	; CHECK-NEXT: mov.w r4, #-2147483648
				1017	; CHECK-NEXT: vmaxv.s32 r4, q0
				1018	; CHECK-NEXT: cmp r0, r4
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1019	; CHECK-NEXT: csel r0, r0, r4, gt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1020	; CHECK-NEXT: le lr, .LBB10_5
				1021	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1022	; CHECK-NEXT: cmp r3, r1
				1023	; CHECK-NEXT: it eq
				1024	; CHECK-NEXT: popeq {r4, pc}
				1025	; CHECK-NEXT: .LBB10_7: @ %for.body.preheader1
				1026	; CHECK-NEXT: sub.w lr, r1, r3
				1027	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				1028	; CHECK-NEXT: dls lr, lr
				1029	; CHECK-NEXT: .LBB10_8: @ %for.body
				1030	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1031	; CHECK-NEXT: ldr r2, [r1], #4
				1032	; CHECK-NEXT: cmp r0, r2
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1033	; CHECK-NEXT: csel r0, r0, r2, gt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1034	; CHECK-NEXT: le lr, .LBB10_8
				1035	; CHECK-NEXT: .LBB10_9: @ %for.cond.cleanup
				1036	; CHECK-NEXT: pop {r4, pc}
				1037	entry:
				1038	%cmp6 = icmp sgt i32 %n, 0
				1039	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1040
				1041	for.body.preheader: ; preds = %entry
				1042	%min.iters.check = icmp ult i32 %n, 4
				1043	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1044
				1045	vector.ph: ; preds = %for.body.preheader
				1046	%n.vec = and i32 %n, -4
				1047	br label %vector.body
				1048
				1049	vector.body: ; preds = %vector.body, %vector.ph
				1050	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1051	%vec.phi = phi i32 [ -2147483648, %vector.ph ], [ %3, %vector.body ]
				1052	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1053	%1 = bitcast i32* %0 to <4 x i32>*
				1054	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1055	%l5 = call i32 @llvm.experimental.vector.reduce.smax.v4i32(<4 x i32> %wide.load)
				1056	%2 = icmp sgt i32 %vec.phi, %l5
				1057	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				1058	%index.next = add i32 %index, 4
				1059	%4 = icmp eq i32 %index.next, %n.vec
				1060	br i1 %4, label %middle.block, label %vector.body
				1061
				1062	middle.block: ; preds = %vector.body
				1063	%5 = phi i32 [ %3, %vector.body ]
				1064	%cmp.n = icmp eq i32 %n.vec, %n
				1065	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1066
				1067	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1068	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1069	%r.07.ph = phi i32 [ -2147483648, %for.body.preheader ], [ %5, %middle.block ]
				1070	br label %for.body
				1071
				1072	for.body: ; preds = %for.body.preheader1, %for.body
				1073	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1074	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1075	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1076	%6 = load i32, i32* %arrayidx, align 4
				1077	%c = icmp sgt i32 %r.07, %6
				1078	%add = select i1 %c, i32 %r.07, i32 %6
				1079	%inc = add nuw nsw i32 %i.08, 1
				1080	%exitcond = icmp eq i32 %inc, %n
				1081	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1082
				1083	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1084	%r.0.lcssa = phi i32 [ -2147483648, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1085	ret i32 %r.0.lcssa
				1086	}
				1087
				1088	define i32 @umin_i32(i32* nocapture readonly %x, i32 %n) {
				1089	; CHECK-LABEL: umin_i32:
				1090	; CHECK: @ %bb.0: @ %entry
				1091	; CHECK-NEXT: .save {r7, lr}
				1092	; CHECK-NEXT: push {r7, lr}
				1093	; CHECK-NEXT: cmp r1, #1
				1094	; CHECK-NEXT: blt .LBB11_3
				1095	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1096	; CHECK-NEXT: cmp r1, #4
				1097	; CHECK-NEXT: bhs .LBB11_4
				1098	; CHECK-NEXT: @ %bb.2:
				1099	; CHECK-NEXT: mov.w r2, #-1
				1100	; CHECK-NEXT: movs r3, #0
				1101	; CHECK-NEXT: b .LBB11_7
				1102	; CHECK-NEXT: .LBB11_3:
				1103	; CHECK-NEXT: mov.w r2, #-1
				1104	; CHECK-NEXT: b .LBB11_9
				1105	; CHECK-NEXT: .LBB11_4: @ %vector.ph
				1106	; CHECK-NEXT: bic r3, r1, #3
				1107	; CHECK-NEXT: movs r2, #1
				1108	; CHECK-NEXT: sub.w r12, r3, #4
				1109	; CHECK-NEXT: vmov.i8 q0, #0xff
				1110	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				1111	; CHECK-NEXT: mov r2, r0
				1112	; CHECK-NEXT: dls lr, lr
				1113	; CHECK-NEXT: .LBB11_5: @ %vector.body
				1114	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1115	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				1116	; CHECK-NEXT: vmin.u32 q0, q0, q1
				1117	; CHECK-NEXT: le lr, .LBB11_5
				1118	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1119	; CHECK-NEXT: mov.w r2, #-1
				1120	; CHECK-NEXT: cmp r3, r1
				1121	; CHECK-NEXT: vminv.u32 r2, q0
				1122	; CHECK-NEXT: beq .LBB11_9
				1123	; CHECK-NEXT: .LBB11_7: @ %for.body.preheader1
				1124	; CHECK-NEXT: sub.w lr, r1, r3
				1125	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				1126	; CHECK-NEXT: dls lr, lr
				1127	; CHECK-NEXT: .LBB11_8: @ %for.body
				1128	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1129	; CHECK-NEXT: ldr r1, [r0], #4
				1130	; CHECK-NEXT: cmp r2, r1
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1131	; CHECK-NEXT: csel r2, r2, r1, lo
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1132	; CHECK-NEXT: le lr, .LBB11_8
				1133	; CHECK-NEXT: .LBB11_9: @ %for.cond.cleanup
				1134	; CHECK-NEXT: mov r0, r2
				1135	; CHECK-NEXT: pop {r7, pc}
				1136	entry:
				1137	%cmp6 = icmp sgt i32 %n, 0
				1138	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1139
				1140	for.body.preheader: ; preds = %entry
				1141	%min.iters.check = icmp ult i32 %n, 4
				1142	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1143
				1144	vector.ph: ; preds = %for.body.preheader
				1145	%n.vec = and i32 %n, -4
				1146	br label %vector.body
				1147
				1148	vector.body: ; preds = %vector.body, %vector.ph
				1149	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1150	%vec.phi = phi <4 x i32> [ <i32 -1, i32 -1, i32 -1, i32 -1>, %vector.ph ], [ %3, %vector.body ]
				1151	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1152	%1 = bitcast i32* %0 to <4 x i32>*
				1153	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1154	%2 = icmp ult <4 x i32> %vec.phi, %wide.load
				1155	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				1156	%index.next = add i32 %index, 4
				1157	%4 = icmp eq i32 %index.next, %n.vec
				1158	br i1 %4, label %middle.block, label %vector.body
				1159
				1160	middle.block: ; preds = %vector.body
				1161	%5 = call i32 @llvm.experimental.vector.reduce.umin.v4i32(<4 x i32> %3)
				1162	%cmp.n = icmp eq i32 %n.vec, %n
				1163	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1164
				1165	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1166	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1167	%r.07.ph = phi i32 [ -1, %for.body.preheader ], [ %5, %middle.block ]
				1168	br label %for.body
				1169
				1170	for.body: ; preds = %for.body.preheader1, %for.body
				1171	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1172	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1173	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1174	%6 = load i32, i32* %arrayidx, align 4
				1175	%c = icmp ult i32 %r.07, %6
				1176	%add = select i1 %c, i32 %r.07, i32 %6
				1177	%inc = add nuw nsw i32 %i.08, 1
				1178	%exitcond = icmp eq i32 %inc, %n
				1179	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1180
				1181	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1182	%r.0.lcssa = phi i32 [ -1, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1183	ret i32 %r.0.lcssa
				1184	}
				1185
				1186	define i32 @umin_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				1187	; CHECK-LABEL: umin_i32_inloop:
				1188	; CHECK: @ %bb.0: @ %entry
				1189	; CHECK-NEXT: .save {r4, lr}
				1190	; CHECK-NEXT: push {r4, lr}
				1191	; CHECK-NEXT: cmp r1, #1
				1192	; CHECK-NEXT: blt .LBB12_3
				1193	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1194	; CHECK-NEXT: mov r12, r0
				1195	; CHECK-NEXT: mov.w r0, #-1
				1196	; CHECK-NEXT: cmp r1, #4
				1197	; CHECK-NEXT: bhs .LBB12_4
				1198	; CHECK-NEXT: @ %bb.2:
				1199	; CHECK-NEXT: movs r3, #0
				1200	; CHECK-NEXT: b .LBB12_7
				1201	; CHECK-NEXT: .LBB12_3:
				1202	; CHECK-NEXT: mov.w r0, #-1
				1203	; CHECK-NEXT: b .LBB12_9
				1204	; CHECK-NEXT: .LBB12_4: @ %vector.ph
				1205	; CHECK-NEXT: bic r3, r1, #3
				1206	; CHECK-NEXT: movs r2, #1
				1207	; CHECK-NEXT: sub.w lr, r3, #4
				1208	; CHECK-NEXT: add.w lr, r2, lr, lsr #2
				1209	; CHECK-NEXT: mov r2, r12
				1210	; CHECK-NEXT: dls lr, lr
				1211	; CHECK-NEXT: .LBB12_5: @ %vector.body
				1212	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1213	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				1214	; CHECK-NEXT: mov.w r4, #-1
				1215	; CHECK-NEXT: vminv.u32 r4, q0
				1216	; CHECK-NEXT: cmp r0, r4
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1217	; CHECK-NEXT: csel r0, r0, r4, lo
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1218	; CHECK-NEXT: le lr, .LBB12_5
				1219	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1220	; CHECK-NEXT: cmp r3, r1
				1221	; CHECK-NEXT: it eq
				1222	; CHECK-NEXT: popeq {r4, pc}
				1223	; CHECK-NEXT: .LBB12_7: @ %for.body.preheader1
				1224	; CHECK-NEXT: sub.w lr, r1, r3
				1225	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				1226	; CHECK-NEXT: dls lr, lr
				1227	; CHECK-NEXT: .LBB12_8: @ %for.body
				1228	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1229	; CHECK-NEXT: ldr r2, [r1], #4
				1230	; CHECK-NEXT: cmp r0, r2
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1231	; CHECK-NEXT: csel r0, r0, r2, hi
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1232	; CHECK-NEXT: le lr, .LBB12_8
				1233	; CHECK-NEXT: .LBB12_9: @ %for.cond.cleanup
				1234	; CHECK-NEXT: pop {r4, pc}
				1235	entry:
				1236	%cmp6 = icmp sgt i32 %n, 0
				1237	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1238
				1239	for.body.preheader: ; preds = %entry
				1240	%min.iters.check = icmp ult i32 %n, 4
				1241	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1242
				1243	vector.ph: ; preds = %for.body.preheader
				1244	%n.vec = and i32 %n, -4
				1245	br label %vector.body
				1246
				1247	vector.body: ; preds = %vector.body, %vector.ph
				1248	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1249	%vec.phi = phi i32 [ -1, %vector.ph ], [ %3, %vector.body ]
				1250	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1251	%1 = bitcast i32* %0 to <4 x i32>*
				1252	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1253	%l5 = call i32 @llvm.experimental.vector.reduce.umin.v4i32(<4 x i32> %wide.load)
				1254	%2 = icmp ult i32 %vec.phi, %l5
				1255	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				1256	%index.next = add i32 %index, 4
				1257	%4 = icmp eq i32 %index.next, %n.vec
				1258	br i1 %4, label %middle.block, label %vector.body
				1259
				1260	middle.block: ; preds = %vector.body
				1261	%5 = phi i32 [ %3, %vector.body ]
				1262	%cmp.n = icmp eq i32 %n.vec, %n
				1263	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1264
				1265	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1266	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1267	%r.07.ph = phi i32 [ -1, %for.body.preheader ], [ %5, %middle.block ]
				1268	br label %for.body
				1269
				1270	for.body: ; preds = %for.body.preheader1, %for.body
				1271	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1272	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1273	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1274	%6 = load i32, i32* %arrayidx, align 4
				1275	%c = icmp ugt i32 %r.07, %6
				1276	%add = select i1 %c, i32 %r.07, i32 %6
				1277	%inc = add nuw nsw i32 %i.08, 1
				1278	%exitcond = icmp eq i32 %inc, %n
				1279	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1280
				1281	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1282	%r.0.lcssa = phi i32 [ -1, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1283	ret i32 %r.0.lcssa
				1284	}
				1285
				1286	define i32 @umax_i32(i32* nocapture readonly %x, i32 %n) {
				1287	; CHECK-LABEL: umax_i32:
				1288	; CHECK: @ %bb.0: @ %entry
				1289	; CHECK-NEXT: .save {r7, lr}
				1290	; CHECK-NEXT: push {r7, lr}
				1291	; CHECK-NEXT: cmp r1, #1
				1292	; CHECK-NEXT: blt .LBB13_3
				1293	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1294	; CHECK-NEXT: cmp r1, #4
				1295	; CHECK-NEXT: bhs .LBB13_4
				1296	; CHECK-NEXT: @ %bb.2:
				1297	; CHECK-NEXT: movs r3, #0
				1298	; CHECK-NEXT: movs r2, #0
				1299	; CHECK-NEXT: b .LBB13_7
				1300	; CHECK-NEXT: .LBB13_3:
				1301	; CHECK-NEXT: movs r2, #0
				1302	; CHECK-NEXT: b .LBB13_9
				1303	; CHECK-NEXT: .LBB13_4: @ %vector.ph
				1304	; CHECK-NEXT: bic r3, r1, #3
				1305	; CHECK-NEXT: movs r2, #1
				1306	; CHECK-NEXT: sub.w r12, r3, #4
				1307	; CHECK-NEXT: vmov.i32 q0, #0x0
				1308	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				1309	; CHECK-NEXT: mov r2, r0
				1310	; CHECK-NEXT: dls lr, lr
				1311	; CHECK-NEXT: .LBB13_5: @ %vector.body
				1312	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1313	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				1314	; CHECK-NEXT: vmax.u32 q0, q0, q1
				1315	; CHECK-NEXT: le lr, .LBB13_5
				1316	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1317	; CHECK-NEXT: movs r2, #0
				1318	; CHECK-NEXT: cmp r3, r1
				1319	; CHECK-NEXT: vmaxv.u32 r2, q0
				1320	; CHECK-NEXT: beq .LBB13_9
				1321	; CHECK-NEXT: .LBB13_7: @ %for.body.preheader1
				1322	; CHECK-NEXT: sub.w lr, r1, r3
				1323	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				1324	; CHECK-NEXT: dls lr, lr
				1325	; CHECK-NEXT: .LBB13_8: @ %for.body
				1326	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1327	; CHECK-NEXT: ldr r1, [r0], #4
				1328	; CHECK-NEXT: cmp r2, r1
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1329	; CHECK-NEXT: csel r2, r2, r1, hi
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1330	; CHECK-NEXT: le lr, .LBB13_8
				1331	; CHECK-NEXT: .LBB13_9: @ %for.cond.cleanup
				1332	; CHECK-NEXT: mov r0, r2
				1333	; CHECK-NEXT: pop {r7, pc}
				1334	entry:
				1335	%cmp6 = icmp sgt i32 %n, 0
				1336	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1337
				1338	for.body.preheader: ; preds = %entry
				1339	%min.iters.check = icmp ult i32 %n, 4
				1340	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1341
				1342	vector.ph: ; preds = %for.body.preheader
				1343	%n.vec = and i32 %n, -4
				1344	br label %vector.body
				1345
				1346	vector.body: ; preds = %vector.body, %vector.ph
				1347	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1348	%vec.phi = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %3, %vector.body ]
				1349	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1350	%1 = bitcast i32* %0 to <4 x i32>*
				1351	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1352	%2 = icmp ugt <4 x i32> %vec.phi, %wide.load
				1353	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				1354	%index.next = add i32 %index, 4
				1355	%4 = icmp eq i32 %index.next, %n.vec
				1356	br i1 %4, label %middle.block, label %vector.body
				1357
				1358	middle.block: ; preds = %vector.body
				1359	%5 = call i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32> %3)
				1360	%cmp.n = icmp eq i32 %n.vec, %n
				1361	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1362
				1363	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1364	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1365	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %5, %middle.block ]
				1366	br label %for.body
				1367
				1368	for.body: ; preds = %for.body.preheader1, %for.body
				1369	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1370	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1371	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1372	%6 = load i32, i32* %arrayidx, align 4
				1373	%c = icmp ugt i32 %r.07, %6
				1374	%add = select i1 %c, i32 %r.07, i32 %6
				1375	%inc = add nuw nsw i32 %i.08, 1
				1376	%exitcond = icmp eq i32 %inc, %n
				1377	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1378
				1379	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1380	%r.0.lcssa = phi i32 [ 0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1381	ret i32 %r.0.lcssa
				1382	}
				1383
				1384	define i32 @umax_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				1385	; CHECK-LABEL: umax_i32_inloop:
				1386	; CHECK: @ %bb.0: @ %entry
				1387	; CHECK-NEXT: .save {r4, lr}
				1388	; CHECK-NEXT: push {r4, lr}
				1389	; CHECK-NEXT: cmp r1, #1
				1390	; CHECK-NEXT: blt .LBB14_8
				1391	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1392	; CHECK-NEXT: mov r12, r0
				1393	; CHECK-NEXT: movs r3, #0
				1394	; CHECK-NEXT: cmp r1, #4
				1395	; CHECK-NEXT: mov.w r0, #0
				1396	; CHECK-NEXT: blo .LBB14_5
				1397	; CHECK-NEXT: @ %bb.2: @ %vector.ph
				1398	; CHECK-NEXT: bic r3, r1, #3
				1399	; CHECK-NEXT: movs r2, #1
				1400	; CHECK-NEXT: subs r0, r3, #4
				1401	; CHECK-NEXT: add.w lr, r2, r0, lsr #2
				1402	; CHECK-NEXT: movs r0, #0
				1403	; CHECK-NEXT: mov r2, r12
				1404	; CHECK-NEXT: dls lr, lr
				1405	; CHECK-NEXT: .LBB14_3: @ %vector.body
				1406	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1407	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				1408	; CHECK-NEXT: movs r4, #0
				1409	; CHECK-NEXT: vmaxv.u32 r4, q0
				1410	; CHECK-NEXT: cmp r0, r4
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1411	; CHECK-NEXT: csel r0, r0, r4, hi
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1412	; CHECK-NEXT: le lr, .LBB14_3
				1413	; CHECK-NEXT: @ %bb.4: @ %middle.block
				1414	; CHECK-NEXT: cmp r3, r1
				1415	; CHECK-NEXT: it eq
				1416	; CHECK-NEXT: popeq {r4, pc}
				1417	; CHECK-NEXT: .LBB14_5: @ %for.body.preheader1
				1418	; CHECK-NEXT: sub.w lr, r1, r3
				1419	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				1420	; CHECK-NEXT: dls lr, lr
				1421	; CHECK-NEXT: .LBB14_6: @ %for.body
				1422	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1423	; CHECK-NEXT: ldr r2, [r1], #4
				1424	; CHECK-NEXT: cmp r0, r2
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1425	; CHECK-NEXT: csel r0, r0, r2, hi
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1426	; CHECK-NEXT: le lr, .LBB14_6
				1427	; CHECK-NEXT: @ %bb.7: @ %for.cond.cleanup
				1428	; CHECK-NEXT: pop {r4, pc}
				1429	; CHECK-NEXT: .LBB14_8:
				1430	; CHECK-NEXT: movs r0, #0
				1431	; CHECK-NEXT: pop {r4, pc}
				1432	entry:
				1433	%cmp6 = icmp sgt i32 %n, 0
				1434	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1435
				1436	for.body.preheader: ; preds = %entry
				1437	%min.iters.check = icmp ult i32 %n, 4
				1438	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1439
				1440	vector.ph: ; preds = %for.body.preheader
				1441	%n.vec = and i32 %n, -4
				1442	br label %vector.body
				1443
				1444	vector.body: ; preds = %vector.body, %vector.ph
				1445	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1446	%vec.phi = phi i32 [ 0, %vector.ph ], [ %3, %vector.body ]
				1447	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1448	%1 = bitcast i32* %0 to <4 x i32>*
				1449	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1450	%l5 = call i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32> %wide.load)
				1451	%2 = icmp ugt i32 %vec.phi, %l5
				1452	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				1453	%index.next = add i32 %index, 4
				1454	%4 = icmp eq i32 %index.next, %n.vec
				1455	br i1 %4, label %middle.block, label %vector.body
				1456
				1457	middle.block: ; preds = %vector.body
				1458	%5 = phi i32 [ %3, %vector.body ]
				1459	%cmp.n = icmp eq i32 %n.vec, %n
				1460	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1461
				1462	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1463	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1464	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %5, %middle.block ]
				1465	br label %for.body
				1466
				1467	for.body: ; preds = %for.body.preheader1, %for.body
				1468	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1469	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1470	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1471	%6 = load i32, i32* %arrayidx, align 4
				1472	%c = icmp ugt i32 %r.07, %6
				1473	%add = select i1 %c, i32 %r.07, i32 %6
				1474	%inc = add nuw nsw i32 %i.08, 1
				1475	%exitcond = icmp eq i32 %inc, %n
				1476	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1477
				1478	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1479	%r.0.lcssa = phi i32 [ 0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1480	ret i32 %r.0.lcssa
				1481	}
				1482
				1483	define float @fmin_f32(float* nocapture readonly %x, i32 %n) {
				1484	; CHECK-LABEL: fmin_f32:
				1485	; CHECK: @ %bb.0: @ %entry
				1486	; CHECK-NEXT: .save {r7, lr}
				1487	; CHECK-NEXT: push {r7, lr}
				1488	; CHECK-NEXT: cmp r1, #1
				1489	; CHECK-NEXT: blt .LBB15_3
				1490	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1491	; CHECK-NEXT: cmp r1, #4
				1492	; CHECK-NEXT: bhs .LBB15_4
				1493	; CHECK-NEXT: @ %bb.2:
				1494	; CHECK-NEXT: vldr s0, .LCPI15_0
				1495	; CHECK-NEXT: movs r2, #0
				1496	; CHECK-NEXT: b .LBB15_7
				1497	; CHECK-NEXT: .LBB15_3:
				1498	; CHECK-NEXT: vldr s0, .LCPI15_0
				1499	; CHECK-NEXT: b .LBB15_9
				1500	; CHECK-NEXT: .LBB15_4: @ %vector.ph
				1501	; CHECK-NEXT: bic r2, r1, #3
				1502	; CHECK-NEXT: movs r3, #1
				1503	; CHECK-NEXT: sub.w r12, r2, #4
				1504	; CHECK-NEXT: vmov.i32 q0, #0x0
				1505	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				1506	; CHECK-NEXT: mov r3, r0
				1507	; CHECK-NEXT: dls lr, lr
				1508	; CHECK-NEXT: .LBB15_5: @ %vector.body
				1509	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1510	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				1511	; CHECK-NEXT: vcmp.f32 lt, q0, q1
				1512	; CHECK-NEXT: vpsel q0, q0, q1
				1513	; CHECK-NEXT: le lr, .LBB15_5
				1514	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1515	; CHECK-NEXT: vmov.f32 s4, s2
				1516	; CHECK-NEXT: cmp r2, r1
				1517	; CHECK-NEXT: vmov.f32 s5, s3
				1518	; CHECK-NEXT: vminnm.f32 q0, q0, q1
				1519	; CHECK-NEXT: vmov r3, s1
				1520	; CHECK-NEXT: vdup.32 q1, r3
				1521	; CHECK-NEXT: vminnm.f32 q0, q0, q1
				1522	; CHECK-NEXT: beq .LBB15_9
				1523	; CHECK-NEXT: .LBB15_7: @ %for.body.preheader1
				1524	; CHECK-NEXT: sub.w lr, r1, r2
				1525	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				1526	; CHECK-NEXT: dls lr, lr
				1527	; CHECK-NEXT: .LBB15_8: @ %for.body
				1528	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1529	; CHECK-NEXT: vldmia r0!, {s4}
				1530	; CHECK-NEXT: vcmp.f32 s0, s4
				1531	; CHECK-NEXT: vmrs APSR_nzcv, fpscr
				1532	; CHECK-NEXT: vselge.f32 s0, s4, s0
				1533	; CHECK-NEXT: le lr, .LBB15_8
				1534	; CHECK-NEXT: .LBB15_9: @ %for.cond.cleanup
				1535	; CHECK-NEXT: vmov r0, s0
				1536	; CHECK-NEXT: pop {r7, pc}
				1537	; CHECK-NEXT: .p2align 2
				1538	; CHECK-NEXT: @ %bb.10:
				1539	; CHECK-NEXT: .LCPI15_0:
				1540	; CHECK-NEXT: .long 0x00000000 @ float 0
				1541	entry:
				1542	%cmp6 = icmp sgt i32 %n, 0
				1543	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1544
				1545	for.body.preheader: ; preds = %entry
				1546	%min.iters.check = icmp ult i32 %n, 4
				1547	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1548
				1549	vector.ph: ; preds = %for.body.preheader
				1550	%n.vec = and i32 %n, -4
				1551	br label %vector.body
				1552
				1553	vector.body: ; preds = %vector.body, %vector.ph
				1554	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1555	%vec.phi = phi <4 x float> [ zeroinitializer, %vector.ph ], [ %3, %vector.body ]
				1556	%0 = getelementptr inbounds float, float* %x, i32 %index
				1557	%1 = bitcast float* %0 to <4 x float>*
				1558	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				1559	%2 = fcmp ult <4 x float> %vec.phi, %wide.load
				1560	%3 = select <4 x i1> %2, <4 x float> %vec.phi, <4 x float> %wide.load
				1561	%index.next = add i32 %index, 4
				1562	%4 = icmp eq i32 %index.next, %n.vec
				1563	br i1 %4, label %middle.block, label %vector.body
				1564
				1565	middle.block: ; preds = %vector.body
				1566	%5 = call float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float> %3)
				1567	%cmp.n = icmp eq i32 %n.vec, %n
				1568	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1569
				1570	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1571	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1572	%r.07.ph = phi float [ 0.0, %for.body.preheader ], [ %5, %middle.block ]
				1573	br label %for.body
				1574
				1575	for.body: ; preds = %for.body.preheader1, %for.body
				1576	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1577	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1578	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				1579	%6 = load float, float* %arrayidx, align 4
				1580	%c = fcmp ult float %r.07, %6
				1581	%add = select i1 %c, float %r.07, float %6
				1582	%inc = add nuw nsw i32 %i.08, 1
				1583	%exitcond = icmp eq i32 %inc, %n
				1584	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1585
				1586	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1587	%r.0.lcssa = phi float [ 0.0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1588	ret float %r.0.lcssa
				1589	}
				1590
				1591	define float @fmax_f32(float* nocapture readonly %x, i32 %n) {
				1592	; CHECK-LABEL: fmax_f32:
				1593	; CHECK: @ %bb.0: @ %entry
				1594	; CHECK-NEXT: .save {r7, lr}
				1595	; CHECK-NEXT: push {r7, lr}
				1596	; CHECK-NEXT: cmp r1, #1
				1597	; CHECK-NEXT: blt .LBB16_3
				1598	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1599	; CHECK-NEXT: cmp r1, #4
				1600	; CHECK-NEXT: bhs .LBB16_4
				1601	; CHECK-NEXT: @ %bb.2:
				1602	; CHECK-NEXT: vldr s0, .LCPI16_0
				1603	; CHECK-NEXT: movs r2, #0
				1604	; CHECK-NEXT: b .LBB16_7
				1605	; CHECK-NEXT: .LBB16_3:
				1606	; CHECK-NEXT: vldr s0, .LCPI16_0
				1607	; CHECK-NEXT: b .LBB16_9
				1608	; CHECK-NEXT: .LBB16_4: @ %vector.ph
				1609	; CHECK-NEXT: bic r2, r1, #3
				1610	; CHECK-NEXT: movs r3, #1
				1611	; CHECK-NEXT: sub.w r12, r2, #4
				1612	; CHECK-NEXT: vmov.i32 q0, #0x0
				1613	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				1614	; CHECK-NEXT: mov r3, r0
				1615	; CHECK-NEXT: dls lr, lr
				1616	; CHECK-NEXT: .LBB16_5: @ %vector.body
				1617	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1618	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				1619	; CHECK-NEXT: vcmp.f32 lt, q1, q0
				1620	; CHECK-NEXT: vpsel q0, q0, q1
				1621	; CHECK-NEXT: le lr, .LBB16_5
				1622	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1623	; CHECK-NEXT: vmov.f32 s4, s2
				1624	; CHECK-NEXT: cmp r2, r1
				1625	; CHECK-NEXT: vmov.f32 s5, s3
				1626	; CHECK-NEXT: vmaxnm.f32 q0, q0, q1
				1627	; CHECK-NEXT: vmov r3, s1
				1628	; CHECK-NEXT: vdup.32 q1, r3
				1629	; CHECK-NEXT: vmaxnm.f32 q0, q0, q1
				1630	; CHECK-NEXT: beq .LBB16_9
				1631	; CHECK-NEXT: .LBB16_7: @ %for.body.preheader1
				1632	; CHECK-NEXT: sub.w lr, r1, r2
				1633	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				1634	; CHECK-NEXT: dls lr, lr
				1635	; CHECK-NEXT: .LBB16_8: @ %for.body
				1636	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1637	; CHECK-NEXT: vldmia r0!, {s4}
				1638	; CHECK-NEXT: vcmp.f32 s4, s0
				1639	; CHECK-NEXT: vmrs APSR_nzcv, fpscr
				1640	; CHECK-NEXT: vselge.f32 s0, s4, s0
				1641	; CHECK-NEXT: le lr, .LBB16_8
				1642	; CHECK-NEXT: .LBB16_9: @ %for.cond.cleanup
				1643	; CHECK-NEXT: vmov r0, s0
				1644	; CHECK-NEXT: pop {r7, pc}
				1645	; CHECK-NEXT: .p2align 2
				1646	; CHECK-NEXT: @ %bb.10:
				1647	; CHECK-NEXT: .LCPI16_0:
				1648	; CHECK-NEXT: .long 0x00000000 @ float 0
				1649	entry:
				1650	%cmp6 = icmp sgt i32 %n, 0
				1651	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1652
				1653	for.body.preheader: ; preds = %entry
				1654	%min.iters.check = icmp ult i32 %n, 4
				1655	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1656
				1657	vector.ph: ; preds = %for.body.preheader
				1658	%n.vec = and i32 %n, -4
				1659	br label %vector.body
				1660
				1661	vector.body: ; preds = %vector.body, %vector.ph
				1662	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1663	%vec.phi = phi <4 x float> [ zeroinitializer, %vector.ph ], [ %3, %vector.body ]
				1664	%0 = getelementptr inbounds float, float* %x, i32 %index
				1665	%1 = bitcast float* %0 to <4 x float>*
				1666	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				1667	%2 = fcmp ugt <4 x float> %vec.phi, %wide.load
				1668	%3 = select <4 x i1> %2, <4 x float> %vec.phi, <4 x float> %wide.load
				1669	%index.next = add i32 %index, 4
				1670	%4 = icmp eq i32 %index.next, %n.vec
				1671	br i1 %4, label %middle.block, label %vector.body
				1672
				1673	middle.block: ; preds = %vector.body
				1674	%5 = call float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float> %3)
				1675	%cmp.n = icmp eq i32 %n.vec, %n
				1676	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1677
				1678	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1679	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1680	%r.07.ph = phi float [ 0.0, %for.body.preheader ], [ %5, %middle.block ]
				1681	br label %for.body
				1682
				1683	for.body: ; preds = %for.body.preheader1, %for.body
				1684	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1685	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1686	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				1687	%6 = load float, float* %arrayidx, align 4
				1688	%c = fcmp ugt float %r.07, %6
				1689	%add = select i1 %c, float %r.07, float %6
				1690	%inc = add nuw nsw i32 %i.08, 1
				1691	%exitcond = icmp eq i32 %inc, %n
				1692	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1693
				1694	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1695	%r.0.lcssa = phi float [ 0.0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1696	ret float %r.0.lcssa
				1697	}
				1698
				1699	declare i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32>)
				1700	declare i32 @llvm.experimental.vector.reduce.mul.v4i32(<4 x i32>)
				1701	declare i32 @llvm.experimental.vector.reduce.and.v4i32(<4 x i32>)
				1702	declare i32 @llvm.experimental.vector.reduce.or.v4i32(<4 x i32>)
				1703	declare i32 @llvm.experimental.vector.reduce.xor.v4i32(<4 x i32>)
				1704	declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float, <4 x float>)
				1705	declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float, <4 x float>)
				1706	declare i32 @llvm.experimental.vector.reduce.smin.v4i32(<4 x i32>)
				1707	declare i32 @llvm.experimental.vector.reduce.smax.v4i32(<4 x i32>)
				1708	declare i32 @llvm.experimental.vector.reduce.umin.v4i32(<4 x i32>)
				1709	declare i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32>)
				1710	declare float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float>)
				1711	declare float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float>)