Blame - llvm/test/CodeGen/Thumb2/mve-vecreduce-loops.ll - toolchain/llvm-project

blob: 29e441e3e90cf99868ef6bfb62d6f0c5ea8a3982 [file] [log] [blame]

David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				2	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs %s -o - \| FileCheck %s
				3
				4	define i32 @add_i32(i32* nocapture readonly %x, i32 %n) {
				5	; CHECK-LABEL: add_i32:
				6	; CHECK: @ %bb.0: @ %entry
				7	; CHECK-NEXT: .save {r7, lr}
				8	; CHECK-NEXT: push {r7, lr}
				9	; CHECK-NEXT: cmp r1, #1
				10	; CHECK-NEXT: blt .LBB0_3
				11	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				12	; CHECK-NEXT: mov r12, r0
				13	; CHECK-NEXT: cmp r1, #4
				14	; CHECK-NEXT: bhs .LBB0_4
				15	; CHECK-NEXT: @ %bb.2:
				16	; CHECK-NEXT: movs r3, #0
				17	; CHECK-NEXT: movs r0, #0
				18	; CHECK-NEXT: b .LBB0_7
				19	; CHECK-NEXT: .LBB0_3:
				20	; CHECK-NEXT: movs r0, #0
				21	; CHECK-NEXT: b .LBB0_9
				22	; CHECK-NEXT: .LBB0_4: @ %vector.ph
				23	; CHECK-NEXT: bic r3, r1, #3
				24	; CHECK-NEXT: movs r2, #1
				25	; CHECK-NEXT: subs r0, r3, #4
				26	; CHECK-NEXT: add.w lr, r2, r0, lsr #2
				27	; CHECK-NEXT: movs r0, #0
				28	; CHECK-NEXT: mov r2, r12
				29	; CHECK-NEXT: dls lr, lr
				30	; CHECK-NEXT: .LBB0_5: @ %vector.body
				31	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				32	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				33	; CHECK-NEXT: vaddva.u32 r0, q0
				34	; CHECK-NEXT: le lr, .LBB0_5
				35	; CHECK-NEXT: @ %bb.6: @ %middle.block
				36	; CHECK-NEXT: cmp r3, r1
				37	; CHECK-NEXT: it eq
				38	; CHECK-NEXT: popeq {r7, pc}
				39	; CHECK-NEXT: .LBB0_7: @ %for.body.preheader1
				40	; CHECK-NEXT: sub.w lr, r1, r3
				41	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				42	; CHECK-NEXT: dls lr, lr
				43	; CHECK-NEXT: .LBB0_8: @ %for.body
				44	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				45	; CHECK-NEXT: ldr r2, [r1], #4
				46	; CHECK-NEXT: add r0, r2
				47	; CHECK-NEXT: le lr, .LBB0_8
				48	; CHECK-NEXT: .LBB0_9: @ %for.cond.cleanup
				49	; CHECK-NEXT: pop {r7, pc}
				50	entry:
				51	%cmp6 = icmp sgt i32 %n, 0
				52	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				53
				54	for.body.preheader: ; preds = %entry
				55	%min.iters.check = icmp ult i32 %n, 4
				56	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				57
				58	vector.ph: ; preds = %for.body.preheader
				59	%n.vec = and i32 %n, -4
				60	br label %vector.body
				61
				62	vector.body: ; preds = %vector.body, %vector.ph
				63	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				64	%vec.phi = phi i32 [ 0, %vector.ph ], [ %3, %vector.body ]
				65	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				66	%1 = bitcast i32* %0 to <4 x i32>*
				67	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				68	%2 = call i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32> %wide.load)
				69	%3 = add i32 %2, %vec.phi
				70	%index.next = add i32 %index, 4
				71	%4 = icmp eq i32 %index.next, %n.vec
				72	br i1 %4, label %middle.block, label %vector.body
				73
				74	middle.block: ; preds = %vector.body
				75	%cmp.n = icmp eq i32 %n.vec, %n
				76	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				77
				78	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				79	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				80	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %3, %middle.block ]
				81	br label %for.body
				82
				83	for.body: ; preds = %for.body.preheader1, %for.body
				84	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				85	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				86	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				87	%5 = load i32, i32* %arrayidx, align 4
				88	%add = add nsw i32 %5, %r.07
				89	%inc = add nuw nsw i32 %i.08, 1
				90	%exitcond = icmp eq i32 %inc, %n
				91	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				92
				93	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				94	%r.0.lcssa = phi i32 [ 0, %entry ], [ %3, %middle.block ], [ %add, %for.body ]
				95	ret i32 %r.0.lcssa
				96	}
				97
				98	define i32 @mul_i32(i32* nocapture readonly %x, i32 %n) {
				99	; CHECK-LABEL: mul_i32:
				100	; CHECK: @ %bb.0: @ %entry
				101	; CHECK-NEXT: .save {r7, lr}
				102	; CHECK-NEXT: push {r7, lr}
				103	; CHECK-NEXT: movs r2, #1
				104	; CHECK-NEXT: cmp r1, #1
				105	; CHECK-NEXT: blt .LBB1_8
				106	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				107	; CHECK-NEXT: cmp r1, #4
				108	; CHECK-NEXT: bhs .LBB1_3
				109	; CHECK-NEXT: @ %bb.2:
				110	; CHECK-NEXT: mov.w r12, #0
				111	; CHECK-NEXT: b .LBB1_6
				112	; CHECK-NEXT: .LBB1_3: @ %vector.ph
				113	; CHECK-NEXT: bic r12, r1, #3
				114	; CHECK-NEXT: vmov.i32 q0, #0x1
				115	; CHECK-NEXT: sub.w r3, r12, #4
				116	; CHECK-NEXT: add.w lr, r2, r3, lsr #2
				117	; CHECK-NEXT: mov r2, r0
				118	; CHECK-NEXT: dls lr, lr
				119	; CHECK-NEXT: .LBB1_4: @ %vector.body
				120	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				121	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				122	; CHECK-NEXT: vmul.i32 q0, q1, q0
				123	; CHECK-NEXT: le lr, .LBB1_4
				124	; CHECK-NEXT: @ %bb.5: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	125	; CHECK-NEXT: vmov r2, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	126	; CHECK-NEXT: cmp r12, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	127	; CHECK-NEXT: vmov r3, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	128	; CHECK-NEXT: mul lr, r3, r2
				129	; CHECK-NEXT: vmov r3, s1
				130	; CHECK-NEXT: vmov r2, s0
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	131	; CHECK-NEXT: mul r2, r3, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	132	; CHECK-NEXT: mul r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	133	; CHECK-NEXT: beq .LBB1_8
				134	; CHECK-NEXT: .LBB1_6: @ %for.body.preheader1
				135	; CHECK-NEXT: sub.w lr, r1, r12
				136	; CHECK-NEXT: add.w r0, r0, r12, lsl #2
				137	; CHECK-NEXT: dls lr, lr
				138	; CHECK-NEXT: .LBB1_7: @ %for.body
				139	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				140	; CHECK-NEXT: ldr r1, [r0], #4
				141	; CHECK-NEXT: muls r2, r1, r2
				142	; CHECK-NEXT: le lr, .LBB1_7
				143	; CHECK-NEXT: .LBB1_8: @ %for.cond.cleanup
				144	; CHECK-NEXT: mov r0, r2
				145	; CHECK-NEXT: pop {r7, pc}
				146	entry:
				147	%cmp6 = icmp sgt i32 %n, 0
				148	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				149
				150	for.body.preheader: ; preds = %entry
				151	%min.iters.check = icmp ult i32 %n, 4
				152	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				153
				154	vector.ph: ; preds = %for.body.preheader
				155	%n.vec = and i32 %n, -4
				156	br label %vector.body
				157
				158	vector.body: ; preds = %vector.body, %vector.ph
				159	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				160	%vec.phi = phi <4 x i32> [ <i32 1, i32 1, i32 1, i32 1>, %vector.ph ], [ %2, %vector.body ]
				161	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				162	%1 = bitcast i32* %0 to <4 x i32>*
				163	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				164	%2 = mul <4 x i32> %wide.load, %vec.phi
				165	%index.next = add i32 %index, 4
				166	%3 = icmp eq i32 %index.next, %n.vec
				167	br i1 %3, label %middle.block, label %vector.body
				168
				169	middle.block: ; preds = %vector.body
				170	%4 = call i32 @llvm.experimental.vector.reduce.mul.v4i32(<4 x i32> %2)
				171	%cmp.n = icmp eq i32 %n.vec, %n
				172	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				173
				174	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				175	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				176	%r.07.ph = phi i32 [ 1, %for.body.preheader ], [ %4, %middle.block ]
				177	br label %for.body
				178
				179	for.body: ; preds = %for.body.preheader1, %for.body
				180	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				181	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				182	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				183	%5 = load i32, i32* %arrayidx, align 4
				184	%add = mul nsw i32 %5, %r.07
				185	%inc = add nuw nsw i32 %i.08, 1
				186	%exitcond = icmp eq i32 %inc, %n
				187	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				188
				189	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				190	%r.0.lcssa = phi i32 [ 1, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				191	ret i32 %r.0.lcssa
				192	}
				193
				194	define i32 @and_i32(i32* nocapture readonly %x, i32 %n) {
				195	; CHECK-LABEL: and_i32:
				196	; CHECK: @ %bb.0: @ %entry
				197	; CHECK-NEXT: .save {r7, lr}
				198	; CHECK-NEXT: push {r7, lr}
				199	; CHECK-NEXT: cmp r1, #1
				200	; CHECK-NEXT: blt .LBB2_3
				201	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				202	; CHECK-NEXT: cmp r1, #4
				203	; CHECK-NEXT: bhs .LBB2_4
				204	; CHECK-NEXT: @ %bb.2:
				205	; CHECK-NEXT: mov.w r2, #-1
				206	; CHECK-NEXT: movs r3, #0
				207	; CHECK-NEXT: b .LBB2_7
				208	; CHECK-NEXT: .LBB2_3:
				209	; CHECK-NEXT: mov.w r2, #-1
				210	; CHECK-NEXT: b .LBB2_9
				211	; CHECK-NEXT: .LBB2_4: @ %vector.ph
				212	; CHECK-NEXT: bic r3, r1, #3
				213	; CHECK-NEXT: movs r2, #1
				214	; CHECK-NEXT: sub.w r12, r3, #4
				215	; CHECK-NEXT: vmov.i8 q0, #0xff
				216	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				217	; CHECK-NEXT: mov r2, r0
				218	; CHECK-NEXT: dls lr, lr
				219	; CHECK-NEXT: .LBB2_5: @ %vector.body
				220	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				221	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				222	; CHECK-NEXT: vand q0, q1, q0
				223	; CHECK-NEXT: le lr, .LBB2_5
				224	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	225	; CHECK-NEXT: vmov r12, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	226	; CHECK-NEXT: cmp r3, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	227	; CHECK-NEXT: vmov r2, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	228	; CHECK-NEXT: vmov lr, s1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	229	; CHECK-NEXT: and.w r12, r12, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	230	; CHECK-NEXT: vmov r2, s0
				231	; CHECK-NEXT: and.w r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	232	; CHECK-NEXT: and.w r2, r2, r12
				233	; CHECK-NEXT: beq .LBB2_9
				234	; CHECK-NEXT: .LBB2_7: @ %for.body.preheader1
				235	; CHECK-NEXT: sub.w lr, r1, r3
				236	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				237	; CHECK-NEXT: dls lr, lr
				238	; CHECK-NEXT: .LBB2_8: @ %for.body
				239	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				240	; CHECK-NEXT: ldr r1, [r0], #4
				241	; CHECK-NEXT: ands r2, r1
				242	; CHECK-NEXT: le lr, .LBB2_8
				243	; CHECK-NEXT: .LBB2_9: @ %for.cond.cleanup
				244	; CHECK-NEXT: mov r0, r2
				245	; CHECK-NEXT: pop {r7, pc}
				246	entry:
				247	%cmp6 = icmp sgt i32 %n, 0
				248	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				249
				250	for.body.preheader: ; preds = %entry
				251	%min.iters.check = icmp ult i32 %n, 4
				252	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				253
				254	vector.ph: ; preds = %for.body.preheader
				255	%n.vec = and i32 %n, -4
				256	br label %vector.body
				257
				258	vector.body: ; preds = %vector.body, %vector.ph
				259	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				260	%vec.phi = phi <4 x i32> [ <i32 -1, i32 -1, i32 -1, i32 -1>, %vector.ph ], [ %2, %vector.body ]
				261	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				262	%1 = bitcast i32* %0 to <4 x i32>*
				263	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				264	%2 = and <4 x i32> %wide.load, %vec.phi
				265	%index.next = add i32 %index, 4
				266	%3 = icmp eq i32 %index.next, %n.vec
				267	br i1 %3, label %middle.block, label %vector.body
				268
				269	middle.block: ; preds = %vector.body
				270	%4 = call i32 @llvm.experimental.vector.reduce.and.v4i32(<4 x i32> %2)
				271	%cmp.n = icmp eq i32 %n.vec, %n
				272	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				273
				274	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				275	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				276	%r.07.ph = phi i32 [ -1, %for.body.preheader ], [ %4, %middle.block ]
				277	br label %for.body
				278
				279	for.body: ; preds = %for.body.preheader1, %for.body
				280	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				281	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				282	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				283	%5 = load i32, i32* %arrayidx, align 4
				284	%add = and i32 %5, %r.07
				285	%inc = add nuw nsw i32 %i.08, 1
				286	%exitcond = icmp eq i32 %inc, %n
				287	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				288
				289	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				290	%r.0.lcssa = phi i32 [ -1, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				291	ret i32 %r.0.lcssa
				292	}
				293
				294	define i32 @or_i32(i32* nocapture readonly %x, i32 %n) {
				295	; CHECK-LABEL: or_i32:
				296	; CHECK: @ %bb.0: @ %entry
				297	; CHECK-NEXT: .save {r7, lr}
				298	; CHECK-NEXT: push {r7, lr}
				299	; CHECK-NEXT: cmp r1, #1
				300	; CHECK-NEXT: blt .LBB3_3
				301	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				302	; CHECK-NEXT: cmp r1, #4
				303	; CHECK-NEXT: bhs .LBB3_4
				304	; CHECK-NEXT: @ %bb.2:
				305	; CHECK-NEXT: movs r3, #0
				306	; CHECK-NEXT: movs r2, #0
				307	; CHECK-NEXT: b .LBB3_7
				308	; CHECK-NEXT: .LBB3_3:
				309	; CHECK-NEXT: movs r2, #0
				310	; CHECK-NEXT: b .LBB3_9
				311	; CHECK-NEXT: .LBB3_4: @ %vector.ph
				312	; CHECK-NEXT: bic r3, r1, #3
				313	; CHECK-NEXT: movs r2, #1
				314	; CHECK-NEXT: sub.w r12, r3, #4
				315	; CHECK-NEXT: vmov.i32 q0, #0x0
				316	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				317	; CHECK-NEXT: mov r2, r0
				318	; CHECK-NEXT: dls lr, lr
				319	; CHECK-NEXT: .LBB3_5: @ %vector.body
				320	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				321	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				322	; CHECK-NEXT: vorr q0, q1, q0
				323	; CHECK-NEXT: le lr, .LBB3_5
				324	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	325	; CHECK-NEXT: vmov r12, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	326	; CHECK-NEXT: cmp r3, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	327	; CHECK-NEXT: vmov r2, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	328	; CHECK-NEXT: vmov lr, s1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	329	; CHECK-NEXT: orr.w r12, r12, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	330	; CHECK-NEXT: vmov r2, s0
				331	; CHECK-NEXT: orr.w r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	332	; CHECK-NEXT: orr.w r2, r2, r12
				333	; CHECK-NEXT: beq .LBB3_9
				334	; CHECK-NEXT: .LBB3_7: @ %for.body.preheader1
				335	; CHECK-NEXT: sub.w lr, r1, r3
				336	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				337	; CHECK-NEXT: dls lr, lr
				338	; CHECK-NEXT: .LBB3_8: @ %for.body
				339	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				340	; CHECK-NEXT: ldr r1, [r0], #4
				341	; CHECK-NEXT: orrs r2, r1
				342	; CHECK-NEXT: le lr, .LBB3_8
				343	; CHECK-NEXT: .LBB3_9: @ %for.cond.cleanup
				344	; CHECK-NEXT: mov r0, r2
				345	; CHECK-NEXT: pop {r7, pc}
				346	entry:
				347	%cmp6 = icmp sgt i32 %n, 0
				348	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				349
				350	for.body.preheader: ; preds = %entry
				351	%min.iters.check = icmp ult i32 %n, 4
				352	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				353
				354	vector.ph: ; preds = %for.body.preheader
				355	%n.vec = and i32 %n, -4
				356	br label %vector.body
				357
				358	vector.body: ; preds = %vector.body, %vector.ph
				359	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				360	%vec.phi = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %2, %vector.body ]
				361	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				362	%1 = bitcast i32* %0 to <4 x i32>*
				363	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				364	%2 = or <4 x i32> %wide.load, %vec.phi
				365	%index.next = add i32 %index, 4
				366	%3 = icmp eq i32 %index.next, %n.vec
				367	br i1 %3, label %middle.block, label %vector.body
				368
				369	middle.block: ; preds = %vector.body
				370	%4 = call i32 @llvm.experimental.vector.reduce.or.v4i32(<4 x i32> %2)
				371	%cmp.n = icmp eq i32 %n.vec, %n
				372	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				373
				374	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				375	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				376	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %4, %middle.block ]
				377	br label %for.body
				378
				379	for.body: ; preds = %for.body.preheader1, %for.body
				380	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				381	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				382	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				383	%5 = load i32, i32* %arrayidx, align 4
				384	%add = or i32 %5, %r.07
				385	%inc = add nuw nsw i32 %i.08, 1
				386	%exitcond = icmp eq i32 %inc, %n
				387	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				388
				389	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				390	%r.0.lcssa = phi i32 [ 0, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				391	ret i32 %r.0.lcssa
				392	}
				393
				394	define i32 @xor_i32(i32* nocapture readonly %x, i32 %n) {
				395	; CHECK-LABEL: xor_i32:
				396	; CHECK: @ %bb.0: @ %entry
				397	; CHECK-NEXT: .save {r7, lr}
				398	; CHECK-NEXT: push {r7, lr}
				399	; CHECK-NEXT: cmp r1, #1
				400	; CHECK-NEXT: blt .LBB4_3
				401	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				402	; CHECK-NEXT: cmp r1, #4
				403	; CHECK-NEXT: bhs .LBB4_4
				404	; CHECK-NEXT: @ %bb.2:
				405	; CHECK-NEXT: movs r3, #0
				406	; CHECK-NEXT: movs r2, #0
				407	; CHECK-NEXT: b .LBB4_7
				408	; CHECK-NEXT: .LBB4_3:
				409	; CHECK-NEXT: movs r2, #0
				410	; CHECK-NEXT: b .LBB4_9
				411	; CHECK-NEXT: .LBB4_4: @ %vector.ph
				412	; CHECK-NEXT: bic r3, r1, #3
				413	; CHECK-NEXT: movs r2, #1
				414	; CHECK-NEXT: sub.w r12, r3, #4
				415	; CHECK-NEXT: vmov.i32 q0, #0x0
				416	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				417	; CHECK-NEXT: mov r2, r0
				418	; CHECK-NEXT: dls lr, lr
				419	; CHECK-NEXT: .LBB4_5: @ %vector.body
				420	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				421	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				422	; CHECK-NEXT: veor q0, q1, q0
				423	; CHECK-NEXT: le lr, .LBB4_5
				424	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	425	; CHECK-NEXT: vmov r12, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	426	; CHECK-NEXT: cmp r3, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	427	; CHECK-NEXT: vmov r2, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	428	; CHECK-NEXT: vmov lr, s1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	429	; CHECK-NEXT: eor.w r12, r12, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	430	; CHECK-NEXT: vmov r2, s0
				431	; CHECK-NEXT: eor.w r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	432	; CHECK-NEXT: eor.w r2, r2, r12
				433	; CHECK-NEXT: beq .LBB4_9
				434	; CHECK-NEXT: .LBB4_7: @ %for.body.preheader1
				435	; CHECK-NEXT: sub.w lr, r1, r3
				436	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				437	; CHECK-NEXT: dls lr, lr
				438	; CHECK-NEXT: .LBB4_8: @ %for.body
				439	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				440	; CHECK-NEXT: ldr r1, [r0], #4
				441	; CHECK-NEXT: eors r2, r1
				442	; CHECK-NEXT: le lr, .LBB4_8
				443	; CHECK-NEXT: .LBB4_9: @ %for.cond.cleanup
				444	; CHECK-NEXT: mov r0, r2
				445	; CHECK-NEXT: pop {r7, pc}
				446	entry:
				447	%cmp6 = icmp sgt i32 %n, 0
				448	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				449
				450	for.body.preheader: ; preds = %entry
				451	%min.iters.check = icmp ult i32 %n, 4
				452	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				453
				454	vector.ph: ; preds = %for.body.preheader
				455	%n.vec = and i32 %n, -4
				456	br label %vector.body
				457
				458	vector.body: ; preds = %vector.body, %vector.ph
				459	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				460	%vec.phi = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %2, %vector.body ]
				461	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				462	%1 = bitcast i32* %0 to <4 x i32>*
				463	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				464	%2 = xor <4 x i32> %wide.load, %vec.phi
				465	%index.next = add i32 %index, 4
				466	%3 = icmp eq i32 %index.next, %n.vec
				467	br i1 %3, label %middle.block, label %vector.body
				468
				469	middle.block: ; preds = %vector.body
				470	%4 = call i32 @llvm.experimental.vector.reduce.xor.v4i32(<4 x i32> %2)
				471	%cmp.n = icmp eq i32 %n.vec, %n
				472	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				473
				474	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				475	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				476	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %4, %middle.block ]
				477	br label %for.body
				478
				479	for.body: ; preds = %for.body.preheader1, %for.body
				480	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				481	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				482	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				483	%5 = load i32, i32* %arrayidx, align 4
				484	%add = xor i32 %5, %r.07
				485	%inc = add nuw nsw i32 %i.08, 1
				486	%exitcond = icmp eq i32 %inc, %n
				487	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				488
				489	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				490	%r.0.lcssa = phi i32 [ 0, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				491	ret i32 %r.0.lcssa
				492	}
				493
				494	define float @fadd_f32(float* nocapture readonly %x, i32 %n) {
				495	; CHECK-LABEL: fadd_f32:
				496	; CHECK: @ %bb.0: @ %entry
				497	; CHECK-NEXT: .save {r7, lr}
				498	; CHECK-NEXT: push {r7, lr}
				499	; CHECK-NEXT: cmp r1, #1
				500	; CHECK-NEXT: blt .LBB5_3
				501	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				502	; CHECK-NEXT: cmp r1, #4
				503	; CHECK-NEXT: bhs .LBB5_4
				504	; CHECK-NEXT: @ %bb.2:
				505	; CHECK-NEXT: vldr s0, .LCPI5_0
				506	; CHECK-NEXT: movs r2, #0
				507	; CHECK-NEXT: b .LBB5_7
				508	; CHECK-NEXT: .LBB5_3:
				509	; CHECK-NEXT: vldr s0, .LCPI5_0
				510	; CHECK-NEXT: b .LBB5_9
				511	; CHECK-NEXT: .LBB5_4: @ %vector.ph
				512	; CHECK-NEXT: bic r2, r1, #3
				513	; CHECK-NEXT: movs r3, #1
				514	; CHECK-NEXT: sub.w r12, r2, #4
				515	; CHECK-NEXT: vmov.i32 q0, #0x0
				516	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				517	; CHECK-NEXT: mov r3, r0
				518	; CHECK-NEXT: dls lr, lr
				519	; CHECK-NEXT: .LBB5_5: @ %vector.body
				520	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				521	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				522	; CHECK-NEXT: vadd.f32 q0, q1, q0
				523	; CHECK-NEXT: le lr, .LBB5_5
				524	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	525	; CHECK-NEXT: vadd.f32 s4, s2, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	526	; CHECK-NEXT: cmp r2, r1
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	527	; CHECK-NEXT: vadd.f32 s0, s0, s1
				528	; CHECK-NEXT: vadd.f32 s0, s0, s4
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	529	; CHECK-NEXT: beq .LBB5_9
				530	; CHECK-NEXT: .LBB5_7: @ %for.body.preheader1
				531	; CHECK-NEXT: sub.w lr, r1, r2
				532	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				533	; CHECK-NEXT: dls lr, lr
				534	; CHECK-NEXT: .LBB5_8: @ %for.body
				535	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				536	; CHECK-NEXT: vldr s2, [r0]
				537	; CHECK-NEXT: adds r0, #4
				538	; CHECK-NEXT: vadd.f32 s0, s2, s0
				539	; CHECK-NEXT: le lr, .LBB5_8
				540	; CHECK-NEXT: .LBB5_9: @ %for.cond.cleanup
				541	; CHECK-NEXT: vmov r0, s0
				542	; CHECK-NEXT: pop {r7, pc}
				543	; CHECK-NEXT: .p2align 2
				544	; CHECK-NEXT: @ %bb.10:
				545	; CHECK-NEXT: .LCPI5_0:
				546	; CHECK-NEXT: .long 0x00000000 @ float 0
				547	entry:
				548	%cmp6 = icmp sgt i32 %n, 0
				549	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				550
				551	for.body.preheader: ; preds = %entry
				552	%min.iters.check = icmp ult i32 %n, 4
				553	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				554
				555	vector.ph: ; preds = %for.body.preheader
				556	%n.vec = and i32 %n, -4
				557	br label %vector.body
				558
				559	vector.body: ; preds = %vector.body, %vector.ph
				560	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				561	%vec.phi = phi <4 x float> [ zeroinitializer, %vector.ph ], [ %2, %vector.body ]
				562	%0 = getelementptr inbounds float, float* %x, i32 %index
				563	%1 = bitcast float* %0 to <4 x float>*
				564	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				565	%2 = fadd fast <4 x float> %wide.load, %vec.phi
				566	%index.next = add i32 %index, 4
				567	%3 = icmp eq i32 %index.next, %n.vec
				568	br i1 %3, label %middle.block, label %vector.body
				569
				570	middle.block: ; preds = %vector.body
				571	%4 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.000000e+00, <4 x float> %2)
				572	%cmp.n = icmp eq i32 %n.vec, %n
				573	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				574
				575	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				576	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				577	%r.07.ph = phi float [ 0.000000e+00, %for.body.preheader ], [ %4, %middle.block ]
				578	br label %for.body
				579
				580	for.body: ; preds = %for.body.preheader1, %for.body
				581	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				582	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				583	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				584	%5 = load float, float* %arrayidx, align 4
				585	%add = fadd fast float %5, %r.07
				586	%inc = add nuw nsw i32 %i.08, 1
				587	%exitcond = icmp eq i32 %inc, %n
				588	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				589
				590	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				591	%r.0.lcssa = phi float [ 0.000000e+00, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				592	ret float %r.0.lcssa
				593	}
				594
				595	define float @fmul_f32(float* nocapture readonly %x, i32 %n) {
				596	; CHECK-LABEL: fmul_f32:
				597	; CHECK: @ %bb.0: @ %entry
				598	; CHECK-NEXT: .save {r7, lr}
				599	; CHECK-NEXT: push {r7, lr}
				600	; CHECK-NEXT: cmp r1, #1
				601	; CHECK-NEXT: blt .LBB6_3
				602	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				603	; CHECK-NEXT: cmp r1, #4
				604	; CHECK-NEXT: bhs .LBB6_4
				605	; CHECK-NEXT: @ %bb.2:
				606	; CHECK-NEXT: vmov.f32 s0, #1.000000e+00
				607	; CHECK-NEXT: movs r2, #0
				608	; CHECK-NEXT: b .LBB6_7
				609	; CHECK-NEXT: .LBB6_3:
				610	; CHECK-NEXT: vmov.f32 s0, #1.000000e+00
				611	; CHECK-NEXT: b .LBB6_9
				612	; CHECK-NEXT: .LBB6_4: @ %vector.ph
				613	; CHECK-NEXT: bic r2, r1, #3
				614	; CHECK-NEXT: movs r3, #1
				615	; CHECK-NEXT: sub.w r12, r2, #4
				616	; CHECK-NEXT: vmov.f32 q0, #1.000000e+00
				617	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				618	; CHECK-NEXT: mov r3, r0
				619	; CHECK-NEXT: dls lr, lr
				620	; CHECK-NEXT: .LBB6_5: @ %vector.body
				621	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				622	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				623	; CHECK-NEXT: vmul.f32 q0, q1, q0
				624	; CHECK-NEXT: le lr, .LBB6_5
				625	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	626	; CHECK-NEXT: vmul.f32 s4, s2, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	627	; CHECK-NEXT: cmp r2, r1
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame^]	628	; CHECK-NEXT: vmul.f32 s0, s0, s1
				629	; CHECK-NEXT: vmul.f32 s0, s0, s4
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	630	; CHECK-NEXT: beq .LBB6_9
				631	; CHECK-NEXT: .LBB6_7: @ %for.body.preheader1
				632	; CHECK-NEXT: sub.w lr, r1, r2
				633	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				634	; CHECK-NEXT: dls lr, lr
				635	; CHECK-NEXT: .LBB6_8: @ %for.body
				636	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				637	; CHECK-NEXT: vldr s2, [r0]
				638	; CHECK-NEXT: adds r0, #4
				639	; CHECK-NEXT: vmul.f32 s0, s2, s0
				640	; CHECK-NEXT: le lr, .LBB6_8
				641	; CHECK-NEXT: .LBB6_9: @ %for.cond.cleanup
				642	; CHECK-NEXT: vmov r0, s0
				643	; CHECK-NEXT: pop {r7, pc}
				644	entry:
				645	%cmp6 = icmp sgt i32 %n, 0
				646	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				647
				648	for.body.preheader: ; preds = %entry
				649	%min.iters.check = icmp ult i32 %n, 4
				650	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				651
				652	vector.ph: ; preds = %for.body.preheader
				653	%n.vec = and i32 %n, -4
				654	br label %vector.body
				655
				656	vector.body: ; preds = %vector.body, %vector.ph
				657	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				658	%vec.phi = phi <4 x float> [ <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, %vector.ph ], [ %2, %vector.body ]
				659	%0 = getelementptr inbounds float, float* %x, i32 %index
				660	%1 = bitcast float* %0 to <4 x float>*
				661	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				662	%2 = fmul fast <4 x float> %wide.load, %vec.phi
				663	%index.next = add i32 %index, 4
				664	%3 = icmp eq i32 %index.next, %n.vec
				665	br i1 %3, label %middle.block, label %vector.body
				666
				667	middle.block: ; preds = %vector.body
				668	%4 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.000000e+00, <4 x float> %2)
				669	%cmp.n = icmp eq i32 %n.vec, %n
				670	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				671
				672	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				673	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				674	%r.07.ph = phi float [ 1.000000e+00, %for.body.preheader ], [ %4, %middle.block ]
				675	br label %for.body
				676
				677	for.body: ; preds = %for.body.preheader1, %for.body
				678	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				679	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				680	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				681	%5 = load float, float* %arrayidx, align 4
				682	%add = fmul fast float %5, %r.07
				683	%inc = add nuw nsw i32 %i.08, 1
				684	%exitcond = icmp eq i32 %inc, %n
				685	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				686
				687	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				688	%r.0.lcssa = phi float [ 1.000000e+00, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				689	ret float %r.0.lcssa
				690	}
				691
				692	define i32 @smin_i32(i32* nocapture readonly %x, i32 %n) {
				693	; CHECK-LABEL: smin_i32:
				694	; CHECK: @ %bb.0: @ %entry
				695	; CHECK-NEXT: .save {r7, lr}
				696	; CHECK-NEXT: push {r7, lr}
				697	; CHECK-NEXT: cmp r1, #1
				698	; CHECK-NEXT: blt .LBB7_3
				699	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				700	; CHECK-NEXT: cmp r1, #4
				701	; CHECK-NEXT: bhs .LBB7_4
				702	; CHECK-NEXT: @ %bb.2:
				703	; CHECK-NEXT: mvn r2, #-2147483648
				704	; CHECK-NEXT: movs r3, #0
				705	; CHECK-NEXT: b .LBB7_7
				706	; CHECK-NEXT: .LBB7_3:
				707	; CHECK-NEXT: mvn r2, #-2147483648
				708	; CHECK-NEXT: b .LBB7_9
				709	; CHECK-NEXT: .LBB7_4: @ %vector.ph
				710	; CHECK-NEXT: bic r3, r1, #3
				711	; CHECK-NEXT: movs r2, #1
				712	; CHECK-NEXT: sub.w r12, r3, #4
				713	; CHECK-NEXT: vmvn.i32 q0, #0x80000000
				714	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				715	; CHECK-NEXT: mov r2, r0
				716	; CHECK-NEXT: dls lr, lr
				717	; CHECK-NEXT: .LBB7_5: @ %vector.body
				718	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				719	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				720	; CHECK-NEXT: vmin.s32 q0, q0, q1
				721	; CHECK-NEXT: le lr, .LBB7_5
				722	; CHECK-NEXT: @ %bb.6: @ %middle.block
				723	; CHECK-NEXT: mvn r2, #-2147483648
				724	; CHECK-NEXT: cmp r3, r1
				725	; CHECK-NEXT: vminv.s32 r2, q0
				726	; CHECK-NEXT: beq .LBB7_9
				727	; CHECK-NEXT: .LBB7_7: @ %for.body.preheader1
				728	; CHECK-NEXT: sub.w lr, r1, r3
				729	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				730	; CHECK-NEXT: dls lr, lr
				731	; CHECK-NEXT: .LBB7_8: @ %for.body
				732	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				733	; CHECK-NEXT: ldr r1, [r0], #4
				734	; CHECK-NEXT: cmp r2, r1
				735	; CHECK-NEXT: it ge
				736	; CHECK-NEXT: movge r2, r1
				737	; CHECK-NEXT: le lr, .LBB7_8
				738	; CHECK-NEXT: .LBB7_9: @ %for.cond.cleanup
				739	; CHECK-NEXT: mov r0, r2
				740	; CHECK-NEXT: pop {r7, pc}
				741	entry:
				742	%cmp6 = icmp sgt i32 %n, 0
				743	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				744
				745	for.body.preheader: ; preds = %entry
				746	%min.iters.check = icmp ult i32 %n, 4
				747	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				748
				749	vector.ph: ; preds = %for.body.preheader
				750	%n.vec = and i32 %n, -4
				751	br label %vector.body
				752
				753	vector.body: ; preds = %vector.body, %vector.ph
				754	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				755	%vec.phi = phi <4 x i32> [ <i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647>, %vector.ph ], [ %3, %vector.body ]
				756	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				757	%1 = bitcast i32* %0 to <4 x i32>*
				758	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				759	%2 = icmp slt <4 x i32> %vec.phi, %wide.load
				760	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				761	%index.next = add i32 %index, 4
				762	%4 = icmp eq i32 %index.next, %n.vec
				763	br i1 %4, label %middle.block, label %vector.body
				764
				765	middle.block: ; preds = %vector.body
				766	%5 = call i32 @llvm.experimental.vector.reduce.smin.v4i32(<4 x i32> %3)
				767	%cmp.n = icmp eq i32 %n.vec, %n
				768	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				769
				770	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				771	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				772	%r.07.ph = phi i32 [ 2147483647, %for.body.preheader ], [ %5, %middle.block ]
				773	br label %for.body
				774
				775	for.body: ; preds = %for.body.preheader1, %for.body
				776	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				777	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				778	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				779	%6 = load i32, i32* %arrayidx, align 4
				780	%c = icmp slt i32 %r.07, %6
				781	%add = select i1 %c, i32 %r.07, i32 %6
				782	%inc = add nuw nsw i32 %i.08, 1
				783	%exitcond = icmp eq i32 %inc, %n
				784	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				785
				786	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				787	%r.0.lcssa = phi i32 [ 2147483647, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				788	ret i32 %r.0.lcssa
				789	}
				790
				791	define i32 @smin_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				792	; CHECK-LABEL: smin_i32_inloop:
				793	; CHECK: @ %bb.0: @ %entry
				794	; CHECK-NEXT: .save {r4, lr}
				795	; CHECK-NEXT: push {r4, lr}
				796	; CHECK-NEXT: cmp r1, #1
				797	; CHECK-NEXT: blt .LBB8_3
				798	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				799	; CHECK-NEXT: mov r12, r0
				800	; CHECK-NEXT: mvn r0, #-2147483648
				801	; CHECK-NEXT: cmp r1, #4
				802	; CHECK-NEXT: bhs .LBB8_4
				803	; CHECK-NEXT: @ %bb.2:
				804	; CHECK-NEXT: movs r3, #0
				805	; CHECK-NEXT: b .LBB8_7
				806	; CHECK-NEXT: .LBB8_3:
				807	; CHECK-NEXT: mvn r0, #-2147483648
				808	; CHECK-NEXT: b .LBB8_9
				809	; CHECK-NEXT: .LBB8_4: @ %vector.ph
				810	; CHECK-NEXT: bic r3, r1, #3
				811	; CHECK-NEXT: movs r2, #1
				812	; CHECK-NEXT: sub.w lr, r3, #4
				813	; CHECK-NEXT: add.w lr, r2, lr, lsr #2
				814	; CHECK-NEXT: mov r2, r12
				815	; CHECK-NEXT: dls lr, lr
				816	; CHECK-NEXT: .LBB8_5: @ %vector.body
				817	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				818	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				819	; CHECK-NEXT: mvn r4, #-2147483648
				820	; CHECK-NEXT: vminv.s32 r4, q0
				821	; CHECK-NEXT: cmp r0, r4
				822	; CHECK-NEXT: it ge
				823	; CHECK-NEXT: movge r0, r4
				824	; CHECK-NEXT: le lr, .LBB8_5
				825	; CHECK-NEXT: @ %bb.6: @ %middle.block
				826	; CHECK-NEXT: cmp r3, r1
				827	; CHECK-NEXT: it eq
				828	; CHECK-NEXT: popeq {r4, pc}
				829	; CHECK-NEXT: .LBB8_7: @ %for.body.preheader1
				830	; CHECK-NEXT: sub.w lr, r1, r3
				831	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				832	; CHECK-NEXT: dls lr, lr
				833	; CHECK-NEXT: .LBB8_8: @ %for.body
				834	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				835	; CHECK-NEXT: ldr r2, [r1], #4
				836	; CHECK-NEXT: cmp r0, r2
				837	; CHECK-NEXT: it ge
				838	; CHECK-NEXT: movge r0, r2
				839	; CHECK-NEXT: le lr, .LBB8_8
				840	; CHECK-NEXT: .LBB8_9: @ %for.cond.cleanup
				841	; CHECK-NEXT: pop {r4, pc}
				842	entry:
				843	%cmp6 = icmp sgt i32 %n, 0
				844	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				845
				846	for.body.preheader: ; preds = %entry
				847	%min.iters.check = icmp ult i32 %n, 4
				848	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				849
				850	vector.ph: ; preds = %for.body.preheader
				851	%n.vec = and i32 %n, -4
				852	br label %vector.body
				853
				854	vector.body: ; preds = %vector.body, %vector.ph
				855	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				856	%vec.phi = phi i32 [ 2147483647, %vector.ph ], [ %3, %vector.body ]
				857	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				858	%1 = bitcast i32* %0 to <4 x i32>*
				859	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				860	%l5 = call i32 @llvm.experimental.vector.reduce.smin.v4i32(<4 x i32> %wide.load)
				861	%2 = icmp slt i32 %vec.phi, %l5
				862	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				863	%index.next = add i32 %index, 4
				864	%4 = icmp eq i32 %index.next, %n.vec
				865	br i1 %4, label %middle.block, label %vector.body
				866
				867	middle.block: ; preds = %vector.body
				868	%5 = phi i32 [ %3, %vector.body ]
				869	%cmp.n = icmp eq i32 %n.vec, %n
				870	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				871
				872	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				873	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				874	%r.07.ph = phi i32 [ 2147483647, %for.body.preheader ], [ %5, %middle.block ]
				875	br label %for.body
				876
				877	for.body: ; preds = %for.body.preheader1, %for.body
				878	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				879	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				880	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				881	%6 = load i32, i32* %arrayidx, align 4
				882	%c = icmp slt i32 %r.07, %6
				883	%add = select i1 %c, i32 %r.07, i32 %6
				884	%inc = add nuw nsw i32 %i.08, 1
				885	%exitcond = icmp eq i32 %inc, %n
				886	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				887
				888	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				889	%r.0.lcssa = phi i32 [ 2147483647, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				890	ret i32 %r.0.lcssa
				891	}
				892
				893	define i32 @smax_i32(i32* nocapture readonly %x, i32 %n) {
				894	; CHECK-LABEL: smax_i32:
				895	; CHECK: @ %bb.0: @ %entry
				896	; CHECK-NEXT: .save {r7, lr}
				897	; CHECK-NEXT: push {r7, lr}
				898	; CHECK-NEXT: cmp r1, #1
				899	; CHECK-NEXT: blt .LBB9_3
				900	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				901	; CHECK-NEXT: cmp r1, #4
				902	; CHECK-NEXT: bhs .LBB9_4
				903	; CHECK-NEXT: @ %bb.2:
				904	; CHECK-NEXT: mov.w r2, #-2147483648
				905	; CHECK-NEXT: movs r3, #0
				906	; CHECK-NEXT: b .LBB9_7
				907	; CHECK-NEXT: .LBB9_3:
				908	; CHECK-NEXT: mov.w r2, #-2147483648
				909	; CHECK-NEXT: b .LBB9_9
				910	; CHECK-NEXT: .LBB9_4: @ %vector.ph
				911	; CHECK-NEXT: bic r3, r1, #3
				912	; CHECK-NEXT: movs r2, #1
				913	; CHECK-NEXT: sub.w r12, r3, #4
				914	; CHECK-NEXT: vmov.i32 q0, #0x80000000
				915	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				916	; CHECK-NEXT: mov r2, r0
				917	; CHECK-NEXT: dls lr, lr
				918	; CHECK-NEXT: .LBB9_5: @ %vector.body
				919	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				920	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				921	; CHECK-NEXT: vmax.s32 q0, q0, q1
				922	; CHECK-NEXT: le lr, .LBB9_5
				923	; CHECK-NEXT: @ %bb.6: @ %middle.block
				924	; CHECK-NEXT: mov.w r2, #-2147483648
				925	; CHECK-NEXT: cmp r3, r1
				926	; CHECK-NEXT: vmaxv.s32 r2, q0
				927	; CHECK-NEXT: beq .LBB9_9
				928	; CHECK-NEXT: .LBB9_7: @ %for.body.preheader1
				929	; CHECK-NEXT: sub.w lr, r1, r3
				930	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				931	; CHECK-NEXT: dls lr, lr
				932	; CHECK-NEXT: .LBB9_8: @ %for.body
				933	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				934	; CHECK-NEXT: ldr r1, [r0], #4
				935	; CHECK-NEXT: cmp r2, r1
				936	; CHECK-NEXT: it le
				937	; CHECK-NEXT: movle r2, r1
				938	; CHECK-NEXT: le lr, .LBB9_8
				939	; CHECK-NEXT: .LBB9_9: @ %for.cond.cleanup
				940	; CHECK-NEXT: mov r0, r2
				941	; CHECK-NEXT: pop {r7, pc}
				942	entry:
				943	%cmp6 = icmp sgt i32 %n, 0
				944	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				945
				946	for.body.preheader: ; preds = %entry
				947	%min.iters.check = icmp ult i32 %n, 4
				948	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				949
				950	vector.ph: ; preds = %for.body.preheader
				951	%n.vec = and i32 %n, -4
				952	br label %vector.body
				953
				954	vector.body: ; preds = %vector.body, %vector.ph
				955	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				956	%vec.phi = phi <4 x i32> [ <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>, %vector.ph ], [ %3, %vector.body ]
				957	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				958	%1 = bitcast i32* %0 to <4 x i32>*
				959	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				960	%2 = icmp sgt <4 x i32> %vec.phi, %wide.load
				961	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				962	%index.next = add i32 %index, 4
				963	%4 = icmp eq i32 %index.next, %n.vec
				964	br i1 %4, label %middle.block, label %vector.body
				965
				966	middle.block: ; preds = %vector.body
				967	%5 = call i32 @llvm.experimental.vector.reduce.smax.v4i32(<4 x i32> %3)
				968	%cmp.n = icmp eq i32 %n.vec, %n
				969	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				970
				971	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				972	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				973	%r.07.ph = phi i32 [ -2147483648, %for.body.preheader ], [ %5, %middle.block ]
				974	br label %for.body
				975
				976	for.body: ; preds = %for.body.preheader1, %for.body
				977	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				978	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				979	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				980	%6 = load i32, i32* %arrayidx, align 4
				981	%c = icmp sgt i32 %r.07, %6
				982	%add = select i1 %c, i32 %r.07, i32 %6
				983	%inc = add nuw nsw i32 %i.08, 1
				984	%exitcond = icmp eq i32 %inc, %n
				985	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				986
				987	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				988	%r.0.lcssa = phi i32 [ -2147483648, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				989	ret i32 %r.0.lcssa
				990	}
				991
				992	define i32 @smax_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				993	; CHECK-LABEL: smax_i32_inloop:
				994	; CHECK: @ %bb.0: @ %entry
				995	; CHECK-NEXT: .save {r4, lr}
				996	; CHECK-NEXT: push {r4, lr}
				997	; CHECK-NEXT: cmp r1, #1
				998	; CHECK-NEXT: blt .LBB10_3
				999	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1000	; CHECK-NEXT: mov r12, r0
				1001	; CHECK-NEXT: mov.w r0, #-2147483648
				1002	; CHECK-NEXT: cmp r1, #4
				1003	; CHECK-NEXT: bhs .LBB10_4
				1004	; CHECK-NEXT: @ %bb.2:
				1005	; CHECK-NEXT: movs r3, #0
				1006	; CHECK-NEXT: b .LBB10_7
				1007	; CHECK-NEXT: .LBB10_3:
				1008	; CHECK-NEXT: mov.w r0, #-2147483648
				1009	; CHECK-NEXT: b .LBB10_9
				1010	; CHECK-NEXT: .LBB10_4: @ %vector.ph
				1011	; CHECK-NEXT: bic r3, r1, #3
				1012	; CHECK-NEXT: movs r2, #1
				1013	; CHECK-NEXT: sub.w lr, r3, #4
				1014	; CHECK-NEXT: add.w lr, r2, lr, lsr #2
				1015	; CHECK-NEXT: mov r2, r12
				1016	; CHECK-NEXT: dls lr, lr
				1017	; CHECK-NEXT: .LBB10_5: @ %vector.body
				1018	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1019	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				1020	; CHECK-NEXT: mov.w r4, #-2147483648
				1021	; CHECK-NEXT: vmaxv.s32 r4, q0
				1022	; CHECK-NEXT: cmp r0, r4
				1023	; CHECK-NEXT: it le
				1024	; CHECK-NEXT: movle r0, r4
				1025	; CHECK-NEXT: le lr, .LBB10_5
				1026	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1027	; CHECK-NEXT: cmp r3, r1
				1028	; CHECK-NEXT: it eq
				1029	; CHECK-NEXT: popeq {r4, pc}
				1030	; CHECK-NEXT: .LBB10_7: @ %for.body.preheader1
				1031	; CHECK-NEXT: sub.w lr, r1, r3
				1032	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				1033	; CHECK-NEXT: dls lr, lr
				1034	; CHECK-NEXT: .LBB10_8: @ %for.body
				1035	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1036	; CHECK-NEXT: ldr r2, [r1], #4
				1037	; CHECK-NEXT: cmp r0, r2
				1038	; CHECK-NEXT: it le
				1039	; CHECK-NEXT: movle r0, r2
				1040	; CHECK-NEXT: le lr, .LBB10_8
				1041	; CHECK-NEXT: .LBB10_9: @ %for.cond.cleanup
				1042	; CHECK-NEXT: pop {r4, pc}
				1043	entry:
				1044	%cmp6 = icmp sgt i32 %n, 0
				1045	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1046
				1047	for.body.preheader: ; preds = %entry
				1048	%min.iters.check = icmp ult i32 %n, 4
				1049	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1050
				1051	vector.ph: ; preds = %for.body.preheader
				1052	%n.vec = and i32 %n, -4
				1053	br label %vector.body
				1054
				1055	vector.body: ; preds = %vector.body, %vector.ph
				1056	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1057	%vec.phi = phi i32 [ -2147483648, %vector.ph ], [ %3, %vector.body ]
				1058	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1059	%1 = bitcast i32* %0 to <4 x i32>*
				1060	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1061	%l5 = call i32 @llvm.experimental.vector.reduce.smax.v4i32(<4 x i32> %wide.load)
				1062	%2 = icmp sgt i32 %vec.phi, %l5
				1063	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				1064	%index.next = add i32 %index, 4
				1065	%4 = icmp eq i32 %index.next, %n.vec
				1066	br i1 %4, label %middle.block, label %vector.body
				1067
				1068	middle.block: ; preds = %vector.body
				1069	%5 = phi i32 [ %3, %vector.body ]
				1070	%cmp.n = icmp eq i32 %n.vec, %n
				1071	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1072
				1073	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1074	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1075	%r.07.ph = phi i32 [ -2147483648, %for.body.preheader ], [ %5, %middle.block ]
				1076	br label %for.body
				1077
				1078	for.body: ; preds = %for.body.preheader1, %for.body
				1079	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1080	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1081	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1082	%6 = load i32, i32* %arrayidx, align 4
				1083	%c = icmp sgt i32 %r.07, %6
				1084	%add = select i1 %c, i32 %r.07, i32 %6
				1085	%inc = add nuw nsw i32 %i.08, 1
				1086	%exitcond = icmp eq i32 %inc, %n
				1087	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1088
				1089	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1090	%r.0.lcssa = phi i32 [ -2147483648, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1091	ret i32 %r.0.lcssa
				1092	}
				1093
				1094	define i32 @umin_i32(i32* nocapture readonly %x, i32 %n) {
				1095	; CHECK-LABEL: umin_i32:
				1096	; CHECK: @ %bb.0: @ %entry
				1097	; CHECK-NEXT: .save {r7, lr}
				1098	; CHECK-NEXT: push {r7, lr}
				1099	; CHECK-NEXT: cmp r1, #1
				1100	; CHECK-NEXT: blt .LBB11_3
				1101	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1102	; CHECK-NEXT: cmp r1, #4
				1103	; CHECK-NEXT: bhs .LBB11_4
				1104	; CHECK-NEXT: @ %bb.2:
				1105	; CHECK-NEXT: mov.w r2, #-1
				1106	; CHECK-NEXT: movs r3, #0
				1107	; CHECK-NEXT: b .LBB11_7
				1108	; CHECK-NEXT: .LBB11_3:
				1109	; CHECK-NEXT: mov.w r2, #-1
				1110	; CHECK-NEXT: b .LBB11_9
				1111	; CHECK-NEXT: .LBB11_4: @ %vector.ph
				1112	; CHECK-NEXT: bic r3, r1, #3
				1113	; CHECK-NEXT: movs r2, #1
				1114	; CHECK-NEXT: sub.w r12, r3, #4
				1115	; CHECK-NEXT: vmov.i8 q0, #0xff
				1116	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				1117	; CHECK-NEXT: mov r2, r0
				1118	; CHECK-NEXT: dls lr, lr
				1119	; CHECK-NEXT: .LBB11_5: @ %vector.body
				1120	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1121	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				1122	; CHECK-NEXT: vmin.u32 q0, q0, q1
				1123	; CHECK-NEXT: le lr, .LBB11_5
				1124	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1125	; CHECK-NEXT: mov.w r2, #-1
				1126	; CHECK-NEXT: cmp r3, r1
				1127	; CHECK-NEXT: vminv.u32 r2, q0
				1128	; CHECK-NEXT: beq .LBB11_9
				1129	; CHECK-NEXT: .LBB11_7: @ %for.body.preheader1
				1130	; CHECK-NEXT: sub.w lr, r1, r3
				1131	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				1132	; CHECK-NEXT: dls lr, lr
				1133	; CHECK-NEXT: .LBB11_8: @ %for.body
				1134	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1135	; CHECK-NEXT: ldr r1, [r0], #4
				1136	; CHECK-NEXT: cmp r2, r1
				1137	; CHECK-NEXT: it hs
				1138	; CHECK-NEXT: movhs r2, r1
				1139	; CHECK-NEXT: le lr, .LBB11_8
				1140	; CHECK-NEXT: .LBB11_9: @ %for.cond.cleanup
				1141	; CHECK-NEXT: mov r0, r2
				1142	; CHECK-NEXT: pop {r7, pc}
				1143	entry:
				1144	%cmp6 = icmp sgt i32 %n, 0
				1145	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1146
				1147	for.body.preheader: ; preds = %entry
				1148	%min.iters.check = icmp ult i32 %n, 4
				1149	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1150
				1151	vector.ph: ; preds = %for.body.preheader
				1152	%n.vec = and i32 %n, -4
				1153	br label %vector.body
				1154
				1155	vector.body: ; preds = %vector.body, %vector.ph
				1156	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1157	%vec.phi = phi <4 x i32> [ <i32 -1, i32 -1, i32 -1, i32 -1>, %vector.ph ], [ %3, %vector.body ]
				1158	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1159	%1 = bitcast i32* %0 to <4 x i32>*
				1160	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1161	%2 = icmp ult <4 x i32> %vec.phi, %wide.load
				1162	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				1163	%index.next = add i32 %index, 4
				1164	%4 = icmp eq i32 %index.next, %n.vec
				1165	br i1 %4, label %middle.block, label %vector.body
				1166
				1167	middle.block: ; preds = %vector.body
				1168	%5 = call i32 @llvm.experimental.vector.reduce.umin.v4i32(<4 x i32> %3)
				1169	%cmp.n = icmp eq i32 %n.vec, %n
				1170	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1171
				1172	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1173	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1174	%r.07.ph = phi i32 [ -1, %for.body.preheader ], [ %5, %middle.block ]
				1175	br label %for.body
				1176
				1177	for.body: ; preds = %for.body.preheader1, %for.body
				1178	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1179	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1180	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1181	%6 = load i32, i32* %arrayidx, align 4
				1182	%c = icmp ult i32 %r.07, %6
				1183	%add = select i1 %c, i32 %r.07, i32 %6
				1184	%inc = add nuw nsw i32 %i.08, 1
				1185	%exitcond = icmp eq i32 %inc, %n
				1186	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1187
				1188	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1189	%r.0.lcssa = phi i32 [ -1, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1190	ret i32 %r.0.lcssa
				1191	}
				1192
				1193	define i32 @umin_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				1194	; CHECK-LABEL: umin_i32_inloop:
				1195	; CHECK: @ %bb.0: @ %entry
				1196	; CHECK-NEXT: .save {r4, lr}
				1197	; CHECK-NEXT: push {r4, lr}
				1198	; CHECK-NEXT: cmp r1, #1
				1199	; CHECK-NEXT: blt .LBB12_3
				1200	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1201	; CHECK-NEXT: mov r12, r0
				1202	; CHECK-NEXT: mov.w r0, #-1
				1203	; CHECK-NEXT: cmp r1, #4
				1204	; CHECK-NEXT: bhs .LBB12_4
				1205	; CHECK-NEXT: @ %bb.2:
				1206	; CHECK-NEXT: movs r3, #0
				1207	; CHECK-NEXT: b .LBB12_7
				1208	; CHECK-NEXT: .LBB12_3:
				1209	; CHECK-NEXT: mov.w r0, #-1
				1210	; CHECK-NEXT: b .LBB12_9
				1211	; CHECK-NEXT: .LBB12_4: @ %vector.ph
				1212	; CHECK-NEXT: bic r3, r1, #3
				1213	; CHECK-NEXT: movs r2, #1
				1214	; CHECK-NEXT: sub.w lr, r3, #4
				1215	; CHECK-NEXT: add.w lr, r2, lr, lsr #2
				1216	; CHECK-NEXT: mov r2, r12
				1217	; CHECK-NEXT: dls lr, lr
				1218	; CHECK-NEXT: .LBB12_5: @ %vector.body
				1219	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1220	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				1221	; CHECK-NEXT: mov.w r4, #-1
				1222	; CHECK-NEXT: vminv.u32 r4, q0
				1223	; CHECK-NEXT: cmp r0, r4
				1224	; CHECK-NEXT: it hs
				1225	; CHECK-NEXT: movhs r0, r4
				1226	; CHECK-NEXT: le lr, .LBB12_5
				1227	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1228	; CHECK-NEXT: cmp r3, r1
				1229	; CHECK-NEXT: it eq
				1230	; CHECK-NEXT: popeq {r4, pc}
				1231	; CHECK-NEXT: .LBB12_7: @ %for.body.preheader1
				1232	; CHECK-NEXT: sub.w lr, r1, r3
				1233	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				1234	; CHECK-NEXT: dls lr, lr
				1235	; CHECK-NEXT: .LBB12_8: @ %for.body
				1236	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1237	; CHECK-NEXT: ldr r2, [r1], #4
				1238	; CHECK-NEXT: cmp r0, r2
				1239	; CHECK-NEXT: it ls
				1240	; CHECK-NEXT: movls r0, r2
				1241	; CHECK-NEXT: le lr, .LBB12_8
				1242	; CHECK-NEXT: .LBB12_9: @ %for.cond.cleanup
				1243	; CHECK-NEXT: pop {r4, pc}
				1244	entry:
				1245	%cmp6 = icmp sgt i32 %n, 0
				1246	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1247
				1248	for.body.preheader: ; preds = %entry
				1249	%min.iters.check = icmp ult i32 %n, 4
				1250	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1251
				1252	vector.ph: ; preds = %for.body.preheader
				1253	%n.vec = and i32 %n, -4
				1254	br label %vector.body
				1255
				1256	vector.body: ; preds = %vector.body, %vector.ph
				1257	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1258	%vec.phi = phi i32 [ -1, %vector.ph ], [ %3, %vector.body ]
				1259	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1260	%1 = bitcast i32* %0 to <4 x i32>*
				1261	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1262	%l5 = call i32 @llvm.experimental.vector.reduce.umin.v4i32(<4 x i32> %wide.load)
				1263	%2 = icmp ult i32 %vec.phi, %l5
				1264	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				1265	%index.next = add i32 %index, 4
				1266	%4 = icmp eq i32 %index.next, %n.vec
				1267	br i1 %4, label %middle.block, label %vector.body
				1268
				1269	middle.block: ; preds = %vector.body
				1270	%5 = phi i32 [ %3, %vector.body ]
				1271	%cmp.n = icmp eq i32 %n.vec, %n
				1272	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1273
				1274	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1275	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1276	%r.07.ph = phi i32 [ -1, %for.body.preheader ], [ %5, %middle.block ]
				1277	br label %for.body
				1278
				1279	for.body: ; preds = %for.body.preheader1, %for.body
				1280	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1281	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1282	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1283	%6 = load i32, i32* %arrayidx, align 4
				1284	%c = icmp ugt i32 %r.07, %6
				1285	%add = select i1 %c, i32 %r.07, i32 %6
				1286	%inc = add nuw nsw i32 %i.08, 1
				1287	%exitcond = icmp eq i32 %inc, %n
				1288	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1289
				1290	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1291	%r.0.lcssa = phi i32 [ -1, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1292	ret i32 %r.0.lcssa
				1293	}
				1294
				1295	define i32 @umax_i32(i32* nocapture readonly %x, i32 %n) {
				1296	; CHECK-LABEL: umax_i32:
				1297	; CHECK: @ %bb.0: @ %entry
				1298	; CHECK-NEXT: .save {r7, lr}
				1299	; CHECK-NEXT: push {r7, lr}
				1300	; CHECK-NEXT: cmp r1, #1
				1301	; CHECK-NEXT: blt .LBB13_3
				1302	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1303	; CHECK-NEXT: cmp r1, #4
				1304	; CHECK-NEXT: bhs .LBB13_4
				1305	; CHECK-NEXT: @ %bb.2:
				1306	; CHECK-NEXT: movs r3, #0
				1307	; CHECK-NEXT: movs r2, #0
				1308	; CHECK-NEXT: b .LBB13_7
				1309	; CHECK-NEXT: .LBB13_3:
				1310	; CHECK-NEXT: movs r2, #0
				1311	; CHECK-NEXT: b .LBB13_9
				1312	; CHECK-NEXT: .LBB13_4: @ %vector.ph
				1313	; CHECK-NEXT: bic r3, r1, #3
				1314	; CHECK-NEXT: movs r2, #1
				1315	; CHECK-NEXT: sub.w r12, r3, #4
				1316	; CHECK-NEXT: vmov.i32 q0, #0x0
				1317	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				1318	; CHECK-NEXT: mov r2, r0
				1319	; CHECK-NEXT: dls lr, lr
				1320	; CHECK-NEXT: .LBB13_5: @ %vector.body
				1321	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1322	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				1323	; CHECK-NEXT: vmax.u32 q0, q0, q1
				1324	; CHECK-NEXT: le lr, .LBB13_5
				1325	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1326	; CHECK-NEXT: movs r2, #0
				1327	; CHECK-NEXT: cmp r3, r1
				1328	; CHECK-NEXT: vmaxv.u32 r2, q0
				1329	; CHECK-NEXT: beq .LBB13_9
				1330	; CHECK-NEXT: .LBB13_7: @ %for.body.preheader1
				1331	; CHECK-NEXT: sub.w lr, r1, r3
				1332	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				1333	; CHECK-NEXT: dls lr, lr
				1334	; CHECK-NEXT: .LBB13_8: @ %for.body
				1335	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1336	; CHECK-NEXT: ldr r1, [r0], #4
				1337	; CHECK-NEXT: cmp r2, r1
				1338	; CHECK-NEXT: it ls
				1339	; CHECK-NEXT: movls r2, r1
				1340	; CHECK-NEXT: le lr, .LBB13_8
				1341	; CHECK-NEXT: .LBB13_9: @ %for.cond.cleanup
				1342	; CHECK-NEXT: mov r0, r2
				1343	; CHECK-NEXT: pop {r7, pc}
				1344	entry:
				1345	%cmp6 = icmp sgt i32 %n, 0
				1346	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1347
				1348	for.body.preheader: ; preds = %entry
				1349	%min.iters.check = icmp ult i32 %n, 4
				1350	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1351
				1352	vector.ph: ; preds = %for.body.preheader
				1353	%n.vec = and i32 %n, -4
				1354	br label %vector.body
				1355
				1356	vector.body: ; preds = %vector.body, %vector.ph
				1357	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1358	%vec.phi = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %3, %vector.body ]
				1359	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1360	%1 = bitcast i32* %0 to <4 x i32>*
				1361	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1362	%2 = icmp ugt <4 x i32> %vec.phi, %wide.load
				1363	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				1364	%index.next = add i32 %index, 4
				1365	%4 = icmp eq i32 %index.next, %n.vec
				1366	br i1 %4, label %middle.block, label %vector.body
				1367
				1368	middle.block: ; preds = %vector.body
				1369	%5 = call i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32> %3)
				1370	%cmp.n = icmp eq i32 %n.vec, %n
				1371	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1372
				1373	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1374	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1375	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %5, %middle.block ]
				1376	br label %for.body
				1377
				1378	for.body: ; preds = %for.body.preheader1, %for.body
				1379	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1380	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1381	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1382	%6 = load i32, i32* %arrayidx, align 4
				1383	%c = icmp ugt i32 %r.07, %6
				1384	%add = select i1 %c, i32 %r.07, i32 %6
				1385	%inc = add nuw nsw i32 %i.08, 1
				1386	%exitcond = icmp eq i32 %inc, %n
				1387	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1388
				1389	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1390	%r.0.lcssa = phi i32 [ 0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1391	ret i32 %r.0.lcssa
				1392	}
				1393
				1394	define i32 @umax_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				1395	; CHECK-LABEL: umax_i32_inloop:
				1396	; CHECK: @ %bb.0: @ %entry
				1397	; CHECK-NEXT: .save {r4, lr}
				1398	; CHECK-NEXT: push {r4, lr}
				1399	; CHECK-NEXT: cmp r1, #1
				1400	; CHECK-NEXT: blt .LBB14_8
				1401	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1402	; CHECK-NEXT: mov r12, r0
				1403	; CHECK-NEXT: movs r3, #0
				1404	; CHECK-NEXT: cmp r1, #4
				1405	; CHECK-NEXT: mov.w r0, #0
				1406	; CHECK-NEXT: blo .LBB14_5
				1407	; CHECK-NEXT: @ %bb.2: @ %vector.ph
				1408	; CHECK-NEXT: bic r3, r1, #3
				1409	; CHECK-NEXT: movs r2, #1
				1410	; CHECK-NEXT: subs r0, r3, #4
				1411	; CHECK-NEXT: add.w lr, r2, r0, lsr #2
				1412	; CHECK-NEXT: movs r0, #0
				1413	; CHECK-NEXT: mov r2, r12
				1414	; CHECK-NEXT: dls lr, lr
				1415	; CHECK-NEXT: .LBB14_3: @ %vector.body
				1416	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1417	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				1418	; CHECK-NEXT: movs r4, #0
				1419	; CHECK-NEXT: vmaxv.u32 r4, q0
				1420	; CHECK-NEXT: cmp r0, r4
				1421	; CHECK-NEXT: it ls
				1422	; CHECK-NEXT: movls r0, r4
				1423	; CHECK-NEXT: le lr, .LBB14_3
				1424	; CHECK-NEXT: @ %bb.4: @ %middle.block
				1425	; CHECK-NEXT: cmp r3, r1
				1426	; CHECK-NEXT: it eq
				1427	; CHECK-NEXT: popeq {r4, pc}
				1428	; CHECK-NEXT: .LBB14_5: @ %for.body.preheader1
				1429	; CHECK-NEXT: sub.w lr, r1, r3
				1430	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				1431	; CHECK-NEXT: dls lr, lr
				1432	; CHECK-NEXT: .LBB14_6: @ %for.body
				1433	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1434	; CHECK-NEXT: ldr r2, [r1], #4
				1435	; CHECK-NEXT: cmp r0, r2
				1436	; CHECK-NEXT: it ls
				1437	; CHECK-NEXT: movls r0, r2
				1438	; CHECK-NEXT: le lr, .LBB14_6
				1439	; CHECK-NEXT: @ %bb.7: @ %for.cond.cleanup
				1440	; CHECK-NEXT: pop {r4, pc}
				1441	; CHECK-NEXT: .LBB14_8:
				1442	; CHECK-NEXT: movs r0, #0
				1443	; CHECK-NEXT: pop {r4, pc}
				1444	entry:
				1445	%cmp6 = icmp sgt i32 %n, 0
				1446	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1447
				1448	for.body.preheader: ; preds = %entry
				1449	%min.iters.check = icmp ult i32 %n, 4
				1450	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1451
				1452	vector.ph: ; preds = %for.body.preheader
				1453	%n.vec = and i32 %n, -4
				1454	br label %vector.body
				1455
				1456	vector.body: ; preds = %vector.body, %vector.ph
				1457	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1458	%vec.phi = phi i32 [ 0, %vector.ph ], [ %3, %vector.body ]
				1459	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1460	%1 = bitcast i32* %0 to <4 x i32>*
				1461	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1462	%l5 = call i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32> %wide.load)
				1463	%2 = icmp ugt i32 %vec.phi, %l5
				1464	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				1465	%index.next = add i32 %index, 4
				1466	%4 = icmp eq i32 %index.next, %n.vec
				1467	br i1 %4, label %middle.block, label %vector.body
				1468
				1469	middle.block: ; preds = %vector.body
				1470	%5 = phi i32 [ %3, %vector.body ]
				1471	%cmp.n = icmp eq i32 %n.vec, %n
				1472	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1473
				1474	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1475	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1476	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %5, %middle.block ]
				1477	br label %for.body
				1478
				1479	for.body: ; preds = %for.body.preheader1, %for.body
				1480	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1481	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1482	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1483	%6 = load i32, i32* %arrayidx, align 4
				1484	%c = icmp ugt i32 %r.07, %6
				1485	%add = select i1 %c, i32 %r.07, i32 %6
				1486	%inc = add nuw nsw i32 %i.08, 1
				1487	%exitcond = icmp eq i32 %inc, %n
				1488	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1489
				1490	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1491	%r.0.lcssa = phi i32 [ 0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1492	ret i32 %r.0.lcssa
				1493	}
				1494
				1495	define float @fmin_f32(float* nocapture readonly %x, i32 %n) {
				1496	; CHECK-LABEL: fmin_f32:
				1497	; CHECK: @ %bb.0: @ %entry
				1498	; CHECK-NEXT: .save {r7, lr}
				1499	; CHECK-NEXT: push {r7, lr}
				1500	; CHECK-NEXT: cmp r1, #1
				1501	; CHECK-NEXT: blt .LBB15_3
				1502	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1503	; CHECK-NEXT: cmp r1, #4
				1504	; CHECK-NEXT: bhs .LBB15_4
				1505	; CHECK-NEXT: @ %bb.2:
				1506	; CHECK-NEXT: vldr s0, .LCPI15_0
				1507	; CHECK-NEXT: movs r2, #0
				1508	; CHECK-NEXT: b .LBB15_7
				1509	; CHECK-NEXT: .LBB15_3:
				1510	; CHECK-NEXT: vldr s0, .LCPI15_0
				1511	; CHECK-NEXT: b .LBB15_9
				1512	; CHECK-NEXT: .LBB15_4: @ %vector.ph
				1513	; CHECK-NEXT: bic r2, r1, #3
				1514	; CHECK-NEXT: movs r3, #1
				1515	; CHECK-NEXT: sub.w r12, r2, #4
				1516	; CHECK-NEXT: vmov.i32 q0, #0x0
				1517	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				1518	; CHECK-NEXT: mov r3, r0
				1519	; CHECK-NEXT: dls lr, lr
				1520	; CHECK-NEXT: .LBB15_5: @ %vector.body
				1521	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1522	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				1523	; CHECK-NEXT: vcmp.f32 lt, q0, q1
				1524	; CHECK-NEXT: vpsel q0, q0, q1
				1525	; CHECK-NEXT: le lr, .LBB15_5
				1526	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1527	; CHECK-NEXT: vmov.f32 s4, s2
				1528	; CHECK-NEXT: cmp r2, r1
				1529	; CHECK-NEXT: vmov.f32 s5, s3
				1530	; CHECK-NEXT: vminnm.f32 q0, q0, q1
				1531	; CHECK-NEXT: vmov r3, s1
				1532	; CHECK-NEXT: vdup.32 q1, r3
				1533	; CHECK-NEXT: vminnm.f32 q0, q0, q1
				1534	; CHECK-NEXT: beq .LBB15_9
				1535	; CHECK-NEXT: .LBB15_7: @ %for.body.preheader1
				1536	; CHECK-NEXT: sub.w lr, r1, r2
				1537	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				1538	; CHECK-NEXT: dls lr, lr
				1539	; CHECK-NEXT: .LBB15_8: @ %for.body
				1540	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1541	; CHECK-NEXT: vldmia r0!, {s4}
				1542	; CHECK-NEXT: vcmp.f32 s0, s4
				1543	; CHECK-NEXT: vmrs APSR_nzcv, fpscr
				1544	; CHECK-NEXT: vselge.f32 s0, s4, s0
				1545	; CHECK-NEXT: le lr, .LBB15_8
				1546	; CHECK-NEXT: .LBB15_9: @ %for.cond.cleanup
				1547	; CHECK-NEXT: vmov r0, s0
				1548	; CHECK-NEXT: pop {r7, pc}
				1549	; CHECK-NEXT: .p2align 2
				1550	; CHECK-NEXT: @ %bb.10:
				1551	; CHECK-NEXT: .LCPI15_0:
				1552	; CHECK-NEXT: .long 0x00000000 @ float 0
				1553	entry:
				1554	%cmp6 = icmp sgt i32 %n, 0
				1555	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1556
				1557	for.body.preheader: ; preds = %entry
				1558	%min.iters.check = icmp ult i32 %n, 4
				1559	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1560
				1561	vector.ph: ; preds = %for.body.preheader
				1562	%n.vec = and i32 %n, -4
				1563	br label %vector.body
				1564
				1565	vector.body: ; preds = %vector.body, %vector.ph
				1566	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1567	%vec.phi = phi <4 x float> [ zeroinitializer, %vector.ph ], [ %3, %vector.body ]
				1568	%0 = getelementptr inbounds float, float* %x, i32 %index
				1569	%1 = bitcast float* %0 to <4 x float>*
				1570	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				1571	%2 = fcmp ult <4 x float> %vec.phi, %wide.load
				1572	%3 = select <4 x i1> %2, <4 x float> %vec.phi, <4 x float> %wide.load
				1573	%index.next = add i32 %index, 4
				1574	%4 = icmp eq i32 %index.next, %n.vec
				1575	br i1 %4, label %middle.block, label %vector.body
				1576
				1577	middle.block: ; preds = %vector.body
				1578	%5 = call float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float> %3)
				1579	%cmp.n = icmp eq i32 %n.vec, %n
				1580	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1581
				1582	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1583	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1584	%r.07.ph = phi float [ 0.0, %for.body.preheader ], [ %5, %middle.block ]
				1585	br label %for.body
				1586
				1587	for.body: ; preds = %for.body.preheader1, %for.body
				1588	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1589	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1590	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				1591	%6 = load float, float* %arrayidx, align 4
				1592	%c = fcmp ult float %r.07, %6
				1593	%add = select i1 %c, float %r.07, float %6
				1594	%inc = add nuw nsw i32 %i.08, 1
				1595	%exitcond = icmp eq i32 %inc, %n
				1596	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1597
				1598	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1599	%r.0.lcssa = phi float [ 0.0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1600	ret float %r.0.lcssa
				1601	}
				1602
				1603	define float @fmax_f32(float* nocapture readonly %x, i32 %n) {
				1604	; CHECK-LABEL: fmax_f32:
				1605	; CHECK: @ %bb.0: @ %entry
				1606	; CHECK-NEXT: .save {r7, lr}
				1607	; CHECK-NEXT: push {r7, lr}
				1608	; CHECK-NEXT: cmp r1, #1
				1609	; CHECK-NEXT: blt .LBB16_3
				1610	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1611	; CHECK-NEXT: cmp r1, #4
				1612	; CHECK-NEXT: bhs .LBB16_4
				1613	; CHECK-NEXT: @ %bb.2:
				1614	; CHECK-NEXT: vldr s0, .LCPI16_0
				1615	; CHECK-NEXT: movs r2, #0
				1616	; CHECK-NEXT: b .LBB16_7
				1617	; CHECK-NEXT: .LBB16_3:
				1618	; CHECK-NEXT: vldr s0, .LCPI16_0
				1619	; CHECK-NEXT: b .LBB16_9
				1620	; CHECK-NEXT: .LBB16_4: @ %vector.ph
				1621	; CHECK-NEXT: bic r2, r1, #3
				1622	; CHECK-NEXT: movs r3, #1
				1623	; CHECK-NEXT: sub.w r12, r2, #4
				1624	; CHECK-NEXT: vmov.i32 q0, #0x0
				1625	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				1626	; CHECK-NEXT: mov r3, r0
				1627	; CHECK-NEXT: dls lr, lr
				1628	; CHECK-NEXT: .LBB16_5: @ %vector.body
				1629	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1630	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				1631	; CHECK-NEXT: vcmp.f32 lt, q1, q0
				1632	; CHECK-NEXT: vpsel q0, q0, q1
				1633	; CHECK-NEXT: le lr, .LBB16_5
				1634	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1635	; CHECK-NEXT: vmov.f32 s4, s2
				1636	; CHECK-NEXT: cmp r2, r1
				1637	; CHECK-NEXT: vmov.f32 s5, s3
				1638	; CHECK-NEXT: vmaxnm.f32 q0, q0, q1
				1639	; CHECK-NEXT: vmov r3, s1
				1640	; CHECK-NEXT: vdup.32 q1, r3
				1641	; CHECK-NEXT: vmaxnm.f32 q0, q0, q1
				1642	; CHECK-NEXT: beq .LBB16_9
				1643	; CHECK-NEXT: .LBB16_7: @ %for.body.preheader1
				1644	; CHECK-NEXT: sub.w lr, r1, r2
				1645	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				1646	; CHECK-NEXT: dls lr, lr
				1647	; CHECK-NEXT: .LBB16_8: @ %for.body
				1648	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1649	; CHECK-NEXT: vldmia r0!, {s4}
				1650	; CHECK-NEXT: vcmp.f32 s4, s0
				1651	; CHECK-NEXT: vmrs APSR_nzcv, fpscr
				1652	; CHECK-NEXT: vselge.f32 s0, s4, s0
				1653	; CHECK-NEXT: le lr, .LBB16_8
				1654	; CHECK-NEXT: .LBB16_9: @ %for.cond.cleanup
				1655	; CHECK-NEXT: vmov r0, s0
				1656	; CHECK-NEXT: pop {r7, pc}
				1657	; CHECK-NEXT: .p2align 2
				1658	; CHECK-NEXT: @ %bb.10:
				1659	; CHECK-NEXT: .LCPI16_0:
				1660	; CHECK-NEXT: .long 0x00000000 @ float 0
				1661	entry:
				1662	%cmp6 = icmp sgt i32 %n, 0
				1663	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1664
				1665	for.body.preheader: ; preds = %entry
				1666	%min.iters.check = icmp ult i32 %n, 4
				1667	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1668
				1669	vector.ph: ; preds = %for.body.preheader
				1670	%n.vec = and i32 %n, -4
				1671	br label %vector.body
				1672
				1673	vector.body: ; preds = %vector.body, %vector.ph
				1674	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1675	%vec.phi = phi <4 x float> [ zeroinitializer, %vector.ph ], [ %3, %vector.body ]
				1676	%0 = getelementptr inbounds float, float* %x, i32 %index
				1677	%1 = bitcast float* %0 to <4 x float>*
				1678	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				1679	%2 = fcmp ugt <4 x float> %vec.phi, %wide.load
				1680	%3 = select <4 x i1> %2, <4 x float> %vec.phi, <4 x float> %wide.load
				1681	%index.next = add i32 %index, 4
				1682	%4 = icmp eq i32 %index.next, %n.vec
				1683	br i1 %4, label %middle.block, label %vector.body
				1684
				1685	middle.block: ; preds = %vector.body
				1686	%5 = call float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float> %3)
				1687	%cmp.n = icmp eq i32 %n.vec, %n
				1688	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1689
				1690	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1691	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1692	%r.07.ph = phi float [ 0.0, %for.body.preheader ], [ %5, %middle.block ]
				1693	br label %for.body
				1694
				1695	for.body: ; preds = %for.body.preheader1, %for.body
				1696	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1697	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1698	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				1699	%6 = load float, float* %arrayidx, align 4
				1700	%c = fcmp ugt float %r.07, %6
				1701	%add = select i1 %c, float %r.07, float %6
				1702	%inc = add nuw nsw i32 %i.08, 1
				1703	%exitcond = icmp eq i32 %inc, %n
				1704	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1705
				1706	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1707	%r.0.lcssa = phi float [ 0.0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1708	ret float %r.0.lcssa
				1709	}
				1710
				1711	declare i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32>)
				1712	declare i32 @llvm.experimental.vector.reduce.mul.v4i32(<4 x i32>)
				1713	declare i32 @llvm.experimental.vector.reduce.and.v4i32(<4 x i32>)
				1714	declare i32 @llvm.experimental.vector.reduce.or.v4i32(<4 x i32>)
				1715	declare i32 @llvm.experimental.vector.reduce.xor.v4i32(<4 x i32>)
				1716	declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float, <4 x float>)
				1717	declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float, <4 x float>)
				1718	declare i32 @llvm.experimental.vector.reduce.smin.v4i32(<4 x i32>)
				1719	declare i32 @llvm.experimental.vector.reduce.smax.v4i32(<4 x i32>)
				1720	declare i32 @llvm.experimental.vector.reduce.umin.v4i32(<4 x i32>)
				1721	declare i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32>)
				1722	declare float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float>)
				1723	declare float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float>)