Blame - llvm/test/CodeGen/Thumb2/mve-vecreduce-loops.ll - toolchain/llvm-project

blob: 382c32dbe2bf594a0bcc8b3b7ef5ae12aa17a54f [file] [log] [blame]

David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -tail-predication=enabled -verify-machineinstrs %s -o - \| FileCheck %s
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	3
				4	define i32 @add_i32(i32* nocapture readonly %x, i32 %n) {
				5	; CHECK-LABEL: add_i32:
				6	; CHECK: @ %bb.0: @ %entry
				7	; CHECK-NEXT: .save {r7, lr}
				8	; CHECK-NEXT: push {r7, lr}
				9	; CHECK-NEXT: cmp r1, #1
				10	; CHECK-NEXT: blt .LBB0_3
				11	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				12	; CHECK-NEXT: mov r12, r0
				13	; CHECK-NEXT: cmp r1, #4
				14	; CHECK-NEXT: bhs .LBB0_4
				15	; CHECK-NEXT: @ %bb.2:
				16	; CHECK-NEXT: movs r3, #0
				17	; CHECK-NEXT: movs r0, #0
				18	; CHECK-NEXT: b .LBB0_7
				19	; CHECK-NEXT: .LBB0_3:
				20	; CHECK-NEXT: movs r0, #0
				21	; CHECK-NEXT: b .LBB0_9
				22	; CHECK-NEXT: .LBB0_4: @ %vector.ph
				23	; CHECK-NEXT: bic r3, r1, #3
				24	; CHECK-NEXT: movs r2, #1
				25	; CHECK-NEXT: subs r0, r3, #4
				26	; CHECK-NEXT: add.w lr, r2, r0, lsr #2
				27	; CHECK-NEXT: movs r0, #0
				28	; CHECK-NEXT: mov r2, r12
				29	; CHECK-NEXT: dls lr, lr
				30	; CHECK-NEXT: .LBB0_5: @ %vector.body
				31	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				32	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				33	; CHECK-NEXT: vaddva.u32 r0, q0
				34	; CHECK-NEXT: le lr, .LBB0_5
				35	; CHECK-NEXT: @ %bb.6: @ %middle.block
				36	; CHECK-NEXT: cmp r3, r1
				37	; CHECK-NEXT: it eq
				38	; CHECK-NEXT: popeq {r7, pc}
				39	; CHECK-NEXT: .LBB0_7: @ %for.body.preheader1
				40	; CHECK-NEXT: sub.w lr, r1, r3
				41	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				42	; CHECK-NEXT: dls lr, lr
				43	; CHECK-NEXT: .LBB0_8: @ %for.body
				44	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				45	; CHECK-NEXT: ldr r2, [r1], #4
				46	; CHECK-NEXT: add r0, r2
				47	; CHECK-NEXT: le lr, .LBB0_8
				48	; CHECK-NEXT: .LBB0_9: @ %for.cond.cleanup
				49	; CHECK-NEXT: pop {r7, pc}
				50	entry:
				51	%cmp6 = icmp sgt i32 %n, 0
				52	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				53
				54	for.body.preheader: ; preds = %entry
				55	%min.iters.check = icmp ult i32 %n, 4
				56	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				57
				58	vector.ph: ; preds = %for.body.preheader
				59	%n.vec = and i32 %n, -4
				60	br label %vector.body
				61
				62	vector.body: ; preds = %vector.body, %vector.ph
				63	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				64	%vec.phi = phi i32 [ 0, %vector.ph ], [ %3, %vector.body ]
				65	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				66	%1 = bitcast i32* %0 to <4 x i32>*
				67	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				68	%2 = call i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32> %wide.load)
				69	%3 = add i32 %2, %vec.phi
				70	%index.next = add i32 %index, 4
				71	%4 = icmp eq i32 %index.next, %n.vec
				72	br i1 %4, label %middle.block, label %vector.body
				73
				74	middle.block: ; preds = %vector.body
				75	%cmp.n = icmp eq i32 %n.vec, %n
				76	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				77
				78	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				79	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				80	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %3, %middle.block ]
				81	br label %for.body
				82
				83	for.body: ; preds = %for.body.preheader1, %for.body
				84	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				85	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				86	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				87	%5 = load i32, i32* %arrayidx, align 4
				88	%add = add nsw i32 %5, %r.07
				89	%inc = add nuw nsw i32 %i.08, 1
				90	%exitcond = icmp eq i32 %inc, %n
				91	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				92
				93	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				94	%r.0.lcssa = phi i32 [ 0, %entry ], [ %3, %middle.block ], [ %add, %for.body ]
				95	ret i32 %r.0.lcssa
				96	}
				97
				98	define i32 @mul_i32(i32* nocapture readonly %x, i32 %n) {
				99	; CHECK-LABEL: mul_i32:
				100	; CHECK: @ %bb.0: @ %entry
				101	; CHECK-NEXT: .save {r7, lr}
				102	; CHECK-NEXT: push {r7, lr}
				103	; CHECK-NEXT: movs r2, #1
				104	; CHECK-NEXT: cmp r1, #1
				105	; CHECK-NEXT: blt .LBB1_8
				106	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				107	; CHECK-NEXT: cmp r1, #4
				108	; CHECK-NEXT: bhs .LBB1_3
				109	; CHECK-NEXT: @ %bb.2:
				110	; CHECK-NEXT: mov.w r12, #0
				111	; CHECK-NEXT: b .LBB1_6
				112	; CHECK-NEXT: .LBB1_3: @ %vector.ph
				113	; CHECK-NEXT: bic r12, r1, #3
				114	; CHECK-NEXT: vmov.i32 q0, #0x1
				115	; CHECK-NEXT: sub.w r3, r12, #4
				116	; CHECK-NEXT: add.w lr, r2, r3, lsr #2
				117	; CHECK-NEXT: mov r2, r0
				118	; CHECK-NEXT: dls lr, lr
				119	; CHECK-NEXT: .LBB1_4: @ %vector.body
				120	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				121	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				122	; CHECK-NEXT: vmul.i32 q0, q1, q0
				123	; CHECK-NEXT: le lr, .LBB1_4
				124	; CHECK-NEXT: @ %bb.5: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	125	; CHECK-NEXT: vmov r2, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	126	; CHECK-NEXT: cmp r12, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	127	; CHECK-NEXT: vmov r3, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	128	; CHECK-NEXT: mul lr, r3, r2
				129	; CHECK-NEXT: vmov r3, s1
				130	; CHECK-NEXT: vmov r2, s0
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	131	; CHECK-NEXT: mul r2, r3, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	132	; CHECK-NEXT: mul r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	133	; CHECK-NEXT: beq .LBB1_8
				134	; CHECK-NEXT: .LBB1_6: @ %for.body.preheader1
				135	; CHECK-NEXT: sub.w lr, r1, r12
				136	; CHECK-NEXT: add.w r0, r0, r12, lsl #2
				137	; CHECK-NEXT: dls lr, lr
				138	; CHECK-NEXT: .LBB1_7: @ %for.body
				139	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				140	; CHECK-NEXT: ldr r1, [r0], #4
				141	; CHECK-NEXT: muls r2, r1, r2
				142	; CHECK-NEXT: le lr, .LBB1_7
				143	; CHECK-NEXT: .LBB1_8: @ %for.cond.cleanup
				144	; CHECK-NEXT: mov r0, r2
				145	; CHECK-NEXT: pop {r7, pc}
				146	entry:
				147	%cmp6 = icmp sgt i32 %n, 0
				148	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				149
				150	for.body.preheader: ; preds = %entry
				151	%min.iters.check = icmp ult i32 %n, 4
				152	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				153
				154	vector.ph: ; preds = %for.body.preheader
				155	%n.vec = and i32 %n, -4
				156	br label %vector.body
				157
				158	vector.body: ; preds = %vector.body, %vector.ph
				159	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				160	%vec.phi = phi <4 x i32> [ <i32 1, i32 1, i32 1, i32 1>, %vector.ph ], [ %2, %vector.body ]
				161	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				162	%1 = bitcast i32* %0 to <4 x i32>*
				163	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				164	%2 = mul <4 x i32> %wide.load, %vec.phi
				165	%index.next = add i32 %index, 4
				166	%3 = icmp eq i32 %index.next, %n.vec
				167	br i1 %3, label %middle.block, label %vector.body
				168
				169	middle.block: ; preds = %vector.body
				170	%4 = call i32 @llvm.experimental.vector.reduce.mul.v4i32(<4 x i32> %2)
				171	%cmp.n = icmp eq i32 %n.vec, %n
				172	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				173
				174	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				175	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				176	%r.07.ph = phi i32 [ 1, %for.body.preheader ], [ %4, %middle.block ]
				177	br label %for.body
				178
				179	for.body: ; preds = %for.body.preheader1, %for.body
				180	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				181	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				182	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				183	%5 = load i32, i32* %arrayidx, align 4
				184	%add = mul nsw i32 %5, %r.07
				185	%inc = add nuw nsw i32 %i.08, 1
				186	%exitcond = icmp eq i32 %inc, %n
				187	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				188
				189	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				190	%r.0.lcssa = phi i32 [ 1, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				191	ret i32 %r.0.lcssa
				192	}
				193
				194	define i32 @and_i32(i32* nocapture readonly %x, i32 %n) {
				195	; CHECK-LABEL: and_i32:
				196	; CHECK: @ %bb.0: @ %entry
				197	; CHECK-NEXT: .save {r7, lr}
				198	; CHECK-NEXT: push {r7, lr}
				199	; CHECK-NEXT: cmp r1, #1
				200	; CHECK-NEXT: blt .LBB2_3
				201	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				202	; CHECK-NEXT: cmp r1, #4
				203	; CHECK-NEXT: bhs .LBB2_4
				204	; CHECK-NEXT: @ %bb.2:
				205	; CHECK-NEXT: mov.w r2, #-1
				206	; CHECK-NEXT: movs r3, #0
				207	; CHECK-NEXT: b .LBB2_7
				208	; CHECK-NEXT: .LBB2_3:
				209	; CHECK-NEXT: mov.w r2, #-1
				210	; CHECK-NEXT: b .LBB2_9
				211	; CHECK-NEXT: .LBB2_4: @ %vector.ph
				212	; CHECK-NEXT: bic r3, r1, #3
				213	; CHECK-NEXT: movs r2, #1
				214	; CHECK-NEXT: sub.w r12, r3, #4
				215	; CHECK-NEXT: vmov.i8 q0, #0xff
				216	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				217	; CHECK-NEXT: mov r2, r0
				218	; CHECK-NEXT: dls lr, lr
				219	; CHECK-NEXT: .LBB2_5: @ %vector.body
				220	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				221	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				222	; CHECK-NEXT: vand q0, q1, q0
				223	; CHECK-NEXT: le lr, .LBB2_5
				224	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	225	; CHECK-NEXT: vmov r12, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	226	; CHECK-NEXT: cmp r3, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	227	; CHECK-NEXT: vmov r2, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	228	; CHECK-NEXT: vmov lr, s1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	229	; CHECK-NEXT: and.w r12, r12, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	230	; CHECK-NEXT: vmov r2, s0
				231	; CHECK-NEXT: and.w r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	232	; CHECK-NEXT: and.w r2, r2, r12
				233	; CHECK-NEXT: beq .LBB2_9
				234	; CHECK-NEXT: .LBB2_7: @ %for.body.preheader1
				235	; CHECK-NEXT: sub.w lr, r1, r3
				236	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				237	; CHECK-NEXT: dls lr, lr
				238	; CHECK-NEXT: .LBB2_8: @ %for.body
				239	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				240	; CHECK-NEXT: ldr r1, [r0], #4
				241	; CHECK-NEXT: ands r2, r1
				242	; CHECK-NEXT: le lr, .LBB2_8
				243	; CHECK-NEXT: .LBB2_9: @ %for.cond.cleanup
				244	; CHECK-NEXT: mov r0, r2
				245	; CHECK-NEXT: pop {r7, pc}
				246	entry:
				247	%cmp6 = icmp sgt i32 %n, 0
				248	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				249
				250	for.body.preheader: ; preds = %entry
				251	%min.iters.check = icmp ult i32 %n, 4
				252	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				253
				254	vector.ph: ; preds = %for.body.preheader
				255	%n.vec = and i32 %n, -4
				256	br label %vector.body
				257
				258	vector.body: ; preds = %vector.body, %vector.ph
				259	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				260	%vec.phi = phi <4 x i32> [ <i32 -1, i32 -1, i32 -1, i32 -1>, %vector.ph ], [ %2, %vector.body ]
				261	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				262	%1 = bitcast i32* %0 to <4 x i32>*
				263	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				264	%2 = and <4 x i32> %wide.load, %vec.phi
				265	%index.next = add i32 %index, 4
				266	%3 = icmp eq i32 %index.next, %n.vec
				267	br i1 %3, label %middle.block, label %vector.body
				268
				269	middle.block: ; preds = %vector.body
				270	%4 = call i32 @llvm.experimental.vector.reduce.and.v4i32(<4 x i32> %2)
				271	%cmp.n = icmp eq i32 %n.vec, %n
				272	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				273
				274	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				275	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				276	%r.07.ph = phi i32 [ -1, %for.body.preheader ], [ %4, %middle.block ]
				277	br label %for.body
				278
				279	for.body: ; preds = %for.body.preheader1, %for.body
				280	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				281	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				282	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				283	%5 = load i32, i32* %arrayidx, align 4
				284	%add = and i32 %5, %r.07
				285	%inc = add nuw nsw i32 %i.08, 1
				286	%exitcond = icmp eq i32 %inc, %n
				287	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				288
				289	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				290	%r.0.lcssa = phi i32 [ -1, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				291	ret i32 %r.0.lcssa
				292	}
				293
				294	define i32 @or_i32(i32* nocapture readonly %x, i32 %n) {
				295	; CHECK-LABEL: or_i32:
				296	; CHECK: @ %bb.0: @ %entry
				297	; CHECK-NEXT: .save {r7, lr}
				298	; CHECK-NEXT: push {r7, lr}
				299	; CHECK-NEXT: cmp r1, #1
				300	; CHECK-NEXT: blt .LBB3_3
				301	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				302	; CHECK-NEXT: cmp r1, #4
				303	; CHECK-NEXT: bhs .LBB3_4
				304	; CHECK-NEXT: @ %bb.2:
				305	; CHECK-NEXT: movs r3, #0
				306	; CHECK-NEXT: movs r2, #0
				307	; CHECK-NEXT: b .LBB3_7
				308	; CHECK-NEXT: .LBB3_3:
				309	; CHECK-NEXT: movs r2, #0
				310	; CHECK-NEXT: b .LBB3_9
				311	; CHECK-NEXT: .LBB3_4: @ %vector.ph
				312	; CHECK-NEXT: bic r3, r1, #3
				313	; CHECK-NEXT: movs r2, #1
				314	; CHECK-NEXT: sub.w r12, r3, #4
				315	; CHECK-NEXT: vmov.i32 q0, #0x0
				316	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				317	; CHECK-NEXT: mov r2, r0
				318	; CHECK-NEXT: dls lr, lr
				319	; CHECK-NEXT: .LBB3_5: @ %vector.body
				320	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				321	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				322	; CHECK-NEXT: vorr q0, q1, q0
				323	; CHECK-NEXT: le lr, .LBB3_5
				324	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	325	; CHECK-NEXT: vmov r12, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	326	; CHECK-NEXT: cmp r3, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	327	; CHECK-NEXT: vmov r2, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	328	; CHECK-NEXT: vmov lr, s1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	329	; CHECK-NEXT: orr.w r12, r12, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	330	; CHECK-NEXT: vmov r2, s0
				331	; CHECK-NEXT: orr.w r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	332	; CHECK-NEXT: orr.w r2, r2, r12
				333	; CHECK-NEXT: beq .LBB3_9
				334	; CHECK-NEXT: .LBB3_7: @ %for.body.preheader1
				335	; CHECK-NEXT: sub.w lr, r1, r3
				336	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				337	; CHECK-NEXT: dls lr, lr
				338	; CHECK-NEXT: .LBB3_8: @ %for.body
				339	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				340	; CHECK-NEXT: ldr r1, [r0], #4
				341	; CHECK-NEXT: orrs r2, r1
				342	; CHECK-NEXT: le lr, .LBB3_8
				343	; CHECK-NEXT: .LBB3_9: @ %for.cond.cleanup
				344	; CHECK-NEXT: mov r0, r2
				345	; CHECK-NEXT: pop {r7, pc}
				346	entry:
				347	%cmp6 = icmp sgt i32 %n, 0
				348	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				349
				350	for.body.preheader: ; preds = %entry
				351	%min.iters.check = icmp ult i32 %n, 4
				352	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				353
				354	vector.ph: ; preds = %for.body.preheader
				355	%n.vec = and i32 %n, -4
				356	br label %vector.body
				357
				358	vector.body: ; preds = %vector.body, %vector.ph
				359	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				360	%vec.phi = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %2, %vector.body ]
				361	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				362	%1 = bitcast i32* %0 to <4 x i32>*
				363	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				364	%2 = or <4 x i32> %wide.load, %vec.phi
				365	%index.next = add i32 %index, 4
				366	%3 = icmp eq i32 %index.next, %n.vec
				367	br i1 %3, label %middle.block, label %vector.body
				368
				369	middle.block: ; preds = %vector.body
				370	%4 = call i32 @llvm.experimental.vector.reduce.or.v4i32(<4 x i32> %2)
				371	%cmp.n = icmp eq i32 %n.vec, %n
				372	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				373
				374	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				375	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				376	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %4, %middle.block ]
				377	br label %for.body
				378
				379	for.body: ; preds = %for.body.preheader1, %for.body
				380	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				381	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				382	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				383	%5 = load i32, i32* %arrayidx, align 4
				384	%add = or i32 %5, %r.07
				385	%inc = add nuw nsw i32 %i.08, 1
				386	%exitcond = icmp eq i32 %inc, %n
				387	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				388
				389	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				390	%r.0.lcssa = phi i32 [ 0, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				391	ret i32 %r.0.lcssa
				392	}
				393
				394	define i32 @xor_i32(i32* nocapture readonly %x, i32 %n) {
				395	; CHECK-LABEL: xor_i32:
				396	; CHECK: @ %bb.0: @ %entry
				397	; CHECK-NEXT: .save {r7, lr}
				398	; CHECK-NEXT: push {r7, lr}
				399	; CHECK-NEXT: cmp r1, #1
				400	; CHECK-NEXT: blt .LBB4_3
				401	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				402	; CHECK-NEXT: cmp r1, #4
				403	; CHECK-NEXT: bhs .LBB4_4
				404	; CHECK-NEXT: @ %bb.2:
				405	; CHECK-NEXT: movs r3, #0
				406	; CHECK-NEXT: movs r2, #0
				407	; CHECK-NEXT: b .LBB4_7
				408	; CHECK-NEXT: .LBB4_3:
				409	; CHECK-NEXT: movs r2, #0
				410	; CHECK-NEXT: b .LBB4_9
				411	; CHECK-NEXT: .LBB4_4: @ %vector.ph
				412	; CHECK-NEXT: bic r3, r1, #3
				413	; CHECK-NEXT: movs r2, #1
				414	; CHECK-NEXT: sub.w r12, r3, #4
				415	; CHECK-NEXT: vmov.i32 q0, #0x0
				416	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				417	; CHECK-NEXT: mov r2, r0
				418	; CHECK-NEXT: dls lr, lr
				419	; CHECK-NEXT: .LBB4_5: @ %vector.body
				420	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				421	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				422	; CHECK-NEXT: veor q0, q1, q0
				423	; CHECK-NEXT: le lr, .LBB4_5
				424	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	425	; CHECK-NEXT: vmov r12, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	426	; CHECK-NEXT: cmp r3, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	427	; CHECK-NEXT: vmov r2, s2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	428	; CHECK-NEXT: vmov lr, s1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	429	; CHECK-NEXT: eor.w r12, r12, r2
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	430	; CHECK-NEXT: vmov r2, s0
				431	; CHECK-NEXT: eor.w r2, r2, lr
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	432	; CHECK-NEXT: eor.w r2, r2, r12
				433	; CHECK-NEXT: beq .LBB4_9
				434	; CHECK-NEXT: .LBB4_7: @ %for.body.preheader1
				435	; CHECK-NEXT: sub.w lr, r1, r3
				436	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				437	; CHECK-NEXT: dls lr, lr
				438	; CHECK-NEXT: .LBB4_8: @ %for.body
				439	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				440	; CHECK-NEXT: ldr r1, [r0], #4
				441	; CHECK-NEXT: eors r2, r1
				442	; CHECK-NEXT: le lr, .LBB4_8
				443	; CHECK-NEXT: .LBB4_9: @ %for.cond.cleanup
				444	; CHECK-NEXT: mov r0, r2
				445	; CHECK-NEXT: pop {r7, pc}
				446	entry:
				447	%cmp6 = icmp sgt i32 %n, 0
				448	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				449
				450	for.body.preheader: ; preds = %entry
				451	%min.iters.check = icmp ult i32 %n, 4
				452	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				453
				454	vector.ph: ; preds = %for.body.preheader
				455	%n.vec = and i32 %n, -4
				456	br label %vector.body
				457
				458	vector.body: ; preds = %vector.body, %vector.ph
				459	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				460	%vec.phi = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %2, %vector.body ]
				461	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				462	%1 = bitcast i32* %0 to <4 x i32>*
				463	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				464	%2 = xor <4 x i32> %wide.load, %vec.phi
				465	%index.next = add i32 %index, 4
				466	%3 = icmp eq i32 %index.next, %n.vec
				467	br i1 %3, label %middle.block, label %vector.body
				468
				469	middle.block: ; preds = %vector.body
				470	%4 = call i32 @llvm.experimental.vector.reduce.xor.v4i32(<4 x i32> %2)
				471	%cmp.n = icmp eq i32 %n.vec, %n
				472	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				473
				474	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				475	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				476	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %4, %middle.block ]
				477	br label %for.body
				478
				479	for.body: ; preds = %for.body.preheader1, %for.body
				480	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				481	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				482	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				483	%5 = load i32, i32* %arrayidx, align 4
				484	%add = xor i32 %5, %r.07
				485	%inc = add nuw nsw i32 %i.08, 1
				486	%exitcond = icmp eq i32 %inc, %n
				487	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				488
				489	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				490	%r.0.lcssa = phi i32 [ 0, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				491	ret i32 %r.0.lcssa
				492	}
				493
				494	define float @fadd_f32(float* nocapture readonly %x, i32 %n) {
				495	; CHECK-LABEL: fadd_f32:
				496	; CHECK: @ %bb.0: @ %entry
				497	; CHECK-NEXT: .save {r7, lr}
				498	; CHECK-NEXT: push {r7, lr}
				499	; CHECK-NEXT: cmp r1, #1
				500	; CHECK-NEXT: blt .LBB5_3
				501	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				502	; CHECK-NEXT: cmp r1, #4
				503	; CHECK-NEXT: bhs .LBB5_4
				504	; CHECK-NEXT: @ %bb.2:
				505	; CHECK-NEXT: vldr s0, .LCPI5_0
				506	; CHECK-NEXT: movs r2, #0
				507	; CHECK-NEXT: b .LBB5_7
				508	; CHECK-NEXT: .LBB5_3:
				509	; CHECK-NEXT: vldr s0, .LCPI5_0
				510	; CHECK-NEXT: b .LBB5_9
				511	; CHECK-NEXT: .LBB5_4: @ %vector.ph
				512	; CHECK-NEXT: bic r2, r1, #3
				513	; CHECK-NEXT: movs r3, #1
				514	; CHECK-NEXT: sub.w r12, r2, #4
				515	; CHECK-NEXT: vmov.i32 q0, #0x0
				516	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				517	; CHECK-NEXT: mov r3, r0
				518	; CHECK-NEXT: dls lr, lr
				519	; CHECK-NEXT: .LBB5_5: @ %vector.body
				520	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				521	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				522	; CHECK-NEXT: vadd.f32 q0, q1, q0
				523	; CHECK-NEXT: le lr, .LBB5_5
				524	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	525	; CHECK-NEXT: vadd.f32 s4, s2, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	526	; CHECK-NEXT: cmp r2, r1
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	527	; CHECK-NEXT: vadd.f32 s0, s0, s1
				528	; CHECK-NEXT: vadd.f32 s0, s0, s4
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	529	; CHECK-NEXT: beq .LBB5_9
				530	; CHECK-NEXT: .LBB5_7: @ %for.body.preheader1
				531	; CHECK-NEXT: sub.w lr, r1, r2
				532	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				533	; CHECK-NEXT: dls lr, lr
				534	; CHECK-NEXT: .LBB5_8: @ %for.body
				535	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				536	; CHECK-NEXT: vldr s2, [r0]
				537	; CHECK-NEXT: adds r0, #4
				538	; CHECK-NEXT: vadd.f32 s0, s2, s0
				539	; CHECK-NEXT: le lr, .LBB5_8
				540	; CHECK-NEXT: .LBB5_9: @ %for.cond.cleanup
				541	; CHECK-NEXT: vmov r0, s0
				542	; CHECK-NEXT: pop {r7, pc}
				543	; CHECK-NEXT: .p2align 2
				544	; CHECK-NEXT: @ %bb.10:
				545	; CHECK-NEXT: .LCPI5_0:
				546	; CHECK-NEXT: .long 0x00000000 @ float 0
				547	entry:
				548	%cmp6 = icmp sgt i32 %n, 0
				549	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				550
				551	for.body.preheader: ; preds = %entry
				552	%min.iters.check = icmp ult i32 %n, 4
				553	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				554
				555	vector.ph: ; preds = %for.body.preheader
				556	%n.vec = and i32 %n, -4
				557	br label %vector.body
				558
				559	vector.body: ; preds = %vector.body, %vector.ph
				560	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				561	%vec.phi = phi <4 x float> [ zeroinitializer, %vector.ph ], [ %2, %vector.body ]
				562	%0 = getelementptr inbounds float, float* %x, i32 %index
				563	%1 = bitcast float* %0 to <4 x float>*
				564	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				565	%2 = fadd fast <4 x float> %wide.load, %vec.phi
				566	%index.next = add i32 %index, 4
				567	%3 = icmp eq i32 %index.next, %n.vec
				568	br i1 %3, label %middle.block, label %vector.body
				569
				570	middle.block: ; preds = %vector.body
				571	%4 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.000000e+00, <4 x float> %2)
				572	%cmp.n = icmp eq i32 %n.vec, %n
				573	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				574
				575	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				576	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				577	%r.07.ph = phi float [ 0.000000e+00, %for.body.preheader ], [ %4, %middle.block ]
				578	br label %for.body
				579
				580	for.body: ; preds = %for.body.preheader1, %for.body
				581	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				582	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				583	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				584	%5 = load float, float* %arrayidx, align 4
				585	%add = fadd fast float %5, %r.07
				586	%inc = add nuw nsw i32 %i.08, 1
				587	%exitcond = icmp eq i32 %inc, %n
				588	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				589
				590	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				591	%r.0.lcssa = phi float [ 0.000000e+00, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				592	ret float %r.0.lcssa
				593	}
				594
				595	define float @fmul_f32(float* nocapture readonly %x, i32 %n) {
				596	; CHECK-LABEL: fmul_f32:
				597	; CHECK: @ %bb.0: @ %entry
				598	; CHECK-NEXT: .save {r7, lr}
				599	; CHECK-NEXT: push {r7, lr}
				600	; CHECK-NEXT: cmp r1, #1
				601	; CHECK-NEXT: blt .LBB6_3
				602	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				603	; CHECK-NEXT: cmp r1, #4
				604	; CHECK-NEXT: bhs .LBB6_4
				605	; CHECK-NEXT: @ %bb.2:
				606	; CHECK-NEXT: vmov.f32 s0, #1.000000e+00
				607	; CHECK-NEXT: movs r2, #0
				608	; CHECK-NEXT: b .LBB6_7
				609	; CHECK-NEXT: .LBB6_3:
				610	; CHECK-NEXT: vmov.f32 s0, #1.000000e+00
				611	; CHECK-NEXT: b .LBB6_9
				612	; CHECK-NEXT: .LBB6_4: @ %vector.ph
				613	; CHECK-NEXT: bic r2, r1, #3
				614	; CHECK-NEXT: movs r3, #1
				615	; CHECK-NEXT: sub.w r12, r2, #4
				616	; CHECK-NEXT: vmov.f32 q0, #1.000000e+00
				617	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				618	; CHECK-NEXT: mov r3, r0
				619	; CHECK-NEXT: dls lr, lr
				620	; CHECK-NEXT: .LBB6_5: @ %vector.body
				621	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				622	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				623	; CHECK-NEXT: vmul.f32 q0, q1, q0
				624	; CHECK-NEXT: le lr, .LBB6_5
				625	; CHECK-NEXT: @ %bb.6: @ %middle.block
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	626	; CHECK-NEXT: vmul.f32 s4, s2, s3
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	627	; CHECK-NEXT: cmp r2, r1
David Green	deb72ce	2020-06-29 13:53:19 +0100	[diff] [blame]	628	; CHECK-NEXT: vmul.f32 s0, s0, s1
				629	; CHECK-NEXT: vmul.f32 s0, s0, s4
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	630	; CHECK-NEXT: beq .LBB6_9
				631	; CHECK-NEXT: .LBB6_7: @ %for.body.preheader1
				632	; CHECK-NEXT: sub.w lr, r1, r2
				633	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				634	; CHECK-NEXT: dls lr, lr
				635	; CHECK-NEXT: .LBB6_8: @ %for.body
				636	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				637	; CHECK-NEXT: vldr s2, [r0]
				638	; CHECK-NEXT: adds r0, #4
				639	; CHECK-NEXT: vmul.f32 s0, s2, s0
				640	; CHECK-NEXT: le lr, .LBB6_8
				641	; CHECK-NEXT: .LBB6_9: @ %for.cond.cleanup
				642	; CHECK-NEXT: vmov r0, s0
				643	; CHECK-NEXT: pop {r7, pc}
				644	entry:
				645	%cmp6 = icmp sgt i32 %n, 0
				646	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				647
				648	for.body.preheader: ; preds = %entry
				649	%min.iters.check = icmp ult i32 %n, 4
				650	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				651
				652	vector.ph: ; preds = %for.body.preheader
				653	%n.vec = and i32 %n, -4
				654	br label %vector.body
				655
				656	vector.body: ; preds = %vector.body, %vector.ph
				657	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				658	%vec.phi = phi <4 x float> [ <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, %vector.ph ], [ %2, %vector.body ]
				659	%0 = getelementptr inbounds float, float* %x, i32 %index
				660	%1 = bitcast float* %0 to <4 x float>*
				661	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				662	%2 = fmul fast <4 x float> %wide.load, %vec.phi
				663	%index.next = add i32 %index, 4
				664	%3 = icmp eq i32 %index.next, %n.vec
				665	br i1 %3, label %middle.block, label %vector.body
				666
				667	middle.block: ; preds = %vector.body
				668	%4 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.000000e+00, <4 x float> %2)
				669	%cmp.n = icmp eq i32 %n.vec, %n
				670	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				671
				672	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				673	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				674	%r.07.ph = phi float [ 1.000000e+00, %for.body.preheader ], [ %4, %middle.block ]
				675	br label %for.body
				676
				677	for.body: ; preds = %for.body.preheader1, %for.body
				678	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				679	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				680	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				681	%5 = load float, float* %arrayidx, align 4
				682	%add = fmul fast float %5, %r.07
				683	%inc = add nuw nsw i32 %i.08, 1
				684	%exitcond = icmp eq i32 %inc, %n
				685	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				686
				687	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				688	%r.0.lcssa = phi float [ 1.000000e+00, %entry ], [ %4, %middle.block ], [ %add, %for.body ]
				689	ret float %r.0.lcssa
				690	}
				691
				692	define i32 @smin_i32(i32* nocapture readonly %x, i32 %n) {
				693	; CHECK-LABEL: smin_i32:
				694	; CHECK: @ %bb.0: @ %entry
				695	; CHECK-NEXT: .save {r7, lr}
				696	; CHECK-NEXT: push {r7, lr}
				697	; CHECK-NEXT: cmp r1, #1
				698	; CHECK-NEXT: blt .LBB7_3
				699	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				700	; CHECK-NEXT: cmp r1, #4
				701	; CHECK-NEXT: bhs .LBB7_4
				702	; CHECK-NEXT: @ %bb.2:
				703	; CHECK-NEXT: mvn r2, #-2147483648
				704	; CHECK-NEXT: movs r3, #0
				705	; CHECK-NEXT: b .LBB7_7
				706	; CHECK-NEXT: .LBB7_3:
				707	; CHECK-NEXT: mvn r2, #-2147483648
				708	; CHECK-NEXT: b .LBB7_9
				709	; CHECK-NEXT: .LBB7_4: @ %vector.ph
				710	; CHECK-NEXT: bic r3, r1, #3
				711	; CHECK-NEXT: movs r2, #1
				712	; CHECK-NEXT: sub.w r12, r3, #4
				713	; CHECK-NEXT: vmvn.i32 q0, #0x80000000
				714	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				715	; CHECK-NEXT: mov r2, r0
				716	; CHECK-NEXT: dls lr, lr
				717	; CHECK-NEXT: .LBB7_5: @ %vector.body
				718	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				719	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				720	; CHECK-NEXT: vmin.s32 q0, q0, q1
				721	; CHECK-NEXT: le lr, .LBB7_5
				722	; CHECK-NEXT: @ %bb.6: @ %middle.block
				723	; CHECK-NEXT: mvn r2, #-2147483648
				724	; CHECK-NEXT: cmp r3, r1
				725	; CHECK-NEXT: vminv.s32 r2, q0
				726	; CHECK-NEXT: beq .LBB7_9
				727	; CHECK-NEXT: .LBB7_7: @ %for.body.preheader1
				728	; CHECK-NEXT: sub.w lr, r1, r3
				729	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				730	; CHECK-NEXT: dls lr, lr
				731	; CHECK-NEXT: .LBB7_8: @ %for.body
				732	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				733	; CHECK-NEXT: ldr r1, [r0], #4
				734	; CHECK-NEXT: cmp r2, r1
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	735	; CHECK-NEXT: csel r2, r2, r1, lt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	736	; CHECK-NEXT: le lr, .LBB7_8
				737	; CHECK-NEXT: .LBB7_9: @ %for.cond.cleanup
				738	; CHECK-NEXT: mov r0, r2
				739	; CHECK-NEXT: pop {r7, pc}
				740	entry:
				741	%cmp6 = icmp sgt i32 %n, 0
				742	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				743
				744	for.body.preheader: ; preds = %entry
				745	%min.iters.check = icmp ult i32 %n, 4
				746	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				747
				748	vector.ph: ; preds = %for.body.preheader
				749	%n.vec = and i32 %n, -4
				750	br label %vector.body
				751
				752	vector.body: ; preds = %vector.body, %vector.ph
				753	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				754	%vec.phi = phi <4 x i32> [ <i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647>, %vector.ph ], [ %3, %vector.body ]
				755	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				756	%1 = bitcast i32* %0 to <4 x i32>*
				757	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				758	%2 = icmp slt <4 x i32> %vec.phi, %wide.load
				759	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				760	%index.next = add i32 %index, 4
				761	%4 = icmp eq i32 %index.next, %n.vec
				762	br i1 %4, label %middle.block, label %vector.body
				763
				764	middle.block: ; preds = %vector.body
				765	%5 = call i32 @llvm.experimental.vector.reduce.smin.v4i32(<4 x i32> %3)
				766	%cmp.n = icmp eq i32 %n.vec, %n
				767	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				768
				769	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				770	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				771	%r.07.ph = phi i32 [ 2147483647, %for.body.preheader ], [ %5, %middle.block ]
				772	br label %for.body
				773
				774	for.body: ; preds = %for.body.preheader1, %for.body
				775	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				776	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				777	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				778	%6 = load i32, i32* %arrayidx, align 4
				779	%c = icmp slt i32 %r.07, %6
				780	%add = select i1 %c, i32 %r.07, i32 %6
				781	%inc = add nuw nsw i32 %i.08, 1
				782	%exitcond = icmp eq i32 %inc, %n
				783	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				784
				785	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				786	%r.0.lcssa = phi i32 [ 2147483647, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				787	ret i32 %r.0.lcssa
				788	}
				789
				790	define i32 @smin_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				791	; CHECK-LABEL: smin_i32_inloop:
				792	; CHECK: @ %bb.0: @ %entry
				793	; CHECK-NEXT: .save {r4, lr}
				794	; CHECK-NEXT: push {r4, lr}
				795	; CHECK-NEXT: cmp r1, #1
				796	; CHECK-NEXT: blt .LBB8_3
				797	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				798	; CHECK-NEXT: mov r12, r0
				799	; CHECK-NEXT: mvn r0, #-2147483648
				800	; CHECK-NEXT: cmp r1, #4
				801	; CHECK-NEXT: bhs .LBB8_4
				802	; CHECK-NEXT: @ %bb.2:
				803	; CHECK-NEXT: movs r3, #0
				804	; CHECK-NEXT: b .LBB8_7
				805	; CHECK-NEXT: .LBB8_3:
				806	; CHECK-NEXT: mvn r0, #-2147483648
				807	; CHECK-NEXT: b .LBB8_9
				808	; CHECK-NEXT: .LBB8_4: @ %vector.ph
				809	; CHECK-NEXT: bic r3, r1, #3
				810	; CHECK-NEXT: movs r2, #1
				811	; CHECK-NEXT: sub.w lr, r3, #4
				812	; CHECK-NEXT: add.w lr, r2, lr, lsr #2
				813	; CHECK-NEXT: mov r2, r12
				814	; CHECK-NEXT: dls lr, lr
				815	; CHECK-NEXT: .LBB8_5: @ %vector.body
				816	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				817	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				818	; CHECK-NEXT: mvn r4, #-2147483648
				819	; CHECK-NEXT: vminv.s32 r4, q0
				820	; CHECK-NEXT: cmp r0, r4
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	821	; CHECK-NEXT: csel r0, r0, r4, lt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	822	; CHECK-NEXT: le lr, .LBB8_5
				823	; CHECK-NEXT: @ %bb.6: @ %middle.block
				824	; CHECK-NEXT: cmp r3, r1
				825	; CHECK-NEXT: it eq
				826	; CHECK-NEXT: popeq {r4, pc}
				827	; CHECK-NEXT: .LBB8_7: @ %for.body.preheader1
				828	; CHECK-NEXT: sub.w lr, r1, r3
				829	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				830	; CHECK-NEXT: dls lr, lr
				831	; CHECK-NEXT: .LBB8_8: @ %for.body
				832	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				833	; CHECK-NEXT: ldr r2, [r1], #4
				834	; CHECK-NEXT: cmp r0, r2
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	835	; CHECK-NEXT: csel r0, r0, r2, lt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	836	; CHECK-NEXT: le lr, .LBB8_8
				837	; CHECK-NEXT: .LBB8_9: @ %for.cond.cleanup
				838	; CHECK-NEXT: pop {r4, pc}
				839	entry:
				840	%cmp6 = icmp sgt i32 %n, 0
				841	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				842
				843	for.body.preheader: ; preds = %entry
				844	%min.iters.check = icmp ult i32 %n, 4
				845	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				846
				847	vector.ph: ; preds = %for.body.preheader
				848	%n.vec = and i32 %n, -4
				849	br label %vector.body
				850
				851	vector.body: ; preds = %vector.body, %vector.ph
				852	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				853	%vec.phi = phi i32 [ 2147483647, %vector.ph ], [ %3, %vector.body ]
				854	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				855	%1 = bitcast i32* %0 to <4 x i32>*
				856	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				857	%l5 = call i32 @llvm.experimental.vector.reduce.smin.v4i32(<4 x i32> %wide.load)
				858	%2 = icmp slt i32 %vec.phi, %l5
				859	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				860	%index.next = add i32 %index, 4
				861	%4 = icmp eq i32 %index.next, %n.vec
				862	br i1 %4, label %middle.block, label %vector.body
				863
				864	middle.block: ; preds = %vector.body
				865	%5 = phi i32 [ %3, %vector.body ]
				866	%cmp.n = icmp eq i32 %n.vec, %n
				867	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				868
				869	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				870	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				871	%r.07.ph = phi i32 [ 2147483647, %for.body.preheader ], [ %5, %middle.block ]
				872	br label %for.body
				873
				874	for.body: ; preds = %for.body.preheader1, %for.body
				875	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				876	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				877	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				878	%6 = load i32, i32* %arrayidx, align 4
				879	%c = icmp slt i32 %r.07, %6
				880	%add = select i1 %c, i32 %r.07, i32 %6
				881	%inc = add nuw nsw i32 %i.08, 1
				882	%exitcond = icmp eq i32 %inc, %n
				883	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				884
				885	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				886	%r.0.lcssa = phi i32 [ 2147483647, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				887	ret i32 %r.0.lcssa
				888	}
				889
				890	define i32 @smax_i32(i32* nocapture readonly %x, i32 %n) {
				891	; CHECK-LABEL: smax_i32:
				892	; CHECK: @ %bb.0: @ %entry
				893	; CHECK-NEXT: .save {r7, lr}
				894	; CHECK-NEXT: push {r7, lr}
				895	; CHECK-NEXT: cmp r1, #1
				896	; CHECK-NEXT: blt .LBB9_3
				897	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				898	; CHECK-NEXT: cmp r1, #4
				899	; CHECK-NEXT: bhs .LBB9_4
				900	; CHECK-NEXT: @ %bb.2:
				901	; CHECK-NEXT: mov.w r2, #-2147483648
				902	; CHECK-NEXT: movs r3, #0
				903	; CHECK-NEXT: b .LBB9_7
				904	; CHECK-NEXT: .LBB9_3:
				905	; CHECK-NEXT: mov.w r2, #-2147483648
				906	; CHECK-NEXT: b .LBB9_9
				907	; CHECK-NEXT: .LBB9_4: @ %vector.ph
				908	; CHECK-NEXT: bic r3, r1, #3
				909	; CHECK-NEXT: movs r2, #1
				910	; CHECK-NEXT: sub.w r12, r3, #4
				911	; CHECK-NEXT: vmov.i32 q0, #0x80000000
				912	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				913	; CHECK-NEXT: mov r2, r0
				914	; CHECK-NEXT: dls lr, lr
				915	; CHECK-NEXT: .LBB9_5: @ %vector.body
				916	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				917	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				918	; CHECK-NEXT: vmax.s32 q0, q0, q1
				919	; CHECK-NEXT: le lr, .LBB9_5
				920	; CHECK-NEXT: @ %bb.6: @ %middle.block
				921	; CHECK-NEXT: mov.w r2, #-2147483648
				922	; CHECK-NEXT: cmp r3, r1
				923	; CHECK-NEXT: vmaxv.s32 r2, q0
				924	; CHECK-NEXT: beq .LBB9_9
				925	; CHECK-NEXT: .LBB9_7: @ %for.body.preheader1
				926	; CHECK-NEXT: sub.w lr, r1, r3
				927	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				928	; CHECK-NEXT: dls lr, lr
				929	; CHECK-NEXT: .LBB9_8: @ %for.body
				930	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				931	; CHECK-NEXT: ldr r1, [r0], #4
				932	; CHECK-NEXT: cmp r2, r1
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	933	; CHECK-NEXT: csel r2, r2, r1, gt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	934	; CHECK-NEXT: le lr, .LBB9_8
				935	; CHECK-NEXT: .LBB9_9: @ %for.cond.cleanup
				936	; CHECK-NEXT: mov r0, r2
				937	; CHECK-NEXT: pop {r7, pc}
				938	entry:
				939	%cmp6 = icmp sgt i32 %n, 0
				940	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				941
				942	for.body.preheader: ; preds = %entry
				943	%min.iters.check = icmp ult i32 %n, 4
				944	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				945
				946	vector.ph: ; preds = %for.body.preheader
				947	%n.vec = and i32 %n, -4
				948	br label %vector.body
				949
				950	vector.body: ; preds = %vector.body, %vector.ph
				951	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				952	%vec.phi = phi <4 x i32> [ <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>, %vector.ph ], [ %3, %vector.body ]
				953	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				954	%1 = bitcast i32* %0 to <4 x i32>*
				955	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				956	%2 = icmp sgt <4 x i32> %vec.phi, %wide.load
				957	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				958	%index.next = add i32 %index, 4
				959	%4 = icmp eq i32 %index.next, %n.vec
				960	br i1 %4, label %middle.block, label %vector.body
				961
				962	middle.block: ; preds = %vector.body
				963	%5 = call i32 @llvm.experimental.vector.reduce.smax.v4i32(<4 x i32> %3)
				964	%cmp.n = icmp eq i32 %n.vec, %n
				965	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				966
				967	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				968	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				969	%r.07.ph = phi i32 [ -2147483648, %for.body.preheader ], [ %5, %middle.block ]
				970	br label %for.body
				971
				972	for.body: ; preds = %for.body.preheader1, %for.body
				973	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				974	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				975	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				976	%6 = load i32, i32* %arrayidx, align 4
				977	%c = icmp sgt i32 %r.07, %6
				978	%add = select i1 %c, i32 %r.07, i32 %6
				979	%inc = add nuw nsw i32 %i.08, 1
				980	%exitcond = icmp eq i32 %inc, %n
				981	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				982
				983	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				984	%r.0.lcssa = phi i32 [ -2147483648, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				985	ret i32 %r.0.lcssa
				986	}
				987
				988	define i32 @smax_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				989	; CHECK-LABEL: smax_i32_inloop:
				990	; CHECK: @ %bb.0: @ %entry
				991	; CHECK-NEXT: .save {r4, lr}
				992	; CHECK-NEXT: push {r4, lr}
				993	; CHECK-NEXT: cmp r1, #1
				994	; CHECK-NEXT: blt .LBB10_3
				995	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				996	; CHECK-NEXT: mov r12, r0
				997	; CHECK-NEXT: mov.w r0, #-2147483648
				998	; CHECK-NEXT: cmp r1, #4
				999	; CHECK-NEXT: bhs .LBB10_4
				1000	; CHECK-NEXT: @ %bb.2:
				1001	; CHECK-NEXT: movs r3, #0
				1002	; CHECK-NEXT: b .LBB10_7
				1003	; CHECK-NEXT: .LBB10_3:
				1004	; CHECK-NEXT: mov.w r0, #-2147483648
				1005	; CHECK-NEXT: b .LBB10_9
				1006	; CHECK-NEXT: .LBB10_4: @ %vector.ph
				1007	; CHECK-NEXT: bic r3, r1, #3
				1008	; CHECK-NEXT: movs r2, #1
				1009	; CHECK-NEXT: sub.w lr, r3, #4
				1010	; CHECK-NEXT: add.w lr, r2, lr, lsr #2
				1011	; CHECK-NEXT: mov r2, r12
				1012	; CHECK-NEXT: dls lr, lr
				1013	; CHECK-NEXT: .LBB10_5: @ %vector.body
				1014	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1015	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				1016	; CHECK-NEXT: mov.w r4, #-2147483648
				1017	; CHECK-NEXT: vmaxv.s32 r4, q0
				1018	; CHECK-NEXT: cmp r0, r4
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1019	; CHECK-NEXT: csel r0, r0, r4, gt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1020	; CHECK-NEXT: le lr, .LBB10_5
				1021	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1022	; CHECK-NEXT: cmp r3, r1
				1023	; CHECK-NEXT: it eq
				1024	; CHECK-NEXT: popeq {r4, pc}
				1025	; CHECK-NEXT: .LBB10_7: @ %for.body.preheader1
				1026	; CHECK-NEXT: sub.w lr, r1, r3
				1027	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				1028	; CHECK-NEXT: dls lr, lr
				1029	; CHECK-NEXT: .LBB10_8: @ %for.body
				1030	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1031	; CHECK-NEXT: ldr r2, [r1], #4
				1032	; CHECK-NEXT: cmp r0, r2
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1033	; CHECK-NEXT: csel r0, r0, r2, gt
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1034	; CHECK-NEXT: le lr, .LBB10_8
				1035	; CHECK-NEXT: .LBB10_9: @ %for.cond.cleanup
				1036	; CHECK-NEXT: pop {r4, pc}
				1037	entry:
				1038	%cmp6 = icmp sgt i32 %n, 0
				1039	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1040
				1041	for.body.preheader: ; preds = %entry
				1042	%min.iters.check = icmp ult i32 %n, 4
				1043	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1044
				1045	vector.ph: ; preds = %for.body.preheader
				1046	%n.vec = and i32 %n, -4
				1047	br label %vector.body
				1048
				1049	vector.body: ; preds = %vector.body, %vector.ph
				1050	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1051	%vec.phi = phi i32 [ -2147483648, %vector.ph ], [ %3, %vector.body ]
				1052	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1053	%1 = bitcast i32* %0 to <4 x i32>*
				1054	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1055	%l5 = call i32 @llvm.experimental.vector.reduce.smax.v4i32(<4 x i32> %wide.load)
				1056	%2 = icmp sgt i32 %vec.phi, %l5
				1057	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				1058	%index.next = add i32 %index, 4
				1059	%4 = icmp eq i32 %index.next, %n.vec
				1060	br i1 %4, label %middle.block, label %vector.body
				1061
				1062	middle.block: ; preds = %vector.body
				1063	%5 = phi i32 [ %3, %vector.body ]
				1064	%cmp.n = icmp eq i32 %n.vec, %n
				1065	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1066
				1067	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1068	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1069	%r.07.ph = phi i32 [ -2147483648, %for.body.preheader ], [ %5, %middle.block ]
				1070	br label %for.body
				1071
				1072	for.body: ; preds = %for.body.preheader1, %for.body
				1073	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1074	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1075	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1076	%6 = load i32, i32* %arrayidx, align 4
				1077	%c = icmp sgt i32 %r.07, %6
				1078	%add = select i1 %c, i32 %r.07, i32 %6
				1079	%inc = add nuw nsw i32 %i.08, 1
				1080	%exitcond = icmp eq i32 %inc, %n
				1081	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1082
				1083	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1084	%r.0.lcssa = phi i32 [ -2147483648, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1085	ret i32 %r.0.lcssa
				1086	}
				1087
				1088	define i32 @umin_i32(i32* nocapture readonly %x, i32 %n) {
				1089	; CHECK-LABEL: umin_i32:
				1090	; CHECK: @ %bb.0: @ %entry
				1091	; CHECK-NEXT: .save {r7, lr}
				1092	; CHECK-NEXT: push {r7, lr}
				1093	; CHECK-NEXT: cmp r1, #1
				1094	; CHECK-NEXT: blt .LBB11_3
				1095	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1096	; CHECK-NEXT: cmp r1, #4
				1097	; CHECK-NEXT: bhs .LBB11_4
				1098	; CHECK-NEXT: @ %bb.2:
				1099	; CHECK-NEXT: mov.w r2, #-1
				1100	; CHECK-NEXT: movs r3, #0
				1101	; CHECK-NEXT: b .LBB11_7
				1102	; CHECK-NEXT: .LBB11_3:
				1103	; CHECK-NEXT: mov.w r2, #-1
				1104	; CHECK-NEXT: b .LBB11_9
				1105	; CHECK-NEXT: .LBB11_4: @ %vector.ph
				1106	; CHECK-NEXT: bic r3, r1, #3
				1107	; CHECK-NEXT: movs r2, #1
				1108	; CHECK-NEXT: sub.w r12, r3, #4
				1109	; CHECK-NEXT: vmov.i8 q0, #0xff
				1110	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				1111	; CHECK-NEXT: mov r2, r0
				1112	; CHECK-NEXT: dls lr, lr
				1113	; CHECK-NEXT: .LBB11_5: @ %vector.body
				1114	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1115	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				1116	; CHECK-NEXT: vmin.u32 q0, q0, q1
				1117	; CHECK-NEXT: le lr, .LBB11_5
				1118	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1119	; CHECK-NEXT: mov.w r2, #-1
				1120	; CHECK-NEXT: cmp r3, r1
				1121	; CHECK-NEXT: vminv.u32 r2, q0
				1122	; CHECK-NEXT: beq .LBB11_9
				1123	; CHECK-NEXT: .LBB11_7: @ %for.body.preheader1
				1124	; CHECK-NEXT: sub.w lr, r1, r3
				1125	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				1126	; CHECK-NEXT: dls lr, lr
				1127	; CHECK-NEXT: .LBB11_8: @ %for.body
				1128	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1129	; CHECK-NEXT: ldr r1, [r0], #4
				1130	; CHECK-NEXT: cmp r2, r1
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1131	; CHECK-NEXT: csel r2, r2, r1, lo
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1132	; CHECK-NEXT: le lr, .LBB11_8
				1133	; CHECK-NEXT: .LBB11_9: @ %for.cond.cleanup
				1134	; CHECK-NEXT: mov r0, r2
				1135	; CHECK-NEXT: pop {r7, pc}
				1136	entry:
				1137	%cmp6 = icmp sgt i32 %n, 0
				1138	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1139
				1140	for.body.preheader: ; preds = %entry
				1141	%min.iters.check = icmp ult i32 %n, 4
				1142	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1143
				1144	vector.ph: ; preds = %for.body.preheader
				1145	%n.vec = and i32 %n, -4
				1146	br label %vector.body
				1147
				1148	vector.body: ; preds = %vector.body, %vector.ph
				1149	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1150	%vec.phi = phi <4 x i32> [ <i32 -1, i32 -1, i32 -1, i32 -1>, %vector.ph ], [ %3, %vector.body ]
				1151	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1152	%1 = bitcast i32* %0 to <4 x i32>*
				1153	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1154	%2 = icmp ult <4 x i32> %vec.phi, %wide.load
				1155	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				1156	%index.next = add i32 %index, 4
				1157	%4 = icmp eq i32 %index.next, %n.vec
				1158	br i1 %4, label %middle.block, label %vector.body
				1159
				1160	middle.block: ; preds = %vector.body
				1161	%5 = call i32 @llvm.experimental.vector.reduce.umin.v4i32(<4 x i32> %3)
				1162	%cmp.n = icmp eq i32 %n.vec, %n
				1163	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1164
				1165	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1166	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1167	%r.07.ph = phi i32 [ -1, %for.body.preheader ], [ %5, %middle.block ]
				1168	br label %for.body
				1169
				1170	for.body: ; preds = %for.body.preheader1, %for.body
				1171	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1172	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1173	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1174	%6 = load i32, i32* %arrayidx, align 4
				1175	%c = icmp ult i32 %r.07, %6
				1176	%add = select i1 %c, i32 %r.07, i32 %6
				1177	%inc = add nuw nsw i32 %i.08, 1
				1178	%exitcond = icmp eq i32 %inc, %n
				1179	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1180
				1181	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1182	%r.0.lcssa = phi i32 [ -1, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1183	ret i32 %r.0.lcssa
				1184	}
				1185
				1186	define i32 @umin_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				1187	; CHECK-LABEL: umin_i32_inloop:
				1188	; CHECK: @ %bb.0: @ %entry
				1189	; CHECK-NEXT: .save {r4, lr}
				1190	; CHECK-NEXT: push {r4, lr}
				1191	; CHECK-NEXT: cmp r1, #1
				1192	; CHECK-NEXT: blt .LBB12_3
				1193	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1194	; CHECK-NEXT: mov r12, r0
				1195	; CHECK-NEXT: mov.w r0, #-1
				1196	; CHECK-NEXT: cmp r1, #4
				1197	; CHECK-NEXT: bhs .LBB12_4
				1198	; CHECK-NEXT: @ %bb.2:
				1199	; CHECK-NEXT: movs r3, #0
				1200	; CHECK-NEXT: b .LBB12_7
				1201	; CHECK-NEXT: .LBB12_3:
				1202	; CHECK-NEXT: mov.w r0, #-1
				1203	; CHECK-NEXT: b .LBB12_9
				1204	; CHECK-NEXT: .LBB12_4: @ %vector.ph
				1205	; CHECK-NEXT: bic r3, r1, #3
				1206	; CHECK-NEXT: movs r2, #1
				1207	; CHECK-NEXT: sub.w lr, r3, #4
				1208	; CHECK-NEXT: add.w lr, r2, lr, lsr #2
				1209	; CHECK-NEXT: mov r2, r12
				1210	; CHECK-NEXT: dls lr, lr
				1211	; CHECK-NEXT: .LBB12_5: @ %vector.body
				1212	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1213	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				1214	; CHECK-NEXT: mov.w r4, #-1
				1215	; CHECK-NEXT: vminv.u32 r4, q0
				1216	; CHECK-NEXT: cmp r0, r4
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1217	; CHECK-NEXT: csel r0, r0, r4, lo
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1218	; CHECK-NEXT: le lr, .LBB12_5
				1219	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1220	; CHECK-NEXT: cmp r3, r1
				1221	; CHECK-NEXT: it eq
				1222	; CHECK-NEXT: popeq {r4, pc}
				1223	; CHECK-NEXT: .LBB12_7: @ %for.body.preheader1
				1224	; CHECK-NEXT: sub.w lr, r1, r3
				1225	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				1226	; CHECK-NEXT: dls lr, lr
				1227	; CHECK-NEXT: .LBB12_8: @ %for.body
				1228	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1229	; CHECK-NEXT: ldr r2, [r1], #4
				1230	; CHECK-NEXT: cmp r0, r2
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1231	; CHECK-NEXT: csel r0, r0, r2, hi
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1232	; CHECK-NEXT: le lr, .LBB12_8
				1233	; CHECK-NEXT: .LBB12_9: @ %for.cond.cleanup
				1234	; CHECK-NEXT: pop {r4, pc}
				1235	entry:
				1236	%cmp6 = icmp sgt i32 %n, 0
				1237	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1238
				1239	for.body.preheader: ; preds = %entry
				1240	%min.iters.check = icmp ult i32 %n, 4
				1241	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1242
				1243	vector.ph: ; preds = %for.body.preheader
				1244	%n.vec = and i32 %n, -4
				1245	br label %vector.body
				1246
				1247	vector.body: ; preds = %vector.body, %vector.ph
				1248	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1249	%vec.phi = phi i32 [ -1, %vector.ph ], [ %3, %vector.body ]
				1250	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1251	%1 = bitcast i32* %0 to <4 x i32>*
				1252	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1253	%l5 = call i32 @llvm.experimental.vector.reduce.umin.v4i32(<4 x i32> %wide.load)
				1254	%2 = icmp ult i32 %vec.phi, %l5
				1255	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				1256	%index.next = add i32 %index, 4
				1257	%4 = icmp eq i32 %index.next, %n.vec
				1258	br i1 %4, label %middle.block, label %vector.body
				1259
				1260	middle.block: ; preds = %vector.body
				1261	%5 = phi i32 [ %3, %vector.body ]
				1262	%cmp.n = icmp eq i32 %n.vec, %n
				1263	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1264
				1265	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1266	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1267	%r.07.ph = phi i32 [ -1, %for.body.preheader ], [ %5, %middle.block ]
				1268	br label %for.body
				1269
				1270	for.body: ; preds = %for.body.preheader1, %for.body
				1271	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1272	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1273	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1274	%6 = load i32, i32* %arrayidx, align 4
				1275	%c = icmp ugt i32 %r.07, %6
				1276	%add = select i1 %c, i32 %r.07, i32 %6
				1277	%inc = add nuw nsw i32 %i.08, 1
				1278	%exitcond = icmp eq i32 %inc, %n
				1279	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1280
				1281	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1282	%r.0.lcssa = phi i32 [ -1, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1283	ret i32 %r.0.lcssa
				1284	}
				1285
				1286	define i32 @umax_i32(i32* nocapture readonly %x, i32 %n) {
				1287	; CHECK-LABEL: umax_i32:
				1288	; CHECK: @ %bb.0: @ %entry
				1289	; CHECK-NEXT: .save {r7, lr}
				1290	; CHECK-NEXT: push {r7, lr}
				1291	; CHECK-NEXT: cmp r1, #1
				1292	; CHECK-NEXT: blt .LBB13_3
				1293	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1294	; CHECK-NEXT: cmp r1, #4
				1295	; CHECK-NEXT: bhs .LBB13_4
				1296	; CHECK-NEXT: @ %bb.2:
				1297	; CHECK-NEXT: movs r3, #0
				1298	; CHECK-NEXT: movs r2, #0
				1299	; CHECK-NEXT: b .LBB13_7
				1300	; CHECK-NEXT: .LBB13_3:
				1301	; CHECK-NEXT: movs r2, #0
				1302	; CHECK-NEXT: b .LBB13_9
				1303	; CHECK-NEXT: .LBB13_4: @ %vector.ph
				1304	; CHECK-NEXT: bic r3, r1, #3
				1305	; CHECK-NEXT: movs r2, #1
				1306	; CHECK-NEXT: sub.w r12, r3, #4
				1307	; CHECK-NEXT: vmov.i32 q0, #0x0
				1308	; CHECK-NEXT: add.w lr, r2, r12, lsr #2
				1309	; CHECK-NEXT: mov r2, r0
				1310	; CHECK-NEXT: dls lr, lr
				1311	; CHECK-NEXT: .LBB13_5: @ %vector.body
				1312	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1313	; CHECK-NEXT: vldrw.u32 q1, [r2], #16
				1314	; CHECK-NEXT: vmax.u32 q0, q0, q1
				1315	; CHECK-NEXT: le lr, .LBB13_5
				1316	; CHECK-NEXT: @ %bb.6: @ %middle.block
				1317	; CHECK-NEXT: movs r2, #0
				1318	; CHECK-NEXT: cmp r3, r1
				1319	; CHECK-NEXT: vmaxv.u32 r2, q0
				1320	; CHECK-NEXT: beq .LBB13_9
				1321	; CHECK-NEXT: .LBB13_7: @ %for.body.preheader1
				1322	; CHECK-NEXT: sub.w lr, r1, r3
				1323	; CHECK-NEXT: add.w r0, r0, r3, lsl #2
				1324	; CHECK-NEXT: dls lr, lr
				1325	; CHECK-NEXT: .LBB13_8: @ %for.body
				1326	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1327	; CHECK-NEXT: ldr r1, [r0], #4
				1328	; CHECK-NEXT: cmp r2, r1
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1329	; CHECK-NEXT: csel r2, r2, r1, hi
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1330	; CHECK-NEXT: le lr, .LBB13_8
				1331	; CHECK-NEXT: .LBB13_9: @ %for.cond.cleanup
				1332	; CHECK-NEXT: mov r0, r2
				1333	; CHECK-NEXT: pop {r7, pc}
				1334	entry:
				1335	%cmp6 = icmp sgt i32 %n, 0
				1336	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1337
				1338	for.body.preheader: ; preds = %entry
				1339	%min.iters.check = icmp ult i32 %n, 4
				1340	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1341
				1342	vector.ph: ; preds = %for.body.preheader
				1343	%n.vec = and i32 %n, -4
				1344	br label %vector.body
				1345
				1346	vector.body: ; preds = %vector.body, %vector.ph
				1347	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1348	%vec.phi = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %3, %vector.body ]
				1349	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1350	%1 = bitcast i32* %0 to <4 x i32>*
				1351	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1352	%2 = icmp ugt <4 x i32> %vec.phi, %wide.load
				1353	%3 = select <4 x i1> %2, <4 x i32> %vec.phi, <4 x i32> %wide.load
				1354	%index.next = add i32 %index, 4
				1355	%4 = icmp eq i32 %index.next, %n.vec
				1356	br i1 %4, label %middle.block, label %vector.body
				1357
				1358	middle.block: ; preds = %vector.body
				1359	%5 = call i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32> %3)
				1360	%cmp.n = icmp eq i32 %n.vec, %n
				1361	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1362
				1363	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1364	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1365	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %5, %middle.block ]
				1366	br label %for.body
				1367
				1368	for.body: ; preds = %for.body.preheader1, %for.body
				1369	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1370	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1371	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1372	%6 = load i32, i32* %arrayidx, align 4
				1373	%c = icmp ugt i32 %r.07, %6
				1374	%add = select i1 %c, i32 %r.07, i32 %6
				1375	%inc = add nuw nsw i32 %i.08, 1
				1376	%exitcond = icmp eq i32 %inc, %n
				1377	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1378
				1379	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1380	%r.0.lcssa = phi i32 [ 0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1381	ret i32 %r.0.lcssa
				1382	}
				1383
				1384	define i32 @umax_i32_inloop(i32* nocapture readonly %x, i32 %n) {
				1385	; CHECK-LABEL: umax_i32_inloop:
				1386	; CHECK: @ %bb.0: @ %entry
				1387	; CHECK-NEXT: .save {r4, lr}
				1388	; CHECK-NEXT: push {r4, lr}
				1389	; CHECK-NEXT: cmp r1, #1
				1390	; CHECK-NEXT: blt .LBB14_8
				1391	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1392	; CHECK-NEXT: mov r12, r0
				1393	; CHECK-NEXT: movs r3, #0
				1394	; CHECK-NEXT: cmp r1, #4
				1395	; CHECK-NEXT: mov.w r0, #0
				1396	; CHECK-NEXT: blo .LBB14_5
				1397	; CHECK-NEXT: @ %bb.2: @ %vector.ph
				1398	; CHECK-NEXT: bic r3, r1, #3
				1399	; CHECK-NEXT: movs r2, #1
				1400	; CHECK-NEXT: subs r0, r3, #4
				1401	; CHECK-NEXT: add.w lr, r2, r0, lsr #2
				1402	; CHECK-NEXT: movs r0, #0
				1403	; CHECK-NEXT: mov r2, r12
				1404	; CHECK-NEXT: dls lr, lr
				1405	; CHECK-NEXT: .LBB14_3: @ %vector.body
				1406	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1407	; CHECK-NEXT: vldrw.u32 q0, [r2], #16
				1408	; CHECK-NEXT: movs r4, #0
				1409	; CHECK-NEXT: vmaxv.u32 r4, q0
				1410	; CHECK-NEXT: cmp r0, r4
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1411	; CHECK-NEXT: csel r0, r0, r4, hi
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1412	; CHECK-NEXT: le lr, .LBB14_3
				1413	; CHECK-NEXT: @ %bb.4: @ %middle.block
				1414	; CHECK-NEXT: cmp r3, r1
				1415	; CHECK-NEXT: it eq
				1416	; CHECK-NEXT: popeq {r4, pc}
				1417	; CHECK-NEXT: .LBB14_5: @ %for.body.preheader1
				1418	; CHECK-NEXT: sub.w lr, r1, r3
				1419	; CHECK-NEXT: add.w r1, r12, r3, lsl #2
				1420	; CHECK-NEXT: dls lr, lr
				1421	; CHECK-NEXT: .LBB14_6: @ %for.body
				1422	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1423	; CHECK-NEXT: ldr r2, [r1], #4
				1424	; CHECK-NEXT: cmp r0, r2
David Green	146d35b	2020-07-14 10:04:55 +0100	[diff] [blame]	1425	; CHECK-NEXT: csel r0, r0, r2, hi
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1426	; CHECK-NEXT: le lr, .LBB14_6
				1427	; CHECK-NEXT: @ %bb.7: @ %for.cond.cleanup
				1428	; CHECK-NEXT: pop {r4, pc}
				1429	; CHECK-NEXT: .LBB14_8:
				1430	; CHECK-NEXT: movs r0, #0
				1431	; CHECK-NEXT: pop {r4, pc}
				1432	entry:
				1433	%cmp6 = icmp sgt i32 %n, 0
				1434	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1435
				1436	for.body.preheader: ; preds = %entry
				1437	%min.iters.check = icmp ult i32 %n, 4
				1438	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1439
				1440	vector.ph: ; preds = %for.body.preheader
				1441	%n.vec = and i32 %n, -4
				1442	br label %vector.body
				1443
				1444	vector.body: ; preds = %vector.body, %vector.ph
				1445	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1446	%vec.phi = phi i32 [ 0, %vector.ph ], [ %3, %vector.body ]
				1447	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1448	%1 = bitcast i32* %0 to <4 x i32>*
				1449	%wide.load = load <4 x i32>, <4 x i32>* %1, align 4
				1450	%l5 = call i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32> %wide.load)
				1451	%2 = icmp ugt i32 %vec.phi, %l5
				1452	%3 = select i1 %2, i32 %vec.phi, i32 %l5
				1453	%index.next = add i32 %index, 4
				1454	%4 = icmp eq i32 %index.next, %n.vec
				1455	br i1 %4, label %middle.block, label %vector.body
				1456
				1457	middle.block: ; preds = %vector.body
				1458	%5 = phi i32 [ %3, %vector.body ]
				1459	%cmp.n = icmp eq i32 %n.vec, %n
				1460	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1461
				1462	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1463	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1464	%r.07.ph = phi i32 [ 0, %for.body.preheader ], [ %5, %middle.block ]
				1465	br label %for.body
				1466
				1467	for.body: ; preds = %for.body.preheader1, %for.body
				1468	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1469	%r.07 = phi i32 [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1470	%arrayidx = getelementptr inbounds i32, i32* %x, i32 %i.08
				1471	%6 = load i32, i32* %arrayidx, align 4
				1472	%c = icmp ugt i32 %r.07, %6
				1473	%add = select i1 %c, i32 %r.07, i32 %6
				1474	%inc = add nuw nsw i32 %i.08, 1
				1475	%exitcond = icmp eq i32 %inc, %n
				1476	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1477
				1478	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1479	%r.0.lcssa = phi i32 [ 0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1480	ret i32 %r.0.lcssa
				1481	}
				1482
				1483	define float @fmin_f32(float* nocapture readonly %x, i32 %n) {
				1484	; CHECK-LABEL: fmin_f32:
				1485	; CHECK: @ %bb.0: @ %entry
				1486	; CHECK-NEXT: .save {r7, lr}
				1487	; CHECK-NEXT: push {r7, lr}
				1488	; CHECK-NEXT: cmp r1, #1
				1489	; CHECK-NEXT: blt .LBB15_3
				1490	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1491	; CHECK-NEXT: cmp r1, #4
				1492	; CHECK-NEXT: bhs .LBB15_4
				1493	; CHECK-NEXT: @ %bb.2:
				1494	; CHECK-NEXT: vldr s0, .LCPI15_0
				1495	; CHECK-NEXT: movs r2, #0
				1496	; CHECK-NEXT: b .LBB15_7
				1497	; CHECK-NEXT: .LBB15_3:
				1498	; CHECK-NEXT: vldr s0, .LCPI15_0
				1499	; CHECK-NEXT: b .LBB15_9
				1500	; CHECK-NEXT: .LBB15_4: @ %vector.ph
				1501	; CHECK-NEXT: bic r2, r1, #3
				1502	; CHECK-NEXT: movs r3, #1
				1503	; CHECK-NEXT: sub.w r12, r2, #4
				1504	; CHECK-NEXT: vmov.i32 q0, #0x0
				1505	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				1506	; CHECK-NEXT: mov r3, r0
				1507	; CHECK-NEXT: dls lr, lr
				1508	; CHECK-NEXT: .LBB15_5: @ %vector.body
				1509	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1510	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				1511	; CHECK-NEXT: vcmp.f32 lt, q0, q1
				1512	; CHECK-NEXT: vpsel q0, q0, q1
				1513	; CHECK-NEXT: le lr, .LBB15_5
				1514	; CHECK-NEXT: @ %bb.6: @ %middle.block
Sanjay Patel	3a8ea86	2020-09-12 09:08:07 -0400	[diff] [blame^]	1515	; CHECK-NEXT: vminnm.f32 s4, s2, s3
				1516	; CHECK-NEXT: vminnm.f32 s0, s0, s1
				1517	; CHECK-NEXT: vminnm.f32 s0, s0, s4
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1518	; CHECK-NEXT: cmp r2, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1519	; CHECK-NEXT: beq .LBB15_9
				1520	; CHECK-NEXT: .LBB15_7: @ %for.body.preheader1
				1521	; CHECK-NEXT: sub.w lr, r1, r2
				1522	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				1523	; CHECK-NEXT: dls lr, lr
				1524	; CHECK-NEXT: .LBB15_8: @ %for.body
				1525	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
Sanjay Patel	3a8ea86	2020-09-12 09:08:07 -0400	[diff] [blame^]	1526	; CHECK-NEXT: vldmia r0!, {s2}
				1527	; CHECK-NEXT: vcmp.f32 s0, s2
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1528	; CHECK-NEXT: vmrs APSR_nzcv, fpscr
Sanjay Patel	3a8ea86	2020-09-12 09:08:07 -0400	[diff] [blame^]	1529	; CHECK-NEXT: vselge.f32 s0, s2, s0
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1530	; CHECK-NEXT: le lr, .LBB15_8
				1531	; CHECK-NEXT: .LBB15_9: @ %for.cond.cleanup
				1532	; CHECK-NEXT: vmov r0, s0
				1533	; CHECK-NEXT: pop {r7, pc}
				1534	; CHECK-NEXT: .p2align 2
				1535	; CHECK-NEXT: @ %bb.10:
				1536	; CHECK-NEXT: .LCPI15_0:
				1537	; CHECK-NEXT: .long 0x00000000 @ float 0
				1538	entry:
				1539	%cmp6 = icmp sgt i32 %n, 0
				1540	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1541
				1542	for.body.preheader: ; preds = %entry
				1543	%min.iters.check = icmp ult i32 %n, 4
				1544	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1545
				1546	vector.ph: ; preds = %for.body.preheader
				1547	%n.vec = and i32 %n, -4
				1548	br label %vector.body
				1549
				1550	vector.body: ; preds = %vector.body, %vector.ph
				1551	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1552	%vec.phi = phi <4 x float> [ zeroinitializer, %vector.ph ], [ %3, %vector.body ]
				1553	%0 = getelementptr inbounds float, float* %x, i32 %index
				1554	%1 = bitcast float* %0 to <4 x float>*
				1555	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				1556	%2 = fcmp ult <4 x float> %vec.phi, %wide.load
				1557	%3 = select <4 x i1> %2, <4 x float> %vec.phi, <4 x float> %wide.load
				1558	%index.next = add i32 %index, 4
				1559	%4 = icmp eq i32 %index.next, %n.vec
				1560	br i1 %4, label %middle.block, label %vector.body
				1561
				1562	middle.block: ; preds = %vector.body
				1563	%5 = call float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float> %3)
				1564	%cmp.n = icmp eq i32 %n.vec, %n
				1565	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1566
				1567	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1568	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1569	%r.07.ph = phi float [ 0.0, %for.body.preheader ], [ %5, %middle.block ]
				1570	br label %for.body
				1571
				1572	for.body: ; preds = %for.body.preheader1, %for.body
				1573	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1574	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1575	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				1576	%6 = load float, float* %arrayidx, align 4
				1577	%c = fcmp ult float %r.07, %6
				1578	%add = select i1 %c, float %r.07, float %6
				1579	%inc = add nuw nsw i32 %i.08, 1
				1580	%exitcond = icmp eq i32 %inc, %n
				1581	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1582
				1583	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1584	%r.0.lcssa = phi float [ 0.0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1585	ret float %r.0.lcssa
				1586	}
				1587
				1588	define float @fmax_f32(float* nocapture readonly %x, i32 %n) {
				1589	; CHECK-LABEL: fmax_f32:
				1590	; CHECK: @ %bb.0: @ %entry
				1591	; CHECK-NEXT: .save {r7, lr}
				1592	; CHECK-NEXT: push {r7, lr}
				1593	; CHECK-NEXT: cmp r1, #1
				1594	; CHECK-NEXT: blt .LBB16_3
				1595	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
				1596	; CHECK-NEXT: cmp r1, #4
				1597	; CHECK-NEXT: bhs .LBB16_4
				1598	; CHECK-NEXT: @ %bb.2:
				1599	; CHECK-NEXT: vldr s0, .LCPI16_0
				1600	; CHECK-NEXT: movs r2, #0
				1601	; CHECK-NEXT: b .LBB16_7
				1602	; CHECK-NEXT: .LBB16_3:
				1603	; CHECK-NEXT: vldr s0, .LCPI16_0
				1604	; CHECK-NEXT: b .LBB16_9
				1605	; CHECK-NEXT: .LBB16_4: @ %vector.ph
				1606	; CHECK-NEXT: bic r2, r1, #3
				1607	; CHECK-NEXT: movs r3, #1
				1608	; CHECK-NEXT: sub.w r12, r2, #4
				1609	; CHECK-NEXT: vmov.i32 q0, #0x0
				1610	; CHECK-NEXT: add.w lr, r3, r12, lsr #2
				1611	; CHECK-NEXT: mov r3, r0
				1612	; CHECK-NEXT: dls lr, lr
				1613	; CHECK-NEXT: .LBB16_5: @ %vector.body
				1614	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
				1615	; CHECK-NEXT: vldrw.u32 q1, [r3], #16
				1616	; CHECK-NEXT: vcmp.f32 lt, q1, q0
				1617	; CHECK-NEXT: vpsel q0, q0, q1
				1618	; CHECK-NEXT: le lr, .LBB16_5
				1619	; CHECK-NEXT: @ %bb.6: @ %middle.block
Sanjay Patel	3a8ea86	2020-09-12 09:08:07 -0400	[diff] [blame^]	1620	; CHECK-NEXT: vmaxnm.f32 s4, s2, s3
				1621	; CHECK-NEXT: vmaxnm.f32 s0, s0, s1
				1622	; CHECK-NEXT: vmaxnm.f32 s0, s0, s4
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1623	; CHECK-NEXT: cmp r2, r1
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1624	; CHECK-NEXT: beq .LBB16_9
				1625	; CHECK-NEXT: .LBB16_7: @ %for.body.preheader1
				1626	; CHECK-NEXT: sub.w lr, r1, r2
				1627	; CHECK-NEXT: add.w r0, r0, r2, lsl #2
				1628	; CHECK-NEXT: dls lr, lr
				1629	; CHECK-NEXT: .LBB16_8: @ %for.body
				1630	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
Sanjay Patel	3a8ea86	2020-09-12 09:08:07 -0400	[diff] [blame^]	1631	; CHECK-NEXT: vldmia r0!, {s2}
				1632	; CHECK-NEXT: vcmp.f32 s2, s0
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1633	; CHECK-NEXT: vmrs APSR_nzcv, fpscr
Sanjay Patel	3a8ea86	2020-09-12 09:08:07 -0400	[diff] [blame^]	1634	; CHECK-NEXT: vselge.f32 s0, s2, s0
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	1635	; CHECK-NEXT: le lr, .LBB16_8
				1636	; CHECK-NEXT: .LBB16_9: @ %for.cond.cleanup
				1637	; CHECK-NEXT: vmov r0, s0
				1638	; CHECK-NEXT: pop {r7, pc}
				1639	; CHECK-NEXT: .p2align 2
				1640	; CHECK-NEXT: @ %bb.10:
				1641	; CHECK-NEXT: .LCPI16_0:
				1642	; CHECK-NEXT: .long 0x00000000 @ float 0
				1643	entry:
				1644	%cmp6 = icmp sgt i32 %n, 0
				1645	br i1 %cmp6, label %for.body.preheader, label %for.cond.cleanup
				1646
				1647	for.body.preheader: ; preds = %entry
				1648	%min.iters.check = icmp ult i32 %n, 4
				1649	br i1 %min.iters.check, label %for.body.preheader1, label %vector.ph
				1650
				1651	vector.ph: ; preds = %for.body.preheader
				1652	%n.vec = and i32 %n, -4
				1653	br label %vector.body
				1654
				1655	vector.body: ; preds = %vector.body, %vector.ph
				1656	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1657	%vec.phi = phi <4 x float> [ zeroinitializer, %vector.ph ], [ %3, %vector.body ]
				1658	%0 = getelementptr inbounds float, float* %x, i32 %index
				1659	%1 = bitcast float* %0 to <4 x float>*
				1660	%wide.load = load <4 x float>, <4 x float>* %1, align 4
				1661	%2 = fcmp ugt <4 x float> %vec.phi, %wide.load
				1662	%3 = select <4 x i1> %2, <4 x float> %vec.phi, <4 x float> %wide.load
				1663	%index.next = add i32 %index, 4
				1664	%4 = icmp eq i32 %index.next, %n.vec
				1665	br i1 %4, label %middle.block, label %vector.body
				1666
				1667	middle.block: ; preds = %vector.body
				1668	%5 = call float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float> %3)
				1669	%cmp.n = icmp eq i32 %n.vec, %n
				1670	br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader1
				1671
				1672	for.body.preheader1: ; preds = %middle.block, %for.body.preheader
				1673	%i.08.ph = phi i32 [ 0, %for.body.preheader ], [ %n.vec, %middle.block ]
				1674	%r.07.ph = phi float [ 0.0, %for.body.preheader ], [ %5, %middle.block ]
				1675	br label %for.body
				1676
				1677	for.body: ; preds = %for.body.preheader1, %for.body
				1678	%i.08 = phi i32 [ %inc, %for.body ], [ %i.08.ph, %for.body.preheader1 ]
				1679	%r.07 = phi float [ %add, %for.body ], [ %r.07.ph, %for.body.preheader1 ]
				1680	%arrayidx = getelementptr inbounds float, float* %x, i32 %i.08
				1681	%6 = load float, float* %arrayidx, align 4
				1682	%c = fcmp ugt float %r.07, %6
				1683	%add = select i1 %c, float %r.07, float %6
				1684	%inc = add nuw nsw i32 %i.08, 1
				1685	%exitcond = icmp eq i32 %inc, %n
				1686	br i1 %exitcond, label %for.cond.cleanup, label %for.body
				1687
				1688	for.cond.cleanup: ; preds = %for.body, %middle.block, %entry
				1689	%r.0.lcssa = phi float [ 0.0, %entry ], [ %5, %middle.block ], [ %add, %for.body ]
				1690	ret float %r.0.lcssa
				1691	}
				1692
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1693	define i32 @add4i32(i32* noalias nocapture readonly %x, i32 %n) {
				1694	; CHECK-LABEL: add4i32:
				1695	; CHECK: @ %bb.0: @ %entry
				1696	; CHECK-NEXT: .save {r7, lr}
				1697	; CHECK-NEXT: push {r7, lr}
				1698	; CHECK-NEXT: cbz r1, .LBB17_4
				1699	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1700	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1701	; CHECK-NEXT: dlstp.32 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1702	; CHECK-NEXT: .LBB17_2: @ %vector.body
				1703	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1704	; CHECK-NEXT: vldrw.u32 q0, [r0], #16
				1705	; CHECK-NEXT: vaddva.u32 r2, q0
				1706	; CHECK-NEXT: letp lr, .LBB17_2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1707	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
				1708	; CHECK-NEXT: mov r0, r2
				1709	; CHECK-NEXT: pop {r7, pc}
				1710	; CHECK-NEXT: .LBB17_4:
				1711	; CHECK-NEXT: movs r2, #0
				1712	; CHECK-NEXT: mov r0, r2
				1713	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1714	entry:
				1715	%cmp6.not = icmp eq i32 %n, 0
				1716	br i1 %cmp6.not, label %for.cond.cleanup, label %vector.ph
				1717
				1718	vector.ph: ; preds = %entry
				1719	%n.rnd.up = add i32 %n, 3
				1720	%n.vec = and i32 %n.rnd.up, -4
				1721	%trip.count.minus.1 = add i32 %n, -1
				1722	br label %vector.body
				1723
				1724	vector.body: ; preds = %vector.body, %vector.ph
				1725	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1726	%vec.phi = phi i32 [ 0, %vector.ph ], [ %4, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	1727	%active.lane.mask = call <4 x i1> @llvm.get.active.lane.mask.v4i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1728	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1729	%1 = bitcast i32* %0 to <4 x i32>*
				1730	%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %1, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
				1731	%2 = select <4 x i1> %active.lane.mask, <4 x i32> %wide.masked.load, <4 x i32> zeroinitializer
				1732	%3 = call i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32> %2)
				1733	%4 = add i32 %3, %vec.phi
				1734	%index.next = add i32 %index, 4
				1735	%5 = icmp eq i32 %index.next, %n.vec
				1736	br i1 %5, label %for.cond.cleanup, label %vector.body
				1737
				1738	for.cond.cleanup: ; preds = %vector.body, %entry
				1739	%s.0.lcssa = phi i32 [ 0, %entry ], [ %4, %vector.body ]
				1740	ret i32 %s.0.lcssa
				1741	}
				1742
				1743	define i32 @mla4i32(i32* noalias nocapture readonly %x, i32* noalias nocapture readonly %y, i32 %n) {
				1744	; CHECK-LABEL: mla4i32:
				1745	; CHECK: @ %bb.0: @ %entry
				1746	; CHECK-NEXT: .save {r7, lr}
				1747	; CHECK-NEXT: push {r7, lr}
				1748	; CHECK-NEXT: cbz r2, .LBB18_4
				1749	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1750	; CHECK-NEXT: mov.w r12, #0
				1751	; CHECK-NEXT: dlstp.32 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1752	; CHECK-NEXT: .LBB18_2: @ %vector.body
				1753	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1754	; CHECK-NEXT: vldrw.u32 q0, [r0], #16
				1755	; CHECK-NEXT: vldrw.u32 q1, [r1], #16
				1756	; CHECK-NEXT: vmlava.u32 r12, q1, q0
				1757	; CHECK-NEXT: letp lr, .LBB18_2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1758	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1759	; CHECK-NEXT: mov r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1760	; CHECK-NEXT: pop {r7, pc}
				1761	; CHECK-NEXT: .LBB18_4:
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1762	; CHECK-NEXT: mov.w r12, #0
				1763	; CHECK-NEXT: mov r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1764	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1765	entry:
				1766	%cmp8.not = icmp eq i32 %n, 0
				1767	br i1 %cmp8.not, label %for.cond.cleanup, label %vector.ph
				1768
				1769	vector.ph: ; preds = %entry
				1770	%n.rnd.up = add i32 %n, 3
				1771	%n.vec = and i32 %n.rnd.up, -4
				1772	%trip.count.minus.1 = add i32 %n, -1
				1773	br label %vector.body
				1774
				1775	vector.body: ; preds = %vector.body, %vector.ph
				1776	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1777	%vec.phi = phi i32 [ 0, %vector.ph ], [ %7, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	1778	%active.lane.mask = call <4 x i1> @llvm.get.active.lane.mask.v4i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1779	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				1780	%1 = bitcast i32* %0 to <4 x i32>*
				1781	%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %1, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
				1782	%2 = getelementptr inbounds i32, i32* %y, i32 %index
				1783	%3 = bitcast i32* %2 to <4 x i32>*
				1784	%wide.masked.load13 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %3, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
				1785	%4 = mul nsw <4 x i32> %wide.masked.load13, %wide.masked.load
				1786	%5 = select <4 x i1> %active.lane.mask, <4 x i32> %4, <4 x i32> zeroinitializer
				1787	%6 = call i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32> %5)
				1788	%7 = add i32 %6, %vec.phi
				1789	%index.next = add i32 %index, 4
				1790	%8 = icmp eq i32 %index.next, %n.vec
				1791	br i1 %8, label %for.cond.cleanup, label %vector.body
				1792
				1793	for.cond.cleanup: ; preds = %vector.body, %entry
				1794	%s.0.lcssa = phi i32 [ 0, %entry ], [ %7, %vector.body ]
				1795	ret i32 %s.0.lcssa
				1796	}
				1797
				1798	define i32 @add8i32(i16* noalias nocapture readonly %x, i32 %n) {
				1799	; CHECK-LABEL: add8i32:
				1800	; CHECK: @ %bb.0: @ %entry
				1801	; CHECK-NEXT: .save {r7, lr}
				1802	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1803	; CHECK-NEXT: cbz r1, .LBB19_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1804	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1805	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1806	; CHECK-NEXT: dlstp.16 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1807	; CHECK-NEXT: .LBB19_2: @ %vector.body
				1808	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1809	; CHECK-NEXT: vldrh.u16 q0, [r0], #16
				1810	; CHECK-NEXT: vaddva.s16 r2, q0
				1811	; CHECK-NEXT: letp lr, .LBB19_2
				1812	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1813	; CHECK-NEXT: mov r0, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1814	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1815	; CHECK-NEXT: .LBB19_4:
				1816	; CHECK-NEXT: movs r2, #0
				1817	; CHECK-NEXT: mov r0, r2
				1818	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1819	entry:
				1820	%cmp6.not = icmp eq i32 %n, 0
				1821	br i1 %cmp6.not, label %for.cond.cleanup, label %vector.ph
				1822
				1823	vector.ph: ; preds = %entry
				1824	%n.rnd.up = add i32 %n, 7
				1825	%n.vec = and i32 %n.rnd.up, -8
				1826	%trip.count.minus.1 = add i32 %n, -1
				1827	br label %vector.body
				1828
				1829	vector.body: ; preds = %vector.body, %vector.ph
				1830	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1831	%vec.phi = phi i32 [ 0, %vector.ph ], [ %5, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	1832	%active.lane.mask = call <8 x i1> @llvm.get.active.lane.mask.v8i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1833	%0 = getelementptr inbounds i16, i16* %x, i32 %index
				1834	%1 = bitcast i16* %0 to <8 x i16>*
				1835	%wide.masked.load = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %1, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				1836	%2 = sext <8 x i16> %wide.masked.load to <8 x i32>
				1837	%3 = select <8 x i1> %active.lane.mask, <8 x i32> %2, <8 x i32> zeroinitializer
				1838	%4 = call i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32> %3)
				1839	%5 = add i32 %4, %vec.phi
				1840	%index.next = add i32 %index, 8
				1841	%6 = icmp eq i32 %index.next, %n.vec
				1842	br i1 %6, label %for.cond.cleanup, label %vector.body
				1843
				1844	for.cond.cleanup: ; preds = %vector.body, %entry
				1845	%s.0.lcssa = phi i32 [ 0, %entry ], [ %5, %vector.body ]
				1846	ret i32 %s.0.lcssa
				1847	}
				1848
				1849	define i32 @mla8i32(i16* noalias nocapture readonly %x, i16* noalias nocapture readonly %y, i32 %n) {
				1850	; CHECK-LABEL: mla8i32:
				1851	; CHECK: @ %bb.0: @ %entry
				1852	; CHECK-NEXT: .save {r7, lr}
				1853	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1854	; CHECK-NEXT: cbz r2, .LBB20_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1855	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1856	; CHECK-NEXT: mov.w r12, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1857	; CHECK-NEXT: dlstp.16 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1858	; CHECK-NEXT: .LBB20_2: @ %vector.body
				1859	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1860	; CHECK-NEXT: vldrh.u16 q0, [r0], #16
				1861	; CHECK-NEXT: vldrh.u16 q1, [r1], #16
				1862	; CHECK-NEXT: vmlava.s16 r12, q1, q0
				1863	; CHECK-NEXT: letp lr, .LBB20_2
				1864	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1865	; CHECK-NEXT: mov r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1866	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1867	; CHECK-NEXT: .LBB20_4:
				1868	; CHECK-NEXT: mov.w r12, #0
				1869	; CHECK-NEXT: mov r0, r12
				1870	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1871	entry:
				1872	%cmp9.not = icmp eq i32 %n, 0
				1873	br i1 %cmp9.not, label %for.cond.cleanup, label %vector.ph
				1874
				1875	vector.ph: ; preds = %entry
				1876	%n.rnd.up = add i32 %n, 7
				1877	%n.vec = and i32 %n.rnd.up, -8
				1878	%trip.count.minus.1 = add i32 %n, -1
				1879	br label %vector.body
				1880
				1881	vector.body: ; preds = %vector.body, %vector.ph
				1882	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1883	%vec.phi = phi i32 [ 0, %vector.ph ], [ %9, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	1884	%active.lane.mask = call <8 x i1> @llvm.get.active.lane.mask.v8i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1885	%0 = getelementptr inbounds i16, i16* %x, i32 %index
				1886	%1 = bitcast i16* %0 to <8 x i16>*
				1887	%wide.masked.load = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %1, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				1888	%2 = sext <8 x i16> %wide.masked.load to <8 x i32>
				1889	%3 = getelementptr inbounds i16, i16* %y, i32 %index
				1890	%4 = bitcast i16* %3 to <8 x i16>*
				1891	%wide.masked.load14 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %4, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				1892	%5 = sext <8 x i16> %wide.masked.load14 to <8 x i32>
				1893	%6 = mul nsw <8 x i32> %5, %2
				1894	%7 = select <8 x i1> %active.lane.mask, <8 x i32> %6, <8 x i32> zeroinitializer
				1895	%8 = call i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32> %7)
				1896	%9 = add i32 %8, %vec.phi
				1897	%index.next = add i32 %index, 8
				1898	%10 = icmp eq i32 %index.next, %n.vec
				1899	br i1 %10, label %for.cond.cleanup, label %vector.body
				1900
				1901	for.cond.cleanup: ; preds = %vector.body, %entry
				1902	%s.0.lcssa = phi i32 [ 0, %entry ], [ %9, %vector.body ]
				1903	ret i32 %s.0.lcssa
				1904	}
				1905
				1906	define i32 @add16i32(i8* noalias nocapture readonly %x, i32 %n) {
				1907	; CHECK-LABEL: add16i32:
				1908	; CHECK: @ %bb.0: @ %entry
				1909	; CHECK-NEXT: .save {r7, lr}
				1910	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1911	; CHECK-NEXT: cbz r1, .LBB21_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1912	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1913	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1914	; CHECK-NEXT: dlstp.8 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1915	; CHECK-NEXT: .LBB21_2: @ %vector.body
				1916	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1917	; CHECK-NEXT: vldrb.u8 q0, [r0], #16
				1918	; CHECK-NEXT: vaddva.u8 r2, q0
				1919	; CHECK-NEXT: letp lr, .LBB21_2
				1920	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1921	; CHECK-NEXT: mov r0, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1922	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1923	; CHECK-NEXT: .LBB21_4:
				1924	; CHECK-NEXT: movs r2, #0
				1925	; CHECK-NEXT: mov r0, r2
				1926	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1927	entry:
				1928	%cmp6.not = icmp eq i32 %n, 0
				1929	br i1 %cmp6.not, label %for.cond.cleanup, label %vector.ph
				1930
				1931	vector.ph: ; preds = %entry
				1932	%n.rnd.up = add i32 %n, 15
				1933	%n.vec = and i32 %n.rnd.up, -16
				1934	%trip.count.minus.1 = add i32 %n, -1
				1935	br label %vector.body
				1936
				1937	vector.body: ; preds = %vector.body, %vector.ph
				1938	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1939	%vec.phi = phi i32 [ 0, %vector.ph ], [ %5, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	1940	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1941	%0 = getelementptr inbounds i8, i8* %x, i32 %index
				1942	%1 = bitcast i8* %0 to <16 x i8>*
				1943	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				1944	%2 = zext <16 x i8> %wide.masked.load to <16 x i32>
				1945	%3 = select <16 x i1> %active.lane.mask, <16 x i32> %2, <16 x i32> zeroinitializer
				1946	%4 = call i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32> %3)
				1947	%5 = add i32 %4, %vec.phi
				1948	%index.next = add i32 %index, 16
				1949	%6 = icmp eq i32 %index.next, %n.vec
				1950	br i1 %6, label %for.cond.cleanup, label %vector.body
				1951
				1952	for.cond.cleanup: ; preds = %vector.body, %entry
				1953	%s.0.lcssa = phi i32 [ 0, %entry ], [ %5, %vector.body ]
				1954	ret i32 %s.0.lcssa
				1955	}
				1956
				1957	define i32 @mla16i32(i8* noalias nocapture readonly %x, i8* noalias nocapture readonly %y, i32 %n) {
				1958	; CHECK-LABEL: mla16i32:
				1959	; CHECK: @ %bb.0: @ %entry
				1960	; CHECK-NEXT: .save {r7, lr}
				1961	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1962	; CHECK-NEXT: cbz r2, .LBB22_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1963	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1964	; CHECK-NEXT: mov.w r12, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1965	; CHECK-NEXT: dlstp.8 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1966	; CHECK-NEXT: .LBB22_2: @ %vector.body
				1967	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1968	; CHECK-NEXT: vldrb.u8 q0, [r0], #16
				1969	; CHECK-NEXT: vldrb.u8 q1, [r1], #16
				1970	; CHECK-NEXT: vmlava.u8 r12, q1, q0
				1971	; CHECK-NEXT: letp lr, .LBB22_2
				1972	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1973	; CHECK-NEXT: mov r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1974	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	1975	; CHECK-NEXT: .LBB22_4:
				1976	; CHECK-NEXT: mov.w r12, #0
				1977	; CHECK-NEXT: mov r0, r12
				1978	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1979	entry:
				1980	%cmp9.not = icmp eq i32 %n, 0
				1981	br i1 %cmp9.not, label %for.cond.cleanup, label %vector.ph
				1982
				1983	vector.ph: ; preds = %entry
				1984	%n.rnd.up = add i32 %n, 15
				1985	%n.vec = and i32 %n.rnd.up, -16
				1986	%trip.count.minus.1 = add i32 %n, -1
				1987	br label %vector.body
				1988
				1989	vector.body: ; preds = %vector.body, %vector.ph
				1990	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				1991	%vec.phi = phi i32 [ 0, %vector.ph ], [ %9, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	1992	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	1993	%0 = getelementptr inbounds i8, i8* %x, i32 %index
				1994	%1 = bitcast i8* %0 to <16 x i8>*
				1995	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				1996	%2 = zext <16 x i8> %wide.masked.load to <16 x i32>
				1997	%3 = getelementptr inbounds i8, i8* %y, i32 %index
				1998	%4 = bitcast i8* %3 to <16 x i8>*
				1999	%wide.masked.load14 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %4, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2000	%5 = zext <16 x i8> %wide.masked.load14 to <16 x i32>
				2001	%6 = mul nuw nsw <16 x i32> %5, %2
				2002	%7 = select <16 x i1> %active.lane.mask, <16 x i32> %6, <16 x i32> zeroinitializer
				2003	%8 = call i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32> %7)
				2004	%9 = add i32 %8, %vec.phi
				2005	%index.next = add i32 %index, 16
				2006	%10 = icmp eq i32 %index.next, %n.vec
				2007	br i1 %10, label %for.cond.cleanup, label %vector.body
				2008
				2009	for.cond.cleanup: ; preds = %vector.body, %entry
				2010	%s.0.lcssa = phi i32 [ 0, %entry ], [ %9, %vector.body ]
				2011	ret i32 %s.0.lcssa
				2012	}
				2013
				2014	define signext i16 @add8i16(i16* noalias nocapture readonly %x, i32 %n) {
				2015	; CHECK-LABEL: add8i16:
				2016	; CHECK: @ %bb.0: @ %entry
				2017	; CHECK-NEXT: .save {r7, lr}
				2018	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2019	; CHECK-NEXT: cbz r1, .LBB23_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2020	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2021	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2022	; CHECK-NEXT: dlstp.16 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2023	; CHECK-NEXT: .LBB23_2: @ %vector.body
				2024	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2025	; CHECK-NEXT: vldrh.u16 q0, [r0], #16
				2026	; CHECK-NEXT: vaddva.u16 r2, q0
				2027	; CHECK-NEXT: letp lr, .LBB23_2
				2028	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2029	; CHECK-NEXT: sxth r0, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2030	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2031	; CHECK-NEXT: .LBB23_4:
				2032	; CHECK-NEXT: movs r2, #0
				2033	; CHECK-NEXT: sxth r0, r2
				2034	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2035	entry:
				2036	%cmp8.not = icmp eq i32 %n, 0
				2037	br i1 %cmp8.not, label %for.cond.cleanup, label %vector.ph
				2038
				2039	vector.ph: ; preds = %entry
				2040	%n.rnd.up = add i32 %n, 7
				2041	%n.vec = and i32 %n.rnd.up, -8
				2042	%trip.count.minus.1 = add i32 %n, -1
				2043	br label %vector.body
				2044
				2045	vector.body: ; preds = %vector.body, %vector.ph
				2046	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2047	%vec.phi = phi i16 [ 0, %vector.ph ], [ %4, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	2048	%active.lane.mask = call <8 x i1> @llvm.get.active.lane.mask.v8i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2049	%0 = getelementptr inbounds i16, i16* %x, i32 %index
				2050	%1 = bitcast i16* %0 to <8 x i16>*
				2051	%wide.masked.load = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %1, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				2052	%2 = select <8 x i1> %active.lane.mask, <8 x i16> %wide.masked.load, <8 x i16> zeroinitializer
				2053	%3 = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %2)
				2054	%4 = add i16 %3, %vec.phi
				2055	%index.next = add i32 %index, 8
				2056	%5 = icmp eq i32 %index.next, %n.vec
				2057	br i1 %5, label %for.cond.cleanup, label %vector.body
				2058
				2059	for.cond.cleanup: ; preds = %vector.body, %entry
				2060	%s.0.lcssa = phi i16 [ 0, %entry ], [ %4, %vector.body ]
				2061	ret i16 %s.0.lcssa
				2062	}
				2063
				2064	define signext i16 @mla8i16(i16* noalias nocapture readonly %x, i16* noalias nocapture readonly %y, i32 %n) {
				2065	; CHECK-LABEL: mla8i16:
				2066	; CHECK: @ %bb.0: @ %entry
				2067	; CHECK-NEXT: .save {r7, lr}
				2068	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2069	; CHECK-NEXT: cbz r2, .LBB24_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2070	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2071	; CHECK-NEXT: mov.w r12, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2072	; CHECK-NEXT: dlstp.16 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2073	; CHECK-NEXT: .LBB24_2: @ %vector.body
				2074	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2075	; CHECK-NEXT: vldrh.u16 q0, [r0], #16
				2076	; CHECK-NEXT: vldrh.u16 q1, [r1], #16
				2077	; CHECK-NEXT: vmlava.u16 r12, q1, q0
				2078	; CHECK-NEXT: letp lr, .LBB24_2
				2079	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2080	; CHECK-NEXT: sxth.w r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2081	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2082	; CHECK-NEXT: .LBB24_4:
				2083	; CHECK-NEXT: mov.w r12, #0
				2084	; CHECK-NEXT: sxth.w r0, r12
				2085	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2086	entry:
				2087	%cmp11.not = icmp eq i32 %n, 0
				2088	br i1 %cmp11.not, label %for.cond.cleanup, label %vector.ph
				2089
				2090	vector.ph: ; preds = %entry
				2091	%n.rnd.up = add i32 %n, 7
				2092	%n.vec = and i32 %n.rnd.up, -8
				2093	%trip.count.minus.1 = add i32 %n, -1
				2094	br label %vector.body
				2095
				2096	vector.body: ; preds = %vector.body, %vector.ph
				2097	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2098	%vec.phi = phi i16 [ 0, %vector.ph ], [ %7, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	2099	%active.lane.mask = call <8 x i1> @llvm.get.active.lane.mask.v8i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2100	%0 = getelementptr inbounds i16, i16* %x, i32 %index
				2101	%1 = bitcast i16* %0 to <8 x i16>*
				2102	%wide.masked.load = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %1, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				2103	%2 = getelementptr inbounds i16, i16* %y, i32 %index
				2104	%3 = bitcast i16* %2 to <8 x i16>*
				2105	%wide.masked.load16 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %3, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				2106	%4 = mul <8 x i16> %wide.masked.load16, %wide.masked.load
				2107	%5 = select <8 x i1> %active.lane.mask, <8 x i16> %4, <8 x i16> zeroinitializer
				2108	%6 = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %5)
				2109	%7 = add i16 %6, %vec.phi
				2110	%index.next = add i32 %index, 8
				2111	%8 = icmp eq i32 %index.next, %n.vec
				2112	br i1 %8, label %for.cond.cleanup, label %vector.body
				2113
				2114	for.cond.cleanup: ; preds = %vector.body, %entry
				2115	%s.0.lcssa = phi i16 [ 0, %entry ], [ %7, %vector.body ]
				2116	ret i16 %s.0.lcssa
				2117	}
				2118
				2119	define signext i16 @add16i16(i8* noalias nocapture readonly %x, i32 %n) {
				2120	; CHECK-LABEL: add16i16:
				2121	; CHECK: @ %bb.0: @ %entry
				2122	; CHECK-NEXT: .save {r7, lr}
				2123	; CHECK-NEXT: push {r7, lr}
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame]	2124	; CHECK-NEXT: cbz r1, .LBB25_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2125	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2126	; CHECK-NEXT: movs r2, #0
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame]	2127	; CHECK-NEXT: dlstp.8 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2128	; CHECK-NEXT: .LBB25_2: @ %vector.body
				2129	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame]	2130	; CHECK-NEXT: vldrb.u8 q0, [r0], #16
				2131	; CHECK-NEXT: vaddva.u8 r2, q0
				2132	; CHECK-NEXT: letp lr, .LBB25_2
				2133	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2134	; CHECK-NEXT: sxth r0, r2
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame]	2135	; CHECK-NEXT: pop {r7, pc}
				2136	; CHECK-NEXT: .LBB25_4:
				2137	; CHECK-NEXT: movs r2, #0
				2138	; CHECK-NEXT: sxth r0, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2139	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2140	entry:
				2141	%cmp8.not = icmp eq i32 %n, 0
				2142	br i1 %cmp8.not, label %for.cond.cleanup, label %vector.ph
				2143
				2144	vector.ph: ; preds = %entry
				2145	%n.rnd.up = add i32 %n, 15
				2146	%n.vec = and i32 %n.rnd.up, -16
				2147	%trip.count.minus.1 = add i32 %n, -1
				2148	br label %vector.body
				2149
				2150	vector.body: ; preds = %vector.body, %vector.ph
				2151	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2152	%vec.phi = phi i16 [ 0, %vector.ph ], [ %5, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	2153	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2154	%0 = getelementptr inbounds i8, i8* %x, i32 %index
				2155	%1 = bitcast i8* %0 to <16 x i8>*
				2156	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2157	%2 = zext <16 x i8> %wide.masked.load to <16 x i16>
				2158	%3 = select <16 x i1> %active.lane.mask, <16 x i16> %2, <16 x i16> zeroinitializer
				2159	%4 = call i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16> %3)
				2160	%5 = add i16 %4, %vec.phi
				2161	%index.next = add i32 %index, 16
				2162	%6 = icmp eq i32 %index.next, %n.vec
				2163	br i1 %6, label %for.cond.cleanup, label %vector.body
				2164
				2165	for.cond.cleanup: ; preds = %vector.body, %entry
				2166	%s.0.lcssa = phi i16 [ 0, %entry ], [ %5, %vector.body ]
				2167	ret i16 %s.0.lcssa
				2168	}
				2169
				2170	define signext i16 @mla16i16(i8* noalias nocapture readonly %x, i8* noalias nocapture readonly %y, i32 %n) {
				2171	; CHECK-LABEL: mla16i16:
				2172	; CHECK: @ %bb.0: @ %entry
				2173	; CHECK-NEXT: .save {r7, lr}
				2174	; CHECK-NEXT: push {r7, lr}
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame]	2175	; CHECK-NEXT: cbz r2, .LBB26_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2176	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2177	; CHECK-NEXT: mov.w r12, #0
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame]	2178	; CHECK-NEXT: dlstp.8 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2179	; CHECK-NEXT: .LBB26_2: @ %vector.body
				2180	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame]	2181	; CHECK-NEXT: vldrb.u8 q0, [r0], #16
				2182	; CHECK-NEXT: vldrb.u8 q1, [r1], #16
				2183	; CHECK-NEXT: vmlava.u8 r12, q1, q0
				2184	; CHECK-NEXT: letp lr, .LBB26_2
				2185	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2186	; CHECK-NEXT: sxth.w r0, r12
David Green	186a7f8	2020-08-09 11:09:49 +0100	[diff] [blame]	2187	; CHECK-NEXT: pop {r7, pc}
				2188	; CHECK-NEXT: .LBB26_4:
				2189	; CHECK-NEXT: mov.w r12, #0
				2190	; CHECK-NEXT: sxth.w r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2191	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2192	entry:
				2193	%cmp13.not = icmp eq i32 %n, 0
				2194	br i1 %cmp13.not, label %for.cond.cleanup, label %vector.ph
				2195
				2196	vector.ph: ; preds = %entry
				2197	%n.rnd.up = add i32 %n, 15
				2198	%n.vec = and i32 %n.rnd.up, -16
				2199	%trip.count.minus.1 = add i32 %n, -1
				2200	br label %vector.body
				2201
				2202	vector.body: ; preds = %vector.body, %vector.ph
				2203	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2204	%vec.phi = phi i16 [ 0, %vector.ph ], [ %9, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	2205	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2206	%0 = getelementptr inbounds i8, i8* %x, i32 %index
				2207	%1 = bitcast i8* %0 to <16 x i8>*
				2208	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2209	%2 = zext <16 x i8> %wide.masked.load to <16 x i16>
				2210	%3 = getelementptr inbounds i8, i8* %y, i32 %index
				2211	%4 = bitcast i8* %3 to <16 x i8>*
				2212	%wide.masked.load18 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %4, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2213	%5 = zext <16 x i8> %wide.masked.load18 to <16 x i16>
				2214	%6 = mul nuw <16 x i16> %5, %2
				2215	%7 = select <16 x i1> %active.lane.mask, <16 x i16> %6, <16 x i16> zeroinitializer
				2216	%8 = call i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16> %7)
				2217	%9 = add i16 %8, %vec.phi
				2218	%index.next = add i32 %index, 16
				2219	%10 = icmp eq i32 %index.next, %n.vec
				2220	br i1 %10, label %for.cond.cleanup, label %vector.body
				2221
				2222	for.cond.cleanup: ; preds = %vector.body, %entry
				2223	%s.0.lcssa = phi i16 [ 0, %entry ], [ %9, %vector.body ]
				2224	ret i16 %s.0.lcssa
				2225	}
				2226
				2227	define zeroext i8 @add16i8(i8* noalias nocapture readonly %x, i32 %n) {
				2228	; CHECK-LABEL: add16i8:
				2229	; CHECK: @ %bb.0: @ %entry
				2230	; CHECK-NEXT: .save {r7, lr}
				2231	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2232	; CHECK-NEXT: cbz r1, .LBB27_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2233	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2234	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2235	; CHECK-NEXT: dlstp.8 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2236	; CHECK-NEXT: .LBB27_2: @ %vector.body
				2237	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2238	; CHECK-NEXT: vldrb.u8 q0, [r0], #16
				2239	; CHECK-NEXT: vaddva.u8 r2, q0
				2240	; CHECK-NEXT: letp lr, .LBB27_2
				2241	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2242	; CHECK-NEXT: uxtb r0, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2243	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2244	; CHECK-NEXT: .LBB27_4:
				2245	; CHECK-NEXT: movs r2, #0
				2246	; CHECK-NEXT: uxtb r0, r2
				2247	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2248	entry:
				2249	%cmp7.not = icmp eq i32 %n, 0
				2250	br i1 %cmp7.not, label %for.cond.cleanup, label %vector.ph
				2251
				2252	vector.ph: ; preds = %entry
				2253	%n.rnd.up = add i32 %n, 15
				2254	%n.vec = and i32 %n.rnd.up, -16
				2255	%trip.count.minus.1 = add i32 %n, -1
				2256	br label %vector.body
				2257
				2258	vector.body: ; preds = %vector.body, %vector.ph
				2259	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2260	%vec.phi = phi i8 [ 0, %vector.ph ], [ %4, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	2261	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2262	%0 = getelementptr inbounds i8, i8* %x, i32 %index
				2263	%1 = bitcast i8* %0 to <16 x i8>*
				2264	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2265	%2 = select <16 x i1> %active.lane.mask, <16 x i8> %wide.masked.load, <16 x i8> zeroinitializer
				2266	%3 = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %2)
				2267	%4 = add i8 %3, %vec.phi
				2268	%index.next = add i32 %index, 16
				2269	%5 = icmp eq i32 %index.next, %n.vec
				2270	br i1 %5, label %for.cond.cleanup, label %vector.body
				2271
				2272	for.cond.cleanup: ; preds = %vector.body, %entry
				2273	%s.0.lcssa = phi i8 [ 0, %entry ], [ %4, %vector.body ]
				2274	ret i8 %s.0.lcssa
				2275	}
				2276
				2277	define zeroext i8 @mla16i8(i8* noalias nocapture readonly %x, i8* noalias nocapture readonly %y, i32 %n) {
				2278	; CHECK-LABEL: mla16i8:
				2279	; CHECK: @ %bb.0: @ %entry
				2280	; CHECK-NEXT: .save {r7, lr}
				2281	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2282	; CHECK-NEXT: cbz r2, .LBB28_4
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2283	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2284	; CHECK-NEXT: mov.w r12, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2285	; CHECK-NEXT: dlstp.8 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2286	; CHECK-NEXT: .LBB28_2: @ %vector.body
				2287	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2288	; CHECK-NEXT: vldrb.u8 q0, [r0], #16
				2289	; CHECK-NEXT: vldrb.u8 q1, [r1], #16
				2290	; CHECK-NEXT: vmlava.u8 r12, q1, q0
				2291	; CHECK-NEXT: letp lr, .LBB28_2
				2292	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2293	; CHECK-NEXT: uxtb.w r0, r12
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2294	; CHECK-NEXT: pop {r7, pc}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2295	; CHECK-NEXT: .LBB28_4:
				2296	; CHECK-NEXT: mov.w r12, #0
				2297	; CHECK-NEXT: uxtb.w r0, r12
				2298	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2299	entry:
				2300	%cmp10.not = icmp eq i32 %n, 0
				2301	br i1 %cmp10.not, label %for.cond.cleanup, label %vector.ph
				2302
				2303	vector.ph: ; preds = %entry
				2304	%n.rnd.up = add i32 %n, 15
				2305	%n.vec = and i32 %n.rnd.up, -16
				2306	%trip.count.minus.1 = add i32 %n, -1
				2307	br label %vector.body
				2308
				2309	vector.body: ; preds = %vector.body, %vector.ph
				2310	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2311	%vec.phi = phi i8 [ 0, %vector.ph ], [ %7, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	2312	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2313	%0 = getelementptr inbounds i8, i8* %x, i32 %index
				2314	%1 = bitcast i8* %0 to <16 x i8>*
				2315	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2316	%2 = getelementptr inbounds i8, i8* %y, i32 %index
				2317	%3 = bitcast i8* %2 to <16 x i8>*
				2318	%wide.masked.load15 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %3, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
				2319	%4 = mul <16 x i8> %wide.masked.load15, %wide.masked.load
				2320	%5 = select <16 x i1> %active.lane.mask, <16 x i8> %4, <16 x i8> zeroinitializer
				2321	%6 = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %5)
				2322	%7 = add i8 %6, %vec.phi
				2323	%index.next = add i32 %index, 16
				2324	%8 = icmp eq i32 %index.next, %n.vec
				2325	br i1 %8, label %for.cond.cleanup, label %vector.body
				2326
				2327	for.cond.cleanup: ; preds = %vector.body, %entry
				2328	%s.0.lcssa = phi i8 [ 0, %entry ], [ %7, %vector.body ]
				2329	ret i8 %s.0.lcssa
				2330	}
				2331
				2332	define i64 @add4i64(i32* noalias nocapture readonly %x, i32 %n) {
				2333	; CHECK-LABEL: add4i64:
				2334	; CHECK: @ %bb.0: @ %entry
				2335	; CHECK-NEXT: .save {r7, lr}
				2336	; CHECK-NEXT: push {r7, lr}
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2337	; CHECK-NEXT: cbz r1, .LBB29_3
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2338	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2339	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2340	; CHECK-NEXT: mov r3, r2
				2341	; CHECK-NEXT: dlstp.32 lr, r1
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2342	; CHECK-NEXT: .LBB29_2: @ %vector.body
				2343	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2344	; CHECK-NEXT: vldrw.u32 q0, [r0], #16
				2345	; CHECK-NEXT: vaddlva.s32 r2, r3, q0
				2346	; CHECK-NEXT: letp lr, .LBB29_2
				2347	; CHECK-NEXT: b .LBB29_4
				2348	; CHECK-NEXT: .LBB29_3:
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2349	; CHECK-NEXT: movs r2, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2350	; CHECK-NEXT: mov r3, r2
				2351	; CHECK-NEXT: .LBB29_4: @ %for.cond.cleanup
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2352	; CHECK-NEXT: mov r0, r2
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2353	; CHECK-NEXT: mov r1, r3
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2354	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2355	entry:
				2356	%cmp6.not = icmp eq i32 %n, 0
				2357	br i1 %cmp6.not, label %for.cond.cleanup, label %vector.ph
				2358
				2359	vector.ph: ; preds = %entry
				2360	%n.rnd.up = add i32 %n, 3
				2361	%n.vec = and i32 %n.rnd.up, -4
				2362	%trip.count.minus.1 = add i32 %n, -1
				2363	br label %vector.body
				2364
				2365	vector.body: ; preds = %vector.body, %vector.ph
				2366	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2367	%vec.phi = phi i64 [ 0, %vector.ph ], [ %5, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	2368	%active.lane.mask = call <4 x i1> @llvm.get.active.lane.mask.v4i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2369	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				2370	%1 = bitcast i32* %0 to <4 x i32>*
				2371	%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %1, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
				2372	%2 = sext <4 x i32> %wide.masked.load to <4 x i64>
				2373	%3 = select <4 x i1> %active.lane.mask, <4 x i64> %2, <4 x i64> zeroinitializer
				2374	%4 = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %3)
				2375	%5 = add i64 %4, %vec.phi
				2376	%index.next = add i32 %index, 4
				2377	%6 = icmp eq i32 %index.next, %n.vec
				2378	br i1 %6, label %for.cond.cleanup, label %vector.body
				2379
				2380	for.cond.cleanup: ; preds = %vector.body, %entry
				2381	%s.0.lcssa = phi i64 [ 0, %entry ], [ %5, %vector.body ]
				2382	ret i64 %s.0.lcssa
				2383	}
				2384
				2385	define i64 @mla4i64(i32* noalias nocapture readonly %x, i32* noalias nocapture readonly %y, i32 %n) {
				2386	; CHECK-LABEL: mla4i64:
				2387	; CHECK: @ %bb.0: @ %entry
				2388	; CHECK-NEXT: .save {r7, lr}
				2389	; CHECK-NEXT: push {r7, lr}
				2390	; CHECK-NEXT: cbz r2, .LBB30_3
				2391	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2392	; CHECK-NEXT: mov.w r12, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2393	; CHECK-NEXT: mov r3, r12
				2394	; CHECK-NEXT: dlstp.32 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2395	; CHECK-NEXT: .LBB30_2: @ %vector.body
				2396	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2397	; CHECK-NEXT: vldrw.u32 q0, [r0], #16
				2398	; CHECK-NEXT: vldrw.u32 q1, [r1], #16
				2399	; CHECK-NEXT: vmlalva.s32 r12, r3, q1, q0
				2400	; CHECK-NEXT: letp lr, .LBB30_2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2401	; CHECK-NEXT: b .LBB30_4
				2402	; CHECK-NEXT: .LBB30_3:
				2403	; CHECK-NEXT: mov.w r12, #0
				2404	; CHECK-NEXT: mov r3, r12
				2405	; CHECK-NEXT: .LBB30_4: @ %for.cond.cleanup
				2406	; CHECK-NEXT: mov r0, r12
				2407	; CHECK-NEXT: mov r1, r3
				2408	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2409	entry:
				2410	%cmp9.not = icmp eq i32 %n, 0
				2411	br i1 %cmp9.not, label %for.cond.cleanup, label %vector.ph
				2412
				2413	vector.ph: ; preds = %entry
				2414	%n.rnd.up = add i32 %n, 3
				2415	%n.vec = and i32 %n.rnd.up, -4
				2416	%trip.count.minus.1 = add i32 %n, -1
				2417	br label %vector.body
				2418
				2419	vector.body: ; preds = %vector.body, %vector.ph
				2420	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2421	%vec.phi = phi i64 [ 0, %vector.ph ], [ %9, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	2422	%active.lane.mask = call <4 x i1> @llvm.get.active.lane.mask.v4i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2423	%0 = getelementptr inbounds i32, i32* %x, i32 %index
				2424	%1 = bitcast i32* %0 to <4 x i32>*
				2425	%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %1, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
				2426	%2 = sext <4 x i32> %wide.masked.load to <4 x i64>
				2427	%3 = getelementptr inbounds i32, i32* %y, i32 %index
				2428	%4 = bitcast i32* %3 to <4 x i32>*
				2429	%wide.masked.load14 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %4, i32 4, <4 x i1> %active.lane.mask, <4 x i32> undef)
				2430	%5 = sext <4 x i32> %wide.masked.load14 to <4 x i64>
				2431	%6 = mul nsw <4 x i64> %5, %2
				2432	%7 = select <4 x i1> %active.lane.mask, <4 x i64> %6, <4 x i64> zeroinitializer
				2433	%8 = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %7)
				2434	%9 = add i64 %8, %vec.phi
				2435	%index.next = add i32 %index, 4
				2436	%10 = icmp eq i32 %index.next, %n.vec
				2437	br i1 %10, label %for.cond.cleanup, label %vector.body
				2438
				2439	for.cond.cleanup: ; preds = %vector.body, %entry
				2440	%s.0.lcssa = phi i64 [ 0, %entry ], [ %9, %vector.body ]
				2441	ret i64 %s.0.lcssa
				2442	}
				2443
				2444	define i64 @mla8i64(i16* noalias nocapture readonly %x, i16* noalias nocapture readonly %y, i32 %n) {
				2445	; CHECK-LABEL: mla8i64:
				2446	; CHECK: @ %bb.0: @ %entry
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2447	; CHECK-NEXT: .save {r7, lr}
				2448	; CHECK-NEXT: push {r7, lr}
				2449	; CHECK-NEXT: cbz r2, .LBB31_3
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2450	; CHECK-NEXT: @ %bb.1: @ %vector.ph
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2451	; CHECK-NEXT: mov.w r12, #0
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2452	; CHECK-NEXT: mov r3, r12
				2453	; CHECK-NEXT: dlstp.16 lr, r2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2454	; CHECK-NEXT: .LBB31_2: @ %vector.body
				2455	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2456	; CHECK-NEXT: vldrh.u16 q0, [r0], #16
				2457	; CHECK-NEXT: vldrh.u16 q1, [r1], #16
				2458	; CHECK-NEXT: vmlalva.s16 r12, r3, q1, q0
				2459	; CHECK-NEXT: letp lr, .LBB31_2
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2460	; CHECK-NEXT: b .LBB31_4
				2461	; CHECK-NEXT: .LBB31_3:
				2462	; CHECK-NEXT: mov.w r12, #0
				2463	; CHECK-NEXT: mov r3, r12
				2464	; CHECK-NEXT: .LBB31_4: @ %for.cond.cleanup
				2465	; CHECK-NEXT: mov r0, r12
				2466	; CHECK-NEXT: mov r1, r3
David Green	8590e5a	2020-08-09 10:57:17 +0100	[diff] [blame]	2467	; CHECK-NEXT: pop {r7, pc}
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2468	entry:
				2469	%cmp9.not = icmp eq i32 %n, 0
				2470	br i1 %cmp9.not, label %for.cond.cleanup, label %vector.ph
				2471
				2472	vector.ph: ; preds = %entry
				2473	%n.rnd.up = add i32 %n, 7
				2474	%n.vec = and i32 %n.rnd.up, -8
				2475	%trip.count.minus.1 = add i32 %n, -1
				2476	br label %vector.body
				2477
				2478	vector.body: ; preds = %vector.body, %vector.ph
				2479	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
				2480	%vec.phi = phi i64 [ 0, %vector.ph ], [ %9, %vector.body ]
Sjoerd Meijer	c352e7f	2020-08-25 13:53:26 +0100	[diff] [blame]	2481	%active.lane.mask = call <8 x i1> @llvm.get.active.lane.mask.v8i1.i32(i32 %index, i32 %n)
David Green	25e38c3	2020-08-07 17:16:56 +0100	[diff] [blame]	2482	%0 = getelementptr inbounds i16, i16* %x, i32 %index
				2483	%1 = bitcast i16* %0 to <8 x i16>*
				2484	%wide.masked.load = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %1, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				2485	%2 = sext <8 x i16> %wide.masked.load to <8 x i64>
				2486	%3 = getelementptr inbounds i16, i16* %y, i32 %index
				2487	%4 = bitcast i16* %3 to <8 x i16>*
				2488	%wide.masked.load14 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %4, i32 2, <8 x i1> %active.lane.mask, <8 x i16> undef)
				2489	%5 = sext <8 x i16> %wide.masked.load14 to <8 x i64>
				2490	%6 = mul nsw <8 x i64> %5, %2
				2491	%7 = select <8 x i1> %active.lane.mask, <8 x i64> %6, <8 x i64> zeroinitializer
				2492	%8 = call i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64> %7)
				2493	%9 = add i64 %8, %vec.phi
				2494	%index.next = add i32 %index, 8
				2495	%10 = icmp eq i32 %index.next, %n.vec
				2496	br i1 %10, label %for.cond.cleanup, label %vector.body
				2497
				2498	for.cond.cleanup: ; preds = %vector.body, %entry
				2499	%s.0.lcssa = phi i64 [ 0, %entry ], [ %9, %vector.body ]
				2500	ret i64 %s.0.lcssa
				2501	}
				2502
				2503	declare <4 x i1> @llvm.get.active.lane.mask.v4i1.i32(i32, i32) #1
				2504	declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>) #2
				2505	declare <8 x i1> @llvm.get.active.lane.mask.v8i1.i32(i32, i32) #1
				2506	declare <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>*, i32 immarg, <8 x i1>, <8 x i16>) #2
				2507	declare i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32>) #3
				2508	declare <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32, i32) #1
				2509	declare <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>*, i32 immarg, <16 x i1>, <16 x i8>) #2
				2510	declare i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32>) #3
				2511	declare i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16>) #3
				2512	declare i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16>) #3
				2513	declare i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8>) #3
				2514	declare i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64>) #3
				2515	declare i64 @llvm.experimental.vector.reduce.add.v8i64(<8 x i64>) #3
				2516
David Green	c755157	2020-06-09 11:04:29 +0100	[diff] [blame]	2517	declare i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32>)
				2518	declare i32 @llvm.experimental.vector.reduce.mul.v4i32(<4 x i32>)
				2519	declare i32 @llvm.experimental.vector.reduce.and.v4i32(<4 x i32>)
				2520	declare i32 @llvm.experimental.vector.reduce.or.v4i32(<4 x i32>)
				2521	declare i32 @llvm.experimental.vector.reduce.xor.v4i32(<4 x i32>)
				2522	declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float, <4 x float>)
				2523	declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float, <4 x float>)
				2524	declare i32 @llvm.experimental.vector.reduce.smin.v4i32(<4 x i32>)
				2525	declare i32 @llvm.experimental.vector.reduce.smax.v4i32(<4 x i32>)
				2526	declare i32 @llvm.experimental.vector.reduce.umin.v4i32(<4 x i32>)
				2527	declare i32 @llvm.experimental.vector.reduce.umax.v4i32(<4 x i32>)
				2528	declare float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float>)
				2529	declare float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float>)