Blame - ios-arm/crypto/fipsmodule/armv4-mont.S - platform/external/boringssl

blob: e549d1f163050a050c6121757d31e91bdc05a847 [file] [log] [blame]

Robert Sloan	c9abfe4	2018-11-26 12:19:07 -0800	[diff] [blame]	1	// This file is generated from a similarly-named Perl script in the BoringSSL
				2	// source tree. Do not edit by hand.
				3
Pete Bentley	0c61efe	2019-08-13 09:32:23 +0100	[diff] [blame^]	4	#if !defined(__has_feature)
				5	#define __has_feature(x) 0
				6	#endif
Robert Sloan	726e9d1	2018-09-11 11:45:04 -0700	[diff] [blame]	7	#if __has_feature(memory_sanitizer) && !defined(OPENSSL_NO_ASM)
				8	#define OPENSSL_NO_ASM
				9	#endif
Robert Sloan	726e9d1	2018-09-11 11:45:04 -0700	[diff] [blame]	10
				11	#if !defined(OPENSSL_NO_ASM)
				12	#if defined(BORINGSSL_PREFIX)
				13	#include <boringssl_prefix_symbols_asm.h>
				14	#endif
Robert Sloan	8ff0355	2017-06-14 12:40:58 -0700	[diff] [blame]	15	#include <openssl/arm_arch.h>
				16
Robert Sloan	5581810	2017-12-18 11:26:17 -0800	[diff] [blame]	17	@ Silence ARMv8 deprecated IT instruction warnings. This file is used by both
				18	@ ARMv7 and ARMv8 processors and does not use ARMv8 instructions.
				19
				20
Robert Sloan	8ff0355	2017-06-14 12:40:58 -0700	[diff] [blame]	21	.text
				22	#if defined(__thumb2__)
				23	.syntax unified
				24	.thumb
				25	#else
				26	.code 32
				27	#endif
				28
				29	#if __ARM_MAX_ARCH__>=7
				30	.align 5
				31	LOPENSSL_armcap:
				32	.word OPENSSL_armcap_P-Lbn_mul_mont
				33	#endif
				34
				35	.globl _bn_mul_mont
				36	.private_extern _bn_mul_mont
				37	#ifdef __thumb2__
				38	.thumb_func _bn_mul_mont
				39	#endif
				40
				41	.align 5
				42	_bn_mul_mont:
				43	Lbn_mul_mont:
				44	ldr ip,[sp,#4] @ load num
				45	stmdb sp!,{r0,r2} @ sp points at argument block
				46	#if __ARM_MAX_ARCH__>=7
				47	tst ip,#7
				48	bne Lialu
				49	adr r0,Lbn_mul_mont
				50	ldr r2,LOPENSSL_armcap
				51	ldr r0,[r0,r2]
				52	#ifdef __APPLE__
				53	ldr r0,[r0]
				54	#endif
				55	tst r0,#ARMV7_NEON @ NEON available?
				56	ldmia sp, {r0,r2}
				57	beq Lialu
				58	add sp,sp,#8
				59	b bn_mul8x_mont_neon
				60	.align 4
				61	Lialu:
				62	#endif
				63	cmp ip,#2
				64	mov r0,ip @ load num
				65	#ifdef __thumb2__
				66	ittt lt
				67	#endif
				68	movlt r0,#0
				69	addlt sp,sp,#2*4
				70	blt Labrt
				71
				72	stmdb sp!,{r4,r5,r6,r7,r8,r9,r10,r11,r12,lr} @ save 10 registers
				73
				74	mov r0,r0,lsl#2 @ rescale r0 for byte count
				75	sub sp,sp,r0 @ alloca(4*num)
				76	sub sp,sp,#4 @ +extra dword
				77	sub r0,r0,#4 @ "num=num-1"
				78	add r4,r2,r0 @ &bp[num-1]
				79
				80	add r0,sp,r0 @ r0 to point at &tp[num-1]
				81	ldr r8,[r0,#14*4] @ &n0
				82	ldr r2,[r2] @ bp[0]
				83	ldr r5,[r1],#4 @ ap[0],ap++
				84	ldr r6,[r3],#4 @ np[0],np++
				85	ldr r8,[r8] @ *n0
				86	str r4,[r0,#15*4] @ save &bp[num]
				87
				88	umull r10,r11,r5,r2 @ ap[0]*bp[0]
				89	str r8,[r0,#14*4] @ save n0 value
				90	mul r8,r10,r8 @ "tp[0]"*n0
				91	mov r12,#0
				92	umlal r10,r12,r6,r8 @ np[0]*n0+"t[0]"
				93	mov r4,sp
				94
				95	L1st:
				96	ldr r5,[r1],#4 @ ap[j],ap++
				97	mov r10,r11
				98	ldr r6,[r3],#4 @ np[j],np++
				99	mov r11,#0
				100	umlal r10,r11,r5,r2 @ ap[j]*bp[0]
				101	mov r14,#0
				102	umlal r12,r14,r6,r8 @ np[j]*n0
				103	adds r12,r12,r10
				104	str r12,[r4],#4 @ tp[j-1]=,tp++
				105	adc r12,r14,#0
				106	cmp r4,r0
				107	bne L1st
				108
				109	adds r12,r12,r11
				110	ldr r4,[r0,#13*4] @ restore bp
				111	mov r14,#0
				112	ldr r8,[r0,#14*4] @ restore n0
				113	adc r14,r14,#0
				114	str r12,[r0] @ tp[num-1]=
				115	mov r7,sp
				116	str r14,[r0,#4] @ tp[num]=
				117
				118	Louter:
				119	sub r7,r0,r7 @ "original" r0-1 value
				120	sub r1,r1,r7 @ "rewind" ap to &ap[1]
				121	ldr r2,[r4,#4]! @ *(++bp)
				122	sub r3,r3,r7 @ "rewind" np to &np[1]
				123	ldr r5,[r1,#-4] @ ap[0]
				124	ldr r10,[sp] @ tp[0]
				125	ldr r6,[r3,#-4] @ np[0]
				126	ldr r7,[sp,#4] @ tp[1]
				127
				128	mov r11,#0
				129	umlal r10,r11,r5,r2 @ ap[0]*bp[i]+tp[0]
				130	str r4,[r0,#13*4] @ save bp
				131	mul r8,r10,r8
				132	mov r12,#0
				133	umlal r10,r12,r6,r8 @ np[0]*n0+"tp[0]"
				134	mov r4,sp
				135
				136	Linner:
				137	ldr r5,[r1],#4 @ ap[j],ap++
				138	adds r10,r11,r7 @ +=tp[j]
				139	ldr r6,[r3],#4 @ np[j],np++
				140	mov r11,#0
				141	umlal r10,r11,r5,r2 @ ap[j]*bp[i]
				142	mov r14,#0
				143	umlal r12,r14,r6,r8 @ np[j]*n0
				144	adc r11,r11,#0
				145	ldr r7,[r4,#8] @ tp[j+1]
				146	adds r12,r12,r10
				147	str r12,[r4],#4 @ tp[j-1]=,tp++
				148	adc r12,r14,#0
				149	cmp r4,r0
				150	bne Linner
				151
				152	adds r12,r12,r11
				153	mov r14,#0
				154	ldr r4,[r0,#13*4] @ restore bp
				155	adc r14,r14,#0
				156	ldr r8,[r0,#14*4] @ restore n0
				157	adds r12,r12,r7
				158	ldr r7,[r0,#15*4] @ restore &bp[num]
				159	adc r14,r14,#0
				160	str r12,[r0] @ tp[num-1]=
				161	str r14,[r0,#4] @ tp[num]=
				162
				163	cmp r4,r7
				164	#ifdef __thumb2__
				165	itt ne
				166	#endif
				167	movne r7,sp
				168	bne Louter
				169
				170	ldr r2,[r0,#12*4] @ pull rp
				171	mov r5,sp
				172	add r0,r0,#4 @ r0 to point at &tp[num]
				173	sub r5,r0,r5 @ "original" num value
				174	mov r4,sp @ "rewind" r4
				175	mov r1,r4 @ "borrow" r1
				176	sub r3,r3,r5 @ "rewind" r3 to &np[0]
				177
				178	subs r7,r7,r7 @ "clear" carry flag
				179	Lsub: ldr r7,[r4],#4
				180	ldr r6,[r3],#4
				181	sbcs r7,r7,r6 @ tp[j]-np[j]
				182	str r7,[r2],#4 @ rp[j]=
				183	teq r4,r0 @ preserve carry
				184	bne Lsub
				185	sbcs r14,r14,#0 @ upmost carry
				186	mov r4,sp @ "rewind" r4
				187	sub r2,r2,r5 @ "rewind" r2
				188
Adam Vartanian	bfcf3a7	2018-08-10 14:55:24 +0100	[diff] [blame]	189	Lcopy: ldr r7,[r4] @ conditional copy
				190	ldr r5,[r2]
Robert Sloan	8ff0355	2017-06-14 12:40:58 -0700	[diff] [blame]	191	str sp,[r4],#4 @ zap tp
Adam Vartanian	bfcf3a7	2018-08-10 14:55:24 +0100	[diff] [blame]	192	#ifdef __thumb2__
				193	it cc
				194	#endif
				195	movcc r5,r7
				196	str r5,[r2],#4
				197	teq r4,r0 @ preserve carry
Robert Sloan	8ff0355	2017-06-14 12:40:58 -0700	[diff] [blame]	198	bne Lcopy
				199
				200	mov sp,r0
				201	add sp,sp,#4 @ skip over tp[num+1]
				202	ldmia sp!,{r4,r5,r6,r7,r8,r9,r10,r11,r12,lr} @ restore registers
				203	add sp,sp,#2*4 @ skip over {r0,r2}
				204	mov r0,#1
				205	Labrt:
				206	#if __ARM_ARCH__>=5
				207	bx lr @ bx lr
				208	#else
				209	tst lr,#1
				210	moveq pc,lr @ be binary compatible with V4, yet
				211	.word 0xe12fff1e @ interoperable with Thumb ISA:-)
				212	#endif
				213
				214	#if __ARM_MAX_ARCH__>=7
				215
				216
				217
				218	#ifdef __thumb2__
				219	.thumb_func bn_mul8x_mont_neon
				220	#endif
				221	.align 5
				222	bn_mul8x_mont_neon:
				223	mov ip,sp
				224	stmdb sp!,{r4,r5,r6,r7,r8,r9,r10,r11}
				225	vstmdb sp!,{d8,d9,d10,d11,d12,d13,d14,d15} @ ABI specification says so
				226	ldmia ip,{r4,r5} @ load rest of parameter block
				227	mov ip,sp
				228
				229	cmp r5,#8
				230	bhi LNEON_8n
				231
				232	@ special case for r5==8, everything is in register bank...
				233
				234	vld1.32 {d28[0]}, [r2,:32]!
				235	veor d8,d8,d8
				236	sub r7,sp,r5,lsl#4
				237	vld1.32 {d0,d1,d2,d3}, [r1]! @ can't specify :32 :-(
				238	and r7,r7,#-64
				239	vld1.32 {d30[0]}, [r4,:32]
				240	mov sp,r7 @ alloca
				241	vzip.16 d28,d8
				242
				243	vmull.u32 q6,d28,d0[0]
				244	vmull.u32 q7,d28,d0[1]
				245	vmull.u32 q8,d28,d1[0]
				246	vshl.i64 d29,d13,#16
				247	vmull.u32 q9,d28,d1[1]
				248
				249	vadd.u64 d29,d29,d12
				250	veor d8,d8,d8
				251	vmul.u32 d29,d29,d30
				252
				253	vmull.u32 q10,d28,d2[0]
				254	vld1.32 {d4,d5,d6,d7}, [r3]!
				255	vmull.u32 q11,d28,d2[1]
				256	vmull.u32 q12,d28,d3[0]
				257	vzip.16 d29,d8
				258	vmull.u32 q13,d28,d3[1]
				259
				260	vmlal.u32 q6,d29,d4[0]
				261	sub r9,r5,#1
				262	vmlal.u32 q7,d29,d4[1]
				263	vmlal.u32 q8,d29,d5[0]
				264	vmlal.u32 q9,d29,d5[1]
				265
				266	vmlal.u32 q10,d29,d6[0]
				267	vmov q5,q6
				268	vmlal.u32 q11,d29,d6[1]
				269	vmov q6,q7
				270	vmlal.u32 q12,d29,d7[0]
				271	vmov q7,q8
				272	vmlal.u32 q13,d29,d7[1]
				273	vmov q8,q9
				274	vmov q9,q10
				275	vshr.u64 d10,d10,#16
				276	vmov q10,q11
				277	vmov q11,q12
				278	vadd.u64 d10,d10,d11
				279	vmov q12,q13
				280	veor q13,q13
				281	vshr.u64 d10,d10,#16
				282
				283	b LNEON_outer8
				284
				285	.align 4
				286	LNEON_outer8:
				287	vld1.32 {d28[0]}, [r2,:32]!
				288	veor d8,d8,d8
				289	vzip.16 d28,d8
				290	vadd.u64 d12,d12,d10
				291
				292	vmlal.u32 q6,d28,d0[0]
				293	vmlal.u32 q7,d28,d0[1]
				294	vmlal.u32 q8,d28,d1[0]
				295	vshl.i64 d29,d13,#16
				296	vmlal.u32 q9,d28,d1[1]
				297
				298	vadd.u64 d29,d29,d12
				299	veor d8,d8,d8
				300	subs r9,r9,#1
				301	vmul.u32 d29,d29,d30
				302
				303	vmlal.u32 q10,d28,d2[0]
				304	vmlal.u32 q11,d28,d2[1]
				305	vmlal.u32 q12,d28,d3[0]
				306	vzip.16 d29,d8
				307	vmlal.u32 q13,d28,d3[1]
				308
				309	vmlal.u32 q6,d29,d4[0]
				310	vmlal.u32 q7,d29,d4[1]
				311	vmlal.u32 q8,d29,d5[0]
				312	vmlal.u32 q9,d29,d5[1]
				313
				314	vmlal.u32 q10,d29,d6[0]
				315	vmov q5,q6
				316	vmlal.u32 q11,d29,d6[1]
				317	vmov q6,q7
				318	vmlal.u32 q12,d29,d7[0]
				319	vmov q7,q8
				320	vmlal.u32 q13,d29,d7[1]
				321	vmov q8,q9
				322	vmov q9,q10
				323	vshr.u64 d10,d10,#16
				324	vmov q10,q11
				325	vmov q11,q12
				326	vadd.u64 d10,d10,d11
				327	vmov q12,q13
				328	veor q13,q13
				329	vshr.u64 d10,d10,#16
				330
				331	bne LNEON_outer8
				332
				333	vadd.u64 d12,d12,d10
				334	mov r7,sp
				335	vshr.u64 d10,d12,#16
				336	mov r8,r5
				337	vadd.u64 d13,d13,d10
				338	add r6,sp,#96
				339	vshr.u64 d10,d13,#16
				340	vzip.16 d12,d13
				341
				342	b LNEON_tail_entry
				343
				344	.align 4
				345	LNEON_8n:
				346	veor q6,q6,q6
				347	sub r7,sp,#128
				348	veor q7,q7,q7
				349	sub r7,r7,r5,lsl#4
				350	veor q8,q8,q8
				351	and r7,r7,#-64
				352	veor q9,q9,q9
				353	mov sp,r7 @ alloca
				354	veor q10,q10,q10
				355	add r7,r7,#256
				356	veor q11,q11,q11
				357	sub r8,r5,#8
				358	veor q12,q12,q12
				359	veor q13,q13,q13
				360
				361	LNEON_8n_init:
				362	vst1.64 {q6,q7},[r7,:256]!
				363	subs r8,r8,#8
				364	vst1.64 {q8,q9},[r7,:256]!
				365	vst1.64 {q10,q11},[r7,:256]!
				366	vst1.64 {q12,q13},[r7,:256]!
				367	bne LNEON_8n_init
				368
				369	add r6,sp,#256
				370	vld1.32 {d0,d1,d2,d3},[r1]!
				371	add r10,sp,#8
				372	vld1.32 {d30[0]},[r4,:32]
				373	mov r9,r5
				374	b LNEON_8n_outer
				375
				376	.align 4
				377	LNEON_8n_outer:
				378	vld1.32 {d28[0]},[r2,:32]! @ *b++
				379	veor d8,d8,d8
				380	vzip.16 d28,d8
				381	add r7,sp,#128
				382	vld1.32 {d4,d5,d6,d7},[r3]!
				383
				384	vmlal.u32 q6,d28,d0[0]
				385	vmlal.u32 q7,d28,d0[1]
				386	veor d8,d8,d8
				387	vmlal.u32 q8,d28,d1[0]
				388	vshl.i64 d29,d13,#16
				389	vmlal.u32 q9,d28,d1[1]
				390	vadd.u64 d29,d29,d12
				391	vmlal.u32 q10,d28,d2[0]
				392	vmul.u32 d29,d29,d30
				393	vmlal.u32 q11,d28,d2[1]
				394	vst1.32 {d28},[sp,:64] @ put aside smashed b[8*i+0]
				395	vmlal.u32 q12,d28,d3[0]
				396	vzip.16 d29,d8
				397	vmlal.u32 q13,d28,d3[1]
				398	vld1.32 {d28[0]},[r2,:32]! @ *b++
				399	vmlal.u32 q6,d29,d4[0]
				400	veor d10,d10,d10
				401	vmlal.u32 q7,d29,d4[1]
				402	vzip.16 d28,d10
				403	vmlal.u32 q8,d29,d5[0]
				404	vshr.u64 d12,d12,#16
				405	vmlal.u32 q9,d29,d5[1]
				406	vmlal.u32 q10,d29,d6[0]
				407	vadd.u64 d12,d12,d13
				408	vmlal.u32 q11,d29,d6[1]
				409	vshr.u64 d12,d12,#16
				410	vmlal.u32 q12,d29,d7[0]
				411	vmlal.u32 q13,d29,d7[1]
				412	vadd.u64 d14,d14,d12
				413	vst1.32 {d29},[r10,:64]! @ put aside smashed m[8*i+0]
				414	vmlal.u32 q7,d28,d0[0]
				415	vld1.64 {q6},[r6,:128]!
				416	vmlal.u32 q8,d28,d0[1]
				417	veor d8,d8,d8
				418	vmlal.u32 q9,d28,d1[0]
				419	vshl.i64 d29,d15,#16
				420	vmlal.u32 q10,d28,d1[1]
				421	vadd.u64 d29,d29,d14
				422	vmlal.u32 q11,d28,d2[0]
				423	vmul.u32 d29,d29,d30
				424	vmlal.u32 q12,d28,d2[1]
				425	vst1.32 {d28},[r10,:64]! @ put aside smashed b[8*i+1]
				426	vmlal.u32 q13,d28,d3[0]
				427	vzip.16 d29,d8
				428	vmlal.u32 q6,d28,d3[1]
				429	vld1.32 {d28[0]},[r2,:32]! @ *b++
				430	vmlal.u32 q7,d29,d4[0]
				431	veor d10,d10,d10
				432	vmlal.u32 q8,d29,d4[1]
				433	vzip.16 d28,d10
				434	vmlal.u32 q9,d29,d5[0]
				435	vshr.u64 d14,d14,#16
				436	vmlal.u32 q10,d29,d5[1]
				437	vmlal.u32 q11,d29,d6[0]
				438	vadd.u64 d14,d14,d15
				439	vmlal.u32 q12,d29,d6[1]
				440	vshr.u64 d14,d14,#16
				441	vmlal.u32 q13,d29,d7[0]
				442	vmlal.u32 q6,d29,d7[1]
				443	vadd.u64 d16,d16,d14
				444	vst1.32 {d29},[r10,:64]! @ put aside smashed m[8*i+1]
				445	vmlal.u32 q8,d28,d0[0]
				446	vld1.64 {q7},[r6,:128]!
				447	vmlal.u32 q9,d28,d0[1]
				448	veor d8,d8,d8
				449	vmlal.u32 q10,d28,d1[0]
				450	vshl.i64 d29,d17,#16
				451	vmlal.u32 q11,d28,d1[1]
				452	vadd.u64 d29,d29,d16
				453	vmlal.u32 q12,d28,d2[0]
				454	vmul.u32 d29,d29,d30
				455	vmlal.u32 q13,d28,d2[1]
				456	vst1.32 {d28},[r10,:64]! @ put aside smashed b[8*i+2]
				457	vmlal.u32 q6,d28,d3[0]
				458	vzip.16 d29,d8
				459	vmlal.u32 q7,d28,d3[1]
				460	vld1.32 {d28[0]},[r2,:32]! @ *b++
				461	vmlal.u32 q8,d29,d4[0]
				462	veor d10,d10,d10
				463	vmlal.u32 q9,d29,d4[1]
				464	vzip.16 d28,d10
				465	vmlal.u32 q10,d29,d5[0]
				466	vshr.u64 d16,d16,#16
				467	vmlal.u32 q11,d29,d5[1]
				468	vmlal.u32 q12,d29,d6[0]
				469	vadd.u64 d16,d16,d17
				470	vmlal.u32 q13,d29,d6[1]
				471	vshr.u64 d16,d16,#16
				472	vmlal.u32 q6,d29,d7[0]
				473	vmlal.u32 q7,d29,d7[1]
				474	vadd.u64 d18,d18,d16
				475	vst1.32 {d29},[r10,:64]! @ put aside smashed m[8*i+2]
				476	vmlal.u32 q9,d28,d0[0]
				477	vld1.64 {q8},[r6,:128]!
				478	vmlal.u32 q10,d28,d0[1]
				479	veor d8,d8,d8
				480	vmlal.u32 q11,d28,d1[0]
				481	vshl.i64 d29,d19,#16
				482	vmlal.u32 q12,d28,d1[1]
				483	vadd.u64 d29,d29,d18
				484	vmlal.u32 q13,d28,d2[0]
				485	vmul.u32 d29,d29,d30
				486	vmlal.u32 q6,d28,d2[1]
				487	vst1.32 {d28},[r10,:64]! @ put aside smashed b[8*i+3]
				488	vmlal.u32 q7,d28,d3[0]
				489	vzip.16 d29,d8
				490	vmlal.u32 q8,d28,d3[1]
				491	vld1.32 {d28[0]},[r2,:32]! @ *b++
				492	vmlal.u32 q9,d29,d4[0]
				493	veor d10,d10,d10
				494	vmlal.u32 q10,d29,d4[1]
				495	vzip.16 d28,d10
				496	vmlal.u32 q11,d29,d5[0]
				497	vshr.u64 d18,d18,#16
				498	vmlal.u32 q12,d29,d5[1]
				499	vmlal.u32 q13,d29,d6[0]
				500	vadd.u64 d18,d18,d19
				501	vmlal.u32 q6,d29,d6[1]
				502	vshr.u64 d18,d18,#16
				503	vmlal.u32 q7,d29,d7[0]
				504	vmlal.u32 q8,d29,d7[1]
				505	vadd.u64 d20,d20,d18
				506	vst1.32 {d29},[r10,:64]! @ put aside smashed m[8*i+3]
				507	vmlal.u32 q10,d28,d0[0]
				508	vld1.64 {q9},[r6,:128]!
				509	vmlal.u32 q11,d28,d0[1]
				510	veor d8,d8,d8
				511	vmlal.u32 q12,d28,d1[0]
				512	vshl.i64 d29,d21,#16
				513	vmlal.u32 q13,d28,d1[1]
				514	vadd.u64 d29,d29,d20
				515	vmlal.u32 q6,d28,d2[0]
				516	vmul.u32 d29,d29,d30
				517	vmlal.u32 q7,d28,d2[1]
				518	vst1.32 {d28},[r10,:64]! @ put aside smashed b[8*i+4]
				519	vmlal.u32 q8,d28,d3[0]
				520	vzip.16 d29,d8
				521	vmlal.u32 q9,d28,d3[1]
				522	vld1.32 {d28[0]},[r2,:32]! @ *b++
				523	vmlal.u32 q10,d29,d4[0]
				524	veor d10,d10,d10
				525	vmlal.u32 q11,d29,d4[1]
				526	vzip.16 d28,d10
				527	vmlal.u32 q12,d29,d5[0]
				528	vshr.u64 d20,d20,#16
				529	vmlal.u32 q13,d29,d5[1]
				530	vmlal.u32 q6,d29,d6[0]
				531	vadd.u64 d20,d20,d21
				532	vmlal.u32 q7,d29,d6[1]
				533	vshr.u64 d20,d20,#16
				534	vmlal.u32 q8,d29,d7[0]
				535	vmlal.u32 q9,d29,d7[1]
				536	vadd.u64 d22,d22,d20
				537	vst1.32 {d29},[r10,:64]! @ put aside smashed m[8*i+4]
				538	vmlal.u32 q11,d28,d0[0]
				539	vld1.64 {q10},[r6,:128]!
				540	vmlal.u32 q12,d28,d0[1]
				541	veor d8,d8,d8
				542	vmlal.u32 q13,d28,d1[0]
				543	vshl.i64 d29,d23,#16
				544	vmlal.u32 q6,d28,d1[1]
				545	vadd.u64 d29,d29,d22
				546	vmlal.u32 q7,d28,d2[0]
				547	vmul.u32 d29,d29,d30
				548	vmlal.u32 q8,d28,d2[1]
				549	vst1.32 {d28},[r10,:64]! @ put aside smashed b[8*i+5]
				550	vmlal.u32 q9,d28,d3[0]
				551	vzip.16 d29,d8
				552	vmlal.u32 q10,d28,d3[1]
				553	vld1.32 {d28[0]},[r2,:32]! @ *b++
				554	vmlal.u32 q11,d29,d4[0]
				555	veor d10,d10,d10
				556	vmlal.u32 q12,d29,d4[1]
				557	vzip.16 d28,d10
				558	vmlal.u32 q13,d29,d5[0]
				559	vshr.u64 d22,d22,#16
				560	vmlal.u32 q6,d29,d5[1]
				561	vmlal.u32 q7,d29,d6[0]
				562	vadd.u64 d22,d22,d23
				563	vmlal.u32 q8,d29,d6[1]
				564	vshr.u64 d22,d22,#16
				565	vmlal.u32 q9,d29,d7[0]
				566	vmlal.u32 q10,d29,d7[1]
				567	vadd.u64 d24,d24,d22
				568	vst1.32 {d29},[r10,:64]! @ put aside smashed m[8*i+5]
				569	vmlal.u32 q12,d28,d0[0]
				570	vld1.64 {q11},[r6,:128]!
				571	vmlal.u32 q13,d28,d0[1]
				572	veor d8,d8,d8
				573	vmlal.u32 q6,d28,d1[0]
				574	vshl.i64 d29,d25,#16
				575	vmlal.u32 q7,d28,d1[1]
				576	vadd.u64 d29,d29,d24
				577	vmlal.u32 q8,d28,d2[0]
				578	vmul.u32 d29,d29,d30
				579	vmlal.u32 q9,d28,d2[1]
				580	vst1.32 {d28},[r10,:64]! @ put aside smashed b[8*i+6]
				581	vmlal.u32 q10,d28,d3[0]
				582	vzip.16 d29,d8
				583	vmlal.u32 q11,d28,d3[1]
				584	vld1.32 {d28[0]},[r2,:32]! @ *b++
				585	vmlal.u32 q12,d29,d4[0]
				586	veor d10,d10,d10
				587	vmlal.u32 q13,d29,d4[1]
				588	vzip.16 d28,d10
				589	vmlal.u32 q6,d29,d5[0]
				590	vshr.u64 d24,d24,#16
				591	vmlal.u32 q7,d29,d5[1]
				592	vmlal.u32 q8,d29,d6[0]
				593	vadd.u64 d24,d24,d25
				594	vmlal.u32 q9,d29,d6[1]
				595	vshr.u64 d24,d24,#16
				596	vmlal.u32 q10,d29,d7[0]
				597	vmlal.u32 q11,d29,d7[1]
				598	vadd.u64 d26,d26,d24
				599	vst1.32 {d29},[r10,:64]! @ put aside smashed m[8*i+6]
				600	vmlal.u32 q13,d28,d0[0]
				601	vld1.64 {q12},[r6,:128]!
				602	vmlal.u32 q6,d28,d0[1]
				603	veor d8,d8,d8
				604	vmlal.u32 q7,d28,d1[0]
				605	vshl.i64 d29,d27,#16
				606	vmlal.u32 q8,d28,d1[1]
				607	vadd.u64 d29,d29,d26
				608	vmlal.u32 q9,d28,d2[0]
				609	vmul.u32 d29,d29,d30
				610	vmlal.u32 q10,d28,d2[1]
				611	vst1.32 {d28},[r10,:64]! @ put aside smashed b[8*i+7]
				612	vmlal.u32 q11,d28,d3[0]
				613	vzip.16 d29,d8
				614	vmlal.u32 q12,d28,d3[1]
				615	vld1.32 {d28},[sp,:64] @ pull smashed b[8*i+0]
				616	vmlal.u32 q13,d29,d4[0]
				617	vld1.32 {d0,d1,d2,d3},[r1]!
				618	vmlal.u32 q6,d29,d4[1]
				619	vmlal.u32 q7,d29,d5[0]
				620	vshr.u64 d26,d26,#16
				621	vmlal.u32 q8,d29,d5[1]
				622	vmlal.u32 q9,d29,d6[0]
				623	vadd.u64 d26,d26,d27
				624	vmlal.u32 q10,d29,d6[1]
				625	vshr.u64 d26,d26,#16
				626	vmlal.u32 q11,d29,d7[0]
				627	vmlal.u32 q12,d29,d7[1]
				628	vadd.u64 d12,d12,d26
				629	vst1.32 {d29},[r10,:64] @ put aside smashed m[8*i+7]
				630	add r10,sp,#8 @ rewind
				631	sub r8,r5,#8
				632	b LNEON_8n_inner
				633
				634	.align 4
				635	LNEON_8n_inner:
				636	subs r8,r8,#8
				637	vmlal.u32 q6,d28,d0[0]
				638	vld1.64 {q13},[r6,:128]
				639	vmlal.u32 q7,d28,d0[1]
				640	vld1.32 {d29},[r10,:64]! @ pull smashed m[8*i+0]
				641	vmlal.u32 q8,d28,d1[0]
				642	vld1.32 {d4,d5,d6,d7},[r3]!
				643	vmlal.u32 q9,d28,d1[1]
				644	it ne
				645	addne r6,r6,#16 @ don't advance in last iteration
				646	vmlal.u32 q10,d28,d2[0]
				647	vmlal.u32 q11,d28,d2[1]
				648	vmlal.u32 q12,d28,d3[0]
				649	vmlal.u32 q13,d28,d3[1]
				650	vld1.32 {d28},[r10,:64]! @ pull smashed b[8*i+1]
				651	vmlal.u32 q6,d29,d4[0]
				652	vmlal.u32 q7,d29,d4[1]
				653	vmlal.u32 q8,d29,d5[0]
				654	vmlal.u32 q9,d29,d5[1]
				655	vmlal.u32 q10,d29,d6[0]
				656	vmlal.u32 q11,d29,d6[1]
				657	vmlal.u32 q12,d29,d7[0]
				658	vmlal.u32 q13,d29,d7[1]
				659	vst1.64 {q6},[r7,:128]!
				660	vmlal.u32 q7,d28,d0[0]
				661	vld1.64 {q6},[r6,:128]
				662	vmlal.u32 q8,d28,d0[1]
				663	vld1.32 {d29},[r10,:64]! @ pull smashed m[8*i+1]
				664	vmlal.u32 q9,d28,d1[0]
				665	it ne
				666	addne r6,r6,#16 @ don't advance in last iteration
				667	vmlal.u32 q10,d28,d1[1]
				668	vmlal.u32 q11,d28,d2[0]
				669	vmlal.u32 q12,d28,d2[1]
				670	vmlal.u32 q13,d28,d3[0]
				671	vmlal.u32 q6,d28,d3[1]
				672	vld1.32 {d28},[r10,:64]! @ pull smashed b[8*i+2]
				673	vmlal.u32 q7,d29,d4[0]
				674	vmlal.u32 q8,d29,d4[1]
				675	vmlal.u32 q9,d29,d5[0]
				676	vmlal.u32 q10,d29,d5[1]
				677	vmlal.u32 q11,d29,d6[0]
				678	vmlal.u32 q12,d29,d6[1]
				679	vmlal.u32 q13,d29,d7[0]
				680	vmlal.u32 q6,d29,d7[1]
				681	vst1.64 {q7},[r7,:128]!
				682	vmlal.u32 q8,d28,d0[0]
				683	vld1.64 {q7},[r6,:128]
				684	vmlal.u32 q9,d28,d0[1]
				685	vld1.32 {d29},[r10,:64]! @ pull smashed m[8*i+2]
				686	vmlal.u32 q10,d28,d1[0]
				687	it ne
				688	addne r6,r6,#16 @ don't advance in last iteration
				689	vmlal.u32 q11,d28,d1[1]
				690	vmlal.u32 q12,d28,d2[0]
				691	vmlal.u32 q13,d28,d2[1]
				692	vmlal.u32 q6,d28,d3[0]
				693	vmlal.u32 q7,d28,d3[1]
				694	vld1.32 {d28},[r10,:64]! @ pull smashed b[8*i+3]
				695	vmlal.u32 q8,d29,d4[0]
				696	vmlal.u32 q9,d29,d4[1]
				697	vmlal.u32 q10,d29,d5[0]
				698	vmlal.u32 q11,d29,d5[1]
				699	vmlal.u32 q12,d29,d6[0]
				700	vmlal.u32 q13,d29,d6[1]
				701	vmlal.u32 q6,d29,d7[0]
				702	vmlal.u32 q7,d29,d7[1]
				703	vst1.64 {q8},[r7,:128]!
				704	vmlal.u32 q9,d28,d0[0]
				705	vld1.64 {q8},[r6,:128]
				706	vmlal.u32 q10,d28,d0[1]
				707	vld1.32 {d29},[r10,:64]! @ pull smashed m[8*i+3]
				708	vmlal.u32 q11,d28,d1[0]
				709	it ne
				710	addne r6,r6,#16 @ don't advance in last iteration
				711	vmlal.u32 q12,d28,d1[1]
				712	vmlal.u32 q13,d28,d2[0]
				713	vmlal.u32 q6,d28,d2[1]
				714	vmlal.u32 q7,d28,d3[0]
				715	vmlal.u32 q8,d28,d3[1]
				716	vld1.32 {d28},[r10,:64]! @ pull smashed b[8*i+4]
				717	vmlal.u32 q9,d29,d4[0]
				718	vmlal.u32 q10,d29,d4[1]
				719	vmlal.u32 q11,d29,d5[0]
				720	vmlal.u32 q12,d29,d5[1]
				721	vmlal.u32 q13,d29,d6[0]
				722	vmlal.u32 q6,d29,d6[1]
				723	vmlal.u32 q7,d29,d7[0]
				724	vmlal.u32 q8,d29,d7[1]
				725	vst1.64 {q9},[r7,:128]!
				726	vmlal.u32 q10,d28,d0[0]
				727	vld1.64 {q9},[r6,:128]
				728	vmlal.u32 q11,d28,d0[1]
				729	vld1.32 {d29},[r10,:64]! @ pull smashed m[8*i+4]
				730	vmlal.u32 q12,d28,d1[0]
				731	it ne
				732	addne r6,r6,#16 @ don't advance in last iteration
				733	vmlal.u32 q13,d28,d1[1]
				734	vmlal.u32 q6,d28,d2[0]
				735	vmlal.u32 q7,d28,d2[1]
				736	vmlal.u32 q8,d28,d3[0]
				737	vmlal.u32 q9,d28,d3[1]
				738	vld1.32 {d28},[r10,:64]! @ pull smashed b[8*i+5]
				739	vmlal.u32 q10,d29,d4[0]
				740	vmlal.u32 q11,d29,d4[1]
				741	vmlal.u32 q12,d29,d5[0]
				742	vmlal.u32 q13,d29,d5[1]
				743	vmlal.u32 q6,d29,d6[0]
				744	vmlal.u32 q7,d29,d6[1]
				745	vmlal.u32 q8,d29,d7[0]
				746	vmlal.u32 q9,d29,d7[1]
				747	vst1.64 {q10},[r7,:128]!
				748	vmlal.u32 q11,d28,d0[0]
				749	vld1.64 {q10},[r6,:128]
				750	vmlal.u32 q12,d28,d0[1]
				751	vld1.32 {d29},[r10,:64]! @ pull smashed m[8*i+5]
				752	vmlal.u32 q13,d28,d1[0]
				753	it ne
				754	addne r6,r6,#16 @ don't advance in last iteration
				755	vmlal.u32 q6,d28,d1[1]
				756	vmlal.u32 q7,d28,d2[0]
				757	vmlal.u32 q8,d28,d2[1]
				758	vmlal.u32 q9,d28,d3[0]
				759	vmlal.u32 q10,d28,d3[1]
				760	vld1.32 {d28},[r10,:64]! @ pull smashed b[8*i+6]
				761	vmlal.u32 q11,d29,d4[0]
				762	vmlal.u32 q12,d29,d4[1]
				763	vmlal.u32 q13,d29,d5[0]
				764	vmlal.u32 q6,d29,d5[1]
				765	vmlal.u32 q7,d29,d6[0]
				766	vmlal.u32 q8,d29,d6[1]
				767	vmlal.u32 q9,d29,d7[0]
				768	vmlal.u32 q10,d29,d7[1]
				769	vst1.64 {q11},[r7,:128]!
				770	vmlal.u32 q12,d28,d0[0]
				771	vld1.64 {q11},[r6,:128]
				772	vmlal.u32 q13,d28,d0[1]
				773	vld1.32 {d29},[r10,:64]! @ pull smashed m[8*i+6]
				774	vmlal.u32 q6,d28,d1[0]
				775	it ne
				776	addne r6,r6,#16 @ don't advance in last iteration
				777	vmlal.u32 q7,d28,d1[1]
				778	vmlal.u32 q8,d28,d2[0]
				779	vmlal.u32 q9,d28,d2[1]
				780	vmlal.u32 q10,d28,d3[0]
				781	vmlal.u32 q11,d28,d3[1]
				782	vld1.32 {d28},[r10,:64]! @ pull smashed b[8*i+7]
				783	vmlal.u32 q12,d29,d4[0]
				784	vmlal.u32 q13,d29,d4[1]
				785	vmlal.u32 q6,d29,d5[0]
				786	vmlal.u32 q7,d29,d5[1]
				787	vmlal.u32 q8,d29,d6[0]
				788	vmlal.u32 q9,d29,d6[1]
				789	vmlal.u32 q10,d29,d7[0]
				790	vmlal.u32 q11,d29,d7[1]
				791	vst1.64 {q12},[r7,:128]!
				792	vmlal.u32 q13,d28,d0[0]
				793	vld1.64 {q12},[r6,:128]
				794	vmlal.u32 q6,d28,d0[1]
				795	vld1.32 {d29},[r10,:64]! @ pull smashed m[8*i+7]
				796	vmlal.u32 q7,d28,d1[0]
				797	it ne
				798	addne r6,r6,#16 @ don't advance in last iteration
				799	vmlal.u32 q8,d28,d1[1]
				800	vmlal.u32 q9,d28,d2[0]
				801	vmlal.u32 q10,d28,d2[1]
				802	vmlal.u32 q11,d28,d3[0]
				803	vmlal.u32 q12,d28,d3[1]
				804	it eq
				805	subeq r1,r1,r5,lsl#2 @ rewind
				806	vmlal.u32 q13,d29,d4[0]
				807	vld1.32 {d28},[sp,:64] @ pull smashed b[8*i+0]
				808	vmlal.u32 q6,d29,d4[1]
				809	vld1.32 {d0,d1,d2,d3},[r1]!
				810	vmlal.u32 q7,d29,d5[0]
				811	add r10,sp,#8 @ rewind
				812	vmlal.u32 q8,d29,d5[1]
				813	vmlal.u32 q9,d29,d6[0]
				814	vmlal.u32 q10,d29,d6[1]
				815	vmlal.u32 q11,d29,d7[0]
				816	vst1.64 {q13},[r7,:128]!
				817	vmlal.u32 q12,d29,d7[1]
				818
				819	bne LNEON_8n_inner
				820	add r6,sp,#128
				821	vst1.64 {q6,q7},[r7,:256]!
				822	veor q2,q2,q2 @ d4-d5
				823	vst1.64 {q8,q9},[r7,:256]!
				824	veor q3,q3,q3 @ d6-d7
				825	vst1.64 {q10,q11},[r7,:256]!
				826	vst1.64 {q12},[r7,:128]
				827
				828	subs r9,r9,#8
				829	vld1.64 {q6,q7},[r6,:256]!
				830	vld1.64 {q8,q9},[r6,:256]!
				831	vld1.64 {q10,q11},[r6,:256]!
				832	vld1.64 {q12,q13},[r6,:256]!
				833
				834	itt ne
				835	subne r3,r3,r5,lsl#2 @ rewind
				836	bne LNEON_8n_outer
				837
				838	add r7,sp,#128
				839	vst1.64 {q2,q3}, [sp,:256]! @ start wiping stack frame
				840	vshr.u64 d10,d12,#16
				841	vst1.64 {q2,q3},[sp,:256]!
				842	vadd.u64 d13,d13,d10
				843	vst1.64 {q2,q3}, [sp,:256]!
				844	vshr.u64 d10,d13,#16
				845	vst1.64 {q2,q3}, [sp,:256]!
				846	vzip.16 d12,d13
				847
				848	mov r8,r5
				849	b LNEON_tail_entry
				850
				851	.align 4
				852	LNEON_tail:
				853	vadd.u64 d12,d12,d10
				854	vshr.u64 d10,d12,#16
				855	vld1.64 {q8,q9}, [r6, :256]!
				856	vadd.u64 d13,d13,d10
				857	vld1.64 {q10,q11}, [r6, :256]!
				858	vshr.u64 d10,d13,#16
				859	vld1.64 {q12,q13}, [r6, :256]!
				860	vzip.16 d12,d13
				861
				862	LNEON_tail_entry:
				863	vadd.u64 d14,d14,d10
				864	vst1.32 {d12[0]}, [r7, :32]!
				865	vshr.u64 d10,d14,#16
				866	vadd.u64 d15,d15,d10
				867	vshr.u64 d10,d15,#16
				868	vzip.16 d14,d15
				869	vadd.u64 d16,d16,d10
				870	vst1.32 {d14[0]}, [r7, :32]!
				871	vshr.u64 d10,d16,#16
				872	vadd.u64 d17,d17,d10
				873	vshr.u64 d10,d17,#16
				874	vzip.16 d16,d17
				875	vadd.u64 d18,d18,d10
				876	vst1.32 {d16[0]}, [r7, :32]!
				877	vshr.u64 d10,d18,#16
				878	vadd.u64 d19,d19,d10
				879	vshr.u64 d10,d19,#16
				880	vzip.16 d18,d19
				881	vadd.u64 d20,d20,d10
				882	vst1.32 {d18[0]}, [r7, :32]!
				883	vshr.u64 d10,d20,#16
				884	vadd.u64 d21,d21,d10
				885	vshr.u64 d10,d21,#16
				886	vzip.16 d20,d21
				887	vadd.u64 d22,d22,d10
				888	vst1.32 {d20[0]}, [r7, :32]!
				889	vshr.u64 d10,d22,#16
				890	vadd.u64 d23,d23,d10
				891	vshr.u64 d10,d23,#16
				892	vzip.16 d22,d23
				893	vadd.u64 d24,d24,d10
				894	vst1.32 {d22[0]}, [r7, :32]!
				895	vshr.u64 d10,d24,#16
				896	vadd.u64 d25,d25,d10
				897	vshr.u64 d10,d25,#16
				898	vzip.16 d24,d25
				899	vadd.u64 d26,d26,d10
				900	vst1.32 {d24[0]}, [r7, :32]!
				901	vshr.u64 d10,d26,#16
				902	vadd.u64 d27,d27,d10
				903	vshr.u64 d10,d27,#16
				904	vzip.16 d26,d27
				905	vld1.64 {q6,q7}, [r6, :256]!
				906	subs r8,r8,#8
				907	vst1.32 {d26[0]}, [r7, :32]!
				908	bne LNEON_tail
				909
				910	vst1.32 {d10[0]}, [r7, :32] @ top-most bit
				911	sub r3,r3,r5,lsl#2 @ rewind r3
				912	subs r1,sp,#0 @ clear carry flag
				913	add r2,sp,r5,lsl#2
				914
				915	LNEON_sub:
				916	ldmia r1!, {r4,r5,r6,r7}
				917	ldmia r3!, {r8,r9,r10,r11}
				918	sbcs r8, r4,r8
				919	sbcs r9, r5,r9
				920	sbcs r10,r6,r10
				921	sbcs r11,r7,r11
				922	teq r1,r2 @ preserves carry
				923	stmia r0!, {r8,r9,r10,r11}
				924	bne LNEON_sub
				925
				926	ldr r10, [r1] @ load top-most bit
				927	mov r11,sp
				928	veor q0,q0,q0
				929	sub r11,r2,r11 @ this is num*4
				930	veor q1,q1,q1
				931	mov r1,sp
				932	sub r0,r0,r11 @ rewind r0
				933	mov r3,r2 @ second 3/4th of frame
				934	sbcs r10,r10,#0 @ result is carry flag
				935
				936	LNEON_copy_n_zap:
				937	ldmia r1!, {r4,r5,r6,r7}
				938	ldmia r0, {r8,r9,r10,r11}
				939	it cc
				940	movcc r8, r4
				941	vst1.64 {q0,q1}, [r3,:256]! @ wipe
				942	itt cc
				943	movcc r9, r5
				944	movcc r10,r6
				945	vst1.64 {q0,q1}, [r3,:256]! @ wipe
				946	it cc
				947	movcc r11,r7
				948	ldmia r1, {r4,r5,r6,r7}
				949	stmia r0!, {r8,r9,r10,r11}
				950	sub r1,r1,#16
				951	ldmia r0, {r8,r9,r10,r11}
				952	it cc
				953	movcc r8, r4
				954	vst1.64 {q0,q1}, [r1,:256]! @ wipe
				955	itt cc
				956	movcc r9, r5
				957	movcc r10,r6
				958	vst1.64 {q0,q1}, [r3,:256]! @ wipe
				959	it cc
				960	movcc r11,r7
				961	teq r1,r2 @ preserves carry
				962	stmia r0!, {r8,r9,r10,r11}
				963	bne LNEON_copy_n_zap
				964
				965	mov sp,ip
				966	vldmia sp!,{d8,d9,d10,d11,d12,d13,d14,d15}
				967	ldmia sp!,{r4,r5,r6,r7,r8,r9,r10,r11}
				968	bx lr @ bx lr
				969
				970	#endif
				971	.byte 77,111,110,116,103,111,109,101,114,121,32,109,117,108,116,105,112,108,105,99,97,116,105,111,110,32,102,111,114,32,65,82,77,118,52,47,78,69,79,78,44,32,67,82,89,80,84,79,71,65,77,83,32,98,121,32,60,97,112,112,114,111,64,111,112,101,110,115,115,108,46,111,114,103,62,0
				972	.align 2
				973	.align 2
				974	#if __ARM_MAX_ARCH__>=7
				975	.comm _OPENSSL_armcap_P,4
				976	.non_lazy_symbol_pointer
				977	OPENSSL_armcap_P:
				978	.indirect_symbol _OPENSSL_armcap_P
				979	.long 0
				980	.private_extern _OPENSSL_armcap_P
				981	#endif
Robert Sloan	726e9d1	2018-09-11 11:45:04 -0700	[diff] [blame]	982	#endif // !OPENSSL_NO_ASM