Blame - arch/ia64/lib/ip_fast_csum.S - kernel/msm

blob: 1f86aeb2c9485bb70054280b103fa8280bbad3dc [file] [log] [blame]

Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1	/*
				2	* Optmized version of the ip_fast_csum() function
				3	* Used for calculating IP header checksum
				4	*
				5	* Return: 16bit checksum, complemented
				6	*
				7	* Inputs:
				8	* in0: address of buffer to checksum (char *)
				9	* in1: length of the buffer (int)
				10	*
Chen, Kenneth W	007d77d	2006-11-10 13:17:50 -0800	[diff] [blame]	11	* Copyright (C) 2002, 2006 Intel Corp.
				12	* Copyright (C) 2002, 2006 Ken Chen <kenneth.w.chen@intel.com>
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	13	*/
				14
				15	#include <asm/asmmacro.h>
				16
				17	/*
				18	* Since we know that most likely this function is called with buf aligned
				19	* on 4-byte boundary and 20 bytes in length, we can execution rather quickly
				20	* versus calling generic version of do_csum, which has lots of overhead in
				21	* handling various alignments and sizes. However, due to lack of constrains
				22	* put on the function input argument, cases with alignment not on 4-byte or
				23	* size not equal to 20 bytes will be handled by the generic do_csum function.
				24	*/
				25
				26	#define in0 r32
				27	#define in1 r33
Chen, Kenneth W	007d77d	2006-11-10 13:17:50 -0800	[diff] [blame]	28	#define in2 r34
				29	#define in3 r35
				30	#define in4 r36
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	31	#define ret0 r8
				32
				33	GLOBAL_ENTRY(ip_fast_csum)
				34	.prologue
				35	.body
				36	cmp.ne p6,p7=5,in1 // size other than 20 byte?
				37	and r14=3,in0 // is it aligned on 4-byte?
				38	add r15=4,in0 // second source pointer
				39	;;
				40	cmp.ne.or.andcm p6,p7=r14,r0
				41	;;
				42	(p7) ld4 r20=[in0],8
				43	(p7) ld4 r21=[r15],8
				44	(p6) br.spnt .generic
				45	;;
				46	ld4 r22=[in0],8
				47	ld4 r23=[r15],8
				48	;;
				49	ld4 r24=[in0]
				50	add r20=r20,r21
				51	add r22=r22,r23
				52	;;
				53	add r20=r20,r22
				54	;;
				55	add r20=r20,r24
				56	;;
				57	shr.u ret0=r20,16 // now need to add the carry
				58	zxt2 r20=r20
				59	;;
				60	add r20=ret0,r20
				61	;;
				62	shr.u ret0=r20,16 // add carry again
				63	zxt2 r20=r20
				64	;;
				65	add r20=ret0,r20
				66	;;
				67	shr.u ret0=r20,16
				68	zxt2 r20=r20
				69	;;
				70	add r20=ret0,r20
Chen, Kenneth W	6dbfc19b	2006-11-08 16:29:25 -0800	[diff] [blame]	71	mov r9=0xffff
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	72	;;
Chen, Kenneth W	6dbfc19b	2006-11-08 16:29:25 -0800	[diff] [blame]	73	andcm ret0=r9,r20
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	74	.restore sp // reset frame state
				75	br.ret.sptk.many b0
				76	;;
				77
				78	.generic:
				79	.prologue
				80	.save ar.pfs, r35
				81	alloc r35=ar.pfs,2,2,2,0
				82	.save rp, r34
				83	mov r34=b0
				84	.body
				85	dep.z out1=in1,2,30
				86	mov out0=in0
				87	;;
				88	br.call.sptk.many b0=do_csum
				89	;;
				90	andcm ret0=-1,ret0
				91	mov ar.pfs=r35
				92	mov b0=r34
				93	br.ret.sptk.many b0
				94	END(ip_fast_csum)
Chen, Kenneth W	007d77d	2006-11-10 13:17:50 -0800	[diff] [blame]	95
				96	GLOBAL_ENTRY(csum_ipv6_magic)
				97	ld4 r20=[in0],4
				98	ld4 r21=[in1],4
				99	dep r15=in3,in2,32,16
				100	;;
				101	ld4 r22=[in0],4
				102	ld4 r23=[in1],4
				103	mux1 r15=r15,@rev
				104	;;
				105	ld4 r24=[in0],4
				106	ld4 r25=[in1],4
				107	shr.u r15=r15,16
				108	add r16=r20,r21
				109	add r17=r22,r23
				110	;;
				111	ld4 r26=[in0],4
				112	ld4 r27=[in1],4
				113	add r18=r24,r25
				114	add r8=r16,r17
				115	;;
				116	add r19=r26,r27
				117	add r8=r8,r18
				118	;;
				119	add r8=r8,r19
				120	add r15=r15,in4
				121	;;
				122	add r8=r8,r15
				123	;;
				124	shr.u r10=r8,32 // now fold sum into short
				125	zxt4 r11=r8
				126	;;
				127	add r8=r10,r11
				128	;;
				129	shr.u r10=r8,16 // yeah, keep it rolling
				130	zxt2 r11=r8
				131	;;
				132	add r8=r10,r11
				133	;;
				134	shr.u r10=r8,16 // three times lucky
				135	zxt2 r11=r8
				136	;;
				137	add r8=r10,r11
				138	mov r9=0xffff
				139	;;
				140	andcm r8=r9,r8
				141	br.ret.sptk.many b0
				142	END(csum_ipv6_magic)