Blame - arch/ia64/lib/memcpy_mck.S - kernel/msm-4.9

blob: 46c9331e7ab5f81181b5e19745c154a80c4b852e [file] [log] [blame]

Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	1	/*
				2	* Itanium 2-optimized version of memcpy and copy_user function
				3	*
				4	* Inputs:
				5	* in0: destination address
				6	* in1: source address
				7	* in2: number of bytes to copy
				8	* Output:
				9	* 0 if success, or number of byte NOT copied if error occurred.
				10	*
				11	* Copyright (C) 2002 Intel Corp.
				12	* Copyright (C) 2002 Ken Chen <kenneth.w.chen@intel.com>
				13	*/
				14	#include <linux/config.h>
				15	#include <asm/asmmacro.h>
				16	#include <asm/page.h>
				17
				18	#define EK(y...) EX(y)
				19
				20	/* McKinley specific optimization */
				21
				22	#define retval r8
				23	#define saved_pfs r31
				24	#define saved_lc r10
				25	#define saved_pr r11
				26	#define saved_in0 r14
				27	#define saved_in1 r15
				28	#define saved_in2 r16
				29
				30	#define src0 r2
				31	#define src1 r3
				32	#define dst0 r17
				33	#define dst1 r18
				34	#define cnt r9
				35
				36	/* r19-r30 are temp for each code section */
				37	#define PREFETCH_DIST 8
				38	#define src_pre_mem r19
				39	#define dst_pre_mem r20
				40	#define src_pre_l2 r21
				41	#define dst_pre_l2 r22
				42	#define t1 r23
				43	#define t2 r24
				44	#define t3 r25
				45	#define t4 r26
				46	#define t5 t1 // alias!
				47	#define t6 t2 // alias!
				48	#define t7 t3 // alias!
				49	#define n8 r27
				50	#define t9 t5 // alias!
				51	#define t10 t4 // alias!
				52	#define t11 t7 // alias!
				53	#define t12 t6 // alias!
				54	#define t14 t10 // alias!
				55	#define t13 r28
				56	#define t15 r29
				57	#define tmp r30
				58
				59	/* defines for long_copy block */
				60	#define A 0
				61	#define B (PREFETCH_DIST)
				62	#define C (B + PREFETCH_DIST)
				63	#define D (C + 1)
				64	#define N (D + 1)
				65	#define Nrot ((N + 7) & ~7)
				66
				67	/* alias */
				68	#define in0 r32
				69	#define in1 r33
				70	#define in2 r34
				71
				72	GLOBAL_ENTRY(memcpy)
				73	and r28=0x7,in0
				74	and r29=0x7,in1
				75	mov f6=f0
				76	br.cond.sptk .common_code
				77	;;
Andreas Schwab	512f642	2005-04-26 23:00:00 -0700	[diff] [blame]	78	END(memcpy)
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	79	GLOBAL_ENTRY(__copy_user)
				80	.prologue
				81	// check dest alignment
				82	and r28=0x7,in0
				83	and r29=0x7,in1
				84	mov f6=f1
				85	mov saved_in0=in0 // save dest pointer
				86	mov saved_in1=in1 // save src pointer
				87	mov saved_in2=in2 // save len
				88	;;
				89	.common_code:
				90	cmp.gt p15,p0=8,in2 // check for small size
				91	cmp.ne p13,p0=0,r28 // check dest alignment
				92	cmp.ne p14,p0=0,r29 // check src alignment
				93	add src0=0,in1
				94	sub r30=8,r28 // for .align_dest
				95	mov retval=r0 // initialize return value
				96	;;
				97	add dst0=0,in0
				98	add dst1=1,in0 // dest odd index
				99	cmp.le p6,p0 = 1,r30 // for .align_dest
				100	(p15) br.cond.dpnt .memcpy_short
				101	(p13) br.cond.dpnt .align_dest
				102	(p14) br.cond.dpnt .unaligned_src
				103	;;
				104
				105	// both dest and src are aligned on 8-byte boundary
				106	.aligned_src:
				107	.save ar.pfs, saved_pfs
				108	alloc saved_pfs=ar.pfs,3,Nrot-3,0,Nrot
				109	.save pr, saved_pr
				110	mov saved_pr=pr
				111
				112	shr.u cnt=in2,7 // this much cache line
				113	;;
				114	cmp.lt p6,p0=2*PREFETCH_DIST,cnt
				115	cmp.lt p7,p8=1,cnt
				116	.save ar.lc, saved_lc
				117	mov saved_lc=ar.lc
				118	.body
				119	add cnt=-1,cnt
				120	add src_pre_mem=0,in1 // prefetch src pointer
				121	add dst_pre_mem=0,in0 // prefetch dest pointer
				122	;;
				123	(p7) mov ar.lc=cnt // prefetch count
				124	(p8) mov ar.lc=r0
				125	(p6) br.cond.dpnt .long_copy
				126	;;
				127
				128	.prefetch:
				129	lfetch.fault [src_pre_mem], 128
				130	lfetch.fault.excl [dst_pre_mem], 128
				131	br.cloop.dptk.few .prefetch
				132	;;
				133
				134	.medium_copy:
				135	and tmp=31,in2 // copy length after iteration
				136	shr.u r29=in2,5 // number of 32-byte iteration
				137	add dst1=8,dst0 // 2nd dest pointer
				138	;;
				139	add cnt=-1,r29 // ctop iteration adjustment
				140	cmp.eq p10,p0=r29,r0 // do we really need to loop?
				141	add src1=8,src0 // 2nd src pointer
				142	cmp.le p6,p0=8,tmp
				143	;;
				144	cmp.le p7,p0=16,tmp
				145	mov ar.lc=cnt // loop setup
				146	cmp.eq p16,p17 = r0,r0
				147	mov ar.ec=2
				148	(p10) br.dpnt.few .aligned_src_tail
				149	;;
				150	TEXT_ALIGN(32)
				151	1:
				152	EX(.ex_handler, (p16) ld8 r34=[src0],16)
				153	EK(.ex_handler, (p16) ld8 r38=[src1],16)
				154	EX(.ex_handler, (p17) st8 [dst0]=r33,16)
				155	EK(.ex_handler, (p17) st8 [dst1]=r37,16)
				156	;;
				157	EX(.ex_handler, (p16) ld8 r32=[src0],16)
				158	EK(.ex_handler, (p16) ld8 r36=[src1],16)
				159	EX(.ex_handler, (p16) st8 [dst0]=r34,16)
				160	EK(.ex_handler, (p16) st8 [dst1]=r38,16)
				161	br.ctop.dptk.few 1b
				162	;;
				163
				164	.aligned_src_tail:
				165	EX(.ex_handler, (p6) ld8 t1=[src0])
				166	mov ar.lc=saved_lc
				167	mov ar.pfs=saved_pfs
				168	EX(.ex_hndlr_s, (p7) ld8 t2=[src1],8)
				169	cmp.le p8,p0=24,tmp
				170	and r21=-8,tmp
				171	;;
				172	EX(.ex_hndlr_s, (p8) ld8 t3=[src1])
				173	EX(.ex_handler, (p6) st8 [dst0]=t1) // store byte 1
				174	and in2=7,tmp // remaining length
				175	EX(.ex_hndlr_d, (p7) st8 [dst1]=t2,8) // store byte 2
				176	add src0=src0,r21 // setting up src pointer
				177	add dst0=dst0,r21 // setting up dest pointer
				178	;;
				179	EX(.ex_handler, (p8) st8 [dst1]=t3) // store byte 3
				180	mov pr=saved_pr,-1
				181	br.dptk.many .memcpy_short
				182	;;
				183
				184	/* code taken from copy_page_mck */
				185	.long_copy:
				186	.rotr v[2*PREFETCH_DIST]
				187	.rotp p[N]
				188
				189	mov src_pre_mem = src0
				190	mov pr.rot = 0x10000
				191	mov ar.ec = 1 // special unrolled loop
				192
				193	mov dst_pre_mem = dst0
				194
				195	add src_pre_l2 = 8*8, src0
				196	add dst_pre_l2 = 8*8, dst0
				197	;;
				198	add src0 = 8, src_pre_mem // first t1 src
				199	mov ar.lc = 2*PREFETCH_DIST - 1
				200	shr.u cnt=in2,7 // number of lines
				201	add src1 = 3*8, src_pre_mem // first t3 src
				202	add dst0 = 8, dst_pre_mem // first t1 dst
				203	add dst1 = 3*8, dst_pre_mem // first t3 dst
				204	;;
				205	and tmp=127,in2 // remaining bytes after this block
				206	add cnt = -(2*PREFETCH_DIST) - 1, cnt
				207	// same as .line_copy loop, but with all predicated-off instructions removed:
				208	.prefetch_loop:
				209	EX(.ex_hndlr_lcpy_1, (p[A]) ld8 v[A] = [src_pre_mem], 128) // M0
				210	EK(.ex_hndlr_lcpy_1, (p[B]) st8 [dst_pre_mem] = v[B], 128) // M2
				211	br.ctop.sptk .prefetch_loop
				212	;;
				213	cmp.eq p16, p0 = r0, r0 // reset p16 to 1
				214	mov ar.lc = cnt
				215	mov ar.ec = N // # of stages in pipeline
				216	;;
				217	.line_copy:
				218	EX(.ex_handler, (p[D]) ld8 t2 = [src0], 3*8) // M0
				219	EK(.ex_handler, (p[D]) ld8 t4 = [src1], 3*8) // M1
				220	EX(.ex_handler_lcpy, (p[B]) st8 [dst_pre_mem] = v[B], 128) // M2 prefetch dst from memory
				221	EK(.ex_handler_lcpy, (p[D]) st8 [dst_pre_l2] = n8, 128) // M3 prefetch dst from L2
				222	;;
				223	EX(.ex_handler_lcpy, (p[A]) ld8 v[A] = [src_pre_mem], 128) // M0 prefetch src from memory
				224	EK(.ex_handler_lcpy, (p[C]) ld8 n8 = [src_pre_l2], 128) // M1 prefetch src from L2
				225	EX(.ex_handler, (p[D]) st8 [dst0] = t1, 8) // M2
				226	EK(.ex_handler, (p[D]) st8 [dst1] = t3, 8) // M3
				227	;;
				228	EX(.ex_handler, (p[D]) ld8 t5 = [src0], 8)
				229	EK(.ex_handler, (p[D]) ld8 t7 = [src1], 3*8)
				230	EX(.ex_handler, (p[D]) st8 [dst0] = t2, 3*8)
				231	EK(.ex_handler, (p[D]) st8 [dst1] = t4, 3*8)
				232	;;
				233	EX(.ex_handler, (p[D]) ld8 t6 = [src0], 3*8)
				234	EK(.ex_handler, (p[D]) ld8 t10 = [src1], 8)
				235	EX(.ex_handler, (p[D]) st8 [dst0] = t5, 8)
				236	EK(.ex_handler, (p[D]) st8 [dst1] = t7, 3*8)
				237	;;
				238	EX(.ex_handler, (p[D]) ld8 t9 = [src0], 3*8)
				239	EK(.ex_handler, (p[D]) ld8 t11 = [src1], 3*8)
				240	EX(.ex_handler, (p[D]) st8 [dst0] = t6, 3*8)
				241	EK(.ex_handler, (p[D]) st8 [dst1] = t10, 8)
				242	;;
				243	EX(.ex_handler, (p[D]) ld8 t12 = [src0], 8)
				244	EK(.ex_handler, (p[D]) ld8 t14 = [src1], 8)
				245	EX(.ex_handler, (p[D]) st8 [dst0] = t9, 3*8)
				246	EK(.ex_handler, (p[D]) st8 [dst1] = t11, 3*8)
				247	;;
				248	EX(.ex_handler, (p[D]) ld8 t13 = [src0], 4*8)
				249	EK(.ex_handler, (p[D]) ld8 t15 = [src1], 4*8)
				250	EX(.ex_handler, (p[D]) st8 [dst0] = t12, 8)
				251	EK(.ex_handler, (p[D]) st8 [dst1] = t14, 8)
				252	;;
				253	EX(.ex_handler, (p[C]) ld8 t1 = [src0], 8)
				254	EK(.ex_handler, (p[C]) ld8 t3 = [src1], 8)
				255	EX(.ex_handler, (p[D]) st8 [dst0] = t13, 4*8)
				256	EK(.ex_handler, (p[D]) st8 [dst1] = t15, 4*8)
				257	br.ctop.sptk .line_copy
				258	;;
				259
				260	add dst0=-8,dst0
				261	add src0=-8,src0
				262	mov in2=tmp
				263	.restore sp
				264	br.sptk.many .medium_copy
				265	;;
				266
				267	#define BLOCK_SIZE 128*32
				268	#define blocksize r23
				269	#define curlen r24
				270
				271	// dest is on 8-byte boundary, src is not. We need to do
				272	// ld8-ld8, shrp, then st8. Max 8 byte copy per cycle.
				273	.unaligned_src:
				274	.prologue
				275	.save ar.pfs, saved_pfs
				276	alloc saved_pfs=ar.pfs,3,5,0,8
				277	.save ar.lc, saved_lc
				278	mov saved_lc=ar.lc
				279	.save pr, saved_pr
				280	mov saved_pr=pr
				281	.body
				282	.4k_block:
				283	mov saved_in0=dst0 // need to save all input arguments
				284	mov saved_in2=in2
				285	mov blocksize=BLOCK_SIZE
				286	;;
				287	cmp.lt p6,p7=blocksize,in2
				288	mov saved_in1=src0
				289	;;
				290	(p6) mov in2=blocksize
				291	;;
				292	shr.u r21=in2,7 // this much cache line
				293	shr.u r22=in2,4 // number of 16-byte iteration
				294	and curlen=15,in2 // copy length after iteration
				295	and r30=7,src0 // source alignment
				296	;;
				297	cmp.lt p7,p8=1,r21
				298	add cnt=-1,r21
				299	;;
				300
				301	add src_pre_mem=0,src0 // prefetch src pointer
				302	add dst_pre_mem=0,dst0 // prefetch dest pointer
				303	and src0=-8,src0 // 1st src pointer
Keith Owens	6118ec8	2005-04-25 13:23:47 -0700	[diff] [blame]	304	(p7) mov ar.lc = cnt
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	305	(p8) mov ar.lc = r0
				306	;;
				307	TEXT_ALIGN(32)
				308	1: lfetch.fault [src_pre_mem], 128
				309	lfetch.fault.excl [dst_pre_mem], 128
				310	br.cloop.dptk.few 1b
				311	;;
				312
				313	shladd dst1=r22,3,dst0 // 2nd dest pointer
				314	shladd src1=r22,3,src0 // 2nd src pointer
				315	cmp.eq p8,p9=r22,r0 // do we really need to loop?
				316	cmp.le p6,p7=8,curlen; // have at least 8 byte remaining?
				317	add cnt=-1,r22 // ctop iteration adjustment
				318	;;
				319	EX(.ex_handler, (p9) ld8 r33=[src0],8) // loop primer
				320	EK(.ex_handler, (p9) ld8 r37=[src1],8)
				321	(p8) br.dpnt.few .noloop
				322	;;
				323
				324	// The jump address is calculated based on src alignment. The COPYU
				325	// macro below need to confine its size to power of two, so an entry
				326	// can be caulated using shl instead of an expensive multiply. The
				327	// size is then hard coded by the following #define to match the
				328	// actual size. This make it somewhat tedious when COPYU macro gets
				329	// changed and this need to be adjusted to match.
				330	#define LOOP_SIZE 6
				331	1:
				332	mov r29=ip // jmp_table thread
				333	mov ar.lc=cnt
				334	;;
				335	add r29=.jump_table - 1b - (.jmp1-.jump_table), r29
				336	shl r28=r30, LOOP_SIZE // jmp_table thread
				337	mov ar.ec=2 // loop setup
				338	;;
				339	add r29=r29,r28 // jmp_table thread
				340	cmp.eq p16,p17=r0,r0
				341	;;
				342	mov b6=r29 // jmp_table thread
				343	;;
				344	br.cond.sptk.few b6
				345
				346	// for 8-15 byte case
				347	// We will skip the loop, but need to replicate the side effect
				348	// that the loop produces.
				349	.noloop:
				350	EX(.ex_handler, (p6) ld8 r37=[src1],8)
				351	add src0=8,src0
				352	(p6) shl r25=r30,3
				353	;;
				354	EX(.ex_handler, (p6) ld8 r27=[src1])
				355	(p6) shr.u r28=r37,r25
				356	(p6) sub r26=64,r25
				357	;;
				358	(p6) shl r27=r27,r26
				359	;;
				360	(p6) or r21=r28,r27
				361
				362	.unaligned_src_tail:
				363	/* check if we have more than blocksize to copy, if so go back */
				364	cmp.gt p8,p0=saved_in2,blocksize
				365	;;
				366	(p8) add dst0=saved_in0,blocksize
				367	(p8) add src0=saved_in1,blocksize
				368	(p8) sub in2=saved_in2,blocksize
				369	(p8) br.dpnt .4k_block
				370	;;
				371
				372	/* we have up to 15 byte to copy in the tail.
				373	* part of work is already done in the jump table code
				374	* we are at the following state.
				375	* src side:
				376	*
				377	* xxxxxx xx <----- r21 has xxxxxxxx already
				378	* -------- -------- --------
				379	* 0 8 16
				380	* ^
				381	* \|
				382	* src1
				383	*
				384	* dst
				385	* -------- -------- --------
				386	* ^
				387	* \|
				388	* dst1
				389	*/
				390	EX(.ex_handler, (p6) st8 [dst1]=r21,8) // more than 8 byte to copy
				391	(p6) add curlen=-8,curlen // update length
				392	mov ar.pfs=saved_pfs
				393	;;
				394	mov ar.lc=saved_lc
				395	mov pr=saved_pr,-1
				396	mov in2=curlen // remaining length
				397	mov dst0=dst1 // dest pointer
				398	add src0=src1,r30 // forward by src alignment
				399	;;
				400
				401	// 7 byte or smaller.
				402	.memcpy_short:
				403	cmp.le p8,p9 = 1,in2
				404	cmp.le p10,p11 = 2,in2
				405	cmp.le p12,p13 = 3,in2
				406	cmp.le p14,p15 = 4,in2
				407	add src1=1,src0 // second src pointer
				408	add dst1=1,dst0 // second dest pointer
				409	;;
				410
				411	EX(.ex_handler_short, (p8) ld1 t1=[src0],2)
				412	EK(.ex_handler_short, (p10) ld1 t2=[src1],2)
				413	(p9) br.ret.dpnt rp // 0 byte copy
				414	;;
				415
				416	EX(.ex_handler_short, (p8) st1 [dst0]=t1,2)
				417	EK(.ex_handler_short, (p10) st1 [dst1]=t2,2)
				418	(p11) br.ret.dpnt rp // 1 byte copy
				419
				420	EX(.ex_handler_short, (p12) ld1 t3=[src0],2)
				421	EK(.ex_handler_short, (p14) ld1 t4=[src1],2)
				422	(p13) br.ret.dpnt rp // 2 byte copy
				423	;;
				424
				425	cmp.le p6,p7 = 5,in2
				426	cmp.le p8,p9 = 6,in2
				427	cmp.le p10,p11 = 7,in2
				428
				429	EX(.ex_handler_short, (p12) st1 [dst0]=t3,2)
				430	EK(.ex_handler_short, (p14) st1 [dst1]=t4,2)
				431	(p15) br.ret.dpnt rp // 3 byte copy
				432	;;
				433
				434	EX(.ex_handler_short, (p6) ld1 t5=[src0],2)
				435	EK(.ex_handler_short, (p8) ld1 t6=[src1],2)
				436	(p7) br.ret.dpnt rp // 4 byte copy
				437	;;
				438
				439	EX(.ex_handler_short, (p6) st1 [dst0]=t5,2)
				440	EK(.ex_handler_short, (p8) st1 [dst1]=t6,2)
				441	(p9) br.ret.dptk rp // 5 byte copy
				442
				443	EX(.ex_handler_short, (p10) ld1 t7=[src0],2)
				444	(p11) br.ret.dptk rp // 6 byte copy
				445	;;
				446
				447	EX(.ex_handler_short, (p10) st1 [dst0]=t7,2)
				448	br.ret.dptk rp // done all cases
				449
				450
				451	/* Align dest to nearest 8-byte boundary. We know we have at
				452	* least 7 bytes to copy, enough to crawl to 8-byte boundary.
				453	* Actual number of byte to crawl depend on the dest alignment.
				454	* 7 byte or less is taken care at .memcpy_short
				455
				456	* src0 - source even index
				457	* src1 - source odd index
				458	* dst0 - dest even index
				459	* dst1 - dest odd index
				460	* r30 - distance to 8-byte boundary
				461	*/
				462
				463	.align_dest:
				464	add src1=1,in1 // source odd index
				465	cmp.le p7,p0 = 2,r30 // for .align_dest
				466	cmp.le p8,p0 = 3,r30 // for .align_dest
				467	EX(.ex_handler_short, (p6) ld1 t1=[src0],2)
				468	cmp.le p9,p0 = 4,r30 // for .align_dest
				469	cmp.le p10,p0 = 5,r30
				470	;;
				471	EX(.ex_handler_short, (p7) ld1 t2=[src1],2)
				472	EK(.ex_handler_short, (p8) ld1 t3=[src0],2)
				473	cmp.le p11,p0 = 6,r30
				474	EX(.ex_handler_short, (p6) st1 [dst0] = t1,2)
				475	cmp.le p12,p0 = 7,r30
				476	;;
				477	EX(.ex_handler_short, (p9) ld1 t4=[src1],2)
				478	EK(.ex_handler_short, (p10) ld1 t5=[src0],2)
				479	EX(.ex_handler_short, (p7) st1 [dst1] = t2,2)
				480	EK(.ex_handler_short, (p8) st1 [dst0] = t3,2)
				481	;;
				482	EX(.ex_handler_short, (p11) ld1 t6=[src1],2)
				483	EK(.ex_handler_short, (p12) ld1 t7=[src0],2)
				484	cmp.eq p6,p7=r28,r29
				485	EX(.ex_handler_short, (p9) st1 [dst1] = t4,2)
				486	EK(.ex_handler_short, (p10) st1 [dst0] = t5,2)
				487	sub in2=in2,r30
				488	;;
				489	EX(.ex_handler_short, (p11) st1 [dst1] = t6,2)
				490	EK(.ex_handler_short, (p12) st1 [dst0] = t7)
				491	add dst0=in0,r30 // setup arguments
				492	add src0=in1,r30
				493	(p6) br.cond.dptk .aligned_src
				494	(p7) br.cond.dpnt .unaligned_src
				495	;;
				496
				497	/* main loop body in jump table format */
				498	#define COPYU(shift) \
				499	1: \
				500	EX(.ex_handler, (p16) ld8 r32=[src0],8); /* 1 */ \
				501	EK(.ex_handler, (p16) ld8 r36=[src1],8); \
				502	(p17) shrp r35=r33,r34,shift;; /* 1 */ \
				503	EX(.ex_handler, (p6) ld8 r22=[src1]); /* common, prime for tail section */ \
				504	nop.m 0; \
				505	(p16) shrp r38=r36,r37,shift; \
				506	EX(.ex_handler, (p17) st8 [dst0]=r35,8); /* 1 */ \
				507	EK(.ex_handler, (p17) st8 [dst1]=r39,8); \
				508	br.ctop.dptk.few 1b;; \
				509	(p7) add src1=-8,src1; /* back out for <8 byte case */ \
				510	shrp r21=r22,r38,shift; /* speculative work */ \
				511	br.sptk.few .unaligned_src_tail /* branch out of jump table */ \
				512	;;
				513	TEXT_ALIGN(32)
				514	.jump_table:
				515	COPYU(8) // unaligned cases
				516	.jmp1:
				517	COPYU(16)
				518	COPYU(24)
				519	COPYU(32)
				520	COPYU(40)
				521	COPYU(48)
				522	COPYU(56)
				523
				524	#undef A
				525	#undef B
				526	#undef C
				527	#undef D
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	528
				529	/*
				530	* Due to lack of local tag support in gcc 2.x assembler, it is not clear which
				531	* instruction failed in the bundle. The exception algorithm is that we
				532	* first figure out the faulting address, then detect if there is any
				533	* progress made on the copy, if so, redo the copy from last known copied
				534	* location up to the faulting address (exclusive). In the copy_from_user
				535	* case, remaining byte in kernel buffer will be zeroed.
				536	*
				537	* Take copy_from_user as an example, in the code there are multiple loads
				538	* in a bundle and those multiple loads could span over two pages, the
				539	* faulting address is calculated as page_round_down(max(src0, src1)).
				540	* This is based on knowledge that if we can access one byte in a page, we
				541	* can access any byte in that page.
				542	*
				543	* predicate used in the exception handler:
				544	* p6-p7: direction
				545	* p10-p11: src faulting addr calculation
				546	* p12-p13: dst faulting addr calculation
				547	*/
				548
				549	#define A r19
				550	#define B r20
				551	#define C r21
				552	#define D r22
				553	#define F r28
				554
				555	#define memset_arg0 r32
				556	#define memset_arg2 r33
				557
				558	#define saved_retval loc0
				559	#define saved_rtlink loc1
				560	#define saved_pfs_stack loc2
				561
				562	.ex_hndlr_s:
				563	add src0=8,src0
				564	br.sptk .ex_handler
				565	;;
				566	.ex_hndlr_d:
				567	add dst0=8,dst0
				568	br.sptk .ex_handler
				569	;;
				570	.ex_hndlr_lcpy_1:
				571	mov src1=src_pre_mem
				572	mov dst1=dst_pre_mem
				573	cmp.gtu p10,p11=src_pre_mem,saved_in1
				574	cmp.gtu p12,p13=dst_pre_mem,saved_in0
				575	;;
				576	(p10) add src0=8,saved_in1
				577	(p11) mov src0=saved_in1
				578	(p12) add dst0=8,saved_in0
				579	(p13) mov dst0=saved_in0
				580	br.sptk .ex_handler
				581	.ex_handler_lcpy:
				582	// in line_copy block, the preload addresses should always ahead
				583	// of the other two src/dst pointers. Furthermore, src1/dst1 should
				584	// always ahead of src0/dst0.
				585	mov src1=src_pre_mem
				586	mov dst1=dst_pre_mem
				587	.ex_handler:
				588	mov pr=saved_pr,-1 // first restore pr, lc, and pfs
				589	mov ar.lc=saved_lc
				590	mov ar.pfs=saved_pfs
				591	;;
				592	.ex_handler_short: // fault occurred in these sections didn't change pr, lc, pfs
				593	cmp.ltu p6,p7=saved_in0, saved_in1 // get the copy direction
				594	cmp.ltu p10,p11=src0,src1
				595	cmp.ltu p12,p13=dst0,dst1
				596	fcmp.eq p8,p0=f6,f0 // is it memcpy?
				597	mov tmp = dst0
				598	;;
				599	(p11) mov src1 = src0 // pick the larger of the two
				600	(p13) mov dst0 = dst1 // make dst0 the smaller one
				601	(p13) mov dst1 = tmp // and dst1 the larger one
				602	;;
				603	(p6) dep F = r0,dst1,0,PAGE_SHIFT // usr dst round down to page boundary
				604	(p7) dep F = r0,src1,0,PAGE_SHIFT // usr src round down to page boundary
				605	;;
				606	(p6) cmp.le p14,p0=dst0,saved_in0 // no progress has been made on store
				607	(p7) cmp.le p14,p0=src0,saved_in1 // no progress has been made on load
				608	mov retval=saved_in2
				609	(p8) ld1 tmp=[src1] // force an oops for memcpy call
				610	(p8) st1 [dst1]=r0 // force an oops for memcpy call
				611	(p14) br.ret.sptk.many rp
				612
				613	/*
				614	* The remaining byte to copy is calculated as:
				615	*
				616	* A = (faulting_addr - orig_src) -> len to faulting ld address
				617	* or
				618	* (faulting_addr - orig_dst) -> len to faulting st address
				619	* B = (cur_dst - orig_dst) -> len copied so far
				620	* C = A - B -> len need to be copied
				621	* D = orig_len - A -> len need to be zeroed
				622	*/
				623	(p6) sub A = F, saved_in0
				624	(p7) sub A = F, saved_in1
				625	clrrrb
				626	;;
				627	alloc saved_pfs_stack=ar.pfs,3,3,3,0
Chen, Kenneth W	295bd89	2005-09-06 16:05:23 -0700	[diff] [blame]	628	cmp.lt p8,p0=A,r0
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	629	sub B = dst0, saved_in0 // how many byte copied so far
				630	;;
Chen, Kenneth W	295bd89	2005-09-06 16:05:23 -0700	[diff] [blame]	631	(p8) mov A = 0; // A shouldn't be negative, cap it
				632	;;
Linus Torvalds	1da177e	2005-04-16 15:20:36 -0700	[diff] [blame]	633	sub C = A, B
				634	sub D = saved_in2, A
				635	;;
				636	cmp.gt p8,p0=C,r0 // more than 1 byte?
				637	add memset_arg0=saved_in0, A
				638	(p6) mov memset_arg2=0 // copy_to_user should not call memset
				639	(p7) mov memset_arg2=D // copy_from_user need to have kbuf zeroed
				640	mov r8=0
				641	mov saved_retval = D
				642	mov saved_rtlink = b0
				643
				644	add out0=saved_in0, B
				645	add out1=saved_in1, B
				646	mov out2=C
				647	(p8) br.call.sptk.few b0=__copy_user // recursive call
				648	;;
				649
				650	add saved_retval=saved_retval,r8 // above might return non-zero value
				651	cmp.gt p8,p0=memset_arg2,r0 // more than 1 byte?
				652	mov out0=memset_arg0 // *s
				653	mov out1=r0 // c
				654	mov out2=memset_arg2 // n
				655	(p8) br.call.sptk.few b0=memset
				656	;;
				657
				658	mov retval=saved_retval
				659	mov ar.pfs=saved_pfs_stack
				660	mov b0=saved_rtlink
				661	br.ret.sptk.many rp
				662
				663	/* end of McKinley specific optimization */
				664	END(__copy_user)