| /* NG4memset.S: Niagara-4 optimized memset/bzero. |
| * |
| * Copyright (C) 2012 David S. Miller (davem@davemloft.net) |
| */ |
| |
| #include <asm/asi.h> |
| |
| .register %g2, #scratch |
| .register %g3, #scratch |
| |
| .text |
| .align 32 |
| .globl NG4memset |
| NG4memset: |
| andcc %o1, 0xff, %o4 |
| be,pt %icc, 1f |
| mov %o2, %o1 |
| sllx %o4, 8, %g1 |
| or %g1, %o4, %o2 |
| sllx %o2, 16, %g1 |
| or %g1, %o2, %o2 |
| sllx %o2, 32, %g1 |
| ba,pt %icc, 1f |
| or %g1, %o2, %o4 |
| .size NG4memset,.-NG4memset |
| |
| .align 32 |
| .globl NG4bzero |
| NG4bzero: |
| clr %o4 |
| 1: cmp %o1, 16 |
| ble %icc, .Ltiny |
| mov %o0, %o3 |
| sub %g0, %o0, %g1 |
| and %g1, 0x7, %g1 |
| brz,pt %g1, .Laligned8 |
| sub %o1, %g1, %o1 |
| 1: stb %o4, [%o0 + 0x00] |
| subcc %g1, 1, %g1 |
| bne,pt %icc, 1b |
| add %o0, 1, %o0 |
| .Laligned8: |
| cmp %o1, 64 + (64 - 8) |
| ble .Lmedium |
| sub %g0, %o0, %g1 |
| andcc %g1, (64 - 1), %g1 |
| brz,pn %g1, .Laligned64 |
| sub %o1, %g1, %o1 |
| 1: stx %o4, [%o0 + 0x00] |
| subcc %g1, 8, %g1 |
| bne,pt %icc, 1b |
| add %o0, 0x8, %o0 |
| .Laligned64: |
| andn %o1, 64 - 1, %g1 |
| sub %o1, %g1, %o1 |
| brnz,pn %o4, .Lnon_bzero_loop |
| mov 0x20, %g2 |
| 1: stxa %o4, [%o0 + %g0] ASI_BLK_INIT_QUAD_LDD_P |
| subcc %g1, 0x40, %g1 |
| stxa %o4, [%o0 + %g2] ASI_BLK_INIT_QUAD_LDD_P |
| bne,pt %icc, 1b |
| add %o0, 0x40, %o0 |
| .Lpostloop: |
| cmp %o1, 8 |
| bl,pn %icc, .Ltiny |
| membar #StoreStore|#StoreLoad |
| .Lmedium: |
| andn %o1, 0x7, %g1 |
| sub %o1, %g1, %o1 |
| 1: stx %o4, [%o0 + 0x00] |
| subcc %g1, 0x8, %g1 |
| bne,pt %icc, 1b |
| add %o0, 0x08, %o0 |
| andcc %o1, 0x4, %g1 |
| be,pt %icc, .Ltiny |
| sub %o1, %g1, %o1 |
| stw %o4, [%o0 + 0x00] |
| add %o0, 0x4, %o0 |
| .Ltiny: |
| cmp %o1, 0 |
| be,pn %icc, .Lexit |
| 1: subcc %o1, 1, %o1 |
| stb %o4, [%o0 + 0x00] |
| bne,pt %icc, 1b |
| add %o0, 1, %o0 |
| .Lexit: |
| retl |
| mov %o3, %o0 |
| .Lnon_bzero_loop: |
| mov 0x08, %g3 |
| mov 0x28, %o5 |
| 1: stxa %o4, [%o0 + %g0] ASI_BLK_INIT_QUAD_LDD_P |
| subcc %g1, 0x40, %g1 |
| stxa %o4, [%o0 + %g2] ASI_BLK_INIT_QUAD_LDD_P |
| stxa %o4, [%o0 + %g3] ASI_BLK_INIT_QUAD_LDD_P |
| stxa %o4, [%o0 + %o5] ASI_BLK_INIT_QUAD_LDD_P |
| add %o0, 0x10, %o0 |
| stxa %o4, [%o0 + %g0] ASI_BLK_INIT_QUAD_LDD_P |
| stxa %o4, [%o0 + %g2] ASI_BLK_INIT_QUAD_LDD_P |
| stxa %o4, [%o0 + %g3] ASI_BLK_INIT_QUAD_LDD_P |
| stxa %o4, [%o0 + %o5] ASI_BLK_INIT_QUAD_LDD_P |
| bne,pt %icc, 1b |
| add %o0, 0x30, %o0 |
| ba,a,pt %icc, .Lpostloop |
| .size NG4bzero,.-NG4bzero |