Blame - arch/x86/crypto/aesni-intel_avx-x86_64.S - kernel/msm-4.9

blob: 522ab68d1c884fab49813f05b5b9cbb48d90275b [file] [log] [blame]

Tim Chen	d764593	2013-12-11 14:28:41 -0800	[diff] [blame]	1	########################################################################
				2	# Copyright (c) 2013, Intel Corporation
				3	#
				4	# This software is available to you under a choice of one of two
				5	# licenses. You may choose to be licensed under the terms of the GNU
				6	# General Public License (GPL) Version 2, available from the file
				7	# COPYING in the main directory of this source tree, or the
				8	# OpenIB.org BSD license below:
				9	#
				10	# Redistribution and use in source and binary forms, with or without
				11	# modification, are permitted provided that the following conditions are
				12	# met:
				13	#
				14	# * Redistributions of source code must retain the above copyright
				15	# notice, this list of conditions and the following disclaimer.
				16	#
				17	# * Redistributions in binary form must reproduce the above copyright
				18	# notice, this list of conditions and the following disclaimer in the
				19	# documentation and/or other materials provided with the
				20	# distribution.
				21	#
				22	# * Neither the name of the Intel Corporation nor the names of its
				23	# contributors may be used to endorse or promote products derived from
				24	# this software without specific prior written permission.
				25	#
				26	#
				27	# THIS SOFTWARE IS PROVIDED BY INTEL CORPORATION ""AS IS"" AND ANY
				28	# EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
				29	# IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
				30	# PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL INTEL CORPORATION OR
				31	# CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
				32	# EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
				33	# PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES# LOSS OF USE, DATA, OR
				34	# PROFITS# OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
				35	# LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
				36	# NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
				37	# SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
				38	########################################################################
				39	##
				40	## Authors:
				41	## Erdinc Ozturk <erdinc.ozturk@intel.com>
				42	## Vinodh Gopal <vinodh.gopal@intel.com>
				43	## James Guilford <james.guilford@intel.com>
				44	## Tim Chen <tim.c.chen@linux.intel.com>
				45	##
				46	## References:
				47	## This code was derived and highly optimized from the code described in paper:
				48	## Vinodh Gopal et. al. Optimized Galois-Counter-Mode Implementation
				49	## on Intel Architecture Processors. August, 2010
				50	## The details of the implementation is explained in:
				51	## Erdinc Ozturk et. al. Enabling High-Performance Galois-Counter-Mode
				52	## on Intel Architecture Processors. October, 2012.
				53	##
				54	## Assumptions:
				55	##
				56	##
				57	##
				58	## iv:
				59	## 0 1 2 3
				60	## 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
				61	## +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
				62	## \| Salt (From the SA) \|
				63	## +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
				64	## \| Initialization Vector \|
				65	## \| (This is the sequence number from IPSec header) \|
				66	## +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
				67	## \| 0x1 \|
				68	## +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
				69	##
				70	##
				71	##
				72	## AAD:
				73	## AAD padded to 128 bits with 0
				74	## for example, assume AAD is a u32 vector
				75	##
				76	## if AAD is 8 bytes:
				77	## AAD[3] = {A0, A1}#
				78	## padded AAD in xmm register = {A1 A0 0 0}
				79	##
				80	## 0 1 2 3
				81	## 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
				82	## +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
				83	## \| SPI (A1) \|
				84	## +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
				85	## \| 32-bit Sequence Number (A0) \|
				86	## +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
				87	## \| 0x0 \|
				88	## +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
				89	##
				90	## AAD Format with 32-bit Sequence Number
				91	##
				92	## if AAD is 12 bytes:
				93	## AAD[3] = {A0, A1, A2}#
				94	## padded AAD in xmm register = {A2 A1 A0 0}
				95	##
				96	## 0 1 2 3
				97	## 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
				98	## +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
				99	## \| SPI (A2) \|
				100	## +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
				101	## \| 64-bit Extended Sequence Number {A1,A0} \|
				102	## \| \|
				103	## +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
				104	## \| 0x0 \|
				105	## +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
				106	##
				107	## AAD Format with 64-bit Extended Sequence Number
				108	##
				109	##
				110	## aadLen:
				111	## from the definition of the spec, aadLen can only be 8 or 12 bytes.
				112	## The code additionally supports aadLen of length 16 bytes.
				113	##
				114	## TLen:
				115	## from the definition of the spec, TLen can only be 8, 12 or 16 bytes.
				116	##
				117	## poly = x^128 + x^127 + x^126 + x^121 + 1
				118	## throughout the code, one tab and two tab indentations are used. one tab is
				119	## for GHASH part, two tabs is for AES part.
				120	##
				121
				122	#include <linux/linkage.h>
				123	#include <asm/inst.h>
				124
				125	.data
				126	.align 16
				127
				128	POLY: .octa 0xC2000000000000000000000000000001
				129	POLY2: .octa 0xC20000000000000000000001C2000000
				130	TWOONE: .octa 0x00000001000000000000000000000001
				131
				132	# order of these constants should not change.
				133	# more specifically, ALL_F should follow SHIFT_MASK, and ZERO should follow ALL_F
				134
				135	SHUF_MASK: .octa 0x000102030405060708090A0B0C0D0E0F
				136	SHIFT_MASK: .octa 0x0f0e0d0c0b0a09080706050403020100
				137	ALL_F: .octa 0xffffffffffffffffffffffffffffffff
				138	ZERO: .octa 0x00000000000000000000000000000000
				139	ONE: .octa 0x00000000000000000000000000000001
				140	ONEf: .octa 0x01000000000000000000000000000000
				141
				142	.text
				143
				144
				145	##define the fields of the gcm aes context
				146	#{
				147	# u8 expanded_keys[16*11] store expanded keys
				148	# u8 shifted_hkey_1[16] store HashKey <<1 mod poly here
				149	# u8 shifted_hkey_2[16] store HashKey^2 <<1 mod poly here
				150	# u8 shifted_hkey_3[16] store HashKey^3 <<1 mod poly here
				151	# u8 shifted_hkey_4[16] store HashKey^4 <<1 mod poly here
				152	# u8 shifted_hkey_5[16] store HashKey^5 <<1 mod poly here
				153	# u8 shifted_hkey_6[16] store HashKey^6 <<1 mod poly here
				154	# u8 shifted_hkey_7[16] store HashKey^7 <<1 mod poly here
				155	# u8 shifted_hkey_8[16] store HashKey^8 <<1 mod poly here
				156	# u8 shifted_hkey_1_k[16] store XOR HashKey <<1 mod poly here (for Karatsuba purposes)
				157	# u8 shifted_hkey_2_k[16] store XOR HashKey^2 <<1 mod poly here (for Karatsuba purposes)
				158	# u8 shifted_hkey_3_k[16] store XOR HashKey^3 <<1 mod poly here (for Karatsuba purposes)
				159	# u8 shifted_hkey_4_k[16] store XOR HashKey^4 <<1 mod poly here (for Karatsuba purposes)
				160	# u8 shifted_hkey_5_k[16] store XOR HashKey^5 <<1 mod poly here (for Karatsuba purposes)
				161	# u8 shifted_hkey_6_k[16] store XOR HashKey^6 <<1 mod poly here (for Karatsuba purposes)
				162	# u8 shifted_hkey_7_k[16] store XOR HashKey^7 <<1 mod poly here (for Karatsuba purposes)
				163	# u8 shifted_hkey_8_k[16] store XOR HashKey^8 <<1 mod poly here (for Karatsuba purposes)
				164	#} gcm_ctx#
				165
				166	HashKey = 16*11 # store HashKey <<1 mod poly here
				167	HashKey_2 = 16*12 # store HashKey^2 <<1 mod poly here
				168	HashKey_3 = 16*13 # store HashKey^3 <<1 mod poly here
				169	HashKey_4 = 16*14 # store HashKey^4 <<1 mod poly here
				170	HashKey_5 = 16*15 # store HashKey^5 <<1 mod poly here
				171	HashKey_6 = 16*16 # store HashKey^6 <<1 mod poly here
				172	HashKey_7 = 16*17 # store HashKey^7 <<1 mod poly here
				173	HashKey_8 = 16*18 # store HashKey^8 <<1 mod poly here
				174	HashKey_k = 16*19 # store XOR of HashKey <<1 mod poly here (for Karatsuba purposes)
				175	HashKey_2_k = 16*20 # store XOR of HashKey^2 <<1 mod poly here (for Karatsuba purposes)
				176	HashKey_3_k = 16*21 # store XOR of HashKey^3 <<1 mod poly here (for Karatsuba purposes)
				177	HashKey_4_k = 16*22 # store XOR of HashKey^4 <<1 mod poly here (for Karatsuba purposes)
				178	HashKey_5_k = 16*23 # store XOR of HashKey^5 <<1 mod poly here (for Karatsuba purposes)
				179	HashKey_6_k = 16*24 # store XOR of HashKey^6 <<1 mod poly here (for Karatsuba purposes)
				180	HashKey_7_k = 16*25 # store XOR of HashKey^7 <<1 mod poly here (for Karatsuba purposes)
				181	HashKey_8_k = 16*26 # store XOR of HashKey^8 <<1 mod poly here (for Karatsuba purposes)
				182
				183	#define arg1 %rdi
				184	#define arg2 %rsi
				185	#define arg3 %rdx
				186	#define arg4 %rcx
				187	#define arg5 %r8
				188	#define arg6 %r9
				189	#define arg7 STACK_OFFSET+8*1(%r14)
				190	#define arg8 STACK_OFFSET+8*2(%r14)
				191	#define arg9 STACK_OFFSET+8*3(%r14)
				192
				193	i = 0
				194	j = 0
				195
				196	out_order = 0
				197	in_order = 1
				198	DEC = 0
				199	ENC = 1
				200
				201	.macro define_reg r n
				202	reg_\r = %xmm\n
				203	.endm
				204
				205	.macro setreg
				206	.altmacro
				207	define_reg i %i
				208	define_reg j %j
				209	.noaltmacro
				210	.endm
				211
				212	# need to push 4 registers into stack to maintain
				213	STACK_OFFSET = 8*4
				214
				215	TMP1 = 16*0 # Temporary storage for AAD
				216	TMP2 = 16*1 # Temporary storage for AES State 2 (State 1 is stored in an XMM register)
				217	TMP3 = 16*2 # Temporary storage for AES State 3
				218	TMP4 = 16*3 # Temporary storage for AES State 4
				219	TMP5 = 16*4 # Temporary storage for AES State 5
				220	TMP6 = 16*5 # Temporary storage for AES State 6
				221	TMP7 = 16*6 # Temporary storage for AES State 7
				222	TMP8 = 16*7 # Temporary storage for AES State 8
				223
				224	VARIABLE_OFFSET = 16*8
				225
				226	################################
				227	# Utility Macros
				228	################################
				229
				230	# Encryption of a single block
				231	.macro ENCRYPT_SINGLE_BLOCK XMM0
				232	vpxor (arg1), \XMM0, \XMM0
				233	i = 1
				234	setreg
				235	.rep 9
				236	vaesenc 16*i(arg1), \XMM0, \XMM0
				237	i = (i+1)
				238	setreg
				239	.endr
				240	vaesenclast 16*10(arg1), \XMM0, \XMM0
				241	.endm
				242
				243	#ifdef CONFIG_AS_AVX
				244	###############################################################################
				245	# GHASH_MUL MACRO to implement: Data*HashKey mod (128,127,126,121,0)
				246	# Input: A and B (128-bits each, bit-reflected)
				247	# Output: C = ABx mod poly, (i.e. >>1 )
				248	# To compute GH = GH*HashKey mod poly, give HK = HashKey<<1 mod poly as input
				249	# GH = GH * HK * x mod poly which is equivalent to GH*HashKey mod poly.
				250	###############################################################################
				251	.macro GHASH_MUL_AVX GH HK T1 T2 T3 T4 T5
				252
				253	vpshufd $0b01001110, \GH, \T2
				254	vpshufd $0b01001110, \HK, \T3
				255	vpxor \GH , \T2, \T2 # T2 = (a1+a0)
				256	vpxor \HK , \T3, \T3 # T3 = (b1+b0)
				257
				258	vpclmulqdq $0x11, \HK, \GH, \T1 # T1 = a1*b1
				259	vpclmulqdq $0x00, \HK, \GH, \GH # GH = a0*b0
				260	vpclmulqdq $0x00, \T3, \T2, \T2 # T2 = (a1+a0)*(b1+b0)
				261	vpxor \GH, \T2,\T2
				262	vpxor \T1, \T2,\T2 # T2 = a0b1+a1b0
				263
				264	vpslldq $8, \T2,\T3 # shift-L T3 2 DWs
				265	vpsrldq $8, \T2,\T2 # shift-R T2 2 DWs
				266	vpxor \T3, \GH, \GH
				267	vpxor \T2, \T1, \T1 # <T1:GH> = GH x HK
				268
				269	#first phase of the reduction
				270	vpslld $31, \GH, \T2 # packed right shifting << 31
				271	vpslld $30, \GH, \T3 # packed right shifting shift << 30
				272	vpslld $25, \GH, \T4 # packed right shifting shift << 25
				273
				274	vpxor \T3, \T2, \T2 # xor the shifted versions
				275	vpxor \T4, \T2, \T2
				276
				277	vpsrldq $4, \T2, \T5 # shift-R T5 1 DW
				278
				279	vpslldq $12, \T2, \T2 # shift-L T2 3 DWs
				280	vpxor \T2, \GH, \GH # first phase of the reduction complete
				281
				282	#second phase of the reduction
				283
				284	vpsrld $1,\GH, \T2 # packed left shifting >> 1
				285	vpsrld $2,\GH, \T3 # packed left shifting >> 2
				286	vpsrld $7,\GH, \T4 # packed left shifting >> 7
				287	vpxor \T3, \T2, \T2 # xor the shifted versions
				288	vpxor \T4, \T2, \T2
				289
				290	vpxor \T5, \T2, \T2
				291	vpxor \T2, \GH, \GH
				292	vpxor \T1, \GH, \GH # the result is in GH
				293
				294
				295	.endm
				296
				297	.macro PRECOMPUTE_AVX HK T1 T2 T3 T4 T5 T6
				298
				299	# Haskey_i_k holds XORed values of the low and high parts of the Haskey_i
				300	vmovdqa \HK, \T5
				301
				302	vpshufd $0b01001110, \T5, \T1
				303	vpxor \T5, \T1, \T1
				304	vmovdqa \T1, HashKey_k(arg1)
				305
				306	GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^2<<1 mod poly
				307	vmovdqa \T5, HashKey_2(arg1) # [HashKey_2] = HashKey^2<<1 mod poly
				308	vpshufd $0b01001110, \T5, \T1
				309	vpxor \T5, \T1, \T1
				310	vmovdqa \T1, HashKey_2_k(arg1)
				311
				312	GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^3<<1 mod poly
				313	vmovdqa \T5, HashKey_3(arg1)
				314	vpshufd $0b01001110, \T5, \T1
				315	vpxor \T5, \T1, \T1
				316	vmovdqa \T1, HashKey_3_k(arg1)
				317
				318	GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^4<<1 mod poly
				319	vmovdqa \T5, HashKey_4(arg1)
				320	vpshufd $0b01001110, \T5, \T1
				321	vpxor \T5, \T1, \T1
				322	vmovdqa \T1, HashKey_4_k(arg1)
				323
				324	GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^5<<1 mod poly
				325	vmovdqa \T5, HashKey_5(arg1)
				326	vpshufd $0b01001110, \T5, \T1
				327	vpxor \T5, \T1, \T1
				328	vmovdqa \T1, HashKey_5_k(arg1)
				329
				330	GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^6<<1 mod poly
				331	vmovdqa \T5, HashKey_6(arg1)
				332	vpshufd $0b01001110, \T5, \T1
				333	vpxor \T5, \T1, \T1
				334	vmovdqa \T1, HashKey_6_k(arg1)
				335
				336	GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^7<<1 mod poly
				337	vmovdqa \T5, HashKey_7(arg1)
				338	vpshufd $0b01001110, \T5, \T1
				339	vpxor \T5, \T1, \T1
				340	vmovdqa \T1, HashKey_7_k(arg1)
				341
				342	GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^8<<1 mod poly
				343	vmovdqa \T5, HashKey_8(arg1)
				344	vpshufd $0b01001110, \T5, \T1
				345	vpxor \T5, \T1, \T1
				346	vmovdqa \T1, HashKey_8_k(arg1)
				347
				348	.endm
				349
				350	## if a = number of total plaintext bytes
				351	## b = floor(a/16)
				352	## num_initial_blocks = b mod 4#
				353	## encrypt the initial num_initial_blocks blocks and apply ghash on the ciphertext
				354	## r10, r11, r12, rax are clobbered
				355	## arg1, arg2, arg3, r14 are used as a pointer only, not modified
				356
				357	.macro INITIAL_BLOCKS_AVX num_initial_blocks T1 T2 T3 T4 T5 CTR XMM1 XMM2 XMM3 XMM4 XMM5 XMM6 XMM7 XMM8 T6 T_key ENC_DEC
				358	i = (8-\num_initial_blocks)
				359	setreg
				360
				361	mov arg6, %r10 # r10 = AAD
				362	mov arg7, %r12 # r12 = aadLen
				363
				364
				365	mov %r12, %r11
				366
				367	vpxor reg_i, reg_i, reg_i
				368	_get_AAD_loop\@:
				369	vmovd (%r10), \T1
				370	vpslldq $12, \T1, \T1
				371	vpsrldq $4, reg_i, reg_i
				372	vpxor \T1, reg_i, reg_i
				373
				374	add $4, %r10
				375	sub $4, %r12
				376	jg _get_AAD_loop\@
				377
				378
				379	cmp $16, %r11
				380	je _get_AAD_loop2_done\@
				381	mov $16, %r12
				382
				383	_get_AAD_loop2\@:
				384	vpsrldq $4, reg_i, reg_i
				385	sub $4, %r12
				386	cmp %r11, %r12
				387	jg _get_AAD_loop2\@
				388
				389	_get_AAD_loop2_done\@:
				390
				391	#byte-reflect the AAD data
				392	vpshufb SHUF_MASK(%rip), reg_i, reg_i
				393
				394	# initialize the data pointer offset as zero
				395	xor %r11, %r11
				396
				397	# start AES for num_initial_blocks blocks
				398	mov arg5, %rax # rax = *Y0
				399	vmovdqu (%rax), \CTR # CTR = Y0
				400	vpshufb SHUF_MASK(%rip), \CTR, \CTR
				401
				402
				403	i = (9-\num_initial_blocks)
				404	setreg
				405	.rep \num_initial_blocks
				406	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				407	vmovdqa \CTR, reg_i
				408	vpshufb SHUF_MASK(%rip), reg_i, reg_i # perform a 16Byte swap
				409	i = (i+1)
				410	setreg
				411	.endr
				412
				413	vmovdqa (arg1), \T_key
				414	i = (9-\num_initial_blocks)
				415	setreg
				416	.rep \num_initial_blocks
				417	vpxor \T_key, reg_i, reg_i
				418	i = (i+1)
				419	setreg
				420	.endr
				421
				422	j = 1
				423	setreg
				424	.rep 9
				425	vmovdqa 16*j(arg1), \T_key
				426	i = (9-\num_initial_blocks)
				427	setreg
				428	.rep \num_initial_blocks
				429	vaesenc \T_key, reg_i, reg_i
				430	i = (i+1)
				431	setreg
				432	.endr
				433
				434	j = (j+1)
				435	setreg
				436	.endr
				437
				438
				439	vmovdqa 16*10(arg1), \T_key
				440	i = (9-\num_initial_blocks)
				441	setreg
				442	.rep \num_initial_blocks
				443	vaesenclast \T_key, reg_i, reg_i
				444	i = (i+1)
				445	setreg
				446	.endr
				447
				448	i = (9-\num_initial_blocks)
				449	setreg
				450	.rep \num_initial_blocks
				451	vmovdqu (arg3, %r11), \T1
				452	vpxor \T1, reg_i, reg_i
				453	vmovdqu reg_i, (arg2 , %r11) # write back ciphertext for num_initial_blocks blocks
				454	add $16, %r11
				455	.if \ENC_DEC == DEC
				456	vmovdqa \T1, reg_i
				457	.endif
				458	vpshufb SHUF_MASK(%rip), reg_i, reg_i # prepare ciphertext for GHASH computations
				459	i = (i+1)
				460	setreg
				461	.endr
				462
				463
				464	i = (8-\num_initial_blocks)
				465	j = (9-\num_initial_blocks)
				466	setreg
				467	GHASH_MUL_AVX reg_i, \T2, \T1, \T3, \T4, \T5, \T6
				468
				469	.rep \num_initial_blocks
				470	vpxor reg_i, reg_j, reg_j
				471	GHASH_MUL_AVX reg_j, \T2, \T1, \T3, \T4, \T5, \T6 # apply GHASH on num_initial_blocks blocks
				472	i = (i+1)
				473	j = (j+1)
				474	setreg
				475	.endr
				476	# XMM8 has the combined result here
				477
				478	vmovdqa \XMM8, TMP1(%rsp)
				479	vmovdqa \XMM8, \T3
				480
				481	cmp $128, %r13
				482	jl _initial_blocks_done\@ # no need for precomputed constants
				483
				484	###############################################################################
				485	# Haskey_i_k holds XORed values of the low and high parts of the Haskey_i
				486	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				487	vmovdqa \CTR, \XMM1
				488	vpshufb SHUF_MASK(%rip), \XMM1, \XMM1 # perform a 16Byte swap
				489
				490	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				491	vmovdqa \CTR, \XMM2
				492	vpshufb SHUF_MASK(%rip), \XMM2, \XMM2 # perform a 16Byte swap
				493
				494	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				495	vmovdqa \CTR, \XMM3
				496	vpshufb SHUF_MASK(%rip), \XMM3, \XMM3 # perform a 16Byte swap
				497
				498	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				499	vmovdqa \CTR, \XMM4
				500	vpshufb SHUF_MASK(%rip), \XMM4, \XMM4 # perform a 16Byte swap
				501
				502	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				503	vmovdqa \CTR, \XMM5
				504	vpshufb SHUF_MASK(%rip), \XMM5, \XMM5 # perform a 16Byte swap
				505
				506	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				507	vmovdqa \CTR, \XMM6
				508	vpshufb SHUF_MASK(%rip), \XMM6, \XMM6 # perform a 16Byte swap
				509
				510	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				511	vmovdqa \CTR, \XMM7
				512	vpshufb SHUF_MASK(%rip), \XMM7, \XMM7 # perform a 16Byte swap
				513
				514	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				515	vmovdqa \CTR, \XMM8
				516	vpshufb SHUF_MASK(%rip), \XMM8, \XMM8 # perform a 16Byte swap
				517
				518	vmovdqa (arg1), \T_key
				519	vpxor \T_key, \XMM1, \XMM1
				520	vpxor \T_key, \XMM2, \XMM2
				521	vpxor \T_key, \XMM3, \XMM3
				522	vpxor \T_key, \XMM4, \XMM4
				523	vpxor \T_key, \XMM5, \XMM5
				524	vpxor \T_key, \XMM6, \XMM6
				525	vpxor \T_key, \XMM7, \XMM7
				526	vpxor \T_key, \XMM8, \XMM8
				527
				528	i = 1
				529	setreg
				530	.rep 9 # do 9 rounds
				531	vmovdqa 16*i(arg1), \T_key
				532	vaesenc \T_key, \XMM1, \XMM1
				533	vaesenc \T_key, \XMM2, \XMM2
				534	vaesenc \T_key, \XMM3, \XMM3
				535	vaesenc \T_key, \XMM4, \XMM4
				536	vaesenc \T_key, \XMM5, \XMM5
				537	vaesenc \T_key, \XMM6, \XMM6
				538	vaesenc \T_key, \XMM7, \XMM7
				539	vaesenc \T_key, \XMM8, \XMM8
				540	i = (i+1)
				541	setreg
				542	.endr
				543
				544
				545	vmovdqa 16*i(arg1), \T_key
				546	vaesenclast \T_key, \XMM1, \XMM1
				547	vaesenclast \T_key, \XMM2, \XMM2
				548	vaesenclast \T_key, \XMM3, \XMM3
				549	vaesenclast \T_key, \XMM4, \XMM4
				550	vaesenclast \T_key, \XMM5, \XMM5
				551	vaesenclast \T_key, \XMM6, \XMM6
				552	vaesenclast \T_key, \XMM7, \XMM7
				553	vaesenclast \T_key, \XMM8, \XMM8
				554
				555	vmovdqu (arg3, %r11), \T1
				556	vpxor \T1, \XMM1, \XMM1
				557	vmovdqu \XMM1, (arg2 , %r11)
				558	.if \ENC_DEC == DEC
				559	vmovdqa \T1, \XMM1
				560	.endif
				561
				562	vmovdqu 16*1(arg3, %r11), \T1
				563	vpxor \T1, \XMM2, \XMM2
				564	vmovdqu \XMM2, 16*1(arg2 , %r11)
				565	.if \ENC_DEC == DEC
				566	vmovdqa \T1, \XMM2
				567	.endif
				568
				569	vmovdqu 16*2(arg3, %r11), \T1
				570	vpxor \T1, \XMM3, \XMM3
				571	vmovdqu \XMM3, 16*2(arg2 , %r11)
				572	.if \ENC_DEC == DEC
				573	vmovdqa \T1, \XMM3
				574	.endif
				575
				576	vmovdqu 16*3(arg3, %r11), \T1
				577	vpxor \T1, \XMM4, \XMM4
				578	vmovdqu \XMM4, 16*3(arg2 , %r11)
				579	.if \ENC_DEC == DEC
				580	vmovdqa \T1, \XMM4
				581	.endif
				582
				583	vmovdqu 16*4(arg3, %r11), \T1
				584	vpxor \T1, \XMM5, \XMM5
				585	vmovdqu \XMM5, 16*4(arg2 , %r11)
				586	.if \ENC_DEC == DEC
				587	vmovdqa \T1, \XMM5
				588	.endif
				589
				590	vmovdqu 16*5(arg3, %r11), \T1
				591	vpxor \T1, \XMM6, \XMM6
				592	vmovdqu \XMM6, 16*5(arg2 , %r11)
				593	.if \ENC_DEC == DEC
				594	vmovdqa \T1, \XMM6
				595	.endif
				596
				597	vmovdqu 16*6(arg3, %r11), \T1
				598	vpxor \T1, \XMM7, \XMM7
				599	vmovdqu \XMM7, 16*6(arg2 , %r11)
				600	.if \ENC_DEC == DEC
				601	vmovdqa \T1, \XMM7
				602	.endif
				603
				604	vmovdqu 16*7(arg3, %r11), \T1
				605	vpxor \T1, \XMM8, \XMM8
				606	vmovdqu \XMM8, 16*7(arg2 , %r11)
				607	.if \ENC_DEC == DEC
				608	vmovdqa \T1, \XMM8
				609	.endif
				610
				611	add $128, %r11
				612
				613	vpshufb SHUF_MASK(%rip), \XMM1, \XMM1 # perform a 16Byte swap
				614	vpxor TMP1(%rsp), \XMM1, \XMM1 # combine GHASHed value with the corresponding ciphertext
				615	vpshufb SHUF_MASK(%rip), \XMM2, \XMM2 # perform a 16Byte swap
				616	vpshufb SHUF_MASK(%rip), \XMM3, \XMM3 # perform a 16Byte swap
				617	vpshufb SHUF_MASK(%rip), \XMM4, \XMM4 # perform a 16Byte swap
				618	vpshufb SHUF_MASK(%rip), \XMM5, \XMM5 # perform a 16Byte swap
				619	vpshufb SHUF_MASK(%rip), \XMM6, \XMM6 # perform a 16Byte swap
				620	vpshufb SHUF_MASK(%rip), \XMM7, \XMM7 # perform a 16Byte swap
				621	vpshufb SHUF_MASK(%rip), \XMM8, \XMM8 # perform a 16Byte swap
				622
				623	###############################################################################
				624
				625	_initial_blocks_done\@:
				626
				627	.endm
				628
				629	# encrypt 8 blocks at a time
				630	# ghash the 8 previously encrypted ciphertext blocks
				631	# arg1, arg2, arg3 are used as pointers only, not modified
				632	# r11 is the data offset value
				633	.macro GHASH_8_ENCRYPT_8_PARALLEL_AVX T1 T2 T3 T4 T5 T6 CTR XMM1 XMM2 XMM3 XMM4 XMM5 XMM6 XMM7 XMM8 T7 loop_idx ENC_DEC
				634
				635	vmovdqa \XMM1, \T2
				636	vmovdqa \XMM2, TMP2(%rsp)
				637	vmovdqa \XMM3, TMP3(%rsp)
				638	vmovdqa \XMM4, TMP4(%rsp)
				639	vmovdqa \XMM5, TMP5(%rsp)
				640	vmovdqa \XMM6, TMP6(%rsp)
				641	vmovdqa \XMM7, TMP7(%rsp)
				642	vmovdqa \XMM8, TMP8(%rsp)
				643
				644	.if \loop_idx == in_order
				645	vpaddd ONE(%rip), \CTR, \XMM1 # INCR CNT
				646	vpaddd ONE(%rip), \XMM1, \XMM2
				647	vpaddd ONE(%rip), \XMM2, \XMM3
				648	vpaddd ONE(%rip), \XMM3, \XMM4
				649	vpaddd ONE(%rip), \XMM4, \XMM5
				650	vpaddd ONE(%rip), \XMM5, \XMM6
				651	vpaddd ONE(%rip), \XMM6, \XMM7
				652	vpaddd ONE(%rip), \XMM7, \XMM8
				653	vmovdqa \XMM8, \CTR
				654
				655	vpshufb SHUF_MASK(%rip), \XMM1, \XMM1 # perform a 16Byte swap
				656	vpshufb SHUF_MASK(%rip), \XMM2, \XMM2 # perform a 16Byte swap
				657	vpshufb SHUF_MASK(%rip), \XMM3, \XMM3 # perform a 16Byte swap
				658	vpshufb SHUF_MASK(%rip), \XMM4, \XMM4 # perform a 16Byte swap
				659	vpshufb SHUF_MASK(%rip), \XMM5, \XMM5 # perform a 16Byte swap
				660	vpshufb SHUF_MASK(%rip), \XMM6, \XMM6 # perform a 16Byte swap
				661	vpshufb SHUF_MASK(%rip), \XMM7, \XMM7 # perform a 16Byte swap
				662	vpshufb SHUF_MASK(%rip), \XMM8, \XMM8 # perform a 16Byte swap
				663	.else
				664	vpaddd ONEf(%rip), \CTR, \XMM1 # INCR CNT
				665	vpaddd ONEf(%rip), \XMM1, \XMM2
				666	vpaddd ONEf(%rip), \XMM2, \XMM3
				667	vpaddd ONEf(%rip), \XMM3, \XMM4
				668	vpaddd ONEf(%rip), \XMM4, \XMM5
				669	vpaddd ONEf(%rip), \XMM5, \XMM6
				670	vpaddd ONEf(%rip), \XMM6, \XMM7
				671	vpaddd ONEf(%rip), \XMM7, \XMM8
				672	vmovdqa \XMM8, \CTR
				673	.endif
				674
				675
				676	#######################################################################
				677
				678	vmovdqu (arg1), \T1
				679	vpxor \T1, \XMM1, \XMM1
				680	vpxor \T1, \XMM2, \XMM2
				681	vpxor \T1, \XMM3, \XMM3
				682	vpxor \T1, \XMM4, \XMM4
				683	vpxor \T1, \XMM5, \XMM5
				684	vpxor \T1, \XMM6, \XMM6
				685	vpxor \T1, \XMM7, \XMM7
				686	vpxor \T1, \XMM8, \XMM8
				687
				688	#######################################################################
				689
				690
				691
				692
				693
				694	vmovdqu 16*1(arg1), \T1
				695	vaesenc \T1, \XMM1, \XMM1
				696	vaesenc \T1, \XMM2, \XMM2
				697	vaesenc \T1, \XMM3, \XMM3
				698	vaesenc \T1, \XMM4, \XMM4
				699	vaesenc \T1, \XMM5, \XMM5
				700	vaesenc \T1, \XMM6, \XMM6
				701	vaesenc \T1, \XMM7, \XMM7
				702	vaesenc \T1, \XMM8, \XMM8
				703
				704	vmovdqu 16*2(arg1), \T1
				705	vaesenc \T1, \XMM1, \XMM1
				706	vaesenc \T1, \XMM2, \XMM2
				707	vaesenc \T1, \XMM3, \XMM3
				708	vaesenc \T1, \XMM4, \XMM4
				709	vaesenc \T1, \XMM5, \XMM5
				710	vaesenc \T1, \XMM6, \XMM6
				711	vaesenc \T1, \XMM7, \XMM7
				712	vaesenc \T1, \XMM8, \XMM8
				713
				714
				715	#######################################################################
				716
				717	vmovdqa HashKey_8(arg1), \T5
				718	vpclmulqdq $0x11, \T5, \T2, \T4 # T4 = a1*b1
				719	vpclmulqdq $0x00, \T5, \T2, \T7 # T7 = a0*b0
				720
				721	vpshufd $0b01001110, \T2, \T6
				722	vpxor \T2, \T6, \T6
				723
				724	vmovdqa HashKey_8_k(arg1), \T5
				725	vpclmulqdq $0x00, \T5, \T6, \T6
				726
				727	vmovdqu 16*3(arg1), \T1
				728	vaesenc \T1, \XMM1, \XMM1
				729	vaesenc \T1, \XMM2, \XMM2
				730	vaesenc \T1, \XMM3, \XMM3
				731	vaesenc \T1, \XMM4, \XMM4
				732	vaesenc \T1, \XMM5, \XMM5
				733	vaesenc \T1, \XMM6, \XMM6
				734	vaesenc \T1, \XMM7, \XMM7
				735	vaesenc \T1, \XMM8, \XMM8
				736
				737	vmovdqa TMP2(%rsp), \T1
				738	vmovdqa HashKey_7(arg1), \T5
				739	vpclmulqdq $0x11, \T5, \T1, \T3
				740	vpxor \T3, \T4, \T4
				741	vpclmulqdq $0x00, \T5, \T1, \T3
				742	vpxor \T3, \T7, \T7
				743
				744	vpshufd $0b01001110, \T1, \T3
				745	vpxor \T1, \T3, \T3
				746	vmovdqa HashKey_7_k(arg1), \T5
				747	vpclmulqdq $0x10, \T5, \T3, \T3
				748	vpxor \T3, \T6, \T6
				749
				750	vmovdqu 16*4(arg1), \T1
				751	vaesenc \T1, \XMM1, \XMM1
				752	vaesenc \T1, \XMM2, \XMM2
				753	vaesenc \T1, \XMM3, \XMM3
				754	vaesenc \T1, \XMM4, \XMM4
				755	vaesenc \T1, \XMM5, \XMM5
				756	vaesenc \T1, \XMM6, \XMM6
				757	vaesenc \T1, \XMM7, \XMM7
				758	vaesenc \T1, \XMM8, \XMM8
				759
				760	#######################################################################
				761
				762	vmovdqa TMP3(%rsp), \T1
				763	vmovdqa HashKey_6(arg1), \T5
				764	vpclmulqdq $0x11, \T5, \T1, \T3
				765	vpxor \T3, \T4, \T4
				766	vpclmulqdq $0x00, \T5, \T1, \T3
				767	vpxor \T3, \T7, \T7
				768
				769	vpshufd $0b01001110, \T1, \T3
				770	vpxor \T1, \T3, \T3
				771	vmovdqa HashKey_6_k(arg1), \T5
				772	vpclmulqdq $0x10, \T5, \T3, \T3
				773	vpxor \T3, \T6, \T6
				774
				775	vmovdqu 16*5(arg1), \T1
				776	vaesenc \T1, \XMM1, \XMM1
				777	vaesenc \T1, \XMM2, \XMM2
				778	vaesenc \T1, \XMM3, \XMM3
				779	vaesenc \T1, \XMM4, \XMM4
				780	vaesenc \T1, \XMM5, \XMM5
				781	vaesenc \T1, \XMM6, \XMM6
				782	vaesenc \T1, \XMM7, \XMM7
				783	vaesenc \T1, \XMM8, \XMM8
				784
				785	vmovdqa TMP4(%rsp), \T1
				786	vmovdqa HashKey_5(arg1), \T5
				787	vpclmulqdq $0x11, \T5, \T1, \T3
				788	vpxor \T3, \T4, \T4
				789	vpclmulqdq $0x00, \T5, \T1, \T3
				790	vpxor \T3, \T7, \T7
				791
				792	vpshufd $0b01001110, \T1, \T3
				793	vpxor \T1, \T3, \T3
				794	vmovdqa HashKey_5_k(arg1), \T5
				795	vpclmulqdq $0x10, \T5, \T3, \T3
				796	vpxor \T3, \T6, \T6
				797
				798	vmovdqu 16*6(arg1), \T1
				799	vaesenc \T1, \XMM1, \XMM1
				800	vaesenc \T1, \XMM2, \XMM2
				801	vaesenc \T1, \XMM3, \XMM3
				802	vaesenc \T1, \XMM4, \XMM4
				803	vaesenc \T1, \XMM5, \XMM5
				804	vaesenc \T1, \XMM6, \XMM6
				805	vaesenc \T1, \XMM7, \XMM7
				806	vaesenc \T1, \XMM8, \XMM8
				807
				808
				809	vmovdqa TMP5(%rsp), \T1
				810	vmovdqa HashKey_4(arg1), \T5
				811	vpclmulqdq $0x11, \T5, \T1, \T3
				812	vpxor \T3, \T4, \T4
				813	vpclmulqdq $0x00, \T5, \T1, \T3
				814	vpxor \T3, \T7, \T7
				815
				816	vpshufd $0b01001110, \T1, \T3
				817	vpxor \T1, \T3, \T3
				818	vmovdqa HashKey_4_k(arg1), \T5
				819	vpclmulqdq $0x10, \T5, \T3, \T3
				820	vpxor \T3, \T6, \T6
				821
				822	vmovdqu 16*7(arg1), \T1
				823	vaesenc \T1, \XMM1, \XMM1
				824	vaesenc \T1, \XMM2, \XMM2
				825	vaesenc \T1, \XMM3, \XMM3
				826	vaesenc \T1, \XMM4, \XMM4
				827	vaesenc \T1, \XMM5, \XMM5
				828	vaesenc \T1, \XMM6, \XMM6
				829	vaesenc \T1, \XMM7, \XMM7
				830	vaesenc \T1, \XMM8, \XMM8
				831
				832	vmovdqa TMP6(%rsp), \T1
				833	vmovdqa HashKey_3(arg1), \T5
				834	vpclmulqdq $0x11, \T5, \T1, \T3
				835	vpxor \T3, \T4, \T4
				836	vpclmulqdq $0x00, \T5, \T1, \T3
				837	vpxor \T3, \T7, \T7
				838
				839	vpshufd $0b01001110, \T1, \T3
				840	vpxor \T1, \T3, \T3
				841	vmovdqa HashKey_3_k(arg1), \T5
				842	vpclmulqdq $0x10, \T5, \T3, \T3
				843	vpxor \T3, \T6, \T6
				844
				845
				846	vmovdqu 16*8(arg1), \T1
				847	vaesenc \T1, \XMM1, \XMM1
				848	vaesenc \T1, \XMM2, \XMM2
				849	vaesenc \T1, \XMM3, \XMM3
				850	vaesenc \T1, \XMM4, \XMM4
				851	vaesenc \T1, \XMM5, \XMM5
				852	vaesenc \T1, \XMM6, \XMM6
				853	vaesenc \T1, \XMM7, \XMM7
				854	vaesenc \T1, \XMM8, \XMM8
				855
				856	vmovdqa TMP7(%rsp), \T1
				857	vmovdqa HashKey_2(arg1), \T5
				858	vpclmulqdq $0x11, \T5, \T1, \T3
				859	vpxor \T3, \T4, \T4
				860	vpclmulqdq $0x00, \T5, \T1, \T3
				861	vpxor \T3, \T7, \T7
				862
				863	vpshufd $0b01001110, \T1, \T3
				864	vpxor \T1, \T3, \T3
				865	vmovdqa HashKey_2_k(arg1), \T5
				866	vpclmulqdq $0x10, \T5, \T3, \T3
				867	vpxor \T3, \T6, \T6
				868
				869	#######################################################################
				870
				871	vmovdqu 16*9(arg1), \T5
				872	vaesenc \T5, \XMM1, \XMM1
				873	vaesenc \T5, \XMM2, \XMM2
				874	vaesenc \T5, \XMM3, \XMM3
				875	vaesenc \T5, \XMM4, \XMM4
				876	vaesenc \T5, \XMM5, \XMM5
				877	vaesenc \T5, \XMM6, \XMM6
				878	vaesenc \T5, \XMM7, \XMM7
				879	vaesenc \T5, \XMM8, \XMM8
				880
				881	vmovdqa TMP8(%rsp), \T1
				882	vmovdqa HashKey(arg1), \T5
				883	vpclmulqdq $0x11, \T5, \T1, \T3
				884	vpxor \T3, \T4, \T4
				885	vpclmulqdq $0x00, \T5, \T1, \T3
				886	vpxor \T3, \T7, \T7
				887
				888	vpshufd $0b01001110, \T1, \T3
				889	vpxor \T1, \T3, \T3
				890	vmovdqa HashKey_k(arg1), \T5
				891	vpclmulqdq $0x10, \T5, \T3, \T3
				892	vpxor \T3, \T6, \T6
				893
				894	vpxor \T4, \T6, \T6
				895	vpxor \T7, \T6, \T6
				896
				897	vmovdqu 16*10(arg1), \T5
				898
				899	i = 0
				900	j = 1
				901	setreg
				902	.rep 8
				903	vpxor 16*i(arg3, %r11), \T5, \T2
				904	.if \ENC_DEC == ENC
				905	vaesenclast \T2, reg_j, reg_j
				906	.else
				907	vaesenclast \T2, reg_j, \T3
				908	vmovdqu 16*i(arg3, %r11), reg_j
				909	vmovdqu \T3, 16*i(arg2, %r11)
				910	.endif
				911	i = (i+1)
				912	j = (j+1)
				913	setreg
				914	.endr
				915	#######################################################################
				916
				917
				918	vpslldq $8, \T6, \T3 # shift-L T3 2 DWs
				919	vpsrldq $8, \T6, \T6 # shift-R T2 2 DWs
				920	vpxor \T3, \T7, \T7
				921	vpxor \T4, \T6, \T6 # accumulate the results in T6:T7
				922
				923
				924
				925	#######################################################################
				926	#first phase of the reduction
				927	#######################################################################
				928	vpslld $31, \T7, \T2 # packed right shifting << 31
				929	vpslld $30, \T7, \T3 # packed right shifting shift << 30
				930	vpslld $25, \T7, \T4 # packed right shifting shift << 25
				931
				932	vpxor \T3, \T2, \T2 # xor the shifted versions
				933	vpxor \T4, \T2, \T2
				934
				935	vpsrldq $4, \T2, \T1 # shift-R T1 1 DW
				936
				937	vpslldq $12, \T2, \T2 # shift-L T2 3 DWs
				938	vpxor \T2, \T7, \T7 # first phase of the reduction complete
				939	#######################################################################
				940	.if \ENC_DEC == ENC
				941	vmovdqu \XMM1, 16*0(arg2,%r11) # Write to the Ciphertext buffer
				942	vmovdqu \XMM2, 16*1(arg2,%r11) # Write to the Ciphertext buffer
				943	vmovdqu \XMM3, 16*2(arg2,%r11) # Write to the Ciphertext buffer
				944	vmovdqu \XMM4, 16*3(arg2,%r11) # Write to the Ciphertext buffer
				945	vmovdqu \XMM5, 16*4(arg2,%r11) # Write to the Ciphertext buffer
				946	vmovdqu \XMM6, 16*5(arg2,%r11) # Write to the Ciphertext buffer
				947	vmovdqu \XMM7, 16*6(arg2,%r11) # Write to the Ciphertext buffer
				948	vmovdqu \XMM8, 16*7(arg2,%r11) # Write to the Ciphertext buffer
				949	.endif
				950
				951	#######################################################################
				952	#second phase of the reduction
				953	vpsrld $1, \T7, \T2 # packed left shifting >> 1
				954	vpsrld $2, \T7, \T3 # packed left shifting >> 2
				955	vpsrld $7, \T7, \T4 # packed left shifting >> 7
				956	vpxor \T3, \T2, \T2 # xor the shifted versions
				957	vpxor \T4, \T2, \T2
				958
				959	vpxor \T1, \T2, \T2
				960	vpxor \T2, \T7, \T7
				961	vpxor \T7, \T6, \T6 # the result is in T6
				962	#######################################################################
				963
				964	vpshufb SHUF_MASK(%rip), \XMM1, \XMM1 # perform a 16Byte swap
				965	vpshufb SHUF_MASK(%rip), \XMM2, \XMM2 # perform a 16Byte swap
				966	vpshufb SHUF_MASK(%rip), \XMM3, \XMM3 # perform a 16Byte swap
				967	vpshufb SHUF_MASK(%rip), \XMM4, \XMM4 # perform a 16Byte swap
				968	vpshufb SHUF_MASK(%rip), \XMM5, \XMM5 # perform a 16Byte swap
				969	vpshufb SHUF_MASK(%rip), \XMM6, \XMM6 # perform a 16Byte swap
				970	vpshufb SHUF_MASK(%rip), \XMM7, \XMM7 # perform a 16Byte swap
				971	vpshufb SHUF_MASK(%rip), \XMM8, \XMM8 # perform a 16Byte swap
				972
				973
				974	vpxor \T6, \XMM1, \XMM1
				975
				976
				977
				978	.endm
				979
				980
				981	# GHASH the last 4 ciphertext blocks.
				982	.macro GHASH_LAST_8_AVX T1 T2 T3 T4 T5 T6 T7 XMM1 XMM2 XMM3 XMM4 XMM5 XMM6 XMM7 XMM8
				983
				984	## Karatsuba Method
				985
				986
				987	vpshufd $0b01001110, \XMM1, \T2
				988	vpxor \XMM1, \T2, \T2
				989	vmovdqa HashKey_8(arg1), \T5
				990	vpclmulqdq $0x11, \T5, \XMM1, \T6
				991	vpclmulqdq $0x00, \T5, \XMM1, \T7
				992
				993	vmovdqa HashKey_8_k(arg1), \T3
				994	vpclmulqdq $0x00, \T3, \T2, \XMM1
				995
				996	######################
				997
				998	vpshufd $0b01001110, \XMM2, \T2
				999	vpxor \XMM2, \T2, \T2
				1000	vmovdqa HashKey_7(arg1), \T5
				1001	vpclmulqdq $0x11, \T5, \XMM2, \T4
				1002	vpxor \T4, \T6, \T6
				1003
				1004	vpclmulqdq $0x00, \T5, \XMM2, \T4
				1005	vpxor \T4, \T7, \T7
				1006
				1007	vmovdqa HashKey_7_k(arg1), \T3
				1008	vpclmulqdq $0x00, \T3, \T2, \T2
				1009	vpxor \T2, \XMM1, \XMM1
				1010
				1011	######################
				1012
				1013	vpshufd $0b01001110, \XMM3, \T2
				1014	vpxor \XMM3, \T2, \T2
				1015	vmovdqa HashKey_6(arg1), \T5
				1016	vpclmulqdq $0x11, \T5, \XMM3, \T4
				1017	vpxor \T4, \T6, \T6
				1018
				1019	vpclmulqdq $0x00, \T5, \XMM3, \T4
				1020	vpxor \T4, \T7, \T7
				1021
				1022	vmovdqa HashKey_6_k(arg1), \T3
				1023	vpclmulqdq $0x00, \T3, \T2, \T2
				1024	vpxor \T2, \XMM1, \XMM1
				1025
				1026	######################
				1027
				1028	vpshufd $0b01001110, \XMM4, \T2
				1029	vpxor \XMM4, \T2, \T2
				1030	vmovdqa HashKey_5(arg1), \T5
				1031	vpclmulqdq $0x11, \T5, \XMM4, \T4
				1032	vpxor \T4, \T6, \T6
				1033
				1034	vpclmulqdq $0x00, \T5, \XMM4, \T4
				1035	vpxor \T4, \T7, \T7
				1036
				1037	vmovdqa HashKey_5_k(arg1), \T3
				1038	vpclmulqdq $0x00, \T3, \T2, \T2
				1039	vpxor \T2, \XMM1, \XMM1
				1040
				1041	######################
				1042
				1043	vpshufd $0b01001110, \XMM5, \T2
				1044	vpxor \XMM5, \T2, \T2
				1045	vmovdqa HashKey_4(arg1), \T5
				1046	vpclmulqdq $0x11, \T5, \XMM5, \T4
				1047	vpxor \T4, \T6, \T6
				1048
				1049	vpclmulqdq $0x00, \T5, \XMM5, \T4
				1050	vpxor \T4, \T7, \T7
				1051
				1052	vmovdqa HashKey_4_k(arg1), \T3
				1053	vpclmulqdq $0x00, \T3, \T2, \T2
				1054	vpxor \T2, \XMM1, \XMM1
				1055
				1056	######################
				1057
				1058	vpshufd $0b01001110, \XMM6, \T2
				1059	vpxor \XMM6, \T2, \T2
				1060	vmovdqa HashKey_3(arg1), \T5
				1061	vpclmulqdq $0x11, \T5, \XMM6, \T4
				1062	vpxor \T4, \T6, \T6
				1063
				1064	vpclmulqdq $0x00, \T5, \XMM6, \T4
				1065	vpxor \T4, \T7, \T7
				1066
				1067	vmovdqa HashKey_3_k(arg1), \T3
				1068	vpclmulqdq $0x00, \T3, \T2, \T2
				1069	vpxor \T2, \XMM1, \XMM1
				1070
				1071	######################
				1072
				1073	vpshufd $0b01001110, \XMM7, \T2
				1074	vpxor \XMM7, \T2, \T2
				1075	vmovdqa HashKey_2(arg1), \T5
				1076	vpclmulqdq $0x11, \T5, \XMM7, \T4
				1077	vpxor \T4, \T6, \T6
				1078
				1079	vpclmulqdq $0x00, \T5, \XMM7, \T4
				1080	vpxor \T4, \T7, \T7
				1081
				1082	vmovdqa HashKey_2_k(arg1), \T3
				1083	vpclmulqdq $0x00, \T3, \T2, \T2
				1084	vpxor \T2, \XMM1, \XMM1
				1085
				1086	######################
				1087
				1088	vpshufd $0b01001110, \XMM8, \T2
				1089	vpxor \XMM8, \T2, \T2
				1090	vmovdqa HashKey(arg1), \T5
				1091	vpclmulqdq $0x11, \T5, \XMM8, \T4
				1092	vpxor \T4, \T6, \T6
				1093
				1094	vpclmulqdq $0x00, \T5, \XMM8, \T4
				1095	vpxor \T4, \T7, \T7
				1096
				1097	vmovdqa HashKey_k(arg1), \T3
				1098	vpclmulqdq $0x00, \T3, \T2, \T2
				1099
				1100	vpxor \T2, \XMM1, \XMM1
				1101	vpxor \T6, \XMM1, \XMM1
				1102	vpxor \T7, \XMM1, \T2
				1103
				1104
				1105
				1106
				1107	vpslldq $8, \T2, \T4
				1108	vpsrldq $8, \T2, \T2
				1109
				1110	vpxor \T4, \T7, \T7
				1111	vpxor \T2, \T6, \T6 # <T6:T7> holds the result of
				1112	# the accumulated carry-less multiplications
				1113
				1114	#######################################################################
				1115	#first phase of the reduction
				1116	vpslld $31, \T7, \T2 # packed right shifting << 31
				1117	vpslld $30, \T7, \T3 # packed right shifting shift << 30
				1118	vpslld $25, \T7, \T4 # packed right shifting shift << 25
				1119
				1120	vpxor \T3, \T2, \T2 # xor the shifted versions
				1121	vpxor \T4, \T2, \T2
				1122
				1123	vpsrldq $4, \T2, \T1 # shift-R T1 1 DW
				1124
				1125	vpslldq $12, \T2, \T2 # shift-L T2 3 DWs
				1126	vpxor \T2, \T7, \T7 # first phase of the reduction complete
				1127	#######################################################################
				1128
				1129
				1130	#second phase of the reduction
				1131	vpsrld $1, \T7, \T2 # packed left shifting >> 1
				1132	vpsrld $2, \T7, \T3 # packed left shifting >> 2
				1133	vpsrld $7, \T7, \T4 # packed left shifting >> 7
				1134	vpxor \T3, \T2, \T2 # xor the shifted versions
				1135	vpxor \T4, \T2, \T2
				1136
				1137	vpxor \T1, \T2, \T2
				1138	vpxor \T2, \T7, \T7
				1139	vpxor \T7, \T6, \T6 # the result is in T6
				1140
				1141	.endm
				1142
				1143
				1144	# combined for GCM encrypt and decrypt functions
				1145	# clobbering all xmm registers
				1146	# clobbering r10, r11, r12, r13, r14, r15
				1147	.macro GCM_ENC_DEC_AVX ENC_DEC
				1148
				1149	#the number of pushes must equal STACK_OFFSET
				1150	push %r12
				1151	push %r13
				1152	push %r14
				1153	push %r15
				1154
				1155	mov %rsp, %r14
				1156
				1157
				1158
				1159
				1160	sub $VARIABLE_OFFSET, %rsp
				1161	and $~63, %rsp # align rsp to 64 bytes
				1162
				1163
				1164	vmovdqu HashKey(arg1), %xmm13 # xmm13 = HashKey
				1165
				1166	mov arg4, %r13 # save the number of bytes of plaintext/ciphertext
				1167	and $-16, %r13 # r13 = r13 - (r13 mod 16)
				1168
				1169	mov %r13, %r12
				1170	shr $4, %r12
				1171	and $7, %r12
				1172	jz _initial_num_blocks_is_0\@
				1173
				1174	cmp $7, %r12
				1175	je _initial_num_blocks_is_7\@
				1176	cmp $6, %r12
				1177	je _initial_num_blocks_is_6\@
				1178	cmp $5, %r12
				1179	je _initial_num_blocks_is_5\@
				1180	cmp $4, %r12
				1181	je _initial_num_blocks_is_4\@
				1182	cmp $3, %r12
				1183	je _initial_num_blocks_is_3\@
				1184	cmp $2, %r12
				1185	je _initial_num_blocks_is_2\@
				1186
				1187	jmp _initial_num_blocks_is_1\@
				1188
				1189	_initial_num_blocks_is_7\@:
				1190	INITIAL_BLOCKS_AVX 7, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				1191	sub $16*7, %r13
				1192	jmp _initial_blocks_encrypted\@
				1193
				1194	_initial_num_blocks_is_6\@:
				1195	INITIAL_BLOCKS_AVX 6, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				1196	sub $16*6, %r13
				1197	jmp _initial_blocks_encrypted\@
				1198
				1199	_initial_num_blocks_is_5\@:
				1200	INITIAL_BLOCKS_AVX 5, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				1201	sub $16*5, %r13
				1202	jmp _initial_blocks_encrypted\@
				1203
				1204	_initial_num_blocks_is_4\@:
				1205	INITIAL_BLOCKS_AVX 4, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				1206	sub $16*4, %r13
				1207	jmp _initial_blocks_encrypted\@
				1208
				1209	_initial_num_blocks_is_3\@:
				1210	INITIAL_BLOCKS_AVX 3, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				1211	sub $16*3, %r13
				1212	jmp _initial_blocks_encrypted\@
				1213
				1214	_initial_num_blocks_is_2\@:
				1215	INITIAL_BLOCKS_AVX 2, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				1216	sub $16*2, %r13
				1217	jmp _initial_blocks_encrypted\@
				1218
				1219	_initial_num_blocks_is_1\@:
				1220	INITIAL_BLOCKS_AVX 1, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				1221	sub $16*1, %r13
				1222	jmp _initial_blocks_encrypted\@
				1223
				1224	_initial_num_blocks_is_0\@:
				1225	INITIAL_BLOCKS_AVX 0, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				1226
				1227
				1228	_initial_blocks_encrypted\@:
				1229	cmp $0, %r13
				1230	je _zero_cipher_left\@
				1231
				1232	sub $128, %r13
				1233	je _eight_cipher_left\@
				1234
				1235
				1236
				1237
				1238	vmovd %xmm9, %r15d
				1239	and $255, %r15d
				1240	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				1241
				1242
				1243	_encrypt_by_8_new\@:
				1244	cmp $(255-8), %r15d
				1245	jg _encrypt_by_8\@
				1246
				1247
				1248
				1249	add $8, %r15b
				1250	GHASH_8_ENCRYPT_8_PARALLEL_AVX %xmm0, %xmm10, %xmm11, %xmm12, %xmm13, %xmm14, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm15, out_order, \ENC_DEC
				1251	add $128, %r11
				1252	sub $128, %r13
				1253	jne _encrypt_by_8_new\@
				1254
				1255	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				1256	jmp _eight_cipher_left\@
				1257
				1258	_encrypt_by_8\@:
				1259	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				1260	add $8, %r15b
				1261	GHASH_8_ENCRYPT_8_PARALLEL_AVX %xmm0, %xmm10, %xmm11, %xmm12, %xmm13, %xmm14, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm15, in_order, \ENC_DEC
				1262	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				1263	add $128, %r11
				1264	sub $128, %r13
				1265	jne _encrypt_by_8_new\@
				1266
				1267	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				1268
				1269
				1270
				1271
				1272	_eight_cipher_left\@:
				1273	GHASH_LAST_8_AVX %xmm0, %xmm10, %xmm11, %xmm12, %xmm13, %xmm14, %xmm15, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8
				1274
				1275
				1276	_zero_cipher_left\@:
				1277	cmp $16, arg4
				1278	jl _only_less_than_16\@
				1279
				1280	mov arg4, %r13
				1281	and $15, %r13 # r13 = (arg4 mod 16)
				1282
				1283	je _multiple_of_16_bytes\@
				1284
				1285	# handle the last <16 Byte block seperately
				1286
				1287
				1288	vpaddd ONE(%rip), %xmm9, %xmm9 # INCR CNT to get Yn
				1289	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				1290	ENCRYPT_SINGLE_BLOCK %xmm9 # E(K, Yn)
				1291
				1292	sub $16, %r11
				1293	add %r13, %r11
				1294	vmovdqu (arg3, %r11), %xmm1 # receive the last <16 Byte block
				1295
				1296	lea SHIFT_MASK+16(%rip), %r12
				1297	sub %r13, %r12 # adjust the shuffle mask pointer to be
				1298	# able to shift 16-r13 bytes (r13 is the
				1299	# number of bytes in plaintext mod 16)
				1300	vmovdqu (%r12), %xmm2 # get the appropriate shuffle mask
				1301	vpshufb %xmm2, %xmm1, %xmm1 # shift right 16-r13 bytes
				1302	jmp _final_ghash_mul\@
				1303
				1304	_only_less_than_16\@:
				1305	# check for 0 length
				1306	mov arg4, %r13
				1307	and $15, %r13 # r13 = (arg4 mod 16)
				1308
				1309	je _multiple_of_16_bytes\@
				1310
				1311	# handle the last <16 Byte block seperately
				1312
				1313
				1314	vpaddd ONE(%rip), %xmm9, %xmm9 # INCR CNT to get Yn
				1315	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				1316	ENCRYPT_SINGLE_BLOCK %xmm9 # E(K, Yn)
				1317
				1318
				1319	lea SHIFT_MASK+16(%rip), %r12
				1320	sub %r13, %r12 # adjust the shuffle mask pointer to be
				1321	# able to shift 16-r13 bytes (r13 is the
				1322	# number of bytes in plaintext mod 16)
				1323
				1324	_get_last_16_byte_loop\@:
				1325	movb (arg3, %r11), %al
				1326	movb %al, TMP1 (%rsp , %r11)
				1327	add $1, %r11
				1328	cmp %r13, %r11
				1329	jne _get_last_16_byte_loop\@
				1330
				1331	vmovdqu TMP1(%rsp), %xmm1
				1332
				1333	sub $16, %r11
				1334
				1335	_final_ghash_mul\@:
				1336	.if \ENC_DEC == DEC
				1337	vmovdqa %xmm1, %xmm2
				1338	vpxor %xmm1, %xmm9, %xmm9 # Plaintext XOR E(K, Yn)
				1339	vmovdqu ALL_F-SHIFT_MASK(%r12), %xmm1 # get the appropriate mask to
				1340	# mask out top 16-r13 bytes of xmm9
				1341	vpand %xmm1, %xmm9, %xmm9 # mask out top 16-r13 bytes of xmm9
				1342	vpand %xmm1, %xmm2, %xmm2
				1343	vpshufb SHUF_MASK(%rip), %xmm2, %xmm2
				1344	vpxor %xmm2, %xmm14, %xmm14
				1345	#GHASH computation for the last <16 Byte block
				1346	GHASH_MUL_AVX %xmm14, %xmm13, %xmm0, %xmm10, %xmm11, %xmm5, %xmm6
				1347	sub %r13, %r11
				1348	add $16, %r11
				1349	.else
				1350	vpxor %xmm1, %xmm9, %xmm9 # Plaintext XOR E(K, Yn)
				1351	vmovdqu ALL_F-SHIFT_MASK(%r12), %xmm1 # get the appropriate mask to
				1352	# mask out top 16-r13 bytes of xmm9
				1353	vpand %xmm1, %xmm9, %xmm9 # mask out top 16-r13 bytes of xmm9
				1354	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				1355	vpxor %xmm9, %xmm14, %xmm14
				1356	#GHASH computation for the last <16 Byte block
				1357	GHASH_MUL_AVX %xmm14, %xmm13, %xmm0, %xmm10, %xmm11, %xmm5, %xmm6
				1358	sub %r13, %r11
				1359	add $16, %r11
				1360	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9 # shuffle xmm9 back to output as ciphertext
				1361	.endif
				1362
				1363
				1364	#############################
				1365	# output r13 Bytes
				1366	vmovq %xmm9, %rax
				1367	cmp $8, %r13
				1368	jle _less_than_8_bytes_left\@
				1369
				1370	mov %rax, (arg2 , %r11)
				1371	add $8, %r11
				1372	vpsrldq $8, %xmm9, %xmm9
				1373	vmovq %xmm9, %rax
				1374	sub $8, %r13
				1375
				1376	_less_than_8_bytes_left\@:
				1377	movb %al, (arg2 , %r11)
				1378	add $1, %r11
				1379	shr $8, %rax
				1380	sub $1, %r13
				1381	jne _less_than_8_bytes_left\@
				1382	#############################
				1383
				1384	_multiple_of_16_bytes\@:
				1385	mov arg7, %r12 # r12 = aadLen (number of bytes)
				1386	shl $3, %r12 # convert into number of bits
				1387	vmovd %r12d, %xmm15 # len(A) in xmm15
				1388
				1389	shl $3, arg4 # len(C) in bits (*128)
				1390	vmovq arg4, %xmm1
				1391	vpslldq $8, %xmm15, %xmm15 # xmm15 = len(A)\|\| 0x0000000000000000
				1392	vpxor %xmm1, %xmm15, %xmm15 # xmm15 = len(A)\|\|len(C)
				1393
				1394	vpxor %xmm15, %xmm14, %xmm14
				1395	GHASH_MUL_AVX %xmm14, %xmm13, %xmm0, %xmm10, %xmm11, %xmm5, %xmm6 # final GHASH computation
				1396	vpshufb SHUF_MASK(%rip), %xmm14, %xmm14 # perform a 16Byte swap
				1397
				1398	mov arg5, %rax # rax = *Y0
				1399	vmovdqu (%rax), %xmm9 # xmm9 = Y0
				1400
				1401	ENCRYPT_SINGLE_BLOCK %xmm9 # E(K, Y0)
				1402
				1403	vpxor %xmm14, %xmm9, %xmm9
				1404
				1405
				1406
				1407	_return_T\@:
				1408	mov arg8, %r10 # r10 = authTag
				1409	mov arg9, %r11 # r11 = auth_tag_len
				1410
				1411	cmp $16, %r11
				1412	je _T_16\@
				1413
				1414	cmp $12, %r11
				1415	je _T_12\@
				1416
				1417	_T_8\@:
				1418	vmovq %xmm9, %rax
				1419	mov %rax, (%r10)
				1420	jmp _return_T_done\@
				1421	_T_12\@:
				1422	vmovq %xmm9, %rax
				1423	mov %rax, (%r10)
				1424	vpsrldq $8, %xmm9, %xmm9
				1425	vmovd %xmm9, %eax
				1426	mov %eax, 8(%r10)
				1427	jmp _return_T_done\@
				1428
				1429	_T_16\@:
				1430	vmovdqu %xmm9, (%r10)
				1431
				1432	_return_T_done\@:
				1433	mov %r14, %rsp
				1434
				1435	pop %r15
				1436	pop %r14
				1437	pop %r13
				1438	pop %r12
				1439	.endm
				1440
				1441
				1442	#############################################################
				1443	#void aesni_gcm_precomp_avx_gen2
				1444	# (gcm_data *my_ctx_data,
				1445	# u8 hash_subkey)# / H, the Hash sub key input. Data starts on a 16-byte boundary. */
				1446	#############################################################
				1447	ENTRY(aesni_gcm_precomp_avx_gen2)
				1448	#the number of pushes must equal STACK_OFFSET
				1449	push %r12
				1450	push %r13
				1451	push %r14
				1452	push %r15
				1453
				1454	mov %rsp, %r14
				1455
				1456
				1457
				1458	sub $VARIABLE_OFFSET, %rsp
				1459	and $~63, %rsp # align rsp to 64 bytes
				1460
				1461	vmovdqu (arg2), %xmm6 # xmm6 = HashKey
				1462
				1463	vpshufb SHUF_MASK(%rip), %xmm6, %xmm6
				1464	############### PRECOMPUTATION of HashKey<<1 mod poly from the HashKey
				1465	vmovdqa %xmm6, %xmm2
				1466	vpsllq $1, %xmm6, %xmm6
				1467	vpsrlq $63, %xmm2, %xmm2
				1468	vmovdqa %xmm2, %xmm1
				1469	vpslldq $8, %xmm2, %xmm2
				1470	vpsrldq $8, %xmm1, %xmm1
				1471	vpor %xmm2, %xmm6, %xmm6
				1472	#reduction
				1473	vpshufd $0b00100100, %xmm1, %xmm2
				1474	vpcmpeqd TWOONE(%rip), %xmm2, %xmm2
				1475	vpand POLY(%rip), %xmm2, %xmm2
				1476	vpxor %xmm2, %xmm6, %xmm6 # xmm6 holds the HashKey<<1 mod poly
				1477	#######################################################################
				1478	vmovdqa %xmm6, HashKey(arg1) # store HashKey<<1 mod poly
				1479
				1480
				1481	PRECOMPUTE_AVX %xmm6, %xmm0, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5
				1482
				1483	mov %r14, %rsp
				1484
				1485	pop %r15
				1486	pop %r14
				1487	pop %r13
				1488	pop %r12
				1489	ret
				1490	ENDPROC(aesni_gcm_precomp_avx_gen2)
				1491
				1492	###############################################################################
				1493	#void aesni_gcm_enc_avx_gen2(
				1494	# gcm_data my_ctx_data, / aligned to 16 Bytes */
				1495	# u8 out, / Ciphertext output. Encrypt in-place is allowed. */
				1496	# const u8 in, / Plaintext input */
				1497	# u64 plaintext_len, /* Length of data in Bytes for encryption. */
				1498	# u8 iv, / Pre-counter block j0: 4 byte salt
				1499	# (from Security Association) concatenated with 8 byte
				1500	# Initialisation Vector (from IPSec ESP Payload)
				1501	# concatenated with 0x00000001. 16-byte aligned pointer. */
				1502	# const u8 aad, / Additional Authentication Data (AAD)*/
				1503	# u64 aad_len, /* Length of AAD in bytes. With RFC4106 this is going to be 8 or 12 Bytes */
				1504	# u8 auth_tag, / Authenticated Tag output. */
				1505	# u64 auth_tag_len)# /* Authenticated Tag Length in bytes.
				1506	# Valid values are 16 (most likely), 12 or 8. */
				1507	###############################################################################
				1508	ENTRY(aesni_gcm_enc_avx_gen2)
				1509	GCM_ENC_DEC_AVX ENC
				1510	ret
				1511	ENDPROC(aesni_gcm_enc_avx_gen2)
				1512
				1513	###############################################################################
				1514	#void aesni_gcm_dec_avx_gen2(
				1515	# gcm_data my_ctx_data, / aligned to 16 Bytes */
				1516	# u8 out, / Plaintext output. Decrypt in-place is allowed. */
				1517	# const u8 in, / Ciphertext input */
				1518	# u64 plaintext_len, /* Length of data in Bytes for encryption. */
				1519	# u8 iv, / Pre-counter block j0: 4 byte salt
				1520	# (from Security Association) concatenated with 8 byte
				1521	# Initialisation Vector (from IPSec ESP Payload)
				1522	# concatenated with 0x00000001. 16-byte aligned pointer. */
				1523	# const u8 aad, / Additional Authentication Data (AAD)*/
				1524	# u64 aad_len, /* Length of AAD in bytes. With RFC4106 this is going to be 8 or 12 Bytes */
				1525	# u8 auth_tag, / Authenticated Tag output. */
				1526	# u64 auth_tag_len)# /* Authenticated Tag Length in bytes.
				1527	# Valid values are 16 (most likely), 12 or 8. */
				1528	###############################################################################
				1529	ENTRY(aesni_gcm_dec_avx_gen2)
				1530	GCM_ENC_DEC_AVX DEC
				1531	ret
				1532	ENDPROC(aesni_gcm_dec_avx_gen2)
				1533	#endif /* CONFIG_AS_AVX */
				1534
				1535	#ifdef CONFIG_AS_AVX2
				1536	###############################################################################
				1537	# GHASH_MUL MACRO to implement: Data*HashKey mod (128,127,126,121,0)
				1538	# Input: A and B (128-bits each, bit-reflected)
				1539	# Output: C = ABx mod poly, (i.e. >>1 )
				1540	# To compute GH = GH*HashKey mod poly, give HK = HashKey<<1 mod poly as input
				1541	# GH = GH * HK * x mod poly which is equivalent to GH*HashKey mod poly.
				1542	###############################################################################
				1543	.macro GHASH_MUL_AVX2 GH HK T1 T2 T3 T4 T5
				1544
				1545	vpclmulqdq $0x11,\HK,\GH,\T1 # T1 = a1*b1
				1546	vpclmulqdq $0x00,\HK,\GH,\T2 # T2 = a0*b0
				1547	vpclmulqdq $0x01,\HK,\GH,\T3 # T3 = a1*b0
				1548	vpclmulqdq $0x10,\HK,\GH,\GH # GH = a0*b1
				1549	vpxor \T3, \GH, \GH
				1550
				1551
				1552	vpsrldq $8 , \GH, \T3 # shift-R GH 2 DWs
				1553	vpslldq $8 , \GH, \GH # shift-L GH 2 DWs
				1554
				1555	vpxor \T3, \T1, \T1
				1556	vpxor \T2, \GH, \GH
				1557
				1558	#######################################################################
				1559	#first phase of the reduction
				1560	vmovdqa POLY2(%rip), \T3
				1561
				1562	vpclmulqdq $0x01, \GH, \T3, \T2
				1563	vpslldq $8, \T2, \T2 # shift-L T2 2 DWs
				1564
				1565	vpxor \T2, \GH, \GH # first phase of the reduction complete
				1566	#######################################################################
				1567	#second phase of the reduction
				1568	vpclmulqdq $0x00, \GH, \T3, \T2
				1569	vpsrldq $4, \T2, \T2 # shift-R T2 1 DW (Shift-R only 1-DW to obtain 2-DWs shift-R)
				1570
				1571	vpclmulqdq $0x10, \GH, \T3, \GH
				1572	vpslldq $4, \GH, \GH # shift-L GH 1 DW (Shift-L 1-DW to obtain result with no shifts)
				1573
				1574	vpxor \T2, \GH, \GH # second phase of the reduction complete
				1575	#######################################################################
				1576	vpxor \T1, \GH, \GH # the result is in GH
				1577
				1578
				1579	.endm
				1580
				1581	.macro PRECOMPUTE_AVX2 HK T1 T2 T3 T4 T5 T6
				1582
				1583	# Haskey_i_k holds XORed values of the low and high parts of the Haskey_i
				1584	vmovdqa \HK, \T5
				1585	GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^2<<1 mod poly
				1586	vmovdqa \T5, HashKey_2(arg1) # [HashKey_2] = HashKey^2<<1 mod poly
				1587
				1588	GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^3<<1 mod poly
				1589	vmovdqa \T5, HashKey_3(arg1)
				1590
				1591	GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^4<<1 mod poly
				1592	vmovdqa \T5, HashKey_4(arg1)
				1593
				1594	GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^5<<1 mod poly
				1595	vmovdqa \T5, HashKey_5(arg1)
				1596
				1597	GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^6<<1 mod poly
				1598	vmovdqa \T5, HashKey_6(arg1)
				1599
				1600	GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^7<<1 mod poly
				1601	vmovdqa \T5, HashKey_7(arg1)
				1602
				1603	GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2 # T5 = HashKey^8<<1 mod poly
				1604	vmovdqa \T5, HashKey_8(arg1)
				1605
				1606	.endm
				1607
				1608
				1609	## if a = number of total plaintext bytes
				1610	## b = floor(a/16)
				1611	## num_initial_blocks = b mod 4#
				1612	## encrypt the initial num_initial_blocks blocks and apply ghash on the ciphertext
				1613	## r10, r11, r12, rax are clobbered
				1614	## arg1, arg2, arg3, r14 are used as a pointer only, not modified
				1615
				1616	.macro INITIAL_BLOCKS_AVX2 num_initial_blocks T1 T2 T3 T4 T5 CTR XMM1 XMM2 XMM3 XMM4 XMM5 XMM6 XMM7 XMM8 T6 T_key ENC_DEC VER
				1617	i = (8-\num_initial_blocks)
				1618	setreg
				1619
				1620	mov arg6, %r10 # r10 = AAD
				1621	mov arg7, %r12 # r12 = aadLen
				1622
				1623
				1624	mov %r12, %r11
				1625
				1626	vpxor reg_i, reg_i, reg_i
				1627	_get_AAD_loop\@:
				1628	vmovd (%r10), \T1
				1629	vpslldq $12, \T1, \T1
				1630	vpsrldq $4, reg_i, reg_i
				1631	vpxor \T1, reg_i, reg_i
				1632
				1633	add $4, %r10
				1634	sub $4, %r12
				1635	jg _get_AAD_loop\@
				1636
				1637
				1638	cmp $16, %r11
				1639	je _get_AAD_loop2_done\@
				1640	mov $16, %r12
				1641
				1642	_get_AAD_loop2\@:
				1643	vpsrldq $4, reg_i, reg_i
				1644	sub $4, %r12
				1645	cmp %r11, %r12
				1646	jg _get_AAD_loop2\@
				1647
				1648	_get_AAD_loop2_done\@:
				1649
				1650	#byte-reflect the AAD data
				1651	vpshufb SHUF_MASK(%rip), reg_i, reg_i
				1652
				1653	# initialize the data pointer offset as zero
				1654	xor %r11, %r11
				1655
				1656	# start AES for num_initial_blocks blocks
				1657	mov arg5, %rax # rax = *Y0
				1658	vmovdqu (%rax), \CTR # CTR = Y0
				1659	vpshufb SHUF_MASK(%rip), \CTR, \CTR
				1660
				1661
				1662	i = (9-\num_initial_blocks)
				1663	setreg
				1664	.rep \num_initial_blocks
				1665	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				1666	vmovdqa \CTR, reg_i
				1667	vpshufb SHUF_MASK(%rip), reg_i, reg_i # perform a 16Byte swap
				1668	i = (i+1)
				1669	setreg
				1670	.endr
				1671
				1672	vmovdqa (arg1), \T_key
				1673	i = (9-\num_initial_blocks)
				1674	setreg
				1675	.rep \num_initial_blocks
				1676	vpxor \T_key, reg_i, reg_i
				1677	i = (i+1)
				1678	setreg
				1679	.endr
				1680
				1681	j = 1
				1682	setreg
				1683	.rep 9
				1684	vmovdqa 16*j(arg1), \T_key
				1685	i = (9-\num_initial_blocks)
				1686	setreg
				1687	.rep \num_initial_blocks
				1688	vaesenc \T_key, reg_i, reg_i
				1689	i = (i+1)
				1690	setreg
				1691	.endr
				1692
				1693	j = (j+1)
				1694	setreg
				1695	.endr
				1696
				1697
				1698	vmovdqa 16*10(arg1), \T_key
				1699	i = (9-\num_initial_blocks)
				1700	setreg
				1701	.rep \num_initial_blocks
				1702	vaesenclast \T_key, reg_i, reg_i
				1703	i = (i+1)
				1704	setreg
				1705	.endr
				1706
				1707	i = (9-\num_initial_blocks)
				1708	setreg
				1709	.rep \num_initial_blocks
				1710	vmovdqu (arg3, %r11), \T1
				1711	vpxor \T1, reg_i, reg_i
				1712	vmovdqu reg_i, (arg2 , %r11) # write back ciphertext for
				1713	# num_initial_blocks blocks
				1714	add $16, %r11
				1715	.if \ENC_DEC == DEC
				1716	vmovdqa \T1, reg_i
				1717	.endif
				1718	vpshufb SHUF_MASK(%rip), reg_i, reg_i # prepare ciphertext for GHASH computations
				1719	i = (i+1)
				1720	setreg
				1721	.endr
				1722
				1723
				1724	i = (8-\num_initial_blocks)
				1725	j = (9-\num_initial_blocks)
				1726	setreg
				1727	GHASH_MUL_AVX2 reg_i, \T2, \T1, \T3, \T4, \T5, \T6
				1728
				1729	.rep \num_initial_blocks
				1730	vpxor reg_i, reg_j, reg_j
				1731	GHASH_MUL_AVX2 reg_j, \T2, \T1, \T3, \T4, \T5, \T6 # apply GHASH on num_initial_blocks blocks
				1732	i = (i+1)
				1733	j = (j+1)
				1734	setreg
				1735	.endr
				1736	# XMM8 has the combined result here
				1737
				1738	vmovdqa \XMM8, TMP1(%rsp)
				1739	vmovdqa \XMM8, \T3
				1740
				1741	cmp $128, %r13
				1742	jl _initial_blocks_done\@ # no need for precomputed constants
				1743
				1744	###############################################################################
				1745	# Haskey_i_k holds XORed values of the low and high parts of the Haskey_i
				1746	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				1747	vmovdqa \CTR, \XMM1
				1748	vpshufb SHUF_MASK(%rip), \XMM1, \XMM1 # perform a 16Byte swap
				1749
				1750	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				1751	vmovdqa \CTR, \XMM2
				1752	vpshufb SHUF_MASK(%rip), \XMM2, \XMM2 # perform a 16Byte swap
				1753
				1754	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				1755	vmovdqa \CTR, \XMM3
				1756	vpshufb SHUF_MASK(%rip), \XMM3, \XMM3 # perform a 16Byte swap
				1757
				1758	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				1759	vmovdqa \CTR, \XMM4
				1760	vpshufb SHUF_MASK(%rip), \XMM4, \XMM4 # perform a 16Byte swap
				1761
				1762	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				1763	vmovdqa \CTR, \XMM5
				1764	vpshufb SHUF_MASK(%rip), \XMM5, \XMM5 # perform a 16Byte swap
				1765
				1766	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				1767	vmovdqa \CTR, \XMM6
				1768	vpshufb SHUF_MASK(%rip), \XMM6, \XMM6 # perform a 16Byte swap
				1769
				1770	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				1771	vmovdqa \CTR, \XMM7
				1772	vpshufb SHUF_MASK(%rip), \XMM7, \XMM7 # perform a 16Byte swap
				1773
				1774	vpaddd ONE(%rip), \CTR, \CTR # INCR Y0
				1775	vmovdqa \CTR, \XMM8
				1776	vpshufb SHUF_MASK(%rip), \XMM8, \XMM8 # perform a 16Byte swap
				1777
				1778	vmovdqa (arg1), \T_key
				1779	vpxor \T_key, \XMM1, \XMM1
				1780	vpxor \T_key, \XMM2, \XMM2
				1781	vpxor \T_key, \XMM3, \XMM3
				1782	vpxor \T_key, \XMM4, \XMM4
				1783	vpxor \T_key, \XMM5, \XMM5
				1784	vpxor \T_key, \XMM6, \XMM6
				1785	vpxor \T_key, \XMM7, \XMM7
				1786	vpxor \T_key, \XMM8, \XMM8
				1787
				1788	i = 1
				1789	setreg
				1790	.rep 9 # do 9 rounds
				1791	vmovdqa 16*i(arg1), \T_key
				1792	vaesenc \T_key, \XMM1, \XMM1
				1793	vaesenc \T_key, \XMM2, \XMM2
				1794	vaesenc \T_key, \XMM3, \XMM3
				1795	vaesenc \T_key, \XMM4, \XMM4
				1796	vaesenc \T_key, \XMM5, \XMM5
				1797	vaesenc \T_key, \XMM6, \XMM6
				1798	vaesenc \T_key, \XMM7, \XMM7
				1799	vaesenc \T_key, \XMM8, \XMM8
				1800	i = (i+1)
				1801	setreg
				1802	.endr
				1803
				1804
				1805	vmovdqa 16*i(arg1), \T_key
				1806	vaesenclast \T_key, \XMM1, \XMM1
				1807	vaesenclast \T_key, \XMM2, \XMM2
				1808	vaesenclast \T_key, \XMM3, \XMM3
				1809	vaesenclast \T_key, \XMM4, \XMM4
				1810	vaesenclast \T_key, \XMM5, \XMM5
				1811	vaesenclast \T_key, \XMM6, \XMM6
				1812	vaesenclast \T_key, \XMM7, \XMM7
				1813	vaesenclast \T_key, \XMM8, \XMM8
				1814
				1815	vmovdqu (arg3, %r11), \T1
				1816	vpxor \T1, \XMM1, \XMM1
				1817	vmovdqu \XMM1, (arg2 , %r11)
				1818	.if \ENC_DEC == DEC
				1819	vmovdqa \T1, \XMM1
				1820	.endif
				1821
				1822	vmovdqu 16*1(arg3, %r11), \T1
				1823	vpxor \T1, \XMM2, \XMM2
				1824	vmovdqu \XMM2, 16*1(arg2 , %r11)
				1825	.if \ENC_DEC == DEC
				1826	vmovdqa \T1, \XMM2
				1827	.endif
				1828
				1829	vmovdqu 16*2(arg3, %r11), \T1
				1830	vpxor \T1, \XMM3, \XMM3
				1831	vmovdqu \XMM3, 16*2(arg2 , %r11)
				1832	.if \ENC_DEC == DEC
				1833	vmovdqa \T1, \XMM3
				1834	.endif
				1835
				1836	vmovdqu 16*3(arg3, %r11), \T1
				1837	vpxor \T1, \XMM4, \XMM4
				1838	vmovdqu \XMM4, 16*3(arg2 , %r11)
				1839	.if \ENC_DEC == DEC
				1840	vmovdqa \T1, \XMM4
				1841	.endif
				1842
				1843	vmovdqu 16*4(arg3, %r11), \T1
				1844	vpxor \T1, \XMM5, \XMM5
				1845	vmovdqu \XMM5, 16*4(arg2 , %r11)
				1846	.if \ENC_DEC == DEC
				1847	vmovdqa \T1, \XMM5
				1848	.endif
				1849
				1850	vmovdqu 16*5(arg3, %r11), \T1
				1851	vpxor \T1, \XMM6, \XMM6
				1852	vmovdqu \XMM6, 16*5(arg2 , %r11)
				1853	.if \ENC_DEC == DEC
				1854	vmovdqa \T1, \XMM6
				1855	.endif
				1856
				1857	vmovdqu 16*6(arg3, %r11), \T1
				1858	vpxor \T1, \XMM7, \XMM7
				1859	vmovdqu \XMM7, 16*6(arg2 , %r11)
				1860	.if \ENC_DEC == DEC
				1861	vmovdqa \T1, \XMM7
				1862	.endif
				1863
				1864	vmovdqu 16*7(arg3, %r11), \T1
				1865	vpxor \T1, \XMM8, \XMM8
				1866	vmovdqu \XMM8, 16*7(arg2 , %r11)
				1867	.if \ENC_DEC == DEC
				1868	vmovdqa \T1, \XMM8
				1869	.endif
				1870
				1871	add $128, %r11
				1872
				1873	vpshufb SHUF_MASK(%rip), \XMM1, \XMM1 # perform a 16Byte swap
				1874	vpxor TMP1(%rsp), \XMM1, \XMM1 # combine GHASHed value with
				1875	# the corresponding ciphertext
				1876	vpshufb SHUF_MASK(%rip), \XMM2, \XMM2 # perform a 16Byte swap
				1877	vpshufb SHUF_MASK(%rip), \XMM3, \XMM3 # perform a 16Byte swap
				1878	vpshufb SHUF_MASK(%rip), \XMM4, \XMM4 # perform a 16Byte swap
				1879	vpshufb SHUF_MASK(%rip), \XMM5, \XMM5 # perform a 16Byte swap
				1880	vpshufb SHUF_MASK(%rip), \XMM6, \XMM6 # perform a 16Byte swap
				1881	vpshufb SHUF_MASK(%rip), \XMM7, \XMM7 # perform a 16Byte swap
				1882	vpshufb SHUF_MASK(%rip), \XMM8, \XMM8 # perform a 16Byte swap
				1883
				1884	###############################################################################
				1885
				1886	_initial_blocks_done\@:
				1887
				1888
				1889	.endm
				1890
				1891
				1892
				1893	# encrypt 8 blocks at a time
				1894	# ghash the 8 previously encrypted ciphertext blocks
				1895	# arg1, arg2, arg3 are used as pointers only, not modified
				1896	# r11 is the data offset value
				1897	.macro GHASH_8_ENCRYPT_8_PARALLEL_AVX2 T1 T2 T3 T4 T5 T6 CTR XMM1 XMM2 XMM3 XMM4 XMM5 XMM6 XMM7 XMM8 T7 loop_idx ENC_DEC
				1898
				1899	vmovdqa \XMM1, \T2
				1900	vmovdqa \XMM2, TMP2(%rsp)
				1901	vmovdqa \XMM3, TMP3(%rsp)
				1902	vmovdqa \XMM4, TMP4(%rsp)
				1903	vmovdqa \XMM5, TMP5(%rsp)
				1904	vmovdqa \XMM6, TMP6(%rsp)
				1905	vmovdqa \XMM7, TMP7(%rsp)
				1906	vmovdqa \XMM8, TMP8(%rsp)
				1907
				1908	.if \loop_idx == in_order
				1909	vpaddd ONE(%rip), \CTR, \XMM1 # INCR CNT
				1910	vpaddd ONE(%rip), \XMM1, \XMM2
				1911	vpaddd ONE(%rip), \XMM2, \XMM3
				1912	vpaddd ONE(%rip), \XMM3, \XMM4
				1913	vpaddd ONE(%rip), \XMM4, \XMM5
				1914	vpaddd ONE(%rip), \XMM5, \XMM6
				1915	vpaddd ONE(%rip), \XMM6, \XMM7
				1916	vpaddd ONE(%rip), \XMM7, \XMM8
				1917	vmovdqa \XMM8, \CTR
				1918
				1919	vpshufb SHUF_MASK(%rip), \XMM1, \XMM1 # perform a 16Byte swap
				1920	vpshufb SHUF_MASK(%rip), \XMM2, \XMM2 # perform a 16Byte swap
				1921	vpshufb SHUF_MASK(%rip), \XMM3, \XMM3 # perform a 16Byte swap
				1922	vpshufb SHUF_MASK(%rip), \XMM4, \XMM4 # perform a 16Byte swap
				1923	vpshufb SHUF_MASK(%rip), \XMM5, \XMM5 # perform a 16Byte swap
				1924	vpshufb SHUF_MASK(%rip), \XMM6, \XMM6 # perform a 16Byte swap
				1925	vpshufb SHUF_MASK(%rip), \XMM7, \XMM7 # perform a 16Byte swap
				1926	vpshufb SHUF_MASK(%rip), \XMM8, \XMM8 # perform a 16Byte swap
				1927	.else
				1928	vpaddd ONEf(%rip), \CTR, \XMM1 # INCR CNT
				1929	vpaddd ONEf(%rip), \XMM1, \XMM2
				1930	vpaddd ONEf(%rip), \XMM2, \XMM3
				1931	vpaddd ONEf(%rip), \XMM3, \XMM4
				1932	vpaddd ONEf(%rip), \XMM4, \XMM5
				1933	vpaddd ONEf(%rip), \XMM5, \XMM6
				1934	vpaddd ONEf(%rip), \XMM6, \XMM7
				1935	vpaddd ONEf(%rip), \XMM7, \XMM8
				1936	vmovdqa \XMM8, \CTR
				1937	.endif
				1938
				1939
				1940	#######################################################################
				1941
				1942	vmovdqu (arg1), \T1
				1943	vpxor \T1, \XMM1, \XMM1
				1944	vpxor \T1, \XMM2, \XMM2
				1945	vpxor \T1, \XMM3, \XMM3
				1946	vpxor \T1, \XMM4, \XMM4
				1947	vpxor \T1, \XMM5, \XMM5
				1948	vpxor \T1, \XMM6, \XMM6
				1949	vpxor \T1, \XMM7, \XMM7
				1950	vpxor \T1, \XMM8, \XMM8
				1951
				1952	#######################################################################
				1953
				1954
				1955
				1956
				1957
				1958	vmovdqu 16*1(arg1), \T1
				1959	vaesenc \T1, \XMM1, \XMM1
				1960	vaesenc \T1, \XMM2, \XMM2
				1961	vaesenc \T1, \XMM3, \XMM3
				1962	vaesenc \T1, \XMM4, \XMM4
				1963	vaesenc \T1, \XMM5, \XMM5
				1964	vaesenc \T1, \XMM6, \XMM6
				1965	vaesenc \T1, \XMM7, \XMM7
				1966	vaesenc \T1, \XMM8, \XMM8
				1967
				1968	vmovdqu 16*2(arg1), \T1
				1969	vaesenc \T1, \XMM1, \XMM1
				1970	vaesenc \T1, \XMM2, \XMM2
				1971	vaesenc \T1, \XMM3, \XMM3
				1972	vaesenc \T1, \XMM4, \XMM4
				1973	vaesenc \T1, \XMM5, \XMM5
				1974	vaesenc \T1, \XMM6, \XMM6
				1975	vaesenc \T1, \XMM7, \XMM7
				1976	vaesenc \T1, \XMM8, \XMM8
				1977
				1978
				1979	#######################################################################
				1980
				1981	vmovdqa HashKey_8(arg1), \T5
				1982	vpclmulqdq $0x11, \T5, \T2, \T4 # T4 = a1*b1
				1983	vpclmulqdq $0x00, \T5, \T2, \T7 # T7 = a0*b0
				1984	vpclmulqdq $0x01, \T5, \T2, \T6 # T6 = a1*b0
				1985	vpclmulqdq $0x10, \T5, \T2, \T5 # T5 = a0*b1
				1986	vpxor \T5, \T6, \T6
				1987
				1988	vmovdqu 16*3(arg1), \T1
				1989	vaesenc \T1, \XMM1, \XMM1
				1990	vaesenc \T1, \XMM2, \XMM2
				1991	vaesenc \T1, \XMM3, \XMM3
				1992	vaesenc \T1, \XMM4, \XMM4
				1993	vaesenc \T1, \XMM5, \XMM5
				1994	vaesenc \T1, \XMM6, \XMM6
				1995	vaesenc \T1, \XMM7, \XMM7
				1996	vaesenc \T1, \XMM8, \XMM8
				1997
				1998	vmovdqa TMP2(%rsp), \T1
				1999	vmovdqa HashKey_7(arg1), \T5
				2000	vpclmulqdq $0x11, \T5, \T1, \T3
				2001	vpxor \T3, \T4, \T4
				2002
				2003	vpclmulqdq $0x00, \T5, \T1, \T3
				2004	vpxor \T3, \T7, \T7
				2005
				2006	vpclmulqdq $0x01, \T5, \T1, \T3
				2007	vpxor \T3, \T6, \T6
				2008
				2009	vpclmulqdq $0x10, \T5, \T1, \T3
				2010	vpxor \T3, \T6, \T6
				2011
				2012	vmovdqu 16*4(arg1), \T1
				2013	vaesenc \T1, \XMM1, \XMM1
				2014	vaesenc \T1, \XMM2, \XMM2
				2015	vaesenc \T1, \XMM3, \XMM3
				2016	vaesenc \T1, \XMM4, \XMM4
				2017	vaesenc \T1, \XMM5, \XMM5
				2018	vaesenc \T1, \XMM6, \XMM6
				2019	vaesenc \T1, \XMM7, \XMM7
				2020	vaesenc \T1, \XMM8, \XMM8
				2021
				2022	#######################################################################
				2023
				2024	vmovdqa TMP3(%rsp), \T1
				2025	vmovdqa HashKey_6(arg1), \T5
				2026	vpclmulqdq $0x11, \T5, \T1, \T3
				2027	vpxor \T3, \T4, \T4
				2028
				2029	vpclmulqdq $0x00, \T5, \T1, \T3
				2030	vpxor \T3, \T7, \T7
				2031
				2032	vpclmulqdq $0x01, \T5, \T1, \T3
				2033	vpxor \T3, \T6, \T6
				2034
				2035	vpclmulqdq $0x10, \T5, \T1, \T3
				2036	vpxor \T3, \T6, \T6
				2037
				2038	vmovdqu 16*5(arg1), \T1
				2039	vaesenc \T1, \XMM1, \XMM1
				2040	vaesenc \T1, \XMM2, \XMM2
				2041	vaesenc \T1, \XMM3, \XMM3
				2042	vaesenc \T1, \XMM4, \XMM4
				2043	vaesenc \T1, \XMM5, \XMM5
				2044	vaesenc \T1, \XMM6, \XMM6
				2045	vaesenc \T1, \XMM7, \XMM7
				2046	vaesenc \T1, \XMM8, \XMM8
				2047
				2048	vmovdqa TMP4(%rsp), \T1
				2049	vmovdqa HashKey_5(arg1), \T5
				2050	vpclmulqdq $0x11, \T5, \T1, \T3
				2051	vpxor \T3, \T4, \T4
				2052
				2053	vpclmulqdq $0x00, \T5, \T1, \T3
				2054	vpxor \T3, \T7, \T7
				2055
				2056	vpclmulqdq $0x01, \T5, \T1, \T3
				2057	vpxor \T3, \T6, \T6
				2058
				2059	vpclmulqdq $0x10, \T5, \T1, \T3
				2060	vpxor \T3, \T6, \T6
				2061
				2062	vmovdqu 16*6(arg1), \T1
				2063	vaesenc \T1, \XMM1, \XMM1
				2064	vaesenc \T1, \XMM2, \XMM2
				2065	vaesenc \T1, \XMM3, \XMM3
				2066	vaesenc \T1, \XMM4, \XMM4
				2067	vaesenc \T1, \XMM5, \XMM5
				2068	vaesenc \T1, \XMM6, \XMM6
				2069	vaesenc \T1, \XMM7, \XMM7
				2070	vaesenc \T1, \XMM8, \XMM8
				2071
				2072
				2073	vmovdqa TMP5(%rsp), \T1
				2074	vmovdqa HashKey_4(arg1), \T5
				2075	vpclmulqdq $0x11, \T5, \T1, \T3
				2076	vpxor \T3, \T4, \T4
				2077
				2078	vpclmulqdq $0x00, \T5, \T1, \T3
				2079	vpxor \T3, \T7, \T7
				2080
				2081	vpclmulqdq $0x01, \T5, \T1, \T3
				2082	vpxor \T3, \T6, \T6
				2083
				2084	vpclmulqdq $0x10, \T5, \T1, \T3
				2085	vpxor \T3, \T6, \T6
				2086
				2087	vmovdqu 16*7(arg1), \T1
				2088	vaesenc \T1, \XMM1, \XMM1
				2089	vaesenc \T1, \XMM2, \XMM2
				2090	vaesenc \T1, \XMM3, \XMM3
				2091	vaesenc \T1, \XMM4, \XMM4
				2092	vaesenc \T1, \XMM5, \XMM5
				2093	vaesenc \T1, \XMM6, \XMM6
				2094	vaesenc \T1, \XMM7, \XMM7
				2095	vaesenc \T1, \XMM8, \XMM8
				2096
				2097	vmovdqa TMP6(%rsp), \T1
				2098	vmovdqa HashKey_3(arg1), \T5
				2099	vpclmulqdq $0x11, \T5, \T1, \T3
				2100	vpxor \T3, \T4, \T4
				2101
				2102	vpclmulqdq $0x00, \T5, \T1, \T3
				2103	vpxor \T3, \T7, \T7
				2104
				2105	vpclmulqdq $0x01, \T5, \T1, \T3
				2106	vpxor \T3, \T6, \T6
				2107
				2108	vpclmulqdq $0x10, \T5, \T1, \T3
				2109	vpxor \T3, \T6, \T6
				2110
				2111	vmovdqu 16*8(arg1), \T1
				2112	vaesenc \T1, \XMM1, \XMM1
				2113	vaesenc \T1, \XMM2, \XMM2
				2114	vaesenc \T1, \XMM3, \XMM3
				2115	vaesenc \T1, \XMM4, \XMM4
				2116	vaesenc \T1, \XMM5, \XMM5
				2117	vaesenc \T1, \XMM6, \XMM6
				2118	vaesenc \T1, \XMM7, \XMM7
				2119	vaesenc \T1, \XMM8, \XMM8
				2120
				2121	vmovdqa TMP7(%rsp), \T1
				2122	vmovdqa HashKey_2(arg1), \T5
				2123	vpclmulqdq $0x11, \T5, \T1, \T3
				2124	vpxor \T3, \T4, \T4
				2125
				2126	vpclmulqdq $0x00, \T5, \T1, \T3
				2127	vpxor \T3, \T7, \T7
				2128
				2129	vpclmulqdq $0x01, \T5, \T1, \T3
				2130	vpxor \T3, \T6, \T6
				2131
				2132	vpclmulqdq $0x10, \T5, \T1, \T3
				2133	vpxor \T3, \T6, \T6
				2134
				2135
				2136	#######################################################################
				2137
				2138	vmovdqu 16*9(arg1), \T5
				2139	vaesenc \T5, \XMM1, \XMM1
				2140	vaesenc \T5, \XMM2, \XMM2
				2141	vaesenc \T5, \XMM3, \XMM3
				2142	vaesenc \T5, \XMM4, \XMM4
				2143	vaesenc \T5, \XMM5, \XMM5
				2144	vaesenc \T5, \XMM6, \XMM6
				2145	vaesenc \T5, \XMM7, \XMM7
				2146	vaesenc \T5, \XMM8, \XMM8
				2147
				2148	vmovdqa TMP8(%rsp), \T1
				2149	vmovdqa HashKey(arg1), \T5
				2150
				2151	vpclmulqdq $0x00, \T5, \T1, \T3
				2152	vpxor \T3, \T7, \T7
				2153
				2154	vpclmulqdq $0x01, \T5, \T1, \T3
				2155	vpxor \T3, \T6, \T6
				2156
				2157	vpclmulqdq $0x10, \T5, \T1, \T3
				2158	vpxor \T3, \T6, \T6
				2159
				2160	vpclmulqdq $0x11, \T5, \T1, \T3
				2161	vpxor \T3, \T4, \T1
				2162
				2163
				2164	vmovdqu 16*10(arg1), \T5
				2165
				2166	i = 0
				2167	j = 1
				2168	setreg
				2169	.rep 8
				2170	vpxor 16*i(arg3, %r11), \T5, \T2
				2171	.if \ENC_DEC == ENC
				2172	vaesenclast \T2, reg_j, reg_j
				2173	.else
				2174	vaesenclast \T2, reg_j, \T3
				2175	vmovdqu 16*i(arg3, %r11), reg_j
				2176	vmovdqu \T3, 16*i(arg2, %r11)
				2177	.endif
				2178	i = (i+1)
				2179	j = (j+1)
				2180	setreg
				2181	.endr
				2182	#######################################################################
				2183
				2184
				2185	vpslldq $8, \T6, \T3 # shift-L T3 2 DWs
				2186	vpsrldq $8, \T6, \T6 # shift-R T2 2 DWs
				2187	vpxor \T3, \T7, \T7
				2188	vpxor \T6, \T1, \T1 # accumulate the results in T1:T7
				2189
				2190
				2191
				2192	#######################################################################
				2193	#first phase of the reduction
				2194	vmovdqa POLY2(%rip), \T3
				2195
				2196	vpclmulqdq $0x01, \T7, \T3, \T2
				2197	vpslldq $8, \T2, \T2 # shift-L xmm2 2 DWs
				2198
				2199	vpxor \T2, \T7, \T7 # first phase of the reduction complete
				2200	#######################################################################
				2201	.if \ENC_DEC == ENC
				2202	vmovdqu \XMM1, 16*0(arg2,%r11) # Write to the Ciphertext buffer
				2203	vmovdqu \XMM2, 16*1(arg2,%r11) # Write to the Ciphertext buffer
				2204	vmovdqu \XMM3, 16*2(arg2,%r11) # Write to the Ciphertext buffer
				2205	vmovdqu \XMM4, 16*3(arg2,%r11) # Write to the Ciphertext buffer
				2206	vmovdqu \XMM5, 16*4(arg2,%r11) # Write to the Ciphertext buffer
				2207	vmovdqu \XMM6, 16*5(arg2,%r11) # Write to the Ciphertext buffer
				2208	vmovdqu \XMM7, 16*6(arg2,%r11) # Write to the Ciphertext buffer
				2209	vmovdqu \XMM8, 16*7(arg2,%r11) # Write to the Ciphertext buffer
				2210	.endif
				2211
				2212	#######################################################################
				2213	#second phase of the reduction
				2214	vpclmulqdq $0x00, \T7, \T3, \T2
				2215	vpsrldq $4, \T2, \T2 # shift-R xmm2 1 DW (Shift-R only 1-DW to obtain 2-DWs shift-R)
				2216
				2217	vpclmulqdq $0x10, \T7, \T3, \T4
				2218	vpslldq $4, \T4, \T4 # shift-L xmm0 1 DW (Shift-L 1-DW to obtain result with no shifts)
				2219
				2220	vpxor \T2, \T4, \T4 # second phase of the reduction complete
				2221	#######################################################################
				2222	vpxor \T4, \T1, \T1 # the result is in T1
				2223
				2224	vpshufb SHUF_MASK(%rip), \XMM1, \XMM1 # perform a 16Byte swap
				2225	vpshufb SHUF_MASK(%rip), \XMM2, \XMM2 # perform a 16Byte swap
				2226	vpshufb SHUF_MASK(%rip), \XMM3, \XMM3 # perform a 16Byte swap
				2227	vpshufb SHUF_MASK(%rip), \XMM4, \XMM4 # perform a 16Byte swap
				2228	vpshufb SHUF_MASK(%rip), \XMM5, \XMM5 # perform a 16Byte swap
				2229	vpshufb SHUF_MASK(%rip), \XMM6, \XMM6 # perform a 16Byte swap
				2230	vpshufb SHUF_MASK(%rip), \XMM7, \XMM7 # perform a 16Byte swap
				2231	vpshufb SHUF_MASK(%rip), \XMM8, \XMM8 # perform a 16Byte swap
				2232
				2233
				2234	vpxor \T1, \XMM1, \XMM1
				2235
				2236
				2237
				2238	.endm
				2239
				2240
				2241	# GHASH the last 4 ciphertext blocks.
				2242	.macro GHASH_LAST_8_AVX2 T1 T2 T3 T4 T5 T6 T7 XMM1 XMM2 XMM3 XMM4 XMM5 XMM6 XMM7 XMM8
				2243
				2244	## Karatsuba Method
				2245
				2246	vmovdqa HashKey_8(arg1), \T5
				2247
				2248	vpshufd $0b01001110, \XMM1, \T2
				2249	vpshufd $0b01001110, \T5, \T3
				2250	vpxor \XMM1, \T2, \T2
				2251	vpxor \T5, \T3, \T3
				2252
				2253	vpclmulqdq $0x11, \T5, \XMM1, \T6
				2254	vpclmulqdq $0x00, \T5, \XMM1, \T7
				2255
				2256	vpclmulqdq $0x00, \T3, \T2, \XMM1
				2257
				2258	######################
				2259
				2260	vmovdqa HashKey_7(arg1), \T5
				2261	vpshufd $0b01001110, \XMM2, \T2
				2262	vpshufd $0b01001110, \T5, \T3
				2263	vpxor \XMM2, \T2, \T2
				2264	vpxor \T5, \T3, \T3
				2265
				2266	vpclmulqdq $0x11, \T5, \XMM2, \T4
				2267	vpxor \T4, \T6, \T6
				2268
				2269	vpclmulqdq $0x00, \T5, \XMM2, \T4
				2270	vpxor \T4, \T7, \T7
				2271
				2272	vpclmulqdq $0x00, \T3, \T2, \T2
				2273
				2274	vpxor \T2, \XMM1, \XMM1
				2275
				2276	######################
				2277
				2278	vmovdqa HashKey_6(arg1), \T5
				2279	vpshufd $0b01001110, \XMM3, \T2
				2280	vpshufd $0b01001110, \T5, \T3
				2281	vpxor \XMM3, \T2, \T2
				2282	vpxor \T5, \T3, \T3
				2283
				2284	vpclmulqdq $0x11, \T5, \XMM3, \T4
				2285	vpxor \T4, \T6, \T6
				2286
				2287	vpclmulqdq $0x00, \T5, \XMM3, \T4
				2288	vpxor \T4, \T7, \T7
				2289
				2290	vpclmulqdq $0x00, \T3, \T2, \T2
				2291
				2292	vpxor \T2, \XMM1, \XMM1
				2293
				2294	######################
				2295
				2296	vmovdqa HashKey_5(arg1), \T5
				2297	vpshufd $0b01001110, \XMM4, \T2
				2298	vpshufd $0b01001110, \T5, \T3
				2299	vpxor \XMM4, \T2, \T2
				2300	vpxor \T5, \T3, \T3
				2301
				2302	vpclmulqdq $0x11, \T5, \XMM4, \T4
				2303	vpxor \T4, \T6, \T6
				2304
				2305	vpclmulqdq $0x00, \T5, \XMM4, \T4
				2306	vpxor \T4, \T7, \T7
				2307
				2308	vpclmulqdq $0x00, \T3, \T2, \T2
				2309
				2310	vpxor \T2, \XMM1, \XMM1
				2311
				2312	######################
				2313
				2314	vmovdqa HashKey_4(arg1), \T5
				2315	vpshufd $0b01001110, \XMM5, \T2
				2316	vpshufd $0b01001110, \T5, \T3
				2317	vpxor \XMM5, \T2, \T2
				2318	vpxor \T5, \T3, \T3
				2319
				2320	vpclmulqdq $0x11, \T5, \XMM5, \T4
				2321	vpxor \T4, \T6, \T6
				2322
				2323	vpclmulqdq $0x00, \T5, \XMM5, \T4
				2324	vpxor \T4, \T7, \T7
				2325
				2326	vpclmulqdq $0x00, \T3, \T2, \T2
				2327
				2328	vpxor \T2, \XMM1, \XMM1
				2329
				2330	######################
				2331
				2332	vmovdqa HashKey_3(arg1), \T5
				2333	vpshufd $0b01001110, \XMM6, \T2
				2334	vpshufd $0b01001110, \T5, \T3
				2335	vpxor \XMM6, \T2, \T2
				2336	vpxor \T5, \T3, \T3
				2337
				2338	vpclmulqdq $0x11, \T5, \XMM6, \T4
				2339	vpxor \T4, \T6, \T6
				2340
				2341	vpclmulqdq $0x00, \T5, \XMM6, \T4
				2342	vpxor \T4, \T7, \T7
				2343
				2344	vpclmulqdq $0x00, \T3, \T2, \T2
				2345
				2346	vpxor \T2, \XMM1, \XMM1
				2347
				2348	######################
				2349
				2350	vmovdqa HashKey_2(arg1), \T5
				2351	vpshufd $0b01001110, \XMM7, \T2
				2352	vpshufd $0b01001110, \T5, \T3
				2353	vpxor \XMM7, \T2, \T2
				2354	vpxor \T5, \T3, \T3
				2355
				2356	vpclmulqdq $0x11, \T5, \XMM7, \T4
				2357	vpxor \T4, \T6, \T6
				2358
				2359	vpclmulqdq $0x00, \T5, \XMM7, \T4
				2360	vpxor \T4, \T7, \T7
				2361
				2362	vpclmulqdq $0x00, \T3, \T2, \T2
				2363
				2364	vpxor \T2, \XMM1, \XMM1
				2365
				2366	######################
				2367
				2368	vmovdqa HashKey(arg1), \T5
				2369	vpshufd $0b01001110, \XMM8, \T2
				2370	vpshufd $0b01001110, \T5, \T3
				2371	vpxor \XMM8, \T2, \T2
				2372	vpxor \T5, \T3, \T3
				2373
				2374	vpclmulqdq $0x11, \T5, \XMM8, \T4
				2375	vpxor \T4, \T6, \T6
				2376
				2377	vpclmulqdq $0x00, \T5, \XMM8, \T4
				2378	vpxor \T4, \T7, \T7
				2379
				2380	vpclmulqdq $0x00, \T3, \T2, \T2
				2381
				2382	vpxor \T2, \XMM1, \XMM1
				2383	vpxor \T6, \XMM1, \XMM1
				2384	vpxor \T7, \XMM1, \T2
				2385
				2386
				2387
				2388
				2389	vpslldq $8, \T2, \T4
				2390	vpsrldq $8, \T2, \T2
				2391
				2392	vpxor \T4, \T7, \T7
				2393	vpxor \T2, \T6, \T6 # <T6:T7> holds the result of the
				2394	# accumulated carry-less multiplications
				2395
				2396	#######################################################################
				2397	#first phase of the reduction
				2398	vmovdqa POLY2(%rip), \T3
				2399
				2400	vpclmulqdq $0x01, \T7, \T3, \T2
				2401	vpslldq $8, \T2, \T2 # shift-L xmm2 2 DWs
				2402
				2403	vpxor \T2, \T7, \T7 # first phase of the reduction complete
				2404	#######################################################################
				2405
				2406
				2407	#second phase of the reduction
				2408	vpclmulqdq $0x00, \T7, \T3, \T2
				2409	vpsrldq $4, \T2, \T2 # shift-R T2 1 DW (Shift-R only 1-DW to obtain 2-DWs shift-R)
				2410
				2411	vpclmulqdq $0x10, \T7, \T3, \T4
				2412	vpslldq $4, \T4, \T4 # shift-L T4 1 DW (Shift-L 1-DW to obtain result with no shifts)
				2413
				2414	vpxor \T2, \T4, \T4 # second phase of the reduction complete
				2415	#######################################################################
				2416	vpxor \T4, \T6, \T6 # the result is in T6
				2417	.endm
				2418
				2419
				2420
				2421	# combined for GCM encrypt and decrypt functions
				2422	# clobbering all xmm registers
				2423	# clobbering r10, r11, r12, r13, r14, r15
				2424	.macro GCM_ENC_DEC_AVX2 ENC_DEC
				2425
				2426	#the number of pushes must equal STACK_OFFSET
				2427	push %r12
				2428	push %r13
				2429	push %r14
				2430	push %r15
				2431
				2432	mov %rsp, %r14
				2433
				2434
				2435
				2436
				2437	sub $VARIABLE_OFFSET, %rsp
				2438	and $~63, %rsp # align rsp to 64 bytes
				2439
				2440
				2441	vmovdqu HashKey(arg1), %xmm13 # xmm13 = HashKey
				2442
				2443	mov arg4, %r13 # save the number of bytes of plaintext/ciphertext
				2444	and $-16, %r13 # r13 = r13 - (r13 mod 16)
				2445
				2446	mov %r13, %r12
				2447	shr $4, %r12
				2448	and $7, %r12
				2449	jz _initial_num_blocks_is_0\@
				2450
				2451	cmp $7, %r12
				2452	je _initial_num_blocks_is_7\@
				2453	cmp $6, %r12
				2454	je _initial_num_blocks_is_6\@
				2455	cmp $5, %r12
				2456	je _initial_num_blocks_is_5\@
				2457	cmp $4, %r12
				2458	je _initial_num_blocks_is_4\@
				2459	cmp $3, %r12
				2460	je _initial_num_blocks_is_3\@
				2461	cmp $2, %r12
				2462	je _initial_num_blocks_is_2\@
				2463
				2464	jmp _initial_num_blocks_is_1\@
				2465
				2466	_initial_num_blocks_is_7\@:
				2467	INITIAL_BLOCKS_AVX2 7, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				2468	sub $16*7, %r13
				2469	jmp _initial_blocks_encrypted\@
				2470
				2471	_initial_num_blocks_is_6\@:
				2472	INITIAL_BLOCKS_AVX2 6, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				2473	sub $16*6, %r13
				2474	jmp _initial_blocks_encrypted\@
				2475
				2476	_initial_num_blocks_is_5\@:
				2477	INITIAL_BLOCKS_AVX2 5, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				2478	sub $16*5, %r13
				2479	jmp _initial_blocks_encrypted\@
				2480
				2481	_initial_num_blocks_is_4\@:
				2482	INITIAL_BLOCKS_AVX2 4, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				2483	sub $16*4, %r13
				2484	jmp _initial_blocks_encrypted\@
				2485
				2486	_initial_num_blocks_is_3\@:
				2487	INITIAL_BLOCKS_AVX2 3, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				2488	sub $16*3, %r13
				2489	jmp _initial_blocks_encrypted\@
				2490
				2491	_initial_num_blocks_is_2\@:
				2492	INITIAL_BLOCKS_AVX2 2, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				2493	sub $16*2, %r13
				2494	jmp _initial_blocks_encrypted\@
				2495
				2496	_initial_num_blocks_is_1\@:
				2497	INITIAL_BLOCKS_AVX2 1, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				2498	sub $16*1, %r13
				2499	jmp _initial_blocks_encrypted\@
				2500
				2501	_initial_num_blocks_is_0\@:
				2502	INITIAL_BLOCKS_AVX2 0, %xmm12, %xmm13, %xmm14, %xmm15, %xmm11, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm10, %xmm0, \ENC_DEC
				2503
				2504
				2505	_initial_blocks_encrypted\@:
				2506	cmp $0, %r13
				2507	je _zero_cipher_left\@
				2508
				2509	sub $128, %r13
				2510	je _eight_cipher_left\@
				2511
				2512
				2513
				2514
				2515	vmovd %xmm9, %r15d
				2516	and $255, %r15d
				2517	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				2518
				2519
				2520	_encrypt_by_8_new\@:
				2521	cmp $(255-8), %r15d
				2522	jg _encrypt_by_8\@
				2523
				2524
				2525
				2526	add $8, %r15b
				2527	GHASH_8_ENCRYPT_8_PARALLEL_AVX2 %xmm0, %xmm10, %xmm11, %xmm12, %xmm13, %xmm14, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm15, out_order, \ENC_DEC
				2528	add $128, %r11
				2529	sub $128, %r13
				2530	jne _encrypt_by_8_new\@
				2531
				2532	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				2533	jmp _eight_cipher_left\@
				2534
				2535	_encrypt_by_8\@:
				2536	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				2537	add $8, %r15b
				2538	GHASH_8_ENCRYPT_8_PARALLEL_AVX2 %xmm0, %xmm10, %xmm11, %xmm12, %xmm13, %xmm14, %xmm9, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8, %xmm15, in_order, \ENC_DEC
				2539	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				2540	add $128, %r11
				2541	sub $128, %r13
				2542	jne _encrypt_by_8_new\@
				2543
				2544	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				2545
				2546
				2547
				2548
				2549	_eight_cipher_left\@:
				2550	GHASH_LAST_8_AVX2 %xmm0, %xmm10, %xmm11, %xmm12, %xmm13, %xmm14, %xmm15, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5, %xmm6, %xmm7, %xmm8
				2551
				2552
				2553	_zero_cipher_left\@:
				2554	cmp $16, arg4
				2555	jl _only_less_than_16\@
				2556
				2557	mov arg4, %r13
				2558	and $15, %r13 # r13 = (arg4 mod 16)
				2559
				2560	je _multiple_of_16_bytes\@
				2561
				2562	# handle the last <16 Byte block seperately
				2563
				2564
				2565	vpaddd ONE(%rip), %xmm9, %xmm9 # INCR CNT to get Yn
				2566	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				2567	ENCRYPT_SINGLE_BLOCK %xmm9 # E(K, Yn)
				2568
				2569	sub $16, %r11
				2570	add %r13, %r11
				2571	vmovdqu (arg3, %r11), %xmm1 # receive the last <16 Byte block
				2572
				2573	lea SHIFT_MASK+16(%rip), %r12
				2574	sub %r13, %r12 # adjust the shuffle mask pointer
				2575	# to be able to shift 16-r13 bytes
				2576	# (r13 is the number of bytes in plaintext mod 16)
				2577	vmovdqu (%r12), %xmm2 # get the appropriate shuffle mask
				2578	vpshufb %xmm2, %xmm1, %xmm1 # shift right 16-r13 bytes
				2579	jmp _final_ghash_mul\@
				2580
				2581	_only_less_than_16\@:
				2582	# check for 0 length
				2583	mov arg4, %r13
				2584	and $15, %r13 # r13 = (arg4 mod 16)
				2585
				2586	je _multiple_of_16_bytes\@
				2587
				2588	# handle the last <16 Byte block seperately
				2589
				2590
				2591	vpaddd ONE(%rip), %xmm9, %xmm9 # INCR CNT to get Yn
				2592	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				2593	ENCRYPT_SINGLE_BLOCK %xmm9 # E(K, Yn)
				2594
				2595
				2596	lea SHIFT_MASK+16(%rip), %r12
				2597	sub %r13, %r12 # adjust the shuffle mask pointer to be
				2598	# able to shift 16-r13 bytes (r13 is the
				2599	# number of bytes in plaintext mod 16)
				2600
				2601	_get_last_16_byte_loop\@:
				2602	movb (arg3, %r11), %al
				2603	movb %al, TMP1 (%rsp , %r11)
				2604	add $1, %r11
				2605	cmp %r13, %r11
				2606	jne _get_last_16_byte_loop\@
				2607
				2608	vmovdqu TMP1(%rsp), %xmm1
				2609
				2610	sub $16, %r11
				2611
				2612	_final_ghash_mul\@:
				2613	.if \ENC_DEC == DEC
				2614	vmovdqa %xmm1, %xmm2
				2615	vpxor %xmm1, %xmm9, %xmm9 # Plaintext XOR E(K, Yn)
				2616	vmovdqu ALL_F-SHIFT_MASK(%r12), %xmm1 # get the appropriate mask to mask out top 16-r13 bytes of xmm9
				2617	vpand %xmm1, %xmm9, %xmm9 # mask out top 16-r13 bytes of xmm9
				2618	vpand %xmm1, %xmm2, %xmm2
				2619	vpshufb SHUF_MASK(%rip), %xmm2, %xmm2
				2620	vpxor %xmm2, %xmm14, %xmm14
				2621	#GHASH computation for the last <16 Byte block
				2622	GHASH_MUL_AVX2 %xmm14, %xmm13, %xmm0, %xmm10, %xmm11, %xmm5, %xmm6
				2623	sub %r13, %r11
				2624	add $16, %r11
				2625	.else
				2626	vpxor %xmm1, %xmm9, %xmm9 # Plaintext XOR E(K, Yn)
				2627	vmovdqu ALL_F-SHIFT_MASK(%r12), %xmm1 # get the appropriate mask to mask out top 16-r13 bytes of xmm9
				2628	vpand %xmm1, %xmm9, %xmm9 # mask out top 16-r13 bytes of xmm9
				2629	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9
				2630	vpxor %xmm9, %xmm14, %xmm14
				2631	#GHASH computation for the last <16 Byte block
				2632	GHASH_MUL_AVX2 %xmm14, %xmm13, %xmm0, %xmm10, %xmm11, %xmm5, %xmm6
				2633	sub %r13, %r11
				2634	add $16, %r11
				2635	vpshufb SHUF_MASK(%rip), %xmm9, %xmm9 # shuffle xmm9 back to output as ciphertext
				2636	.endif
				2637
				2638
				2639	#############################
				2640	# output r13 Bytes
				2641	vmovq %xmm9, %rax
				2642	cmp $8, %r13
				2643	jle _less_than_8_bytes_left\@
				2644
				2645	mov %rax, (arg2 , %r11)
				2646	add $8, %r11
				2647	vpsrldq $8, %xmm9, %xmm9
				2648	vmovq %xmm9, %rax
				2649	sub $8, %r13
				2650
				2651	_less_than_8_bytes_left\@:
				2652	movb %al, (arg2 , %r11)
				2653	add $1, %r11
				2654	shr $8, %rax
				2655	sub $1, %r13
				2656	jne _less_than_8_bytes_left\@
				2657	#############################
				2658
				2659	_multiple_of_16_bytes\@:
				2660	mov arg7, %r12 # r12 = aadLen (number of bytes)
				2661	shl $3, %r12 # convert into number of bits
				2662	vmovd %r12d, %xmm15 # len(A) in xmm15
				2663
				2664	shl $3, arg4 # len(C) in bits (*128)
				2665	vmovq arg4, %xmm1
				2666	vpslldq $8, %xmm15, %xmm15 # xmm15 = len(A)\|\| 0x0000000000000000
				2667	vpxor %xmm1, %xmm15, %xmm15 # xmm15 = len(A)\|\|len(C)
				2668
				2669	vpxor %xmm15, %xmm14, %xmm14
				2670	GHASH_MUL_AVX2 %xmm14, %xmm13, %xmm0, %xmm10, %xmm11, %xmm5, %xmm6 # final GHASH computation
				2671	vpshufb SHUF_MASK(%rip), %xmm14, %xmm14 # perform a 16Byte swap
				2672
				2673	mov arg5, %rax # rax = *Y0
				2674	vmovdqu (%rax), %xmm9 # xmm9 = Y0
				2675
				2676	ENCRYPT_SINGLE_BLOCK %xmm9 # E(K, Y0)
				2677
				2678	vpxor %xmm14, %xmm9, %xmm9
				2679
				2680
				2681
				2682	_return_T\@:
				2683	mov arg8, %r10 # r10 = authTag
				2684	mov arg9, %r11 # r11 = auth_tag_len
				2685
				2686	cmp $16, %r11
				2687	je _T_16\@
				2688
				2689	cmp $12, %r11
				2690	je _T_12\@
				2691
				2692	_T_8\@:
				2693	vmovq %xmm9, %rax
				2694	mov %rax, (%r10)
				2695	jmp _return_T_done\@
				2696	_T_12\@:
				2697	vmovq %xmm9, %rax
				2698	mov %rax, (%r10)
				2699	vpsrldq $8, %xmm9, %xmm9
				2700	vmovd %xmm9, %eax
				2701	mov %eax, 8(%r10)
				2702	jmp _return_T_done\@
				2703
				2704	_T_16\@:
				2705	vmovdqu %xmm9, (%r10)
				2706
				2707	_return_T_done\@:
				2708	mov %r14, %rsp
				2709
				2710	pop %r15
				2711	pop %r14
				2712	pop %r13
				2713	pop %r12
				2714	.endm
				2715
				2716
				2717	#############################################################
				2718	#void aesni_gcm_precomp_avx_gen4
				2719	# (gcm_data *my_ctx_data,
				2720	# u8 hash_subkey)# / H, the Hash sub key input.
				2721	# Data starts on a 16-byte boundary. */
				2722	#############################################################
				2723	ENTRY(aesni_gcm_precomp_avx_gen4)
				2724	#the number of pushes must equal STACK_OFFSET
				2725	push %r12
				2726	push %r13
				2727	push %r14
				2728	push %r15
				2729
				2730	mov %rsp, %r14
				2731
				2732
				2733
				2734	sub $VARIABLE_OFFSET, %rsp
				2735	and $~63, %rsp # align rsp to 64 bytes
				2736
				2737	vmovdqu (arg2), %xmm6 # xmm6 = HashKey
				2738
				2739	vpshufb SHUF_MASK(%rip), %xmm6, %xmm6
				2740	############### PRECOMPUTATION of HashKey<<1 mod poly from the HashKey
				2741	vmovdqa %xmm6, %xmm2
				2742	vpsllq $1, %xmm6, %xmm6
				2743	vpsrlq $63, %xmm2, %xmm2
				2744	vmovdqa %xmm2, %xmm1
				2745	vpslldq $8, %xmm2, %xmm2
				2746	vpsrldq $8, %xmm1, %xmm1
				2747	vpor %xmm2, %xmm6, %xmm6
				2748	#reduction
				2749	vpshufd $0b00100100, %xmm1, %xmm2
				2750	vpcmpeqd TWOONE(%rip), %xmm2, %xmm2
				2751	vpand POLY(%rip), %xmm2, %xmm2
				2752	vpxor %xmm2, %xmm6, %xmm6 # xmm6 holds the HashKey<<1 mod poly
				2753	#######################################################################
				2754	vmovdqa %xmm6, HashKey(arg1) # store HashKey<<1 mod poly
				2755
				2756
				2757	PRECOMPUTE_AVX2 %xmm6, %xmm0, %xmm1, %xmm2, %xmm3, %xmm4, %xmm5
				2758
				2759	mov %r14, %rsp
				2760
				2761	pop %r15
				2762	pop %r14
				2763	pop %r13
				2764	pop %r12
				2765	ret
				2766	ENDPROC(aesni_gcm_precomp_avx_gen4)
				2767
				2768
				2769	###############################################################################
				2770	#void aesni_gcm_enc_avx_gen4(
				2771	# gcm_data my_ctx_data, / aligned to 16 Bytes */
				2772	# u8 out, / Ciphertext output. Encrypt in-place is allowed. */
				2773	# const u8 in, / Plaintext input */
				2774	# u64 plaintext_len, /* Length of data in Bytes for encryption. */
				2775	# u8 iv, / Pre-counter block j0: 4 byte salt
				2776	# (from Security Association) concatenated with 8 byte
				2777	# Initialisation Vector (from IPSec ESP Payload)
				2778	# concatenated with 0x00000001. 16-byte aligned pointer. */
				2779	# const u8 aad, / Additional Authentication Data (AAD)*/
				2780	# u64 aad_len, /* Length of AAD in bytes. With RFC4106 this is going to be 8 or 12 Bytes */
				2781	# u8 auth_tag, / Authenticated Tag output. */
				2782	# u64 auth_tag_len)# /* Authenticated Tag Length in bytes.
				2783	# Valid values are 16 (most likely), 12 or 8. */
				2784	###############################################################################
				2785	ENTRY(aesni_gcm_enc_avx_gen4)
				2786	GCM_ENC_DEC_AVX2 ENC
				2787	ret
				2788	ENDPROC(aesni_gcm_enc_avx_gen4)
				2789
				2790	###############################################################################
				2791	#void aesni_gcm_dec_avx_gen4(
				2792	# gcm_data my_ctx_data, / aligned to 16 Bytes */
				2793	# u8 out, / Plaintext output. Decrypt in-place is allowed. */
				2794	# const u8 in, / Ciphertext input */
				2795	# u64 plaintext_len, /* Length of data in Bytes for encryption. */
				2796	# u8 iv, / Pre-counter block j0: 4 byte salt
				2797	# (from Security Association) concatenated with 8 byte
				2798	# Initialisation Vector (from IPSec ESP Payload)
				2799	# concatenated with 0x00000001. 16-byte aligned pointer. */
				2800	# const u8 aad, / Additional Authentication Data (AAD)*/
				2801	# u64 aad_len, /* Length of AAD in bytes. With RFC4106 this is going to be 8 or 12 Bytes */
				2802	# u8 auth_tag, / Authenticated Tag output. */
				2803	# u64 auth_tag_len)# /* Authenticated Tag Length in bytes.
				2804	# Valid values are 16 (most likely), 12 or 8. */
				2805	###############################################################################
				2806	ENTRY(aesni_gcm_dec_avx_gen4)
				2807	GCM_ENC_DEC_AVX2 DEC
				2808	ret
				2809	ENDPROC(aesni_gcm_dec_avx_gen4)
				2810
				2811	#endif /* CONFIG_AS_AVX2 */