|  | /* SPDX-License-Identifier: GPL-2.0-or-later WITH GCC-exception-2.0 */ | 
|  | #include <linux/linkage.h> | 
|  | #include <asm/asmmacro.h> | 
|  | #include <asm/core.h> | 
|  |  | 
|  | .macro	do_addx2 dst, as, at, tmp | 
|  | #if XCHAL_HAVE_ADDX | 
|  | addx2	\dst, \as, \at | 
|  | #else | 
|  | slli	\tmp, \as, 1 | 
|  | add	\dst, \tmp, \at | 
|  | #endif | 
|  | .endm | 
|  |  | 
|  | .macro	do_addx4 dst, as, at, tmp | 
|  | #if XCHAL_HAVE_ADDX | 
|  | addx4	\dst, \as, \at | 
|  | #else | 
|  | slli	\tmp, \as, 2 | 
|  | add	\dst, \tmp, \at | 
|  | #endif | 
|  | .endm | 
|  |  | 
|  | .macro	do_addx8 dst, as, at, tmp | 
|  | #if XCHAL_HAVE_ADDX | 
|  | addx8	\dst, \as, \at | 
|  | #else | 
|  | slli	\tmp, \as, 3 | 
|  | add	\dst, \tmp, \at | 
|  | #endif | 
|  | .endm | 
|  |  | 
|  | ENTRY(__mulsi3) | 
|  |  | 
|  | abi_entry_default | 
|  |  | 
|  | #if XCHAL_HAVE_MUL32 | 
|  | mull	a2, a2, a3 | 
|  |  | 
|  | #elif XCHAL_HAVE_MUL16 | 
|  | or	a4, a2, a3 | 
|  | srai	a4, a4, 16 | 
|  | bnez	a4, .LMUL16 | 
|  | mul16u	a2, a2, a3 | 
|  | abi_ret_default | 
|  | .LMUL16: | 
|  | srai	a4, a2, 16 | 
|  | srai	a5, a3, 16 | 
|  | mul16u	a7, a4, a3 | 
|  | mul16u	a6, a5, a2 | 
|  | mul16u	a4, a2, a3 | 
|  | add	a7, a7, a6 | 
|  | slli	a7, a7, 16 | 
|  | add	a2, a7, a4 | 
|  |  | 
|  | #elif XCHAL_HAVE_MAC16 | 
|  | mul.aa.hl a2, a3 | 
|  | mula.aa.lh a2, a3 | 
|  | rsr	a5, ACCLO | 
|  | umul.aa.ll a2, a3 | 
|  | rsr	a4, ACCLO | 
|  | slli	a5, a5, 16 | 
|  | add	a2, a4, a5 | 
|  |  | 
|  | #else /* !MUL32 && !MUL16 && !MAC16 */ | 
|  |  | 
|  | /* Multiply one bit at a time, but unroll the loop 4x to better | 
|  | exploit the addx instructions and avoid overhead. | 
|  | Peel the first iteration to save a cycle on init.  */ | 
|  |  | 
|  | /* Avoid negative numbers.  */ | 
|  | xor	a5, a2, a3	/* Top bit is 1 if one input is negative.  */ | 
|  | do_abs	a3, a3, a6 | 
|  | do_abs	a2, a2, a6 | 
|  |  | 
|  | /* Swap so the second argument is smaller.  */ | 
|  | sub	a7, a2, a3 | 
|  | mov	a4, a3 | 
|  | movgez	a4, a2, a7	/* a4 = max (a2, a3) */ | 
|  | movltz	a3, a2, a7	/* a3 = min (a2, a3) */ | 
|  |  | 
|  | movi	a2, 0 | 
|  | extui	a6, a3, 0, 1 | 
|  | movnez	a2, a4, a6 | 
|  |  | 
|  | do_addx2 a7, a4, a2, a7 | 
|  | extui	a6, a3, 1, 1 | 
|  | movnez	a2, a7, a6 | 
|  |  | 
|  | do_addx4 a7, a4, a2, a7 | 
|  | extui	a6, a3, 2, 1 | 
|  | movnez	a2, a7, a6 | 
|  |  | 
|  | do_addx8 a7, a4, a2, a7 | 
|  | extui	a6, a3, 3, 1 | 
|  | movnez	a2, a7, a6 | 
|  |  | 
|  | bgeui	a3, 16, .Lmult_main_loop | 
|  | neg	a3, a2 | 
|  | movltz	a2, a3, a5 | 
|  | abi_ret_default | 
|  |  | 
|  | .align	4 | 
|  | .Lmult_main_loop: | 
|  | srli	a3, a3, 4 | 
|  | slli	a4, a4, 4 | 
|  |  | 
|  | add	a7, a4, a2 | 
|  | extui	a6, a3, 0, 1 | 
|  | movnez	a2, a7, a6 | 
|  |  | 
|  | do_addx2 a7, a4, a2, a7 | 
|  | extui	a6, a3, 1, 1 | 
|  | movnez	a2, a7, a6 | 
|  |  | 
|  | do_addx4 a7, a4, a2, a7 | 
|  | extui	a6, a3, 2, 1 | 
|  | movnez	a2, a7, a6 | 
|  |  | 
|  | do_addx8 a7, a4, a2, a7 | 
|  | extui	a6, a3, 3, 1 | 
|  | movnez	a2, a7, a6 | 
|  |  | 
|  | bgeui	a3, 16, .Lmult_main_loop | 
|  |  | 
|  | neg	a3, a2 | 
|  | movltz	a2, a3, a5 | 
|  |  | 
|  | #endif /* !MUL32 && !MUL16 && !MAC16 */ | 
|  |  | 
|  | abi_ret_default | 
|  |  | 
|  | ENDPROC(__mulsi3) |