mbed-dsp - CMSIS DSP library

Users » mbed_official » Code » mbed-dsp

mbed official / mbed-dsp

CMSIS DSP library

Dependents: performance_timer Surfboard_ gps2rtty Capstone ... more

Legacy Warning

This is an mbed 2 library. To learn more about mbed OS 5, visit the docs.

cmsis_dsp/TransformFunctions/arm_cfft_radix4_q15.c@5:3762170b6d4d, 2015-11-20 (annotated)

Committer:: mbed_official
Date:: Fri Nov 20 08:45:18 2015 +0000
Revision:: 5:3762170b6d4d
Parent:: 3:7a284390b0ce

Synchronized with git revision 2eb940b9a73af188d3004a2575fdfbb05febe62b

Full URL: https://github.com/mbedmicro/mbed/commit/2eb940b9a73af188d3004a2575fdfbb05febe62b/

Added option to build rpc library. closes #1426

Who changed what in which revision?

User	Revision	Line number	New contents of line
emilmont	1:fdd22bb7aa52	1	/* ----------------------------------------------------------------------
mbed_official	5:3762170b6d4d	2	* Copyright (C) 2010-2014 ARM Limited. All rights reserved.
emilmont	1:fdd22bb7aa52	3	*
mbed_official	5:3762170b6d4d	4	* $Date: 19. March 2015
mbed_official	5:3762170b6d4d	5	* $Revision: V.1.4.5
emilmont	1:fdd22bb7aa52	6	*
emilmont	2:da51fb522205	7	* Project: CMSIS DSP Library
emilmont	2:da51fb522205	8	* Title: arm_cfft_radix4_q15.c
emilmont	1:fdd22bb7aa52	9	*
emilmont	2:da51fb522205	10	* Description: This file has function definition of Radix-4 FFT & IFFT function and
emilmont	2:da51fb522205	11	* In-place bit reversal using bit reversal table
emilmont	1:fdd22bb7aa52	12	*
emilmont	1:fdd22bb7aa52	13	* Target Processor: Cortex-M4/Cortex-M3/Cortex-M0
emilmont	1:fdd22bb7aa52	14	*
mbed_official	3:7a284390b0ce	15	* Redistribution and use in source and binary forms, with or without
mbed_official	3:7a284390b0ce	16	* modification, are permitted provided that the following conditions
mbed_official	3:7a284390b0ce	17	* are met:
mbed_official	3:7a284390b0ce	18	* - Redistributions of source code must retain the above copyright
mbed_official	3:7a284390b0ce	19	* notice, this list of conditions and the following disclaimer.
mbed_official	3:7a284390b0ce	20	* - Redistributions in binary form must reproduce the above copyright
mbed_official	3:7a284390b0ce	21	* notice, this list of conditions and the following disclaimer in
mbed_official	3:7a284390b0ce	22	* the documentation and/or other materials provided with the
mbed_official	3:7a284390b0ce	23	* distribution.
mbed_official	3:7a284390b0ce	24	* - Neither the name of ARM LIMITED nor the names of its contributors
mbed_official	3:7a284390b0ce	25	* may be used to endorse or promote products derived from this
mbed_official	3:7a284390b0ce	26	* software without specific prior written permission.
mbed_official	3:7a284390b0ce	27	*
mbed_official	3:7a284390b0ce	28	* THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
mbed_official	3:7a284390b0ce	29	* "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
mbed_official	3:7a284390b0ce	30	* LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
mbed_official	3:7a284390b0ce	31	* FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE
mbed_official	3:7a284390b0ce	32	* COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
mbed_official	3:7a284390b0ce	33	* INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
mbed_official	3:7a284390b0ce	34	* BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
mbed_official	3:7a284390b0ce	35	* LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
mbed_official	3:7a284390b0ce	36	* CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
mbed_official	3:7a284390b0ce	37	* LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
mbed_official	3:7a284390b0ce	38	* ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
mbed_official	3:7a284390b0ce	39	* POSSIBILITY OF SUCH DAMAGE.
emilmont	1:fdd22bb7aa52	40	* -------------------------------------------------------------------- */
emilmont	1:fdd22bb7aa52	41
emilmont	1:fdd22bb7aa52	42	#include "arm_math.h"
emilmont	1:fdd22bb7aa52	43
mbed_official	3:7a284390b0ce	44
mbed_official	3:7a284390b0ce	45	void arm_radix4_butterfly_q15(
mbed_official	3:7a284390b0ce	46	q15_t * pSrc16,
mbed_official	3:7a284390b0ce	47	uint32_t fftLen,
mbed_official	3:7a284390b0ce	48	q15_t * pCoef16,
mbed_official	3:7a284390b0ce	49	uint32_t twidCoefModifier);
mbed_official	3:7a284390b0ce	50
mbed_official	3:7a284390b0ce	51	void arm_radix4_butterfly_inverse_q15(
mbed_official	3:7a284390b0ce	52	q15_t * pSrc16,
mbed_official	3:7a284390b0ce	53	uint32_t fftLen,
mbed_official	3:7a284390b0ce	54	q15_t * pCoef16,
mbed_official	3:7a284390b0ce	55	uint32_t twidCoefModifier);
mbed_official	3:7a284390b0ce	56
mbed_official	3:7a284390b0ce	57	void arm_bitreversal_q15(
mbed_official	3:7a284390b0ce	58	q15_t * pSrc,
mbed_official	3:7a284390b0ce	59	uint32_t fftLen,
mbed_official	3:7a284390b0ce	60	uint16_t bitRevFactor,
mbed_official	3:7a284390b0ce	61	uint16_t * pBitRevTab);
mbed_official	3:7a284390b0ce	62
emilmont	1:fdd22bb7aa52	63	/**
emilmont	1:fdd22bb7aa52	64	* @ingroup groupTransforms
emilmont	1:fdd22bb7aa52	65	*/
emilmont	1:fdd22bb7aa52	66
emilmont	1:fdd22bb7aa52	67	/**
mbed_official	3:7a284390b0ce	68	* @addtogroup ComplexFFT
emilmont	1:fdd22bb7aa52	69	* @{
emilmont	1:fdd22bb7aa52	70	*/
emilmont	1:fdd22bb7aa52	71
emilmont	1:fdd22bb7aa52	72
emilmont	1:fdd22bb7aa52	73	/**
emilmont	1:fdd22bb7aa52	74	* @details
emilmont	1:fdd22bb7aa52	75	* @brief Processing function for the Q15 CFFT/CIFFT.
mbed_official	5:3762170b6d4d	76	* @deprecated Do not use this function. It has been superseded by \ref arm_cfft_q15 and will be removed
emilmont	1:fdd22bb7aa52	77	* @param[in] *S points to an instance of the Q15 CFFT/CIFFT structure.
emilmont	1:fdd22bb7aa52	78	* @param[in, out] *pSrc points to the complex data buffer. Processing occurs in-place.
emilmont	1:fdd22bb7aa52	79	* @return none.
emilmont	1:fdd22bb7aa52	80	*
emilmont	1:fdd22bb7aa52	81	* \par Input and output formats:
emilmont	1:fdd22bb7aa52	82	* \par
emilmont	1:fdd22bb7aa52	83	* Internally input is downscaled by 2 for every stage to avoid saturations inside CFFT/CIFFT process.
emilmont	1:fdd22bb7aa52	84	* Hence the output format is different for different FFT sizes.
emilmont	1:fdd22bb7aa52	85	* The input and output formats for different FFT sizes and number of bits to upscale are mentioned in the tables below for CFFT and CIFFT:
emilmont	1:fdd22bb7aa52	86	* \par
emilmont	1:fdd22bb7aa52	87	* \image html CFFTQ15.gif "Input and Output Formats for Q15 CFFT"
emilmont	1:fdd22bb7aa52	88	* \image html CIFFTQ15.gif "Input and Output Formats for Q15 CIFFT"
emilmont	1:fdd22bb7aa52	89	*/
emilmont	1:fdd22bb7aa52	90
emilmont	1:fdd22bb7aa52	91	void arm_cfft_radix4_q15(
emilmont	1:fdd22bb7aa52	92	const arm_cfft_radix4_instance_q15 * S,
emilmont	1:fdd22bb7aa52	93	q15_t * pSrc)
emilmont	1:fdd22bb7aa52	94	{
emilmont	1:fdd22bb7aa52	95	if(S->ifftFlag == 1u)
emilmont	1:fdd22bb7aa52	96	{
emilmont	1:fdd22bb7aa52	97	/* Complex IFFT radix-4 */
emilmont	1:fdd22bb7aa52	98	arm_radix4_butterfly_inverse_q15(pSrc, S->fftLen, S->pTwiddle,
emilmont	1:fdd22bb7aa52	99	S->twidCoefModifier);
emilmont	1:fdd22bb7aa52	100	}
emilmont	1:fdd22bb7aa52	101	else
emilmont	1:fdd22bb7aa52	102	{
emilmont	1:fdd22bb7aa52	103	/* Complex FFT radix-4 */
emilmont	1:fdd22bb7aa52	104	arm_radix4_butterfly_q15(pSrc, S->fftLen, S->pTwiddle,
emilmont	1:fdd22bb7aa52	105	S->twidCoefModifier);
emilmont	1:fdd22bb7aa52	106	}
emilmont	1:fdd22bb7aa52	107
emilmont	1:fdd22bb7aa52	108	if(S->bitReverseFlag == 1u)
emilmont	1:fdd22bb7aa52	109	{
emilmont	1:fdd22bb7aa52	110	/* Bit Reversal */
emilmont	1:fdd22bb7aa52	111	arm_bitreversal_q15(pSrc, S->fftLen, S->bitRevFactor, S->pBitRevTable);
emilmont	1:fdd22bb7aa52	112	}
emilmont	1:fdd22bb7aa52	113
emilmont	1:fdd22bb7aa52	114	}
emilmont	1:fdd22bb7aa52	115
emilmont	1:fdd22bb7aa52	116	/**
mbed_official	3:7a284390b0ce	117	* @} end of ComplexFFT group
emilmont	1:fdd22bb7aa52	118	*/
emilmont	1:fdd22bb7aa52	119
emilmont	1:fdd22bb7aa52	120	/*
emilmont	1:fdd22bb7aa52	121	* Radix-4 FFT algorithm used is :
emilmont	1:fdd22bb7aa52	122	*
emilmont	1:fdd22bb7aa52	123	* Input real and imaginary data:
emilmont	1:fdd22bb7aa52	124	* x(n) = xa + j * ya
emilmont	1:fdd22bb7aa52	125	* x(n+N/4 ) = xb + j * yb
emilmont	1:fdd22bb7aa52	126	* x(n+N/2 ) = xc + j * yc
emilmont	1:fdd22bb7aa52	127	* x(n+3N 4) = xd + j * yd
emilmont	1:fdd22bb7aa52	128	*
emilmont	1:fdd22bb7aa52	129	*
emilmont	1:fdd22bb7aa52	130	* Output real and imaginary data:
emilmont	1:fdd22bb7aa52	131	* x(4r) = xa'+ j * ya'
emilmont	1:fdd22bb7aa52	132	* x(4r+1) = xb'+ j * yb'
emilmont	1:fdd22bb7aa52	133	* x(4r+2) = xc'+ j * yc'
emilmont	1:fdd22bb7aa52	134	* x(4r+3) = xd'+ j * yd'
emilmont	1:fdd22bb7aa52	135	*
emilmont	1:fdd22bb7aa52	136	*
emilmont	1:fdd22bb7aa52	137	* Twiddle factors for radix-4 FFT:
emilmont	1:fdd22bb7aa52	138	* Wn = co1 + j * (- si1)
emilmont	1:fdd22bb7aa52	139	* W2n = co2 + j * (- si2)
emilmont	1:fdd22bb7aa52	140	* W3n = co3 + j * (- si3)
emilmont	1:fdd22bb7aa52	141
emilmont	1:fdd22bb7aa52	142	* The real and imaginary output values for the radix-4 butterfly are
emilmont	1:fdd22bb7aa52	143	* xa' = xa + xb + xc + xd
emilmont	1:fdd22bb7aa52	144	* ya' = ya + yb + yc + yd
emilmont	1:fdd22bb7aa52	145	* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1)
emilmont	1:fdd22bb7aa52	146	* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1)
emilmont	1:fdd22bb7aa52	147	* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2)
emilmont	1:fdd22bb7aa52	148	* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2)
emilmont	1:fdd22bb7aa52	149	* xd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3)
emilmont	1:fdd22bb7aa52	150	* yd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3)
emilmont	1:fdd22bb7aa52	151	*
emilmont	1:fdd22bb7aa52	152	*/
emilmont	1:fdd22bb7aa52	153
emilmont	1:fdd22bb7aa52	154	/**
emilmont	1:fdd22bb7aa52	155	* @brief Core function for the Q15 CFFT butterfly process.
emilmont	1:fdd22bb7aa52	156	* @param[in, out] *pSrc16 points to the in-place buffer of Q15 data type.
emilmont	1:fdd22bb7aa52	157	* @param[in] fftLen length of the FFT.
emilmont	1:fdd22bb7aa52	158	* @param[in] *pCoef16 points to twiddle coefficient buffer.
emilmont	1:fdd22bb7aa52	159	* @param[in] twidCoefModifier twiddle coefficient modifier that supports different size FFTs with the same twiddle factor table.
emilmont	1:fdd22bb7aa52	160	* @return none.
emilmont	1:fdd22bb7aa52	161	*/
emilmont	1:fdd22bb7aa52	162
emilmont	1:fdd22bb7aa52	163	void arm_radix4_butterfly_q15(
emilmont	1:fdd22bb7aa52	164	q15_t * pSrc16,
emilmont	1:fdd22bb7aa52	165	uint32_t fftLen,
emilmont	1:fdd22bb7aa52	166	q15_t * pCoef16,
emilmont	1:fdd22bb7aa52	167	uint32_t twidCoefModifier)
emilmont	1:fdd22bb7aa52	168	{
emilmont	1:fdd22bb7aa52	169
mbed_official	3:7a284390b0ce	170	#ifndef ARM_MATH_CM0_FAMILY
emilmont	1:fdd22bb7aa52	171
emilmont	1:fdd22bb7aa52	172	/* Run the below code for Cortex-M4 and Cortex-M3 */
emilmont	1:fdd22bb7aa52	173
emilmont	1:fdd22bb7aa52	174	q31_t R, S, T, U;
emilmont	1:fdd22bb7aa52	175	q31_t C1, C2, C3, out1, out2;
mbed_official	5:3762170b6d4d	176	uint32_t n1, n2, ic, i0, j, k;
emilmont	1:fdd22bb7aa52	177
emilmont	1:fdd22bb7aa52	178	q15_t *ptr1;
mbed_official	5:3762170b6d4d	179	q15_t *pSi0;
mbed_official	5:3762170b6d4d	180	q15_t *pSi1;
mbed_official	5:3762170b6d4d	181	q15_t *pSi2;
mbed_official	5:3762170b6d4d	182	q15_t *pSi3;
emilmont	1:fdd22bb7aa52	183
emilmont	1:fdd22bb7aa52	184	q31_t xaya, xbyb, xcyc, xdyd;
emilmont	1:fdd22bb7aa52	185
emilmont	1:fdd22bb7aa52	186	/* Total process is divided into three stages */
emilmont	1:fdd22bb7aa52	187
emilmont	1:fdd22bb7aa52	188	/* process first stage, middle stages, & last stage */
emilmont	1:fdd22bb7aa52	189
emilmont	1:fdd22bb7aa52	190	/* Initializations for the first stage */
emilmont	1:fdd22bb7aa52	191	n2 = fftLen;
emilmont	1:fdd22bb7aa52	192	n1 = n2;
emilmont	1:fdd22bb7aa52	193
emilmont	1:fdd22bb7aa52	194	/* n2 = fftLen/4 */
emilmont	1:fdd22bb7aa52	195	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	196
emilmont	1:fdd22bb7aa52	197	/* Index for twiddle coefficient */
emilmont	1:fdd22bb7aa52	198	ic = 0u;
emilmont	1:fdd22bb7aa52	199
emilmont	1:fdd22bb7aa52	200	/* Index for input read and output write */
emilmont	1:fdd22bb7aa52	201	j = n2;
mbed_official	5:3762170b6d4d	202
mbed_official	5:3762170b6d4d	203	pSi0 = pSrc16;
mbed_official	5:3762170b6d4d	204	pSi1 = pSi0 + 2 * n2;
mbed_official	5:3762170b6d4d	205	pSi2 = pSi1 + 2 * n2;
mbed_official	5:3762170b6d4d	206	pSi3 = pSi2 + 2 * n2;
emilmont	1:fdd22bb7aa52	207
emilmont	1:fdd22bb7aa52	208	/* Input is in 1.15(q15) format */
emilmont	1:fdd22bb7aa52	209
emilmont	1:fdd22bb7aa52	210	/* start of first stage process */
emilmont	1:fdd22bb7aa52	211	do
emilmont	1:fdd22bb7aa52	212	{
emilmont	1:fdd22bb7aa52	213	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	214
emilmont	1:fdd22bb7aa52	215	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	216	/* Read ya (real), xa(imag) input */
mbed_official	5:3762170b6d4d	217	T = _SIMD32_OFFSET(pSi0);
mbed_official	5:3762170b6d4d	218	T = __SHADD16(T, 0); // this is just a SIMD arithmetic shift right by 1
mbed_official	5:3762170b6d4d	219	T = __SHADD16(T, 0); // it turns out doing this twice is 2 cycles, the alternative takes 3 cycles
mbed_official	5:3762170b6d4d	220	//in = ((int16_t) (T & 0xFFFF)) >> 2; // alternative code that takes 3 cycles
mbed_official	5:3762170b6d4d	221	//T = ((T >> 2) & 0xFFFF0000) \| (in & 0xFFFF);
emilmont	1:fdd22bb7aa52	222
emilmont	1:fdd22bb7aa52	223	/* Read yc (real), xc(imag) input */
mbed_official	5:3762170b6d4d	224	S = _SIMD32_OFFSET(pSi2);
mbed_official	5:3762170b6d4d	225	S = __SHADD16(S, 0);
mbed_official	5:3762170b6d4d	226	S = __SHADD16(S, 0);
emilmont	1:fdd22bb7aa52	227
emilmont	1:fdd22bb7aa52	228	/* R = packed((ya + yc), (xa + xc) ) */
emilmont	1:fdd22bb7aa52	229	R = __QADD16(T, S);
emilmont	1:fdd22bb7aa52	230
emilmont	1:fdd22bb7aa52	231	/* S = packed((ya - yc), (xa - xc) ) */
emilmont	1:fdd22bb7aa52	232	S = __QSUB16(T, S);
emilmont	1:fdd22bb7aa52	233
emilmont	1:fdd22bb7aa52	234	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	235	/* Read yb (real), xb(imag) input */
mbed_official	5:3762170b6d4d	236	T = _SIMD32_OFFSET(pSi1);
mbed_official	5:3762170b6d4d	237	T = __SHADD16(T, 0);
mbed_official	5:3762170b6d4d	238	T = __SHADD16(T, 0);
emilmont	1:fdd22bb7aa52	239
emilmont	1:fdd22bb7aa52	240	/* Read yd (real), xd(imag) input */
mbed_official	5:3762170b6d4d	241	U = _SIMD32_OFFSET(pSi3);
mbed_official	5:3762170b6d4d	242	U = __SHADD16(U, 0);
mbed_official	5:3762170b6d4d	243	U = __SHADD16(U, 0);
emilmont	1:fdd22bb7aa52	244
emilmont	1:fdd22bb7aa52	245	/* T = packed((yb + yd), (xb + xd) ) */
emilmont	1:fdd22bb7aa52	246	T = __QADD16(T, U);
emilmont	1:fdd22bb7aa52	247
emilmont	1:fdd22bb7aa52	248	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	249	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	250	/* ya' = ya + yb + yc + yd */
mbed_official	5:3762170b6d4d	251	_SIMD32_OFFSET(pSi0) = __SHADD16(R, T);
mbed_official	5:3762170b6d4d	252	pSi0 += 2;
emilmont	1:fdd22bb7aa52	253
emilmont	1:fdd22bb7aa52	254	/* R = packed((ya + yc) - (yb + yd), (xa + xc)- (xb + xd)) */
emilmont	1:fdd22bb7aa52	255	R = __QSUB16(R, T);
emilmont	1:fdd22bb7aa52	256
emilmont	1:fdd22bb7aa52	257	/* co2 & si2 are read from SIMD Coefficient pointer */
emilmont	1:fdd22bb7aa52	258	C2 = _SIMD32_OFFSET(pCoef16 + (4u * ic));
emilmont	1:fdd22bb7aa52	259
emilmont	1:fdd22bb7aa52	260	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	261
emilmont	1:fdd22bb7aa52	262	/* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	263	out1 = __SMUAD(C2, R) >> 16u;
emilmont	1:fdd22bb7aa52	264	/* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	265	out2 = __SMUSDX(C2, R);
emilmont	1:fdd22bb7aa52	266
emilmont	1:fdd22bb7aa52	267	#else
emilmont	1:fdd22bb7aa52	268
emilmont	1:fdd22bb7aa52	269	/* xc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	270	out1 = __SMUSDX(R, C2) >> 16u;
emilmont	1:fdd22bb7aa52	271	/* yc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	272	out2 = __SMUAD(C2, R);
emilmont	1:fdd22bb7aa52	273
emilmont	1:fdd22bb7aa52	274	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	275
emilmont	1:fdd22bb7aa52	276	/* Reading i0+fftLen/4 */
emilmont	1:fdd22bb7aa52	277	/* T = packed(yb, xb) */
mbed_official	5:3762170b6d4d	278	T = _SIMD32_OFFSET(pSi1);
mbed_official	5:3762170b6d4d	279	T = __SHADD16(T, 0);
mbed_official	5:3762170b6d4d	280	T = __SHADD16(T, 0);
emilmont	1:fdd22bb7aa52	281
emilmont	1:fdd22bb7aa52	282	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	283	/* writing output(xc', yc') in little endian format */
mbed_official	5:3762170b6d4d	284	_SIMD32_OFFSET(pSi1) =
emilmont	1:fdd22bb7aa52	285	(q31_t) ((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
mbed_official	5:3762170b6d4d	286	pSi1 += 2;
emilmont	1:fdd22bb7aa52	287
emilmont	1:fdd22bb7aa52	288	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	289	/* U = packed(yd, xd) */
mbed_official	5:3762170b6d4d	290	U = _SIMD32_OFFSET(pSi3);
mbed_official	5:3762170b6d4d	291	U = __SHADD16(U, 0);
mbed_official	5:3762170b6d4d	292	U = __SHADD16(U, 0);
emilmont	1:fdd22bb7aa52	293
emilmont	1:fdd22bb7aa52	294	/* T = packed(yb-yd, xb-xd) */
emilmont	1:fdd22bb7aa52	295	T = __QSUB16(T, U);
emilmont	1:fdd22bb7aa52	296
emilmont	1:fdd22bb7aa52	297	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	298
emilmont	1:fdd22bb7aa52	299	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	300	R = __QASX(S, T);
emilmont	1:fdd22bb7aa52	301	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	302	S = __QSAX(S, T);
emilmont	1:fdd22bb7aa52	303
emilmont	1:fdd22bb7aa52	304	#else
emilmont	1:fdd22bb7aa52	305
emilmont	1:fdd22bb7aa52	306	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	307	R = __QSAX(S, T);
emilmont	1:fdd22bb7aa52	308	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	309	S = __QASX(S, T);
emilmont	1:fdd22bb7aa52	310
emilmont	1:fdd22bb7aa52	311	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	312
emilmont	1:fdd22bb7aa52	313	/* co1 & si1 are read from SIMD Coefficient pointer */
emilmont	1:fdd22bb7aa52	314	C1 = _SIMD32_OFFSET(pCoef16 + (2u * ic));
emilmont	1:fdd22bb7aa52	315	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	316
emilmont	1:fdd22bb7aa52	317	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	318
emilmont	1:fdd22bb7aa52	319	/* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	320	out1 = __SMUAD(C1, S) >> 16u;
emilmont	1:fdd22bb7aa52	321	/* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	322	out2 = __SMUSDX(C1, S);
emilmont	1:fdd22bb7aa52	323
emilmont	1:fdd22bb7aa52	324	#else
emilmont	1:fdd22bb7aa52	325
emilmont	1:fdd22bb7aa52	326	/* xb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	327	out1 = __SMUSDX(S, C1) >> 16u;
emilmont	1:fdd22bb7aa52	328	/* yb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	329	out2 = __SMUAD(C1, S);
emilmont	1:fdd22bb7aa52	330
emilmont	1:fdd22bb7aa52	331	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	332
emilmont	1:fdd22bb7aa52	333	/* writing output(xb', yb') in little endian format */
mbed_official	5:3762170b6d4d	334	_SIMD32_OFFSET(pSi2) =
emilmont	1:fdd22bb7aa52	335	((out2) & 0xFFFF0000) \| ((out1) & 0x0000FFFF);
mbed_official	5:3762170b6d4d	336	pSi2 += 2;
emilmont	1:fdd22bb7aa52	337
emilmont	1:fdd22bb7aa52	338
emilmont	1:fdd22bb7aa52	339	/* co3 & si3 are read from SIMD Coefficient pointer */
emilmont	1:fdd22bb7aa52	340	C3 = _SIMD32_OFFSET(pCoef16 + (6u * ic));
emilmont	1:fdd22bb7aa52	341	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	342
emilmont	1:fdd22bb7aa52	343	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	344
emilmont	1:fdd22bb7aa52	345	/* xd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	346	out1 = __SMUAD(C3, R) >> 16u;
emilmont	1:fdd22bb7aa52	347	/* yd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	348	out2 = __SMUSDX(C3, R);
emilmont	1:fdd22bb7aa52	349
emilmont	1:fdd22bb7aa52	350	#else
emilmont	1:fdd22bb7aa52	351
emilmont	1:fdd22bb7aa52	352	/* xd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	353	out1 = __SMUSDX(R, C3) >> 16u;
emilmont	1:fdd22bb7aa52	354	/* yd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	355	out2 = __SMUAD(C3, R);
emilmont	1:fdd22bb7aa52	356
emilmont	1:fdd22bb7aa52	357	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	358
emilmont	1:fdd22bb7aa52	359	/* writing output(xd', yd') in little endian format */
mbed_official	5:3762170b6d4d	360	_SIMD32_OFFSET(pSi3) =
emilmont	1:fdd22bb7aa52	361	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
mbed_official	5:3762170b6d4d	362	pSi3 += 2;
emilmont	1:fdd22bb7aa52	363
emilmont	1:fdd22bb7aa52	364	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	365	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	366
emilmont	1:fdd22bb7aa52	367	} while(--j);
emilmont	1:fdd22bb7aa52	368	/* data is in 4.11(q11) format */
emilmont	1:fdd22bb7aa52	369
emilmont	1:fdd22bb7aa52	370	/* end of first stage process */
emilmont	1:fdd22bb7aa52	371
emilmont	1:fdd22bb7aa52	372
emilmont	1:fdd22bb7aa52	373	/* start of middle stage process */
emilmont	1:fdd22bb7aa52	374
emilmont	1:fdd22bb7aa52	375	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	376	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	377
emilmont	1:fdd22bb7aa52	378	/* Calculation of Middle stage */
emilmont	1:fdd22bb7aa52	379	for (k = fftLen / 4u; k > 4u; k >>= 2u)
emilmont	1:fdd22bb7aa52	380	{
emilmont	1:fdd22bb7aa52	381	/* Initializations for the middle stage */
emilmont	1:fdd22bb7aa52	382	n1 = n2;
emilmont	1:fdd22bb7aa52	383	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	384	ic = 0u;
emilmont	1:fdd22bb7aa52	385
emilmont	1:fdd22bb7aa52	386	for (j = 0u; j <= (n2 - 1u); j++)
emilmont	1:fdd22bb7aa52	387	{
emilmont	1:fdd22bb7aa52	388	/* index calculation for the coefficients */
emilmont	1:fdd22bb7aa52	389	C1 = _SIMD32_OFFSET(pCoef16 + (2u * ic));
emilmont	1:fdd22bb7aa52	390	C2 = _SIMD32_OFFSET(pCoef16 + (4u * ic));
emilmont	1:fdd22bb7aa52	391	C3 = _SIMD32_OFFSET(pCoef16 + (6u * ic));
emilmont	1:fdd22bb7aa52	392
emilmont	1:fdd22bb7aa52	393	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	394	ic = ic + twidCoefModifier;
mbed_official	5:3762170b6d4d	395
mbed_official	5:3762170b6d4d	396	pSi0 = pSrc16 + 2 * j;
mbed_official	5:3762170b6d4d	397	pSi1 = pSi0 + 2 * n2;
mbed_official	5:3762170b6d4d	398	pSi2 = pSi1 + 2 * n2;
mbed_official	5:3762170b6d4d	399	pSi3 = pSi2 + 2 * n2;
emilmont	1:fdd22bb7aa52	400
emilmont	1:fdd22bb7aa52	401	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	402	for (i0 = j; i0 < fftLen; i0 += n1)
emilmont	1:fdd22bb7aa52	403	{
emilmont	1:fdd22bb7aa52	404	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	405	/* Read ya (real), xa(imag) input */
mbed_official	5:3762170b6d4d	406	T = _SIMD32_OFFSET(pSi0);
emilmont	1:fdd22bb7aa52	407
emilmont	1:fdd22bb7aa52	408	/* Read yc (real), xc(imag) input */
mbed_official	5:3762170b6d4d	409	S = _SIMD32_OFFSET(pSi2);
emilmont	1:fdd22bb7aa52	410
emilmont	1:fdd22bb7aa52	411	/* R = packed( (ya + yc), (xa + xc)) */
emilmont	1:fdd22bb7aa52	412	R = __QADD16(T, S);
emilmont	1:fdd22bb7aa52	413
emilmont	1:fdd22bb7aa52	414	/* S = packed((ya - yc), (xa - xc)) */
emilmont	1:fdd22bb7aa52	415	S = __QSUB16(T, S);
emilmont	1:fdd22bb7aa52	416
emilmont	1:fdd22bb7aa52	417	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	418	/* Read yb (real), xb(imag) input */
mbed_official	5:3762170b6d4d	419	T = _SIMD32_OFFSET(pSi1);
emilmont	1:fdd22bb7aa52	420
emilmont	1:fdd22bb7aa52	421	/* Read yd (real), xd(imag) input */
mbed_official	5:3762170b6d4d	422	U = _SIMD32_OFFSET(pSi3);
emilmont	1:fdd22bb7aa52	423
emilmont	1:fdd22bb7aa52	424	/* T = packed( (yb + yd), (xb + xd)) */
emilmont	1:fdd22bb7aa52	425	T = __QADD16(T, U);
emilmont	1:fdd22bb7aa52	426
emilmont	1:fdd22bb7aa52	427	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	428
emilmont	1:fdd22bb7aa52	429	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	430	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	431	out1 = __SHADD16(R, T);
mbed_official	5:3762170b6d4d	432	out1 = __SHADD16(out1, 0);
mbed_official	5:3762170b6d4d	433	_SIMD32_OFFSET(pSi0) = out1;
mbed_official	5:3762170b6d4d	434	pSi0 += 2 * n1;
emilmont	1:fdd22bb7aa52	435
emilmont	1:fdd22bb7aa52	436	/* R = packed( (ya + yc) - (yb + yd), (xa + xc) - (xb + xd)) */
emilmont	1:fdd22bb7aa52	437	R = __SHSUB16(R, T);
emilmont	1:fdd22bb7aa52	438
emilmont	1:fdd22bb7aa52	439	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	440
emilmont	1:fdd22bb7aa52	441	/* (ya-yb+yc-yd)* (si2) + (xa-xb+xc-xd)* co2 */
emilmont	1:fdd22bb7aa52	442	out1 = __SMUAD(C2, R) >> 16u;
emilmont	1:fdd22bb7aa52	443
emilmont	1:fdd22bb7aa52	444	/* (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	445	out2 = __SMUSDX(C2, R);
emilmont	1:fdd22bb7aa52	446
emilmont	1:fdd22bb7aa52	447	#else
emilmont	1:fdd22bb7aa52	448
emilmont	1:fdd22bb7aa52	449	/* (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	450	out1 = __SMUSDX(R, C2) >> 16u;
emilmont	1:fdd22bb7aa52	451
emilmont	1:fdd22bb7aa52	452	/* (ya-yb+yc-yd)* (si2) + (xa-xb+xc-xd)* co2 */
emilmont	1:fdd22bb7aa52	453	out2 = __SMUAD(C2, R);
emilmont	1:fdd22bb7aa52	454
emilmont	1:fdd22bb7aa52	455	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	456
emilmont	1:fdd22bb7aa52	457	/* Reading i0+3fftLen/4 */
emilmont	1:fdd22bb7aa52	458	/* Read yb (real), xb(imag) input */
mbed_official	5:3762170b6d4d	459	T = _SIMD32_OFFSET(pSi1);
emilmont	1:fdd22bb7aa52	460
emilmont	1:fdd22bb7aa52	461	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	462	/* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	463	/* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
mbed_official	5:3762170b6d4d	464	_SIMD32_OFFSET(pSi1) =
emilmont	1:fdd22bb7aa52	465	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
mbed_official	5:3762170b6d4d	466	pSi1 += 2 * n1;
emilmont	1:fdd22bb7aa52	467
emilmont	1:fdd22bb7aa52	468	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	469
emilmont	1:fdd22bb7aa52	470	/* Read yd (real), xd(imag) input */
mbed_official	5:3762170b6d4d	471	U = _SIMD32_OFFSET(pSi3);
emilmont	1:fdd22bb7aa52	472
emilmont	1:fdd22bb7aa52	473	/* T = packed(yb-yd, xb-xd) */
emilmont	1:fdd22bb7aa52	474	T = __QSUB16(T, U);
emilmont	1:fdd22bb7aa52	475
emilmont	1:fdd22bb7aa52	476	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	477
emilmont	1:fdd22bb7aa52	478	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	479	R = __SHASX(S, T);
emilmont	1:fdd22bb7aa52	480
emilmont	1:fdd22bb7aa52	481	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	482	S = __SHSAX(S, T);
emilmont	1:fdd22bb7aa52	483
emilmont	1:fdd22bb7aa52	484
emilmont	1:fdd22bb7aa52	485	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	486	out1 = __SMUAD(C1, S) >> 16u;
emilmont	1:fdd22bb7aa52	487	out2 = __SMUSDX(C1, S);
emilmont	1:fdd22bb7aa52	488
emilmont	1:fdd22bb7aa52	489	#else
emilmont	1:fdd22bb7aa52	490
emilmont	1:fdd22bb7aa52	491	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	492	R = __SHSAX(S, T);
emilmont	1:fdd22bb7aa52	493
emilmont	1:fdd22bb7aa52	494	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	495	S = __SHASX(S, T);
emilmont	1:fdd22bb7aa52	496
emilmont	1:fdd22bb7aa52	497
emilmont	1:fdd22bb7aa52	498	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	499	out1 = __SMUSDX(S, C1) >> 16u;
emilmont	1:fdd22bb7aa52	500	out2 = __SMUAD(C1, S);
emilmont	1:fdd22bb7aa52	501
emilmont	1:fdd22bb7aa52	502	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	503
emilmont	1:fdd22bb7aa52	504	/* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	505	/* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
mbed_official	5:3762170b6d4d	506	_SIMD32_OFFSET(pSi2) =
emilmont	1:fdd22bb7aa52	507	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
mbed_official	5:3762170b6d4d	508	pSi2 += 2 * n1;
emilmont	1:fdd22bb7aa52	509
emilmont	1:fdd22bb7aa52	510	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	511
emilmont	1:fdd22bb7aa52	512	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	513
emilmont	1:fdd22bb7aa52	514	out1 = __SMUAD(C3, R) >> 16u;
emilmont	1:fdd22bb7aa52	515	out2 = __SMUSDX(C3, R);
emilmont	1:fdd22bb7aa52	516
emilmont	1:fdd22bb7aa52	517	#else
emilmont	1:fdd22bb7aa52	518
emilmont	1:fdd22bb7aa52	519	out1 = __SMUSDX(R, C3) >> 16u;
emilmont	1:fdd22bb7aa52	520	out2 = __SMUAD(C3, R);
emilmont	1:fdd22bb7aa52	521
emilmont	1:fdd22bb7aa52	522	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	523
emilmont	1:fdd22bb7aa52	524	/* xd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	525	/* yd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3) */
mbed_official	5:3762170b6d4d	526	_SIMD32_OFFSET(pSi3) =
emilmont	1:fdd22bb7aa52	527	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
mbed_official	5:3762170b6d4d	528	pSi3 += 2 * n1;
emilmont	1:fdd22bb7aa52	529	}
emilmont	1:fdd22bb7aa52	530	}
emilmont	1:fdd22bb7aa52	531	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	532	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	533	}
emilmont	1:fdd22bb7aa52	534	/* end of middle stage process */
emilmont	1:fdd22bb7aa52	535
emilmont	1:fdd22bb7aa52	536
emilmont	1:fdd22bb7aa52	537	/* data is in 10.6(q6) format for the 1024 point */
emilmont	1:fdd22bb7aa52	538	/* data is in 8.8(q8) format for the 256 point */
emilmont	1:fdd22bb7aa52	539	/* data is in 6.10(q10) format for the 64 point */
emilmont	1:fdd22bb7aa52	540	/* data is in 4.12(q12) format for the 16 point */
emilmont	1:fdd22bb7aa52	541
emilmont	1:fdd22bb7aa52	542	/* Initializations for the last stage */
emilmont	1:fdd22bb7aa52	543	j = fftLen >> 2;
emilmont	1:fdd22bb7aa52	544
emilmont	1:fdd22bb7aa52	545	ptr1 = &pSrc16[0];
emilmont	1:fdd22bb7aa52	546
emilmont	1:fdd22bb7aa52	547	/* start of last stage process */
emilmont	1:fdd22bb7aa52	548
emilmont	1:fdd22bb7aa52	549	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	550	do
emilmont	1:fdd22bb7aa52	551	{
emilmont	1:fdd22bb7aa52	552	/* Read xa (real), ya(imag) input */
emilmont	1:fdd22bb7aa52	553	xaya = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	554
emilmont	1:fdd22bb7aa52	555	/* Read xb (real), yb(imag) input */
emilmont	1:fdd22bb7aa52	556	xbyb = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	557
emilmont	1:fdd22bb7aa52	558	/* Read xc (real), yc(imag) input */
emilmont	1:fdd22bb7aa52	559	xcyc = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	560
emilmont	1:fdd22bb7aa52	561	/* Read xd (real), yd(imag) input */
emilmont	1:fdd22bb7aa52	562	xdyd = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	563
emilmont	1:fdd22bb7aa52	564	/* R = packed((ya + yc), (xa + xc)) */
emilmont	1:fdd22bb7aa52	565	R = __QADD16(xaya, xcyc);
emilmont	1:fdd22bb7aa52	566
emilmont	1:fdd22bb7aa52	567	/* T = packed((yb + yd), (xb + xd)) */
emilmont	1:fdd22bb7aa52	568	T = __QADD16(xbyb, xdyd);
emilmont	1:fdd22bb7aa52	569
emilmont	1:fdd22bb7aa52	570	/* pointer updation for writing */
emilmont	1:fdd22bb7aa52	571	ptr1 = ptr1 - 8u;
emilmont	1:fdd22bb7aa52	572
emilmont	1:fdd22bb7aa52	573
emilmont	1:fdd22bb7aa52	574	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	575	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	576	*__SIMD32(ptr1)++ = __SHADD16(R, T);
emilmont	1:fdd22bb7aa52	577
emilmont	1:fdd22bb7aa52	578	/* T = packed((yb + yd), (xb + xd)) */
emilmont	1:fdd22bb7aa52	579	T = __QADD16(xbyb, xdyd);
emilmont	1:fdd22bb7aa52	580
emilmont	1:fdd22bb7aa52	581	/* xc' = (xa-xb+xc-xd) */
emilmont	1:fdd22bb7aa52	582	/* yc' = (ya-yb+yc-yd) */
emilmont	1:fdd22bb7aa52	583	*__SIMD32(ptr1)++ = __SHSUB16(R, T);
emilmont	1:fdd22bb7aa52	584
emilmont	1:fdd22bb7aa52	585	/* S = packed((ya - yc), (xa - xc)) */
emilmont	1:fdd22bb7aa52	586	S = __QSUB16(xaya, xcyc);
emilmont	1:fdd22bb7aa52	587
emilmont	1:fdd22bb7aa52	588	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	589	/* T = packed( (yb - yd), (xb - xd)) */
emilmont	1:fdd22bb7aa52	590	U = __QSUB16(xbyb, xdyd);
emilmont	1:fdd22bb7aa52	591
emilmont	1:fdd22bb7aa52	592	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	593
emilmont	1:fdd22bb7aa52	594	/* xb' = (xa+yb-xc-yd) */
emilmont	1:fdd22bb7aa52	595	/* yb' = (ya-xb-yc+xd) */
emilmont	1:fdd22bb7aa52	596	*__SIMD32(ptr1)++ = __SHSAX(S, U);
emilmont	1:fdd22bb7aa52	597
emilmont	1:fdd22bb7aa52	598
emilmont	1:fdd22bb7aa52	599	/* xd' = (xa-yb-xc+yd) */
emilmont	1:fdd22bb7aa52	600	/* yd' = (ya+xb-yc-xd) */
emilmont	1:fdd22bb7aa52	601	*__SIMD32(ptr1)++ = __SHASX(S, U);
emilmont	1:fdd22bb7aa52	602
emilmont	1:fdd22bb7aa52	603	#else
emilmont	1:fdd22bb7aa52	604
emilmont	1:fdd22bb7aa52	605	/* xb' = (xa+yb-xc-yd) */
emilmont	1:fdd22bb7aa52	606	/* yb' = (ya-xb-yc+xd) */
emilmont	1:fdd22bb7aa52	607	*__SIMD32(ptr1)++ = __SHASX(S, U);
emilmont	1:fdd22bb7aa52	608
emilmont	1:fdd22bb7aa52	609
emilmont	1:fdd22bb7aa52	610	/* xd' = (xa-yb-xc+yd) */
emilmont	1:fdd22bb7aa52	611	/* yd' = (ya+xb-yc-xd) */
emilmont	1:fdd22bb7aa52	612	*__SIMD32(ptr1)++ = __SHSAX(S, U);
emilmont	1:fdd22bb7aa52	613
emilmont	1:fdd22bb7aa52	614	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	615
emilmont	1:fdd22bb7aa52	616	} while(--j);
emilmont	1:fdd22bb7aa52	617
emilmont	1:fdd22bb7aa52	618	/* end of last stage process */
emilmont	1:fdd22bb7aa52	619
emilmont	1:fdd22bb7aa52	620	/* output is in 11.5(q5) format for the 1024 point */
emilmont	1:fdd22bb7aa52	621	/* output is in 9.7(q7) format for the 256 point */
emilmont	1:fdd22bb7aa52	622	/* output is in 7.9(q9) format for the 64 point */
emilmont	1:fdd22bb7aa52	623	/* output is in 5.11(q11) format for the 16 point */
emilmont	1:fdd22bb7aa52	624
emilmont	1:fdd22bb7aa52	625
emilmont	1:fdd22bb7aa52	626	#else
emilmont	1:fdd22bb7aa52	627
emilmont	1:fdd22bb7aa52	628	/* Run the below code for Cortex-M0 */
emilmont	1:fdd22bb7aa52	629
emilmont	1:fdd22bb7aa52	630	q15_t R0, R1, S0, S1, T0, T1, U0, U1;
emilmont	1:fdd22bb7aa52	631	q15_t Co1, Si1, Co2, Si2, Co3, Si3, out1, out2;
emilmont	1:fdd22bb7aa52	632	uint32_t n1, n2, ic, i0, i1, i2, i3, j, k;
emilmont	1:fdd22bb7aa52	633
emilmont	1:fdd22bb7aa52	634	/* Total process is divided into three stages */
emilmont	1:fdd22bb7aa52	635
emilmont	1:fdd22bb7aa52	636	/* process first stage, middle stages, & last stage */
emilmont	1:fdd22bb7aa52	637
emilmont	1:fdd22bb7aa52	638	/* Initializations for the first stage */
emilmont	1:fdd22bb7aa52	639	n2 = fftLen;
emilmont	1:fdd22bb7aa52	640	n1 = n2;
emilmont	1:fdd22bb7aa52	641
emilmont	1:fdd22bb7aa52	642	/* n2 = fftLen/4 */
emilmont	1:fdd22bb7aa52	643	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	644
emilmont	1:fdd22bb7aa52	645	/* Index for twiddle coefficient */
emilmont	1:fdd22bb7aa52	646	ic = 0u;
emilmont	1:fdd22bb7aa52	647
emilmont	1:fdd22bb7aa52	648	/* Index for input read and output write */
emilmont	1:fdd22bb7aa52	649	i0 = 0u;
emilmont	1:fdd22bb7aa52	650	j = n2;
emilmont	1:fdd22bb7aa52	651
emilmont	1:fdd22bb7aa52	652	/* Input is in 1.15(q15) format */
emilmont	1:fdd22bb7aa52	653
emilmont	1:fdd22bb7aa52	654	/* start of first stage process */
emilmont	1:fdd22bb7aa52	655	do
emilmont	1:fdd22bb7aa52	656	{
emilmont	1:fdd22bb7aa52	657	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	658
emilmont	1:fdd22bb7aa52	659	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	660	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	661	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	662	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	663	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	664
emilmont	1:fdd22bb7aa52	665	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	666
emilmont	1:fdd22bb7aa52	667	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	668	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	669	T0 = pSrc16[i0 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	670	T1 = pSrc16[(i0 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	671
emilmont	1:fdd22bb7aa52	672	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	673	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	674	S0 = pSrc16[i2 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	675	S1 = pSrc16[(i2 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	676
emilmont	1:fdd22bb7aa52	677	/* R0 = (ya + yc) */
emilmont	1:fdd22bb7aa52	678	R0 = __SSAT(T0 + S0, 16u);
emilmont	1:fdd22bb7aa52	679	/* R1 = (xa + xc) */
emilmont	1:fdd22bb7aa52	680	R1 = __SSAT(T1 + S1, 16u);
emilmont	1:fdd22bb7aa52	681
emilmont	1:fdd22bb7aa52	682	/* S0 = (ya - yc) */
emilmont	1:fdd22bb7aa52	683	S0 = __SSAT(T0 - S0, 16);
emilmont	1:fdd22bb7aa52	684	/* S1 = (xa - xc) */
emilmont	1:fdd22bb7aa52	685	S1 = __SSAT(T1 - S1, 16);
emilmont	1:fdd22bb7aa52	686
emilmont	1:fdd22bb7aa52	687	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	688	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	689	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	690	T0 = pSrc16[i1 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	691	T1 = pSrc16[(i1 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	692
emilmont	1:fdd22bb7aa52	693	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	694	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	695	U0 = pSrc16[i3 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	696	U1 = pSrc16[(i3 * 2u) + 1] >> 2u;
emilmont	1:fdd22bb7aa52	697
emilmont	1:fdd22bb7aa52	698	/* T0 = (yb + yd) */
emilmont	1:fdd22bb7aa52	699	T0 = __SSAT(T0 + U0, 16u);
emilmont	1:fdd22bb7aa52	700	/* T1 = (xb + xd) */
emilmont	1:fdd22bb7aa52	701	T1 = __SSAT(T1 + U1, 16u);
emilmont	1:fdd22bb7aa52	702
emilmont	1:fdd22bb7aa52	703	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	704	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	705	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	706	pSrc16[i0 * 2u] = (R0 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	707	pSrc16[(i0 * 2u) + 1u] = (R1 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	708
emilmont	1:fdd22bb7aa52	709	/* R0 = (ya + yc) - (yb + yd) */
emilmont	1:fdd22bb7aa52	710	/* R1 = (xa + xc) - (xb + xd) */
emilmont	1:fdd22bb7aa52	711	R0 = __SSAT(R0 - T0, 16u);
emilmont	1:fdd22bb7aa52	712	R1 = __SSAT(R1 - T1, 16u);
emilmont	1:fdd22bb7aa52	713
emilmont	1:fdd22bb7aa52	714	/* co2 & si2 are read from Coefficient pointer */
emilmont	1:fdd22bb7aa52	715	Co2 = pCoef16[2u * ic * 2u];
emilmont	1:fdd22bb7aa52	716	Si2 = pCoef16[(2u * ic * 2u) + 1];
emilmont	1:fdd22bb7aa52	717
emilmont	1:fdd22bb7aa52	718	/* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
mbed_official	5:3762170b6d4d	719	out1 = (q15_t) ((Co2 * R0 + Si2 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	720	/* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
mbed_official	5:3762170b6d4d	721	out2 = (q15_t) ((-Si2 * R0 + Co2 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	722
emilmont	1:fdd22bb7aa52	723	/* Reading i0+fftLen/4 */
emilmont	1:fdd22bb7aa52	724	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	725	/* T0 = yb, T1 = xb */
emilmont	1:fdd22bb7aa52	726	T0 = pSrc16[i1 * 2u] >> 2;
emilmont	1:fdd22bb7aa52	727	T1 = pSrc16[(i1 * 2u) + 1] >> 2;
emilmont	1:fdd22bb7aa52	728
emilmont	1:fdd22bb7aa52	729	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	730	/* writing output(xc', yc') in little endian format */
emilmont	1:fdd22bb7aa52	731	pSrc16[i1 * 2u] = out1;
emilmont	1:fdd22bb7aa52	732	pSrc16[(i1 * 2u) + 1] = out2;
emilmont	1:fdd22bb7aa52	733
emilmont	1:fdd22bb7aa52	734	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	735	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	736	/* U0 = yd, U1 = xd */
emilmont	1:fdd22bb7aa52	737	U0 = pSrc16[i3 * 2u] >> 2;
emilmont	1:fdd22bb7aa52	738	U1 = pSrc16[(i3 * 2u) + 1] >> 2;
emilmont	1:fdd22bb7aa52	739	/* T0 = yb-yd */
emilmont	1:fdd22bb7aa52	740	T0 = __SSAT(T0 - U0, 16);
emilmont	1:fdd22bb7aa52	741	/* T1 = xb-xd */
emilmont	1:fdd22bb7aa52	742	T1 = __SSAT(T1 - U1, 16);
emilmont	1:fdd22bb7aa52	743
emilmont	1:fdd22bb7aa52	744	/* R1 = (ya-yc) + (xb- xd), R0 = (xa-xc) - (yb-yd)) */
mbed_official	5:3762170b6d4d	745	R0 = (q15_t) __SSAT((q31_t) (S0 - T1), 16);
mbed_official	5:3762170b6d4d	746	R1 = (q15_t) __SSAT((q31_t) (S1 + T0), 16);
emilmont	1:fdd22bb7aa52	747
emilmont	1:fdd22bb7aa52	748	/* S1 = (ya-yc) - (xb- xd), S0 = (xa-xc) + (yb-yd)) */
mbed_official	5:3762170b6d4d	749	S0 = (q15_t) __SSAT(((q31_t) S0 + T1), 16u);
mbed_official	5:3762170b6d4d	750	S1 = (q15_t) __SSAT(((q31_t) S1 - T0), 16u);
emilmont	1:fdd22bb7aa52	751
emilmont	1:fdd22bb7aa52	752	/* co1 & si1 are read from Coefficient pointer */
emilmont	1:fdd22bb7aa52	753	Co1 = pCoef16[ic * 2u];
emilmont	1:fdd22bb7aa52	754	Si1 = pCoef16[(ic * 2u) + 1];
emilmont	1:fdd22bb7aa52	755	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	756	/* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
mbed_official	5:3762170b6d4d	757	out1 = (q15_t) ((Si1 * S1 + Co1 * S0) >> 16);
emilmont	1:fdd22bb7aa52	758	/* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
mbed_official	5:3762170b6d4d	759	out2 = (q15_t) ((-Si1 * S0 + Co1 * S1) >> 16);
emilmont	1:fdd22bb7aa52	760
emilmont	1:fdd22bb7aa52	761	/* writing output(xb', yb') in little endian format */
emilmont	1:fdd22bb7aa52	762	pSrc16[i2 * 2u] = out1;
emilmont	1:fdd22bb7aa52	763	pSrc16[(i2 * 2u) + 1] = out2;
emilmont	1:fdd22bb7aa52	764
emilmont	1:fdd22bb7aa52	765	/* Co3 & si3 are read from Coefficient pointer */
emilmont	1:fdd22bb7aa52	766	Co3 = pCoef16[3u * (ic * 2u)];
emilmont	1:fdd22bb7aa52	767	Si3 = pCoef16[(3u * (ic * 2u)) + 1];
emilmont	1:fdd22bb7aa52	768	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	769	/* xd' = (xa-yb-xc+yd)* Co3 + (ya+xb-yc-xd)* (si3) */
mbed_official	5:3762170b6d4d	770	out1 = (q15_t) ((Si3 * R1 + Co3 * R0) >> 16u);
emilmont	1:fdd22bb7aa52	771	/* yd' = (ya+xb-yc-xd)* Co3 - (xa-yb-xc+yd)* (si3) */
mbed_official	5:3762170b6d4d	772	out2 = (q15_t) ((-Si3 * R0 + Co3 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	773	/* writing output(xd', yd') in little endian format */
emilmont	1:fdd22bb7aa52	774	pSrc16[i3 * 2u] = out1;
emilmont	1:fdd22bb7aa52	775	pSrc16[(i3 * 2u) + 1] = out2;
emilmont	1:fdd22bb7aa52	776
emilmont	1:fdd22bb7aa52	777	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	778	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	779
emilmont	1:fdd22bb7aa52	780	/* Updating input index */
emilmont	1:fdd22bb7aa52	781	i0 = i0 + 1u;
emilmont	1:fdd22bb7aa52	782
emilmont	1:fdd22bb7aa52	783	} while(--j);
emilmont	1:fdd22bb7aa52	784	/* data is in 4.11(q11) format */
emilmont	1:fdd22bb7aa52	785
emilmont	1:fdd22bb7aa52	786	/* end of first stage process */
emilmont	1:fdd22bb7aa52	787
emilmont	1:fdd22bb7aa52	788
emilmont	1:fdd22bb7aa52	789	/* start of middle stage process */
emilmont	1:fdd22bb7aa52	790
emilmont	1:fdd22bb7aa52	791	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	792	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	793
emilmont	1:fdd22bb7aa52	794	/* Calculation of Middle stage */
emilmont	1:fdd22bb7aa52	795	for (k = fftLen / 4u; k > 4u; k >>= 2u)
emilmont	1:fdd22bb7aa52	796	{
emilmont	1:fdd22bb7aa52	797	/* Initializations for the middle stage */
emilmont	1:fdd22bb7aa52	798	n1 = n2;
emilmont	1:fdd22bb7aa52	799	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	800	ic = 0u;
emilmont	1:fdd22bb7aa52	801
emilmont	1:fdd22bb7aa52	802	for (j = 0u; j <= (n2 - 1u); j++)
emilmont	1:fdd22bb7aa52	803	{
emilmont	1:fdd22bb7aa52	804	/* index calculation for the coefficients */
emilmont	1:fdd22bb7aa52	805	Co1 = pCoef16[ic * 2u];
emilmont	1:fdd22bb7aa52	806	Si1 = pCoef16[(ic * 2u) + 1u];
emilmont	1:fdd22bb7aa52	807	Co2 = pCoef16[2u * (ic * 2u)];
emilmont	1:fdd22bb7aa52	808	Si2 = pCoef16[(2u * (ic * 2u)) + 1u];
emilmont	1:fdd22bb7aa52	809	Co3 = pCoef16[3u * (ic * 2u)];
emilmont	1:fdd22bb7aa52	810	Si3 = pCoef16[(3u * (ic * 2u)) + 1u];
emilmont	1:fdd22bb7aa52	811
emilmont	1:fdd22bb7aa52	812	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	813	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	814
emilmont	1:fdd22bb7aa52	815	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	816	for (i0 = j; i0 < fftLen; i0 += n1)
emilmont	1:fdd22bb7aa52	817	{
emilmont	1:fdd22bb7aa52	818	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	819	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	820	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	821	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	822	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	823
emilmont	1:fdd22bb7aa52	824	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	825	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	826	T0 = pSrc16[i0 * 2u];
emilmont	1:fdd22bb7aa52	827	T1 = pSrc16[(i0 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	828
emilmont	1:fdd22bb7aa52	829	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	830	S0 = pSrc16[i2 * 2u];
emilmont	1:fdd22bb7aa52	831	S1 = pSrc16[(i2 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	832
emilmont	1:fdd22bb7aa52	833	/* R0 = (ya + yc), R1 = (xa + xc) */
emilmont	1:fdd22bb7aa52	834	R0 = __SSAT(T0 + S0, 16);
emilmont	1:fdd22bb7aa52	835	R1 = __SSAT(T1 + S1, 16);
emilmont	1:fdd22bb7aa52	836
emilmont	1:fdd22bb7aa52	837	/* S0 = (ya - yc), S1 =(xa - xc) */
emilmont	1:fdd22bb7aa52	838	S0 = __SSAT(T0 - S0, 16);
emilmont	1:fdd22bb7aa52	839	S1 = __SSAT(T1 - S1, 16);
emilmont	1:fdd22bb7aa52	840
emilmont	1:fdd22bb7aa52	841	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	842	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	843	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	844	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	845
emilmont	1:fdd22bb7aa52	846	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	847	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	848	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	849
emilmont	1:fdd22bb7aa52	850
emilmont	1:fdd22bb7aa52	851	/* T0 = (yb + yd), T1 = (xb + xd) */
emilmont	1:fdd22bb7aa52	852	T0 = __SSAT(T0 + U0, 16);
emilmont	1:fdd22bb7aa52	853	T1 = __SSAT(T1 + U1, 16);
emilmont	1:fdd22bb7aa52	854
emilmont	1:fdd22bb7aa52	855	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	856
emilmont	1:fdd22bb7aa52	857	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	858	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	859	out1 = ((R0 >> 1u) + (T0 >> 1u)) >> 1u;
emilmont	1:fdd22bb7aa52	860	out2 = ((R1 >> 1u) + (T1 >> 1u)) >> 1u;
emilmont	1:fdd22bb7aa52	861
emilmont	1:fdd22bb7aa52	862	pSrc16[i0 * 2u] = out1;
emilmont	1:fdd22bb7aa52	863	pSrc16[(2u * i0) + 1u] = out2;
emilmont	1:fdd22bb7aa52	864
emilmont	1:fdd22bb7aa52	865	/* R0 = (ya + yc) - (yb + yd), R1 = (xa + xc) - (xb + xd) */
emilmont	1:fdd22bb7aa52	866	R0 = (R0 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	867	R1 = (R1 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	868
emilmont	1:fdd22bb7aa52	869	/* (ya-yb+yc-yd)* (si2) + (xa-xb+xc-xd)* co2 */
mbed_official	5:3762170b6d4d	870	out1 = (q15_t) ((Co2 * R0 + Si2 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	871
emilmont	1:fdd22bb7aa52	872	/* (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
mbed_official	5:3762170b6d4d	873	out2 = (q15_t) ((-Si2 * R0 + Co2 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	874
emilmont	1:fdd22bb7aa52	875	/* Reading i0+3fftLen/4 */
emilmont	1:fdd22bb7aa52	876	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	877	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	878	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	879
emilmont	1:fdd22bb7aa52	880	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	881	/* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	882	/* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	883	pSrc16[i1 * 2u] = out1;
emilmont	1:fdd22bb7aa52	884	pSrc16[(i1 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	885
emilmont	1:fdd22bb7aa52	886	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	887
emilmont	1:fdd22bb7aa52	888	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	889	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	890	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	891
emilmont	1:fdd22bb7aa52	892	/* T0 = yb-yd, T1 = xb-xd */
emilmont	1:fdd22bb7aa52	893	T0 = __SSAT(T0 - U0, 16);
emilmont	1:fdd22bb7aa52	894	T1 = __SSAT(T1 - U1, 16);
emilmont	1:fdd22bb7aa52	895
emilmont	1:fdd22bb7aa52	896	/* R0 = (ya-yc) + (xb- xd), R1 = (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	897	R0 = (S0 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	898	R1 = (S1 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	899
emilmont	1:fdd22bb7aa52	900	/* S0 = (ya-yc) - (xb- xd), S1 = (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	901	S0 = (S0 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	902	S1 = (S1 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	903
emilmont	1:fdd22bb7aa52	904	/* Butterfly process for the i0+fftLen/2 sample */
mbed_official	5:3762170b6d4d	905	out1 = (q15_t) ((Co1 * S0 + Si1 * S1) >> 16u);
emilmont	1:fdd22bb7aa52	906
mbed_official	5:3762170b6d4d	907	out2 = (q15_t) ((-Si1 * S0 + Co1 * S1) >> 16u);
emilmont	1:fdd22bb7aa52	908
emilmont	1:fdd22bb7aa52	909	/* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	910	/* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	911	pSrc16[i2 * 2u] = out1;
emilmont	1:fdd22bb7aa52	912	pSrc16[(i2 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	913
emilmont	1:fdd22bb7aa52	914	/* Butterfly process for the i0+3fftLen/4 sample */
mbed_official	5:3762170b6d4d	915	out1 = (q15_t) ((Si3 * R1 + Co3 * R0) >> 16u);
emilmont	1:fdd22bb7aa52	916
mbed_official	5:3762170b6d4d	917	out2 = (q15_t) ((-Si3 * R0 + Co3 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	918	/* xd' = (xa-yb-xc+yd)* Co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	919	/* yd' = (ya+xb-yc-xd)* Co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	920	pSrc16[i3 * 2u] = out1;
emilmont	1:fdd22bb7aa52	921	pSrc16[(i3 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	922	}
emilmont	1:fdd22bb7aa52	923	}
emilmont	1:fdd22bb7aa52	924	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	925	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	926	}
emilmont	1:fdd22bb7aa52	927	/* end of middle stage process */
emilmont	1:fdd22bb7aa52	928
emilmont	1:fdd22bb7aa52	929
emilmont	1:fdd22bb7aa52	930	/* data is in 10.6(q6) format for the 1024 point */
emilmont	1:fdd22bb7aa52	931	/* data is in 8.8(q8) format for the 256 point */
emilmont	1:fdd22bb7aa52	932	/* data is in 6.10(q10) format for the 64 point */
emilmont	1:fdd22bb7aa52	933	/* data is in 4.12(q12) format for the 16 point */
emilmont	1:fdd22bb7aa52	934
emilmont	1:fdd22bb7aa52	935	/* Initializations for the last stage */
emilmont	1:fdd22bb7aa52	936	n1 = n2;
emilmont	1:fdd22bb7aa52	937	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	938
emilmont	1:fdd22bb7aa52	939	/* start of last stage process */
emilmont	1:fdd22bb7aa52	940
emilmont	1:fdd22bb7aa52	941	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	942	for (i0 = 0u; i0 <= (fftLen - n1); i0 += n1)
emilmont	1:fdd22bb7aa52	943	{
emilmont	1:fdd22bb7aa52	944	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	945	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	946	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	947	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	948	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	949
emilmont	1:fdd22bb7aa52	950	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	951	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	952	T0 = pSrc16[i0 * 2u];
emilmont	1:fdd22bb7aa52	953	T1 = pSrc16[(i0 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	954
emilmont	1:fdd22bb7aa52	955	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	956	S0 = pSrc16[i2 * 2u];
emilmont	1:fdd22bb7aa52	957	S1 = pSrc16[(i2 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	958
emilmont	1:fdd22bb7aa52	959	/* R0 = (ya + yc), R1 = (xa + xc) */
emilmont	1:fdd22bb7aa52	960	R0 = __SSAT(T0 + S0, 16u);
emilmont	1:fdd22bb7aa52	961	R1 = __SSAT(T1 + S1, 16u);
emilmont	1:fdd22bb7aa52	962
emilmont	1:fdd22bb7aa52	963	/* S0 = (ya - yc), S1 = (xa - xc) */
emilmont	1:fdd22bb7aa52	964	S0 = __SSAT(T0 - S0, 16u);
emilmont	1:fdd22bb7aa52	965	S1 = __SSAT(T1 - S1, 16u);
emilmont	1:fdd22bb7aa52	966
emilmont	1:fdd22bb7aa52	967	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	968	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	969	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	970	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	971	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	972	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	973	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	974
emilmont	1:fdd22bb7aa52	975	/* T0 = (yb + yd), T1 = (xb + xd)) */
emilmont	1:fdd22bb7aa52	976	T0 = __SSAT(T0 + U0, 16u);
emilmont	1:fdd22bb7aa52	977	T1 = __SSAT(T1 + U1, 16u);
emilmont	1:fdd22bb7aa52	978
emilmont	1:fdd22bb7aa52	979	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	980	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	981	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	982	pSrc16[i0 * 2u] = (R0 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	983	pSrc16[(i0 * 2u) + 1u] = (R1 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	984
emilmont	1:fdd22bb7aa52	985	/* R0 = (ya + yc) - (yb + yd), R1 = (xa + xc) - (xb + xd) */
emilmont	1:fdd22bb7aa52	986	R0 = (R0 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	987	R1 = (R1 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	988	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	989	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	990	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	991
emilmont	1:fdd22bb7aa52	992	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	993	/* xc' = (xa-xb+xc-xd) */
emilmont	1:fdd22bb7aa52	994	/* yc' = (ya-yb+yc-yd) */
emilmont	1:fdd22bb7aa52	995	pSrc16[i1 * 2u] = R0;
emilmont	1:fdd22bb7aa52	996	pSrc16[(i1 * 2u) + 1u] = R1;
emilmont	1:fdd22bb7aa52	997
emilmont	1:fdd22bb7aa52	998	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	999	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	1000	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1001	/* T0 = (yb - yd), T1 = (xb - xd) */
emilmont	1:fdd22bb7aa52	1002	T0 = __SSAT(T0 - U0, 16u);
emilmont	1:fdd22bb7aa52	1003	T1 = __SSAT(T1 - U1, 16u);
emilmont	1:fdd22bb7aa52	1004
emilmont	1:fdd22bb7aa52	1005	/* writing the butterfly processed i0 + fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1006	/* xb' = (xa+yb-xc-yd) */
emilmont	1:fdd22bb7aa52	1007	/* yb' = (ya-xb-yc+xd) */
emilmont	1:fdd22bb7aa52	1008	pSrc16[i2 * 2u] = (S0 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1009	pSrc16[(i2 * 2u) + 1u] = (S1 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1010
emilmont	1:fdd22bb7aa52	1011	/* writing the butterfly processed i0 + 3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1012	/* xd' = (xa-yb-xc+yd) */
emilmont	1:fdd22bb7aa52	1013	/* yd' = (ya+xb-yc-xd) */
emilmont	1:fdd22bb7aa52	1014	pSrc16[i3 * 2u] = (S0 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1015	pSrc16[(i3 * 2u) + 1u] = (S1 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1016
emilmont	1:fdd22bb7aa52	1017	}
emilmont	1:fdd22bb7aa52	1018
emilmont	1:fdd22bb7aa52	1019	/* end of last stage process */
emilmont	1:fdd22bb7aa52	1020
emilmont	1:fdd22bb7aa52	1021	/* output is in 11.5(q5) format for the 1024 point */
emilmont	1:fdd22bb7aa52	1022	/* output is in 9.7(q7) format for the 256 point */
emilmont	1:fdd22bb7aa52	1023	/* output is in 7.9(q9) format for the 64 point */
emilmont	1:fdd22bb7aa52	1024	/* output is in 5.11(q11) format for the 16 point */
emilmont	1:fdd22bb7aa52	1025
mbed_official	3:7a284390b0ce	1026	#endif /* #ifndef ARM_MATH_CM0_FAMILY */
emilmont	1:fdd22bb7aa52	1027
emilmont	1:fdd22bb7aa52	1028	}
emilmont	1:fdd22bb7aa52	1029
emilmont	1:fdd22bb7aa52	1030
emilmont	1:fdd22bb7aa52	1031	/**
emilmont	1:fdd22bb7aa52	1032	* @brief Core function for the Q15 CIFFT butterfly process.
emilmont	1:fdd22bb7aa52	1033	* @param[in, out] *pSrc16 points to the in-place buffer of Q15 data type.
emilmont	1:fdd22bb7aa52	1034	* @param[in] fftLen length of the FFT.
emilmont	1:fdd22bb7aa52	1035	* @param[in] *pCoef16 points to twiddle coefficient buffer.
emilmont	1:fdd22bb7aa52	1036	* @param[in] twidCoefModifier twiddle coefficient modifier that supports different size FFTs with the same twiddle factor table.
emilmont	1:fdd22bb7aa52	1037	* @return none.
emilmont	1:fdd22bb7aa52	1038	*/
emilmont	1:fdd22bb7aa52	1039
emilmont	1:fdd22bb7aa52	1040	/*
emilmont	1:fdd22bb7aa52	1041	* Radix-4 IFFT algorithm used is :
emilmont	1:fdd22bb7aa52	1042	*
emilmont	1:fdd22bb7aa52	1043	* CIFFT uses same twiddle coefficients as CFFT function
emilmont	1:fdd22bb7aa52	1044	* x[k] = x[n] + (j)k * x[n + fftLen/4] + (-1)k * x[n+fftLen/2] + (-j)k * x[n+3*fftLen/4]
emilmont	1:fdd22bb7aa52	1045	*
emilmont	1:fdd22bb7aa52	1046	*
emilmont	1:fdd22bb7aa52	1047	* IFFT is implemented with following changes in equations from FFT
emilmont	1:fdd22bb7aa52	1048	*
emilmont	1:fdd22bb7aa52	1049	* Input real and imaginary data:
emilmont	1:fdd22bb7aa52	1050	* x(n) = xa + j * ya
emilmont	1:fdd22bb7aa52	1051	* x(n+N/4 ) = xb + j * yb
emilmont	1:fdd22bb7aa52	1052	* x(n+N/2 ) = xc + j * yc
emilmont	1:fdd22bb7aa52	1053	* x(n+3N 4) = xd + j * yd
emilmont	1:fdd22bb7aa52	1054	*
emilmont	1:fdd22bb7aa52	1055	*
emilmont	1:fdd22bb7aa52	1056	* Output real and imaginary data:
emilmont	1:fdd22bb7aa52	1057	* x(4r) = xa'+ j * ya'
emilmont	1:fdd22bb7aa52	1058	* x(4r+1) = xb'+ j * yb'
emilmont	1:fdd22bb7aa52	1059	* x(4r+2) = xc'+ j * yc'
emilmont	1:fdd22bb7aa52	1060	* x(4r+3) = xd'+ j * yd'
emilmont	1:fdd22bb7aa52	1061	*
emilmont	1:fdd22bb7aa52	1062	*
emilmont	1:fdd22bb7aa52	1063	* Twiddle factors for radix-4 IFFT:
emilmont	1:fdd22bb7aa52	1064	* Wn = co1 + j * (si1)
emilmont	1:fdd22bb7aa52	1065	* W2n = co2 + j * (si2)
emilmont	1:fdd22bb7aa52	1066	* W3n = co3 + j * (si3)
emilmont	1:fdd22bb7aa52	1067
emilmont	1:fdd22bb7aa52	1068	* The real and imaginary output values for the radix-4 butterfly are
emilmont	1:fdd22bb7aa52	1069	* xa' = xa + xb + xc + xd
emilmont	1:fdd22bb7aa52	1070	* ya' = ya + yb + yc + yd
emilmont	1:fdd22bb7aa52	1071	* xb' = (xa-yb-xc+yd)* co1 - (ya+xb-yc-xd)* (si1)
emilmont	1:fdd22bb7aa52	1072	* yb' = (ya+xb-yc-xd)* co1 + (xa-yb-xc+yd)* (si1)
emilmont	1:fdd22bb7aa52	1073	* xc' = (xa-xb+xc-xd)* co2 - (ya-yb+yc-yd)* (si2)
emilmont	1:fdd22bb7aa52	1074	* yc' = (ya-yb+yc-yd)* co2 + (xa-xb+xc-xd)* (si2)
emilmont	1:fdd22bb7aa52	1075	* xd' = (xa+yb-xc-yd)* co3 - (ya-xb-yc+xd)* (si3)
emilmont	1:fdd22bb7aa52	1076	* yd' = (ya-xb-yc+xd)* co3 + (xa+yb-xc-yd)* (si3)
emilmont	1:fdd22bb7aa52	1077	*
emilmont	1:fdd22bb7aa52	1078	*/
emilmont	1:fdd22bb7aa52	1079
emilmont	1:fdd22bb7aa52	1080	void arm_radix4_butterfly_inverse_q15(
emilmont	1:fdd22bb7aa52	1081	q15_t * pSrc16,
emilmont	1:fdd22bb7aa52	1082	uint32_t fftLen,
emilmont	1:fdd22bb7aa52	1083	q15_t * pCoef16,
emilmont	1:fdd22bb7aa52	1084	uint32_t twidCoefModifier)
emilmont	1:fdd22bb7aa52	1085	{
emilmont	1:fdd22bb7aa52	1086
mbed_official	3:7a284390b0ce	1087	#ifndef ARM_MATH_CM0_FAMILY
emilmont	1:fdd22bb7aa52	1088
emilmont	1:fdd22bb7aa52	1089	/* Run the below code for Cortex-M4 and Cortex-M3 */
emilmont	1:fdd22bb7aa52	1090
emilmont	1:fdd22bb7aa52	1091	q31_t R, S, T, U;
emilmont	1:fdd22bb7aa52	1092	q31_t C1, C2, C3, out1, out2;
mbed_official	5:3762170b6d4d	1093	uint32_t n1, n2, ic, i0, j, k;
emilmont	1:fdd22bb7aa52	1094
emilmont	1:fdd22bb7aa52	1095	q15_t *ptr1;
mbed_official	5:3762170b6d4d	1096	q15_t *pSi0;
mbed_official	5:3762170b6d4d	1097	q15_t *pSi1;
mbed_official	5:3762170b6d4d	1098	q15_t *pSi2;
mbed_official	5:3762170b6d4d	1099	q15_t *pSi3;
emilmont	1:fdd22bb7aa52	1100
emilmont	1:fdd22bb7aa52	1101	q31_t xaya, xbyb, xcyc, xdyd;
emilmont	1:fdd22bb7aa52	1102
emilmont	1:fdd22bb7aa52	1103	/* Total process is divided into three stages */
emilmont	1:fdd22bb7aa52	1104
emilmont	1:fdd22bb7aa52	1105	/* process first stage, middle stages, & last stage */
emilmont	1:fdd22bb7aa52	1106
emilmont	1:fdd22bb7aa52	1107	/* Initializations for the first stage */
emilmont	1:fdd22bb7aa52	1108	n2 = fftLen;
emilmont	1:fdd22bb7aa52	1109	n1 = n2;
emilmont	1:fdd22bb7aa52	1110
emilmont	1:fdd22bb7aa52	1111	/* n2 = fftLen/4 */
emilmont	1:fdd22bb7aa52	1112	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	1113
emilmont	1:fdd22bb7aa52	1114	/* Index for twiddle coefficient */
emilmont	1:fdd22bb7aa52	1115	ic = 0u;
emilmont	1:fdd22bb7aa52	1116
emilmont	1:fdd22bb7aa52	1117	/* Index for input read and output write */
emilmont	1:fdd22bb7aa52	1118	j = n2;
mbed_official	5:3762170b6d4d	1119
mbed_official	5:3762170b6d4d	1120	pSi0 = pSrc16;
mbed_official	5:3762170b6d4d	1121	pSi1 = pSi0 + 2 * n2;
mbed_official	5:3762170b6d4d	1122	pSi2 = pSi1 + 2 * n2;
mbed_official	5:3762170b6d4d	1123	pSi3 = pSi2 + 2 * n2;
emilmont	1:fdd22bb7aa52	1124
emilmont	1:fdd22bb7aa52	1125	/* Input is in 1.15(q15) format */
emilmont	1:fdd22bb7aa52	1126
emilmont	1:fdd22bb7aa52	1127	/* start of first stage process */
emilmont	1:fdd22bb7aa52	1128	do
emilmont	1:fdd22bb7aa52	1129	{
emilmont	1:fdd22bb7aa52	1130	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	1131
emilmont	1:fdd22bb7aa52	1132	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	1133	/* Read ya (real), xa(imag) input */
mbed_official	5:3762170b6d4d	1134	T = _SIMD32_OFFSET(pSi0);
mbed_official	5:3762170b6d4d	1135	T = __SHADD16(T, 0);
mbed_official	5:3762170b6d4d	1136	T = __SHADD16(T, 0);
emilmont	1:fdd22bb7aa52	1137
emilmont	1:fdd22bb7aa52	1138	/* Read yc (real), xc(imag) input */
mbed_official	5:3762170b6d4d	1139	S = _SIMD32_OFFSET(pSi2);
mbed_official	5:3762170b6d4d	1140	S = __SHADD16(S, 0);
mbed_official	5:3762170b6d4d	1141	S = __SHADD16(S, 0);
emilmont	1:fdd22bb7aa52	1142
emilmont	1:fdd22bb7aa52	1143	/* R = packed((ya + yc), (xa + xc) ) */
emilmont	1:fdd22bb7aa52	1144	R = __QADD16(T, S);
emilmont	1:fdd22bb7aa52	1145
emilmont	1:fdd22bb7aa52	1146	/* S = packed((ya - yc), (xa - xc) ) */
emilmont	1:fdd22bb7aa52	1147	S = __QSUB16(T, S);
emilmont	1:fdd22bb7aa52	1148
emilmont	1:fdd22bb7aa52	1149	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	1150	/* Read yb (real), xb(imag) input */
mbed_official	5:3762170b6d4d	1151	T = _SIMD32_OFFSET(pSi1);
mbed_official	5:3762170b6d4d	1152	T = __SHADD16(T, 0);
mbed_official	5:3762170b6d4d	1153	T = __SHADD16(T, 0);
emilmont	1:fdd22bb7aa52	1154
emilmont	1:fdd22bb7aa52	1155	/* Read yd (real), xd(imag) input */
mbed_official	5:3762170b6d4d	1156	U = _SIMD32_OFFSET(pSi3);
mbed_official	5:3762170b6d4d	1157	U = __SHADD16(U, 0);
mbed_official	5:3762170b6d4d	1158	U = __SHADD16(U, 0);
emilmont	1:fdd22bb7aa52	1159
emilmont	1:fdd22bb7aa52	1160	/* T = packed((yb + yd), (xb + xd) ) */
emilmont	1:fdd22bb7aa52	1161	T = __QADD16(T, U);
emilmont	1:fdd22bb7aa52	1162
emilmont	1:fdd22bb7aa52	1163	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	1164	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	1165	/* ya' = ya + yb + yc + yd */
mbed_official	5:3762170b6d4d	1166	_SIMD32_OFFSET(pSi0) = __SHADD16(R, T);
mbed_official	5:3762170b6d4d	1167	pSi0 += 2;
emilmont	1:fdd22bb7aa52	1168
emilmont	1:fdd22bb7aa52	1169	/* R = packed((ya + yc) - (yb + yd), (xa + xc)- (xb + xd)) */
emilmont	1:fdd22bb7aa52	1170	R = __QSUB16(R, T);
emilmont	1:fdd22bb7aa52	1171
emilmont	1:fdd22bb7aa52	1172	/* co2 & si2 are read from SIMD Coefficient pointer */
emilmont	1:fdd22bb7aa52	1173	C2 = _SIMD32_OFFSET(pCoef16 + (4u * ic));
emilmont	1:fdd22bb7aa52	1174
emilmont	1:fdd22bb7aa52	1175	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1176
emilmont	1:fdd22bb7aa52	1177	/* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	1178	out1 = __SMUSD(C2, R) >> 16u;
emilmont	1:fdd22bb7aa52	1179	/* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1180	out2 = __SMUADX(C2, R);
emilmont	1:fdd22bb7aa52	1181
emilmont	1:fdd22bb7aa52	1182	#else
emilmont	1:fdd22bb7aa52	1183
emilmont	1:fdd22bb7aa52	1184	/* xc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1185	out1 = __SMUADX(C2, R) >> 16u;
emilmont	1:fdd22bb7aa52	1186	/* yc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	1187	out2 = __SMUSD(__QSUB16(0, C2), R);
emilmont	1:fdd22bb7aa52	1188
emilmont	1:fdd22bb7aa52	1189	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1190
emilmont	1:fdd22bb7aa52	1191	/* Reading i0+fftLen/4 */
emilmont	1:fdd22bb7aa52	1192	/* T = packed(yb, xb) */
mbed_official	5:3762170b6d4d	1193	T = _SIMD32_OFFSET(pSi1);
mbed_official	5:3762170b6d4d	1194	T = __SHADD16(T, 0);
mbed_official	5:3762170b6d4d	1195	T = __SHADD16(T, 0);
emilmont	1:fdd22bb7aa52	1196
emilmont	1:fdd22bb7aa52	1197	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1198	/* writing output(xc', yc') in little endian format */
mbed_official	5:3762170b6d4d	1199	_SIMD32_OFFSET(pSi1) =
emilmont	1:fdd22bb7aa52	1200	(q31_t) ((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
mbed_official	5:3762170b6d4d	1201	pSi1 += 2;
emilmont	1:fdd22bb7aa52	1202
emilmont	1:fdd22bb7aa52	1203	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	1204	/* U = packed(yd, xd) */
mbed_official	5:3762170b6d4d	1205	U = _SIMD32_OFFSET(pSi3);
mbed_official	5:3762170b6d4d	1206	U = __SHADD16(U, 0);
mbed_official	5:3762170b6d4d	1207	U = __SHADD16(U, 0);
emilmont	1:fdd22bb7aa52	1208
emilmont	1:fdd22bb7aa52	1209	/* T = packed(yb-yd, xb-xd) */
emilmont	1:fdd22bb7aa52	1210	T = __QSUB16(T, U);
emilmont	1:fdd22bb7aa52	1211
emilmont	1:fdd22bb7aa52	1212	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1213
emilmont	1:fdd22bb7aa52	1214	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	1215	R = __QSAX(S, T);
emilmont	1:fdd22bb7aa52	1216	/* S = packed((ya-yc) + (xb- xd), (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	1217	S = __QASX(S, T);
emilmont	1:fdd22bb7aa52	1218
emilmont	1:fdd22bb7aa52	1219	#else
emilmont	1:fdd22bb7aa52	1220
emilmont	1:fdd22bb7aa52	1221	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	1222	R = __QASX(S, T);
emilmont	1:fdd22bb7aa52	1223	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	1224	S = __QSAX(S, T);
emilmont	1:fdd22bb7aa52	1225
emilmont	1:fdd22bb7aa52	1226	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1227
emilmont	1:fdd22bb7aa52	1228	/* co1 & si1 are read from SIMD Coefficient pointer */
emilmont	1:fdd22bb7aa52	1229	C1 = _SIMD32_OFFSET(pCoef16 + (2u * ic));
emilmont	1:fdd22bb7aa52	1230	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1231
emilmont	1:fdd22bb7aa52	1232	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1233
emilmont	1:fdd22bb7aa52	1234	/* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	1235	out1 = __SMUSD(C1, S) >> 16u;
emilmont	1:fdd22bb7aa52	1236	/* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	1237	out2 = __SMUADX(C1, S);
emilmont	1:fdd22bb7aa52	1238
emilmont	1:fdd22bb7aa52	1239	#else
emilmont	1:fdd22bb7aa52	1240
emilmont	1:fdd22bb7aa52	1241	/* xb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
emilmont	1:fdd22bb7aa52	1242	out1 = __SMUADX(C1, S) >> 16u;
emilmont	1:fdd22bb7aa52	1243	/* yb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	1244	out2 = __SMUSD(__QSUB16(0, C1), S);
emilmont	1:fdd22bb7aa52	1245
emilmont	1:fdd22bb7aa52	1246	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1247
emilmont	1:fdd22bb7aa52	1248	/* writing output(xb', yb') in little endian format */
mbed_official	5:3762170b6d4d	1249	_SIMD32_OFFSET(pSi2) =
emilmont	1:fdd22bb7aa52	1250	((out2) & 0xFFFF0000) \| ((out1) & 0x0000FFFF);
mbed_official	5:3762170b6d4d	1251	pSi2 += 2;
emilmont	1:fdd22bb7aa52	1252
emilmont	1:fdd22bb7aa52	1253
emilmont	1:fdd22bb7aa52	1254	/* co3 & si3 are read from SIMD Coefficient pointer */
emilmont	1:fdd22bb7aa52	1255	C3 = _SIMD32_OFFSET(pCoef16 + (6u * ic));
emilmont	1:fdd22bb7aa52	1256	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1257
emilmont	1:fdd22bb7aa52	1258	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1259
emilmont	1:fdd22bb7aa52	1260	/* xd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	1261	out1 = __SMUSD(C3, R) >> 16u;
emilmont	1:fdd22bb7aa52	1262	/* yd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	1263	out2 = __SMUADX(C3, R);
emilmont	1:fdd22bb7aa52	1264
emilmont	1:fdd22bb7aa52	1265	#else
emilmont	1:fdd22bb7aa52	1266
emilmont	1:fdd22bb7aa52	1267	/* xd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3) */
emilmont	1:fdd22bb7aa52	1268	out1 = __SMUADX(C3, R) >> 16u;
emilmont	1:fdd22bb7aa52	1269	/* yd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	1270	out2 = __SMUSD(__QSUB16(0, C3), R);
emilmont	1:fdd22bb7aa52	1271
emilmont	1:fdd22bb7aa52	1272	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1273
emilmont	1:fdd22bb7aa52	1274	/* writing output(xd', yd') in little endian format */
mbed_official	5:3762170b6d4d	1275	_SIMD32_OFFSET(pSi3) =
emilmont	1:fdd22bb7aa52	1276	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
mbed_official	5:3762170b6d4d	1277	pSi3 += 2;
emilmont	1:fdd22bb7aa52	1278
emilmont	1:fdd22bb7aa52	1279	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1280	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	1281
emilmont	1:fdd22bb7aa52	1282	} while(--j);
emilmont	1:fdd22bb7aa52	1283	/* data is in 4.11(q11) format */
emilmont	1:fdd22bb7aa52	1284
emilmont	1:fdd22bb7aa52	1285	/* end of first stage process */
emilmont	1:fdd22bb7aa52	1286
emilmont	1:fdd22bb7aa52	1287
emilmont	1:fdd22bb7aa52	1288	/* start of middle stage process */
emilmont	1:fdd22bb7aa52	1289
emilmont	1:fdd22bb7aa52	1290	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1291	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	1292
emilmont	1:fdd22bb7aa52	1293	/* Calculation of Middle stage */
emilmont	1:fdd22bb7aa52	1294	for (k = fftLen / 4u; k > 4u; k >>= 2u)
emilmont	1:fdd22bb7aa52	1295	{
emilmont	1:fdd22bb7aa52	1296	/* Initializations for the middle stage */
emilmont	1:fdd22bb7aa52	1297	n1 = n2;
emilmont	1:fdd22bb7aa52	1298	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	1299	ic = 0u;
emilmont	1:fdd22bb7aa52	1300
emilmont	1:fdd22bb7aa52	1301	for (j = 0u; j <= (n2 - 1u); j++)
emilmont	1:fdd22bb7aa52	1302	{
emilmont	1:fdd22bb7aa52	1303	/* index calculation for the coefficients */
emilmont	1:fdd22bb7aa52	1304	C1 = _SIMD32_OFFSET(pCoef16 + (2u * ic));
emilmont	1:fdd22bb7aa52	1305	C2 = _SIMD32_OFFSET(pCoef16 + (4u * ic));
emilmont	1:fdd22bb7aa52	1306	C3 = _SIMD32_OFFSET(pCoef16 + (6u * ic));
emilmont	1:fdd22bb7aa52	1307
emilmont	1:fdd22bb7aa52	1308	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1309	ic = ic + twidCoefModifier;
mbed_official	5:3762170b6d4d	1310
mbed_official	5:3762170b6d4d	1311	pSi0 = pSrc16 + 2 * j;
mbed_official	5:3762170b6d4d	1312	pSi1 = pSi0 + 2 * n2;
mbed_official	5:3762170b6d4d	1313	pSi2 = pSi1 + 2 * n2;
mbed_official	5:3762170b6d4d	1314	pSi3 = pSi2 + 2 * n2;
emilmont	1:fdd22bb7aa52	1315
emilmont	1:fdd22bb7aa52	1316	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	1317	for (i0 = j; i0 < fftLen; i0 += n1)
emilmont	1:fdd22bb7aa52	1318	{
emilmont	1:fdd22bb7aa52	1319	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	1320	/* Read ya (real), xa(imag) input */
mbed_official	5:3762170b6d4d	1321	T = _SIMD32_OFFSET(pSi0);
emilmont	1:fdd22bb7aa52	1322
emilmont	1:fdd22bb7aa52	1323	/* Read yc (real), xc(imag) input */
mbed_official	5:3762170b6d4d	1324	S = _SIMD32_OFFSET(pSi2);
emilmont	1:fdd22bb7aa52	1325
emilmont	1:fdd22bb7aa52	1326	/* R = packed( (ya + yc), (xa + xc)) */
emilmont	1:fdd22bb7aa52	1327	R = __QADD16(T, S);
emilmont	1:fdd22bb7aa52	1328
emilmont	1:fdd22bb7aa52	1329	/* S = packed((ya - yc), (xa - xc)) */
emilmont	1:fdd22bb7aa52	1330	S = __QSUB16(T, S);
emilmont	1:fdd22bb7aa52	1331
emilmont	1:fdd22bb7aa52	1332	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	1333	/* Read yb (real), xb(imag) input */
mbed_official	5:3762170b6d4d	1334	T = _SIMD32_OFFSET(pSi1);
emilmont	1:fdd22bb7aa52	1335
emilmont	1:fdd22bb7aa52	1336	/* Read yd (real), xd(imag) input */
mbed_official	5:3762170b6d4d	1337	U = _SIMD32_OFFSET(pSi3);
emilmont	1:fdd22bb7aa52	1338
emilmont	1:fdd22bb7aa52	1339	/* T = packed( (yb + yd), (xb + xd)) */
emilmont	1:fdd22bb7aa52	1340	T = __QADD16(T, U);
emilmont	1:fdd22bb7aa52	1341
emilmont	1:fdd22bb7aa52	1342	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	1343
emilmont	1:fdd22bb7aa52	1344	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	1345	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	1346	out1 = __SHADD16(R, T);
mbed_official	5:3762170b6d4d	1347	out1 = __SHADD16(out1, 0);
mbed_official	5:3762170b6d4d	1348	_SIMD32_OFFSET(pSi0) = out1;
mbed_official	5:3762170b6d4d	1349	pSi0 += 2 * n1;
emilmont	1:fdd22bb7aa52	1350
emilmont	1:fdd22bb7aa52	1351	/* R = packed( (ya + yc) - (yb + yd), (xa + xc) - (xb + xd)) */
emilmont	1:fdd22bb7aa52	1352	R = __SHSUB16(R, T);
emilmont	1:fdd22bb7aa52	1353
emilmont	1:fdd22bb7aa52	1354	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1355
emilmont	1:fdd22bb7aa52	1356	/* (ya-yb+yc-yd)* (si2) + (xa-xb+xc-xd)* co2 */
emilmont	1:fdd22bb7aa52	1357	out1 = __SMUSD(C2, R) >> 16u;
emilmont	1:fdd22bb7aa52	1358
emilmont	1:fdd22bb7aa52	1359	/* (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1360	out2 = __SMUADX(C2, R);
emilmont	1:fdd22bb7aa52	1361
emilmont	1:fdd22bb7aa52	1362	#else
emilmont	1:fdd22bb7aa52	1363
emilmont	1:fdd22bb7aa52	1364	/* (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1365	out1 = __SMUADX(R, C2) >> 16u;
emilmont	1:fdd22bb7aa52	1366
emilmont	1:fdd22bb7aa52	1367	/* (ya-yb+yc-yd)* (si2) + (xa-xb+xc-xd)* co2 */
emilmont	1:fdd22bb7aa52	1368	out2 = __SMUSD(__QSUB16(0, C2), R);
emilmont	1:fdd22bb7aa52	1369
emilmont	1:fdd22bb7aa52	1370	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1371
emilmont	1:fdd22bb7aa52	1372	/* Reading i0+3fftLen/4 */
emilmont	1:fdd22bb7aa52	1373	/* Read yb (real), xb(imag) input */
mbed_official	5:3762170b6d4d	1374	T = _SIMD32_OFFSET(pSi1);
emilmont	1:fdd22bb7aa52	1375
emilmont	1:fdd22bb7aa52	1376	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1377	/* xc' = (xa-xb+xc-xd)* co2 + (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	1378	/* yc' = (ya-yb+yc-yd)* co2 - (xa-xb+xc-xd)* (si2) */
mbed_official	5:3762170b6d4d	1379	_SIMD32_OFFSET(pSi1) =
emilmont	1:fdd22bb7aa52	1380	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
mbed_official	5:3762170b6d4d	1381	pSi1 += 2 * n1;
emilmont	1:fdd22bb7aa52	1382
emilmont	1:fdd22bb7aa52	1383	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	1384
emilmont	1:fdd22bb7aa52	1385	/* Read yd (real), xd(imag) input */
mbed_official	5:3762170b6d4d	1386	U = _SIMD32_OFFSET(pSi3);
emilmont	1:fdd22bb7aa52	1387
emilmont	1:fdd22bb7aa52	1388	/* T = packed(yb-yd, xb-xd) */
emilmont	1:fdd22bb7aa52	1389	T = __QSUB16(T, U);
emilmont	1:fdd22bb7aa52	1390
emilmont	1:fdd22bb7aa52	1391	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1392
emilmont	1:fdd22bb7aa52	1393	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	1394	R = __SHSAX(S, T);
emilmont	1:fdd22bb7aa52	1395
emilmont	1:fdd22bb7aa52	1396	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	1397	S = __SHASX(S, T);
emilmont	1:fdd22bb7aa52	1398
emilmont	1:fdd22bb7aa52	1399
emilmont	1:fdd22bb7aa52	1400	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1401	out1 = __SMUSD(C1, S) >> 16u;
emilmont	1:fdd22bb7aa52	1402	out2 = __SMUADX(C1, S);
emilmont	1:fdd22bb7aa52	1403
emilmont	1:fdd22bb7aa52	1404	#else
emilmont	1:fdd22bb7aa52	1405
emilmont	1:fdd22bb7aa52	1406	/* R = packed((ya-yc) + (xb- xd) , (xa-xc) - (yb-yd)) */
emilmont	1:fdd22bb7aa52	1407	R = __SHASX(S, T);
emilmont	1:fdd22bb7aa52	1408
emilmont	1:fdd22bb7aa52	1409	/* S = packed((ya-yc) - (xb- xd), (xa-xc) + (yb-yd)) */
emilmont	1:fdd22bb7aa52	1410	S = __SHSAX(S, T);
emilmont	1:fdd22bb7aa52	1411
emilmont	1:fdd22bb7aa52	1412
emilmont	1:fdd22bb7aa52	1413	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1414	out1 = __SMUADX(S, C1) >> 16u;
emilmont	1:fdd22bb7aa52	1415	out2 = __SMUSD(__QSUB16(0, C1), S);
emilmont	1:fdd22bb7aa52	1416
emilmont	1:fdd22bb7aa52	1417	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1418
emilmont	1:fdd22bb7aa52	1419	/* xb' = (xa+yb-xc-yd)* co1 + (ya-xb-yc+xd)* (si1) */
emilmont	1:fdd22bb7aa52	1420	/* yb' = (ya-xb-yc+xd)* co1 - (xa+yb-xc-yd)* (si1) */
mbed_official	5:3762170b6d4d	1421	_SIMD32_OFFSET(pSi2) =
emilmont	1:fdd22bb7aa52	1422	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
mbed_official	5:3762170b6d4d	1423	pSi2 += 2 * n1;
emilmont	1:fdd22bb7aa52	1424
emilmont	1:fdd22bb7aa52	1425	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1426
emilmont	1:fdd22bb7aa52	1427	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1428
emilmont	1:fdd22bb7aa52	1429	out1 = __SMUSD(C3, R) >> 16u;
emilmont	1:fdd22bb7aa52	1430	out2 = __SMUADX(C3, R);
emilmont	1:fdd22bb7aa52	1431
emilmont	1:fdd22bb7aa52	1432	#else
emilmont	1:fdd22bb7aa52	1433
emilmont	1:fdd22bb7aa52	1434	out1 = __SMUADX(C3, R) >> 16u;
emilmont	1:fdd22bb7aa52	1435	out2 = __SMUSD(__QSUB16(0, C3), R);
emilmont	1:fdd22bb7aa52	1436
emilmont	1:fdd22bb7aa52	1437	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1438
emilmont	1:fdd22bb7aa52	1439	/* xd' = (xa-yb-xc+yd)* co3 + (ya+xb-yc-xd)* (si3) */
emilmont	1:fdd22bb7aa52	1440	/* yd' = (ya+xb-yc-xd)* co3 - (xa-yb-xc+yd)* (si3) */
mbed_official	5:3762170b6d4d	1441	_SIMD32_OFFSET(pSi3) =
emilmont	1:fdd22bb7aa52	1442	((out2) & 0xFFFF0000) \| (out1 & 0x0000FFFF);
mbed_official	5:3762170b6d4d	1443	pSi3 += 2 * n1;
emilmont	1:fdd22bb7aa52	1444	}
emilmont	1:fdd22bb7aa52	1445	}
emilmont	1:fdd22bb7aa52	1446	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1447	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	1448	}
emilmont	1:fdd22bb7aa52	1449	/* end of middle stage process */
emilmont	1:fdd22bb7aa52	1450
emilmont	1:fdd22bb7aa52	1451	/* data is in 10.6(q6) format for the 1024 point */
emilmont	1:fdd22bb7aa52	1452	/* data is in 8.8(q8) format for the 256 point */
emilmont	1:fdd22bb7aa52	1453	/* data is in 6.10(q10) format for the 64 point */
emilmont	1:fdd22bb7aa52	1454	/* data is in 4.12(q12) format for the 16 point */
emilmont	1:fdd22bb7aa52	1455
emilmont	1:fdd22bb7aa52	1456	/* Initializations for the last stage */
emilmont	1:fdd22bb7aa52	1457	j = fftLen >> 2;
emilmont	1:fdd22bb7aa52	1458
emilmont	1:fdd22bb7aa52	1459	ptr1 = &pSrc16[0];
emilmont	1:fdd22bb7aa52	1460
emilmont	1:fdd22bb7aa52	1461	/* start of last stage process */
emilmont	1:fdd22bb7aa52	1462
emilmont	1:fdd22bb7aa52	1463	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	1464	do
emilmont	1:fdd22bb7aa52	1465	{
emilmont	1:fdd22bb7aa52	1466	/* Read xa (real), ya(imag) input */
emilmont	1:fdd22bb7aa52	1467	xaya = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	1468
emilmont	1:fdd22bb7aa52	1469	/* Read xb (real), yb(imag) input */
emilmont	1:fdd22bb7aa52	1470	xbyb = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	1471
emilmont	1:fdd22bb7aa52	1472	/* Read xc (real), yc(imag) input */
emilmont	1:fdd22bb7aa52	1473	xcyc = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	1474
emilmont	1:fdd22bb7aa52	1475	/* Read xd (real), yd(imag) input */
emilmont	1:fdd22bb7aa52	1476	xdyd = *__SIMD32(ptr1)++;
emilmont	1:fdd22bb7aa52	1477
emilmont	1:fdd22bb7aa52	1478	/* R = packed((ya + yc), (xa + xc)) */
emilmont	1:fdd22bb7aa52	1479	R = __QADD16(xaya, xcyc);
emilmont	1:fdd22bb7aa52	1480
emilmont	1:fdd22bb7aa52	1481	/* T = packed((yb + yd), (xb + xd)) */
emilmont	1:fdd22bb7aa52	1482	T = __QADD16(xbyb, xdyd);
emilmont	1:fdd22bb7aa52	1483
emilmont	1:fdd22bb7aa52	1484	/* pointer updation for writing */
emilmont	1:fdd22bb7aa52	1485	ptr1 = ptr1 - 8u;
emilmont	1:fdd22bb7aa52	1486
emilmont	1:fdd22bb7aa52	1487
emilmont	1:fdd22bb7aa52	1488	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	1489	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	1490	*__SIMD32(ptr1)++ = __SHADD16(R, T);
emilmont	1:fdd22bb7aa52	1491
emilmont	1:fdd22bb7aa52	1492	/* T = packed((yb + yd), (xb + xd)) */
emilmont	1:fdd22bb7aa52	1493	T = __QADD16(xbyb, xdyd);
emilmont	1:fdd22bb7aa52	1494
emilmont	1:fdd22bb7aa52	1495	/* xc' = (xa-xb+xc-xd) */
emilmont	1:fdd22bb7aa52	1496	/* yc' = (ya-yb+yc-yd) */
emilmont	1:fdd22bb7aa52	1497	*__SIMD32(ptr1)++ = __SHSUB16(R, T);
emilmont	1:fdd22bb7aa52	1498
emilmont	1:fdd22bb7aa52	1499	/* S = packed((ya - yc), (xa - xc)) */
emilmont	1:fdd22bb7aa52	1500	S = __QSUB16(xaya, xcyc);
emilmont	1:fdd22bb7aa52	1501
emilmont	1:fdd22bb7aa52	1502	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1503	/* T = packed( (yb - yd), (xb - xd)) */
emilmont	1:fdd22bb7aa52	1504	U = __QSUB16(xbyb, xdyd);
emilmont	1:fdd22bb7aa52	1505
emilmont	1:fdd22bb7aa52	1506	#ifndef ARM_MATH_BIG_ENDIAN
emilmont	1:fdd22bb7aa52	1507
emilmont	1:fdd22bb7aa52	1508	/* xb' = (xa+yb-xc-yd) */
emilmont	1:fdd22bb7aa52	1509	/* yb' = (ya-xb-yc+xd) */
emilmont	1:fdd22bb7aa52	1510	*__SIMD32(ptr1)++ = __SHASX(S, U);
emilmont	1:fdd22bb7aa52	1511
emilmont	1:fdd22bb7aa52	1512
emilmont	1:fdd22bb7aa52	1513	/* xd' = (xa-yb-xc+yd) */
emilmont	1:fdd22bb7aa52	1514	/* yd' = (ya+xb-yc-xd) */
emilmont	1:fdd22bb7aa52	1515	*__SIMD32(ptr1)++ = __SHSAX(S, U);
emilmont	1:fdd22bb7aa52	1516
emilmont	1:fdd22bb7aa52	1517	#else
emilmont	1:fdd22bb7aa52	1518
emilmont	1:fdd22bb7aa52	1519	/* xb' = (xa+yb-xc-yd) */
emilmont	1:fdd22bb7aa52	1520	/* yb' = (ya-xb-yc+xd) */
emilmont	1:fdd22bb7aa52	1521	*__SIMD32(ptr1)++ = __SHSAX(S, U);
emilmont	1:fdd22bb7aa52	1522
emilmont	1:fdd22bb7aa52	1523
emilmont	1:fdd22bb7aa52	1524	/* xd' = (xa-yb-xc+yd) */
emilmont	1:fdd22bb7aa52	1525	/* yd' = (ya+xb-yc-xd) */
emilmont	1:fdd22bb7aa52	1526	*__SIMD32(ptr1)++ = __SHASX(S, U);
emilmont	1:fdd22bb7aa52	1527
emilmont	1:fdd22bb7aa52	1528
emilmont	1:fdd22bb7aa52	1529	#endif /* #ifndef ARM_MATH_BIG_ENDIAN */
emilmont	1:fdd22bb7aa52	1530
emilmont	1:fdd22bb7aa52	1531	} while(--j);
emilmont	1:fdd22bb7aa52	1532
emilmont	1:fdd22bb7aa52	1533	/* end of last stage process */
emilmont	1:fdd22bb7aa52	1534
emilmont	1:fdd22bb7aa52	1535	/* output is in 11.5(q5) format for the 1024 point */
emilmont	1:fdd22bb7aa52	1536	/* output is in 9.7(q7) format for the 256 point */
emilmont	1:fdd22bb7aa52	1537	/* output is in 7.9(q9) format for the 64 point */
emilmont	1:fdd22bb7aa52	1538	/* output is in 5.11(q11) format for the 16 point */
emilmont	1:fdd22bb7aa52	1539
emilmont	1:fdd22bb7aa52	1540
emilmont	1:fdd22bb7aa52	1541	#else
emilmont	1:fdd22bb7aa52	1542
emilmont	1:fdd22bb7aa52	1543	/* Run the below code for Cortex-M0 */
emilmont	1:fdd22bb7aa52	1544
emilmont	1:fdd22bb7aa52	1545	q15_t R0, R1, S0, S1, T0, T1, U0, U1;
emilmont	1:fdd22bb7aa52	1546	q15_t Co1, Si1, Co2, Si2, Co3, Si3, out1, out2;
emilmont	1:fdd22bb7aa52	1547	uint32_t n1, n2, ic, i0, i1, i2, i3, j, k;
emilmont	1:fdd22bb7aa52	1548
emilmont	1:fdd22bb7aa52	1549	/* Total process is divided into three stages */
emilmont	1:fdd22bb7aa52	1550
emilmont	1:fdd22bb7aa52	1551	/* process first stage, middle stages, & last stage */
emilmont	1:fdd22bb7aa52	1552
emilmont	1:fdd22bb7aa52	1553	/* Initializations for the first stage */
emilmont	1:fdd22bb7aa52	1554	n2 = fftLen;
emilmont	1:fdd22bb7aa52	1555	n1 = n2;
emilmont	1:fdd22bb7aa52	1556
emilmont	1:fdd22bb7aa52	1557	/* n2 = fftLen/4 */
emilmont	1:fdd22bb7aa52	1558	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	1559
emilmont	1:fdd22bb7aa52	1560	/* Index for twiddle coefficient */
emilmont	1:fdd22bb7aa52	1561	ic = 0u;
emilmont	1:fdd22bb7aa52	1562
emilmont	1:fdd22bb7aa52	1563	/* Index for input read and output write */
emilmont	1:fdd22bb7aa52	1564	i0 = 0u;
emilmont	1:fdd22bb7aa52	1565
emilmont	1:fdd22bb7aa52	1566	j = n2;
emilmont	1:fdd22bb7aa52	1567
emilmont	1:fdd22bb7aa52	1568	/* Input is in 1.15(q15) format */
emilmont	1:fdd22bb7aa52	1569
emilmont	1:fdd22bb7aa52	1570	/* Start of first stage process */
emilmont	1:fdd22bb7aa52	1571	do
emilmont	1:fdd22bb7aa52	1572	{
emilmont	1:fdd22bb7aa52	1573	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	1574
emilmont	1:fdd22bb7aa52	1575	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	1576	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	1577	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	1578	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	1579	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	1580
emilmont	1:fdd22bb7aa52	1581	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	1582	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	1583	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	1584	T0 = pSrc16[i0 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	1585	T1 = pSrc16[(i0 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	1586	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	1587	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	1588	S0 = pSrc16[i2 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	1589	S1 = pSrc16[(i2 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	1590
emilmont	1:fdd22bb7aa52	1591	/* R0 = (ya + yc), R1 = (xa + xc) */
emilmont	1:fdd22bb7aa52	1592	R0 = __SSAT(T0 + S0, 16u);
emilmont	1:fdd22bb7aa52	1593	R1 = __SSAT(T1 + S1, 16u);
emilmont	1:fdd22bb7aa52	1594	/* S0 = (ya - yc), S1 = (xa - xc) */
emilmont	1:fdd22bb7aa52	1595	S0 = __SSAT(T0 - S0, 16u);
emilmont	1:fdd22bb7aa52	1596	S1 = __SSAT(T1 - S1, 16u);
emilmont	1:fdd22bb7aa52	1597
emilmont	1:fdd22bb7aa52	1598	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	1599	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	1600	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1601	T0 = pSrc16[i1 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	1602	T1 = pSrc16[(i1 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	1603	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1604	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	1605	U0 = pSrc16[i3 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	1606	U1 = pSrc16[(i3 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	1607
emilmont	1:fdd22bb7aa52	1608	/* T0 = (yb + yd), T1 = (xb + xd) */
emilmont	1:fdd22bb7aa52	1609	T0 = __SSAT(T0 + U0, 16u);
emilmont	1:fdd22bb7aa52	1610	T1 = __SSAT(T1 + U1, 16u);
emilmont	1:fdd22bb7aa52	1611
emilmont	1:fdd22bb7aa52	1612	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	1613	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	1614	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	1615	pSrc16[i0 * 2u] = (R0 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1616	pSrc16[(i0 * 2u) + 1u] = (R1 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1617
emilmont	1:fdd22bb7aa52	1618	/* R0 = (ya + yc) - (yb + yd), R1 = (xa + xc)- (xb + xd) */
emilmont	1:fdd22bb7aa52	1619	R0 = __SSAT(R0 - T0, 16u);
emilmont	1:fdd22bb7aa52	1620	R1 = __SSAT(R1 - T1, 16u);
emilmont	1:fdd22bb7aa52	1621	/* co2 & si2 are read from Coefficient pointer */
emilmont	1:fdd22bb7aa52	1622	Co2 = pCoef16[2u * ic * 2u];
emilmont	1:fdd22bb7aa52	1623	Si2 = pCoef16[(2u * ic * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1624	/* xc' = (xa-xb+xc-xd)* co2 - (ya-yb+yc-yd)* (si2) */
mbed_official	5:3762170b6d4d	1625	out1 = (q15_t) ((Co2 * R0 - Si2 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	1626	/* yc' = (ya-yb+yc-yd)* co2 + (xa-xb+xc-xd)* (si2) */
mbed_official	5:3762170b6d4d	1627	out2 = (q15_t) ((Si2 * R0 + Co2 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	1628
emilmont	1:fdd22bb7aa52	1629	/* Reading i0+fftLen/4 */
emilmont	1:fdd22bb7aa52	1630	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	1631	/* T0 = yb, T1 = xb */
emilmont	1:fdd22bb7aa52	1632	T0 = pSrc16[i1 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	1633	T1 = pSrc16[(i1 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	1634
emilmont	1:fdd22bb7aa52	1635	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1636	/* writing output(xc', yc') in little endian format */
emilmont	1:fdd22bb7aa52	1637	pSrc16[i1 * 2u] = out1;
emilmont	1:fdd22bb7aa52	1638	pSrc16[(i1 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	1639
emilmont	1:fdd22bb7aa52	1640	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	1641	/* input is down scale by 4 to avoid overflow */
emilmont	1:fdd22bb7aa52	1642	/* U0 = yd, U1 = xd) */
emilmont	1:fdd22bb7aa52	1643	U0 = pSrc16[i3 * 2u] >> 2u;
emilmont	1:fdd22bb7aa52	1644	U1 = pSrc16[(i3 * 2u) + 1u] >> 2u;
emilmont	1:fdd22bb7aa52	1645
emilmont	1:fdd22bb7aa52	1646	/* T0 = yb-yd, T1 = xb-xd) */
emilmont	1:fdd22bb7aa52	1647	T0 = __SSAT(T0 - U0, 16u);
emilmont	1:fdd22bb7aa52	1648	T1 = __SSAT(T1 - U1, 16u);
emilmont	1:fdd22bb7aa52	1649	/* R0 = (ya-yc) - (xb- xd) , R1 = (xa-xc) + (yb-yd) */
mbed_official	5:3762170b6d4d	1650	R0 = (q15_t) __SSAT((q31_t) (S0 + T1), 16);
mbed_official	5:3762170b6d4d	1651	R1 = (q15_t) __SSAT((q31_t) (S1 - T0), 16);
emilmont	1:fdd22bb7aa52	1652	/* S = (ya-yc) + (xb- xd), S1 = (xa-xc) - (yb-yd) */
mbed_official	5:3762170b6d4d	1653	S0 = (q15_t) __SSAT((q31_t) (S0 - T1), 16);
mbed_official	5:3762170b6d4d	1654	S1 = (q15_t) __SSAT((q31_t) (S1 + T0), 16);
emilmont	1:fdd22bb7aa52	1655
emilmont	1:fdd22bb7aa52	1656	/* co1 & si1 are read from Coefficient pointer */
emilmont	1:fdd22bb7aa52	1657	Co1 = pCoef16[ic * 2u];
emilmont	1:fdd22bb7aa52	1658	Si1 = pCoef16[(ic * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1659	/* Butterfly process for the i0+fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1660	/* xb' = (xa-yb-xc+yd)* co1 - (ya+xb-yc-xd)* (si1) */
mbed_official	5:3762170b6d4d	1661	out1 = (q15_t) ((Co1 * S0 - Si1 * S1) >> 16u);
emilmont	1:fdd22bb7aa52	1662	/* yb' = (ya+xb-yc-xd)* co1 + (xa-yb-xc+yd)* (si1) */
mbed_official	5:3762170b6d4d	1663	out2 = (q15_t) ((Si1 * S0 + Co1 * S1) >> 16u);
emilmont	1:fdd22bb7aa52	1664	/* writing output(xb', yb') in little endian format */
emilmont	1:fdd22bb7aa52	1665	pSrc16[i2 * 2u] = out1;
emilmont	1:fdd22bb7aa52	1666	pSrc16[(i2 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	1667
emilmont	1:fdd22bb7aa52	1668	/* Co3 & si3 are read from Coefficient pointer */
emilmont	1:fdd22bb7aa52	1669	Co3 = pCoef16[3u * ic * 2u];
emilmont	1:fdd22bb7aa52	1670	Si3 = pCoef16[(3u * ic * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1671	/* Butterfly process for the i0+3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1672	/* xd' = (xa+yb-xc-yd)* Co3 - (ya-xb-yc+xd)* (si3) */
mbed_official	5:3762170b6d4d	1673	out1 = (q15_t) ((Co3 * R0 - Si3 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	1674	/* yd' = (ya-xb-yc+xd)* Co3 + (xa+yb-xc-yd)* (si3) */
mbed_official	5:3762170b6d4d	1675	out2 = (q15_t) ((Si3 * R0 + Co3 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	1676	/* writing output(xd', yd') in little endian format */
emilmont	1:fdd22bb7aa52	1677	pSrc16[i3 * 2u] = out1;
emilmont	1:fdd22bb7aa52	1678	pSrc16[(i3 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	1679
emilmont	1:fdd22bb7aa52	1680	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1681	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	1682
emilmont	1:fdd22bb7aa52	1683	/* Updating input index */
emilmont	1:fdd22bb7aa52	1684	i0 = i0 + 1u;
emilmont	1:fdd22bb7aa52	1685
emilmont	1:fdd22bb7aa52	1686	} while(--j);
emilmont	1:fdd22bb7aa52	1687
emilmont	1:fdd22bb7aa52	1688	/* End of first stage process */
emilmont	1:fdd22bb7aa52	1689
emilmont	1:fdd22bb7aa52	1690	/* data is in 4.11(q11) format */
emilmont	1:fdd22bb7aa52	1691
emilmont	1:fdd22bb7aa52	1692
emilmont	1:fdd22bb7aa52	1693	/* Start of Middle stage process */
emilmont	1:fdd22bb7aa52	1694
emilmont	1:fdd22bb7aa52	1695	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1696	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	1697
emilmont	1:fdd22bb7aa52	1698	/* Calculation of Middle stage */
emilmont	1:fdd22bb7aa52	1699	for (k = fftLen / 4u; k > 4u; k >>= 2u)
emilmont	1:fdd22bb7aa52	1700	{
emilmont	1:fdd22bb7aa52	1701	/* Initializations for the middle stage */
emilmont	1:fdd22bb7aa52	1702	n1 = n2;
emilmont	1:fdd22bb7aa52	1703	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	1704	ic = 0u;
emilmont	1:fdd22bb7aa52	1705
emilmont	1:fdd22bb7aa52	1706	for (j = 0u; j <= (n2 - 1u); j++)
emilmont	1:fdd22bb7aa52	1707	{
emilmont	1:fdd22bb7aa52	1708	/* index calculation for the coefficients */
emilmont	1:fdd22bb7aa52	1709	Co1 = pCoef16[ic * 2u];
emilmont	1:fdd22bb7aa52	1710	Si1 = pCoef16[(ic * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1711	Co2 = pCoef16[2u * ic * 2u];
emilmont	1:fdd22bb7aa52	1712	Si2 = pCoef16[2u * ic * 2u + 1u];
emilmont	1:fdd22bb7aa52	1713	Co3 = pCoef16[3u * ic * 2u];
emilmont	1:fdd22bb7aa52	1714	Si3 = pCoef16[(3u * ic * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1715
emilmont	1:fdd22bb7aa52	1716	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1717	ic = ic + twidCoefModifier;
emilmont	1:fdd22bb7aa52	1718
emilmont	1:fdd22bb7aa52	1719	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	1720	for (i0 = j; i0 < fftLen; i0 += n1)
emilmont	1:fdd22bb7aa52	1721	{
emilmont	1:fdd22bb7aa52	1722	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	1723	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	1724	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	1725	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	1726	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	1727
emilmont	1:fdd22bb7aa52	1728	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	1729	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	1730	T0 = pSrc16[i0 * 2u];
emilmont	1:fdd22bb7aa52	1731	T1 = pSrc16[(i0 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1732
emilmont	1:fdd22bb7aa52	1733	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	1734	S0 = pSrc16[i2 * 2u];
emilmont	1:fdd22bb7aa52	1735	S1 = pSrc16[(i2 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1736
emilmont	1:fdd22bb7aa52	1737
emilmont	1:fdd22bb7aa52	1738	/* R0 = (ya + yc), R1 = (xa + xc) */
emilmont	1:fdd22bb7aa52	1739	R0 = __SSAT(T0 + S0, 16u);
emilmont	1:fdd22bb7aa52	1740	R1 = __SSAT(T1 + S1, 16u);
emilmont	1:fdd22bb7aa52	1741	/* S0 = (ya - yc), S1 = (xa - xc) */
emilmont	1:fdd22bb7aa52	1742	S0 = __SSAT(T0 - S0, 16u);
emilmont	1:fdd22bb7aa52	1743	S1 = __SSAT(T1 - S1, 16u);
emilmont	1:fdd22bb7aa52	1744
emilmont	1:fdd22bb7aa52	1745	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	1746	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1747	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	1748	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1749
emilmont	1:fdd22bb7aa52	1750	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1751	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	1752	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1753
emilmont	1:fdd22bb7aa52	1754	/* T0 = (yb + yd), T1 = (xb + xd) */
emilmont	1:fdd22bb7aa52	1755	T0 = __SSAT(T0 + U0, 16u);
emilmont	1:fdd22bb7aa52	1756	T1 = __SSAT(T1 + U1, 16u);
emilmont	1:fdd22bb7aa52	1757
emilmont	1:fdd22bb7aa52	1758	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	1759	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	1760	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	1761	pSrc16[i0 * 2u] = ((R0 >> 1u) + (T0 >> 1u)) >> 1u;
emilmont	1:fdd22bb7aa52	1762	pSrc16[(i0 * 2u) + 1u] = ((R1 >> 1u) + (T1 >> 1u)) >> 1u;
emilmont	1:fdd22bb7aa52	1763
emilmont	1:fdd22bb7aa52	1764	/* R0 = (ya + yc) - (yb + yd), R1 = (xa + xc) - (xb + xd) */
emilmont	1:fdd22bb7aa52	1765	R0 = (R0 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1766	R1 = (R1 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1767
emilmont	1:fdd22bb7aa52	1768	/* (ya-yb+yc-yd)* (si2) - (xa-xb+xc-xd)* co2 */
mbed_official	5:3762170b6d4d	1769	out1 = (q15_t) ((Co2 * R0 - Si2 * R1) >> 16);
emilmont	1:fdd22bb7aa52	1770	/* (ya-yb+yc-yd)* co2 + (xa-xb+xc-xd)* (si2) */
mbed_official	5:3762170b6d4d	1771	out2 = (q15_t) ((Si2 * R0 + Co2 * R1) >> 16);
emilmont	1:fdd22bb7aa52	1772
emilmont	1:fdd22bb7aa52	1773	/* Reading i0+3fftLen/4 */
emilmont	1:fdd22bb7aa52	1774	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1775	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	1776	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1777
emilmont	1:fdd22bb7aa52	1778	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1779	/* xc' = (xa-xb+xc-xd)* co2 - (ya-yb+yc-yd)* (si2) */
emilmont	1:fdd22bb7aa52	1780	/* yc' = (ya-yb+yc-yd)* co2 + (xa-xb+xc-xd)* (si2) */
emilmont	1:fdd22bb7aa52	1781	pSrc16[i1 * 2u] = out1;
emilmont	1:fdd22bb7aa52	1782	pSrc16[(i1 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	1783
emilmont	1:fdd22bb7aa52	1784	/* Butterfly calculations */
emilmont	1:fdd22bb7aa52	1785	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1786	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	1787	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1788
emilmont	1:fdd22bb7aa52	1789	/* T0 = yb-yd, T1 = xb-xd) */
emilmont	1:fdd22bb7aa52	1790	T0 = __SSAT(T0 - U0, 16u);
emilmont	1:fdd22bb7aa52	1791	T1 = __SSAT(T1 - U1, 16u);
emilmont	1:fdd22bb7aa52	1792
emilmont	1:fdd22bb7aa52	1793	/* R0 = (ya-yc) - (xb- xd) , R1 = (xa-xc) + (yb-yd) */
emilmont	1:fdd22bb7aa52	1794	R0 = (S0 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1795	R1 = (S1 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1796
emilmont	1:fdd22bb7aa52	1797	/* S1 = (ya-yc) + (xb- xd), S1 = (xa-xc) - (yb-yd) */
emilmont	1:fdd22bb7aa52	1798	S0 = (S0 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1799	S1 = (S1 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1800
emilmont	1:fdd22bb7aa52	1801	/* Butterfly process for the i0+fftLen/2 sample */
mbed_official	5:3762170b6d4d	1802	out1 = (q15_t) ((Co1 * S0 - Si1 * S1) >> 16u);
mbed_official	5:3762170b6d4d	1803	out2 = (q15_t) ((Si1 * S0 + Co1 * S1) >> 16u);
emilmont	1:fdd22bb7aa52	1804	/* xb' = (xa-yb-xc+yd)* co1 - (ya+xb-yc-xd)* (si1) */
emilmont	1:fdd22bb7aa52	1805	/* yb' = (ya+xb-yc-xd)* co1 + (xa-yb-xc+yd)* (si1) */
emilmont	1:fdd22bb7aa52	1806	pSrc16[i2 * 2u] = out1;
emilmont	1:fdd22bb7aa52	1807	pSrc16[(i2 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	1808
emilmont	1:fdd22bb7aa52	1809	/* Butterfly process for the i0+3fftLen/4 sample */
mbed_official	5:3762170b6d4d	1810	out1 = (q15_t) ((Co3 * R0 - Si3 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	1811
mbed_official	5:3762170b6d4d	1812	out2 = (q15_t) ((Si3 * R0 + Co3 * R1) >> 16u);
emilmont	1:fdd22bb7aa52	1813	/* xd' = (xa+yb-xc-yd)* Co3 - (ya-xb-yc+xd)* (si3) */
emilmont	1:fdd22bb7aa52	1814	/* yd' = (ya-xb-yc+xd)* Co3 + (xa+yb-xc-yd)* (si3) */
emilmont	1:fdd22bb7aa52	1815	pSrc16[i3 * 2u] = out1;
emilmont	1:fdd22bb7aa52	1816	pSrc16[(i3 * 2u) + 1u] = out2;
emilmont	1:fdd22bb7aa52	1817
emilmont	1:fdd22bb7aa52	1818
emilmont	1:fdd22bb7aa52	1819	}
emilmont	1:fdd22bb7aa52	1820	}
emilmont	1:fdd22bb7aa52	1821	/* Twiddle coefficients index modifier */
emilmont	1:fdd22bb7aa52	1822	twidCoefModifier <<= 2u;
emilmont	1:fdd22bb7aa52	1823	}
emilmont	1:fdd22bb7aa52	1824	/* End of Middle stages process */
emilmont	1:fdd22bb7aa52	1825
emilmont	1:fdd22bb7aa52	1826
emilmont	1:fdd22bb7aa52	1827	/* data is in 10.6(q6) format for the 1024 point */
emilmont	1:fdd22bb7aa52	1828	/* data is in 8.8(q8) format for the 256 point */
emilmont	1:fdd22bb7aa52	1829	/* data is in 6.10(q10) format for the 64 point */
emilmont	1:fdd22bb7aa52	1830	/* data is in 4.12(q12) format for the 16 point */
emilmont	1:fdd22bb7aa52	1831
emilmont	1:fdd22bb7aa52	1832	/* start of last stage process */
emilmont	1:fdd22bb7aa52	1833
emilmont	1:fdd22bb7aa52	1834
emilmont	1:fdd22bb7aa52	1835	/* Initializations for the last stage */
emilmont	1:fdd22bb7aa52	1836	n1 = n2;
emilmont	1:fdd22bb7aa52	1837	n2 >>= 2u;
emilmont	1:fdd22bb7aa52	1838
emilmont	1:fdd22bb7aa52	1839	/* Butterfly implementation */
emilmont	1:fdd22bb7aa52	1840	for (i0 = 0u; i0 <= (fftLen - n1); i0 += n1)
emilmont	1:fdd22bb7aa52	1841	{
emilmont	1:fdd22bb7aa52	1842	/* index calculation for the input as, */
emilmont	1:fdd22bb7aa52	1843	/* pSrc16[i0 + 0], pSrc16[i0 + fftLen/4], pSrc16[i0 + fftLen/2], pSrc16[i0 + 3fftLen/4] */
emilmont	1:fdd22bb7aa52	1844	i1 = i0 + n2;
emilmont	1:fdd22bb7aa52	1845	i2 = i1 + n2;
emilmont	1:fdd22bb7aa52	1846	i3 = i2 + n2;
emilmont	1:fdd22bb7aa52	1847
emilmont	1:fdd22bb7aa52	1848	/* Reading i0, i0+fftLen/2 inputs */
emilmont	1:fdd22bb7aa52	1849	/* Read ya (real), xa(imag) input */
emilmont	1:fdd22bb7aa52	1850	T0 = pSrc16[i0 * 2u];
emilmont	1:fdd22bb7aa52	1851	T1 = pSrc16[(i0 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1852	/* Read yc (real), xc(imag) input */
emilmont	1:fdd22bb7aa52	1853	S0 = pSrc16[i2 * 2u];
emilmont	1:fdd22bb7aa52	1854	S1 = pSrc16[(i2 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1855
emilmont	1:fdd22bb7aa52	1856	/* R0 = (ya + yc), R1 = (xa + xc) */
emilmont	1:fdd22bb7aa52	1857	R0 = __SSAT(T0 + S0, 16u);
emilmont	1:fdd22bb7aa52	1858	R1 = __SSAT(T1 + S1, 16u);
emilmont	1:fdd22bb7aa52	1859	/* S0 = (ya - yc), S1 = (xa - xc) */
emilmont	1:fdd22bb7aa52	1860	S0 = __SSAT(T0 - S0, 16u);
emilmont	1:fdd22bb7aa52	1861	S1 = __SSAT(T1 - S1, 16u);
emilmont	1:fdd22bb7aa52	1862
emilmont	1:fdd22bb7aa52	1863	/* Reading i0+fftLen/4 , i0+3fftLen/4 inputs */
emilmont	1:fdd22bb7aa52	1864	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1865	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	1866	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1867	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1868	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	1869	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1870
emilmont	1:fdd22bb7aa52	1871	/* T0 = (yb + yd), T1 = (xb + xd) */
emilmont	1:fdd22bb7aa52	1872	T0 = __SSAT(T0 + U0, 16u);
emilmont	1:fdd22bb7aa52	1873	T1 = __SSAT(T1 + U1, 16u);
emilmont	1:fdd22bb7aa52	1874
emilmont	1:fdd22bb7aa52	1875	/* writing the butterfly processed i0 sample */
emilmont	1:fdd22bb7aa52	1876	/* xa' = xa + xb + xc + xd */
emilmont	1:fdd22bb7aa52	1877	/* ya' = ya + yb + yc + yd */
emilmont	1:fdd22bb7aa52	1878	pSrc16[i0 * 2u] = (R0 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1879	pSrc16[(i0 * 2u) + 1u] = (R1 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1880
emilmont	1:fdd22bb7aa52	1881	/* R0 = (ya + yc) - (yb + yd), R1 = (xa + xc) - (xb + xd) */
emilmont	1:fdd22bb7aa52	1882	R0 = (R0 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1883	R1 = (R1 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1884
emilmont	1:fdd22bb7aa52	1885	/* Read yb (real), xb(imag) input */
emilmont	1:fdd22bb7aa52	1886	T0 = pSrc16[i1 * 2u];
emilmont	1:fdd22bb7aa52	1887	T1 = pSrc16[(i1 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1888
emilmont	1:fdd22bb7aa52	1889	/* writing the butterfly processed i0 + fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1890	/* xc' = (xa-xb+xc-xd) */
emilmont	1:fdd22bb7aa52	1891	/* yc' = (ya-yb+yc-yd) */
emilmont	1:fdd22bb7aa52	1892	pSrc16[i1 * 2u] = R0;
emilmont	1:fdd22bb7aa52	1893	pSrc16[(i1 * 2u) + 1u] = R1;
emilmont	1:fdd22bb7aa52	1894
emilmont	1:fdd22bb7aa52	1895	/* Read yd (real), xd(imag) input */
emilmont	1:fdd22bb7aa52	1896	U0 = pSrc16[i3 * 2u];
emilmont	1:fdd22bb7aa52	1897	U1 = pSrc16[(i3 * 2u) + 1u];
emilmont	1:fdd22bb7aa52	1898	/* T0 = (yb - yd), T1 = (xb - xd) */
emilmont	1:fdd22bb7aa52	1899	T0 = __SSAT(T0 - U0, 16u);
emilmont	1:fdd22bb7aa52	1900	T1 = __SSAT(T1 - U1, 16u);
emilmont	1:fdd22bb7aa52	1901
emilmont	1:fdd22bb7aa52	1902	/* writing the butterfly processed i0 + fftLen/2 sample */
emilmont	1:fdd22bb7aa52	1903	/* xb' = (xa-yb-xc+yd) */
emilmont	1:fdd22bb7aa52	1904	/* yb' = (ya+xb-yc-xd) */
emilmont	1:fdd22bb7aa52	1905	pSrc16[i2 * 2u] = (S0 >> 1u) - (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1906	pSrc16[(i2 * 2u) + 1u] = (S1 >> 1u) + (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1907
emilmont	1:fdd22bb7aa52	1908
emilmont	1:fdd22bb7aa52	1909	/* writing the butterfly processed i0 + 3fftLen/4 sample */
emilmont	1:fdd22bb7aa52	1910	/* xd' = (xa+yb-xc-yd) */
emilmont	1:fdd22bb7aa52	1911	/* yd' = (ya-xb-yc+xd) */
emilmont	1:fdd22bb7aa52	1912	pSrc16[i3 * 2u] = (S0 >> 1u) + (T1 >> 1u);
emilmont	1:fdd22bb7aa52	1913	pSrc16[(i3 * 2u) + 1u] = (S1 >> 1u) - (T0 >> 1u);
emilmont	1:fdd22bb7aa52	1914	}
emilmont	1:fdd22bb7aa52	1915	/* end of last stage process */
emilmont	1:fdd22bb7aa52	1916
emilmont	1:fdd22bb7aa52	1917	/* output is in 11.5(q5) format for the 1024 point */
emilmont	1:fdd22bb7aa52	1918	/* output is in 9.7(q7) format for the 256 point */
emilmont	1:fdd22bb7aa52	1919	/* output is in 7.9(q9) format for the 64 point */
emilmont	1:fdd22bb7aa52	1920	/* output is in 5.11(q11) format for the 16 point */
emilmont	1:fdd22bb7aa52	1921
mbed_official	3:7a284390b0ce	1922	#endif /* #ifndef ARM_MATH_CM0_FAMILY */
emilmont	1:fdd22bb7aa52	1923
emilmont	1:fdd22bb7aa52	1924	}

Repository toolbox

Export to desktop IDE

Repository details

Type:	Library
Created:	28 Nov 2012
Imports:	1419
Forks:	3
Commits:	6
Dependents:	75
Dependencies:	0
Followers:	34
Issues:	3

This repository is Public (Unlisted).

The code in this repository is MIT licensed.

Legacy Warning

cmsis_dsp/TransformFunctions/arm_cfft_radix4_q15.c@5:3762170b6d4d, 2015-11-20 (annotated)

Who changed what in which revision?

Repository toolbox

Repository details

Important Information for this Arm website

Access Warning