Análisis del Dataset Parkinson Replicated Acoustic Features

Introducción

1.1 El Parkinson

La Enfermedad de Parkinson (EP) es el segundo trastorno neurodegenerativo más común, afectando significativamente a la población mayor de 65 años en Europa. ¹

Ante la necesidad de métodos diagnósticos complementarios, las grabaciones de voz se han postulado como un biomarcador potencial no invasivo y de bajo coste. Esto se debe a que la EP provoca disfonía, que se caracteriza por inestabilidad del tono y el volumen.²

1.2 Los datos

El conjunto de datos contiene 240 filas y 48 columnas. Sin embargo, estas 240 filas no son datos independientes sino que 3 réplicas de 80 individuos.

1.3 Hipótesis

1. Jitter_rel

El jitter relativo es el indicador primario de la inestabilidad del tono de la voz. Mide el desorden o la irregularidad ciclo a ciclo en la duración de las vibraciones de las cuerdas vocales. Un Jitter Relativo alto se interpreta como una alteración en el mecanismo de la fonación.

H0: No existen diferencias significativas en la distribución jitter_rel entre el grupo control (sanos) y grupo Parkinson.
H1: Existen diferencias en la distribución del jitter_rel entre el grupo control (sanos) y grupo Parkinson.

2. Jitter_abs

El Jitter Absoluto mide la misma irregularidad en la vibración de las cuerdas vocales, pero la expresa en unidades de tiempo (milisegundos o microsegundos). Mide la diferencia media de tiempo entre la duración de un ciclo de vibración vocal y el siguiente.

H0: No existen diferencias significativas en la distribución del Jitter Absoluto (Jitter_abs) entre el grupo Control (sanos) y el grupo Parkinson.
H1: Existe una diferencia significativa en la distribución del Jitter Absoluto (Jitter_abs) entre el grupo Control (sanos) y el grupo Parkinson.

3. Jitter_RAP

El Jitter RAP (perturbación media relativa ) es una medida avanzada de la inestabilidad vocal que busca ser más precisa y confiable que el Jitter Relativo o Absoluto.

La clave de su fiabilidad es el ‘suavizado’: el RAP no mira cada ciclo vocal por separado, sino que calcula la variación promedio del tono basándose en tres ciclos consecutivos de la voz, permitiendo filtrar el ruido y los pequeños errores de medición aleatorios.

H0: No existen diferencias significativas en la distribución del Jitter RAP entre el grupo Control (Sanos) y el grupo Parkinson.
H1: Existe una diferencia significativa en la distribución del Jitter RAP entre el grupo Control y el grupo Parkinson.

4. Jitter_PPQ

El Jitter PPQ mide la variación promedio del período vocal, suavizada sobre cinco ciclos consecutivos. Este promediado extenso es crucial, porque filtra y minimiza el impacto del ruido y los errores accidentales de la grabación, lo que resulta en un indicador de inestabilidad mucho más estable y preciso.

H0: No existen diferencias significativas en la distribución del Jitter PPQ entre el grupo Control (Sanos) y el grupo Parkinson.
H1: Existe una diferencia significativa en la distribución del Jitter PPQ entre el grupo Control y el grupo Parkinson.

5. Shimmer dB

Shim_dB mide la perturbación de la amplitud de la voz en decibelios, reflejando variaciones absolutas de la intensidad vocal entre ciclos consecutivos.

H0: La perturbación de la amplitud medida por Shim_dB es similar entre individuos sanos y pacientes con Parkinson, indicando que la regularidad de la voz no se ve afectada por la enfermedad.
H1: La perturbación de la amplitud medida por Shim_dB difiere entre individuos sanos y pacientes con Parkinson, reflejando mayor irregularidad vocal en estos últimos.

6. Shimmer loc

Shim_loc mide la perturbación local de la amplitud, evaluando las variaciones de amplitud entre ciclos consecutivos de manera muy sensible a cambios puntuales.

H0: No hay diferencias significativas en Shim_loc entre individuos sanos y pacientes con Parkinson
H1: Existen diferencias significativas en Shim_loc entre individuos sanos y pacientes con Parkinson, reflejando mayor irregularidad en la voz de los pacientes.

7. Shimmer APQ3

Shim_APQ3 calcula el cociente de perturbación de amplitud promedio sobre tres ciclos consecutivos, proporcionando una medida más estable que Shim_loc y menos sensible a fluctuaciones aisladas.

H0: No hay diferencias significativas en Shim_APQ3 entre individuos sanos y pacientes con Parkinson.
H1: Existen diferencias en Shim_APQ3 entre individuos sanos y pacientes con Parkinson, reflejando mayor irregularidad vocal en los pacientes.

8. Shimmer APQ5

Shim_APQ5 es el cociente de perturbación de amplitud promedio sobre cinco ciclos consecutivos, proporcionando una medida de la variabilidad de la amplitud más estable y menos sensible a fluctuaciones extremas.

H0: La perturbación de la amplitud medida por Shim_APQ5 es similar entre individuos sanos y pacientes con Parkinson, indicando que la regularidad de la voz no se ve afectada por la enfermedad.
H1: La perturbación de la amplitud medida por Shim_APQ5 difiere entre individuos sanos y pacientes con Parkinson, reflejando mayor irregularidad vocal en estos últimos.

9. Shimmer APQ11

Shim_APQ11 calcula la perturbación promedio sobre once ciclos consecutivos, proporcionando la medida más estable y global de la irregularidad de la amplitud vocal.

H0: No hay diferencias significativas en Shim_APQ11 entre individuos sanos y pacientes con Parkinson.
H1: Existen diferencias significativas en Shim_APQ11 entre individuos sanos y pacientes con Parkinson, reflejando mayor irregularidad vocal en los pacientes.

10. Análisis Univariante de las variables no lineales

La voz humana presenta una dinámica inherentemente no lineal, resultado de la interacción compleja entre el control neuromotor y la vibración laríngea. En este contexto, PPE cuantifica la imprevisibilidad de la señal vocal, RPDE evalúa el grado de regularidad del periodo de vibración, y DFA describe la organización temporal de las fluctuaciones a largo plazo. Estas métricas permiten caracterizar alteraciones dinámicas sutiles que no se reflejan en medidas lineales tradicionales, siendo especialmente relevantes para el estudio de la voz en la enfermedad de Parkinson.

H0: Las medidas no lineales de complejidad vocal no presentan diferencias significativas entre los grupos control y PD.
H1: Las medidas no lineales de complejidad vocal son mayores en sujetos con Parkinson con respecto a los sujetos control.

11. Análisis de la variabilidad intra-sujeto

Dado que las variables no lineales describen propiedades dinámicas de la señal vocal que pueden manifestarse de forma intermitente y no uniforme, la ausencia de diferencias en los promedios sugiere que las alteraciones podrían expresarse principalmente a través de la dinámica temporal interna y no como un cambio sistemático del valor medio. En este contexto, resulta especialmente relevante el análisis de la variabilidad intra-sujeto, ya que permite explorar posibles diferencias en la estabilidad y organización dinámica de la voz que quedan ocultas al resumir la señal mediante un único valor promedio.

H0: Los sujetos con Parkinson no presentan variabilidad intra-sujeto significativa en las métricas vocales con respecto a los controles sanos.
H1: Los sujetos con Parkinson presentan una mayor variabilidad intra-sujeto en las métricas vocales que los controles sanos.

Materiales

El presente estudio en el conjunto de datos recopilados por kaggle.

Durante la revisión del conjunto de datos se detectaron inconsistencias en el formato numérico de algunas variables, ya que el carácter punto (.) se utilizaba tanto como separador decimal como separador de miles. En varios casos se observaron valores con múltiples puntos y sin un criterio uniforme claramente documentado en el artículo original. Ante esta situación, se adoptó un criterio homogéneo para el preprocesamiento de los datos, tomando como referencia el primer punto en aquellos valores donde actuaba como separador de miles, con el objetivo de garantizar una representación numérica coherente para el análisis estadístico posterior.

Hemos usado R (Wickham, Hester, and Bryan 2025) para leer los datos. Hemos usado dplyr (Wickham et al. 2023), ggplot2 (Wickham et al. 2024), R studio (R Core Team 2024) para trabajar con los datos, effsize (Torchiano 2020), DT (Xie et al. 2025) para crear tablas interactivas y kableExtra (Zhu 2024) para personalizar las tablas.

Métodos

3.1 Procesamiento de los datos

Dado que cada individuo contaba con tres réplicas de características extraídas de grabaciones de voz pertenecientes al mismo sujeto, estas no pueden considerarse observaciones independientes. Por ello, los datos fueron agrupados por individuo ID, género y estado clínico. Para cada sujeto se calculó la media de las réplicas, que fue utilizada como unidad de análisis en los estudios posteriores.

Las imperfecciones tecnológicas y la variabilidad biológica generan réplicas que no son idénticas, lo que puede dar lugar a valores atípicos (outliers). Estos se aceptan en el análisis, ya que reflejan la variabilidad real de la señal vocal.

3.2 Análisis Jitter_rel

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_REL$media[datos_REL$Status == "0"]
## W = 0.38515, p-value = 9.437e-12

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_REL$media[datos_REL$Status == "1"]
## W = 0.52655, p-value = 3.535e-10

Fig 1. Distribución de la Media de Jitter Relativo por Estado Clínico

Se evaluó la distribución de la media del jitter relativo en los grupos control y Parkinson mediante la Prueba de Shapiro-Wilk, observándose desviaciones significativas de la normalidad en ambos grupos p value<0,05.

Con el objetivo de aproximar la normalidad, se aplicó una transformación logarítmica log(1 + x). No obstante, tras la transformación, la variable continuó sin cumplir plenamente el supuesto de normalidad, p-value < 0.05.

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_REL$log_JitterREL[datos_REL$Status == "0"]
## W = 0.53106, p-value = 4.014e-10

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_REL$log_JitterREL[datos_REL$Status == "1"]
## W = 0.72231, p-value = 2.307e-07

Fig 2. Distribución de Jitter Relativo transformado por Estado Clínico

3.3 Análisis Jitter_abs

La media del jitter absoluto fue analizada inicialmente mediante la prueba de Shapiro–Wilk, confirmándose la ausencia de normalidad en ambos grupos, p-value < 0.05.

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_ABS$media[datos_ABS$Status == "0"]
## W = 0.89283, p-value = 0.00119

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_ABS$media[datos_ABS$Status == "1"]
## W = 0.76182, p-value = 1.187e-06

Fig 3. Distribución de la Media de Jitter abs por Estado Clínico

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_ABS$Log_jitterABS[datos_ABS$Status == "0"]
## W = 0.89284, p-value = 0.001191

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_ABS$Log_jitterABS[datos_ABS$Status == "1"]
## W = 0.76184, p-value = 1.188e-06

Fig 4. Distribución de Jitter ABS transformado por Estado Clínico

3.4 Análisis jitter_RAP

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_RAP$media[datos_RAP$Status == "0"]
## W = 0.83815, p-value = 4.699e-05

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_RAP$media[datos_RAP$Status == "1"]
## W = 0.71124, p-value = 1.496e-07

Fig 5. Distribución de la Media de Jitter RAP por Estado Clínico

Se evaluó la distribución de la media del jitter RAP en los grupos control y Parkinson mediante la Prueba de Shapiro-Wilk, observándose desviaciones significativas de la normalidad en ambos grupos p value<0,05.

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_RAP$Log_jitterRAP[datos_RAP$Status == "0"]
## W = 0.83877, p-value = 4.859e-05

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_RAP$Log_jitterRAP[datos_RAP$Status == "1"]
## W = 0.71371, p-value = 1.646e-07

Fig 6. Distribución de Jitter RAP transformado por Estado Clínico

3.5 Análisis jitter_PPQ

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_PPQ$media[datos_PPQ$Status == "0"]
## W = 0.88748, p-value = 0.0008429

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_PPQ$media[datos_PPQ$Status == "1"]
## W = 0.58106, p-value = 1.741e-09

Fig 7. Distribución de la Media de Jitter PPQ por Estado Clínico

Se evaluó la distribución de la media del jitter PPQ en los grupos control y Parkinson mediante la Prueba de Shapiro-Wilk, observándose desviaciones significativas de la normalidad en ambos grupos p-value < 0.05.

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_PPQ$Log_jitterPPQ[datos_PPQ$Status == "0"]
## W = 0.8879, p-value = 0.0008656

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_PPQ$Log_jitterPPQ[datos_PPQ$Status == "1"]
## W = 0.58469, p-value = 1.945e-09

Fig 8. Distribución de Jitter PPQ transformado por Estado Clínico

3.6 Análisis de la variable Shimmer

Correlación de las variables de Shimmer

Estudiamos la correlación entre las variables de Shimmer para evaluar el grado de relación entre ellas, ayudando a seleccionar aquellas más representativas para el análisis.

##            Shim_loc   Shim_dB Shim_APQ3 Shim_APQ5 Shi_APQ11
## Shim_loc  1.0000000 0.7151735 0.9950572 0.9841477 0.9678147
## Shim_dB   0.7151735 1.0000000 0.7160153 0.6973371 0.6855575
## Shim_APQ3 0.9950572 0.7160153 1.0000000 0.9684468 0.9413290
## Shim_APQ5 0.9841477 0.6973371 0.9684468 1.0000000 0.9820101
## Shi_APQ11 0.9678147 0.6855575 0.9413290 0.9820101 1.0000000

Matriz de correlación entre las variables de Shimmer
	Shim loc	Shim dB	APQ3	APQ5	APQ11
Shim loc	1.000	0.715	0.995	0.984	0.968
Shim dB	0.715	1.000	0.716	0.697	0.686
APQ3	0.995	0.716	1.000	0.968	0.941
APQ5	0.984	0.697	0.968	1.000	0.982
APQ11	0.968	0.686	0.941	0.982	1.000

Nota: Los valores corresponden al coeficiente de correlación de Pearson.

Las variables Shim loc, APQ3, APQ5, APQ11 estan muy correlacionadas, por lo que elegimos APQ5 para representar a este grupo y así evitar datos redundates. La variable Shim dB aporta información diferente al no estar correlacionada con las demás.

Preparación del dataset para las variables Shim dB y APQ5

Se seleccionan las variables Shim db y APQ5 y se calculan las medias de cada sujeto, facilitando la comparación entre individuos sanos y con Parkinson

3.6.1 Estudio de la variable Shimmer dB

Prueba de normalidad (Shapiro-Wilk)

Usamos el test de Shapiro-Wilk para evaluar la normalidad de la variable Shimmer db dentro de los grupos de individuos sanos y con Parkinson.

## 
##  Shapiro-Wilk normality test
## 
## data:  medias_Shim$Shim_dB_Media[medias_Shim$Status == "0"]
## W = 0.96615, p-value = 0.27

## 
##  Shapiro-Wilk normality test
## 
## data:  medias_Shim$Shim_dB_Media[medias_Shim$Status == "1"]
## W = 0.38182, p-value = 8.729e-12

Comparación entre grupos (Mann-Whitney/Wilcoxon)

Como la distribución entre grupos no es normal, usamos la prueba de suma de rangos de Wilcoxon, o más conocida como la prueba U de Mann-Whitney, que nos permite comparar dos muestras independientes que no cumplen con la normalidad para determinar si existen diferencias significativas entre las medianas de ambas, considerándose una alternativa a la prueba t-student, usada cuando sí existe la normalidad.

## 
##  Wilcoxon rank sum exact test
## 
## data:  Shim_dB_Media by Status
## W = 581, p-value = 0.035
## alternative hypothesis: true location shift is not equal to 0

## 
## Cliff's Delta
## 
## delta estimate: -0.27375 (small)
## 95 percent confidence interval:
##       lower       upper 
## -0.48548064 -0.03168542

3.6.2 Estudio de la variable APQ5

Prueba de normalidad (Shapiro-Wilk)

Usamos el test de Shapiro-Wilk para evaluar la normalidad de la variable Shimmer db dentro de los grupos de individuos sanos y con Parkinson.

## 
##  Shapiro-Wilk normality test
## 
## data:  medias_Shim$Shim_APQ5_Media[medias_Shim$Status == "0"]
## W = 0.9541, p-value = 0.105

## 
##  Shapiro-Wilk normality test
## 
## data:  medias_Shim$Shim_APQ5_Media[medias_Shim$Status == "1"]
## W = 0.79411, p-value = 5.118e-06

Comparación entre grupos (Mann-Whitney/Wilcoxon)

## 
##  Wilcoxon rank sum exact test
## 
## data:  Shim_APQ5_Media by Status
## W = 576, p-value = 0.03097
## alternative hypothesis: true location shift is not equal to 0

## 
## Cliff's Delta
## 
## delta estimate: -0.28 (small)
## 95 percent confidence interval:
##      lower      upper 
## -0.4914112 -0.0374275

3.7 Análisis Univariante de las variables no lineales

Variables No Lineales
ID	Status	RPDE_Media	PPE_Media	DFA_Media	GNE_Media
CONT-01	Healthy	0.2418028	0.0287655	0.5937826	0.8922816
CONT-02	Healthy	0.2447305	0.0239397	0.5949649	0.8751657
CONT-03	Healthy	0.2204639	0.0422755	0.5901909	0.9763677
CONT-04	Healthy	0.2922599	0.7523028	0.7581312	0.8938280
CONT-05	Healthy	0.3228545	0.0928155	0.7520540	0.9338648
CONT-06	Healthy	0.3158057	0.2584876	0.6668312	0.9445370
CONT-07	Healthy	0.3437744	0.4420731	0.6173924	0.9671196
CONT-08	Healthy	0.2881526	0.1603942	0.5934873	0.9097100
CONT-09	Healthy	0.3921986	0.1048107	0.6950959	0.8850752
CONT-10	Healthy	0.1928563	0.0200067	0.4978693	0.9552758

3.7.1 Estudio RPDE

## 
##  Shapiro-Wilk normality test
## 
## data:  DP_Univ$RPDE_Media[DP_Univ$Status == "Healthy"]
## W = 0.97286, p-value = 0.4411

## 
##  Shapiro-Wilk normality test
## 
## data:  DP_Univ$RPDE_Media[DP_Univ$Status == "PD"]
## W = 0.97139, p-value = 0.3977

## 
##  Wilcoxon rank sum exact test
## 
## data:  RPDE_Media by Status
## W = 731, p-value = 0.5119
## alternative hypothesis: true location shift is not equal to 0

## 
## Cliff's Delta
## 
## delta estimate: -0.08625 (negligible)
## 95 percent confidence interval:
##      lower      upper 
## -0.3202905  0.1577136

3.7.2 Estudio PPE

## 
##  Shapiro-Wilk normality test
## 
## data:  DP_Univ$PPE_Media[DP_Univ$Status == "Healthy"]
## W = 0.90284, p-value = 0.002315

## 
##  Shapiro-Wilk normality test
## 
## data:  DP_Univ$PPE_Media[DP_Univ$Status == "PD"]
## W = 0.93342, p-value = 0.02086

## 
##  Wilcoxon rank sum exact test
## 
## data:  PPE_Media by Status
## W = 684, p-value = 0.268
## alternative hypothesis: true location shift is not equal to 0

## 
## Cliff's Delta
## 
## delta estimate: -0.145 (negligible)
## 95 percent confidence interval:
##      lower      upper 
## -0.3858875  0.1143976

3.7.3 Estudio DFA

## 
##  Shapiro-Wilk normality test
## 
## data:  DP_Univ$DFA_Media[DP_Univ$Status == "Healthy"]
## W = 0.94921, p-value = 0.07122

## 
##  Shapiro-Wilk normality test
## 
## data:  DP_Univ$DFA_Media[DP_Univ$Status == "PD"]
## W = 0.98393, p-value = 0.8303

## 
##  Wilcoxon rank sum exact test
## 
## data:  DFA_Media by Status
## W = 767, p-value = 0.7558
## alternative hypothesis: true location shift is not equal to 0

## 
## Cliff's Delta
## 
## delta estimate: -0.04125 (negligible)
## 95 percent confidence interval:
##      lower      upper 
## -0.2932199  0.2160782

3.8 Análisis de la variabilidad intra-sujeto

Variabilidad Intra-sujeto (IQR)
ID	Status	PPE_IQR	RPDE_IQR	DFA_IQR
CONT-01	Healthy	0.0351671	0.0339570	0.0097584
CONT-02	Healthy	0.0149512	0.0196454	0.0340155
CONT-03	Healthy	0.0381027	0.0319655	0.0230951
CONT-04	Healthy	0.0815828	0.0027828	0.0117133
CONT-05	Healthy	0.1228390	0.0059774	0.0124695
CONT-06	Healthy	0.0158469	0.0448420	0.0290513
CONT-07	Healthy	0.0670931	0.0206255	0.0158011
CONT-08	Healthy	0.1250095	0.0279138	0.0216323
CONT-09	Healthy	0.0422961	0.0138385	0.0156935
CONT-10	Healthy	0.0226457	0.0083776	0.0235105

3.8.1 Estudio RPDE

## 
##  Shapiro-Wilk normality test
## 
## data:  DP_var_IQR$RPDE_IQR[DP_var_IQR$Status == "Healthy"]
## W = 0.95896, p-value = 0.1543

## 
##  Shapiro-Wilk normality test
## 
## data:  DP_var_IQR$RPDE_IQR[DP_var_IQR$Status == "PD"]
## W = 0.92245, p-value = 0.009205

## 
##  Wilcoxon rank sum exact test
## 
## data:  RPDE_IQR by Status
## W = 731, p-value = 0.5119
## alternative hypothesis: true location shift is not equal to 0

## 
## Cliff's Delta
## 
## delta estimate: -0.08625 (negligible)
## 95 percent confidence interval:
##      lower      upper 
## -0.3276505  0.1657217

3.8.2 Estudio PPE

## 
##  Shapiro-Wilk normality test
## 
## data:  DP_var_IQR$PPE_IQR[DP_var_IQR$Status == "Healthy"]
## W = 0.91566, p-value = 0.005638

## 
##  Shapiro-Wilk normality test
## 
## data:  DP_var_IQR$PPE_IQR[DP_var_IQR$Status == "PD"]
## W = 0.88345, p-value = 0.0006529

## 
##  Wilcoxon rank sum exact test
## 
## data:  PPE_IQR by Status
## W = 849, p-value = 0.6425
## alternative hypothesis: true location shift is not equal to 0

## 
## Cliff's Delta
## 
## delta estimate: 0.06125 (negligible)
## 95 percent confidence interval:
##      lower      upper 
## -0.1878458  0.3029429

3.8.3 Estudio DFA

## 
##  Shapiro-Wilk normality test
## 
## data:  DP_var_IQR$DFA_IQR[DP_var_IQR$Status == "Healthy"]
## W = 0.95659, p-value = 0.1279

## 
##  Shapiro-Wilk normality test
## 
## data:  DP_var_IQR$DFA_IQR[DP_var_IQR$Status == "PD"]
## W = 0.90579, p-value = 0.002831

## 
##  Wilcoxon rank sum exact test
## 
## data:  DFA_IQR by Status
## W = 811, p-value = 0.92
## alternative hypothesis: true location shift is not equal to 0

## 
## Cliff's Delta
## 
## delta estimate: 0.01375 (negligible)
## 95 percent confidence interval:
##      lower      upper 
## -0.2290095  0.2548993

Resultados

4.1 Resultados jitter

Dado que ninguna de las variables de jitter analizadas (jitter relativo, jitter absoluto, jitter RAP y jitter PPQ) cumplió el supuesto de normalidad en ambos grupos, tal como se confirmó mediante la prueba de Shapiro–Wilk p-value < 0.05, se empleó la prueba no paramétrica de Wilcoxon–Mann–Whitney para comparar los valores entre el grupo control y los pacientes con enfermedad de Parkinson. Esta estrategia permitió evaluar diferencias estadísticas sin asumir normalidad en los datos.

4.1.1 Resultados Jitter_rel

## 
##  Wilcoxon rank sum exact test
## 
## data:  log_JitterREL by Status
## W = 608, p-value = 0.06517
## alternative hypothesis: true location shift is not equal to 0

Fig 9. Jitter_rel según el estado clínico

Tras aplicar el wilcox.test en la variable transformada, el valor que obtenemos de p-value = 0.06517>0.05. Por tanto, no hay diferencias significativas, NO rechazamos la Hipótesis Nula (H0), la inestabilidad vocal (Jitter_rel) no difiere significativamente entre los pacientes con Parkinson y el grupo de control.

4.1.2 Resultados Jitter_abs

## 
##  Wilcoxon rank sum exact test
## 
## data:  Log_jitterABS by Status
## W = 733, p-value = 0.5243
## alternative hypothesis: true location shift is not equal to 0

Fig 10. Jitter_abs según el estado clínico

Tras aplicar el wilcox.test en la variable transformada, el valor que obtenemos de p-value = 0.5243 > 0.05. Por tanto, no hay diferencias significativas, NO rechazamos la Hipótesis Nula (H0), la inestabilidad vocal (Jitter_abs) no difiere significativamente entre los pacientes con Parkinson y el grupo de control.

4.1.3 Resultados Jitter_RAP

## 
##  Wilcoxon rank sum exact test
## 
## data:  Log_jitterRAP by Status
## W = 580, p-value = 0.03416
## alternative hypothesis: true location shift is not equal to 0

Fig 11. Jitter_RAP según el estado clínico

Tras aplicar el wilcox.test en la variable transformada, el valor que obtenemos de p-value = 0.03416<0.05. Por tanto, hay diferencias significativas, aceptamos la Hipótesis alternativa (H1), existe una diferencia significativa en la distribución del Jitter RAP entre el grupo Control y el grupo Parkinson y rechazamos la Hipótesis Nula (H0).

4.1.4 Resultados Jitter_PPQ

## 
##  Wilcoxon rank sum exact test
## 
## data:  Log_jitterPPQ by Status
## W = 575, p-value = 0.03021
## alternative hypothesis: true location shift is not equal to 0

Fig 12. Jitter_PPQ según el estado clínico

Tras aplicar el wilcox.test en la variable transformada, el valor que obtenemos de p-value = 0.03021<0.05. Por tanto, hay diferencias significativas, aceptamos la Hipótesis alternativa (H1), existe una diferencia significativa en la distribución del Jitter PPQ entre el grupo Control y el grupo Parkinson y rechazamos la Hipótesis Nula (H0).

4.5 Resultados Shimmer dB

La prueba de Shapiro–Wilk indicó que la variable Shim_dB sigue una distribución normal en el grupo sano (p = 0,27), mientras que en el grupo de pacientes con Parkinson no se cumple el supuesto de normalidad (p = 8.729e-12).

Tras aplicar el wilcox.test, los resultados mostraron diferencias significativas entre los grupos de individuos sanos y con Parkinson (p = 0.035), por tanto aceptamos la hipótesis alternativa (H1), la perturbación de la amplitud medida por Shim_dB difiere entre individuos sanos y pacientes con Parkinson, reflejando mayor irregularidad vocal en estos últimos, y rechazamos la hipótesis nula (H0)

Las cajas son muy similares en mediana, los valores típicos de Shimmer dB no cambian demasiado entre individuos sanos y enfermos de Parkinson. Hay algunos valores extremos en el grupo de Parkinson (>6 dB), lo que indica casos individuales con amplitud muy irregular.

4.6 Resultados de APQ5

La prueba de Shapiro–Wilk indicó que la variable APQ5 sigue una distribución normal en el grupo sano (p = 0,105), mientras que en el grupo de pacientes con Parkinson no se cumple el supuesto de normalidad (p = 5.118e-06).

Tras aplicar el wilcox.test, los resultados mostraron diferencias significativas entre los grupos de individuos sanos y con Parkinson (p = 0.03097), por lo que aceptamos la hipótesis alternativa (H1), la perturbación de la amplitud medida por Shim_APQ5 difiere entre individuos sanos y pacientes con Parkinson, reflejando mayor irregularidad vocal en estos últimos, y rechazamos la hipótesis nula (H0)

La mediana de APQ5 en pacientes con Parkinson (PD) es superior a la de los individuos sanos, lo que indica que, en promedio, los pacientes presentan mayor irregularidad en la amplitud de la voz. Además, la caja correspondiente a PD es más alta, reflejando una mayor dispersión de los valores y, por lo tanto, una mayor variabilidad vocal. La presencia de algunos valores extremos en el grupo de PD sugiere que ciertos pacientes experimentan alteraciones más pronunciadas, posiblemente asociadas a etapas avanzadas de la enfermedad.

4.7 Resultados análisis univariante

Fig. Boxplot RPDE ~ Status

Figura. Boxplot PPE ~ Status

Figura. Boxplot DFA ~ Status

Tras observar los datos visualmente podemos determinar que no existen realmente diferencias significativas entre ambos grupos tomando en cuenta los valores de las variables no lineales, por lo que NO rechazaríamos la hipótesis nula (H0). Esto refuerza la idea de que no debemos de tomar estas variables como posibles biomarcadores independientes, sino que cada una nos muestra información complimentaria con la información de las demás.

4.8 Resultados análisis variabilidad intra-sujeto

Figura. Boxplot-jitter RPDE ~ Status

Figura. Boxplot-jitter PPE ~ Status

Figura. Boxplot-jitter DFA ~ Status

Tras observar los datos visualmente podemos determinar que no existen realmente diferencias significativas entre los sujetos de ambos grupos, por lo que NO rechazaríamos la hipótesis nula (H0). Esto refuerza la idea de que es necesario realizar enfoques que preserven la dinámica temporal o que llegen a integrar múltiples métricas no lineales.

Conclusiones

Los hallazgos de este estudio sugieren que ciertas métricas de voz, como Shim_APQ5, Jitter_RAP y Jitter_PPQ, tienen potencial para actuar como biomarcadores acústicos de la enfermedad de Parkinson, ya que permiten detectar irregularidades en la amplitud y estabilidad vocal. Otras métricas, como Shim_dB, Jitter_rel, Jitter_abs y las variables no lineales, muestran una capacidad limitada por sí solas, aunque podrían ser útiles en combinación con análisis más complejos que consideren la dinámica temporal de la voz.

En general, esto indica que la selección de métricas sensibles y la consideración de la estructura temporal de la señal son esenciales para desarrollar herramientas de diagnóstico y seguimiento confiables basadas en la voz. Así, la investigación sobre biomarcadores vocales puede contribuir significativamente a la detección temprana y al monitoreo de la enfermedad de Parkinson.

Información de la sesión y referencias

## R version 4.4.3 (2025-02-28 ucrt)
## Platform: x86_64-w64-mingw32/x64
## Running under: Windows 11 x64 (build 26100)
## 
## Matrix products: default
## 
## 
## locale:
## [1] LC_COLLATE=Spanish_Spain.utf8  LC_CTYPE=Spanish_Spain.utf8   
## [3] LC_MONETARY=Spanish_Spain.utf8 LC_NUMERIC=C                  
## [5] LC_TIME=Spanish_Spain.utf8    
## 
## time zone: Europe/Madrid
## tzcode source: internal
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
## [1] effsize_0.8.1    kableExtra_1.4.0 DT_0.34.0        readr_2.1.6     
## [5] ggplot2_4.0.0    dplyr_1.1.4     
## 
## loaded via a namespace (and not attached):
##  [1] sass_0.4.10        generics_0.1.3     xml2_1.5.1         stringi_1.8.7     
##  [5] hms_1.1.3          digest_0.6.37      magrittr_2.0.3     evaluate_1.0.5    
##  [9] grid_4.4.3         RColorBrewer_1.1-3 fastmap_1.2.0      jsonlite_2.0.0    
## [13] crosstalk_1.2.2    viridisLite_0.4.2  scales_1.4.0       textshaping_1.0.4 
## [17] jquerylib_0.1.4    cli_3.6.5          rlang_1.1.6        crayon_1.5.3      
## [21] bit64_4.6.0-1      withr_3.0.2        cachem_1.1.0       yaml_2.3.10       
## [25] tools_4.4.3        parallel_4.4.3     tzdb_0.5.0         vctrs_0.6.5       
## [29] R6_2.6.1           lifecycle_1.0.4    stringr_1.6.0      htmlwidgets_1.6.4 
## [33] bit_4.6.0          vroom_1.6.6        pkgconfig_2.0.3    pillar_1.10.2     
## [37] bslib_0.9.0        gtable_0.3.6       glue_1.8.0         systemfonts_1.3.1 
## [41] xfun_0.54          tibble_3.3.0       tidyselect_1.2.1   rstudioapi_0.17.1 
## [45] knitr_1.50         farver_2.1.2       htmltools_0.5.8.1  labeling_0.4.3    
## [49] rmarkdown_2.30     svglite_2.2.2      compiler_4.4.3     S7_0.2.0

R Core Team. 2024. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.

Torchiano, Marco. 2020. Effsize: Efficient Effect Size Computation. https://doi.org/10.5281/zenodo.1480624.

Wickham, Hadley, Winston Chang, Lionel Henry, Thomas Lin Pedersen, Kohske Takahashi, Claus Wilke, Kara Woo, Hiroaki Yutani, Dewey Dunnington, and Teun van den Brand. 2024. Ggplot2: Create Elegant Data Visualisations Using the Grammar of Graphics. https://ggplot2.tidyverse.org.

Wickham, Hadley, Romain François, Lionel Henry, Kirill Müller, and Davis Vaughan. 2023. Dplyr: A Grammar of Data Manipulation. https://dplyr.tidyverse.org.

Wickham, Hadley, Jim Hester, and Jennifer Bryan. 2025. Readr: Read Rectangular Text Data. https://doi.org/10.32614/CRAN.package.readr.

Xie, Yihui, Joe Cheng, Xianying Tan, and Garrick Aden-Buie. 2025. DT: A Wrapper of the JavaScript Library ’DataTables’. https://doi.org/10.32614/CRAN.package.DT.

Zhu, Hao. 2024. kableExtra: Construct Complex Table with ’Kable’ and Pipe Syntax. https://doi.org/10.32614/CRAN.package.kableExtra.

Naranjo, L., Perez, C. J., Campos-Roca, Y., & Martin, J. (2016). Addressing voice recording replications for Parkinson’s disease detection. Expert Systems with Applications, 46, 286-292.↩︎
Naranjo, L., Perez, C. J., Martin, J., & Campos-Roca, Y. (2017). A two-stage variable selection and classification approach for Parkinson’s disease detection by using voice recording replications. Computer methods and programs in biomedicine, 142, 147-156.↩︎

Análisis del Dataset Parkinson Replicated Acoustic Features

Elena Barro León, Raúl Bonillo Pulido y Paula Merino Purificacion

2026-01-21

Introducción

1.1 El Parkinson

1.2 Los datos

1.3 Hipótesis

Materiales

Métodos

3.1 Procesamiento de los datos

3.2 Análisis Jitter_rel

3.3 Análisis Jitter_abs

3.4 Análisis jitter_RAP

3.5 Análisis jitter_PPQ

3.6 Análisis de la variable Shimmer

Correlación de las variables de Shimmer

Preparación del dataset para las variables Shim dB y APQ5

3.6.1 Estudio de la variable Shimmer dB

Prueba de normalidad (Shapiro-Wilk)

Comparación entre grupos (Mann-Whitney/Wilcoxon)

3.6.2 Estudio de la variable APQ5

Prueba de normalidad (Shapiro-Wilk)

Comparación entre grupos (Mann-Whitney/Wilcoxon)

3.7 Análisis Univariante de las variables no lineales

3.7.1 Estudio RPDE

3.7.2 Estudio PPE

3.7.3 Estudio DFA

3.8 Análisis de la variabilidad intra-sujeto

3.8.1 Estudio RPDE

3.8.2 Estudio PPE

3.8.3 Estudio DFA

Resultados

4.1 Resultados jitter

4.1.1 Resultados Jitter_rel

4.1.2 Resultados Jitter_abs

4.1.3 Resultados Jitter_RAP

4.1.4 Resultados Jitter_PPQ

4.5 Resultados Shimmer dB

4.6 Resultados de APQ5

4.7 Resultados análisis univariante

4.8 Resultados análisis variabilidad intra-sujeto

Conclusiones

Información de la sesión y referencias