1. Introducción: la naturaleza de los datos en la investigación Naturopática
En los artículos anteriores hemos explorado el análisis predictivo y las técnicas de explicabilidad. Pero antes de predecir, antes de modelar, hay un paso fundamental: comprender la naturaleza de los datos que tenemos entre manos. No todos los datos son iguales, y tratar una variable como si fuera de un tipo cuando en realidad es de otro es uno de los errores más frecuentes —y más graves— en la investigación.
En la práctica Naturopática, nos encontramos constantemente
con preguntas que requieren el análisis de datos categóricos:
- ¿Existe
relación entre el perfil de terreno de un Salutante y
su adherencia a un Programa Personal de Salud (PPS)?
- ¿La
mejora en la calidad del sueño (sí/no) se asocia con la reducción del
estrés percibido?
- ¿Qué
factores (categóricos) predicen la respuesta favorable a una intervención
con apitoxina?
Responder a estas preguntas requiere un dominio
específico del análisis de datos categóricos y variables discretas. La
razón final por la cual realizamos análisis de datos en la investigación
científica es porque necesitamos tomar decisiones en función de la
probabilidad, y esas decisiones —«afirmar o negar», «dar o no dar
tratamiento»— son esencialmente decisiones sobre variables categóricas.
Este artículo ofrece una guía didáctica y práctica para
que los investigadores Naturópatas comprendan qué son los datos categóricos y
las variables discretas, cómo analizarlos, qué pruebas estadísticas aplicar y
cómo interpretar los resultados en el marco de la Naturopatía Basada en
la Evidencia (NBE) , la Metodología de la Intervención
Naturopática (MIN) y la Coordinación Praxiológica Naturopática
(COPRANA).
2. ¿Qué son los datos categóricos y las variables
discretas?
2.1. Definición y clasificación básica
Las variables categóricas —también
conocidas como variables cualitativas o discretas—
son aquellas que expresan una cualidad o atributo y cuyos valores se agrupan
en categorías o grupos distintos. El valor de una variable
categórica se expresa como un conteo de categorías (frecuencia)
para la muestra, o como un conteo de celdas cuando los datos
se presentan en tablas.
Las variables categóricas se clasifican en dos grandes
tipos:
|
Tipo |
Descripción |
Ejemplo en Naturopatía |
|
Nominales |
Categorías sin un orden o jerarquía inherente |
Sexo (masculino/femenino), tipo de terreno (húmedo/seco/equilibrado),
profesión |
|
Ordinales |
Categorías con un orden o jerarquía |
Nivel de adherencia (bajo/medio/alto), gravedad de
síntomas (leve/moderado/grave), estadio de un proceso crónico |
Las variables dicotómicas o binarias son
un caso especial de variables nominales que tienen solo dos categorías,
como «mejora» (sí/no), «adherencia» (alta/baja) o «respuesta al tratamiento»
(favorable/no favorable).
2.2. Variables discretas vs. continuas
Es importante distinguir entre variables discretas y continuas:
- Variables
discretas: Toman un número finito o contable de valores. Pueden ser
categóricas (sexo, grupo sanguíneo) o numéricas, pero con valores enteros
(número de consultas, número de síntomas).
- Variables
continuas: Pueden tomar cualquier valor dentro de un intervalo (edad,
peso, presión arterial).
Las variables categóricas son siempre discretas, pero
no todas las variables discretas son categóricas (el número de hijos es
discreto pero numérico).
2.3. La importancia de la clasificación correcta
Elegir un diseño estadístico inapropiado puede llevar
a pruebas erróneas y conclusiones incorrectas. Esto puede resultar
en trabajos rechazados para publicación o, peor aún, en decisiones
clínicas erróneas que comprometan la seguridad del Salutante.
Comprender los tipos de variables y seleccionar las pruebas
apropiadas para los datos permite extraer conclusiones sólidas y
respaldar el trabajo de investigación.
3. Análisis descriptivo de datos categóricos
3.1. Frecuencias absolutas y relativas
El primer paso en el análisis de datos categóricos es describir
la distribución de las categorías mediante:
- Frecuencia
absoluta: El número de casos en cada categoría.
- Frecuencia
relativa: El porcentaje o proporción de casos en cada categoría.
Ejemplo en Naturopatía:
|
Tipo de terreno |
Frecuencia absoluta |
Frecuencia relativa (%) |
|
Húmedo |
45 |
37.5% |
|
Seco |
38 |
31.7% |
|
Equilibrado |
37 |
30.8% |
|
Total |
120 |
100% |
Esta tabla nos dice que, en nuestra muestra de 120 Salutantes,
el 37.5% presenta un terreno húmedo, el 31.7% seco y el 30.8%
equilibrado.
3.2. Tablas de contingencia
Cuando queremos analizar la relación entre dos
variables categóricas, utilizamos una tabla de contingencia (o
tabla de doble entrada). Esta tabla muestra la distribución conjunta de las
frecuencias.
Ejemplo en Naturopatía:
|
Tipo de terreno |
Adherencia alta |
Adherencia baja |
Total |
|
Terreno húmedo |
30 |
15 |
45 |
|
Terreno seco |
20 |
18 |
38 |
|
Terreno equilibrado |
28 |
9 |
37 |
|
Total |
78 |
42 |
120 |
Esta tabla sugiere que la adherencia podría variar según el
tipo de terreno. Pero para saber si esta diferencia es estadísticamente
significativa, necesitamos pasar al análisis inferencial.
4. Pruebas de hipótesis para datos categóricos
4.1. La prueba de Chi-cuadrado (χ²)
La prueba de Chi-cuadrado es la herramienta
fundamental para el análisis de datos categóricos. Se utiliza para
determinar si existe una relación entre dos variables categóricas.
¿Cómo funciona?
- Se
calculan las frecuencias esperadas bajo la hipótesis de
que no hay relación entre las variables.
- Se
comparan con las frecuencias observadas.
- El
estadístico χ² mide cuánto difieren los valores observados de los
esperados.
Tipos de pruebas Chi-cuadrado:
|
Prueba |
Cuando se utiliza |
|
Bondad de ajuste |
Comparar las frecuencias observadas con las esperadas en
una variable |
|
Independencia |
Determinar si dos variables categóricas están asociadas |
|
Homogeneidad |
Comparar la distribución de una variable entre dos o más
grupos |
|
McNemar |
Datos pareados (antes/después) |
4.2. La prueba exacta de Fisher
Cuando el tamaño de la muestra es pequeño o
las frecuencias esperadas son bajas (menos de 5 en alguna
celda), la prueba de Chi-cuadrado puede no ser fiable. En estos casos, se
utiliza la prueba exacta de Fisher.
Recomendación para investigadores Naturópatas: Utiliza
la prueba exacta de Fisher cuando tengas tablas 2x2 con muestras pequeñas o
frecuencias esperadas reducidas.
4.3. La prueba Q de Cochran
La prueba Q de Cochran se utiliza cuando
tenemos datos dicotómicos pareados (respuestas sí/no) en tres
o más condiciones.
Ejemplo en Naturopatía: Evaluar si la proporción
de Salutantes que reportan mejora del sueño varía antes,
durante y después de una intervención con técnicas de relajación.
5. Medidas de asociación y tamaño del efecto
Una vez que sabemos que existe una asociación (la prueba de
Chi-cuadrado es significativa), el siguiente paso es cuantificar la
fuerza de esa asociación.
5.1. Medidas para tablas 2x2
|
Medida |
Qué mide |
Interpretación |
|
Riesgo Relativo (RR) |
Razón entre las probabilidades de un evento en dos grupos |
RR > 1: factor de riesgo; RR < 1: factor protector |
|
Odds Ratio (OR) |
Razón entre las odds de un evento en dos grupos |
OR > 1: asociación positiva; OR < 1: asociación
negativa |
Ejemplo en Naturopatía: Si el RR de mejora con
intervención Naturopática es 1.8, significa que los Salutantes que
reciben la intervención tienen un 80% más de probabilidad de mejorar que los
que no la reciben.
5.2. Medidas para tablas mayores
|
Medida |
Tipo de variables |
Rango |
|
V de Cramer |
Dos variables nominales |
0 (sin asociación) a 1 (asociación perfecta) |
|
Gamma |
Dos variables ordinales |
-1 (asociación negativa) a +1 (asociación positiva) |
|
Tau-b de Kendall |
Dos variables ordinales (con empates) |
-1 a +1 |
|
D de Somers |
Una variable ordinal y otra nominal |
-1 a +1 |
5.3. Sensibilidad, especificidad y valores predictivos
En el contexto de la investigación Naturopática, estas
medidas son especialmente útiles cuando evaluamos la capacidad de un
signo, síntoma o prueba para identificar una condición:
- Sensibilidad:
Probabilidad de que la prueba sea positiva en quienes tienen la condición.
- Especificidad:
Probabilidad de que la prueba sea negativa en quienes no tienen la
condición.
- Valor
Predictivo Positivo (VPP): Probabilidad de tener la condición si la
prueba es positiva.
- Valor
Predictivo Negativo (VPN): Probabilidad de no tener la condición si la
prueba es negativa.
6. Análisis multivariado con variables categóricas
6.1. Regresión logística binaria
La regresión logística binaria es la
técnica más utilizada cuando la variable dependiente es dicotómica (sí/no).
Permite:
- Explicar qué
factores influyen en la probabilidad de un evento.
- Predecir la
probabilidad de que ocurra un evento en función de un conjunto de
variables independientes.
Ejemplo en Naturopatía: Predecir la probabilidad
de adherencia a un PPS en función de variables como el tipo de terreno,
la edad, el nivel de estrés y el apoyo social.
6.2. Regresión logística multinomial
Cuando la variable dependiente tiene más de dos
categorías no ordenadas, se utiliza la regresión logística
multinomial.
Ejemplo en Naturopatía: Predecir el tipo de
respuesta a una intervención (mejora significativa/mejora leve/sin mejora).
6.3. Regresión logística ordinal
Cuando la variable dependiente tiene categorías
ordenadas, se utiliza la regresión logística ordinal.
Ejemplo en Naturopatía: Predecir el nivel de
mejora en la calidad de vida (bajo/medio/alto).
6.4. Análisis loglineal
El análisis loglineal es una técnica que
permite analizar tablas de contingencia multidimensionales, es
decir, relaciones entre tres o más variables categóricas simultáneamente.
7. Consideraciones prácticas para la investigación Naturopática
7.1. ¿Convertir variables continuas en categóricas?
Una pregunta frecuente en investigación es: ¿puedo
convertir una variable continua (como la edad) en categórica
(joven/adulto/mayor)?
La respuesta general es: no debe hacerse a menos que
sea estrictamente necesario. La conversión implica una pérdida de
precisión y de potencia estadística. Sin embargo, hay circunstancias en las
que puede estar justificada:
- Cuando
la variable no puede medirse con precisión.
- Por
necesidad administrativa o de salud pública.
- Cuando
los datos no siguen una distribución normal.
Recomendación para investigadores Naturópatas: Siempre
que sea posible, mantener las variables continuas como tales y utilizar
técnicas que las manejen adecuadamente (regresión lineal, correlación, etc.).
Solo categorizar cuando haya una razón clínica o metodológica sólida.
7.2. Variables ordinales: ¿categóricas o continuas?
Las variables ordinales (como escalas Likert) ocupan
un espacio intermedio. Una regla práctica para decidir si tratar
una variable ordinal como continua es: si tiene más de 10 opciones,
puede tratarse como continua.
Ejemplo: Una escala de 5 puntos (muy en
desacuerdo a muy de acuerdo) es claramente ordinal; una escala de 20 ítems que
suma de 20 a 100 puede tratarse como continua.
7.3. Variables Dummy
En muchos modelos estadísticos (como la regresión), las
variables categóricas deben convertirse en variables Dummy (0/1).
Esto implica crear una variable binaria para cada categoría, excepto una (que
actúa como categoría de referencia).
Ejemplo: Si tenemos tres tipos de terreno (húmedo,
seco, equilibrado), creamos dos variables Dummy:
- Dummy
1: Húmedo (1) vs. No húmedo (0)
- Dummy
2: Seco (1) vs. No seco (0)
- La
categoría de referencia sería «equilibrado».
8. Aplicación práctica: ejemplo paso a paso
Pregunta de investigación: ¿Existe asociación
entre el tipo de terreno del Salutante y la
respuesta a una intervención con apitoxina en pacientes oncológicos?
Diseño: Estudio observacional con 150 Salutantes.
Variables:
- Variable
independiente (categórica nominal): Tipo de terreno (húmedo,
seco, equilibrado)
- Variable
dependiente (categórica dicotómica): Respuesta a la intervención
(favorable/no favorable)
Paso 1: Tabla de contingencia
|
Tipo de terreno |
Respuesta favorable |
Respuesta no favorable |
Total |
|
Terreno húmedo |
35 |
15 |
50 |
|
Terreno seco |
25 |
25 |
50 |
|
Terreno equilibrado |
40 |
10 |
50 |
|
Total |
100 |
50 |
150 |
Paso 2: Prueba de Chi-cuadrado de independencia
- χ²
calculado = 10.5
- Grados
de libertad = (3-1) × (2-1) = 2
- p-valor
= 0.005
Interpretación: El p-valor (0.005) es menor que
0.05, por lo que rechazamos la hipótesis nula de independencia.
Existe una asociación estadísticamente significativa entre el
tipo de terreno y la respuesta a la intervención.
Paso 3: Medidas de asociación (V de Cramer)
- V
de Cramer = 0.265
Interpretación: La asociación es de magnitud
moderada.
Paso 4: Análisis por categorías (Odds Ratio)
|
Terreno |
OR (vs. equilibrado) |
IC 95% |
|
Húmedo |
0.58 |
(0.31 - 1.09) |
|
Seco |
0.25 |
(0.12 - 0.52) |
Interpretación: Los Salutantes con terreno seco
tienen significativamente menos probabilidad de respuesta
favorable en comparación con los de terreno equilibrado (OR =
0.25, IC 95%: 0.12-0.52).
Paso 5: Interpretación Naturopática
Estos hallazgos sugieren que el terreno seco
podría ser un factor predictivo de menor respuesta a la
apitoxina en este contexto. Esto tiene implicaciones para la MIN:
los Salutantes con terreno seco podrían
necesitar una preparación previa (hidratación, modulación
del terreno) antes de la intervención con apitoxina.
9. Herramientas para el análisis de datos categóricos
|
Herramienta |
Tipo |
Nivel de dificultad |
Características |
|
Excel |
Hoja de cálculo |
Bajo |
Pruebas Chi-cuadrado básicas, tablas dinámicas |
|
Jamovi |
Software estadístico |
Bajo |
Interfaz amigable, pruebas completas |
|
JASP |
Software estadístico |
Bajo |
Similar a Jamovi, gratuito |
|
R |
Lenguaje de programación |
Medio-Alto |
Máxima flexibilidad, paquetes específicos |
|
SPSS |
Software estadístico |
Medio |
Ampliamente utilizado en ciencias de la salud |
|
Stata |
Software estadístico |
Medio |
Potente para análisis de datos de salud |
10. Errores comunes y cómo evitarlos
|
Error |
Consecuencia |
Cómo evitarlo |
|
Tratar variables ordinales como nominales |
Pérdida de información sobre el orden |
Utilizar pruebas para datos ordinales (Gamma, Tau-b) |
|
Categorizar variables continuas innecesariamente |
Pérdida de potencia estadística |
Mantener variables continuas siempre que sea posible |
|
Ignorar las frecuencias esperadas en Chi-cuadrado |
Resultados no fiables |
Verificar que >80% de las celdas tengan frecuencias
esperadas >5 |
|
Confundir asociación con causalidad |
Conclusiones erróneas |
Recordar que la asociación no implica causalidad |
|
No reportar medidas de tamaño del efecto |
Resultados difíciles de interpretar clínicamente |
Siempre reportar V de Cramer, OR, RR u otras medidas |
11. Conclusión: el análisis categórico como puente hacia
la evidencia
El análisis de datos categóricos y variables discretas es
una herramienta fundamental en la investigación Naturopática.
Permite:
- Describir las
características de los Salutantes y sus respuestas.
- Explorar relaciones
entre variables cualitativas (tipo de terreno, adherencia,
respuesta).
- Cuantificar la
fuerza de esas asociaciones (OR, RR, V de Cramer).
- Predecir resultados
a partir de factores categóricos (regresión logística).
En el marco de la Naturopatía Basada en la Evidencia
(NBE), el dominio de estas técnicas es esencial para generar
conocimiento riguroso que pueda ser comunicado, validado y aplicado en
la práctica. En el marco de la Metodología de la Intervención
Naturopática (MIN), permite personalizar las
intervenciones en función de los perfiles identificados. Y en el marco de
la Coordinación Praxiológica Naturopática (COPRANA), proporciona la
base empírica para sincronizar, armonizar y secuenciar los
mediadores de coherencia.
Como investigadores Naturópatas, tenemos la responsabilidad
de conocer y aplicar correctamente estas técnicas. Solo así
podremos transformar la intuición clínica en evidencia sólida y
la experiencia en conocimiento transferible. Naturopatía, ahora
más que nunca.
Nota final. Este artículo ha sido redactado en el
marco de la línea de investigación en Metodología de la Investigación
de la Red de Investigación Naturopática (RINA) , en diálogo con las
contribuciones de Naturopatía Digital. Su objetivo es proporcionar
a los Profesionales Naturópatas una guía didáctica y rigurosa sobre el análisis
de datos categóricos y variables discretas, contribuyendo así a la calidad y
credibilidad de la investigación en el marco de la NBE (Naturopatía
Basada en la Evidencia), la MIN (Metodología de la
Intervención Naturopática) y la COPRANA (Coordinación
Praxiológica Naturopática).
Naturopatía, ahora más que nunca.
Referencias bibliográficas
- Supo,
J. Análisis de Datos Categóricos y Variables Discretas. [datoscategoricos.com]
- SINCIE. Análisis
de Datos Categóricos y Variables Discretas [Programa ADACA].
- StatPearls. Types
of Variables and Commonly Used Statistical Designs. NCBI Bookshelf.
- A
Student's Guide to the Classification and Operationalization of Variables
in the Conceptualization and Design of a Clinical Study: Part 2. PMC,
2021.
- Foxcroft,
D. Aprendiendo estadística con jamovi - 10 Análisis de datos
categóricos.
- Preisser,
J.S., et al. Categorical data analysis in public health. Annu
Rev Public Health, 1997.
- Prueba
de Chi-cuadrado. IBM.
No hay comentarios:
Publicar un comentario