Extraviado
Ubicaciones

Busque información sobre temas médicos, síntomas, fármacos, procedimientos, noticias y mucho más, escrita para el profesional de cuidado de la salud.

Estudios complementarios

Por Douglas L. McGee, DO, Director;Chief Academic Officer, Emergency Medicine Residency Program, Albert Einstein Medical Center;Albert Einsterin Healthcare Network

Información:
para pacientes

Los resultados de las prueba pueden ayudar a realizar un diagnóstico en pacientes sintomáticos (pruebas diagnósticas) o identificar una enfermedad oculta en los asintomáticos (cribado). Sin embargo, los resultados de las pruebas pueden interferir con las decisiones clínicas si la prueba tiene un mal poder de discriminación entre pacientes con enfermedad y sin ella, si el resultado es incompatible con el cuadro clínico o si el resultado de la prueba no se integra en el contexto clínico.

Las pruebas de laboratorio son imperfectas y pueden identificar erróneamente algunas personas sanas como si tuvieran la enfermedad (resultado falso positivo) o una persona enferma como si fuera sana (resultado falso negativo). La capacidad de la prueba para incluir o excluir la enfermedad correctamente depende de con cuánta probabilidad una persona tiene una enfermedad (probabilidad previa) y de las características de funcionamiento intrínseco de la prueba.

Aunque las pruebas diagnósticas suelen contribuir de modo fundamental en la toma de decisiones médicas, pueden tener consecuencias indeseadas o no planeadas. Las pruebas deberán ser hechas con deliberación y propósito y con la expectativa de que los resultados obtenidos reducirán la ambigüedad que rodea los problemas de los pacientes y contribuirán a su salud. Además del riesgo de proporcionar información incorrecta (y con ello, retrasar el inicio del tratamiento o inducir un tratamiento innecesario), las pruebas de laboratorio consumen recursos limitados y pueden tener por sí efectos adversos (p. ej., neumotórax causado al realizar la biopsia pulmonar) o pueden solicitarse pruebas adicionales innecesarias.

Definición de un resultado positivo de la prueba

Entre las pruebas más comunes están las que ofrecen resultados a lo largo de una escala continua, cuantitativa (p. ej., glucosa, recuento de leucocitos). Estas pruebas pueden proporcionar información clínica útil a lo largo de sus límites, pero los médicos a menudo las utilizan para diagnosticar una enfermedad al exigir que el resultado se clasifique como positivo o negativo (es decir, enfermedades presentes o ausentes) sobre la base de la comparación con algún criterio establecido o valor de corte. En general, estos valores de corte se seleccionan por análisis estadístico y conceptual que intenta equilibrar la tasa de resultados falsos positivos (que determinan tratamientos o exámenes innecesarios, costosos y tal vez peligrosos) y de resultados falsos negativos (no diagnostican una enfermedad tratable). La identificación del valor de corte también depende de disponer de un método de referencia para identificar la enfermedad en cuestión.

Estos resultados de las pruebas cuantitativas (p. ej., el recuento de leucocitos en casos de sospecha de apendicitis) suelen seguir algún tipo de curva de distribución (no necesariamente una curva normal, aunque en general se representa como tal). La distribución de los resultados de la prueba para los pacientes con enfermedad se centra en un punto diferente que para aquellos sin enfermedad. Algunos pacientes con enfermedad tendrán un resultado muy alto o muy bajo, pero la mayoría tiene un resultado centrado en una media. Por el contrario, algunos pacientes sin enfermedad tienen un resultado muy alto o muy bajo, pero la mayoría tiene un resultado centrado en una media diferente de la de los pacientes con enfermedad. Para la mayoría de las pruebas, las distribuciones se superponen de modo tal que muchos de los posibles resultados ocurren en pacientes con enfermedad y sin ella; estos resultados se ilustran con mayor claridad cuando las curvas se representan en el mismo gráfico (véase ver figura Distribuciones de los resultados de la prueba.). Algunos pacientes ubicados por encima y por debajo del valor de corte seleccionado se caracterizarán en forma incorrecta. Si se ajusta un valor de corte para identificar a más pacientes con enfermedad (aumento de la sensibilidad de la prueba), también aumenta el número de falsos positivos (mala especificidad) y si se desplaza el valor de corte, la otra forma de evitar que los pacientes reciban diagnósticos falsos como que tienen la enfermedad, aumenta el número de falsos negativos. Cada valor de corte se asocia con una probabilidad específica de resultados verdaderos positivos y falsos positivos.

Distribuciones de los resultados de la prueba.

Los pacientes con enfermedad aparecen en la distribución superior; los pacientes sin enfermedad aparecen en la distribución inferior. Para los pacientes con la enfermedad, la región debajo de la distribución de los resultados que se encuentra a la derecha (arriba) del criterio del valor de corte corresponde a la tasa de verdaderos positivos de la prueba (es decir, su sensibilidad); la región que se encuentra a la izquierda (abajo) del criterio corresponde a la tasa de falsos negativos. Para los pacientes sin enfermedad, la región a la derecha del criterio de valor de corte corresponde a la tasa de falsos positivos, y la región a la izquierda corresponde a la tasa de verdaderos negativos (es decir, su especificidad). En las dos distribuciones que se superponen (p. ej., pacientes con enfermedad y sin ella), al desplazar el criterio del valor de corte se afecta la sensibilidad y la especificidad, pero en direcciones opuestas; si se cambia el criterio del valor de corte de 1 a 2, disminuye el número de falsos negativos (aumenta sensibilidad), pero también aumenta el número de falsos positivos (disminuye la especificidad).

Curvas de las características operativas del receptor (ROC; receiver operating characteristic)

La representación gráfica de la fracción de resultados verdaderos positivos (número de verdaderos positivos/número con enfermedad) contra la fracción de resultados falsos positivos (número de falsos positivos/número sin enfermedad) para una serie de valores de corte genera lo que se conoce como curva ROC. Esta curva representa gráficamente el equilibrio entre la sensibilidad y la especificidad cuando se ajusta el valor de corte (véase ver figura Curva ROC (receiver operating characteristic) típica.). Por convención, la fracción de verdaderos positivos se coloca en el eje y, y la fracción de falsos positivos en el eje x. Cuanto mayor sea el área bajo la curva ROC, mejor será la prueba para discriminar entre pacientes con enfermedad o sin ella.

Las curvas ROC permiten comparar las pruebas en una variedad de valores de corte. En el ejemplo, el desempeño de la prueba A es mejor que el de la prueba B en todos los rangos. Las curvas ROC también ayudan en la selección del valor de corte diseñado para maximizar la utilidad de la prueba. Si una prueba está diseñada para confirmar una enfermedad, se selecciona un valor de corte con mayor especificidad y menor sensibilidad. Si una prueba está diseñada para detectar enfermedad oculta, se selecciona un valor de corte con una mayor sensibilidad y especificidad inferior.

Curva ROC (receiver operating characteristic) típica.

Características de la prueba

Algunas variables clínicas tienen sólo 2 resultados posibles (p. ej., vivo/muerto, embarazada/no embarazada); estas variables se denominan categóricas y dicotómicas. Otros resultados categóricos pueden tener muchos valores diferenciados (p. ej., grupo sanguíneo, Escala de Coma de Glasgow) y se denominan nominales u ordinales. Las variables nominales, como el grupo sanguíneo, no tienen ningún orden particular. Las variables ordinales, como la Escala de Coma de Glasgow, tienen valores separados que se organizan en un orden determinado. Otras variables clínicas, como sucede en muchas pruebas diagnósticas típicas, son continuas y tienen un número infinito de resultados posibles (p. ej., recuento de leucocitos, concentración de glucosa en sangre). Muchos médicos seleccionan un valor de corte que puede causar una variable continua a ser tratada como una variable dicotómica (p. ej., se considera que los pacientes con un valor de la glucemia en ayuno > 126 mg/dL tienen diabetes). Otras pruebas diagnósticas continuas brindan utilidad diagnóstica cuando tienen múltiples valores de corte o cuando los rangos de los resultados tienen valor diagnóstico diferente.

Cuando los resultados de la prueba pueden definirse como positivos o negativos, todos los resultados posibles pueden grabarse en un simple tabla de 2 × 2 (véase Distribución de resultados hipotéticos de la prueba) a partir de la cual es posible calcular características discriminatorias importantes de la prueba, como sensibilidad, especificidad, valor predictivo positivo y negativo y razón de verosimilitud (RV) (véase Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%).

Distribución de resultados hipotéticos de la prueba

Resultados

Enfermedad presente

Enfermedad ausente

Prueba positiva

Verdadera positiva

Falsa positiva

Prueba negativa

Falsa negativa

Verdadera negativa

Total de pacientes

Todos los pacientes con enfermedad

Todos los pacientes sin enfermedad

Sensibilidad, especificidad y valores predictivos

La sensibilidad, la especificidad y los valores predictivos normalmente se consideran características de la prueba en sí misma, independientes de la población de pacientes.

La sensibilidad es la probabilidad de obtener un resultado positivo en pacientes con enfermedad (tasa de verdaderos positivos); una prueba que es positiva en 8 de 10 pacientes con una enfermedad tiene una sensibilidad de 0,8 (también expresada como 80%). La sensibilidad representa cuán bien una prueba detecta la enfermedad; una prueba con baja sensibilidad no identifica a muchos pacientes con enfermedad y una prueba de alta sensibilidad es útil para descartar un diagnóstico cuando los resultados son negativos. La sensibilidad es el complemento de la tasa de falsos negativos (es decir, la tasa de falsos negativos más la sensibilidad = 100%).

La especificidad es la probabilidad de obtener un resultado negativo en pacientes sin enfermedad (tasa de verdaderos negativos); una prueba que es negativa en 9 de 10 pacientes sin enfermedad tiene una especificidad de 0,9 (o 90%). La especificidad representa cuán bien una prueba identifica correctamente a los pacientes con enfermedad porque las pruebas con alta especificidad tienen una baja tasa de falsos positivos. Una prueba con baja especificidad diagnostica a muchos pacientes sin enfermedad como que tienen la enfermedad. Es el complemento de la tasa de falsos positivos.

El valor predictivo positivo (VPP) es la proporción de pacientes con una prueba positiva que realmente tiene la enfermedad; si 9 de 10 resultados positivos son correctos (verdadero positivo), el VPP es del 90%. Dado que todos los resultados positivos tienen cierto número de verdaderos positivos y algunos falsos positivos, el VPP describe cuán probable es que un resultado positivo en una población determinada de pacientes represente un verdadero positivo.

El valor predictivo negativo (VPN) es la proporción de pacientes con un resultado negativo que realmente no tiene la enfermedad; si 8 de 10 resultados negativos son correctos (verdadero negativo), el VPN es del 80%. Dado que no todos los resultados negativos son verdaderos negativos, algunos pacientes con un resultado negativo tienen realmente la enfermedad. El VPN describe cuán probable es que un resultado negativo en una población determinada de pacientes represente un verdadero negativo.

Razones o relaciones de verosimilitud (RV, likelihood ratios)

A diferencia de la sensibilidad y la especificidad, que no se aplican a probabilidades de pacientes determinados, la RV permite que los médicos interpreten los resultados de las pruebas en un paciente específico siempre que exista una probabilidad preprueba de enfermedad conocida (aunque a menudo es estimada).

La RV describe el cambio en la probabilidad preprueba de enfermedad cuando se conoce el resultado de la prueba y las respuestas a la pregunta: ¿cuánto ha cambiado la probabilidad posprueba ahora que se conoce el resultado de la prueba? Muchos ensayos clínicos son dicotómicos; están por encima del valor de corte (positivos) o por debajo del valor de corte (negativos) y sólo hay 2 resultados posibles. Otras pruebas brindan resultados que son continuos o aparecen en un rango donde se seleccionan varios valores de corte. La probabilidad posprueba real depende de la magnitud de la RV (que depende de las características operativas de la prueba) y la estimación de la probabilidad preprueba de enfermedad. Cuando la prueba es dicotómica y el resultado es positivo o negativo, la sensibilidad y la especificidad pueden utilizarse para calcular la RV positiva (RV+) o RV negativa (RV-).

  • RV+: la razón de la probabilidad entre un resultado positivo que se produce en pacientes con la enfermedad (verdadero positivo) y la probabilidad de un resultado positivo en pacientes sin la enfermedad (falso positivo)

  • RV-: la razón de la probabilidad entre un resultado negativo en pacientes con la enfermedad (falso negativo) y la probabilidad de un resultado negativo en pacientes sin la enfermedad (verdadero negativo)

Cuando el resultado es continuo o tiene varios valores de corte, se utiliza la curva ROC, no la sensibilidad y la especificidad, para calcular una RV que ya no se describe como RV+ o RV-.

Dado que la RV es una relación de acontecimientos mutuamente excluyentes, en lugar de una proporción de un total, representa las posibilidades (ver Probabilidad y posibilidades) en lugar de la probabilidad. Para una prueba determinada, la RV es diferente para los resultados positivos y negativos.

Por ejemplo, dado un resultado positivo, una RV de 2,0 indica que las posibilidades son 2:1 (verdaderos positivos:falsos positivos) de que un resultado positivo de la prueba represente a un paciente con enfermedad. De 3 pruebas positivas, 2 se producirían en pacientes con enfermedad (verdadero positivo) y 1 en un paciente sin enfermedad (falso positivo). Como los verdaderos positivos y los falsos positivos son componentes de los cálculos de la especificidad y la sensibilidad, la RV+ puede también calcularse como sensibilidad/(1 especificidad). Cuanto mayor sea la RV+, más información proporciona un resultado positivo; un resultado positivo en una prueba con una RV+> 10 se considera evidencia fuerte a favor de un diagnóstico. En otras palabras, la estimación de la probabilidad preprueba se desplaza fuertemente hacia el 100% cuando una prueba positiva tiene una RV+ alta.

En el caso de un resultado negativo, una RV- de 0,25 indica que las probabilidades son de 1:4 (falsos negativos:verdaderos negativos) de que el resultado negativo de la prueba represente a un paciente con enfermedad. De 5 resultados negativos, 1 se produciría en un paciente con enfermedad (falso negativo) y 4 en pacientes sin enfermedad (verdadero negativo). La RV- puede también calcularse como (1 sensibilidad)/especificidad. Cuanto menor sea la RV-, más información proporciona un resultado negativo; un resultado negativo en una prueba con una RV < 0,1 se considera evidencia fuerte contra un diagnóstico. En otras palabras, la estimación de la probabilidad preprueba se desplaza fuertemente hacia la probabilidad de 0% cuando una prueba negativa tiene una RV- baja .

Los resultados de la prueba con RV de 1,0 no proporcionan ninguna información y no afectan la probabilidad posprueba de la enfermedad.

Las RV son convenientes para comparar las pruebas y también se utilizan en análisis de Bayes (ver Estudios complementarios : Teorema de Bayes) para interpretar los resultados de la prueba. Así como la sensibilidad y la especificidad cambian cuando se modifican los valores de corte, también lo hacen las RV. Como ejemplo hipotético, un límite superior para el recuento de leucocitos (p. ej., 20.000/μL) en un posible caso de apendicitis aguda es más específico y tendría no sólo una RV + alta sino también una RV- alta (y, por lo tanto, no es muy informativo); elegir un valor de corte mucho menor y muy sensible (p. ej., 10.000/μL) tendría no sólo una RV - baja, sino también una RV+ baja.

Pruebas dicotómicas

Una prueba dicotómica ideal no debería tener falsos positivos ni falsos negativos; todos los pacientes con un resultado positivo tendrían la enfermedad (VPP del 100%) y todos aquellos con un resultado negativo no la tendrían (VRN del 100%).

En realidad, todas las pruebas tienen falsos positivos y falsos negativos, algunas pruebas más que otras. Para ilustrar las consecuencias de la sensibilidad y la especificidad imperfectas en los resultados de las pruebas, considérense los resultados hipotéticos ( Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%) de la esterasa de leucocitos en las pruebas de tiras reactivas de orina en un grupo de 1.000 mujeres, 300 de las cuales (30%) tienen una infección urinaria (según lo determinado por una prueba de referencia como el urocultivo). Este escenario asume para fines ilustrativos que la prueba con tira reactiva tiene una sensibilidad del 71% y una especificidad del 85%.

La sensibilidad del 71% significa que sólo 213 mujeres (71% de 300) con infección urinaria tendrían un resultado positivo. Las 87 restantes tendrían un resultado negativo. La especificidad del 85% significa que 595 mujeres (85% de 700) sin infección urinaria tendrían un resultado negativo. Los restantes 105 tendría un resultado positivo. Por lo tanto, de los 318 resultados positivos de la prueba, sólo 213 serían correctos (213/318 = 67% de VPP); un resultado positivo indica que el diagnóstico de infección urinaria es más probable a que no lo sea, pero no lo confirma. También habría 682 pruebas negativas, de las cuales 595 serían correctas (595/682 = 87% de VPN), lo que hace que el diagnóstico de infección urinaria sea mucho menos probable, pero posible todavía; el 13% de las pacientes con un resultado negativo en realidad tendría una infección urinaria.

Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%

Resultados

Enfermedad presente

Enfermedad ausente

Total de pacientes

Prueba positiva

Verdadera positiva (VP)

213 pacientes (71% de 300)

Falsa positiva (FP)

105 pacientes (700 595)

318 pacientes con una prueba positiva

Prueba negativa

Falsa negativa (FN)

87 pacientes (300 213)

Verdadera negativa (VN)

595 pacientes (85% de 700)

682 pacientes con una prueba negativa

Total de pacientes

300 pacientes con infección urinaria (supuesta)

700 pacientes sin infección urinaria (supuesta)

1000 pacientes

Valor predictivo positivo (VPP) = VP/(todas las pacientes con una prueba positiva) = VP/(VP + FP) = 213/(213 + 105) = 67%.

Valor predictivo negativo (VPN) = VN/(todas las pacientes con una prueba negativa) = VN/(VN + FN) = 595/(595 + 87) = 87%.

Razón de verosimilitud positiva (RV+) = sensibilidad/(1 especificidad) = 0,71/(1 0,85) = 4,73.

Razón de verosimilitud negativa (RV-) = (1 sensibilidad)/especificidad = (1 0,71)/0,85 = 0,34.

Sin embargo, los VPP y los VPN derivadas en esta cohorte de pacientes no pueden utilizarse para interpretar los resultados de la misma prueba cuando la incidencia subyacente de la enfermedad (probabilidad preprueba o previa) es diferente. Obsérvense los efectos del cambio de incidencia de la enfermedad al 5% (véase Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 5%). Ahora, la mayoría de los resultados de la prueba son falsos positivos y el VPP es sólo del 20%; lo más probable es que una paciente con un resultado positivo realmente no tenga infección urinaria. Sin embargo, el VPN ahora es muy alto (98%); en esencia, un resultado negativo descarta la infección urinaria.

Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 5%

Resultados

Enfermedad presente

Enfermedad ausente

Total de pacientes

Prueba positiva

Verdadera positiva (VP)

36 pacientes (71% de 50)

Falsa positiva (FP)

144 pacientes (950 806)

180 pacientes con una prueba positiva

Prueba negativa

Falsa negativa (FN)

14 pacientes (50 36)

Verdadera negativa (VN)

806 pacientes (85% de 950)

820 pacientes con una prueba negativa

Total de pacientes

50 pacientes con infección urinaria (supuesta)

950 pacientes sin infección urinaria (supuesta)

1000 pacientes

Valor predictivo positivo (VPP) = VP/(todas las pacientes con una prueba positiva) = VP/(VP + FP) = 36/(36 + 144) = 20%.

Valor predictivo negativo (VPN) = VN/(todas las pacientes con una prueba negativa) = VN/(VN + FN) = 806/(806 + 14) = 98%.

Razón de verosimilitud positiva (RV+) = sensibilidad/(1 especificidad) = 0,71/(1 0,85) = 4,73.

Razón de verosimilitud negativa (RV-) = (1 sensibilidad)/especificidad = (1 0,71)/0,85 = 0,34.

Obsérvese que en ambos grupos de pacientes, a pesar de que el VPP y el VPN son muy diferentes, las RV no cambian porque estas últimas están determinadas únicamente por la sensibilidad y la especificidad de la prueba.

Es claro que el resultado de una prueba no proporciona un diagnóstico definitivo, sino sólo estimaciones de la probabilidad de que una enfermedad esté presente o ausente, y esta probabilidad posprueba (probabilidad de que la enfermedad brinde un resultado específico) varía enormemente en función de la probabilidad preprueba de la enfermedad así como de la sensibilidad y la especificidad de la prueba (y, por lo tanto, su RV).

La probabilidad preprueba no es una medición precisa; se basa en el criterio clínico de cómo los signos y síntomas sugieren fuertemente que la enfermedad esté presente, qué factores en los antecedentes del paciente apoyan el diagnóstico y cuán frecuente es la enfermedad en una población representativa. Muchos sistemas de puntuación clínica están diseñados para estimar la probabilidad preprueba; el agregado de puntos para distintas características clínicas facilita el cálculo de una puntuación. Por ejemplo, hay criterios para predecir la probabilidad preprueba de la embolia pulmonar (ver Embolia pulmonar (EP) : Probabilidad clínica). Cuanto mayores son las puntuaciones calculadas, mayores son las probabilidades estimadas.

Pruebas continuas

Muchos resultados de pruebas son continuos y pueden proporcionar información clínica útil sobre una amplia gama de resultados. A menudo, los médicos seleccionan un determinado valor de corte para maximizar la utilidad de la prueba. Por ejemplo, un recuento de leucocitos > 15.000 puede caracterizarse como positivo; valores < 15.000, como negativos. Cuando una prueba brinda resultados continuos pero se selecciona un determinado valor de corte, la prueba funciona como unadicotómica. También pueden seleccionarse varios valores de corte. La sensibilidad, la especificidad, el VPP, el VPN, la RV+ y la RV- pueden calcularse para uno o varios valores de corte. En Efecto de cambiar el valor de corte del recuento de leucocitos en pacientes en los que se sospecha apendicitis se ilustra el efecto de cambiar el valor de corte del recuento de leucocitos en pacientes en los que se sospecha apendicitis.

Efecto de cambiar el valor de corte del recuento de leucocitos en pacientes en los que se sospecha apendicitis

Valor de corte del recuento de leucocitos*

Sensibilidad

Especificidad

RV+

RV-

> 10.500

84%

53,13%

1,79

0,3

> 11.500

78%

62,5%

2,13

0,32

> 12.850

68%

75%

2,72

0,43

> 13.400

61,33%

78,12%

2,86

0,45

> 14.300

56,67%

81,25%

3,2

0,49

*Se seleccionan varios valores de corte para una variable continua como el recuento de leucocitos; los resultados por encima del valor de corte se consideran positivos y aquellos por debajo del valor de corte, como negativos.

RV = razón de verosimilitud.

Adaptado de Keskek M, Tez M, Yoldas O, et al: Receiver operating characteristic analysis of leukocyte counts in operations for suspected appendicitis. American Journal of Emergency Medicine 26:769–772, 2008.

De modo alternativo, puede ser útil agrupar los resultados continuos en niveles. En este caso, los resultados no se caracterizan como positivos o negativos porque hay varios resultados posibles, por lo que aunque un RV puede determinarse para cada nivel de resultados, ya no hay una RV+ o una RV- separada. Por ejemplo, en Utilización de grupos de recuentos de leucocitos para determinar la razón de verosimilitud de bacteriemia en niños febriles* se ilustra la relación entre el recuento de leucocitos y la bacteriemia en niños febriles. Dado que la RV es la probabilidad de un resultado determinado en pacientes con enfermedad dividida por la probabilidad de ese resultado en pacientes sin la enfermedad, la RV para cada agrupación de recuento de leucocitos es la probabilidad de bacteriemia en ese grupo dividido por la probabilidad de ausencia de bacteriemia.

Utilización de grupos de recuentos de leucocitos para determinar la razón de verosimilitud de bacteriemia en niños febriles*

Recuento de leucocitos

Números de niños con bacteriemia, n = 127 (%)

Números de niños sin bacteriemia, N = 8.629 (%)

RV (% con bacteriemia/% sin bacteriemia)

0–5.000

0 (0,0%)

543 (6,3%)

0,00

5.001–10.000

3 (2,4%)

3.291 (38,1%)

0,06

10.001–15.000

15 (11,8%)

2.767 (32,1%)

0,37

15.001–20.000

48 (37,8%)

1.337 (15,5%)

2,4

20.001–25.000

34 (26,8%)

469 (5,4%)

4,9

25.001–30.000

12 (9,4%)

155 (1,8%)

5,3

> 30.001

15 (11,8%)

67 (0,8%)

15,2

*Incidencia de bacteriemia en 8756 niños febriles agrupados posrecuento de leucocitos. La RV para cada grupo se calcula al dividir la probabilidad de bacteriemia por la probabilidad de ausencia de bacteriemia.

RV = razón de verosimilitud.

Adaptado de Lee GM, Harper MB: Risk of bacteremia for febrile young children in the post-Haemophilus influenzae type b era. Archives of Pediatric and Adolescent Medicine 152:624–628, 1998.

La agrupación de variables continuas permite un uso mucho mayor del resultado de la prueba que cuando se establece un único valor de corte. Mediante el análisis de Bayes, las RV que se muestran en Utilización de grupos de recuentos de leucocitos para determinar la razón de verosimilitud de bacteriemia en niños febriles* pueden utilizarse para calcular la probabilidad posprueba.

En el caso de los resultados continuos, si se conoce la curva ROC no deben realizarse los cálculos como se muestran en Utilización de grupos de recuentos de leucocitos para determinar la razón de verosimilitud de bacteriemia en niños febriles*; las RV pueden encontrarse en varios puntos en el rango de resultados que utilizan la pendiente de la curva ROC en el punto deseado.

Teorema de Bayes

El proceso de usar la probabilidad preprueba de la enfermedad y las características de la prueba para calcular la probabilidad posprueba se denomina teorema de Bayes o revisión bayesiana. Para el uso clínico habitual, la metodología bayesiana adopta varias formas:

  • Formulación posibilidad-probabilidad (cálculo o nomograma)

  • Enfoque tabular

Cálculos posibilidades-probabilidad

Si la probabilidad preprueba de la enfermedad se expresa como sus posibilidades (odds) y porque la RV de la prueba representa las posibilidades, el producto de los 2 representa las posibilidades posprueba de la enfermedad (análogo a multiplicar las 2 probabilidades para calcular la probabilidad de ocurrencia simultánea de 2 acontecimientos):

Posibilidades preprueba × RV = posibilidades posprueba

Dado que los médicos suelen pensar en términos de probabilidades más que de posibilidades, la probabilidad puede convertirse en posibilidades (y viceversa) con estas fórmulas:

Posibilidades = probabilidad/1 probabilidad

Probabilidad = posibilidades/posibilidades + 1

Considérese el ejemplo de la infección urinaria que figura en Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%, en el que la probabilidad preprueba de infección urinaria es de 0,3 y la prueba que se utiliza tiene una RV+ de 4,73 y una RV- de 0,34. Una probabilidad preprueba de 0,3 corresponde a las posibilidades de 0,3 /(1 0,3) = 0,43. Por lo tanto, las posibilidades posprueba de que una infección urinaria esté presente en un paciente con un resultado positivo es igual al producto de las posibilidades preprueba y la RV+; 4,73 × 0,43 = 2,03, que representa una probabilidad posprueba de 2,03/(1 + 2,03) = 0,67. Por lo tanto, los cálculos bayesianos muestran que un resultado positivo de la prueba aumenta la probabilidad preprueba del 30 al 67%, el mismo resultado obtenido en el cálculo de VPP de Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%.

Un cálculo similar se realiza para un resultado negativo; las posibilidades posprueba = 0,34 × 0,43 = 0,15, correspondiente a una probabilidad de 0,15/(1 + 0,15) = 0,13. Por lo tanto, un resultado negativo disminuye la probabilidad preprueba del 30 al 13%, otra vez el mismo resultado obtenido en el cálculo del VPN de Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%.

Se cuenta con muchos programas médicos de calculadora que se ejecutan en dispositivos portátiles para estimar la probabilidad posprueba a partir de la probabilidad preprueba y las RV.

Nomograma de posibilidades-probabilidad

La utilización de un nomograma es de particular conveniencia porque evita la necesidad de convertir entre posibilidades y probabilidades o de crear tablas de 2×2.

El nomograma de Fagan se muestra en la ver figura Nomograma de Fagan.. Para utilizar el nomograma, se dibuja una línea desde la probabilidad preprueba a través de la RV. La probabilidad posprueba es el punto en el que esta línea se cruza con la línea de probabilidad posprueba. Las líneas de la muestra en la figura se dibujan utilizando los datos de la prueba de la infección urinaria de Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%. La línea A representa un resultado positivo; se obtiene a partir de la probabilidad preprueba de 0,3 que pasa por la RV+ de 4,73 y da un valor posprueba ligeramente < 0,7, similar a la probabilidad calculada de 0,67. La línea B representa un resultado negativo; se obtiene a partir de la probabilidad preprueba de 0,3 que pasa por el valor de RV- de 0,34 y da un valor posprueba ligeramente > 0,1, similar a la probabilidad calculada del 13%.

Aunque el nomograma parece menos preciso que los cálculos, los valores típicos de probabilidad preprueba a menudo son estimaciones, por lo que la precisión aparente de los cálculos suele ser engañosa.

Nomograma de Fagan.

Se dibujan líneas ilustrativas usando los datos de la prueba de infección urinaria que figuran en Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%. La línea A representa un resultado positivo, obtenida a partir de la probabilidad preprueba de 0,3 que pasa por la RV+ de 4,73 y da un valor posprueba ligeramente < 0,7, similar a la probabilidad calculada de 0,67. La línea B representa un resultado negativo, obtenida a partir de la probabilidad preprueba de 0,3 que pasa por el valor de RV- de 0,34 y da un valor posprueba ligeramente > 0,1, similar a la probabilidad calculada del 13%.

RV+= razón de verosimilitud para un resultado positivo; RV-= RV para un resultado negativo.

Adaptado de Fagan TJ. Letter: Nomogram for Bayes theorem. New England Journal of Medicine 293:257, 1975.

Método tabular

A menudo, las RV de una prueba no se conocen, pero sí la sensibilidad y la especificidad, y puede estimarse la probabilidad preprueba. En este caso, es posible realizar la metodología bayesiana utilizando una tabla de 2×2 ilustrada en Interpretación del resultado de una prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres que asume una prevalencia del 30% de infección urinaria (probabilidad preprueba), una sensibilidad de la prueba del 71% y una especificidad del 85%* usando el ejemplo de Distribución de los resultados de la prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres con una prevalencia supuesta de infección urinaria del 30%. Obsérvese que este método muestra que un resultado positivo aumenta la probabilidad de una infección urinaria al 67% y un resultado negativo la reduce al 13%, el mismo resultado obtenido mediante el cálculo que utiliza las RV.

Interpretación del resultado de una prueba hipotética de esterasa de leucocitos en una cohorte de 1.000 mujeres que asume una prevalencia del 30% de infección urinaria (probabilidad preprueba), una sensibilidad de la prueba del 71% y una especificidad del 85%*

Resultados

Infección urinaria presente

Infección urinaria ausente

300 pacientes con Infección urinaria

700 pacientes sin Infección urinaria

Prueba de esterasa de leucocitos positiva

213 pacientes (VP)

105 pacientes (FP)

Prueba de esterasa de leucocitos negativa

87 pacientes (FN)

595 pacientes (VN)

*El teorema de Bayes puede simplificarse para permitir el cálculo de la probabilidad posprueba cuando se conoce la probabilidad preprueba:

  • Probabilidad posprueba cuando la prueba es positiva = VP/(todas con una prueba positiva) = VP/(VP + FP) = 213/(213 + 105) = 67%.
  • Probabilidad posprueba cuando la prueba es negativa = VN/(todas con una prueba negativa) = FN/(FN + VN) = 87/(87 + 595) = 13%.

FN = falso negativo; FP = falso positivo; VN = verdadero negativo; VP = verdadero positivo.

Estudios complementarios secuenciales

Los médicos suelen hacer pruebas en forma secuencial durante muchas evaluaciones diagnósticas. Si se conocen las posibilidades preprueba antes de los estudios complementarios secuenciales y la RV para cada una de las pruebas secuenciales, pueden calcularse las posibilidades posprueba mediante la siguiente fórmula:

Posibilidades preprueba × RV1 × RV2 × RV3 = posibilidades posprueba

Este método está limitado por el supuesto importante de que cada una de las pruebas es condicionalmente independiente de las otras.

Pruebas de cribado

A menudo, los pacientes deben considerar si se someten a la detección sistemática de una enfermedad oculta. Las premisas de un programa de cribado son que la detección temprana mejora el resultado en pacientes con enfermedad oculta y que los resultados falsos positivos que a menudo ocurren en el cribado no crean una carga (p. ej., costos y efectos adversos de las pruebas confirmatorias, tratamiento injustificado) que supere este beneficio. Para minimizar estas posibles cargas, los médicos deben elegir la prueba de cribado adecuada. El cribado no es apropiado cuando los tratamientos son ineficaces o la enfermedad es muy infrecuente (a menos que pueda identificarse una subpoblación en la que la prevalencia es mayor).

En teoría, la mejor prueba tanto para la detección sistemática como para el diagnóstico es aquella que tenga mayor sensibilidad y especificidad. Sin embargo, las pruebas muy exactas suelen ser complejas, costosas e invasivas (p. ej., una angiografía coronaria) y, por lo tanto, no son prácticas para el cribado de grandes cantidades de personas asintomáticas. Por lo general, debe sacrificarse algo de sensibilidad, especificidad o ambas cuando se selecciona una prueba de cribado.

Si un médico elige una prueba que optimice la sensibilidad o la especificidad, depende de las consecuencias de un resultado falso positivo o falso negativo, así como de la probabilidad preprueba de enfermedad. Una prueba de cribado ideal es aquella que siempre es positiva en casi todos los pacientes con enfermedad de modo que un resultado negativo excluye la enfermedad con seguridad en pacientes sanos. Por ejemplo, en las pruebas para una enfermedad grave para la que existe un tratamiento eficaz (p. ej., coronariopatía), los médicos estarían dispuestos a tolerar más falsos positivos que falsos negativos (menor especificidad y alta sensibilidad). Aunque la alta sensibilidad es un atributo muy importante para las pruebas de detección sistemática, la especificidad también lo es en ciertas estrategias de cribado. Entre poblaciones con una mayor prevalencia de la enfermedad, el VPP de una prueba de cribado aumenta; a medida que la prevalencia disminuye, la probabilidad posprueba o posterior de un resultado positivo también decrece. Por consiguiente, cuando se realiza el cribado de la enfermedad en poblaciones de alto riesgo, se prefieren las pruebas con mayor sensibilidad sobre aquellas con mayor especificidad, porque son mejores para descartar la enfermedad (menos falsos negativos). Por otro lado, en poblaciones de bajo riesgo o para las enfermedades infrecuentes para las cuales los beneficios son menores o el riesgo es mayor, se prefieren las pruebas con mayor especificidad.

Pruebas de cribado múltiples

Con la creciente gama de pruebas de cribado disponibles, los médicos deben considerar las implicaciones de un panel de estas pruebas. Por ejemplo, cuando un paciente es admitido en el hospital o es examinado por primera vez por un médico nuevo, a menudo se realizan paneles que contienen 8, 12 o a veces 20 pruebas sanguíneas. Aunque este tipo de pruebas puede ser útil en la detección sistemática de pacientes para ciertas enfermedades, la utilización de un gran panel de pruebas tiene posibles consecuencias negativas. Por definición, una prueba con una especificidad del 95% da resultados falsos positivos en el 5% de los pacientes sanos y normales. Si se realizan dos pruebas diferentes con estas características, cada una para una enfermedad oculta diferente, en un paciente que en realidad no tienen ninguna de estas enfermedades, la posibilidad de que ambas pruebas sean negativas es de 95% × 95%, o alrededor del 90%; así, hay un 10% de probabilidad de que al menos un resultado sea falso positivo. En el caso de tres pruebas, la posibilidad de que las 3 sean negativas es 95% × 95% × 95%, u 86%, que corresponde a un 14% de probabilidad de que al menos una dé un resultado falso positivo. Si se realizan 12 pruebas diferentes para 12 enfermedades distintas, la posibilidad de obtener al menos un resultado falso positivo es del 46%. Esta alta probabilidad subraya la necesidad de tener precaución al decidir hacer un panel de pruebas de cribado y en el momento de interpretar sus resultados.

Umbrales para realizar estudios complementarios

Una prueba de laboratorio debe hacerse sólo si sus resultados afectarán el tratamiento; de lo contrario, el gasto y el riesgo para el paciente son en vano. Los médicos a veces pueden tomar la determinación del momento en el cual realizar la prueba al comparar las estimaciones de la probabilidad preprueba y posprueba con ciertos umbrales. Por encima de un cierto umbral de probabilidad, los beneficios del tratamiento son mayores que los riesgos (que incluye el riesgo de tratar de manera errónea a un paciente sin enfermedad), y está indicado el tratamiento. Este punto se denomina el umbral de tratamiento (UT) y se determina como se describió antes (ver Estrategias para la toma de decisiones médicas : Estimaciones de probabilidad y umbral de tratamiento). Por definición, la prueba es innecesaria cuando la probabilidad preprueba está ya por encima del UT. Pero la prueba está indicada si la probabilidad preprueba está por debajo del UT, mientras que un resultado positivo puede elevar la probabilidad posprueba por encima del UT. La menor probabilidad preprueba en la que esto pueda suceder depende de las características de la prueba (p. ej., RV+) y se denomina umbral de la prueba.

Conceptualmente, si la mejor prueba para un trastorno grave tiene una RV+ baja y el UT es alto, es comprensible que un resultado positivo no puede desplazar la probabilidad posprueba por encima del UT en un paciente con una probabilidad preprueba baja pero preocupante (p. ej., quizá un 10 o 20%).

Como ilustración numérica, considérese el caso descrito antes de un posible infarto agudo de miocardio (IAM) (ver Estrategias para la toma de decisiones médicas : Estimaciones de probabilidad y umbral de tratamiento) en el que el equilibrio entre el riesgo y el beneficio determinó un UT del 25%. Cuando la probabilidad del IAM supera el 25%, se administra tratamiento trombolítico. ¿Cuándo debe realizarse un ecocardiograma antes de comenzar el tratamiento trombolítico? Si se asume una sensibilidad hipotética del 60% y una especificidad del 70% para la ecocardiografía en el diagnóstico de IAM, estos porcentajes corresponden a una RV+ de 60/(100 70) = 2 y una RV- de (100 60)/70 = 0,57.

La cuestión puede abordarse en forma matemática (posibilidades preprueba × RV = posibilidades posprueba) o en forma más automática y gráfica mediante el nomograma de Fagan (véase ver figura Nomograma de Fagan usado para determinar la necesidad de realizar la prueba.). En el nomograma, una línea que une el UT (25%) en la línea de probabilidad posprueba que pasa por la RV+ (2,0) en la línea media de la RV produce la intersección en la línea de probabilidad preprueba en alrededor de 0,14. Claramente, una prueba positiva en un paciente con cualquier probabilidad preprueba < 14% todavía resultaría en una probabilidad posprueba menor que el UT. En este caso, la ecocardiografía sería inútil porque incluso un resultado positivo no llevaría a una decisión para tratar; por lo tanto, la probabilidad preprueba de 14% es el umbral de la prueba para esta prueba en particular (véase ver figura Representación de los umbrales de prueba y de tratamiento.). Otra prueba con RV+ diferente tendría un umbral de prueba distinto.

Nomograma de Fagan usado para determinar la necesidad de realizar la prueba.

En este ejemplo, se asume que un paciente tiene un umbral de tratamiento (UT) del 25% para el infarto agudo de miocardio (IAM). Cuando la probabilidad del IAM supera el 25%, se administra tratamiento trombolítico. Los médicos pueden utilizar el nomograma de Fagan para determinar con cuánta rapidez debe realizarse la ecocardiografía antes de administrar el tratamiento trombolítico. Si se asume que la ecocardiografía tiene una sensibilidad hipotética del 60% y una especificidad del 70% para un IAM nuevo, estos porcentajes corresponden a una razón de verosimilitud (RV) de un resultado positivo (RV+) de 60/(100 70) = 2. Una línea que une un UT del 25% en la línea de probabilidad posprueba con RV+(2,0) en la línea media de la RV produce la intersección en la línea de probabilidad preprueba en alrededor de 0,14. Un resultado positivo en un paciente con una probabilidad preprueba < 14% todavía resultaría en una probabilidad posprueba menor que el UT.

Adaptado de Fagan TJ. Letter: Nomogram for Bayes theorem. New England Journal of Medicine 293:257, 1975.

Representación de los umbrales de prueba y de tratamiento.

La línea horizontal representa la probabilidad posprueba.

Como el 14% todavía representa un riesgo significativo de IAM, es evidente que una probabilidad de enfermedad por debajo del umbral de prueba (p. ej., un 10% probabilidad preprueba) no necesariamente significa que se descarta la enfermedad, sólo que un resultado positivo en una prueba particular en cuestión no cambiaría el tratamiento y, por consiguiente, esa prueba no está indicada. En esta situación, el médico debe observar al paciente a fin de obtener más hallazgos que pueden elevar la probabilidad preprueba por encima del umbral de la prueba. En la práctica, dado que a menudo se dispone de varias pruebas para una determinada enfermedad, pueden utilizarse varias de ellas en forma secuencial (ver Estudios complementarios : Estudios complementarios secuenciales).

En este ejemplo se considera una prueba que por sí misma no supone ningún riesgo para el paciente. Si una prueba tiene serios riesgos (p. ej., cateterismo cardíaco), el umbral de la prueba debe ser superior; pueden hacerse cálculos cuantitativos, pero son complejos. Por lo tanto, la disminución de la sensibilidad y la especificidad de una prueba o el aumento de su riesgo reducen el rango de probabilidades de enfermedad para la cual realizar la prueba representa la mejor estrategia. Al mejorar la capacidad de la prueba para discriminar o al disminuir su riesgo, se amplía el rango de probabilidades de enfermedad para la cual realizar la prueba representa la mejor estrategia.

Una posible excepción para proscribir la realización de una prueba cuando la probabilidad preprueba está por debajo del umbral de prueba (pero aún es preocupante) puede ser si un resultado negativo reduce la probabilidad posprueba por debajo del punto en el que puede considerarse descartada la enfermedad. Esta determinación requiere un juicio subjetivo del grado de certeza necesario para decir que se descarta una enfermedad y, dado que están implicadas probabilidades bajas, debe prestarse particular atención a los riesgos de la prueba.

Recursos en este artículo