AMSTAR 2: Uso en Umbrella Reviews

Análisis realizado por Joshuan J. Barboza

Doctor en Investigación Clínica y Traslacional.
Investigador Distinguido RENACYT
Miembro Cochrane – USIL afiliado a INS
SCOPUS ID: 57204457871
ORCID: https://orcid.org/0000-0002-2896-1407

AMSTAR 2 (A MeaSurement Tool to Assess Systematic Reviews 2) es una herramienta de evaluación crítica diseñada para juzgar la calidad metodológica de revisiones sistemáticas de intervenciones sanitarias, tanto si incluyen ensayos clínicos aleatorizados (ECA) como estudios no aleatorizados de intervención (EINA). Su foco no es “qué tan bien está escrito” un artículo, sino qué tan confiables son sus métodos y, por extensión, qué tanto podemos confiar en sus conclusiones. El desarrollo de AMSTAR 2 responde a un hecho práctico: una proporción sustancial de revisiones modernas incorpora evidencia no aleatorizada, con estructuras de sesgo distintas a las de los ECA, lo que exige un estándar de valoración más exigente y específico.

Un punto metodológico clave, a menudo mal aplicado, es que AMSTAR 2 no está diseñado para producir un puntaje global. La razón es conceptual: en revisiones sistemáticas, algunas fallas (p. ej., ausencia de protocolo o búsqueda deficiente) pueden comprometer críticamente la validez, mientras que otras, aunque relevantes, suelen tener un impacto menor. Por ello, AMSTAR 2 promueve una evaluación por dominios, especialmente los críticos, y una calificación global basada en las debilidades críticas.

Recuerda que puedes conocer este tema y otros más, en nuestra especialización. Has click en:

ESPECIALIZACIÓN EN REVISIONES SISTEMÁTICAS Y META-ANÁLISIS

En qué se diferencia AMSTAR 2 de reportes tipo PRISMA

PRISMA orienta el reporte (qué informar y cómo transparentarlo). AMSTAR 2 juzga la metodología (qué se hizo y si eso es suficiente para sostener inferencias válidas). Una revisión puede “parecer PRISMA” y aun así tener fallas metodológicas críticas (p. ej., búsqueda incompleta, riesgo de sesgo mal evaluado o meta-análisis inadecuado). Por eso, en práctica clínica y de política sanitaria, PRISMA y AMSTAR 2 son complementarios, no intercambiables.

Dominios críticos: el corazón de la interpretación AMSTAR 2

El artículo original de AMSTAR 2 propone siete dominios críticos cuya presencia de debilidades puede reducir sustancialmente la confianza en los hallazgos:

Protocolo registrado antes del inicio (ítem 2)
Adecuación de la búsqueda bibliográfica (ítem 4)
Justificación de exclusión de estudios (ítem 7)
Evaluación adecuada del riesgo de sesgo de estudios individuales (ítem 9)
Métodos meta-analíticos apropiados (ítem 11, si aplica)
Consideración del riesgo de sesgo al interpretar resultados (ítem 13)
Evaluación de sesgo de publicación (ítem 15, si aplica)

Estos dominios no sustituyen el juicio experto: el propio marco reconoce que, según el contexto, algunos ítems pueden ser más o menos críticos (por ejemplo, si no hay meta-análisis, el ítem 11 no aplica; o si el cuerpo de evidencia es altamente establecido, algunos aspectos de búsqueda/exclusiones podrían ponderarse distinto).

Preparación antes de aplicar AMSTAR 2 (paso cero)

Antes de puntuar, conviene estandarizar el proceso. AMSTAR 2 recomienda que, si la evaluación sustentará decisiones relevantes, el equipo acuerde previamente: la pregunta clínica (PICO), el contexto (práctica/política), comparadores y ventanas de seguimiento relevantes, y fuentes probables de sesgo según el tipo de evidencia.

Operativamente, para aplicar AMSTAR 2 con reproducibilidad:

Se identifican los anexos y suplementos (estrategias de búsqueda completas, lista de excluidos, tablas de riesgo de sesgo, etc.). Se define si la revisión incluye ECA, EINA o ambos (esto condiciona ítems 3, 9 y 11). Se decide si hubo meta-análisis; si no lo hubo, varios ítems se marcan “No aplica” (p. ej., 11, 12, 15).

Cómo responder: lógica de “Sí / Parcial / No / No aplica”

En el simulador de la Universitat de València y en la guía en español, las respuestas se estructuran en cuatro categorías:

Sí: cumplimiento completo según criterios explícitos del ítem.
Parcial: cumplimiento incompleto (hay evidencia de intención/metodología, pero falta un componente esencial).
No: ausencia del requisito o reporte incompatible con cumplimiento.
No aplica: el ítem no corresponde (p. ej., no hay meta-análisis, por lo que no corresponde evaluar métodos meta-analíticos).

A nivel práctico, “Parcial” es frecuente en ítems como protocolo (se menciona que hubo protocolo pero no es accesible, o no se describen desviaciones), o búsqueda (se buscó en ≥2 bases y se reportan términos, pero faltan registros/literatura gris/actualización reciente).

AMSTAR 2 paso a paso: los 16 ítems, qué buscar, cómo decidir y por qué

Ítem 1. PICO claramente definido

Qué busca: que la pregunta y criterios de inclusión incorporen población, intervención, comparador y desenlaces (y, cuando aplique, ventana temporal).
Cómo responder: “Sí” si el PICO es explícito en objetivos/criterios; “Parcial” si falta un componente (p. ej., comparador o desenlaces poco definidos); “No” si la pregunta es vaga.
Fundamento: sin PICO, aumenta el sesgo de selección de evidencia y la heterogeneidad clínica no interpretada.

Ítem 2. Protocolo registrado o publicado previamente (DOMINIO CRÍTICO)

Qué busca: que exista protocolo accesible (p. ej., PROSPERO) o publicación previa, y que se reporten desviaciones relevantes.
Cómo responder: “Sí” si el protocolo es localizable y previo; “Parcial” si se declara que hubo protocolo pero no es accesible o no se discuten desviaciones; “No” si no hay mención.
Fundamento: reduce sesgo por decisiones post-hoc (cambio de desenlaces, subgrupos no planificados, selección analítica).

Ítem 3. Justificación del diseño de estudios incluidos

Qué busca: explicación de por qué se incluyen ECA, EINA o ambos, coherente con la pregunta.
Cómo responder: “Sí” si justifican el diseño; “No” si simplemente listan diseños sin racionalidad.
Fundamento: la elección de diseños determina el perfil de sesgo y la interpretabilidad causal.

Ítem 4. Búsqueda bibliográfica exhaustiva (DOMINIO CRÍTICO)

Qué busca: uso de ≥2 bases relevantes, estrategia reproducible (términos), restricciones justificadas, actualización reciente, y—idealmente—búsqueda de referencias, registros, literatura gris o consulta a expertos.
Cómo responder: “Sí” si el paquete de búsqueda es claramente exhaustivo; “Parcial” si cumple lo mínimo pero faltan componentes importantes; “No” si la búsqueda es limitada/no reproducible.
Fundamento: una búsqueda deficiente produce sesgo de identificación y sobreestimación de efectos.

Ítem 5. Selección de estudios por duplicado

Qué busca: cribado por dos revisores independientes (o verificación de muestra con acuerdo ≥80%).
Cómo responder: “Sí” si lo declaran explícito; “Parcial” si hay verificación parcial; “No” si un revisor sin verificación.
Fundamento: disminuye errores y sesgo de selección en elegibilidad.

Ítem 6. Extracción de datos por duplicado

Qué busca: extracción doble o verificación de una muestra con acuerdo ≥80%.
Cómo responder: análogo al ítem 5.
Fundamento: reduce errores de transcripción e interpretación, especialmente en desenlaces complejos.

Ítem 7. Justificación de exclusión de estudios (DOMINIO CRÍTICO)

Qué busca: lista de estudios excluidos y motivo de exclusión.
Cómo responder: “Sí” si reportan lista/motivos (idealmente en anexo); “Parcial” si hay mención incompleta; “No” si solo PRISMA sin lista de excluidos a texto completo.
Fundamento: sin transparencia de exclusiones, aumenta el riesgo de exclusión selectiva (sesgo).

Ítem 8. Descripción adecuada de estudios incluidos

Qué busca: caracterización suficiente (población, intervención, comparador, desenlaces, tiempos, contexto).
Cómo responder: “Sí” si hay tabla de características robusta; “Parcial” si falta información clave; “No” si la descripción es insuficiente.
Fundamento: permite juzgar aplicabilidad, comparabilidad y fuentes de heterogeneidad.

Ítem 9. Evaluación adecuada del riesgo de sesgo (DOMINIO CRÍTICO)

Qué busca: uso de herramientas apropiadas (ROB 2 para ECA; ROBINS-I u otras con capacidad discriminatoria para EINA, etc.).
Cómo responder: “Sí” si la herramienta y su aplicación cubren dominios relevantes; “Parcial” si se usa instrumento subóptimo o sin detalle suficiente; “No” si no evalúan RoB o lo sustituyen por “calidad” no válida.
Fundamento: el riesgo de sesgo es determinante para inferencia causal; en EINA, confusión, sesgo de selección y medición son centrales, por lo que se requiere aproximación sistemática y competente.

Ítem 10. Financiación de los estudios incluidos

Qué busca: reportar fuentes de financiación y conflictos en estudios primarios (o declarar ausencia de información).
Cómo responder: “Sí” si lo documentan por estudio o de forma explícita; “No” si se omite.
Fundamento: la financiación comercial se asocia con resultados favorables al patrocinador; documentarla permite análisis de sensibilidad/estratificación.

Ítem 11. Métodos estadísticos adecuados para combinar estudios (DOMINIO CRÍTICO si hay meta-análisis)

Qué busca: elección justificada de modelo (fijo/aleatorio), medidas de efecto, manejo de heterogeneidad y—si hay mezcla de diseños—evitar combinaciones inapropiadas o dominancia de EINA sobre ECA sin justificación.
Cómo responder: “Sí” si la síntesis es metodológicamente congruente; “Parcial” si hay decisiones discutibles sin suficiente justificación; “No” si combinan de manera inadecuada o sin declarar principios de síntesis; “No aplica” si no hubo meta-análisis.
Fundamento: un meta-análisis puede producir estimaciones precisas pero sesgadas si combina evidencia heterogénea o sesgada, especialmente con EINA.

Ítem 12. Impacto del riesgo de sesgo en los resultados (si hay síntesis cuantitativa)

Qué busca: análisis de sensibilidad, exclusión de alto riesgo, o aproximaciones que exploren el efecto del RoB sobre estimaciones.
Cómo responder: “Sí” si analizan el impacto; “No” si solo reportan RoB sin integrarlo; “No aplica” si no hay síntesis cuantitativa.
Fundamento: conocer RoB sin evaluar su impacto mantiene incertidumbre no cuantificada.

Ítem 13. Consideración del riesgo de sesgo al interpretar (DOMINIO CRÍTICO)

Qué busca: que las conclusiones ponderen la calidad/RoB y eviten sobreinterpretación.
Cómo responder: “Sí” si el lenguaje de conclusiones se ajusta al RoB; “Parcial” si mencionan RoB pero concluyen con exceso de certeza; “No” si ignoran RoB en discusión.
Fundamento: el sesgo no corregido tiende a inflar efectos; la interpretación debe reflejarlo.

Ítem 14. Interpretación de la heterogeneidad

Qué busca: explicar y discutir heterogeneidad y, cuando procede, investigar fuentes (subgrupos/meta-regresión/razonamiento clínico).
Cómo responder: “Sí” si discuten coherentemente heterogeneidad y causas plausibles; “Parcial” si la mención es superficial; “No” si se omite.
Fundamento: heterogeneidad no interpretada limita aplicabilidad y validez de síntesis.

Ítem 15. Sesgo de publicación / estudios pequeños (DOMINIO CRÍTICO si hay síntesis cuantitativa)

Qué busca: evaluación con funnel plots/pruebas (cuando hay n suficiente) o discusión razonada del sesgo; se recuerda que se requieren ~10 estudios para asimetría interpretable.
Cómo responder: “Sí” si evalúan adecuadamente y discuten impacto; “Parcial” si intentan sin condiciones adecuadas o sin discutir impacto; “No” si se omite; “No aplica” si no corresponde.
Fundamento: el sesgo de publicación tiende a sobrestimar beneficios y subestimar daños.

Ítem 16. Conflictos de interés y financiación de la revisión

Qué busca: declaración de financiación de la revisión y COI de autores.
Cómo responder: “Sí” si la declaración es explícita y completa; “No” si falta.
Fundamento: transparencia del proceso y potenciales influencias.

Interpretación global: cómo traducir ítems a “confianza” en la revisión

El esquema original de AMSTAR 2 recomienda no sumar puntos, sino derivar una calificación global según debilidades en dominios críticos. bmj.j4008.full En términos prácticos (y conservadores), la lógica clínica es:

Alta confianza: sin debilidades críticas y, como máximo, una debilidad no crítica.
Moderada: sin debilidades críticas, pero con >1 debilidad no crítica.
Baja: al menos una debilidad crítica.
Críticamente baja: múltiples debilidades críticas.

Esta lógica está alineada con la intención metodológica de AMSTAR 2: si un dominio crítico falla, la revisión puede producir conclusiones potencialmente inestables, incluso si el resto está correctamente ejecutado

Análisis de estudio:

Evaluación AMSTAR 2 – SMART-C Meta-Analysis (Circulation 2024)

Ítem AMSTAR 2	Respuesta	Fundamento basado en el artículo	Observación / Debilidad	Ideal metodológico
1. PICO claramente definido	✅ Sí	Poblaciones (DM2 alto riesgo ASCVD, IC, ERC), intervención (iSGLT2), comparador (placebo), desenlace (3P-MACE).	Adecuado	Definición explícita en introducción y métodos (cumple).
2. Protocolo registrado previamente (CRÍTICO)	❌ No claro	No se menciona registro PROSPERO ni protocolo publicado previamente.	Debilidad crítica potencial (riesgo de análisis post-hoc).	Registro prospectivo (PROSPERO) con plan analítico preespecificado y declaración de desviaciones.
3. Justificación del diseño de estudios incluidos	✅ Sí	Se incluyeron exclusivamente ECA fase 3, doble ciego, CV outcomes.	Justificación adecuada (validez interna alta).	Explicitar racional causal para restringir a CVOT fase 3 (implícito pero correcto).
4. Estrategia de búsqueda exhaustiva (CRÍTICO)	⚠️ Parcial	Se realizó búsqueda en PubMed 2012–2023.	No se reporta búsqueda en múltiples bases ni literatura gris.	≥2 bases (MEDLINE, Embase, Cochrane), estrategia reproducible completa y búsqueda de registros (ClinicalTrials.gov).
5. Selección de estudios por duplicado	❌ No reportado	No se describe proceso independiente de selección.	Riesgo de sesgo de selección.	Dos revisores independientes con consenso documentado.
6. Extracción de datos por duplicado	❌ No reportado	No se especifica extracción independiente.	Potencial error de extracción.	Extracción doble con verificación cruzada.
7. Lista de estudios excluidos (CRÍTICO)	❌ No	No se presenta lista de estudios excluidos con razones.	Falta transparencia en elegibilidad.	Tabla de exclusiones con motivo explícito.
8. Descripción adecuada de estudios incluidos	✅ Sí	Tabla detallada de características basales por ensayo.	Correcto	Incluir riesgo basal y duración detallada (cumple).
9. Evaluación del riesgo de sesgo (CRÍTICO)	❌ No explícito	No se presenta evaluación formal con herramienta (RoB 2).	Debilidad crítica importante.	Aplicar RoB 2 por dominio y reportarlo en tabla y figuras.
10. Reporte de financiación de estudios incluidos	❌ No detallado	Se mencionan ensayos CVOT, pero no se reporta financiación individual de cada ensayo.	Posible influencia de patrocinio industrial no evaluada.	Reportar sponsor y potencial conflicto de cada ensayo incluido.
11. Métodos meta-analíticos apropiados (CRÍTICO)	✅ Sí	Uso de modelos de efectos aleatorios, meta-regresión con Hartung–Knapp, I² reportado.	Metodología estadística robusta.	Justificación explícita del modelo primario (cumple).
12. Impacto del riesgo de sesgo en resultados	❌ No	No se realizó análisis de sensibilidad excluyendo estudios con mayor riesgo.	Falta integración de calidad en la síntesis.	Análisis estratificado por riesgo de sesgo.
13. Consideración del riesgo de sesgo en interpretación (CRÍTICO)	❌ Parcial	Se discuten limitaciones entre ensayos, pero no RoB formal.	Ausencia de juicio estructurado de calidad.	Discusión explícita basada en dominios RoB.
14. Explicación de heterogeneidad	✅ Sí	I²=0% para MACE; análisis por población clínica.	Correcto	Explorar fuentes clínicas/biológicas (cumple).
15. Evaluación de sesgo de publicación (CRÍTICO)	❌ No	No se reporta funnel plot ni evaluación formal.	Aunque CVOT grandes reducen riesgo, formalmente es debilidad crítica.	Funnel plot si ≥10 estudios y prueba de asimetría.
16. Conflictos de interés declarados	✅ Sí	Declaraciones extensas de COI reportadas.	Transparencia adecuada.	Cumple estándar ICMJE.

REFERENCIAS

Shea BJ, Reeves BC, Wells G, et al. AMSTAR 2: a critical appraisal tool for systematic reviews that include randomised or non-randomised studies of healthcare interventions, or both. BMJ. 2017;358:j4008. Published 2017 Sep 21. doi:10.1136/bmj.j4008

Lu C, Lu T, Ge L, Yang N, Yan P, Yang K. Use of AMSTAR-2 in the methodological assessment of systematic reviews: protocol for a methodological study. Ann Transl Med. 2020;8(10):652. doi:10.21037/atm-20-392a

Bojcic R, Todoric M, Puljak L. Most systematic reviews reporting adherence to AMSTAR 2 had critically low methodological quality: a cross-sectional meta-research study. J Clin Epidemiol. 2024;165:111210. doi:10.1016/j.jclinepi.2023.10.026

Bojcic R, Todoric M, Puljak L. Adopting AMSTAR 2 critical appraisal tool for systematic reviews: speed of the tool uptake and barriers for its adoption. BMC Med Res Methodol. 2022;22(1):104. Published 2022 Apr 10. doi:10.1186/s12874-022-01592-y

Perry R, Whitmarsh A, Leach V, Davies P. A comparison of two assessment tools used in overviews of systematic reviews: ROBIS versus AMSTAR-2. Syst Rev. 2021;10(1):273. Published 2021 Oct 25. doi:10.1186/s13643-021-01819-x

Pauletto P, Polmann H, Réus JC, et al. Critical appraisal of systematic reviews of intervention in dentistry published between 2019-2020 using the AMSTAR 2 tool. Evid Based Dent. Published online September 14, 2022. doi:10.1038/s41432-022-0802-5

Tau: Investigación Clínica y Epidemiológica

recent posts

about