array:20 [
  "pii" => "S1699258X09000497"
  "issn" => "1699258X"
  "doi" => "10.1016/j.reuma.2008.09.007"
  "estado" => "S300"
  "fechaPublicacion" => "2009-07-01"
  "documento" => "article"
  "crossmark" => 0
  "subdocumento" => "fla"
  "cita" => "Reumatol Clin. 2009;5:171-7"
  "abierto" => array:3 [
    "ES" => true
    "ES2" => true
    "LATM" => true
  ]
  "gratuito" => true
  "lecturas" => array:2 [
    "total" => 23751
    "formatos" => array:3 [
      "EPUB" => 162
      "HTML" => 20596
      "PDF" => 2993
    ]
  ]
  "itemSiguiente" => array:16 [
    "pii" => "S1699258X09000321"
    "issn" => "1699258X"
    "doi" => "10.1016/j.reuma.2008.01.001"
    "estado" => "S300"
    "fechaPublicacion" => "2009-07-01"
    "documento" => "article"
    "crossmark" => 0
    "subdocumento" => "fla"
    "cita" => "Reumatol Clin. 2009;5:178-82"
    "abierto" => array:3 [
      "ES" => true
      "ES2" => true
      "LATM" => true
    ]
    "gratuito" => true
    "lecturas" => array:2 [
      "total" => 8853
      "formatos" => array:3 [
        "EPUB" => 187
        "HTML" => 7108
        "PDF" => 1558
      ]
    ]
    "es" => array:12 [
      "idiomaDefecto" => true
      "titulo" => "Técnicas de imagen en la evaluación de las manifestaciones sistemáticas de las vasculitis"
      "tienePdf" => "es"
      "tieneTextoCompleto" => "es"
      "tieneResumen" => array:2 [
        0 => "es"
        1 => "en"
      ]
      "paginas" => array:1 [
        0 => array:2 [
          "paginaInicial" => "178"
          "paginaFinal" => "182"
        ]
      ]
      "titulosAlternativos" => array:1 [
        "en" => array:1 [
          "titulo" => "Imaging techniques for the evaluation of systemic manifestations of vasculitis"
        ]
      ]
      "contieneResumen" => array:2 [
        "es" => true
        "en" => true
      ]
      "contieneTextoCompleto" => array:1 [
        "es" => true
      ]
      "contienePdf" => array:1 [
        "es" => true
      ]
      "resumenGrafico" => array:2 [
        "original" => 0
        "multimedia" => array:6 [
          "identificador" => "fig1"
          "tipo" => "MULTIMEDIAFIGURA"
          "mostrarFloat" => true
          "mostrarDisplay" => false
          "copyright" => "Elsevier España"
          "figura" => array:1 [
            0 => array:4 [
              "imagen" => "273v05n04-13138953fig01.jpg"
              "Alto" => 2283
              "Ancho" => 983
              "Tamanyo" => 474268
            ]
          ]
        ]
      ]
      "autores" => array:1 [
        0 => array:2 [
          "autoresLista" => "Antonio Luna Alcalá, Inmaculada Rodríguez Jiménez, Enrique Ramón Botella"
          "autores" => array:3 [
            0 => array:2 [
              "nombre" => "Antonio"
              "apellidos" => "Luna Alcalá"
            ]
            1 => array:2 [
              "nombre" => "Inmaculada"
              "apellidos" => "Rodríguez Jiménez"
            ]
            2 => array:2 [
              "nombre" => "Enrique"
              "apellidos" => "Ramón Botella"
            ]
          ]
        ]
      ]
    ]
    "idiomaDefecto" => "es"
    "EPUB" => "https://multimedia.elsevier.es/PublicationsMultimediaV1/item/epub/S1699258X09000321?idApp=UINPBA00004M"
    "url" => "/1699258X/0000000500000004/v0_201308010845/S1699258X09000321/v0_201308010846/es/main.assets"
  ]
  "itemAnterior" => array:16 [
    "pii" => "S1699258X09000461"
    "issn" => "1699258X"
    "doi" => "10.1016/j.reuma.2008.06.002"
    "estado" => "S300"
    "fechaPublicacion" => "2009-07-01"
    "documento" => "article"
    "crossmark" => 0
    "subdocumento" => "fla"
    "cita" => "Reumatol Clin. 2009;5:168-70"
    "abierto" => array:3 [
      "ES" => true
      "ES2" => true
      "LATM" => true
    ]
    "gratuito" => true
    "lecturas" => array:2 [
      "total" => 9281
      "formatos" => array:3 [
        "EPUB" => 188
        "HTML" => 7930
        "PDF" => 1163
      ]
    ]
    "es" => array:12 [
      "idiomaDefecto" => true
      "titulo" => "Neurobehçet: a propósito de un caso"
      "tienePdf" => "es"
      "tieneTextoCompleto" => "es"
      "tieneResumen" => array:2 [
        0 => "es"
        1 => "en"
      ]
      "paginas" => array:1 [
        0 => array:2 [
          "paginaInicial" => "168"
          "paginaFinal" => "170"
        ]
      ]
      "titulosAlternativos" => array:1 [
        "en" => array:1 [
          "titulo" => "NeuroBehçet: A case"
        ]
      ]
      "contieneResumen" => array:2 [
        "es" => true
        "en" => true
      ]
      "contieneTextoCompleto" => array:1 [
        "es" => true
      ]
      "contienePdf" => array:1 [
        "es" => true
      ]
      "resumenGrafico" => array:2 [
        "original" => 0
        "multimedia" => array:6 [
          "identificador" => "fig1"
          "tipo" => "MULTIMEDIAFIGURA"
          "mostrarFloat" => true
          "mostrarDisplay" => false
          "copyright" => "Elsevier España"
          "figura" => array:1 [
            0 => array:4 [
              "imagen" => "273v05n04-13138951fig01.jpg"
              "Alto" => 896
              "Ancho" => 1500
              "Tamanyo" => 438774
            ]
          ]
        ]
      ]
      "autores" => array:1 [
        0 => array:2 [
          "autoresLista" => "Germán Latorre González, Ana Belén Escribano Gascón, Carlos López de Silanes de Miguel, Rocío García Cobos, Luis Ignacio Casanova Peño, Teresa Lapeña Montero"
          "autores" => array:6 [
            0 => array:2 [
              "nombre" => "Germán"
              "apellidos" => "Latorre González"
            ]
            1 => array:2 [
              "nombre" => "Ana Belén"
              "apellidos" => "Escribano Gascón"
            ]
            2 => array:2 [
              "nombre" => "Carlos López"
              "apellidos" => "de Silanes de Miguel"
            ]
            3 => array:2 [
              "nombre" => "Rocío"
              "apellidos" => "García Cobos"
            ]
            4 => array:2 [
              "nombre" => "Luis Ignacio"
              "apellidos" => "Casanova Peño"
            ]
            5 => array:2 [
              "nombre" => "Teresa"
              "apellidos" => "Lapeña Montero"
            ]
          ]
        ]
      ]
    ]
    "idiomaDefecto" => "es"
    "EPUB" => "https://multimedia.elsevier.es/PublicationsMultimediaV1/item/epub/S1699258X09000461?idApp=UINPBA00004M"
    "url" => "/1699258X/0000000500000004/v0_201308010845/S1699258X09000461/v0_201308010846/es/main.assets"
  ]
  "es" => array:15 [
    "idiomaDefecto" => true
    "titulo" => "Validación de cuestionarios"
    "tieneTextoCompleto" => true
    "paginas" => array:1 [
      0 => array:2 [
        "paginaInicial" => "171"
        "paginaFinal" => "177"
      ]
    ]
    "autores" => array:1 [
      0 => array:3 [
        "autoresLista" => "Ma Jesús García de Yébenes Prous, Francisco Rodríguez Salvanés, Loreto Carmona Ortells"
        "autores" => array:3 [
          0 => array:3 [
            "nombre" => "Ma Jesús"
            "apellidos" => "García de Yébenes Prous"
            "referencia" => array:1 [
              0 => array:2 [
                "etiqueta" => "<span class="elsevierStyleSup">a</span>"
                "identificador" => "affa"
              ]
            ]
          ]
          1 => array:3 [
            "nombre" => "Francisco"
            "apellidos" => "Rodr&#237;guez Salvan&#233;s"
            "referencia" => array:1 [
              0 => array:2 [
                "etiqueta" => "<span class="elsevierStyleSup">b</span>"
                "identificador" => "affb"
              ]
            ]
          ]
          2 => array:3 [
            "nombre" => "Loreto"
            "apellidos" => "Carmona Ortells"
            "referencia" => array:1 [
              0 => array:2 [
                "etiqueta" => "<span class="elsevierStyleSup">a</span>"
                "identificador" => "affa"
              ]
            ]
          ]
        ]
        "afiliaciones" => array:2 [
          0 => array:3 [
            "entidad" => "Unidad de Investigaci&oacute;n, Fundaci&oacute;n Espa&ntilde;ola de Reumatolog&iacute;a, Madrid, Espa&ntilde;a. "
            "etiqueta" => "<span class="elsevierStyleSup">a</span>"
            "identificador" => "affa"
          ]
          1 => array:3 [
            "entidad" => "Agencia La&iacute;n Entralgo, Madrid, Espa&ntilde;a. "
            "etiqueta" => "<span class="elsevierStyleSup">b</span>"
            "identificador" => "affb"
          ]
        ]
      ]
    ]
    "titulosAlternativos" => array:1 [
      "en" => array:1 [
        "titulo" => "Validation of questionnaires"
      ]
    ]
    "resumenGrafico" => array:2 [
      "original" => 0
      "multimedia" => array:6 [
        "identificador" => "fig1"
        "tipo" => "MULTIMEDIAFIGURA"
        "mostrarFloat" => true
        "mostrarDisplay" => false
        "copyright" => "Elsevier Espa&#241;a"
        "figura" => array:1 [
          0 => array:4 [
            "imagen" => "273v05n04-13138952fig01.jpg"
            "Alto" => 1629
            "Ancho" => 1634
            "Tamanyo" => 187571
          ]
        ]
      ]
    ]
    "textoCompleto" => "<span class="elsevierStyleSectionTitle">Introducci&#243;n</span><p class="elsevierStylePara">En 1948&#44; la Organizaci&#243;n Mundial de la Salud defini&#243;&#171;salud&#187; como el completo estado de bienestar f&#237;sico&#44; mental y social&#46; Desde entonces se han desarrollado numerosas investigaciones para traducir esta definici&#243;n conceptual en m&#233;todos objetivos que&#44; mediante cuestionarios u otros instrumentos&#44; generen escalas e &#237;ndices para facilitar la medici&#243;n de las dimensiones del estado de salud&#46; Junto con la entrevista&#44; el cuestionario es la t&#233;cnica m&#225;s empleada en investigaci&#243;n&#46; En este art&#237;culo se considerar&#225; que cuestionarios&#44; escalas e instrumentos son sin&#243;nimos de un mismo concepto&#58; t&#233;cnica de recogida de datos&#46; </p><p class="elsevierStylePara">La entrevista es una t&#233;cnica de recogida de datos que requiere el conocimiento de t&#233;cnicas de comunicaci&#243;n verbal&#44; un gui&#243;n estructurado y una finalidad espec&#237;fica&#46; Es un instrumento excelente en investigaci&#243;n cualitativa&#46; El cuestionario es un instrumento utilizado para la recogida de informaci&#243;n&#44; dise&#241;ado para poder cuantificar y universalizar la informaci&#243;n y estandarizar el procedimiento de la entrevista&#46; Su finalidad es conseguir la comparabilidad de la informaci&#243;n<span class="elsevierStyleSup">1</span>&#46; </p><p class="elsevierStylePara">En general&#44; cuando se habla de cuestionarios se hace referencia a escalas de evaluaci&#243;n&#59; por ejemplo&#44; el cuestionario de calidad de vida SF-36 es una escala de evaluaci&#243;n&#46; Por tanto&#44; las escalas de evaluaci&#243;n son aquellos instrumentos o cuestionarios que permiten un escalamiento acumulativo de sus &#237;tems&#44; y que dan puntuaciones globales al final de la evaluaci&#243;n&#46; Su car&#225;cter acumulativo las diferencia de los cuestionarios de recogida de datos&#44; los inventarios de s&#237;ntomas&#44; las entrevistas estandarizadas o los formularios&#46; </p><p class="elsevierStylePara">Tanto las entrevistas como los cuestionarios basan su informaci&#243;n en la validez de la informaci&#243;n verbal de percepciones&#44; sentimientos&#44; actitudes o conductas que transmite el encuestado&#59; informaci&#243;n que puede ser dif&#237;cil de contrastar y de traducir a un sistema de medici&#243;n&#44; es decir&#44; a una puntuaci&#243;n&#59; esta dificultad es la causante de la complejidad de establecer la calidad de este tipo de instrumentos&#46; </p><p class="elsevierStylePara">La utilizaci&#243;n de las escalas de evaluaci&#243;n se basa en la psicof&#237;sica y la psicometr&#237;a&#46; La psicof&#237;sica aproxima el proceso de cuantificaci&#243;n de la percepci&#243;n &#40;trasladar a un sistema num&#233;rico fen&#243;menos intangibles&#44; como los s&#237;ntomas o la discapacidad&#44; mediante analog&#237;as&#41;&#46; La psicometr&#237;a permite estudiar la adecuaci&#243;n de la escala al fen&#243;meno objeto de la medici&#243;n y la calidad de la medida<span class="elsevierStyleSup">1</span>&#46; </p><p class="elsevierStylePara">El desarrollo de un cuestionario es un proceso laborioso que puede llevar meses antes de conseguir una versi&#243;n definitiva que satisfaga las expectativas previstas&#46; Por esto&#44; se debe tender a utilizar cuestionarios que ya hayan demostrado su utilidad en otros estudios&#44; lo que&#44; adem&#225;s&#44; permite comparar resultados&#46; Sin embargo&#44; hay ocasiones en las que es inevitable dise&#241;ar nuevos instrumentos&#44; por ejemplo&#44; cuando los instrumentos existentes han mostrado resultados poco satisfactorios o han demostrado su eficacia en medios de aplicaci&#243;n distintos&#44; o bien cuando no haya ning&#250;n cuestionario adecuado para medir lo que se pretende medir&#46; En estas circunstancias se justifica el dise&#241;o de un nuevo cuestionario y la evaluaci&#243;n de su utilidad antes de su aplicaci&#243;n&#46; Los cuestionarios son instrumentos dise&#241;ados para medir una serie de par&#225;metros que&#44; en muchas ocasiones&#44; son conceptos te&#243;ricos o abstractos&#46; Estos objetos de medici&#243;n no directamente observables se denominan &#171;constructos&#187;<span class="elsevierStyleSup">2</span>&#46; </p><p class="elsevierStylePara">Un cuestionario v&#225;lido&#44; como todo instrumento de medici&#243;n&#44; debe reunir las siguientes caracter&#237;sticas<span class="elsevierStyleSup">1</span>&#58;</p><ul><li>1&#46; Ser sencillo&#44; viable y aceptado por pacientes&#44; usuarios e investigadores &#40;viabilidad&#41;&#46;</li><li>2&#46; Ser fiable y preciso&#44; es decir&#44; con mediciones libres de error &#40;fiabilidad&#41;&#46;</li><li>3&#46; Ser adecuado para el problema que se pretende medir &#40;validez de contenido&#41;&#46;</li><li>4&#46; Reflejar la teor&#237;a subyacente en el fen&#243;meno o concepto que se quiere medir &#40;validez de constructo&#41;&#46;</li><li>5&#46; Ser capaz de medir cambios&#44; tanto en los diferentes individuos como en la respuesta de un mismo individuo a trav&#233;s del tiempo &#40;sensibilidad al cambio&#41;&#46;</li></ul><p class="elsevierStylePara">Mientras la fiabilidad y la validez son exigencias necesarias a todos los instrumentos&#44; la importancia de otras caracter&#237;sticas psicom&#233;tricas depende del contexto&#46; Por ejemplo&#44; la sensibilidad al cambio es importante si el instrumento se aplica como medida de respuesta en los ensayos cl&#237;nicos&#44; pero no si se utiliza para un estudio sobre opiniones o actitudes acerca de una enfermedad<span class="elsevierStyleSup">2</span>&#46; </p><p class="elsevierStylePara">El an&#225;lisis de las caracter&#237;sticas m&#233;tricas del instrumento es un proceso complejo que implica la evaluaci&#243;n de la viabilidad&#44; fiabilidad&#44; validez y sensibilidad al cambio &#40;tabla 1&#41;&#46; </p><p class="elsevierStylePara"><span class="elsevierStyleBold">Tabla 1&#46; Caracter&#237;sticas de los instrumentos de medici&#243;n</span><br></br></p><table><tr><td><span class="elsevierStyleBold">T&#233;rmino</span></td><td><span class="elsevierStyleBold">Sin&#243;nimo</span></td><td><span class="elsevierStyleBold">Aspectos que se deben considerar</span></td><td><span class="elsevierStyleBold">T&#233;cnica de an&#225;lisis</span></td></tr><tr><td>Viabilidad</td><td><span class="elsevierStyleItalic">Feasibility</span></td><td>Tiempo empleado</td><td>Estudio piloto</td></tr><tr><td>Claridad de preguntas</td></tr><tr><td>Registro&#44; codificaci&#243;n</td></tr><tr><td>Interpretaci&#243;n de resultados</td></tr><tr><td>Fiabilidad</td><td><span class="elsevierStyleItalic">Reliability</span></td><td>Consistencia interna</td><td>Alfa de Cronbach</td></tr><tr><td>Intraobservador</td><td>CCI&#44; &#237;ndice kappa&#44; m&#233;todo gr&#225;fico de Bland y Altman</td></tr><tr><td>Interobservador</td><td>CCI&#44; &#237;ndice kappa&#44; m&#233;todo gr&#225;fico de Bland y Altman</td></tr><tr><td>Validez</td><td><span class="elsevierStyleItalic">Validity</span></td><td>L&#243;gica <span class="elsevierStyleItalic">&#40;face validity&#41;</span></td><td>Redacci&#243;n de las preguntas</td></tr><tr><td>De contenido</td><td>Opini&#243;n de expertos</td></tr><tr><td>De constructo</td><td>Constructo an&#225;lisis factorial</td></tr><tr><td>De criterio</td><td>Pruebas diagn&#243;sticas</td></tr><tr><td>Sensibilidad al cambio</td><td><span class="elsevierStyleItalic">Responsiveness</span></td><td>Intr&#237;nseca</td><td>En funci&#243;n del dise&#241;o y del tipo de cambio previsible</td></tr><tr><td>Extr&#237;nseca</td></tr></table><br></br>CCI&#58; coeficiente de correlaci&#243;n intraclase&#46; <p class="elsevierStylePara">El objetivo de este trabajo es describir la metodolog&#237;a de estudio de la viabilidad&#44; fiabilidad y validez de los cuestionarios como escalas o instrumentos de medici&#243;n que permiten obtener y cuantificar datos con el fin de poder comparar informaci&#243;n&#46; El an&#225;lisis de la sensibilidad al cambio no forma parte de este art&#237;culo&#46; </p><span class="elsevierStyleSectionTitle">Viabilidad</span><p class="elsevierStylePara">Los mejores instrumentos son inservibles si su aplicaci&#243;n resulta dif&#237;cil&#44; compleja o costosa&#46; Caracter&#237;sticas como el tiempo empleado en la cumplimentaci&#243;n&#44; la sencillez y la amenidad del formato&#44; el inter&#233;s&#44; la brevedad y la claridad de las preguntas&#44; as&#237; como la facilidad de la correcci&#243;n&#44; el registro&#44; la codificaci&#243;n y la interpretaci&#243;n de los resultados son aspectos relacionados con la viabilidad <span class="elsevierStyleItalic">&#40;feasibility&#41;</span>&#46; Esta caracter&#237;stica se estudia mediante la realizaci&#243;n de un estudio piloto en un grupo de alrededor de 30 individuos y sus resultados pueden utilizarse para efectuar las modificaciones oportunas al instrumento de medici&#243;n&#46; </p><span class="elsevierStyleSectionTitle">Fiabilidad</span><p class="elsevierStylePara">La fiabilidad <span class="elsevierStyleItalic">&#40;reliability&#41;</span> es el grado con el que un instrumento mide con precisi&#243;n&#44; sin error&#46; La fiabilidad mide la proporci&#243;n de variaci&#243;n en las mediciones que es debida a la diversidad de valores que adopta la variable y no es producto del error&#59; es decir&#44; la fiabilidad mide la proporci&#243;n de la variancia total atribuible a diferencias verdaderas entre los sujetos<span class="elsevierStyleSup">2&#44;3</span>&#46; Un instrumento fiable es preciso&#44; es decir&#44; proporciona mediciones libres de error&#46; La variaci&#243;n que se debe a un error puede obedecer a 2 tipos de errores&#58; </p><ul><li>1&#46; Sistem&#225;tico o sesgo&#58; error que se produce de forma sistem&#225;tica&#46; Por ejemplo&#44; un evaluador puede puntuar siempre por debajo de los otros evaluadores&#46;</li><li>2&#46; Aleatorio&#58; error que se produce por factores debidos al azar&#46; Por ejemplo&#44; por diferentes circunstancias&#44; un evaluador puede dar algunas veces puntuaciones superiores y otras veces&#44; puntuaciones inferiores a las correctas&#46; El error aleatorio es el que m&#225;s afecta la fiabilidad de un instrumento&#46;</li></ul><p class="elsevierStylePara">La fiabilidad de un instrumento se valora mediante la consistencia interna&#44; la fiabilidad test-retest o intraobservador y la fiabilidad interobservador&#46; </p><span class="elsevierStyleSectionTitle">I&#46; Consistencia interna</span><p class="elsevierStylePara">Esta propiedad se refiere a la coherencia de los componentes del instrumento de medici&#243;n&#44; es decir&#44; se refiere a que los &#237;tems que miden un mismo atributo presenten homogeneidad entre ellos&#46; Una escala consistente garantiza que todos sus componentes o &#237;tems midan un solo constructo que es homog&#233;neo&#46; Si la escala tiene una elevada consistencia interna&#44; la suma de las puntuaciones puede representar la medici&#243;n de un &#250;nico constructo con el que&#44; en general&#44; mantiene una relaci&#243;n lineal&#46; </p><p class="elsevierStylePara">Los cuestionarios se desarrollan para medir separadamente diferentes componentes o dimensiones de un problema&#46; Por ejemplo&#44; un cuestionario sobre salud puede estar dividido en preguntas sobre salud f&#237;sica y mental&#59; se espera que haya una buena concordancia entre las distintas preguntas que miden un mismo componente&#46; Por consiguiente&#44; si un cuestionario est&#225; compuesto por diferentes subescalas&#44; cada una de las cuales pretende medir una dimensi&#243;n diferente del mismo fen&#243;meno&#44; debe evaluarse la consistencia interna de cada una de ellas<span class="elsevierStyleSup">2&#44;3</span>&#46; La consistencia interna de una escala de valoraci&#243;n depende del n&#250;mero de &#237;tems que componen el instrumento y de la correlaci&#243;n media entre ellos&#44; y se eval&#250;a en una &#250;nica aplicaci&#243;n del instrumento mediante el m&#233;todo estad&#237;stico alfa de Cronbach<span class="elsevierStyleSup">4</span>&#44; con valores comprendidos entre 0 y 1&#44; y que se interpreta de forma similar a un coeficiente de correlaci&#243;n&#46; </p><p class="elsevierStylePara">Por ejemplo&#44; el &#237;ndice AUSCAN &#40;Australian&#47;Canadian Osteoarthritis Hand Index &#8216;&#205;ndice australiano&#47;canadiense de la osteoartritis de mano&#8217;&#41; contiene 3 subescalas que eval&#250;an el dolor &#40;5 &#237;tems&#41;&#44; la rigidez &#40;1 &#237;tem&#41; y la capacidad funcional &#40;9 &#237;tems&#41; de pacientes con osteoartritis de las manos durante las 48 h previas&#46; Las subescalas pueden utilizarse de forma individual o sumarse para obtener una &#250;nica puntuaci&#243;n global&#46; En un estudio se evalu&#243; la consistencia interna de la puntuaci&#243;n global y de las subescalas&#46; El alfa de Cronbach de la escala global fue de 0&#44;96 mientras que los de las subescalas de dolor y de capacidad funcional fueron de 0&#44;93 y 0&#44;94&#44; respectivamente<span class="elsevierStyleSup">5</span>&#46; </p><span class="elsevierStyleSectionTitle">II&#46; Fiabilidad test-retest o intraobservador</span><p class="elsevierStylePara">La repetibilidad o fiabilidad test-retest se refiere a s&#237;&#44; cuando se administra un cuestionario a la misma poblaci&#243;n en 2 ocasiones diferentes en el tiempo&#44; se obtienen resultados id&#233;nticos o similares&#59; por tanto&#44; mide la estabilidad de las puntuaciones otorgadas por el mismo evaluador en los mismos sujetos y con el mismo m&#233;todo en momentos diferentes&#46; Esta t&#233;cnica comporta dificultades pr&#225;cticas&#46; Por ejempo&#44; si el tiempo transcurrido entre ambas aplicaciones es muy largo&#44; el fen&#243;meno medido puede presentar variaciones&#44; mientras que si es demasiado breve puede haber un recuerdo de las respuestas &#40;efecto de aprendizaje&#41;&#46; En ambos casos se obtiene una medici&#243;n distorsionada de la repetibilidad&#59; adem&#225;s&#44; algunos individuos pueden no aceptar una segunda aplicaci&#243;n del cuestionario&#46; Sin embargo&#44; este m&#233;todo es &#250;til en variables bioqu&#237;micas o de laboratorio&#46; Su an&#225;lisis se realiza mediante el coeficiente de correlaci&#243;n intraclase &#40;CCI&#41; para escalas de medici&#243;n cuantitativa y mediante el &#237;ndice kappa de Cohen para escalas de medici&#243;n cualitativa<span class="elsevierStyleSup">6&#44;7</span>&#46; </p><p class="elsevierStylePara">Una limitaci&#243;n importante del CCI es su dependencia de la variabilidad de los valores observados&#46; Si los sujetos estudiados var&#237;an poco en sus puntuaciones &#40;muestra homog&#233;nea&#41;&#44; el CCI tiende a ser bajo&#44; mientras que en muestras muy heterog&#233;neas tiende a ser m&#225;s elevado&#46; Bland y Altman propusieron un m&#233;todo gr&#225;fico alternativo para evaluar la concordancia&#44; de forma que el resultado no dependiera de la naturaleza del grupo de estudio&#46; Sin embargo&#44; la estimaci&#243;n del grado de acuerdo es subjetiva y no proporciona un &#237;ndice objetivo como el CCI<span class="elsevierStyleSup">8</span>&#46; </p><span class="elsevierStyleSectionTitle"><span class="elsevierStyleItalic">III&#46; Fiabilidad interobservador</span></span><p class="elsevierStylePara">Se refiere al grado de acuerdo que hay entre 2 o m&#225;s evaluadores que valoran a los mismos sujetos con el mismo instrumento&#46; Los problemas m&#225;s importantes en el an&#225;lisis de esta dimensi&#243;n de la fiabilidad son el error sistem&#225;tico y la proporci&#243;n de acuerdos que se debe al azar&#46; Los m&#233;todos estad&#237;sticos m&#225;s utilizados para su evaluaci&#243;n son los comentados en el apartado anterior&#46; </p><p class="elsevierStylePara">En los &#250;ltimos a&#241;os la exploraci&#243;n ecogr&#225;fica ha despertado un gran inter&#233;s como m&#233;todo de evaluaci&#243;n de la actividad o de la respuesta terap&#233;utica de diversas enfermedades reum&#225;ticas&#46; En este sentido&#44; Szkudlarek et al publicaron un estudio de fiabilidad interobservador de los hallazgos ultrasonogr&#225;ficos en articulaciones de los dedos de pacientes con artritis reumatoide que fueron evaluados por 2 investigadores con distinta formaci&#243;n&#46; Se analizaron distintos par&#225;metros &#40;erosi&#243;n &#243;sea&#44; engrosamiento de la membrana sinovial&#44; derrame articular y se&#241;al Power Doppler&#41; que se puntuaron en una escala semicuantitativa de 0 a 4&#44; y tambi&#233;n como presencia o ausencia de cada alteraci&#243;n&#46; Se calcul&#243; la fiabilidad interobservador para cada par&#225;metro mediante los 3 m&#233;todos estad&#237;sticos propuestos&#58; CCI&#44; &#237;ndice kappa y m&#233;todo gr&#225;fico de Bland y Altman&#46; El CCI y el &#237;ndice kappa de los par&#225;metros examinados mostraron una fiabilidad moderada o buena &#40;0&#44;61 a 0&#44;81 y 0&#44;48 a 0&#44;68&#41; con un acuerdo global elevado &#40;del 79 al 91&#37;&#41;<span class="elsevierStyleSup">9</span>&#46; </p><span class="elsevierStyleSectionTitle">Validez</span><p class="elsevierStylePara">La validez de un instrumento se refiere a su capacidad para medir aquello para lo que ha sido dise&#241;ado&#46; Al igual que en el caso de la fiabilidad&#44; hay diferentes dimensiones de la validez de un instrumento&#58; una dimensi&#243;n l&#243;gica o aparente&#44; una de contenido&#44; una de constructo o concepto y una de criterio&#46; </p><span class="elsevierStyleSectionTitle">I&#46; Validez l&#243;gica o aparente</span><p class="elsevierStylePara">La validez l&#243;gica o aparente se refiere al grado en que &#171;parece&#187; que un cuestionario mide lo que quiere medir a juicio de los expertos y de los propios sujetos&#46; La decisi&#243;n sobre si las preguntas deben tener o no validez l&#243;gica ha de tomarse antes de iniciar su redacci&#243;n&#46; Si las preguntas carecen de validez l&#243;gica es muy probable que los sujetos estudiados rechacen contestar las preguntas&#46; No obstante&#44; en algunos casos puede tener inter&#233;s formular preguntas carentes de validez l&#243;gica&#46; Por ejemplo&#44; cuando se intenta abordar temas muy sensibles o conflictivos&#44; la utilizaci&#243;n de preguntas directas &#40;con mucha validez l&#243;gica&#41; puede hacer que el sujeto no conteste o falsee la respuesta&#44; por lo que puede ser preferible realizar preguntas que aborden el tema de forma m&#225;s indirecta&#44; con menor validez l&#243;gica<span class="elsevierStyleSup">2</span>&#46; </p><span class="elsevierStyleSectionTitle">II&#46; Validez de contenido</span><p class="elsevierStylePara">La validez de contenido es el grado en que la medici&#243;n abarca la mayor cantidad de dimensiones del concepto que se quiere estudiar&#59; por tanto&#44; se considera que un instrumento es v&#225;lido por su contenido si contempla todos los aspectos relacionados con el concepto en estudio&#46; Esta dimensi&#243;n de la validez se relaciona con la composici&#243;n del instrumento y valora si &#233;ste contiene una muestra representativa &#40;&#237;tem&#41; de los componentes del constructo que pretende medir&#46; Supone el examen sistem&#225;tico del contenido de la herramienta de medici&#243;n para determinar si sus &#237;tems son relevantes &#40;si todos est&#225;n relacionados con el concepto que se quiere medir&#41; y representativos del dominio que se pretende medir &#40;si representan las caracter&#237;sticas esenciales del constructo y si est&#225;n en las proporciones adecuadas&#41;&#46; </p><p class="elsevierStylePara">La evaluaci&#243;n de la validez de contenido se basa en juicios de diferente procedencia &#40;revisi&#243;n de la literatura m&#233;dica&#44; opini&#243;n de expertos&#44; estudios piloto&#41;&#46; Este proceder debe garantizar&#44; de forma emp&#237;rica&#44; que el contenido del instrumento sea adecuado&#46; </p><p class="elsevierStylePara">Hay tambi&#233;n otras formas de evaluar la validez de contenido&#44; como el an&#225;lisis factorial que explora las respuestas a las preguntas del cuestionario e intenta agruparlas en funci&#243;n de factores subyacentes que identifican las posibles dimensiones&#46; </p><p class="elsevierStylePara">La diferencia entre la validez aparente y la validez de contenido reside en que la evaluaci&#243;n de esta &#250;ltima es un proceso m&#225;s exhaustivo&#44; y quiz&#225;s m&#225;s formal&#44; en el que deber&#237;an participar tanto investigadores y m&#233;dicos cl&#237;nicos como miembros de la poblaci&#243;n diana&#46; </p><span class="elsevierStyleSectionTitle">III&#46; Validez de constructo</span><p class="elsevierStylePara">Eval&#250;a el grado en que el instrumento refleja la teor&#237;a del fen&#243;meno o del concepto que se quiere medir&#46; La validez de constructo garantiza que las mediciones que resulten de las respuestas del cuestionario puedan ser consideradas y utilizadas como medici&#243;n del fen&#243;meno estudiado&#46; Se define&#44; por tanto&#44; como la capacidad de un instrumento para medir adecuadamente un constructo te&#243;rico&#46; La medici&#243;n de conceptos te&#243;ricos requiere una identificaci&#243;n previa del contenido de los instrumentos que se utilizar&#225;n y la elaboraci&#243;n de un modelo conceptual que ayude a interpretar los resultados obtenidos con estos instrumentos&#46; </p><p class="elsevierStylePara">La validaci&#243;n de constructo representa el grado en que una medici&#243;n se relaciona con otras mediciones de manera consistente con las hip&#243;tesis te&#243;ricas que definen el fen&#243;meno o constructo que se quiere medir&#44; y es una de las alternativas m&#225;s frecuentes en caso de ausencia de un criterio de referencia o criterio externo<span class="elsevierStyleSup">10</span>&#46; </p><p class="elsevierStylePara">Un m&#233;todo muy utilizado para evaluar la validez de constructo es el an&#225;lisis factorial&#44; que agrupa las respuestas en funci&#243;n de factores subyacentes&#59; por lo que en estos casos se la denomina validez factorial&#46; Mediante esta t&#233;cnica&#44; se analizan las interrelaciones existentes entre un conjunto de variables para intentar explicarlas a trav&#233;s de la extracci&#243;n de los denominados factores&#46; </p><p class="elsevierStylePara">Otro procedimiento m&#225;s sencillo es examinar si el concepto en cuesti&#243;n se relaciona con otras mediciones de forma consistente a lo esperable mediante an&#225;lisis de regresi&#243;n lineal o coeficientes de correlaci&#243;n &#40;validez convergente&#41;<span class="elsevierStyleSup">2&#44;10</span>&#46; Por ejemplo&#44; la valoraci&#243;n ecogr&#225;fica de la inflamaci&#243;n sinovial ha demostrado validez de constructo&#44; ya que en estudios transversales ha presentado buena concordancia con los &#237;ndices cl&#237;nicos de actividad inflamatoria y en estudios longitudinales se ha observado correlaci&#243;n entre los cambios sinoviales ecogr&#225;ficos tras tratamiento y los cambios cl&#237;nicos y anal&#237;ticos<span class="elsevierStyleSup">11</span>&#46; </p><span class="elsevierStyleSectionTitle">IV&#46; Validez de criterio</span><p class="elsevierStylePara">En general&#44; cuando se dise&#241;a un nuevo instrumento de medici&#243;n se dispone de alg&#250;n m&#233;todo alternativo de medici&#243;n del fen&#243;meno estudiado con validez demostrada&#44; que se lo toma como referencia para determinar la validez del nuevo instrumento&#46; Siempre que se disponga de un m&#233;todo de referencia adecuado se debe evaluar la validez de criterio del nuevo cuestionario&#46; Cuando se habla de validar un cuestionario&#44; los investigadores suelen referirse a la validez de criterio&#46; El criterio externo o criterio de referencia debe ser una medici&#243;n independiente&#44; es decir&#44; debe obtenerse por un m&#233;todo diferente en el que no intervengan los resultados del cuestionario&#46; </p><p class="elsevierStylePara">&#201;ste es el tipo de validez al que generalmente se hace referencia cuando se habla de validar un instrumento y debe seguir los siguientes pasos&#58; a&#41; identificar un criterio externo relevante y fiable&#59; b&#41; conseguir una muestra de sujetos representativa de la poblaci&#243;n en la que ser&#225; usado el instrumento&#59; c&#41; administrar el instrumento y obtener una puntuaci&#243;n para cada sujeto&#44; y d&#41; evaluar a cada uno de los individuos con el criterio externo de referencia&#46; El prototipo de la validez de criterio es el an&#225;lisis de pruebas diagn&#243;sticas&#46; </p><span class="elsevierStyleSectionTitle">An&#225;lisis de pruebas diagn&#243;sticas</span><p class="elsevierStylePara">Se dise&#241;a un cuestionario o una escala para detectar la presencia o ausencia de un determinado proceso&#46; La escala en cuesti&#243;n se considera v&#225;lida si clasifica a los sujetos seg&#250;n presenten o no el proceso con pocos errores&#46; Por esta raz&#243;n&#44; es importante determinar el grado de similitud entre los resultados obtenidos en el cuestionario y los obtenidos de un criterio externo de referencia fiable y ampliamente aceptado como medida v&#225;lida &#40;siempre positivo en presencia del proceso y siempre negativo en ausencia del mismo&#41; del diagn&#243;stico de este proceso&#46; </p><p class="elsevierStylePara">El criterio externo es un criterio dicot&#243;mico &#40;presencia o ausencia de enfermedad&#41;&#44; mientras que la escala del cuestionario es una medici&#243;n continua&#46; En estos casos hay que elegir un valor o un punto de corte a partir del que se considerar&#225; que la cifra obtenida constituye un resultado positivo en la escala&#46; Al establecer este punto de corte se puede clasificar a los sujetos en sanos o enfermos seg&#250;n si el valor obtenido en la prueba es inferior o superior al del punto de corte o umbral elegido&#46; La clasificaci&#243;n generada al elegir un determinado punto de corte comporta 2 tipos de errores&#58; falsos positivos o sujetos sanos diagnosticados como enfermos y falsos negativos o sujetos enfermos diagnosticados como sanos<span class="elsevierStyleSup">11&#44;12</span>&#46; </p><p class="elsevierStylePara">El planteamiento del an&#225;lisis de validez de una prueba diagn&#243;stica se inicia a partir de la construcci&#243;n de una tabla de 2&#215;2 &#40;tabla 2&#41;&#46; </p><p class="elsevierStylePara"><span class="elsevierStyleBold">Tabla 2&#46; An&#225;lisis b&#225;sico de una prueba diagn&#243;stica</span><br></br></p><table><tr><td><span class="elsevierStyleBold">Resultado de la prueba</span></td><td><span class="elsevierStyleBold">Criterio externo de referencia</span></td><td><span class="elsevierStyleBold"></span></td></tr><tr><td><span class="elsevierStyleBold"></span></td><td><span class="elsevierStyleBold">No enfermo</span></td><td><span class="elsevierStyleBold">Enfermo</span></td></tr><tr><td>Positivo</td><td>FP</td><td>VP</td></tr><tr><td>Negativo</td><td>VN</td><td>FN</td></tr><tr><td>TOTAL</td><td>FP&#43;VN</td><td>VP&#43;FN</td></tr></table><br></br>FN&#58; falso negativo&#59; FP&#58; falso positivo&#59; VN&#58; verdadero negativo&#59; VP&#58; verdadero positivo&#46; <p class="elsevierStylePara">La validez de una prueba diagn&#243;stica se eval&#250;a mediante los &#237;ndices de sensibilidad y de especificidad&#46;  </p><p class="elsevierStylePara"><span class="elsevierStyleItalic">Sensibilidad</span></p><p class="elsevierStylePara"> Se denomina sensibilidad &#40;S&#41; de una prueba diagn&#243;stica a la proporci&#243;n de individuos con la enfermedad que tienen un test positivo&#46; Los test muy sensibles son aquellos que detectan a la mayor&#237;a de los individuos enfermos &#40;pocos falsos negativos&#41;&#46;       S    &#61;      Verdaderos      positivos       Total      enfermos      &#61;      VP       VP    &#43;    FN         </p><p class="elsevierStylePara"><span class="elsevierStyleItalic">Especificidad</span></p><p class="elsevierStylePara"> Se denomina especificidad &#40;E&#41; de una prueba diagn&#243;stica a la proporci&#243;n de individuos sin la enfermedad que tienen un resultado negativo en la prueba&#46; Las pruebas m&#225;s espec&#237;ficas son aquellas que descartan la enfermedad en la mayor&#237;a de los sujetos sanos &#40;pocos falsos positivos&#41;&#46;      E   &#61;      Verdaderos      negativos       Total      no      enfermos      &#61;      VN       VN    &#43;    FP         </p><p class="elsevierStylePara">En general&#44; se considera que la prueba diagn&#243;stica tiene una validez aceptable si su sensibilidad y su especificidad son iguales o superiores a 0&#44;80<span class="elsevierStyleSup">2&#44;12&#44;13</span>&#46; </p><p class="elsevierStylePara">Cuando la prueba diagn&#243;stica proporciona un resultado cuantitativo&#44; la sensibilidad y la especificidad dependen del punto de corte elegido&#44; es decir&#44; del valor de la prueba a partir del que se considera que el sujeto presenta un resultado positivo o negativo en el test&#46; La decisi&#243;n del punto de corte debe ser cuidadosamente sopesada pues hay una interdependencia entre la sensibilidad y la especificidad&#44; de forma que el incremento de una de ellas conlleva una disminuci&#243;n de la otra&#46; A la hora de elegir el punto de corte se debe tener en cuenta el objetivo fundamental de la prueba&#46; </p><span class="elsevierStyleSectionTitle">Curvas de eficacia diagn&#243;stica</span><p class="elsevierStylePara">Cuando los valores de una prueba diagn&#243;stica siguen una escala cuantitativa&#44; la sensibilidad y la especificidad var&#237;an seg&#250;n el punto de corte elegido para clasificar a la poblaci&#243;n como enferma o no enferma&#59; es decir&#44; son &#237;ndices de la validez de la prueba diagn&#243;stica para un determinado punto de corte&#46; En esta situaci&#243;n&#44; una medici&#243;n global de la validez de la prueba para el conjunto de todos los posibles puntos de corte se obtiene mediante el uso de curvas ROC &#40;<span class="elsevierStyleItalic">receiver operating characteristics</span>&#8216;curva de eficacia diagn&#243;stica&#8217;&#41; &#40;fig&#46; 1&#41;<span class="elsevierStyleSup">14</span>&#46; Para construir la curva ROC es necesario calcular la sensibilidad y la especificidad para todos los posibles puntos de corte&#46; La sensibilidad &#40;S&#41; o proporci&#243;n de verdaderos positivos se sit&#250;a en el eje de ordenadas &#40;Y&#41; y en el eje de abscisas se coloca el complementario de la especificidad &#40;1-especificidad&#41; o proporci&#243;n de falsos positivos&#59; la curva ROC se dibuja uniendo los pares de valores &#40;1-E&#59; S&#41; correspondientes a cada punto de corte&#46; El &#225;rea bajo la curva &#40;ABC&#41; se define como la probabilidad de clasificar correctamente a un par de individuos &#40;uno sano y uno enfermo&#41; seleccionados al azar al aplicarles la prueba&#46; Este tipo de gr&#225;fico permite valorar 2 situaciones extremas&#58; </p><p class="elsevierStylePara"><img src="273v05n04-13138952fig01.jpg"></img></p><p class="elsevierStylePara">Figura 1&#46; Curva de eficacia diagn&#243;stica&#46;</p><p class="elsevierStylePara">Una prueba con discriminaci&#243;n perfecta &#40;S &#61; 1&#59; E &#61; 1&#41; estar&#225; representada por una curva ROC situada a los lados izquierdo y superior del gr&#225;fico&#46; </p><p class="elsevierStylePara">Una prueba sin discriminaci&#243;n diagn&#243;stica &#40;la probabilidad de diagnosticar correctamente tanto a un sujeto sano como a uno enfermo ser&#225; de 0&#44;5&#59; S &#61; 0&#44;5&#59; E &#61; 0&#44;5&#41; estar&#225; representada por la diagonal principal del gr&#225;fico&#46; </p><p class="elsevierStylePara">La curva ROC facilita la elecci&#243;n del punto de corte&#46; En general&#44; si el coste de cometer un falso positivo es similar al de cometer un falso negativo&#44; el mejor punto de corte es el m&#225;s pr&#243;ximo al &#225;ngulo superior izquierdo del gr&#225;fico<span class="elsevierStyleSup">14</span>&#46; </p><span class="elsevierStyleSectionTitle">Comportamiento de una prueba diagn&#243;stica</span><p class="elsevierStylePara">Adem&#225;s del estudio de la validez de una prueba diagn&#243;stica&#44; es importante evaluar su comportamiento cuando se aplica en diferentes contextos cl&#237;nicos&#46; Para esto&#44; es preciso calcular los valores predictivos y la eficiencia de la prueba&#58;  </p><p class="elsevierStylePara"><span class="elsevierStyleItalic">Valor predictivo positivo</span></p><p class="elsevierStylePara"> Es la proporci&#243;n de sujetos con la enfermedad en el conjunto de individuos con resultado positivo en la prueba&#46; Es decir&#44; es la probabilidad de que un individuo con resultado positivo tenga la enfermedad&#46;       VPP    &#61;      Verdaderos      positivos       Total      positivos      &#61;      VP       VP    &#43;    FP         </p><p class="elsevierStylePara"><span class="elsevierStyleItalic">Valor predictivo negativo</span></p><p class="elsevierStylePara"> Es la proporci&#243;n de sujetos sin la enfermedad en el conjunto de individuos con resultado negativo en la prueba&#46; Es decir&#44; es la probabilidad de que un individuo con resultado negativo no tenga la enfermedad&#46;       VPN    &#61;      Verdaderos      negativos       Total      negativos      &#61;      VN       VN    &#43;    FP         </p><p class="elsevierStylePara"><span class="elsevierStyleItalic">Valor global o eficiencia</span></p><p class="elsevierStylePara"> Es la proporci&#243;n total de sujetos clasificados correctamente&#46;       VG    &#61;      Verdaderos      positivos    &#43;    Verdaderos      negativos       Total      sujetos      &#61;      VP    &#43;    VN       VP    &#43;    FP    &#43;    VN    &#43;    FN         </p><p class="elsevierStylePara">Hay que tener en cuenta que los valores predictivos&#44; tanto positivos como negativos&#44; son &#237;ndices que dependen de la prevalencia o de la probabilidad previa de la enfermedad&#44; es decir&#44; eval&#250;an el comportamiento de la prueba diagn&#243;stica en una poblaci&#243;n con una determinada proporci&#243;n de sujetos sanos&#46; La prevalencia es el factor m&#225;s determinante de los valores predictivos&#46; Al ser caracter&#237;sticas intr&#237;nsecas de una medici&#243;n&#44; la sensibilidad y la especificidad no experimentan grandes variaciones seg&#250;n el lugar en el que se apliquen&#44; siempre que se realice en condiciones similares&#46; Por esta raz&#243;n&#44; la predictividad de una medici&#243;n no se puede evaluar sin considerar la prevalencia de la enfermedad&#59; si es alta&#44; un resultado positivo tiende a confirmar su presencia&#44; mientras que si el resultado es negativo no ayudar&#225; a excluirla&#46; Por el contrario&#44; cuando la prevalencia es baja&#44; un resultado negativo permite descartar la enfermedad con un elevado margen de confianza&#44; pero no permite afirmar su existencia&#46; En general&#44; el valor predictivo positivo disminuye a medida que la prueba diagn&#243;stica se aplica a poblaciones con prevalencia de enfermedad m&#225;s baja&#46; Esto se debe a que una prueba que produce falsos positivos se aplica a una poblaci&#243;n de sujetos mayoritariamente sanos&#44; por lo que en esta situaci&#243;n es relativamente f&#225;cil obtener muchos falsos positivos y&#44; por tanto&#44; el valor predictivo para positivos disminuye<span class="elsevierStyleSup">15</span>&#46;  </p><p class="elsevierStylePara">Razones de probabilidad </p><p class="elsevierStylePara"> Una forma de evitar la influencia de la prevalencia en la validez de una prueba diagn&#243;stica es la utilizaci&#243;n de las llamadas razones de verosimilitud <span class="elsevierStyleItalic">&#40;likelihood ratios&#41;</span> que relacionan la sensibilidad y la especificidad en un solo &#237;ndice&#44; por lo que no var&#237;an con la prevalencia del proceso&#46;  </p><p class="elsevierStylePara"><span class="elsevierStyleItalic">Raz&#243;n de verosimilitud para un resultado positivo</span></p><p class="elsevierStylePara"> Se calcula al dividir la proporci&#243;n de sujetos enfermos con resultado positivo en la prueba &#40;sensibilidad&#41; por la proporci&#243;n de sujetos no enfermos&#44; pero cuyo resultado tambi&#233;n ha sido positivo &#40;1-especificidad&#41;&#46;       RV    &#43;   &#61;      Sensibilidad      1   -    Especificidad         </p><p class="elsevierStylePara"><span class="elsevierStyleItalic">Raz&#243;n de verosimilitud para un resultado negativo</span></p><p class="elsevierStylePara"> Es el cociente entre el complementario de la sensibilidad y la especificidad&#46;       RV    -   &#61;     1   -    Sensibilidad       Especificidad         </p><p class="elsevierStylePara">De estos 2 &#237;ndices&#44; el m&#225;s utilizado en la pr&#225;ctica es la raz&#243;n de verosimilitud para un resultado positivo&#44; por lo que se lo conoce con la denominaci&#243;n gen&#233;rica de &#171;raz&#243;n de verosimilitud&#187;&#46; Si&#44; por ejemplo&#44; se obtiene una raz&#243;n de verosimilitud de 8&#44; este valor indica que en el grupo de enfermos la probabilidad de encontrar un resultado positivo en la prueba es 8 veces superior que en el grupo de no enfermos&#46; </p><p class="elsevierStylePara">Se considera que la raz&#243;n de verosimilitud es una medida m&#225;s para valorar la validez de una prueba diagn&#243;stica&#46; Este &#237;ndice cuenta con la ventaja de relacionar la sensibilidad y la especificidad en una sola medici&#243;n y&#44; por tanto&#44; es independiente de la prevalencia del proceso&#46; Otra utilidad de la raz&#243;n de verosimilitud es que tambi&#233;n permite el c&#225;lculo de los valores predictivos&#46; </p><p class="elsevierStylePara">Con el fin de calcular la sensibilidad y la especificidad del eco Doppler en el diagn&#243;stico de la artritis de manos y mu&#241;ecas y definir un punto de corte para 2 &#237;ndices de inflamaci&#243;n &#40;el &#237;ndice de resistencia y la fracci&#243;n de color&#41;&#44; Terslev et al realizaron un estudio sobre una muestra de 88 pacientes con artritis reumatoide activa y 27 controles sanos&#46; Todos los individuos de la muestra fueron estudiados con eco Doppler para calcular el &#237;ndice de resistencia y la fracci&#243;n de color de las articulaciones de la mu&#241;eca &#40;metacarpofal&#225;ngicas e interfal&#225;ngicas proximales&#41;&#46; Se construyeron curvas ROC para ambos par&#225;metros de inflamaci&#243;n y se seleccionaron los puntos de corte con mayor sensibilidad y especificidad&#46; El &#225;rea bajo la curva fue de 0&#44;84 para ambos &#237;ndices&#46; El punto de corte para la fracci&#243;n de color fue de 0&#44;01 con valores de sensibilidad y especificidad de 0&#44;92 y 0&#44;73&#44; respectivamente&#46; En el caso del &#237;ndice de resistencia&#44; se eligi&#243; como punto de corte el valor 0&#44;83 con sensibilidad y especificidad de 0&#44;72 y de 0&#44;70&#44; respectivamente&#46; Los autores concluyeron que el eco Doppler puede detectar vascularizaci&#243;n de la membrana sinovial inflamada con elevada sensibilidad y moderada especificidad<span class="elsevierStyleSup">16</span>&#46; </p><span class="elsevierStyleSectionTitle">Conclusi&#243;n</span><p class="elsevierStylePara">La utilizaci&#243;n de instrumentos de medici&#243;n inadecuados o no v&#225;lidos puede producir resultados no fiables o confusos&#46; En una revisi&#243;n sistem&#225;tica de diferentes escalas de medici&#243;n de la fatiga en la artritis reumatoide&#44; los autores encontraron que &#250;nicamente 6 de 23 escalas presentaban pruebas de validez razonables&#46; Los autores desarrollaron una serie de preguntas para evaluar la validez de un cuestionario que puede resultar de gran utilidad y que se presentan en la tabla 3<span class="elsevierStyleSup">17</span>&#46; </p><p class="elsevierStylePara"><span class="elsevierStyleBold">Tabla 3&#46; Preguntas para evaluar la validez de un cuestionario</span><br></br></p><table><tr><td><span class="elsevierStyleBold">Concepto</span></td><td><span class="elsevierStyleBold">Pregunta</span></td><td><span class="elsevierStyleBold">Previsible en una escala de fatiga adecuada</span></td></tr><tr><td>Validez</td></tr><tr><td> Validez aparente</td><td>&#191;El m&#233;todo parece sensible&#63;</td><td>El lenguaje refleja las ideas del paciente sobre la fatiga</td></tr><tr><td> Validez de contenido</td><td>&#191;El origen de las preguntas se basa en los pacientes&#63;</td><td>Los pacientes son el origen o los revisores de las preguntas</td></tr><tr><td>&#191;Se han incluido todos los &#237;tems necesarios&#63;</td><td>P&#46; ej&#46;&#44; aspectos f&#237;sicos&#44; emocionales&#44; cognitivos&#44; gravedad&#44; consecuencias</td></tr><tr><td>&#191;Se han evitado todos los &#237;tems confusos&#63;</td><td>&#205;tems que se podr&#237;an confundir con discapacidad</td></tr><tr><td> Validez de criterio</td><td>&#191;Se ha comparado con un criterio externo de fatiga&#63;</td><td>Evaluado frente a otra escala de fatiga</td></tr><tr><td> Validez de constructo</td><td>&#191;Converge con otras variables adecuadas&#63;</td><td>P&#46; ej&#46;&#44; correlaci&#243;n moderada con dolor&#44; inflamaci&#243;n&#44; estado de &#225;nimo&#44; anemia</td></tr><tr><td> </td></tr><tr><td>Fiabilidad</td></tr><tr><td> Consistencia interna</td><td>&#191;Es internamente consistente&#63;</td><td>Correlaci&#243;n inter&#237;tem moderada o elevada</td></tr><tr><td> Estabilidad</td><td>&#191;La escala es estable&#63;</td><td>No se modifica en pacientes estables</td></tr><tr><td> </td></tr><tr><td>Viabilidad</td><td>&#191;Cu&#225;nto tiempo tarda en cumplimentarse&#63;</td><td>10 a 15 min m&#225;ximo</td></tr><tr><td>&#191;Es autorreferida o administrada por un entrevistador&#63;</td><td>Es adecuado que las escalas subjetivas sean autorreferidas</td></tr><tr><td>&#191;Es f&#225;cil de puntuar e interpretar&#63;</td><td>Instrucciones claras</td></tr></table><p class="elsevierStylePara">Autor para correspondencia&#46;<br></br>Ma Jes&#250;s Garc&#237;a de Y&#233;benes Prous<br></br>Direcci&#243;n&#58; mjesus&#46;garciadeyebenes&#64;ser&#46;es</p>"
    "pdfFichero" => "273v05n04a13138952pdf001.pdf"
    "tienePdf" => true
    "PalabrasClave" => array:2 [
      "es" => array:1 [
        0 => array:4 [
          "clase" => "keyword"
          "titulo" => "Palabras clave"
          "identificador" => "xpalclavsec230985"
          "palabras" => array:4 [
            0 => "Cuestionario"
            1 => "Escalas de evaluaci&#243;n"
            2 => "Validez"
            3 => "Fiabilidad"
          ]
        ]
      ]
      "en" => array:1 [
        0 => array:4 [
          "clase" => "keyword"
          "titulo" => "Keywords"
          "identificador" => "xpalclavsec230986"
          "palabras" => array:4 [
            0 => "Questionnaire"
            1 => "Health indices"
            2 => "Validity"
            3 => "Reliability"
          ]
        ]
      ]
    ]
    "tieneResumen" => true
    "resumen" => array:2 [
      "es" => array:1 [
        "resumen" => "El desarrollo de un cuestionario o instrumento de medici&#243;n es un proceso laborioso y complejo y requiere la comprobaci&#243;n de su utilidad antes de su aplicaci&#243;n&#46; Se presenta un trabajo metodol&#243;gico sobre las caracter&#237;sticas psicom&#233;tricas de los instrumentos de evaluaci&#243;n y el an&#225;lisis de sus principales caracter&#237;sticas&#58; la fiabilidad y la validez&#46;"
      ]
      "en" => array:1 [
        "resumen" => "The development of a questionnaire or a measuring instrument is a laborious and complex process and requires verification of its usefulness before implementation&#46; We present a methodological work on the psychometric characteristics of assessment instruments and analysis of their main features&#44; reliability and validity&#46;"
      ]
    ]
    "multimedia" => array:1 [
      0 => array:6 [
        "identificador" => "fig1"
        "tipo" => "MULTIMEDIAFIGURA"
        "mostrarFloat" => true
        "mostrarDisplay" => false
        "copyright" => "Elsevier Espa&#241;a"
        "figura" => array:1 [
          0 => array:4 [
            "imagen" => "273v05n04-13138952fig01.jpg"
            "Alto" => 1629
            "Ancho" => 1634
            "Tamanyo" => 187571
          ]
        ]
      ]
    ]
    "bibliografia" => array:2 [
      "titulo" => "Bibliograf&#237;a"
      "seccion" => array:1 [
        0 => array:1 [
          "bibliografiaReferencia" => array:17 [
            0 => array:3 [
              "identificador" => "bib1"
              "etiqueta" => "1"
              "referencia" => array:1 [
                0 => array:2 [
                  "referenciaCompleta" => "Mart&iacute;n Arribas MC. Dise&ntilde;o y validaci&oacute;n de cuestionarios. Matronas profesi&oacute;n [serial online] 2004 [consultado 19/5/2008]; 5:23&ndash;9. Disponible en: http://www.enferpro.com/documentos/validacion_cuestionarioswww.enferpro.com/documentos/validacion_cuestionarios."
                  "contribucion" => array:1 [
                    0 => array:2 [
                      "titulo" => "Mart&#237;n Arribas MC&#46; Dise&#241;o y validaci&#243;n de cuestionarios&#46; Matronas profesi&#243;n &#91;serial online&#93; 2004 &#91;consultado 19&#47;5&#47;2008&#93;&#59; 5&#58;23&#8211;9&#46; Disponible en&#58; http&#58;&#47;&#47;www&#46;enferpro&#46;com&#47;documentos&#47;validacion&#95;cuestionarioswww&#46;enferpro&#46;com&#47;documentos&#47;validacion&#95;cuestionarios&#46;"
                      "idioma" => "es"
                    ]
                  ]
                ]
              ]
            ]
            1 => array:3 [
              "identificador" => "bib2"
              "etiqueta" => "2"
              "referencia" => array:1 [
                0 => array:2 [
                  "referenciaCompleta" => "M&eacute;todos de investigaci&oacute;n cl&iacute;nica y epidemiol&oacute;gica. Ediciones Harcourt, 2006."
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "M&#233;todos de investigaci&#243;n cl&#237;nica y epidemiol&#243;gica&#46; Ediciones Harcourt&#44; 2006&#46;"
                      "idioma" => "es"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:2 [
                            0 => "Argim&#243;n Pall&#225;s JM"
                            1 => "Jim&#233;nez Vila J&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            2 => array:3 [
              "identificador" => "bib3"
              "etiqueta" => "3"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "A methodological framework for assessing health indices&#46;"
                      "idioma" => "en"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:2 [
                            0 => "Kirshner B"
                            1 => "Guyatt G&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:1 [
                      "Revista" => array:6 [
                        "tituloSerie" => "J Chron Dis"
                        "fecha" => "1985"
                        "volumen" => "38"
                        "paginaInicial" => "27"
                        "paginaFinal" => "36"
                        "link" => array:1 [
                          0 => array:2 [
                            "url" => "https://www.ncbi.nlm.nih.gov/pubmed/3972947"
                            "web" => "Medline"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            3 => array:3 [
              "identificador" => "bib4"
              "etiqueta" => "4"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "Cronbach&#39;s alpha&#46;"
                      "idioma" => "en"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:2 [
                            0 => "Altman DG"
                            1 => "Bland JM&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:1 [
                      "Revista" => array:5 [
                        "tituloSerie" => "BMJ"
                        "fecha" => "1997"
                        "volumen" => "314"
                        "paginaInicial" => "572"
                        "link" => array:1 [
                          0 => array:2 [
                            "url" => "https://www.ncbi.nlm.nih.gov/pubmed/9055718"
                            "web" => "Medline"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            4 => array:3 [
              "identificador" => "bib5"
              "etiqueta" => "5"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "Validity&#44; factor structure and clinical relevance of the AUSCAN Osteoarthritis hand index&#46;"
                      "idioma" => "en"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:4 [
                            0 => "Allen KD"
                            1 => "Jordan JM"
                            2 => "Renner JB"
                            3 => "Kraus VB&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:2 [
                      "doi" => "10.1002/art.21615"
                      "Revista" => array:6 [
                        "tituloSerie" => "Arthritis Rheum"
                        "fecha" => "2006"
                        "volumen" => "54"
                        "paginaInicial" => "551"
                        "paginaFinal" => "556"
                        "link" => array:1 [
                          0 => array:2 [
                            "url" => "https://www.ncbi.nlm.nih.gov/pubmed/16447231"
                            "web" => "Medline"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            5 => array:3 [
              "identificador" => "bib6"
              "etiqueta" => "6"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "La evaluaci&#243;n de la fiabilidad en las observaciones cl&#237;nicas&#58; el coeficiente de correlaci&#243;n intraclase&#46;"
                      "idioma" => "es"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:3 [
                            0 => "Prieto L"
                            1 => "Lamarca R"
                            2 => "Casado A&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:1 [
                      "Revista" => array:5 [
                        "tituloSerie" => "Med Clin"
                        "fecha" => "1998"
                        "volumen" => "110"
                        "paginaInicial" => "142"
                        "paginaFinal" => "145"
                      ]
                    ]
                  ]
                ]
              ]
            ]
            6 => array:3 [
              "identificador" => "bib7"
              "etiqueta" => "7"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "A critical discussion of intraclass correlation coefficients&#46;"
                      "idioma" => "en"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:2 [
                            0 => "M&#252;ller R"
                            1 => "B&#252;ttner P&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:1 [
                      "Revista" => array:6 [
                        "tituloSerie" => "Stat Med"
                        "fecha" => "1994"
                        "volumen" => "13"
                        "paginaInicial" => "2465"
                        "paginaFinal" => "2476"
                        "link" => array:1 [
                          0 => array:2 [
                            "url" => "https://www.ncbi.nlm.nih.gov/pubmed/7701147"
                            "web" => "Medline"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            7 => array:3 [
              "identificador" => "bib8"
              "etiqueta" => "8"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "Statistical methods for assessing agreement between two methods of clinical measurement&#46;"
                      "idioma" => "en"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:2 [
                            0 => "Bland JM"
                            1 => "Altman DG&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:1 [
                      "Revista" => array:6 [
                        "tituloSerie" => "Lancet"
                        "fecha" => "1986"
                        "volumen" => "1"
                        "paginaInicial" => "307"
                        "paginaFinal" => "310"
                        "link" => array:1 [
                          0 => array:2 [
                            "url" => "https://www.ncbi.nlm.nih.gov/pubmed/2563462"
                            "web" => "Medline"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            8 => array:3 [
              "identificador" => "bib9"
              "etiqueta" => "9"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "Interobserver agreement in ultrasonography of the finger and toe joints in rheumatoid arthritis&#46;"
                      "idioma" => "en"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:6 [
                            0 => "Szkudlarek M"
                            1 => "Court-Payen M"
                            2 => "Jacobsen S"
                            3 => "Klarlund M"
                            4 => "Thomsen HS"
                            5 => "Ostergaard M&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:2 [
                      "doi" => "10.1002/art.10877"
                      "Revista" => array:6 [
                        "tituloSerie" => "Arthritis Rheum"
                        "fecha" => "2003"
                        "volumen" => "48"
                        "paginaInicial" => "955"
                        "paginaFinal" => "962"
                        "link" => array:1 [
                          0 => array:2 [
                            "url" => "https://www.ncbi.nlm.nih.gov/pubmed/12687537"
                            "web" => "Medline"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            9 => array:3 [
              "identificador" => "bib10"
              "etiqueta" => "10"
              "referencia" => array:1 [
                0 => array:2 [
                  "referenciaCompleta" => "Van der Hofstadt CJ, Rodr&iacute;guez-Marin J. Adaptaci&oacute;n de un cuestionario para la medida de la representaci&oacute;n de la enfermedad. Psicothema [serial online] 1997 [citado 22 May 2008]; 9:237&ndash;45. Disponible en: URL: www.psicothema.com."
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "Van der Hofstadt CJ&#44; Rodr&#237;guez-Marin J&#46; Adaptaci&#243;n de un cuestionario para la medida de la representaci&#243;n de la enfermedad&#46; Psicothema &#91;serial online&#93; 1997 &#91;citado 22 May 2008&#93;&#59; 9&#58;237&#8211;45&#46; Disponible en&#58; URL&#58; www&#46;psicothema&#46;com&#46;"
                      "idioma" => "es"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:6 [
                            0 => "Szkudlarek M"
                            1 => "Court-Payen M"
                            2 => "Jacobsen S"
                            3 => "Klarlund M"
                            4 => "Thomsen HS"
                            5 => "Ostergaard M&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            10 => array:3 [
              "identificador" => "bib11"
              "etiqueta" => "11"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "Evaluaci&#243;n de la artritis reumatoide por t&#233;cnicas de imagen&#58; ecograf&#237;a&#46;"
                      "idioma" => "es"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:1 [
                            0 => "Naredo E&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:2 [
                      "doi" => "10.1016/S1699-258X(06)73087-X"
                      "Revista" => array:6 [
                        "tituloSerie" => "Reumatol Clin"
                        "fecha" => "2006"
                        "volumen" => "2"
                        "paginaInicial" => "S13"
                        "paginaFinal" => "S17"
                        "link" => array:1 [
                          0 => array:2 [
                            "url" => "https://www.ncbi.nlm.nih.gov/pubmed/21794367"
                            "web" => "Medline"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            11 => array:3 [
              "identificador" => "bib12"
              "etiqueta" => "12"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "La eficacia de las pruebas diagn&#243;sticas &#40;I&#41;&#46;"
                      "idioma" => "es"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:1 [
                            0 => "Pozo Rodr&#237;guez F&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:1 [
                      "Revista" => array:5 [
                        "tituloSerie" => "Med Clin (Barc)"
                        "fecha" => "1988"
                        "volumen" => "90"
                        "paginaInicial" => "779"
                        "paginaFinal" => "785"
                      ]
                    ]
                  ]
                ]
              ]
            ]
            12 => array:3 [
              "identificador" => "bib13"
              "etiqueta" => "13"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "La eficacia de las pruebas diagn&#243;sticas &#40;II&#41;&#46;"
                      "idioma" => "es"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:1 [
                            0 => "Pozo Rodr&#237;guez F&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:2 [
                      "doi" => "10.1016/j.jvoice.2014.09.003"
                      "Revista" => array:6 [
                        "tituloSerie" => "Med Cl&#38;iacute;n (Barc)"
                        "fecha" => "1988"
                        "volumen" => "91"
                        "paginaInicial" => "177"
                        "paginaFinal" => "183"
                        "link" => array:1 [
                          0 => array:2 [
                            "url" => "https://www.ncbi.nlm.nih.gov/pubmed/25795357"
                            "web" => "Medline"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            13 => array:3 [
              "identificador" => "bib14"
              "etiqueta" => "14"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "Las curvas ROC en la evaluaci&#243;n de las pruebas diagn&#243;sticas&#46;"
                      "idioma" => "es"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:3 [
                            0 => "Bargue&#241;o MJ"
                            1 => "Garc&#237;a-Bastos JL"
                            2 => "Gonz&#225;lez-Buitrago JM&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:2 [
                      "doi" => "10.1016/j.jvoice.2014.09.003"
                      "Revista" => array:6 [
                        "tituloSerie" => "Med Cl&#38;iacute;n (Barc)"
                        "fecha" => "1995"
                        "volumen" => "104"
                        "paginaInicial" => "661"
                        "paginaFinal" => "670"
                        "link" => array:1 [
                          0 => array:2 [
                            "url" => "https://www.ncbi.nlm.nih.gov/pubmed/25795357"
                            "web" => "Medline"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            14 => array:3 [
              "identificador" => "bib15"
              "etiqueta" => "15"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "M&#233;todos de investigaci&#243;n en Cardiolog&#237;a Cl&#237;nica &#40;X&#41;&#46; Estudios de evaluaci&#243;n de las pruebas diagn&#243;sticas en Cardiolog&#237;a&#46;"
                      "idioma" => "es"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:2 [
                            0 => "Cabello L&#243;pez JB"
                            1 => "Pozo Rodr&#237;guez F&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:1 [
                      "Revista" => array:6 [
                        "tituloSerie" => "Rev Esp Cardiol"
                        "fecha" => "1997"
                        "volumen" => "50"
                        "paginaInicial" => "507"
                        "paginaFinal" => "519"
                        "link" => array:1 [
                          0 => array:2 [
                            "url" => "https://www.ncbi.nlm.nih.gov/pubmed/9304178"
                            "web" => "Medline"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            15 => array:3 [
              "identificador" => "bib16"
              "etiqueta" => "16"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "Diagnostic sensitivity and specificity of Doppler ultrasound in rheumatoid arthritis&#46;"
                      "idioma" => "en"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:5 [
                            0 => "Terslev L"
                            1 => "Von der Recke P"
                            2 => "Torp-Pedersen S"
                            3 => "Koenig MJ"
                            4 => "Bliddal H&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:1 [
                      "Revista" => array:6 [
                        "tituloSerie" => "J Rheumatol"
                        "fecha" => "2008"
                        "volumen" => "35"
                        "paginaInicial" => "8"
                        "paginaFinal" => "10"
                        "link" => array:1 [
                          0 => array:2 [
                            "url" => "https://www.ncbi.nlm.nih.gov/pubmed/18176987"
                            "web" => "Medline"
                          ]
                        ]
                      ]
                    ]
                  ]
                ]
              ]
            ]
            16 => array:3 [
              "identificador" => "bib17"
              "etiqueta" => "17"
              "referencia" => array:1 [
                0 => array:2 [
                  "contribucion" => array:1 [
                    0 => array:3 [
                      "titulo" => "Measuring fatigue in rheumatoid arthritis&#58; A systematic review of scales in use&#46;"
                      "idioma" => "en"
                      "autores" => array:1 [
                        0 => array:2 [
                          "etal" => false
                          "autores" => array:3 [
                            0 => "Hewlett S"
                            1 => "Mehir M"
                            2 => "Kirwan JR&#46;"
                          ]
                        ]
                      ]
                    ]
                  ]
                  "host" => array:1 [
                    0 => array:1 [
                      "Revista" => array:5 [
                        "tituloSerie" => "Arthritis Care Res"
                        "fecha" => "2007"
                        "volumen" => "57"
                        "paginaInicial" => "429"
                        "paginaFinal" => "439"
                      ]
                    ]
                  ]
                ]
              ]
            ]
          ]
        ]
      ]
    ]
  ]
  "idiomaDefecto" => "es"
  "url" => "/1699258X/0000000500000004/v0_201308010845/S1699258X09000497/v0_201308010846/es/main.assets"
  "Apartado" => array:4 [
    "identificador" => "17501"
    "tipo" => "SECCION"
    "es" => array:2 [
      "titulo" => "Revisi&#243;n"
      "idiomaDefecto" => true
    ]
    "idiomaDefecto" => "es"
  ]
  "PDF" => "https://static.elsevier.es/multimedia/1699258X/0000000500000004/v0_201308010845/S1699258X09000497/v0_201308010846/es/273v05n04a13138952pdf001.pdf?idApp=UINPBA00004M&text.app=https://www.reumatologiaclinica.org/"
  "EPUB" => "https://multimedia.elsevier.es/PublicationsMultimediaV1/item/epub/S1699258X09000497?idApp=UINPBA00004M"
]
Compartir
Información de la revista
Vol. 5. Núm. 4.
Páginas 171-177 (julio - agosto 2009)
Compartir
Compartir
Descargar PDF
Más opciones de artículo
Vol. 5. Núm. 4.
Páginas 171-177 (julio - agosto 2009)
Acceso a texto completo
Validación de cuestionarios
Validation of questionnaires
Visitas
95095
Ma Jesús García de Yébenes Prousa, Francisco Rodríguez Salvanésb, Loreto Carmona Ortellsa
a Unidad de Investigación, Fundación Española de Reumatología, Madrid, España.
b Agencia Laín Entralgo, Madrid, España.
Este artículo ha recibido
Información del artículo
Resumen
Texto completo
Bibliografía
Descargar PDF
Estadísticas
Figuras (1)
El desarrollo de un cuestionario o instrumento de medición es un proceso laborioso y complejo y requiere la comprobación de su utilidad antes de su aplicación. Se presenta un trabajo metodológico sobre las características psicométricas de los instrumentos de evaluación y el análisis de sus principales características: la fiabilidad y la validez.
Palabras clave:
Cuestionario
Escalas de evaluación
Validez
Fiabilidad
The development of a questionnaire or a measuring instrument is a laborious and complex process and requires verification of its usefulness before implementation. We present a methodological work on the psychometric characteristics of assessment instruments and analysis of their main features, reliability and validity.
Keywords:
Questionnaire
Health indices
Validity
Reliability
Texto completo
Introducción

En 1948, la Organización Mundial de la Salud definió«salud» como el completo estado de bienestar físico, mental y social. Desde entonces se han desarrollado numerosas investigaciones para traducir esta definición conceptual en métodos objetivos que, mediante cuestionarios u otros instrumentos, generen escalas e índices para facilitar la medición de las dimensiones del estado de salud. Junto con la entrevista, el cuestionario es la técnica más empleada en investigación. En este artículo se considerará que cuestionarios, escalas e instrumentos son sinónimos de un mismo concepto: técnica de recogida de datos.

La entrevista es una técnica de recogida de datos que requiere el conocimiento de técnicas de comunicación verbal, un guión estructurado y una finalidad específica. Es un instrumento excelente en investigación cualitativa. El cuestionario es un instrumento utilizado para la recogida de información, diseñado para poder cuantificar y universalizar la información y estandarizar el procedimiento de la entrevista. Su finalidad es conseguir la comparabilidad de la información1.

En general, cuando se habla de cuestionarios se hace referencia a escalas de evaluación; por ejemplo, el cuestionario de calidad de vida SF-36 es una escala de evaluación. Por tanto, las escalas de evaluación son aquellos instrumentos o cuestionarios que permiten un escalamiento acumulativo de sus ítems, y que dan puntuaciones globales al final de la evaluación. Su carácter acumulativo las diferencia de los cuestionarios de recogida de datos, los inventarios de síntomas, las entrevistas estandarizadas o los formularios.

Tanto las entrevistas como los cuestionarios basan su información en la validez de la información verbal de percepciones, sentimientos, actitudes o conductas que transmite el encuestado; información que puede ser difícil de contrastar y de traducir a un sistema de medición, es decir, a una puntuación; esta dificultad es la causante de la complejidad de establecer la calidad de este tipo de instrumentos.

La utilización de las escalas de evaluación se basa en la psicofísica y la psicometría. La psicofísica aproxima el proceso de cuantificación de la percepción (trasladar a un sistema numérico fenómenos intangibles, como los síntomas o la discapacidad, mediante analogías). La psicometría permite estudiar la adecuación de la escala al fenómeno objeto de la medición y la calidad de la medida1.

El desarrollo de un cuestionario es un proceso laborioso que puede llevar meses antes de conseguir una versión definitiva que satisfaga las expectativas previstas. Por esto, se debe tender a utilizar cuestionarios que ya hayan demostrado su utilidad en otros estudios, lo que, además, permite comparar resultados. Sin embargo, hay ocasiones en las que es inevitable diseñar nuevos instrumentos, por ejemplo, cuando los instrumentos existentes han mostrado resultados poco satisfactorios o han demostrado su eficacia en medios de aplicación distintos, o bien cuando no haya ningún cuestionario adecuado para medir lo que se pretende medir. En estas circunstancias se justifica el diseño de un nuevo cuestionario y la evaluación de su utilidad antes de su aplicación. Los cuestionarios son instrumentos diseñados para medir una serie de parámetros que, en muchas ocasiones, son conceptos teóricos o abstractos. Estos objetos de medición no directamente observables se denominan «constructos»2.

Un cuestionario válido, como todo instrumento de medición, debe reunir las siguientes características1:

  • 1. Ser sencillo, viable y aceptado por pacientes, usuarios e investigadores (viabilidad).
  • 2. Ser fiable y preciso, es decir, con mediciones libres de error (fiabilidad).
  • 3. Ser adecuado para el problema que se pretende medir (validez de contenido).
  • 4. Reflejar la teoría subyacente en el fenómeno o concepto que se quiere medir (validez de constructo).
  • 5. Ser capaz de medir cambios, tanto en los diferentes individuos como en la respuesta de un mismo individuo a través del tiempo (sensibilidad al cambio).

Mientras la fiabilidad y la validez son exigencias necesarias a todos los instrumentos, la importancia de otras características psicométricas depende del contexto. Por ejemplo, la sensibilidad al cambio es importante si el instrumento se aplica como medida de respuesta en los ensayos clínicos, pero no si se utiliza para un estudio sobre opiniones o actitudes acerca de una enfermedad2.

El análisis de las características métricas del instrumento es un proceso complejo que implica la evaluación de la viabilidad, fiabilidad, validez y sensibilidad al cambio (tabla 1).

Tabla 1. Características de los instrumentos de medición

TérminoSinónimoAspectos que se deben considerarTécnica de análisis
ViabilidadFeasibilityTiempo empleadoEstudio piloto
Claridad de preguntas
Registro, codificación
Interpretación de resultados
FiabilidadReliabilityConsistencia internaAlfa de Cronbach
IntraobservadorCCI, índice kappa, método gráfico de Bland y Altman
InterobservadorCCI, índice kappa, método gráfico de Bland y Altman
ValidezValidityLógica (face validity)Redacción de las preguntas
De contenidoOpinión de expertos
De constructoConstructo análisis factorial
De criterioPruebas diagnósticas
Sensibilidad al cambioResponsivenessIntrínsecaEn función del diseño y del tipo de cambio previsible
Extrínseca


CCI: coeficiente de correlación intraclase.

El objetivo de este trabajo es describir la metodología de estudio de la viabilidad, fiabilidad y validez de los cuestionarios como escalas o instrumentos de medición que permiten obtener y cuantificar datos con el fin de poder comparar información. El análisis de la sensibilidad al cambio no forma parte de este artículo.

Viabilidad

Los mejores instrumentos son inservibles si su aplicación resulta difícil, compleja o costosa. Características como el tiempo empleado en la cumplimentación, la sencillez y la amenidad del formato, el interés, la brevedad y la claridad de las preguntas, así como la facilidad de la corrección, el registro, la codificación y la interpretación de los resultados son aspectos relacionados con la viabilidad (feasibility). Esta característica se estudia mediante la realización de un estudio piloto en un grupo de alrededor de 30 individuos y sus resultados pueden utilizarse para efectuar las modificaciones oportunas al instrumento de medición.

Fiabilidad

La fiabilidad (reliability) es el grado con el que un instrumento mide con precisión, sin error. La fiabilidad mide la proporción de variación en las mediciones que es debida a la diversidad de valores que adopta la variable y no es producto del error; es decir, la fiabilidad mide la proporción de la variancia total atribuible a diferencias verdaderas entre los sujetos2,3. Un instrumento fiable es preciso, es decir, proporciona mediciones libres de error. La variación que se debe a un error puede obedecer a 2 tipos de errores:

  • 1. Sistemático o sesgo: error que se produce de forma sistemática. Por ejemplo, un evaluador puede puntuar siempre por debajo de los otros evaluadores.
  • 2. Aleatorio: error que se produce por factores debidos al azar. Por ejemplo, por diferentes circunstancias, un evaluador puede dar algunas veces puntuaciones superiores y otras veces, puntuaciones inferiores a las correctas. El error aleatorio es el que más afecta la fiabilidad de un instrumento.

La fiabilidad de un instrumento se valora mediante la consistencia interna, la fiabilidad test-retest o intraobservador y la fiabilidad interobservador.

I. Consistencia interna

Esta propiedad se refiere a la coherencia de los componentes del instrumento de medición, es decir, se refiere a que los ítems que miden un mismo atributo presenten homogeneidad entre ellos. Una escala consistente garantiza que todos sus componentes o ítems midan un solo constructo que es homogéneo. Si la escala tiene una elevada consistencia interna, la suma de las puntuaciones puede representar la medición de un único constructo con el que, en general, mantiene una relación lineal.

Los cuestionarios se desarrollan para medir separadamente diferentes componentes o dimensiones de un problema. Por ejemplo, un cuestionario sobre salud puede estar dividido en preguntas sobre salud física y mental; se espera que haya una buena concordancia entre las distintas preguntas que miden un mismo componente. Por consiguiente, si un cuestionario está compuesto por diferentes subescalas, cada una de las cuales pretende medir una dimensión diferente del mismo fenómeno, debe evaluarse la consistencia interna de cada una de ellas2,3. La consistencia interna de una escala de valoración depende del número de ítems que componen el instrumento y de la correlación media entre ellos, y se evalúa en una única aplicación del instrumento mediante el método estadístico alfa de Cronbach4, con valores comprendidos entre 0 y 1, y que se interpreta de forma similar a un coeficiente de correlación.

Por ejemplo, el índice AUSCAN (Australian/Canadian Osteoarthritis Hand Index ‘Índice australiano/canadiense de la osteoartritis de mano’) contiene 3 subescalas que evalúan el dolor (5 ítems), la rigidez (1 ítem) y la capacidad funcional (9 ítems) de pacientes con osteoartritis de las manos durante las 48 h previas. Las subescalas pueden utilizarse de forma individual o sumarse para obtener una única puntuación global. En un estudio se evaluó la consistencia interna de la puntuación global y de las subescalas. El alfa de Cronbach de la escala global fue de 0,96 mientras que los de las subescalas de dolor y de capacidad funcional fueron de 0,93 y 0,94, respectivamente5.

II. Fiabilidad test-retest o intraobservador

La repetibilidad o fiabilidad test-retest se refiere a sí, cuando se administra un cuestionario a la misma población en 2 ocasiones diferentes en el tiempo, se obtienen resultados idénticos o similares; por tanto, mide la estabilidad de las puntuaciones otorgadas por el mismo evaluador en los mismos sujetos y con el mismo método en momentos diferentes. Esta técnica comporta dificultades prácticas. Por ejempo, si el tiempo transcurrido entre ambas aplicaciones es muy largo, el fenómeno medido puede presentar variaciones, mientras que si es demasiado breve puede haber un recuerdo de las respuestas (efecto de aprendizaje). En ambos casos se obtiene una medición distorsionada de la repetibilidad; además, algunos individuos pueden no aceptar una segunda aplicación del cuestionario. Sin embargo, este método es útil en variables bioquímicas o de laboratorio. Su análisis se realiza mediante el coeficiente de correlación intraclase (CCI) para escalas de medición cuantitativa y mediante el índice kappa de Cohen para escalas de medición cualitativa6,7.

Una limitación importante del CCI es su dependencia de la variabilidad de los valores observados. Si los sujetos estudiados varían poco en sus puntuaciones (muestra homogénea), el CCI tiende a ser bajo, mientras que en muestras muy heterogéneas tiende a ser más elevado. Bland y Altman propusieron un método gráfico alternativo para evaluar la concordancia, de forma que el resultado no dependiera de la naturaleza del grupo de estudio. Sin embargo, la estimación del grado de acuerdo es subjetiva y no proporciona un índice objetivo como el CCI8.

III. Fiabilidad interobservador

Se refiere al grado de acuerdo que hay entre 2 o más evaluadores que valoran a los mismos sujetos con el mismo instrumento. Los problemas más importantes en el análisis de esta dimensión de la fiabilidad son el error sistemático y la proporción de acuerdos que se debe al azar. Los métodos estadísticos más utilizados para su evaluación son los comentados en el apartado anterior.

En los últimos años la exploración ecográfica ha despertado un gran interés como método de evaluación de la actividad o de la respuesta terapéutica de diversas enfermedades reumáticas. En este sentido, Szkudlarek et al publicaron un estudio de fiabilidad interobservador de los hallazgos ultrasonográficos en articulaciones de los dedos de pacientes con artritis reumatoide que fueron evaluados por 2 investigadores con distinta formación. Se analizaron distintos parámetros (erosión ósea, engrosamiento de la membrana sinovial, derrame articular y señal Power Doppler) que se puntuaron en una escala semicuantitativa de 0 a 4, y también como presencia o ausencia de cada alteración. Se calculó la fiabilidad interobservador para cada parámetro mediante los 3 métodos estadísticos propuestos: CCI, índice kappa y método gráfico de Bland y Altman. El CCI y el índice kappa de los parámetros examinados mostraron una fiabilidad moderada o buena (0,61 a 0,81 y 0,48 a 0,68) con un acuerdo global elevado (del 79 al 91%)9.

Validez

La validez de un instrumento se refiere a su capacidad para medir aquello para lo que ha sido diseñado. Al igual que en el caso de la fiabilidad, hay diferentes dimensiones de la validez de un instrumento: una dimensión lógica o aparente, una de contenido, una de constructo o concepto y una de criterio.

I. Validez lógica o aparente

La validez lógica o aparente se refiere al grado en que «parece» que un cuestionario mide lo que quiere medir a juicio de los expertos y de los propios sujetos. La decisión sobre si las preguntas deben tener o no validez lógica ha de tomarse antes de iniciar su redacción. Si las preguntas carecen de validez lógica es muy probable que los sujetos estudiados rechacen contestar las preguntas. No obstante, en algunos casos puede tener interés formular preguntas carentes de validez lógica. Por ejemplo, cuando se intenta abordar temas muy sensibles o conflictivos, la utilización de preguntas directas (con mucha validez lógica) puede hacer que el sujeto no conteste o falsee la respuesta, por lo que puede ser preferible realizar preguntas que aborden el tema de forma más indirecta, con menor validez lógica2.

II. Validez de contenido

La validez de contenido es el grado en que la medición abarca la mayor cantidad de dimensiones del concepto que se quiere estudiar; por tanto, se considera que un instrumento es válido por su contenido si contempla todos los aspectos relacionados con el concepto en estudio. Esta dimensión de la validez se relaciona con la composición del instrumento y valora si éste contiene una muestra representativa (ítem) de los componentes del constructo que pretende medir. Supone el examen sistemático del contenido de la herramienta de medición para determinar si sus ítems son relevantes (si todos están relacionados con el concepto que se quiere medir) y representativos del dominio que se pretende medir (si representan las características esenciales del constructo y si están en las proporciones adecuadas).

La evaluación de la validez de contenido se basa en juicios de diferente procedencia (revisión de la literatura médica, opinión de expertos, estudios piloto). Este proceder debe garantizar, de forma empírica, que el contenido del instrumento sea adecuado.

Hay también otras formas de evaluar la validez de contenido, como el análisis factorial que explora las respuestas a las preguntas del cuestionario e intenta agruparlas en función de factores subyacentes que identifican las posibles dimensiones.

La diferencia entre la validez aparente y la validez de contenido reside en que la evaluación de esta última es un proceso más exhaustivo, y quizás más formal, en el que deberían participar tanto investigadores y médicos clínicos como miembros de la población diana.

III. Validez de constructo

Evalúa el grado en que el instrumento refleja la teoría del fenómeno o del concepto que se quiere medir. La validez de constructo garantiza que las mediciones que resulten de las respuestas del cuestionario puedan ser consideradas y utilizadas como medición del fenómeno estudiado. Se define, por tanto, como la capacidad de un instrumento para medir adecuadamente un constructo teórico. La medición de conceptos teóricos requiere una identificación previa del contenido de los instrumentos que se utilizarán y la elaboración de un modelo conceptual que ayude a interpretar los resultados obtenidos con estos instrumentos.

La validación de constructo representa el grado en que una medición se relaciona con otras mediciones de manera consistente con las hipótesis teóricas que definen el fenómeno o constructo que se quiere medir, y es una de las alternativas más frecuentes en caso de ausencia de un criterio de referencia o criterio externo10.

Un método muy utilizado para evaluar la validez de constructo es el análisis factorial, que agrupa las respuestas en función de factores subyacentes; por lo que en estos casos se la denomina validez factorial. Mediante esta técnica, se analizan las interrelaciones existentes entre un conjunto de variables para intentar explicarlas a través de la extracción de los denominados factores.

Otro procedimiento más sencillo es examinar si el concepto en cuestión se relaciona con otras mediciones de forma consistente a lo esperable mediante análisis de regresión lineal o coeficientes de correlación (validez convergente)2,10. Por ejemplo, la valoración ecográfica de la inflamación sinovial ha demostrado validez de constructo, ya que en estudios transversales ha presentado buena concordancia con los índices clínicos de actividad inflamatoria y en estudios longitudinales se ha observado correlación entre los cambios sinoviales ecográficos tras tratamiento y los cambios clínicos y analíticos11.

IV. Validez de criterio

En general, cuando se diseña un nuevo instrumento de medición se dispone de algún método alternativo de medición del fenómeno estudiado con validez demostrada, que se lo toma como referencia para determinar la validez del nuevo instrumento. Siempre que se disponga de un método de referencia adecuado se debe evaluar la validez de criterio del nuevo cuestionario. Cuando se habla de validar un cuestionario, los investigadores suelen referirse a la validez de criterio. El criterio externo o criterio de referencia debe ser una medición independiente, es decir, debe obtenerse por un método diferente en el que no intervengan los resultados del cuestionario.

Éste es el tipo de validez al que generalmente se hace referencia cuando se habla de validar un instrumento y debe seguir los siguientes pasos: a) identificar un criterio externo relevante y fiable; b) conseguir una muestra de sujetos representativa de la población en la que será usado el instrumento; c) administrar el instrumento y obtener una puntuación para cada sujeto, y d) evaluar a cada uno de los individuos con el criterio externo de referencia. El prototipo de la validez de criterio es el análisis de pruebas diagnósticas.

Análisis de pruebas diagnósticas

Se diseña un cuestionario o una escala para detectar la presencia o ausencia de un determinado proceso. La escala en cuestión se considera válida si clasifica a los sujetos según presenten o no el proceso con pocos errores. Por esta razón, es importante determinar el grado de similitud entre los resultados obtenidos en el cuestionario y los obtenidos de un criterio externo de referencia fiable y ampliamente aceptado como medida válida (siempre positivo en presencia del proceso y siempre negativo en ausencia del mismo) del diagnóstico de este proceso.

El criterio externo es un criterio dicotómico (presencia o ausencia de enfermedad), mientras que la escala del cuestionario es una medición continua. En estos casos hay que elegir un valor o un punto de corte a partir del que se considerará que la cifra obtenida constituye un resultado positivo en la escala. Al establecer este punto de corte se puede clasificar a los sujetos en sanos o enfermos según si el valor obtenido en la prueba es inferior o superior al del punto de corte o umbral elegido. La clasificación generada al elegir un determinado punto de corte comporta 2 tipos de errores: falsos positivos o sujetos sanos diagnosticados como enfermos y falsos negativos o sujetos enfermos diagnosticados como sanos11,12.

El planteamiento del análisis de validez de una prueba diagnóstica se inicia a partir de la construcción de una tabla de 2×2 (tabla 2).

Tabla 2. Análisis básico de una prueba diagnóstica

Resultado de la pruebaCriterio externo de referencia
No enfermoEnfermo
PositivoFPVP
NegativoVNFN
TOTALFP+VNVP+FN


FN: falso negativo; FP: falso positivo; VN: verdadero negativo; VP: verdadero positivo.

La validez de una prueba diagnóstica se evalúa mediante los índices de sensibilidad y de especificidad.

Sensibilidad

Se denomina sensibilidad (S) de una prueba diagnóstica a la proporción de individuos con la enfermedad que tienen un test positivo. Los test muy sensibles son aquellos que detectan a la mayoría de los individuos enfermos (pocos falsos negativos). S = Verdaderos positivos Total enfermos = VP VP + FN

Especificidad

Se denomina especificidad (E) de una prueba diagnóstica a la proporción de individuos sin la enfermedad que tienen un resultado negativo en la prueba. Las pruebas más específicas son aquellas que descartan la enfermedad en la mayoría de los sujetos sanos (pocos falsos positivos). E = Verdaderos negativos Total no enfermos = VN VN + FP

En general, se considera que la prueba diagnóstica tiene una validez aceptable si su sensibilidad y su especificidad son iguales o superiores a 0,802,12,13.

Cuando la prueba diagnóstica proporciona un resultado cuantitativo, la sensibilidad y la especificidad dependen del punto de corte elegido, es decir, del valor de la prueba a partir del que se considera que el sujeto presenta un resultado positivo o negativo en el test. La decisión del punto de corte debe ser cuidadosamente sopesada pues hay una interdependencia entre la sensibilidad y la especificidad, de forma que el incremento de una de ellas conlleva una disminución de la otra. A la hora de elegir el punto de corte se debe tener en cuenta el objetivo fundamental de la prueba.

Curvas de eficacia diagnóstica

Cuando los valores de una prueba diagnóstica siguen una escala cuantitativa, la sensibilidad y la especificidad varían según el punto de corte elegido para clasificar a la población como enferma o no enferma; es decir, son índices de la validez de la prueba diagnóstica para un determinado punto de corte. En esta situación, una medición global de la validez de la prueba para el conjunto de todos los posibles puntos de corte se obtiene mediante el uso de curvas ROC (receiver operating characteristics‘curva de eficacia diagnóstica’) (fig. 1)14. Para construir la curva ROC es necesario calcular la sensibilidad y la especificidad para todos los posibles puntos de corte. La sensibilidad (S) o proporción de verdaderos positivos se sitúa en el eje de ordenadas (Y) y en el eje de abscisas se coloca el complementario de la especificidad (1-especificidad) o proporción de falsos positivos; la curva ROC se dibuja uniendo los pares de valores (1-E; S) correspondientes a cada punto de corte. El área bajo la curva (ABC) se define como la probabilidad de clasificar correctamente a un par de individuos (uno sano y uno enfermo) seleccionados al azar al aplicarles la prueba. Este tipo de gráfico permite valorar 2 situaciones extremas:

Figura 1. Curva de eficacia diagnóstica.

Una prueba con discriminación perfecta (S = 1; E = 1) estará representada por una curva ROC situada a los lados izquierdo y superior del gráfico.

Una prueba sin discriminación diagnóstica (la probabilidad de diagnosticar correctamente tanto a un sujeto sano como a uno enfermo será de 0,5; S = 0,5; E = 0,5) estará representada por la diagonal principal del gráfico.

La curva ROC facilita la elección del punto de corte. En general, si el coste de cometer un falso positivo es similar al de cometer un falso negativo, el mejor punto de corte es el más próximo al ángulo superior izquierdo del gráfico14.

Comportamiento de una prueba diagnóstica

Además del estudio de la validez de una prueba diagnóstica, es importante evaluar su comportamiento cuando se aplica en diferentes contextos clínicos. Para esto, es preciso calcular los valores predictivos y la eficiencia de la prueba:

Valor predictivo positivo

Es la proporción de sujetos con la enfermedad en el conjunto de individuos con resultado positivo en la prueba. Es decir, es la probabilidad de que un individuo con resultado positivo tenga la enfermedad. VPP = Verdaderos positivos Total positivos = VP VP + FP

Valor predictivo negativo

Es la proporción de sujetos sin la enfermedad en el conjunto de individuos con resultado negativo en la prueba. Es decir, es la probabilidad de que un individuo con resultado negativo no tenga la enfermedad. VPN = Verdaderos negativos Total negativos = VN VN + FP

Valor global o eficiencia

Es la proporción total de sujetos clasificados correctamente. VG = Verdaderos positivos + Verdaderos negativos Total sujetos = VP + VN VP + FP + VN + FN

Hay que tener en cuenta que los valores predictivos, tanto positivos como negativos, son índices que dependen de la prevalencia o de la probabilidad previa de la enfermedad, es decir, evalúan el comportamiento de la prueba diagnóstica en una población con una determinada proporción de sujetos sanos. La prevalencia es el factor más determinante de los valores predictivos. Al ser características intrínsecas de una medición, la sensibilidad y la especificidad no experimentan grandes variaciones según el lugar en el que se apliquen, siempre que se realice en condiciones similares. Por esta razón, la predictividad de una medición no se puede evaluar sin considerar la prevalencia de la enfermedad; si es alta, un resultado positivo tiende a confirmar su presencia, mientras que si el resultado es negativo no ayudará a excluirla. Por el contrario, cuando la prevalencia es baja, un resultado negativo permite descartar la enfermedad con un elevado margen de confianza, pero no permite afirmar su existencia. En general, el valor predictivo positivo disminuye a medida que la prueba diagnóstica se aplica a poblaciones con prevalencia de enfermedad más baja. Esto se debe a que una prueba que produce falsos positivos se aplica a una población de sujetos mayoritariamente sanos, por lo que en esta situación es relativamente fácil obtener muchos falsos positivos y, por tanto, el valor predictivo para positivos disminuye15.

Razones de probabilidad

Una forma de evitar la influencia de la prevalencia en la validez de una prueba diagnóstica es la utilización de las llamadas razones de verosimilitud (likelihood ratios) que relacionan la sensibilidad y la especificidad en un solo índice, por lo que no varían con la prevalencia del proceso.

Razón de verosimilitud para un resultado positivo

Se calcula al dividir la proporción de sujetos enfermos con resultado positivo en la prueba (sensibilidad) por la proporción de sujetos no enfermos, pero cuyo resultado también ha sido positivo (1-especificidad). RV + = Sensibilidad 1 - Especificidad

Razón de verosimilitud para un resultado negativo

Es el cociente entre el complementario de la sensibilidad y la especificidad. RV - = 1 - Sensibilidad Especificidad

De estos 2 índices, el más utilizado en la práctica es la razón de verosimilitud para un resultado positivo, por lo que se lo conoce con la denominación genérica de «razón de verosimilitud». Si, por ejemplo, se obtiene una razón de verosimilitud de 8, este valor indica que en el grupo de enfermos la probabilidad de encontrar un resultado positivo en la prueba es 8 veces superior que en el grupo de no enfermos.

Se considera que la razón de verosimilitud es una medida más para valorar la validez de una prueba diagnóstica. Este índice cuenta con la ventaja de relacionar la sensibilidad y la especificidad en una sola medición y, por tanto, es independiente de la prevalencia del proceso. Otra utilidad de la razón de verosimilitud es que también permite el cálculo de los valores predictivos.

Con el fin de calcular la sensibilidad y la especificidad del eco Doppler en el diagnóstico de la artritis de manos y muñecas y definir un punto de corte para 2 índices de inflamación (el índice de resistencia y la fracción de color), Terslev et al realizaron un estudio sobre una muestra de 88 pacientes con artritis reumatoide activa y 27 controles sanos. Todos los individuos de la muestra fueron estudiados con eco Doppler para calcular el índice de resistencia y la fracción de color de las articulaciones de la muñeca (metacarpofalángicas e interfalángicas proximales). Se construyeron curvas ROC para ambos parámetros de inflamación y se seleccionaron los puntos de corte con mayor sensibilidad y especificidad. El área bajo la curva fue de 0,84 para ambos índices. El punto de corte para la fracción de color fue de 0,01 con valores de sensibilidad y especificidad de 0,92 y 0,73, respectivamente. En el caso del índice de resistencia, se eligió como punto de corte el valor 0,83 con sensibilidad y especificidad de 0,72 y de 0,70, respectivamente. Los autores concluyeron que el eco Doppler puede detectar vascularización de la membrana sinovial inflamada con elevada sensibilidad y moderada especificidad16.

Conclusión

La utilización de instrumentos de medición inadecuados o no válidos puede producir resultados no fiables o confusos. En una revisión sistemática de diferentes escalas de medición de la fatiga en la artritis reumatoide, los autores encontraron que únicamente 6 de 23 escalas presentaban pruebas de validez razonables. Los autores desarrollaron una serie de preguntas para evaluar la validez de un cuestionario que puede resultar de gran utilidad y que se presentan en la tabla 317.

Tabla 3. Preguntas para evaluar la validez de un cuestionario

ConceptoPreguntaPrevisible en una escala de fatiga adecuada
Validez
Validez aparente¿El método parece sensible?El lenguaje refleja las ideas del paciente sobre la fatiga
Validez de contenido¿El origen de las preguntas se basa en los pacientes?Los pacientes son el origen o los revisores de las preguntas
¿Se han incluido todos los ítems necesarios?P. ej., aspectos físicos, emocionales, cognitivos, gravedad, consecuencias
¿Se han evitado todos los ítems confusos?Ítems que se podrían confundir con discapacidad
Validez de criterio¿Se ha comparado con un criterio externo de fatiga?Evaluado frente a otra escala de fatiga
Validez de constructo¿Converge con otras variables adecuadas?P. ej., correlación moderada con dolor, inflamación, estado de ánimo, anemia
Fiabilidad
Consistencia interna¿Es internamente consistente?Correlación interítem moderada o elevada
Estabilidad¿La escala es estable?No se modifica en pacientes estables
Viabilidad¿Cuánto tiempo tarda en cumplimentarse?10 a 15 min máximo
¿Es autorreferida o administrada por un entrevistador?Es adecuado que las escalas subjetivas sean autorreferidas
¿Es fácil de puntuar e interpretar?Instrucciones claras

Autor para correspondencia.

Ma Jesús García de Yébenes Prous

Dirección: mjesus.garciadeyebenes@ser.es

Bibliografía
[1]
Martín Arribas MC. Diseño y validación de cuestionarios. Matronas profesión [serial online] 2004 [consultado 19/5/2008]; 5:23–9. Disponible en: http://www.enferpro.com/documentos/validacion_cuestionarioswww.enferpro.com/documentos/validacion_cuestionarios.
[2]
Métodos de investigación clínica y epidemiológica. Ediciones Harcourt, 2006.
[3]
Kirshner B, Guyatt G..
A methodological framework for assessing health indices..
J Chron Dis, 38 (1985), pp. 27-36
[4]
Altman DG, Bland JM..
Cronbach's alpha..
BMJ, 314 (1997), pp. 572
[5]
Allen KD, Jordan JM, Renner JB, Kraus VB..
Validity, factor structure and clinical relevance of the AUSCAN Osteoarthritis hand index..
Arthritis Rheum, 54 (2006), pp. 551-556
[6]
Prieto L, Lamarca R, Casado A..
La evaluación de la fiabilidad en las observaciones clínicas: el coeficiente de correlación intraclase..
Med Clin, 110 (1998), pp. 142-145
[7]
Müller R, Büttner P..
A critical discussion of intraclass correlation coefficients..
Stat Med, 13 (1994), pp. 2465-2476
[8]
Bland JM, Altman DG..
Statistical methods for assessing agreement between two methods of clinical measurement..
Lancet, 1 (1986), pp. 307-310
[9]
Szkudlarek M, Court-Payen M, Jacobsen S, Klarlund M, Thomsen HS, Ostergaard M..
Interobserver agreement in ultrasonography of the finger and toe joints in rheumatoid arthritis..
Arthritis Rheum, 48 (2003), pp. 955-962
[10]
Van der Hofstadt CJ, Rodríguez-Marin J. Adaptación de un cuestionario para la medida de la representación de la enfermedad. Psicothema [serial online] 1997 [citado 22 May 2008]; 9:237–45. Disponible en: URL: www.psicothema.com.
[11]
Naredo E..
Evaluación de la artritis reumatoide por técnicas de imagen: ecografía..
Reumatol Clin, 2 (2006), pp. S13-S17
[12]
Pozo Rodríguez F..
La eficacia de las pruebas diagnósticas (I)..
Med Clin (Barc), 90 (1988), pp. 779-785
[13]
Pozo Rodríguez F..
La eficacia de las pruebas diagnósticas (II)..
Med Cl&iacute;n (Barc), 91 (1988), pp. 177-183
[14]
Bargueño MJ, García-Bastos JL, González-Buitrago JM..
Las curvas ROC en la evaluación de las pruebas diagnósticas..
Med Cl&iacute;n (Barc), 104 (1995), pp. 661-670
[15]
Cabello López JB, Pozo Rodríguez F..
Métodos de investigación en Cardiología Clínica (X). Estudios de evaluación de las pruebas diagnósticas en Cardiología..
Rev Esp Cardiol, 50 (1997), pp. 507-519
[16]
Terslev L, Von der Recke P, Torp-Pedersen S, Koenig MJ, Bliddal H..
Diagnostic sensitivity and specificity of Doppler ultrasound in rheumatoid arthritis..
J Rheumatol, 35 (2008), pp. 8-10
[17]
Hewlett S, Mehir M, Kirwan JR..
Measuring fatigue in rheumatoid arthritis: A systematic review of scales in use..
Arthritis Care Res, 57 (2007), pp. 429-439
Idiomas
Reumatología Clínica
Opciones de artículo
Herramientas
es en

¿Es usted profesional sanitario apto para prescribir o dispensar medicamentos?

Are you a health professional able to prescribe or dispense drugs?