Validez (estadística)

Artículo principal: Validez de las pruebas

Validez (precisión) Editar

Ver también: Precisión y exactitud

La validez de una evaluación es el grado en que mide lo que se supone que debe medir. No es lo mismo que la fiabilidad, que es el grado en que una medición da resultados que son muy consistentes. Dentro de la validez, la medida no siempre tiene que ser similar, como ocurre con la fiabilidad. Sin embargo, el hecho de que una medida sea fiable no significa que sea válida. Por ejemplo, una báscula que se desvía 5 libras es fiable pero no válida. Una prueba no puede ser válida si no es fiable. La validez también depende de que la medida mida lo que se ha diseñado para medir, y no otra cosa en su lugar. La validez (al igual que la fiabilidad) es un concepto relativo; la validez no es una idea de todo o nada. Hay muchos tipos diferentes de validez.

Validez de constructoEditar

Artículo principal: Validez de constructo

La validez de constructo se refiere a la medida en que las operacionalizaciones de un constructo (por ejemplo, las pruebas prácticas desarrolladas a partir de una teoría) miden un constructo tal como lo define una teoría. Incluye todos los demás tipos de validez. Por ejemplo, la medida en que un test mide la inteligencia es una cuestión de validez de constructo. Una medida de la inteligencia presupone, entre otras cosas, que la medida se asocia con cosas con las que debería estar asociada (validez convergente), y no se asocia con cosas con las que no debería estar asociada (validez discriminante).

La evidencia de la validez de constructo implica el apoyo empírico y teórico para la interpretación del constructo. Estas líneas de evidencia incluyen los análisis estadísticos de la estructura interna del test, incluyendo las relaciones entre las respuestas a los diferentes ítems del test. También incluyen las relaciones entre el test y las medidas de otros constructos. Tal y como se entiende actualmente, la validez de constructo no es distinta del apoyo a la teoría sustantiva del constructo que el test está diseñado para medir. Como tal, los experimentos diseñados para revelar aspectos del papel causal del constructo también contribuyen a las pruebas de validez de constructo.

Validez de contenidoEditar

La validez de contenido es un tipo de validez no estadística que implica «el examen sistemático del contenido del test para determinar si cubre una muestra representativa del dominio de comportamiento que se va a medir» (Anastasi & Urbina, 1997 p. 114). Por ejemplo, ¿un cuestionario de CI tiene ítems que cubren todas las áreas de la inteligencia discutidas en la literatura científica?

La prueba de validez de contenido implica el grado en que el contenido de la prueba coincide con un dominio de contenido asociado al constructo. Por ejemplo, una prueba de la capacidad de sumar dos números debería incluir una gama de combinaciones de dígitos. Una prueba que sólo incluya números de una cifra, o sólo números pares, no tendría una buena cobertura del dominio de contenido. Las pruebas relacionadas con el contenido suelen consistir en que un experto en la materia (SME) evalúe los ítems del test en función de las especificaciones del mismo. Antes de pasar a la administración final de los cuestionarios, el investigador debe consultar la validez de los ítems con respecto a cada uno de los constructos o variables y, en consecuencia, modificar los instrumentos de medición sobre la base de la opinión del SME.

Una prueba tiene la validez de contenido incorporada mediante la selección cuidadosa de los ítems que se incluyen (Anastasi & Urbina, 1997). Los ítems se eligen de manera que cumplan con la especificación de la prueba, que se elabora mediante un examen exhaustivo del dominio de la materia. Foxcroft, Paterson, le Roux & Herbst (2004, p. 49) señalan que utilizando un panel de expertos para revisar las especificaciones del test y la selección de los ítems se puede mejorar la validez de contenido de un test. Los expertos podrán revisar los ítems y comentar si los ítems cubren una muestra representativa del dominio del comportamiento.

Validez facialEditar

La validez facial es una estimación de si un test parece medir un determinado criterio; no garantiza que el test mida realmente los fenómenos de ese dominio. Las medidas pueden tener una alta validez, pero cuando el test no parece medir lo que es, tiene una baja validez facial. De hecho, cuando una prueba está sujeta a la falsificación (malingering), la baja validez aparente puede hacer que la prueba sea más válida. Teniendo en cuenta que se pueden obtener respuestas más sinceras con una validez facial baja, a veces es importante hacer que parezca que hay una validez facial baja mientras se administran las medidas.

La validez facial está muy relacionada con la validez de contenido. Mientras que la validez de contenido depende de una base teórica para suponer si un test está evaluando todos los dominios de un determinado criterio (por ejemplo, ¿evaluar las habilidades de adición da una buena medida de las habilidades matemáticas? Para responder a esto hay que saber qué tipos diferentes de habilidades aritméticas incluyen las habilidades matemáticas) la validez facial se refiere a si una prueba parece ser una buena medida o no. Este juicio se hace en la «cara» de la prueba, por lo que también puede ser juzgado por el aficionado.

La validez de la cara es un punto de partida, pero nunca debe asumirse como probablemente válida para un propósito determinado, ya que los «expertos» se han equivocado antes-el Malleus Malificarum (Martillo de las Brujas) no tenía ningún apoyo para sus conclusiones más que la competencia auto-imaginada de dos «expertos» en la «detección de la brujería», sin embargo, fue utilizado como una «prueba» para condenar y quemar en la hoguera a decenas de miles de hombres y mujeres como «brujas.»

Validez de criterioEditar

La prueba de validez de criterio implica la correlación entre la prueba y una variable (o variables) de criterio tomada como representativa del constructo. En otras palabras, compara el test con otras medidas o resultados (los criterios) que ya se consideran válidos. Por ejemplo, las pruebas de selección de empleados suelen validarse con medidas de rendimiento laboral (el criterio), y las pruebas de CI suelen validarse con medidas de rendimiento académico (el criterio).

Si los datos de la prueba y los datos del criterio se recogen al mismo tiempo, esto se denomina prueba de validez concurrente. Si los datos de la prueba se recogen primero para predecir los datos del criterio recogidos en un momento posterior, se habla de pruebas de validez predictiva.

Validez concurrenteEditar

La validez concurrente se refiere al grado en que la operacionalización se correlaciona con otras medidas del mismo constructo que se miden al mismo tiempo. Cuando la medida se compara con otra medida del mismo tipo, estarán relacionadas (o correlacionadas). Volviendo al ejemplo de la prueba de selección, esto significaría que las pruebas se administran a los empleados actuales y luego se correlacionan con sus puntuaciones en las evaluaciones de rendimiento.

Validez predictivaEditar

La validez predictiva se refiere al grado en que la operacionalización puede predecir (o correlacionar con) otras medidas del mismo constructo que se miden en algún momento en el futuro. De nuevo, con el ejemplo de la prueba de selección, esto significaría que las pruebas se administran a los solicitantes, se contrata a todos los solicitantes, se revisa su rendimiento en un momento posterior y luego se correlacionan sus puntuaciones en las dos medidas.

También es cuando la medición predice una relación entre lo que se mide y algo más; prediciendo si la otra cosa sucederá o no en el futuro. Una alta correlación entre los resultados predichos ex-ante y los reales ex-post es la prueba más fuerte de validez.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.