Search form

Sección 4. Seleccionar un diseño experimental adecuado

  • ¿Qué queremos decir  por un diseño para la evaluación?

  • ¿Por qué se debería escoger un diseño para su evaluación?

  • ¿Cuándo debería hacerse?

  • ¿Quién debería estar involucrado en la selección de un diseño?

  • ¿Cómo seleccionar un diseño apropiado para su evaluación?

Cuando usted escucha la palabra “experimento,” pueden venir a su mente imágenes de personas en largas gabachas blancas mirando detenidamente a través de microscopios. En realidad, un experimento es solo tratar algo para ver cómo o por qué o si en realidad funciona. Esto puede ser tan simple como poner una especia en su platillo favorito, o tan complejo para desarrollar y evaluar un esfuerzo comprensivo para mejorar los resultados de la salud infantil en una ciudad o estado.

Los académicos y otros investigadores en la salud pública y las ciencias sociales llevan a cabo experimentos para entender cómo los ambientes afectan el comportamiento y los resultados, así sus experimentos usualmente involucra personas y aspectos del ambiente. Un nuevo programa comunitario o intervención es un experimento, también, uno que involucra a una organización gubernamental o comunitaria para encontrar una mejor manera de tratar un asunto comunitario.Esto usualmente comienza con la suposición acerca de qué funcionará – algunas veces llamado la teoría del cambio – la suposición no es una garantía. Como cualquier experimento, un programa o intervención tiene que ser evaluado para ver si realmente funciona y en qué condiciones.

En esta sección, nosotros veremos algunas de las mejores maneras que usted podría estructurar una evaluación para examinar si su programa está trabajando, y explorar cómo escoger la que mejor satisface sus necesidades. Estas disposiciones para el descubrimiento son conocidos como diseños experimentales (o evaluativos).

¿Qué queremos decir por un diseño para la evaluación?

Cada evaluación es esencialmente un proyecto de investigación o de pruebas documentales. Su investigación podría tratar de determinar cuán efectivo su programa o esfuerzo es en general, cuales partes del todo están funcionando bien y cuáles necesitan ajustarse, o si algunos participantes responden a ciertos métodos o condiciones de manera diferente de los otros. Para que sus resultados sean confiables, usted tiene que darle a la evaluación una estructura que le dirá qué es lo que usted quiere saber. Esa estructura – la disposición de pruebas documentales- es el diseño de la evaluación.

El diseño depende de qué tipos de preguntas su evaluación intenta responder.

Algunos de las preguntas (investigativas) de evaluación más comunes son:

  • ¿Causa un programa o intervención particular – ya sea un programa instructivo o motivacional, que mejora el acceso y las oportunidades, o un cambio de política – un cambio particular en el comportamiento de los participantes o de otros, en condiciones sociales o físicas, en resultados de desarrollo o de salud, u otros indicadores de éxito?
  • ¿Qué componente(s) y elemento(s) del programa o intervención fueron responsables del cambio?
  • ¿Cuáles son los efectos no previstos de una intervención, y cómo ellos influenciaron los resultados?
  • Si usted trata un método o actividad nuevo, ¿qué pasa?
  • ¿El programa que funcionó en otro contexto, o el que usted leyó en una revista profesional, funcionará en su comunidad, o con su población, o con su asunto?

Si usted quiere respuestas confiables a preguntas de evaluación como éstas, usted tiene que preguntarles de manera que refleje si usted en realidad obtuvo resultados, y si esos resultados se dieron debido a sus acciones o las circunstancias que usted creó, o a otros factores. En otras palabras, usted tiene que crear un diseño para su investigación – o evaluación -  que le dé respuestas claras a sus preguntas. Nosotros discutimos cómo hacer esto más adelante en esta sección.

¿Por qué debería escoger un diseño para su evaluación?

Una evaluación puede parecer simple: si usted ve progreso hacia su meta al final del periodo de evaluación, usted está muy bien; si usted no lo ve, usted necesita cambiar. Desafortunadamente, esto no es tan simple. Primero, ¿cómo medirá su progreso? Segundo, si parece no haber ninguno, ¿cómo sabe usted lo que debe cambiar para aumentar su efectividad? Tercero, si hay progreso, ¿cómo sabe qué fue causado por (o contribuido por) su programa, y no por algo más? Y finalmente, aún si le está yendo bien, ¿cómo decidirá qué puede hacer mejor, y que elementos de su programa pueden ser cambiados o eliminados sin afectar su éxito? Un buen diseño para su evaluación le ayudará a responder preguntas importantes como éstas.

Algunas razones específicas para invertir tiempo para diseñar su evaluación cuidadosamente incluye:

  • Para que su evaluación sea confiable. Un buen diseño le dará resultados precisos. Si diseña su evaluación bien, usted puede confiar en ella para que le diga si usted realmente está teniendo un efecto, y el por qué. Entender su programa hasta este punto hace que sea más fácil obtener y mantener el éxito.
  • Para que se puedan ubicar con exactitud áreas a mejorar, así como en aquellas que son exitosas. Un buen diseño puede ayudarlo a entender exactamente donde están los puntos fuertes y los débiles de su programa o intervención, y darle pistas de cómo ellos pueden más aún fortalecer o cambiar para tener un mayor impacto.
  • Para que sus resultados sean creíbles. Si su evaluación está diseñada apropiadamente, otros tomarán sus resultados seriamente. Si su bien diseñada evaluación muestra que su programa es efectivo, usted tiene más posibilidad de convencer a otros de usar métodos similares, y de convencer a financiadores que su organización es una buena inversión.
  • Para que usted pueda identificar factores no relacionados con lo que usted está haciendo que tengan un efecto –positivo o negativo – en sus resultados y en las vidas de los participantes. Los antecedentes de los participantes, eventos nacionales o locales cruciales, el paso del tiempo, las crisis personales, y muchos otros factores pueden influenciar los resultados de un programa o intervención para bien o para mal. Un buen diseño evaluativo puede ayudarle a identificar estos, y puede o corregirlos si usted puede, o crear métodos para tratarlos o incorporarlos.
  • Para que usted pueda identificar consecuencias no intencionadas (ambas positivas o negativas) y corregirlas. Un buen diseño puede mostrarle todo lo que resultó de su programa o intervención, no solo lo que usted esperaba. Si usted entiende que su trabajo tiene consecuencias que son negativas así como positivas, o que tiene más y/o diferentes consecuencias positivas de las que usted anticipó, usted puede ajustarlo como corresponde.
  • Para que usted tenga un plan coherente y una estructura organizada para su evaluación. Será mucho más fácil llevar a cabo su evaluación si ésta tiene un diseño apropiado. Usted sabrá mejor qué es lo que usted necesita para así obtener la información que usted necesita. Invertir tiempo para escoger y organizar un diseño evaluativo le dará muy buenos resultados de vuelta con respecto al tiempo que se ahorra después y a la calidad de la información que usted obtiene.

¿Cuándo debería escoger un diseño para su evaluación?

Una vez que usted haya determinado sus preguntas de evaluación y haya reunido y organizado toda la información que usted pueda acerca del asunto y las maneras de tratarlo, lo siguiente es escoger un diseño para la evaluación.  Idealmente, esto todo se lleva a cabo al comienzo del proceso al juntarlo todo en un programa o intervención. Como hemos discutido un número de veces, su evaluación debería ser una parte integral de su programa, y su planeamiento debería por lo tanto ser una parte integral de la planeación de su programa.

Este es el ideal; ahora hablemos acerca de la realidad. Si usted está leyendo esto, las posibilidades son probablemente por lo menos 50-50 que usted está conectado a alguna agencia gubernamental poco financiada o a una organización no gubernamental o basada en la comunidad, y que usted está planeando una evaluación de un programa o intervención que ha estado en funcionamiento por algún tiempo – meses o años.

Aún si esto fuera cierto, los mismos lineamientos aplican. Escoja sus preguntas, reúna información, escoja un diseño, y luego siga a través de los pasos presentados en  la evaluación es lo suficientemente importante que usted no logrará realmente nada si toma atajos en el planeamiento. Si su programa tiene un ciclo, entonces probablemente tenga sentido comenzar su evaluación al comienzo de éste – al inicio de un año o en una fase del programa, donde todos los participantes estén comenzando desde el mismo lugar, o desde el comienzo de su participación.

Si esto no es posible – si su programa tiene una política de admisión continua, o brinda un servicio en el momento que la gente lo necesita – y los participantes están en diferentes puntos, eso puede algunas veces presentar problemas de investigación. Usted puede querer evaluar los efectos del programa solo con los nuevos participantes, o con algún otro grupo específico. Por otro lado, si su  programa funciona sin un comienzo y final particular, usted puede obtener la mejor imagen de su efectividad al evaluarlo como tal, al comenzar cuánto usted está listo. Cualquiera que sea el caso, su diseño debería seguir conforme a su obtención de información y su síntesis

¿Quién debería estar involucrado en la selección de un diseño?

Si usted es un usuario regular de la Caja de Herramientas, y particularmente usted ha estado leyendo este capítulo, usted sabe que el equipo de la Caja de Herramientas generalmente recomienda un proceso participativo – que involucre tanto a compañeros de trabajo de la comunidad así como de investigación, incluyendo a todos aquellos interesados en o los cuales son afectos por el programa en planeación o implementación.  Seleccionar un diseño para la evaluación presenta una política que de alguna manera hace una excepción a esta regla, debido a que los compañeros de la parte de evaluación y científica podrían tener un mejor entendimiento de lo que se requiere para llevar a cabo la investigación y los factores que pueden intervenir en él.

Como veremos en la parte “Cómo hacerlo” de esta sección, existen un número de consideraciones que tienen que ser tomados para obtener información precisa que realmente le diga lo que usted quiere saber. Los estudiantes en posgrado generalmente toman cursos para obtener el conocimiento que ellos necesitan para llevar a cabo investigación de la mejor manera, aún más algunos investigadores veteranos tienen dificultad en elaborar un diseño de investigación apropiado. Eso no significa que un grupo comunitario no pueda aprender a hacer todo esto, pero del tiempo que ellos tendrían que gastar en la adquisición del conocimiento necesario podría ser demasiado. Por lo tanto, lo que parece ser más lógico es asignarle esta tarea (o por lo menos su coordinación) a una persona o grupo pequeño con experiencia en investigación y diseño evaluativo. Tal persona no tiene solamente que ayudarle a escoger entre los diseños posibles, sino explicarle qué conlleva cada diseño, en tiempo, recursos, y habilidades/destrezas necesarias, para que así usted pueda juzgar su conveniencia y factibilidad con respecto a su  contexto

¿Cómo seleccionar un diseño para su evaluación?

¿Cómo hace para decidir qué tipo de diseño investigativo será el mejor para los propósito de su evaluación?

La respuesta a esta pregunta involucra una revisión de cuatro áreas:   

  • La naturaleza de las preguntas de la investigación que usted intenta responder.
  • Los retos de la investigación, y las maneras que ellos pueden ser resueltos o reducidos.
  • Los tipos de diseños investigativos que son generalmente usados, y lo que cada diseño involucra.
  • La posibilidad de adaptar un diseño investigativo particular a su programa o situación – qué estructura de su programa le dará apoyo, qué participantes darán su consentimiento, y cuáles son sus recursos y restricciones con respecto al tiempo.

Comenzaremos esta parte de la sección con una revisión de los aspectos que los diseños investigativos deben tratar, luego seguiremos con las consideraciones de algunos diseños comunes y cómo ellos tratarán esos aspectos, y finalizaremos con algunos lineamientos para escoger un diseño que tanto sea posible de implementar y que a la vez le dé la información que usted necesita acerca de su programa.

Una nota: en esta parte de la sección, estamos tratando a la evaluación como un proyecto investigativo. Como resultado, utilizaremos el término “investigación/investigativo” en muchas partes donde nosotros podríamos fácilmente solo decir, para propósitos de esta sección, evaluación.  La investigación es más general, y algunos usuarios de esta sección podrían estar más interesados en la investigación en general que en la evaluación en particular.

Aspectos/asuntos que los diseños investigativos deberían tratar

La consideración más importante en el diseño de un proyecto investigativo – excepto tal vez por el valor de la investigación de ella misma- es si su plan le dará información válida. Si usted no diseña y establece su proyecto de investigación apropiadamente, sus conclusiones (descubrimientos) no le darán la información precisa y que tiene posibilidad de ser verdadera para otras situaciones. En el caso de una evaluación, eso significa que usted no tendrá una base para adaptar lo que hace con el fin de  fortalecerlo y mejorarlo.

Aquí está un ejemplo exagerado que ilustra este punto.  Si usted midió la altura de los niños a la edad de 6 años, luego los alimenta con largas cantidades de un alimento específico  por tres años –digamos zanahorias- y los midió de nuevo al final del periodo, usted probablemente encontrará que la mayoría de ellos eran considerablemente más altos a los nueve años de edad que cuando tenían seis años.  Usted podría concluir que fue la ingesta de zanahorias la que hizo que los niños fueran más altos debido a que su diseño de investigación no le dio bases para comparar el crecimiento de estos niños con el de otros niños.

Existen dos tipos de amenazas contra la validez de una pieza de investigación. Ellos son usualmente llamados como amenazas a la validez interna (si la intervención produjo el cambio) y amenazas a la validez externa (si los resultados tienen la posibilidad de ser aplicados a otras personas y situaciones).

Amenazas a la validez interna. Estas son amenazas (o explicaciones alternativas) a su propuesta de que lo que usted hizo causó cambios en la dirección que usted estaba procurando. Ellas son por lo general presentadas por factores que operan al mismo tiempo que su programa o  intervención que podrían tener un efecto en el asunto que se estaba tratando de dirigir. Si usted no tiene una manera de separar sus efectos de aquellos del programa, usted no puede decir si los cambios observados fueron causados por su trabajo, o por uno o más de estos otros factores. Estos son llamados amenazas a la validez interna debido a que son parte interna del estudio –tienen que ver si su intervención – y no algo más – es responsable de la diferencia.

Existen aquí varios tipos de amenazas a la validez interna:

  • Historia.Tanto las historias personales de los participantes – sus antecedentes, culturas, experiencias, educación, etc. – y los eventos externos que ocurrieron durante el periodo de investigación – un desastre, una elección, un conflicto en la comunidad, una nueva ley – pueden influenciar si existe o no algún cambio en los resultados que usted está tratando.
  • Maduración. Esto se refiere a los procesos sociales, psicológicos, físicos naturales que toman lugar conforme pasa el tiempo. El crecimiento de los niños que comieron zanahorias en el ejemplo anterior es un resultado de la maduración, por ejemplo, como lo podría ser  un descenso en el comportamiento arriesgado una vez que se haya pasado de la adolescencia a la edad adulta, el desarrollo de la artritis en las personas mayores, o participantes cansados durante actividades de aprendizaje hacia el final del día.
  • Los efectos de la evaluación u observación en los participantes. El mero hecho de la existencia de un programa, o de que ellos sean parte de él, puede afectar el comportamiento o actitudes de los participantes, como podría hacerlo la experiencia de ser evaluado, grabado en vídeo, o de alguna otra forma observado o medido.
  • Cambio en la medición. Un instrumento – un manguito para la presión arterial o una escala, por ejemplo – puede cambiar con el tiempo, o diferentes aparatos pueden no dar los mismos resultados. De igual manera, los observadores – aquellos que reúnen la información -  podrían cambiar sus estándares con el tiempo, o dos o más observadores podrían no estar de acuerdo con las observaciones.
  • La regresión hacia  la media. Esto es un término estadístico que se refiere al hecho de que, a través del tiempo, las puntuaciones muy altas o muy bajas de una medición (un examen, por ejemplo) a menudo tienden a desplazarse hacia el promedio del grupo. Si usted comienza un programa con participantes los cuales, por definición, tienen muy bajos o altos niveles de lo que sea que se está midiendo – habilidades de lectura, exposición a la violencia doméstica, un comportamiento particular hacia las personas de otras razas o antecedentes, etc. –sus puntuaciones pueden terminar siendo cercanas al promedio a través del curso del periodo de evaluación aún sin ningún programa.
  • La selección de participantes. Aquellos que escogen participantes pueden inclinar su selección hacia un grupo particular que tiene más o menos tendencias a cambiar que una muestra representativa de la población para la cual el grupo fue elegida. (Un buen ejemplo es el de los programas para la capacitación laboral a los cuales se les paga dependiendo de la cantidad de personas que colocan en posiciones laborales. Ellos tienen la tendencia a elegir a participantes los cuales tienen todos o casi todas las habilidades que ellos necesitan para llegar a ser empleados, y rechazan a aquellos que tienen menos habilidades… y quienes en realidad necesitan más el servicio.)  La selección puede jugar una parte cuando los participantes de cuenta propia escogen inscribirse en un programa (auto-selección), ya que aquellos que deciden participar están probablemente motivados a hacer cambios. También puede ser un asunto de oportunidad: los miembros de un grupo en particular pueden, simplemente por coincidencia, compartir una característica que posicionará los resultados de dichos miembros en sus mediciones a parte de la norma de la población que se está representando.

La selección puede también ser un problema cuando dos grupos están siendo comparados por diferentes estándares. Discutiremos más de esto adelante cuando hablemos de los grupos de control y de comparación.

  • La pérdida de datos o de participantes. Si muy poca información es recolectada acerca de los participantes, o si demasiados de ellos desertan mucho antes que el periodo de investigación esté terminado, sus resultados pueden estar basados en muy poca información que pueda ser confiable. Esto también ocurre cuando dos grupos son comparados.Si sus pérdidas de datos o de participantes son demasiado diferentes, el compararlos puede no darle  ya más información válida.
  • La naturaleza del cambio. A menudo, el cambio no es estable y constante. Esto puede involucrar saltos hacia adelante y saltos hacia atrás antes de que se llegue a un lugar estable – si es que alguna vez se llega. (Piense en observar el rendimiento de un equipo de deportes a la mitad de la temporada. No importa cuál es su posición en ese momento, usted no podrá decir cuán bien terminará hasta que la temporada finalice.)  Sus mediciones pueden llevarse a cabo durante un periodo muy corto o darse en momentos no oportunos para rastrear el curso del cambio o la falta de cambio que está ocurriendo.
  • Una combinación de los efectos de dos o más de estos. Dos o más de estos factores puede combinarse para producir o prevenir los cambios que su programa trata de producir. Un currículo del estudio del lenguaje que es evaluado solo en estudiantes que ya hablan dos o más idiomas corre problemas tanto con la historia de los participantes – todos los estudiantes tienen experiencia al aprender idiomas además del propio - como con la selección – usted ha escogido estudiantes los cuales tienen tendencias a ser exitosos en el aprendizaje de idiomas.

Amenazas a la validez externa.

Estos son factores que afectan su habilidad para aplicar sus resultados de investigación en otras circunstancias – para aumentar las oportunidades que su programa y sus resultados puedan ser reproducidos en cualquier lugar o con otras poblaciones. Si, por ejemplo, usted ofrece clases en la crianza de niños solo a madres solteras, usted no puede asumir, sin importar cuán exitoso estas puedan ser, que las mismas clases funcionarán de igual manera para los hombres.

Amenazas a la validez externa (o generalizabilidad) pueden ser el resultado de las interacciones de otros factores con el programa o la intervención por ella misma, o puede ser debido a condiciones particulares del programa.

Algunos ejemplos:

  • Interacción de la prueba o recolección de datos y el programa o intervención. Una prueba inicial u observación podría cambiar la manera que los participantes reaccionan al programa, hacer una diferencia en los resultados finales. Ya que usted no puede asumir que otro grupo tendrá la misma reacción u obtendrá resultados finales similares como resultado, la validez externa o generalizabilidad de los hallazgos se vuelve cuestionable.
  • Interacción de los procedimientos de selección y el programa o la intervención. Si los participantes seleccionados o auto-seleccionados son particularmente sensibles a los métodos o el propósito del programa, no puede asumirse que éste sea efectivo con participantes los cuales son menos sensibles o no están listos para el programa.

Los padres que han sido amenazados por el gobierno con la pérdida de sus niños debido a abusos a menores podrían ser más receptivos a aprender técnicas para mejorar su manera de llevar la crianza de sus hijos, por ejemplo, en comparación con los padres quienes no están bajo esa presión.

  • Los efectos de la preparación de la investigación. Los participantes podrían cambiar de comportamiento como resultado de ser observados, o podrían reaccionar a individuos particulares de maneras que ellos no suelten reaccionar ante otros.

Un ejemplo clásico aquí es el del famoso investigador de mandriles (babuinos), Irven DeVore, el cual después de años de observar manadas de mandriles, se dio cuenta que ellos se comportaban de forma diferente cuando él estaba ahí que cuando no estaba.  Aunque su meta era observar su comportamiento natural, su presencia por sí sola constituía una intervención, al hacer que el comportamiento de los mandriles que él observaba fuera diferente del de una manada que no estaba siendo observada.

  • La interferencia de tratamientos o intervenciones múltiples. Los efectos de un programa particular pueden ser cambiados cuando los participantes están expuestos a él anteriormente en un contexto diferente, o están expuesto a otro antes o al mismo tiempo de cuando estaba siendo evaluado. Esto puede ocurrir cuando los participantes están recibiendo servicios de diferentes fuentes, o están siendo tratados simultáneamente por dos o más asuntos de salud u otras condiciones.

Dado la cantidad de los programas comunitarios que existen, hay muchas posibilidades aquí. Los adultos podrían ser miembros de clase para completar la secundaria mientras participan en un programa de recuperación de abuso de sustancias.  Un diabético podría ser tratado con una nueva droga mientras al mismo tiempo participa en un programa de actividad física y de nutrición para tratar con la obesidad.  Algunas veces, la secuencia de los tratamientos o los servicios en un solo programa puede tener el mismo efecto, con uno que influencia cómo los participantes responden a aquellos que siguen, aún si cada tratamiento está siendo evaluado de forma separada.

Diseños investigativos comunes

Muchos libros han sido escritos sobre el tema de diseño investigativo. Mientras ellos contienen demasiado material para resumir aquí, existen algunos diseños básicos que podemos introducir. Las diferencias importantes entre ellos se basan en cuántas mediciones se llevarán a cabo, cuándo se tomarán, y cuántos grupos de qué tipo estarán involucrados.

Las evaluaciones de los programas generalmente buscan por las respuestas de tres preguntas básicas:

  • ¿Hubo algún cambio- en el comportamiento de los participantes o de otros, en las condiciones físicas o sociales, o en los resultados o indicadores de éxito – durante el periodo de evaluación?
  • ¿Fue cualquier cambio que se dio – o la falta de cambio – causado por su programa, intervención, o esfuerzo?
  • ¿Qué, en su programa o fuera de él, realmente causó o impidió el cambio?

Como hemos discutido, los cambios y las mejoras en los resultados pueden haber sido causados por algunos o todos los aspectos de su intervención, o por factores externos. La historia de los participantes o de la comunidad podría haber sido crucial.  Los participantes podrían haber cambiado como resultado de simplemente hacerse más mayores y más maduros o con más experiencia en el mundo – lo cual es a menudo un asunto clave cuando se trabaja con niños o adolescentes.  Los factores ambientales – eventos, cambios de política, o condiciones en las vidas de los participantes – pueden a menudo facilitar o impedir el cambio de igual manera.  Comprender exactamente de dónde viene el cambio y dónde están las barreras para que el cambio suceda, le da la oportunidad de ajustar su programa para tomar ventaja o combatir esos factores.

Si todo lo que usted tuvo que hacer fue medir cualquier comportamiento o condición que usted quería influenciar al inicio y al final de la evaluación, escoger un diseño sería una tarea fácil.  Desafortunadamente, esto no es tan sencillo – existen esas amenazas desagradables a la validez que nos deben preocupar.  Y tenemos que tomarlas en cuenta que mientras observamos algunos diseños investigativos comunes.

Los diseños investigativos, en general, se diferencian en una o más de dos formas: el número y el tiempo de las mediciones que ellos usan; y si ellos observan un grupo individual o grupos múltiples. Veremos los diseños de un solo grupo primero, luego seguiremos con los grupos múltiples.

Los investigadores usualmente se refieren a sus primeras medición(es) u observación(es) – las que usted toma antes de comenzar su programa o intervención – como una medición de referencia o observación de referencia, debido a que establece una referencia – un nivel conocido – al cual usted compara mediciones u observaciones futuras.

Algunos términos de investigación importantes son:  

Variables independientes son el programa por el mismo y/o los métodos o condiciones que el investigador – en este caso, usted – quiere evaluar. Ellas son llamadas variables debido a que ellas pueden cambiar – usted podría haber escogido (y podría todavía escoger) otros métodos.  Ellas son independientes debido a que su existencia no depende de si algo existe ocurre: usted las ha escogido, y ellas seguirán  constantes a través del periodo de evaluación.

Variables dependientes son las que podrían cambiar o no como resultado de la presencia de las variable(s) independiente(s).  En una evaluación, su programa o intervención es la variable independiente.  (si usted está evaluando un número de métodos o condiciones diferentes, cada uno de ellos es una variable independiente.)  Lo que sea que usted está tratando de cambiar es la variable dependiente.  (Si usted está tratando ver cambios en más de un comportamiento o resultado, cada tipo de cambio es una variable dependiente diferente.)  Ellas son llamadas variables dependientes debido a que los cambios en ellas dependen de la acción de la variable independiente… o de algo más.

 Las mediciones son solo eso –medidas de las variables dependientes. Ellas usualmente se refieren a procedimientos que tienen resultados que pueden ser traducidos en números, y que pueden tomar la forma de evaluaciones, observaciones, encuestas, entrevistas, o pruebas comunitarias. Ellas también podrían contar incidentes o medir la magnitud de la variable dependiente (número o porcentaje de niños que tienen sobrepeso o son obesos, crímenes violentos en 100,000 habitantes, etc.)

  Las observaciones podrían involucrar mediciones, o ellas podrían simplemente registrar lo que pasa en circunstancias específicas: las formas en que la gente usa un espacio, los tipos de interacción que tienen los niños en un aula, la naturaleza de las interacciones durante una evaluación.  Para conveniencia, los investigadores a menudo usan “observación” para referirse a cualquier tipo de medición y nosotros usaremos la misma convención aquí.

Diseño inicial y final de un grupo individual.

El diseño más simple es también probablemente el menos preciso y deseado: la medición u observación inicial (antes de) y final (después de). Esto consiste en simplemente medir lo que sea que a usted le interese con un grupo – la tasa de mortalidad infantil, el desempleo, la contaminación del agua – utilizar su intervención a ese grupo o comunidad, y luego observar de nuevo. Este tipo de diseño asume que una diferencia en las dos observaciones le dirá si hubo un cambio durante el periodo entre ellos, y también asume que cualquier cambio positivo fue causado por la intervención.

En la mayoría de los casos, un diseño inicial-final no le dirá mucho, debido a que no trata realmente ninguno de los asuntos investigativos que hemos discutido. No toma en cuenta la influencia de otros factores en la variable dependiente, y no le dice nada acerca de las tendencias de cambio o del progreso de cambio durante el periodo de evaluación –solo dónde estaban los participantes al principio y dónde estaban al final.  Puede ayudarle a determinar si ciertos tipos de cosas han pasado – si existió una reducción en el nivel de logros educativos o la cantidad de contaminación ambiental en un río, por ejemplo – pero no le dirá el por qué.  A pesar de sus limitaciones, tomar mediciones antes y después de la intervención es mucho mejor que ninguna medición.

Aún mirar a algo tan meramente simple para medir, antes y después, como la presión sanguínea (en un programa para la prevención de enfermedades del corazón) es cuestionable. La presión sanguínea puede ser más baja al final de la observación que al inicio, pero eso no le dice nada acerca de cuánto haya bajado o subido en medio.  Si las lecturas fueron tomadas por diferentes personas, el cambio puede ser en parte a las diferencias en su habilidad, o a cuán relajado pudo cada uno hacer sentir a los participantes. La familiaridad con el programa podría también haber reducido la presión sanguínea de la mayoría de los participantes desde la medición inicial a la medición final, como lo pudo haber hecho algún otro factor que no fuera específicamente parte de la variable independiente que estaba siendo evaluada.

Diseño de series de tiempo interrumpido con un solo grupo (series de tiempo simple). 

Una serie de tiempo interrumpido usó mediciones repetidas antes y después de la implementación retrasada de la variable independiente (p.ej., el programa, etc.) para ayudar a excluir otras explicaciones.  Este diseño relativamente fuerte – con comparaciones entre el grupo – trata la mayoría de las amenazas a la validez interna.

La forma más simple de este diseño es tomar observaciones repetidas, implementar el programa o intervención, y observar un número de veces durante el periodo de evaluación, incluyendo el final. Este método es una gran mejoría sobre el diseño inicial-final ya que rastrea la tendencia del cambio, y puede por lo tanto, ayudar a ver si fue realmente la variable independiente la que causó algún cambio. Este puede también ayudar a identificar la influencia de los factores externos tales como cuando la variable dependiente muestra un cambio significativo antes de que la intervención es implementada.

Otra posibilidad para este diseño es implementar más de una variable independiente, ya sea al tratar dos o más, una después de la otra (a menudo con un lapso en medio), o al agregar cada una a lo había antes. Esto presenta una visión no solo del progreso del cambio, sino también muestra muy claramente qué causa el cambio. Esto le da al evaluador la oportunidad no solo de ajustar el programa, sino de descartar elementos que no tienen efecto.

Existen un número de variaciones acerca del tema: series de tiempo interrumpido, incluir una variación de los tiempos de observación; implementar la variable independiente repetidamente; e implementar una variable independiente, luego otra, luego ambas juntas para evaluar su interacción.

En cualquier variedad del diseño de series de tiempo interrumpido, es importante saber qué es lo que se busca. En una evaluación de un programa de control de muertes en las vías de tránsito en el Reino Unido  que se enfocaba en reducir la conducción de vehículos bajo los efectos del alcohol, mediciones mensuales parecían mostrar solo una disminución pequeña en los accidentes mortales. Cuando las estadísticas de los fines de semana, cuando había más posibilidades de encontrar conductores ebrios en las carreteras, eran separados, entonces, ellas mostraron que la mortalidad en los fines de semana había bajado considerablemente debido a la implementación del programa, y se mantenía bajo después de éste. Si los investigadores no se hubieran dado cuenta de  que ese era el caso, el programa podría haber sido cancelado, y la tasa de accidentes de los fines de semana no se hubiera reducido.

Diseño de series de tiempo interrumpido con grupos múltiples (referencia múltiple/series de tiempo).

Este tiene la misma posibilidad como el diseño de series de tiempo con el grupo individual, con la adicción de usar mediciones repetidas con uno o más otros grupos (lo que se llama referencia múltiple). Al usar referencias múltiples (grupos), la validez externa o la generalidad de los descubrimientos es mejorada – podemos ver si los efectos ocurren con grupos diferentes o bajo condiciones diferentes.

Este diseño de series de tiempo múltiple –usualmente una introducción paulatina (por etapas) de la intervención con diferentes grupos o comunidades – le da al investigador más  oportunidades:

  • Usted puede tratar un método o programa con dos o más grupos del mismo.
  • Usted puede tratar un método o programa con diferentes poblaciones, para ver si es efectivo con otros.
  • Usted puede variar el tiempo o intensidad de una intervención con grupos diferentes.
  • Usted puede examinar diferentes intervenciones al mismo tiempo.
  • Usted puede tratar las mismas dos o más intervenciones con cada uno de los dos grupos, pero revertir su orden para ver si la secuencia hace alguna diferencia.

De nuevo, existen más variaciones posibles aquí.

Diseño del grupo de control.

Una manera común de evaluar los efectos de una variable es usar un grupo de control. Este grupo de control es usualmente similar al grupo participante, pero o no tiene ninguna intervención del todo, o recibe un tipo de intervención diferente con el mismo propósito que se le da al grupo participante. Un diseño del grupo de control es usualmente el más difícil de establecer – usted tiene que encontrar grupos apropiados, observarlos a los dos regularmente, etc. – pero es generalmente considerado como el más confiable.

El término grupo de control viene del intento de controlar influencias externas y otras influencias en la variable dependiente. Si todo acerca de los dos grupos excepto su exposición al programa siendo evaluado promedia lo mismo, entonces cualquier diferencia en los resultados se debe a la exposición. El término grupo de comparación es más modesto; este típicamente presenta a una comunidad observada para estar pendiente de niveles similares del problema/meta y características relevantes de la comunidad o la población  (p.ej., educación, pobreza).

El patrón oro aquí es el grupo de control al azar, uno que es elegido totalmente al azar, ya sea de entre la población que el programa o la intervención está tratando – aquellos en riesgo de enfermedades del corazón, hombres desempleados, padres jóvenes – o, si es apropiado, la población en general. Un grupo al azar elimina los problemas de selección que nosotros hemos discutido anteriormente, así como asuntos que podrían salir de las diferencias en cultura, raza, u otros factores.

Un grupo de control que es cuidadosamente escogido tendrá las mismas características como el grupo de intervención (el foco de la evaluación). Si, por ejemplo, los dos grupos vienen del mismo tipo de personas que tienen una condición de salud particular, y son escogidos al azar ya sea para ser tratados con la manera convencional o con el nuevo enfoque/método, puede ser asumido que – debido a que ellos fueron escogidos al azar de la misma población – ambos grupos será sujetos, en promedio, a las mismas influencias externas, y tendrán la misma diversidad de antecedentes/orígenes/formación. Por lo tanto, si existe una diferencia significativa en sus resultados, es  bastante seguro asumir que la diferencia viene de la variable independiente – el tipo de intervención, y no de algo más.

La dificultad para las organizaciones gubernamentales y basadas en la comunidad es encontrar o crear un grupo de control al azar. Si el programa tiene una larga lista de espera, puede ser capaz de crear un control al seleccionar a aquellos que reciben la intervención al azar de primero. Eso por si solo crea problemas, ya que la gente a menudo deserta de las listas de espera debido a la frustración u otras razones.  Ser incluido en la evaluación puede ayudar a mantenerlos, por el otro lado, al darles una conexión más cercana al programa y al hacerlo sentir valorados.

Un programa de ESOL (Inglés como segunda u otra lengua) en Boston con una lista de espera de tres años trató el problema al ofrecer a aquellos en la lista de espera una opción diferente.  Ellos recibieron cintas de video (videocasetes) para usar en la casa, en conjunto con una tutoría bisemanal por estudiantes avanzados y estudiantes de posgrado del programa.  Así, ellos se convirtieron en un grupo de comparación con una intervención de alguna manera diferente que, como se esperaba, fue menos efectiva que el programa mismo, pero fue más efectiva que ninguna intervención, y los mantuvo en la lista de espera.  Esto también les dio una ventaja una vez que ellos empezaron a ir a clases, muchos de ellos empezaron en un nivel intermedio en vez de hacerlo a nivel de principiantes.

Cuando no existe una lista de espera o un grupo similar para comparar, las organizaciones comunitarias a menudo usan un grupo de comparación – uno compuesto de participantes en otro lugar o programa y cuyas características, antecedentes y experiencia de los miembros pueden o no pueden ser similares a aquellos del grupo participante. Esta situación puede suscitar algunos de los mismos problemas relacionados a la selección vista cuando no existe un grupo de control. Si las únicas comparaciones potenciales involucran grupos muy diferentes, puede ser mejor usar un diseño, como el diseño de series de tiempo interrumpido que no involucra un grupo de control del todo, donde la comparación se da dentro (no entre) los grupos.

Los grupos pueden verse similares, pero pueden diferir de una manera importante. Dos grupos de participantes  de un programa de intervención de abuso de sustancias, por ejemplo, pueden tener historias similares, pero si un programa es voluntario y el otro no, los resultados tienen la tendencia a no ser comparables. Un grupo probablemente estará más motivado  y menos resentido que el otro, y estará compuesto de personas las cuales ya conocen que tienen un problema potencial.  La motivación y la determinación de los participantes, en vez de la efectividad de los dos programas, puede influenciar la magnitud del cambio observado.

 

Este asunto puede darse en el diseño de un grupo individual también. Un programa que pueda, en promedio, parecer que es relativamente poco efectivo puede probar, al hacer una inspección profunda, ser bastante efectiva con ciertos participantes –aquellos con un antecedente educativo específico, por ejemplo, o con experiencias de vida particulares.  Ver los resultados desde esta visión puede ser una parte importante de una evaluación, y darle información valiosa y  utilizable.

Escoger un diseño

La discusión sobre diseños investigativos de esta sección no está en ninguna manera completa.  Aquí tratamos de brindar una introducción de lo que está disponible.  Existen literalmente cientos de libros y artículos escritos acerca de este tema, y usted probablemente querrá más información.  Existen un número de métodos estadísticos que pueden compensar por diseños menos-que-perfectos, por ejemplo: algunos grupos comunitarios tienen recursos para juntar a un grupo de control al azar, o para implementar dos o más programas similares para ver cuál funciona mejor.

 

Dado esto, el material que sigue se trata solo de una guía general.  Nosotros no intentamos ser específicos acerca del tipo de diseño que usted necesita en qué circunstancias, solamente tratamos de sugerir algunas cosas para tener en mente en situaciones diferentes.  Existe ayuda disponible en un gran número de lugares: Mucho puede ser encontrado en la Internet (ver la parte de “Recursos” de esta sección para encontrar algunos sitios); existen libros y artículos numerosos (el texto clásico en el diseño de investigación está también citado en “Recursos”); y las universidades son un gran recurso, tanto a través de sus bibliotecas como de los profesores y estudiantes de posgrado los cuales podrían estar interesados en lo que usted está haciendo y estar dispuestos a ayudar con su evaluación.  Use cualquiera o todos estos para encontrar qué funcionará mejor para usted.  Financiadores podrían también estar dispuestos a ya sea brindar asistencia técnica para las evaluaciones, o a incluir dinero en su subvención o contrato específicamente para pagar por una evaluación profesional.

Su meta al evaluar su esfuerzo es obtener la información más confiable y certera posible, dadas las preguntas de su evaluación, la naturaleza de su programa, a lo que sus participantes consienten (acceden), sus limitaciones de tiempo, y sus recursos. Lo importante aquí no es establecer un estudio investigativo perfecto, pero diseñar su evaluación para obtener información real, y ser capaz de separar los efectos de los factores externos de los efectos de su programa. Entonces ¿cómo hacer para escoger el mejor diseño que será funcional para usted? Los pasos están en la primera oración de este párrafo.

Tenga en cuenta las preguntas de su evaluación. 

¿Qué necesito saber?  Si la intención de su evaluación es simplemente ver si algo específico pasó, es posible que un diseño simple inicial y posterior se haga. Si, como es lo más probable, usted quiere conocer tanto el cambio que ha ocurrido, y si ha ocurrido, si ha en efecto sido causado por su programa, usted necesitará un diseño que ayude a  descartar los efectos de influencias externas y los antecedentes de los participantes.

Para muchos programas comunitarios, un grupo de control o comparación es útil, pero no es absolutamente necesario. Piense detenidamente acerca de la frecuencia y el momento oportuno de sus observaciones y la cantidad de tipos de información que usted puede recolectar. Con medidas repetidas, usted puede obtener un panorama bastante acertado sobre la efectividad de su programa desde un diseño de series de tiempo simple. Los diseños de series de tiempo interrumpido con un solo grupo, los cuales son a menudo los más factibles para organizaciones pequeñas, pueden darle una evaluación muy confiable si ellos están estructurados adecuadamente. Eso generalmente significa obtener observaciones de referencia múltiples (lo suficiente para establecer una tendencia) antes que el programa comience; observar frecuentemente y documentar sus observaciones cuidadosamente (a menudo tanto con datos cuantitativos – expresados en números – y cualitativos – expresados en registros de incidentes y acerca de lo que hicieron y dijeron los participantes); e inclusive durante la intervención y las observaciones de seguimiento para ver si los efectos son mantenidos.

En muchas de estas situaciones, un diseño de series de tiempo interrumpido con múltiples grupos es razonablemente posible, pero como  un experimento “que ocurre naturalmente”. Si su programa incluye dos o más grupos o clases, cada uno trabajando hacia las mismas metas, usted tiene la oportunidad de escalonar la introducción de la intervención a través de los grupos. Esta comparación con (y a través de) los grupos le permiten a usted eliminar factores como la habilidad del facilitador y las influencias comunitarias (asumiendo que todos los participantes vienen de la misma población en general.)  Usted podría también tratar diferentes métodos o secuencias en tiempo, para ver cuál funciona mejor.

En algunos casos, la pregunta real no es si su método o programa funciona o no, sino si funciona mejor que otros métodos o programas que se podrían estar usando. Enseñar una habilidad – por ejemplo, la capacitación laboral, la crianza de niños, el control de la diabetes, la resolución de conflictos – a menudo calza en esta categoría. Aquí, usted necesita una comparación de este tipo. Mientras que las evaluaciones de algunas de éstas – tratamiento médico, por ejemplo – pueden requerir un grupo de control, otros pueden ser comparados con datos en el área específica, con resultados publicados de otros programas, o al usar indicadores a nivel comunitario  de evaluaciones en otras comunidades.

Existen programas comunitarios donde el factor crucial es muy simple. Si usted está trabajando para controlar la contaminación del agua, su preocupación mayor podría ser la cantidad de contaminación que sale de la cañería de las aguas residuales, o la cantidad encontrada en el río. Su única medición del éxito podría ser mantener la contaminación por debajo de cierto nivel, lo cual significa que tener un control regular de la calidad del agua es la única evaluación que se necesita. Existen probablemente pocos programas comunitarios donde la evaluación sea tan fácil – usted podría, por ejemplo, querer conocer cuál de las actividades de control de contaminación es la más efectiva – pero si la suya es solo una, un diseño simple puede ser todo lo que usted necesita.

Tenga en cuenta la naturaleza de su programa.

¿Qué características tiene su programa -¿cómo se ve?-, y qué es lo que intenta hacer? ¿Qué es lo que funciona con los participantes en grupos, o individualmente, por ejemplo? ¿Tiene ciclos – clases o talleres que comienzan o terminan en ciertas fechas, o un programa de tiempo limitado que los participantes pueden tomar solo una vez? ¿O pueden los participantes tomar dichas clases/talleres cuando ellos estén listos y mantenerse hasta que alcancen sus metas? ¿Cuánto del trabajo del programa depende del personal, y cuánto hacen los participantes por su cuenta? ¿Cuán importante es el contexto del programa –manera que se relacionan el personal, los participantes y otros, la filosofía general del programa, el entorno físico, la organización cultural?  (La cultura de una organización consiste en las maneras tradicionales y aceptadas de hacer las cosas, los patrones de relaciones, cómo se viste la gente, cómo actúan y se comunican con los demás, etc.)

Si usted trabaja con participantes en grupos, un diseño de grupos múltiples – uno de series de tiempo interrumpido o un grupo de control – podría ser más fácil de usar. Si usted trabaja con participantes individualmente, tal vez una serie de tiempo simple o un diseño de grupo individual sería más apropiado.

Si su programa tiene el tiempo limitado – uno de solo una vez nada más, o con sesiones que siguen a la anterior – usted querrá un diseño que calce con su programa y tiempo, y que pueda darle resultados confiables en el tiempo que usted tiene.  Una posibilidad es usar un diseño de grupo múltiple, con grupos que siguen a los siguientes, sesión por sesión. El programa para cada grupo podría ser ajustado, basado en los resultados del grupo anterior, para que así usted tenga la posibilidad de poner a prueba nuevas ideas cada sesión.

  • Si su programa no tiene un comienzo o final claro, usted probablemente tendrá la necesidad de usar un diseño de grupo individual que considere a los participantes individualmente, o por el nivel de su desempeño inicial. Usted podría también tener que compensar el hecho que los participantes pueden ingresar al programa con diferentes niveles, o con diferentes metas.

Un proverbio dice que usted nunca camina en el mismo río dos veces, debido a que el agua que pasa por él siempre está cambiando.  Lo mismo es verdad para la mayoría de los programas comunitarios. Alguien que ingrese a un programa en un momento particular podría tener una experiencia totalmente diferente a la de una persona similar ingresando en un momento diferente, aún si el proceso del programa es el mismo para ambos. Un participante particular podría animar a los demás alrededor de ella, y crear una atmósfera abrumadoramente positiva diferente a la experimentada por los participantes que ingresaron al programa después de que ésta persona se fue, por ejemplo. Es muy difícil controlar este tipo de diferencia a través del tiempo, pero es importante estar consciente de que puede existir, y a menudo existe, y puede afectar los resultados de una evaluación del programa.

  • Si el contexto y la cultura organizacional o del programa son importantes, entonces usted probablemente querrá comparar sus resultados con participantes en un grupo de control en una situación similar donde esos factores son diferentes, o son ignorados.

Existe, por supuesto, una gran variedad de posibilidades aquí: casi cualquier diseño puede ser adaptado a casi cualquier situación en las circunstancias adecuadas. Este material tiene el propósito solamente de darle una idea de cómo comenzar a pensar acerca del diseño para una evaluación.

Tenga en cuenta que sus participantes (y personal) estén de acuerdo.

Además del efecto que podría tener en los resultados de su evaluación, usted podría encontrar que mucha observación puede  hacer que surjan protestas por parte de participantes los cuales sienten que su privacidad está siendo amenazada, o de los miembros del personal que ya de por sí tienen demasiado trabajo y ven la evaluación solo como una carga más a su trabajo. Usted podría ser capaz de superar estos obstáculos, o usted podría tener que llegar a un acuerdo – menos o diferentes tipos de observaciones, un diseño menos molesto/ intruso – con el objetivo de ser capaz de conducir la evaluación del todo.

Existen otras razones por las cuales los participantes podrían oponerse a la observación, o por los menos a una observación intensa.  La posibilidad de ser avergonzado, un deseo de confidencialidad (mantener su participación en el programa en secreto de los miembros de su familia u otros), aún la auto-protección (en el caso de violencia doméstica, por ejemplo) puede contribuir a la falta de voluntad de ser un participante en la evaluación.  Los miembros del personal podrían tener algunas de las mismas preocupaciones.

 

Existen maneras de tratar con estos asuntos, pero no hay forma de garantizar que ellas funcionarán.  Una es informar a los participantes al comienzo acerca de qué exactamente se espera hacer, escuchar sus objeciones, y reunirse con ellos (más de una vez, si es necesario)  para llegar a una propuesta satisfactoria.  Los miembros del personal tienden a quejarse menos si ellos estuvieron involucrados en el planeamiento de la evaluación, y así tienen algo que decir acerca de la frecuencia y la naturaleza de las observaciones.

Tenga en cuenta sus limitaciones de tiempo.

Como hemos mencionado anteriormente, lo importante aquí es escoger un diseño que le dará información razonablemente confiable. En general, su diseño no tiene que ser perfecto, pero tiene que ser lo suficientemente bueno para tener una indicación lo suficientemente razonable de que se están dando cambios, y que ellos son el resultado de su programa. Cuán preciso usted puede ser es por lo menos parcialmente controlado por las limitaciones de su tiempo debido a la financiación, las consideraciones del programa, y otros factores.

Las limitaciones de tiempo podrían también ser obligatorias. Algunas de las más comunes son:

  • La estructura del programa. Una evaluación puede tener más sentido si es conducido para coincidir con un ciclo de un programa regular.
  • Financiación. Si usted es financiado solo como un proyecto piloto, por ejemplo, usted tendrá que llevar a cabo su evaluación en el mismo lapso de tiempo de la financiación, y pronto para mostrar que su programa es lo suficientemente exitoso para volver a ser financiado. Un horario de tiempo para la evaluación podría ser parte de su subvención o contrato, especialmente si el financiador está pagando por él.
  • Horarios de los participantes. Un programa educativo rural podría necesitar  una pausa varios meses al año para permitirles a los participantes plantar y  cuidar los cultivos, por ejemplo.
  • La seriedad del asunto. Un retraso en conocer si un programa de prevención de violencia es efectivo o no podría costar vidas.
  • La disponibilidad de evaluadores profesionales. Tal vez el equipo de evaluación puede solo trabajar durante un marco de tiempo particular.

Tenga en cuenta sus recursos.

Los planificadores estratégicos a menudo aconsejan que los grupos y organizaciones consideren los recursos de último: ya que si no ellos terminarían rechazando muchas buenas ideas debido a que ellas son muy caras o difíciles, en vez de tratar de encontrar maneras de hacerlas funcionar con los recursos que se tienen a mano. Los recursos incluyen no solamente el dinero, pero también el espacio, materiales y equipo, personal, y habilidades y pericia. A menudo, uno de estos puede ser substituido por otro: una persona del personal con experiencia en investigación puede tomar el lugar del dinero que se utilizaría para pagar a un consultor, por ejemplo. Una asociación con una universidad cercana podría no solo darle pericia si no además el equipo necesario.

La lección aquí es comenzar a determinar el mejor diseño posible para sus propósitos, sin contemplar los recursos. Usted podría tener que decidirse por algo de menor tamaño, pero si usted comienza por lo que usted quiere, usted tiene más posibilidad de acercarse a ello que si usted asume que no tiene la posibilidad de obtenerlo.

En resumen

La manera que usted diseña su evaluación investigativa estará muy relacionada con cuán  preciso y confiable son sus resultados, y cuán bien usted puede usarlos para mejorar su programa o intervención. El diseño debería ser uno que trate de la mejor manera  las amenazas claves a la validez interna (ya sea que la intervención cause el cambio) y la validez externa (la habilidad de generalizar sus resultados en otras situaciones, comunidades, y poblaciones).

Diseños investigativos comunes –tales como diseños de tiempo interrumpido grupo de control – puede ser adaptado a varias situaciones, y combinado de varias formas para crear un diseño que es tanto apropiado como posible para su programa. Eso podría ser necesario para buscar ayuda de un asesor, un socio universitario, o simplemente alguien con experiencia en investigación para así identificar un diseño que calce con sus necesidades.

Un buen diseño tratará sus preguntas de evaluación, y tomará en consideración la naturaleza de su programa, cuáles participantes  y personal del programa estarán de acuerdo, sus limitaciones de tiempo, los recursos que usted tiene disponible para la evaluación. A menudo tiene sentido considerar los recursos de último, para que así usted no rechace buenas ideas debido a que ellas parecen demasiado caras o difíciles. Una vez que usted escoja un diseño, usted puede a menudo encontrar una manera de compensar la falta de recursos para hacerlo realidad.

Contributor 
Stephen B. Fawcett
Phil Rabinowitz

Recursos en línea

Bridging the Gap: The role of monitoring and evaluation in Evidence-based policy-making is a document provided by UNICEF that aims to improve relevance, efficiency and effectiveness of policy reforms by enhancing the use of monitoring and evaluation.

Interrupted Time Series Quasi-Experiments,” is an essay by Gene Glass, from Arizona State University, on time series experiments, distinction between experimental and quasi-experimental approaches, etc.

The Magenta Book - Guidance for Evaluation provides an in-depth look at evaluation. Part A is designed for policy makers. It sets out what evaluation is, and what the benefits of good evaluation are. It explains in simple terms the requirements for good evaluation, and some straightforward steps that policy makers can take to make a good evaluation of their intervention more feasible. Part B is more technical, and is aimed at analysts and interested policy makers. It discusses in more detail the key steps to follow when planning and undertaking an evaluation and how to answer evaluation research questions using different evaluation research designs. It also discusses approaches to the interpretation and assimilation of evaluation evidence.'

Research Design Issues for Evaluating Complex Multicomponent Interventions in Neighborhoods and Communities is from the Promise Neighborhoods Research Consortium. The article discusses challenges and offers approaches to evaluation that are likely to result in adoption and maintenance of effective and replicable multicomponent interventions in high-poverty neighborhoods.

Research Methods is a text by Dr. Christopher L. Heffner that focuses on the basics of research design and the critical analysis of professional research in the social sciences from developing a theory, selecting subjects, and testing subjects to performing statistical analysis and writing the research report.

Research Methods Knowledge Base is a comprehensive web-based textbook that provides useful, comprehensive, relatively simple explanations of how statistics work and how and when specific statistical operations are used and help to interpret data.

A Second Look at Research in Natural Settings is a web-version of a PowerPoint presentation by Graziano and Raulin.

Recursos impresos

Campbell,  D., & Stanley. J. (1963, 1966). Experimental and Quasi-Experimental Designs for Research.  Chicago: Rand McNally.

Fawcett, S., et. al. (2008). Community Toolbox Curriculum Module 12: Evaluating the initiative. Work Group for Community Health and Development. University of Kansas. Community Tool Box Curriculum.

Roscoe,  J.  (1969). Fundamental Research Statistics for the Behavioral Sciences. New York, NY: Holt, R., & Winston.

Shadish, W,. Cook, T., & Campbell, D. (2002).  Experimental and Quasi-experimental Designs for Generalized Causal Inference. Houghton Mifflin College Div.