¡Horror! ¡Me evalúa un Robot!

Ainhoa Ezeiza @Ainhoaeus

Profesora investigadora en la Universidad del País Vasco


¿Te imaginas que las redacciones que preparas para las clases de lenguas te las corrigiera un robot? ¿Utopía o distopía? ¿O tal vez ya esté pasando y no lo sepas?…

El campo de la enseñanza de lenguas es un terreno de gran experimentación en el uso de tecnología. Al fin y al cabo, personas de todas las edades aprenden idiomas en todas partes del mundo, lo que supone que un avance tecnológico puede suponer una inversión de gran retorno, dicho en términos fríos y duros.

Como referencia inicial, en 1935 se comenzó a utilizar el sistema IBM Model 805 Test Scoring Machine, un sistema que ya entonces puntuaba cuestionarios diez veces más rápido que los humanos (Chapelle y Douglas, 2006). Esta idea supuso para la enseñanza de lenguas un impulso de los tests con todo el aparataje metodológico y científico en torno a la fiabilidad y la validez estadística de estas pruebas. Se pretendía demostrar que estos cuestionarios, además de para evaluar, podían servir incluso para que los estudiantes aprendieran la lengua objetivo.

A partir de los años 60 se desarrolló la idea de los laboratorios de idiomas y a partir de ahí hasta los años 80 se expandieron con gran fuerza. Paralelamente, se publicaron muchos estudios en torno al diseño de ítems, pruebas y escalas de evaluación y se fue desarrollando un software mejor para el desarrollo de tests. Las pruebas eran ideadas por psicometricistas que aislaban los diversos aspectos de la lengua para formular items discretos.

Para los años 90, Alderson en sus diversos estudios tenía las claves de las ventajas de la evaluación por ordenador (Alderson, 1990:39-43): son más rápidos, pueden controlar el tiempo de ejecución, guardar el itinerario del estudiante, ofrecer diversas formas de exposición y también diversas presentaciones de los resultados a los estudiantes, y pueden utilizar analizadores sencillos que detectan errores morfosintácticos. Es más, pueden presentar la evaluación como un hecho objetivo y científicamente demostrable.

Pero claro, era muy evidente que por muy bien que respondieran los cuestionarios, los estudiantes no eran capaces de hablar ni escribir en esa lengua. Aunque es algo que debería ser obvio, nos costó bastante cambiar de paradigma; desde que Hymes en 1971 y Savignon en 1972 plantearan el concepto de competencia comunicativa, pocas fichas se movieron en las aulas antes de los 90.

De hecho, la producción oral y escrita ha sido vista como problemática por el tiempo y esfuerzo que supone para los estudiantes… bueno, y para los docentes. ¿A quién le apetece pasar el tiempo de fuera de aula corrigiendo tildes y haches? ¿Qué necesidad hay de que un ser humano gaste sus horas de capacidad inteligente en esas tareas de tan bajo nivel cognitivo?

Podéis imaginar que muchos docentes de muchos lugares del mundo sentían esa misma desazón, ese mismo hastío… mal de muchos negocio de algunos. La evaluación automática de redacciones dio sus primeros pasos en los años 60… sí, los 60… es que realmente somos muchos los profesores de lenguas… aunque no se pudieron crear los primeros prototipos hasta los años 90 (Page, 1966; Page y Petersen, 1995). Estos prototipos fueron muy duramente criticados porque se basaban en información superficial (número de palabras, signos de puntuación…) y no tenían en cuenta el contenido.

¿Qué tal funcionan las máquinas evaluadoras de textos hoy día?

Podemos preguntarnos antes qué tal funcionamos las personas evaluadoras hoy día. Esta ha sido una de esas semanas en las que me ha tocado ejercer de examinadora oficial de perfiles lingüísticos y la verdad es que a pesar de llevar haciendo esta tarea más de 15 años, es muy difícil. Podemos aplicar rúbricas sofisticadas, parametrizar los criterios, apoyarnos en descripciones… que finalmente evaluamos por intuición.

Parece que no somos capaces de diferenciar entre más de siete niveles más/menos dos (Myford, 2002). Es más relevante la experiencia de los evaluadores, su origen o sus conocimientos que cualquier descriptor que queramos determinar, y por eso, más que dedicar horas y estudios a construir escalas fiables y válidas, es más rentable gastar ese dinero y esfuerzo en la preparación de las personas que vayan a evaluar las pruebas, su grado de acuerdo y la forma en la que manipulan esas escalas. Realmente no tenemos capacidad para manejar muchos parámetros paralelamente y nos afecta mucho el efecto halo, el efecto contraste o la tendencia a distribuir las calificaciones en torno a una curva normal.

Las máquinas son mucho más consistentes y pueden evaluar una gran cantidad de elementos en poco tiempo. Actualmente, combinan métodos algorítmicos de análisis gramatical con análisis semánticos y métodos holísticos basados en búsquedas en corpus de textos. Por ejemplo, el sistema Summary Street (Steinhart, 2000) compara resúmenes con el texto original, o el corpus Computer Learner Corpora (Granger et al, 2002) está recopilando una base de datos de textos de estudiantes sobre los que comparar los análisis.

El e-rater (ETS, 2007) combina análisis estadísticos y procesamiento de lenguaje natural para contrastar los resultados con su base de datos. Analiza cuestiones gramaticales, marcadores del discurso y contenido léxico utilizando unos 100 indicadores. Aseguran que sus resultados tienen una tasa de acuerdo con evaluadores humanos de entre el 84 y el 94%. Este sistema es el impulsado por la empresa ETS (Education Testing Service) para desarrollar el programa Criterion. ETS utiliza este sistema en algunas de las conocidas pruebas TOEFL emparejando máquina con evaluador humano para algunas pruebas de evaluación, lo que supone un ahorro de una muy importante suma de dinero (Knoch, 2009).

Estos sistemas son solo pequeñas muestras de lo que existe en el mercado. Tal vez ya hayas sido evaluado/a por un robot aunque no lo sepas…

No quiero que un robot evalúe mis trabajos

¿Por qué no tendríamos que ver la posibilidad de que un robot evalúe trabajos como una distopía? Por una sencilla razón: porque no es ficción, es algo que ya se está llevando a cabo. La expansión de este tipo de sistemas es tal que existe una plataforma que recoge firmas en contra de la evaluación de redacciones por parte de máquinas: “Professionals Against Machine Scoring Of Student Essays In High-Stakes Assessment”. Entre otras cosas, afirman que gran parte de las investigaciones realizadas en las que la evaluación de estas máquinas ofrecen buenos resultados han sido desmentidas por otras investigaciones que atienden a otros aspectos o que utilizan otros criterios. Esta página recopila una buena lista bibliográfica para quien quiera conocer este tema más en profundidad.

Personalmente, confieso que estoy colaborando con un grupo de investigación, el Grupo IXA de la Universidad del País Vasco, para probar en qué nos puede ayudar la ingeniería lingüística en los procesos de desarrollo de la competencia comunicativa en lengua vasca. Sin duda, existen herramientas que pueden facilitar nuestro trabajo docente y también pueden ser utilizadas por los estudiantes para la autoevaluación de textos. ¿No pedimos acaso a nuestros estudiantes que apliquen el corrector de textos? (en euskara utilizamos Xuxen, desarrollado por IXA). ¿Por qué no un programa que señale la riqueza léxica, el nivel de cohesión o la complejidad sintáctica de un texto?

Motivos para temer lo peor…

Como dijo Cuolioli en 1987 y de nuevo en 1995, el problema de utilizar ordenadores para procesar o evaluar la competencia comunicativa es que ha obstaculizado el desarrollo de las investigaciones teóricas durante muchos años, ya que se ha dirigido la investigación a buscar un soporte teórico a la simplificación y atomización de los procesos lingüísticos que posibiliten la traducción automática y la inteligencia artificial (Culioli 1987:12-13, en reedición de Culioli de 1995).

Desde un punto de vista pedagógico, también ha condicionado el desarrollo de modelos de autorregulación del aprendizaje hacia modelos de bajo coste, más ahora en la época de la minería de datos de aprendizaje (learning analytics, user tracking, etc.). Sin embargo, por mucho que quieran presentar investigaciones empíricas al respecto, al igual que pasó con los cuestionarios, la comunicación no se puede reducir a indicadores. Vamos a aceptar que evaluamos de forma subjetiva y debatamos sobre esos aspectos subjetivos y lo que significan de una forma natural. Es inevitable y en muchos sentidos deseable utilizar herramientas de apoyo, pero la vía hacia la objetivización de la evaluación de los aprendizajes y de la comunicación es una vía muerta (no empecemos ahora a enloquecer con rúbricas inmanejables…).

Por último, desde mi punto de vista el mayor riesgo, estas herramientas pueden generar lo que McNamara en 1996 denominó el efecto “washback” y es el de practicar la escritura en base a la forma en la que vamos a ser evaluados. Este efecto es una de las grandes losas del aprendizaje de lenguas e incluso afecta a la evolución de la propia lengua, ya que los docentes acabamos mostrando modelos prefabricados de comunicación para facilitar los aprobados en las pruebas oficiales y rechazamos usos más creativos o personales. Si además esos textos van a ser evaluados por máquinas, está claro que quien quiera certificarse se acomodará a aquello que las máquinas son o no capaces de detectar y abandonará lo demás. Esto está pasando ya en algunas pruebas de inglés y las horrorosas consecuencias son aún peores que las de los cuestionarios, ya que los estudiantes acaban memorizando textos enteros para mantener la estructura tal y como será analizada automáticamente.

Es un riesgo más en el avance de la estandarización y mundialización de los aprendizajes… lo siguiente será que los estudiantes se creen sus propios robots que vayan a los cursos virtuales en su nombre y se presenten a las pruebas. No suena tan raro en esta época en la que tenemos juguetes que juegan solos…

Referencias bibliográficas

  • Alderson, J.C. (1990). Learner-centered testing through computers: Institutional issues in individual assessment. In J. De Jong & D.K. Stevenson (Eds.), Individualizing the assessment of language abilities, 20-27. Clevedon, UK: Multilingual Matters.
  • Chapelle, C., Douglas, D. (2006). Assessing Language through Computer Technology. Cambridge: Cambridge University Press.
  • Culioli, A. (1995). Cognition and Representation in Linguistic Theory. Current Issues in Linguistic Theory, 112. Amsterdam / Philadelphia: John Benjamins Publishing Company.
  • ETS (2007). Using the Criterion Online Writing Evaluation Service for Differentiated Instruction in the College Classroom: A Guide For Faculty and Administrators. [http://www.ets.org/criterion/higher_ed/about, 2007/09/20].
  • Granger, S., Hung, J., Petch-Tyson, S. (2002). Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching. Amsterdan/Philadelphia: John Benjamin, LL&LT Series, 6.
  • Knoch, U. (2009). Diagnostic Writing Assessment. The Development and Validation of a Rating Scale. Frankfurt: Peter Lang.
  • McNamara, T. (1996). Measuring second language performance. Harlow, Essex: Pearson Education.
  • Myford, C.M. (2002). Investigating design features of descriptive graphic rating scales. Applied Measurement in Education, 15(2), 187-215.
  • Page, E.B. (1966). The imminence of grading essays by computer. Phi Delta Kappan 47, 238-243.
  • Page, E.B., Petersen, N.S. (1995). The computer moves into essay grading. Phi Delta Kappan 76, 561-565.
  • Steinhart, D. (2000). Summary Street: an LSA Based Inteligent Tutoring System for Writing and Revising Summaries. PhD. Thesis, University of Colorado: Boulder, Colorado.

Citar como:

Ezeiza, A. (2013). ¡Horror! ¡Me evalúa un Robot!. Boletín SCOPEO Nº 85. 03 de Junio de 2013. En línea: http://scopeo.usal.es/horror-me-evalua-un-robot/ [Consulta: dd/mm/aaaa]