Revista Electrónica de Investigación Educativa

Vol. 15, Núm. 3, 2013

Las 5000 palabras más frecuentes en los libros de texto
oficiales de la educación básica en México


Julio Agustín Varela Barraza (*)
jvar07@gmail.com

Felipe Cabrera González (*)
philipuscab@hotmail.com

Daniel Zarabozo Enríquez de Rivera (*)
dzarabozo@gmail.com

Yuriria Larios Villa (*)
yury24_12@hotmail.com

Miguel González Ortiz (*)
bajoeldivan@hotmail.com

(*) Universidad de Guadalajara

Sierra Nevada 950, Puerta 16. Edificio I, Planta Alta
Col. Independencia, C.P. 44340
Guadalajara, Jalisco, México

(Recibido: 24 de febrero de 2012; aceptado para su publicación: 3 de junio de 2013)

 

Resumen

Se expone la importancia que tienen las listas de frecuencia en la regulación del lenguaje empleado en los textos escolares, además de su frecuente empleo en diversos campos del conocimiento. Considerando una palabra de acuerdo con la definición clásica de la Real Academia Española, el objetivo es presentar las 5,000 palabras más frecuentes que se encuentran en los textos oficiales de la educación básica en México.

Palabras clave: Desarrollo lingüístico, Lenguaje hablado, Libro de texto, Educación básica.

I. Introducción


El trabajo pionero de Thorndike y Lorge (1944), relativo a la frecuencia con la que aparecían las palabras en los textos de educación básica fue muy importante dado que con esa base se han generado múltiples trabajos en diversas lenguas que parcialmente han servido para regular el vocabulario de los textos (Carroll, 1983), para seleccionar los vocablos necesarios para aprender un idioma (Gilner, 2011; Liping, 2009) o para la elaboración de diccionarios (West, 1947). Las listas de frecuencia, término con el que se conocen en general estos estudios, tienen importancia en el vocabulario escrito, en el oral (Alva Canto y Hernández Padilla, 2001) y son material importante para diversas áreas del conocimiento, como la neuropsicología (Nozari, Kittredge, Dell y Schwartz, 2010), la lingüística (Barriga Villanueva, 2002), la lexicografía (Lara, 2007), la psicología (Alonso, Beato, Diez y Fernández, 2000) y la pedagogía (Izquierdo Gil, 2001), entre otras.

Como reportaron Varela, Zarabozo et al. (2011), derivado de las listas de frecuencia, algunos trabajos se han desarrollado considerando el vocabulario controlado que consiste en la selección de vocablos con fines didácticos y que a partir de criterios sistemáticos favorecerán la selección y gradación de vocabulario para la enseñanza de la lengua. Bajo esta perspectiva se han realizado múltiples trabajos para sistematizar la selección de vocabulario inglés. Las investigaciones bajo el enfoque del Vocabulary Control Movement (Movimiento de Control del Vocabulario) pretenden favorecer la docencia, la elaboración de textos y con ello disminuir las dificultades que tienen los alumnos ante una gran cantidad de vocabulario que supuestamente deben aprender. Las propuestas sugieren la supresión de palabras difíciles o la sustitución por otras ya existentes en el inventario, de más alta frecuencia, para lo cual se requiere disponer de listas de frecuencia semejantes al trabajo de Thorndike y Lorge (1944).

Aunque en México existen algunas listas de frecuencia, éstas dan cuenta del vocabulario oral empleado por alumnos de primaria (Alva Canto y Hernández Padilla, 2001; Alva Canto, Perez González et al., 2001) pero no hay una obra similar a la de Thorndike y Lorge (1944) que muestre las palabras que el alumno lee. Por ello, ese es el objetivo de este trabajo.

Si la comprensión es entendida como el dominio de la actividad que se está realizando (Ryle, 1949), entonces el conocimiento del léxico mientras se lee, es un elemento esencial para la comprensión (García y González, 2006), y resulta fundamental contar con un inventario de dicho léxico. Con objeto de conocer este ángulo de la educación mexicana, emprendimos esta tarea siguiendo el método siguiente.

II. Método


Se digitalizaron 34 textos oficiales de educación (en el Anexo 1 se enlistan los textos analizados), vigentes todos hasta el 2012, y se cotejó esta versión electrónica con el texto original hasta en tres ocasiones por al menos dos personas diferentes.

La selección de vocablos se realizó considerando a las palabras definidas como el “segmento del discurso unificado habitualmente por el acento, el significado y pausas potenciales inicial y final” (RAE) que se constituye como el corpus del léxico impreso. Con esta base, el cotejo de los archivos digitales en formato electrónico se efectuó bajo los siguientes criterios:

1) Transcribir las siglas sin puntos entre las letras (por ejemplo E.U.A. fue sustituido por EUA); 2) Mantener las palabras escritas con falta ortográfica que se presentan expresamente en los ejercicios para corrección o como parte del lenguaje coloquial (haiga, pus, tá bien, etc.). Se procedió de igual manera cuando se trataba de un error de impresión, dado que así aparece escrita la palabra ante el alumno; 3) Incluir las palabras inventadas, onomatopeyas o que no tienen sentido en el español. Por ejemplo: cuaaaaaas, tiro lotiro tiro liro, entre otras; 4) Mantener la forma en que está escrita la palabra en el texto, ya que una misma palabra puede aparecer en un mismo texto o en dos textos distintos en formas diferentes. Por ejemplo: Tenochtitlán (con acento) o Tenochtitlan (sin acento); Malí (con acento) o Mali (sin acento); Belice o Belize, entre otras, y que implicó considerarlas como palabras diferentes; 5) No considerar el contenido a llenar en un crucigrama; 6) No considerar las letras empleadas en una lista para dar orden o secuencia; 7) Cuando en el texto aparecían opciones para ambos sexos, por ejemplo: en el caso de la expresión “maestro(a)”, se consideró sólo la palabra que aparecía en forma completa, en este caso “maestro”; 8) Sustituir los números romanos por números arábigos a fin de que el programa contador de palabras ConPal (Zarabozo, Gómez-Velazquez y Varela, 2011) no los contabilizara como palabras; 9) El signo de multiplicar (x) fue sustituido por un guión bajo a fin de evitar su contabilización como si fuera una letra.

Otros dos criterios permitieron estimar cálculos sobre el total de párrafos y número total de palabras por párrafo y oración. Los criterios fueron: 10) Verificar que al final de cada párrafo el único carácter que apareciera fue el correspondiente al cambio de línea (¶); y 11) Eliminar el punto que generalmente acompaña a las abreviaturas, por lo que, “Lic.”, quedó escrito como “Lic”, sin punto final.

III. Resultados

Los textos digitalizados se analizaron mediante ConPal (Zarabozo et al., 2011), programa computacional para evaluar la frecuencia relativa de las palabras contenidas en uno o varios textos. En total se obtuvieron 852,024 palabras existentes en los 34 textos y de éstas, 35,529 palabras sin lematizar1, son diferentes.

Con propósito ilustrativo, en la Figura 1 se muestra el total de palabras contabilizadas de todos los textos de primaria que aparecían una, dos, tres o cuatro veces (primeras cuatro barras de la Figura 1). A partir de esta frecuencia, mediante criterios arbitrarios se estratificaron las palabras que se repetían de 5 a 9, y de 10 en 10 hasta 49. A partir de esto, el intervalo del estrato se incrementó de 50 a 100 y, con própositos ilustrativos, los siguientes estratos se incrementaron 500 y 4,000 veces. La barra de la extrema derecha muestra que 17 palabras ocurren más de 5,000 veces cada una, pero representan el 34% del total y corresponden básicamente a preposiciones, artículos, conjunciones, formas pronominales y la forma verbal “es”.


Figura 1. Número de palabras clasificadas de acuerdo con el número de veces que aparecen en los textos.

En el eje vertical se muestra la frecuencia y en el eje horizontal los estratos de frecuencia elegidos mediante criterios arbitrarios.

Por otro lado, en la segunda columna de la Tabla I se muestra el total de palabras en cada grado. Considerando esta cifra, la tercer columna contiene la diferencia que existe con respecto al grado inmediato anterior. La cuarta columna corresponde al porcentaje de incremento.

Tabla I. Total de palabras por grado y diferencia en frecuencia
y porcentaje con el grado inmediato anterior.

Una descripción más amplia de los resultados puede consultarse en Varela et al. (2011). Finalmente, por razones de espacio, en esta comunicación se incluyen al final sólo las 5,000 palabras impresas más frecuentes que existen en los textos analizados. En cada columna del listado aparece el vocablo escrito con letras mayúsculas, ordenado alfabéticamente y de acuerdo a su frecuencia absoluta con la que aparece en los textos (ver Anexo 2). Como ocurre en todas las listas de frecuencia pertenecientes a lenguas con estructura morfológica semejante a la del castellano, se puede observar que aparecen todas las preposiciones y conjunciones existentes dado que son los elementos básicos que permiten en gran parte la construcción sintáctica, de aquí su alta ocurrencia aunque la frecuencia entre ellas es muy diferente: la preposición “de” aparece 47,894 veces y “tras” aparece 74 veces; la conjunción “y” ocurre 27,372 y “mas” 24. Las otras categorías gramaticales más frecuentes son los sustantivos, los verbos y los adjetivos.

IV. Conclusiones

Los criterios para definir lo que constituye una palabra conducen a listados diferentes (Lara, 2007; Nagy y Anderson, 1984) por lo que es necesario volver a enfatizar que en este caso, palabra se definió de acuerdo a la RAE (2001) y esto determinó el número de palabras que incluye nuestro inventario.2 Considerar si el número total de palabras que existe en los textos es excesivo, necesario, suficiente o cualquier otra clasificación, requiere de un punto de partida que depende del objetivo que tenga cada estudioso del lenguaje, lo cual obedecerá también al enfoque específico de la disciplina en la que se desenvuelve. Nuestro propósito es sólo mostrar algunos datos centrales, no dirigir la atención de los lectores a un aspecto particular.

Finalmente, consideramos que una perspectiva teórica sea lingüística, pedagógica, filológica, lexicográfica, antropológica o psicológica, entre otras, no necesariamente invalida a las otras pues se trata de objetos de estudio y posibles intereses diferentes. Para ejemplificar esto, la RAE, en su 22a edición, consideró 88,431 lemas y si esta cifra se compara directamente con las 35,529 palabras diferentes que aparecen en los 34 textos analizados, éstas representan el 40% de las contenidas en la RAE pero dicho resultado es impreciso pues nuestro inventario no está lematizado. Si para los resultados del conteo se debe o no recurrir a la lematización, entre muchos otros aspectos, es una cuestión que depende del criterio que se aplique: los resultados serán diferentes pero esto no invalida los conteos realizados con criterios diferentes.

Referencias

Alonso, M. A., Beato, M. S., Diez, E. y Fernández, Á. (2000). Estudio normativo de listas de asociados para la elicitación de falso recuerdo y falso reconocimiento. Resúmenes del III congreso de la Sociedad Española de Psicología Experimental (SEPEX), Barcelona.

Alva Canto, E. A. y Hernández Padilla, E. (2001). La producción del lenguaje de niños mexicanos. Un estudio transversal de niños de cinco a doce años. México: Universidad Nacional Autónoma de México.

Alva Canto, E. A., Pérez González, B., Mazón, N. C., Arias, N., Álvarez Mejía, A., Mejía Sandoval, I., Hernández Padilla, E. y Carrión, R. (2001). Cómo usan los niños las palabras. México: Universidad Nacional Autónoma de México.

Barriga Villanueva, R. (2002). Estudios sobre el habla infantil en los años escolares ... un solecito calientote”. México: El Colegio de México.

Carroll, J. B. (1983). Psychometric theory and language testing. En J. W. Oller, (Ed.). Issues in Language Testing Research (pp. 80-107). Rowley: New-Bury House.

García, J. N. y González, L. (2006). Diferencias en la conciencia morfológica, la escritura y el lenguaje en función del desarrollo y el nivel educativo del niño. Psicothema, 18(2), 171-179.

Gilner, L. (2011). A primer on the general service list. Reading in a Foreign Language, 23, 1, 65-83.

Izquierdo Gil, M. C. (2001). Los córpora electrónicos en la enseñanza del vocabulario español: la utilidad pedagógica de las concordancias. Actas de la XII reunión de la Asociación para la Enseñanza del Español como Lengua Extranjera (ASELE), 201-212.

Lara, L. F. (2007). Resultados numéricos del vocabulario fundamental del español de México. México: El Colegio de México.

Liping, H. (2009). The most frequent vocabulary in english textbooks for grades 1-3. Unpubblished. Tesis de maestría. Suranaree University of Technology, Tailandia.

Nagy, W. y Anderson, R. C. (1984). How many words are printed in printed school English? Reading Research Quarterly, 19, 304-330.

Nozari, N., Kittredge, A., Dell, G. S. y Schwartz M. F.(2010). Naming and Repetition in Aphasia: Steps, Routes, and Frequency Effects. Journal of Memory and Language, 63(4), 541-559.

Real Academia Española. (2001). Diccionario de la Lengua Española (22a. ed.). Madrid: Espasa Calpe.

Ryle, G. (1949). The concept of mind. Nueva York: Barnes y Noble.

Thorndike, E. L. y Lorge, I. (1944). The teacher's word book of 30,000 words. Nueva York: Teachers College Columbia University.

Varela, J., Zarabozo, D., Cabrera, F., Larios, Y., González, P., Nava, G, Torres Sánchez, N y Ríos Checa, A. (2011). El vocabulario escrito en los textos oficiales de la educación básica en México: Resultados preliminares. En: H. Martínez, J. Irigoyen, F. Cabrera, J. Varela, P. Covarrubias y Á. Jiménez (Eds), Estudios sobre comportamiento y aplicaciones. Vol. II, (pp. 325-350). México: Ediciones de la Noche.

West, M. (1947). The new method English dictionary. Londres: Longmans Green.

Zarabozo, D., Gómez-Velazquez, F. y Varela J. (2011). Conpal: Una herramienta para análisis cuantitativo de textos. En H. Martínez, J. Irigoyen, F. Cabrera, J. Varela, P. Covarrubias y A. Jiménez (Eds.). Estudios sobre comportamiento y aplicaciones, Vol. II. (pp. 351-358). México: Ediciones de la Noche.

 

1Acción que en un diccionario, por razones de economía, consiste en elegir convencionalmente una forma de la palabra (type) para remitir a ella todas las palabras derivadas (token). Por ejemplo, las palabras habló, hablaremos, hablan, hablando, etc. se omiten y se contabiliza sólo la palabra hablar.

2Los lectores interesados en obtener la lista de las 35,529 palabras distintas puede solicitarla por correo electrónico a jvar07@gmail.com

Para citar este artículo, le recomendamos el siguiente formato:

Varela, J. A., Cabrera, F., Zarabozo, D., Larios, Y. y González, M. (2013). Las 5000 palabras más frecuentes en los libros de texto oficiales de la educación básica en México. . Revista Electrónica de Investigación Educativa, 15(3), 114-123. Recuperado de http://redie.uabc.mx/vol15no3/contenido-varelaetal.html