Revista
Electrónica de Investigación Educativa
Vol. 15, Núm. 3, 2013
Las
5000 palabras más frecuentes en los libros de texto
oficiales de la educación básica en México
Julio Agustín Varela Barraza (*)
jvar07@gmail.com
Felipe Cabrera González
(*)
philipuscab@hotmail.com
Daniel Zarabozo Enríquez
de Rivera (*)
dzarabozo@gmail.com
Yuriria Larios Villa
(*)
yury24_12@hotmail.com
Miguel González
Ortiz (*)
bajoeldivan@hotmail.com
(*) Universidad de Guadalajara
Sierra Nevada 950,
Puerta 16. Edificio I, Planta Alta
Col. Independencia, C.P. 44340
Guadalajara, Jalisco, México
(Recibido: 24 de febrero de 2012; aceptado para su publicación: 3 de junio de 2013)
Resumen
Se expone la importancia que tienen las listas de frecuencia en la regulación
del lenguaje empleado en los textos escolares, además de su frecuente
empleo en diversos campos del conocimiento. Considerando una palabra de acuerdo
con la definición clásica de la Real Academia Española,
el objetivo es presentar las 5,000 palabras más frecuentes que se encuentran
en los textos oficiales de la educación básica en México.
Palabras clave: Desarrollo lingüístico, Lenguaje hablado,
Libro de texto, Educación básica.
I. Introducción
El trabajo pionero de Thorndike y Lorge (1944), relativo a la frecuencia con
la que aparecían las palabras en los textos de educación básica
fue muy importante dado que con esa base se han generado múltiples trabajos
en diversas lenguas que parcialmente han servido para regular el vocabulario
de los textos (Carroll, 1983), para seleccionar los vocablos necesarios para
aprender un idioma (Gilner, 2011; Liping, 2009) o para la elaboración
de diccionarios (West, 1947). Las listas de frecuencia, término
con el que se conocen en general estos estudios, tienen importancia en el vocabulario
escrito, en el oral (Alva Canto y Hernández Padilla, 2001) y son material
importante para diversas áreas del conocimiento, como la neuropsicología
(Nozari, Kittredge, Dell y Schwartz, 2010), la lingüística (Barriga
Villanueva, 2002), la lexicografía (Lara, 2007), la psicología
(Alonso, Beato, Diez y Fernández, 2000) y la pedagogía (Izquierdo
Gil, 2001), entre otras.
Como reportaron Varela, Zarabozo et al. (2011), derivado de las listas
de frecuencia, algunos trabajos se han desarrollado considerando el vocabulario
controlado que consiste en la selección de vocablos con fines didácticos
y que a partir de criterios sistemáticos favorecerán la selección
y gradación de vocabulario para la enseñanza de la lengua. Bajo
esta perspectiva se han realizado múltiples trabajos para sistematizar
la selección de vocabulario inglés. Las investigaciones bajo el
enfoque del Vocabulary Control Movement (Movimiento de Control del
Vocabulario) pretenden favorecer la docencia, la elaboración de textos
y con ello disminuir las dificultades que tienen los alumnos ante una gran cantidad
de vocabulario que supuestamente deben aprender. Las propuestas sugieren la
supresión de palabras difíciles o la sustitución por otras
ya existentes en el inventario, de más alta frecuencia, para lo cual
se requiere disponer de listas de frecuencia semejantes al trabajo de Thorndike
y Lorge (1944).
Aunque en México existen algunas listas de frecuencia, éstas dan
cuenta del vocabulario oral empleado por alumnos de primaria (Alva Canto y Hernández
Padilla, 2001; Alva Canto, Perez González et al., 2001) pero
no hay una obra similar a la de Thorndike y Lorge (1944) que muestre las palabras
que el alumno lee. Por ello, ese es el objetivo de este trabajo.
Si la comprensión es entendida como el dominio de la actividad que se
está realizando (Ryle, 1949), entonces el conocimiento del léxico
mientras se lee, es un elemento esencial para la comprensión (García
y González, 2006), y resulta fundamental contar con un inventario de
dicho léxico. Con objeto de conocer este ángulo de la educación
mexicana, emprendimos esta tarea siguiendo el método siguiente.
II. Método
Se digitalizaron 34 textos oficiales de educación (en el
Anexo 1 se enlistan los textos analizados), vigentes todos hasta el 2012,
y se cotejó esta versión electrónica con el texto original
hasta en tres ocasiones por al menos dos personas diferentes.
La selección de vocablos se realizó considerando a las palabras
definidas como el “segmento del discurso unificado habitualmente por el
acento, el significado y pausas potenciales inicial y final” (RAE)
que se constituye como el corpus del léxico impreso. Con esta
base, el cotejo de los archivos digitales en formato electrónico se efectuó
bajo los siguientes criterios:
1) Transcribir las siglas sin puntos entre las letras (por ejemplo E.U.A.
fue sustituido por EUA); 2) Mantener las palabras escritas
con falta ortográfica que se presentan expresamente en los ejercicios
para corrección o como parte del lenguaje coloquial (haiga,
pus, tá bien, etc.). Se procedió de igual manera cuando se trataba
de un error de impresión, dado que así aparece escrita la palabra
ante el alumno; 3) Incluir las palabras inventadas, onomatopeyas o que no tienen
sentido en el español. Por ejemplo: cuaaaaaas, tiro lotiro tiro liro,
entre otras; 4) Mantener la forma en que está escrita la palabra en el
texto, ya que una misma palabra puede aparecer en un mismo texto o en dos textos
distintos en formas diferentes. Por ejemplo: Tenochtitlán (con acento)
o Tenochtitlan (sin acento); Malí (con acento) o Mali (sin acento); Belice
o Belize, entre otras, y que implicó considerarlas como palabras diferentes;
5) No considerar el contenido a llenar en un crucigrama; 6) No considerar las
letras empleadas en una lista para dar orden o secuencia; 7) Cuando en el texto
aparecían opciones para ambos sexos, por ejemplo: en el caso de la expresión
“maestro(a)”, se consideró sólo la palabra que aparecía
en forma completa, en este caso “maestro”; 8) Sustituir los números
romanos por números arábigos a fin de que el programa contador
de palabras ConPal (Zarabozo, Gómez-Velazquez y Varela, 2011) no los
contabilizara como palabras; 9) El signo de multiplicar (x) fue sustituido por
un guión bajo a fin de evitar su contabilización como si fuera
una letra.
Otros dos criterios permitieron estimar cálculos sobre el total de párrafos
y número total de palabras por párrafo y oración. Los criterios
fueron: 10) Verificar que al final de cada párrafo el único carácter
que apareciera fue el correspondiente al cambio de línea (¶); y
11) Eliminar el punto que generalmente acompaña a las abreviaturas, por
lo que, “Lic.”, quedó escrito como “Lic”, sin
punto final.
III. Resultados
Los textos digitalizados se analizaron mediante ConPal (Zarabozo et
al., 2011), programa computacional para evaluar la frecuencia relativa
de las palabras contenidas en uno o varios textos. En total
se obtuvieron 852,024 palabras existentes en los 34 textos y de éstas,
35,529 palabras sin lematizar1,
son diferentes.
Con propósito ilustrativo, en la Figura 1 se muestra el total de palabras
contabilizadas de todos los textos de primaria que aparecían una, dos,
tres o cuatro veces (primeras cuatro barras de la Figura 1). A partir de esta
frecuencia, mediante criterios arbitrarios se estratificaron las palabras que
se repetían de 5 a 9, y de 10 en 10 hasta 49. A partir de esto, el intervalo
del estrato se incrementó de 50 a 100 y, con própositos ilustrativos,
los siguientes estratos se incrementaron 500 y 4,000 veces. La barra de la extrema
derecha muestra que 17 palabras ocurren más de 5,000 veces cada una,
pero representan el 34% del total y corresponden básicamente a preposiciones,
artículos, conjunciones, formas pronominales y la forma verbal “es”.
Figura 1. Número de palabras clasificadas de acuerdo con el número
de veces que aparecen en los textos.
En el eje vertical se muestra la frecuencia y en el eje horizontal los estratos de frecuencia elegidos mediante criterios arbitrarios.
Por otro lado, en la segunda columna de la Tabla I se muestra el total de palabras en cada grado. Considerando esta cifra, la tercer columna contiene la diferencia que existe con respecto al grado inmediato anterior. La cuarta columna corresponde al porcentaje de incremento.
Tabla I. Total de
palabras por grado y diferencia en frecuencia
y porcentaje con el grado inmediato anterior.
Una descripción más
amplia de los resultados puede consultarse en Varela et al. (2011). Finalmente,
por razones de espacio, en esta comunicación se incluyen al final sólo
las 5,000 palabras impresas más frecuentes que existen en los textos
analizados. En cada columna del listado aparece el vocablo escrito con letras
mayúsculas, ordenado alfabéticamente y de acuerdo a su frecuencia
absoluta con la que aparece en los textos (ver
Anexo 2). Como ocurre en todas las listas de frecuencia pertenecientes a
lenguas con estructura morfológica semejante a la del castellano, se
puede observar que aparecen todas las preposiciones y conjunciones existentes
dado que son los elementos básicos que permiten en gran parte la construcción
sintáctica, de aquí su alta ocurrencia aunque la frecuencia entre
ellas es muy diferente: la preposición “de” aparece
47,894 veces y “tras” aparece 74 veces; la conjunción
“y” ocurre 27,372 y “mas” 24. Las
otras categorías gramaticales más frecuentes son los sustantivos,
los verbos y los adjetivos.
IV. Conclusiones
Los criterios para definir lo que constituye una palabra conducen a listados
diferentes (Lara, 2007; Nagy y Anderson, 1984) por lo que es necesario volver
a enfatizar que en este caso, palabra se definió
de acuerdo a la RAE (2001) y esto determinó el
número de palabras que incluye nuestro inventario.2
Considerar si el número total de palabras que existe en los textos es
excesivo, necesario, suficiente o cualquier otra clasificación, requiere
de un punto de partida que depende del objetivo que tenga cada estudioso del
lenguaje, lo cual obedecerá también al enfoque específico
de la disciplina en la que se desenvuelve. Nuestro propósito es sólo
mostrar algunos datos centrales, no dirigir la atención de los lectores
a un aspecto particular.
Finalmente, consideramos que una perspectiva teórica sea lingüística,
pedagógica, filológica, lexicográfica, antropológica
o psicológica, entre otras, no necesariamente invalida a las otras pues
se trata de objetos de estudio y posibles intereses diferentes. Para ejemplificar
esto, la RAE, en su 22a edición, consideró
88,431 lemas y si esta cifra se compara directamente con las 35,529
palabras diferentes que aparecen en los 34 textos analizados, éstas representan
el 40% de las contenidas en la RAE pero dicho resultado
es impreciso pues nuestro inventario no está lematizado. Si para los
resultados del conteo se debe o no recurrir a la lematización, entre
muchos otros aspectos, es una cuestión que depende del criterio que se
aplique: los resultados serán diferentes pero esto no invalida los conteos
realizados con criterios diferentes.
Referencias
Alonso, M. A., Beato, M. S., Diez, E. y Fernández, Á. (2000).
Estudio normativo de listas de asociados para la elicitación de falso
recuerdo y falso reconocimiento. Resúmenes del III congreso de la
Sociedad Española de Psicología Experimental (SEPEX),
Barcelona.
Alva Canto, E. A. y Hernández Padilla, E. (2001). La producción
del lenguaje de niños mexicanos. Un estudio transversal de niños
de cinco a doce años. México: Universidad Nacional Autónoma
de México.
Alva Canto, E. A., Pérez González, B., Mazón, N. C., Arias,
N., Álvarez Mejía, A., Mejía Sandoval, I., Hernández
Padilla, E. y Carrión, R. (2001). Cómo usan los niños
las palabras. México: Universidad Nacional Autónoma de México.
Barriga Villanueva, R. (2002). Estudios sobre el habla infantil en los años
escolares “... un solecito calientote”. México:
El Colegio de México.
Carroll, J. B. (1983). Psychometric theory and language testing. En J. W. Oller,
(Ed.). Issues in Language Testing Research (pp. 80-107). Rowley: New-Bury
House.
García, J. N. y González, L. (2006). Diferencias en la conciencia
morfológica, la escritura y el lenguaje en función del desarrollo
y el nivel educativo del niño. Psicothema, 18(2), 171-179.
Gilner, L. (2011). A primer on the general service list. Reading in a Foreign
Language, 23, 1, 65-83.
Izquierdo Gil, M. C. (2001). Los córpora electrónicos en la
enseñanza del vocabulario español: la utilidad pedagógica
de las concordancias. Actas de la XII reunión de la Asociación
para la Enseñanza del Español como Lengua Extranjera (ASELE),
201-212.
Lara, L. F. (2007). Resultados numéricos del vocabulario fundamental
del español de México. México: El Colegio de México.
Liping, H. (2009). The most frequent vocabulary in english textbooks for
grades 1-3. Unpubblished. Tesis de maestría. Suranaree University
of Technology, Tailandia.
Nagy, W. y Anderson, R. C. (1984). How many words are printed in printed school
English? Reading Research Quarterly, 19, 304-330.
Nozari, N., Kittredge, A., Dell, G. S. y Schwartz M. F.(2010). Naming and Repetition
in Aphasia: Steps, Routes, and Frequency Effects. Journal of Memory and
Language, 63(4), 541-559.
Real Academia Española. (2001). Diccionario de la Lengua Española
(22a. ed.). Madrid: Espasa Calpe.
Ryle, G. (1949). The concept of mind. Nueva York: Barnes y Noble.
Thorndike, E. L. y Lorge, I. (1944). The teacher's word book of 30,000 words.
Nueva York: Teachers College Columbia University.
Varela, J., Zarabozo, D., Cabrera, F., Larios, Y., González, P., Nava,
G, Torres Sánchez, N y Ríos Checa, A. (2011). El vocabulario escrito
en los textos oficiales de la educación básica en México:
Resultados preliminares. En: H. Martínez, J. Irigoyen, F. Cabrera, J.
Varela, P. Covarrubias y Á. Jiménez (Eds), Estudios sobre
comportamiento y aplicaciones. Vol. II, (pp. 325-350). México:
Ediciones de la Noche.
West, M. (1947). The new method English dictionary. Londres: Longmans
Green.
Zarabozo, D., Gómez-Velazquez, F. y Varela J. (2011). Conpal: Una herramienta
para análisis cuantitativo de textos. En H. Martínez, J. Irigoyen,
F. Cabrera, J. Varela, P. Covarrubias y A. Jiménez (Eds.). Estudios
sobre comportamiento y aplicaciones, Vol. II. (pp. 351-358). México:
Ediciones de la Noche.
1Acción que en un diccionario, por razones de economía, consiste en elegir convencionalmente una forma de la palabra (type) para remitir a ella todas las palabras derivadas (token). Por ejemplo, las palabras habló, hablaremos, hablan, hablando, etc. se omiten y se contabiliza sólo la palabra hablar.
2Los
lectores interesados en obtener la lista de las 35,529 palabras distintas puede
solicitarla por correo electrónico a jvar07@gmail.com
Para citar este artículo, le recomendamos el siguiente formato:
Varela, J. A., Cabrera, F., Zarabozo, D., Larios, Y. y González, M. (2013).
Las 5000 palabras más frecuentes en los libros de texto oficiales de
la educación básica en México. . Revista Electrónica
de Investigación Educativa, 15(3), 114-123. Recuperado
de http://redie.uabc.mx/vol15no3/contenido-varelaetal.html