Colindancias (2013) 4: 413-422

 

Gorana Zečević Krneta

 

Universidad de Kragujevac

Serbia

 

 

Una aproximación al estudio del corpus de aprendices serbios de E/LE

 

 

Recibido 5 de marzo de 2013 / Aceptado 22 de mayo de 2013


 

Resumen: El estudio del corpus de aprendices se sustenta en fundamentos de la lingüística del corpus, las teorías de la adquisición de idiomas y la enseñanza de las lenguas extranjeras, y así ofrece numerosas posibilidades de la labor didáctico-pedagógica. Sin embargo, lo más exigente del estudio de corpus es la creación del mismo. Con el presente trabajo abrimos la cuestión de la elaboración de un corpus de aprendices y presentamos uno de ellos, el corpus de aprendices serbios de E/LE. Asimismo, desarrollamos una visión crítica que capacite al personal docente para saber cuándo un determinado corpus de este tipo puede resultar útil, por qué y para qué. Este trabajo lo cerramos con una agenda de prioridades dado que nuestra tarea de elaboración de un corpus de aprendices lo suficientemente representativo y asequible todavía no ha conseguido la fase pretendida.

 

Palabras clave: adquisición de lenguas extranjeras, E/LE, estudios del corpus de aprendices, implicaciones pedagógicas, lingüística computacional.

 

Abstract: Due to the fact that learner corpus research relies on findings from corpus linguistics,


linguistic theory, second language acquisition, and foreign language teaching, it is commonly claimed that language corpora have many uses in terms of relevance for language teaching and learning. However, corpus elaboration is a very difficult and demanding part of this methodological approach. In this paper, special attention is given to learner corpora and, more specifically, to its elaboration. The learner corpus in the case of Spanish as a Foreign Language has been presented, along with the implications of its use. However, there is a need for more systematic studies on the effectiveness of learner corpora in language teaching. The article closes with a list of priorities for further work on an electronic database of learner corpus in the case of Spanish as a Foreign Language.

 

Key words: computational linguistics, learner corpus research, pedagogical implications, second language acquisition, Spanish as a Foreign Language.


 

 

 

1. Introducción

 

Se ha destacado y demostrado varias veces que la lingüística del corpus ofrece una gran cantidad de posibilidades de investigación, dado que el estudio lingüístico de corpus permite el manejo de una cantidad enorme de datos, contextualiza ejemplos y los interpreta de acuerdo con una serie de variables de naturaleza lingüística y social (Biber 2012; Buckingham 2009; Granger 2009; Adolphs 2008; Leistyna, Meier 2003). El corpus es una


Una aproximación al estudio del corpus de aprendices serbios de E/LE

 

colección de textos, orales o escritos, en formato electrónico o no, pero, al mismo tiempo, una fuente de ejemplos tanto realistas y típicos como excepcionales para diferentes objetivos lingüísticos y pedagógicos (Sánchez 2000: 7).

 

Si se toman en consideración los trabajos realizados hasta ahora dentro del ámbito del estudio del corpus, se pueden citar tres focos de interés: (a) el empleo del corpus en actividades relacionadas con los estudios de traducción, la estilística, los estudios gramaticales y la construcción de gramáticas y diccionarios; (b) un desarrollo de la asociación del corpus y docencia, que consiste en la compilación y empleo de corpus pedagógicos con objeto de descubrir aspectos importantes relacionados con el proceso de enseñanza-aprendizaje de una lengua extranjera; (c) el empleo de concordancias y otros datos extraídos de un corpus con el fin de utilizarlos en diversas tareas docentes (Fuertes Olivera 2007: 214). La utilidad de los análisis de los tres focos se argumentará luego en el artículo.

 

Sobre la aplicación de los estudios del corpus en el ámbito pedagógico ya se ha escrito en muchas ocasiones (Biber 2012; Zecevic Krneta 2010; Belz, Vyatkina 2008; O´Keeffe, McCarthy, Carter 2007; Sinclair 2004; Granger, Hung, Petch-Tyson 2002; Hunston 2002; Osborne 1999). Por un lado, los corpus facilitan a los aprendices el contacto con el lenguaje auténtico, les ayudan a formular sus propias conclusiones sobre aspectos del uso y significado de palabras, colocaciones y otras unidades fraseológicas; por otro lado, permiten conocer los mecanismos de la adquisición de idiomas y hacen concienciar a los interesados acerca del proceso de enseñanza-aprendizaje de una LE. Barnbrook (1996: 24) añade que un corpus representa una muestra de colección de datos lingüísticos que permite que se deduzcan conclusiones sobre la muestra más que sobre la lengua misma, por lo que cualquier estudio de textos de corpus debería cuestionar la muestra lingüística, y ajustarla a los objetivos que se intenten lograr.

 

Pues bien, claro está que el estudio del corpus es una tarea fructífera y beneficiosa tanto para el personal docente como para los aprendices; sin embargo, lo difícil y exigente del estudio del corpus es la creación del mismo. Justamente, en esta ocasión queríamos abrir esa cuestión de elaboración de un corpus de aprendices y presentar uno de ellos, el que nosotros hemos logrado crear hasta ahora. Asimismo, queríamos desarrollar una visión crítica que capacite al personal docente para saber cuándo un determinado corpus de este tipo puede resultar útil, por qué y para qué.

 

En nuestro caso se trata de un corpus de aprendices del español como lengua extranjera (E/LE) que incluye textos descriptivos escritos por los estudiantes de español de los cuatro cursos reconocidos oficialmente, y el corpus se está elaborando en el Departamento de Hispanística de la Universidad de Kragujevac, con la ayuda de la Facultad de Ciencias Naturales y Matemáticas de la Universidad de Belgrado. El impulso hacia la creación de un corpus de aprendices serbios de E/LE, como suele ser, ha partido de la necesidad de elaboración de una base de datos para la tesis doctoral, pero la idea es que su rentabilidad no termine con eso, ya que son muchas las oportunidades de su uso y provecho didáctico.

 

Finalmente, nuestra intención ha sido ofrecer a todos los interesados este corpus codificado e informatizado, pero, lamentablemente, como esta tarea costosa en tiempo y esfuerzo no depende en totalidad de la autora, esperamos en un futuro próximo poder dar toda la información necesaria para manejar el corpus. Por el momento, el corpus está en el formato de Word, con la posibilidad de manejarlo con herramientas de Word1.

 

 

1 La idea es que el corpus se encuentre a disposición de todos los interesados en una web página, la que se podría consultar bajo la autorización de la autora.


 

414  | Colindancias: Revista de la Red Regional de Hispanistas de Hungría, Rumanía y Serbia 4: 413-422, 2013, ISSN 2067-9092


G. Zečević Krneta

 

 

 

2. Sobre el corpus de aprendices de idiomas

 

Antes de describir el corpus de aprendices serbios de E/LE, vamos a definir qué entendemos por corpus de aprendices y cómo se destaca este entre otros tipos de corpus.

De acuerdo con los trabajos realizados hasta ahora dentro del campo de la lingüística del corpus, Johansson (2009: 36) nombra tres tipos de corpus: corpus textuales de un nativo (ing. native textbook corpora), corpus de aprendices de una LE (ing. learner corpora), y corpus paralelo multilingüe (ing. multilingual corpora). Los tres tipos pueden subclasificarse en corpus escritos u orales. Asimismo, Granger (2002: 10) añade que la mayoría de los corpus suele ser de carácter sincrónico, es decir, ofrecen muestras lingüísticas recopiladas en un momento dado, a diferencia de los corpus longitudinales, que engloban varios cortes de material lingüístico, mejor dicho, evidencian una evolución lingüística o casos de fosilización.

 

El corpus de aprendices supone un corpus de materiales producidos por estudiantes de una LE, de forma que se trabaje sobre datos reales recogidos de forma sistemática y organizada (Cestero et al. 2001: 527). El estudio de un corpus de este tipo no solo facilita la formulación de generalizaciones sobre diferentes aspectos del proceso de adquisición de idiomas extranjeros, sino también enriquece nuestro entendimiento de la relativa frecuencia de expresiones o errores determinados. Cestero et al. añaden:

 

lo más importante es que un corpus sea asequible y que permita llevar a cabo un amplio número de investigaciones diferentes dentro del ámbito de la lingüística aplicada a la enseñanza y adquisición de E/LE, tales como: análisis de errores lingüísticos, problemas de adquisición relacionados con la LM, con el nivel de conocimientos, con el sexo o con la edad de los estudiantes; luego, tipos, frecuencias, condicionamientos e implicaciones de las transferencias lingüísticas; y fundamentalmente, elaboración de materiales didácticos de refuerzo y de consolidación. Estos corpus, por lo tanto, ofrecen un acceso directo a la competencia transitoria, a la interlengua de los estudiantes de idiomas y permite entender una serie de peculiaridades de la misma en distintas etapas de su aprendizaje. (Cestero et al. 2001: 527)

 

A veces se pone en cuestión la autenticidad de un material producido dentro del aula, pero Granger (2002: 8) argumenta que la autenticidad de las redacciones escritas de aprendices, como uno de los elementos clave de cualquier corpus, proviene de una auténtica actividad realizada en clase, limitada solo por lo que concierne al tema y al tamaño.

La elaboración de un amplio corpus de estas características es una tarea exigente, por lo que los investigadores suelen elaborar corpus reducidos que les permitan realizar trabajos puntuales atendiendo a los objetivos de su propia investigación, lo mismo que se ha hecho aquí. La creación y preparación de un corpus para el estudio del proceso de la enseñanza-aprendizaje de una LE se entiende como la primera fase, mientras que la informatización, el almacenamiento y el etiquetado del corpus recogido se ve como la fase posterior. Por eso es muy importante que se establezcan unas relaciones firmes entre los lingüistas, los docentes y los informáticos, porque cada uno contribuye con sus conocimientos y esfuerzos.

 

Actualmente, en el caso del español como lengua extranjera encontramos varios corpus de aprendices de E/LE, como, por ejemplo, el Corpus de aprendices ingleses del


 

Colindancias: Revista de la Red Regional de Hispanistas de Hungría, Rumanía y Serbia 4: 413-422, 2013, ISSN 2067-9092 | 415


Una aproximación al estudio del corpus de aprendices serbios de E/LE

 

español (CEDEL2)2, creado por la Universidad Autónoma de Madrid en colaboración con la Universidad de Granada, luego el corpus de aprendices de E/LE CORANE3 elaborado por el personal docente de la Universidad de Alcalá, también SPLLOC4 (Spanish Learner Language Oral Corpus) realizado por la Universidad de Southampton, Reino Unido, y otros que se han elaborado en otras universidades de Europa y también en otros continentes (SAELE5 de la Universidad de Jönköping, Suecia, y el corpus multilingüe CoMAprend6 de la Universidad de São Paolo, Brasil).

 

 

 

3. Sobre el corpus de materiales escritos de aprendices serbios de E/LE

 

A continuación describimos la situación de la recogida de datos y presentamos nuestro corpus numéricamente.

 

En cuanto a la recogida de datos, se ha realizado en dos ocasiones y en dos universidades de Serbia, las dos públicas: en la Universidad de Belgrado, el Departamento de Estudios Ibéricos de la Facultad de Filología, durante mayo y junio de 2007, es decir, a finales del año escolar 2006/07; y, en la Universidad de Kragujevac, el Departamento de Hispanística de la Facultad de Filología y Artes, durante mayo y junio de 2011, o sea, a finales del año escolar 2010/11.

 

Con ello hemos pretendido obtener el mayor número posible de redacciones de estudiantes de los cuatro niveles de aprendizaje que se reconocen en los estudios académicos de dos universidades serbias. A fin de conocer las tendencias normales de adquisición y aprendizaje manifestadas en las redacciones era necesario que no existieran grandes diferencias entre los estudiantes. Así, para garantizar la homogeneidad de la muestra hemos elegido estos dos centros de estudios puesto que tanto el nivel de conocimiento de español como el de la destreza escrita concuerdan con el número de horas de instrucción recibidas (aproximadamente un total entre 8 y 10 horas semanales de español), con una leve ventaja en el caso de la Universidad de Belgrado, la que se debe a un mayor número de clases con lectores nativos de español y también a un mayor número de ocasiones para acercarse a la lengua y cultura españolas (eventos culturales organizados por el Instituto Cervantes de Belgrado, por la Embajada española y por las embajadas hispanoamericanas). En las dos universidades se imparten tanto clases lectivas de la lingüística española como clases prácticas de español y de la conversación.

 

En la recogida de datos, además de pruebas específicas de gramática, pedimos a los estudiantes que redactasen composiciones escritas, aproximadamente 20 líneas de extensión, sobre el tema «El viaje de mis sueños», un tema que parece ser motivador y cercano a los jóvenes, y aún más a los estudiantes de filología, quienes a la pregunta :

 

–¿por qué se han matriculado en los estudios de filología?– contestan que les gusta mucho viajar. Además, de todos los procedimientos que existen para recoger datos, la redacción libre es tal vez el menos controlado, ya que el investigador influye solo con la decisión del

 

 

2 http://www.uam.es/proyectosinv/woslac/cedel2.htm

3 http://cvc.cervantes.es/ensenanza/biblioteca_ele/asele/pdf/12/12_0527.pdf

4 http://www.splloc.soton.ac.uk/

5 http://urn.kb.se/resolve?urn=urn:nbn:se:hj:diva-20244

6 http://www.fflch.usp.br/dlm/comet/comaprend.html


 

416  | Colindancias: Revista de la Red Regional de Hispanistas de Hungría, Rumanía y Serbia 4: 413-422, 2013, ISSN 2067-9092


G. Zečević Krneta

 

tema y del tamaño. Se procuró que la redacción de los textos resultase lo más abierta posible, evitando imposiciones y dando a los informantes un alto grado de libertad. Los estudiantes no disponían de material de consulta, de manera que emplearon sus propias estrategias para la superación de las dificultades comunicativas. El propósito de la recopilación de los datos no se explicó a los alumnos, solo recibieron instrucciones sobre la tarea misma minutos antes de realizarla. El tiempo asignado para redactar la composición fue de treinta minutos en el propio entorno académico de los estudiantes.

 

Asimismo, se les pidió a los estudiantes que rellenasen un cuestionario escrito respecto a diversas variables relacionadas con el aprendizaje del idioma tales como: edad, sexo, educación, conocimiento de otros idiomas, estudios realizados de español, lugar y duración de su realización, luego ocasiones fuera del aula en las que usan español para comunicarse. Toda esa información7 se recoge en una ficha complementaria a la redacción correspondiente.

 

En lo que concierne a los informantes que constituyen nuestro corpus, la muestra de estudiantes está formada por la mayoría de los estudiantes de primero, segundo, tercero y cuarto curso de estudios hispánicos en las dos universidades mencionadas. Cabe decir que los aprendices se encontraban en un entorno académico de asimilación del material lectivo y práctico, con lo que sus objetivos eran estrictamente académicos y orientados a la realización del examen final.

 

La muestra de informantes de Belgrado es de 120, y de ese número son 22 pertenecientes al primer curso de español, 36 al segundo, 28 al tercero y 34 al cuarto. En el momento de la recopilación del corpus sus edades comprendían entre diecinueve y veintiocho años, con un total de 108 mujeres frente a 12 hombres, lo que suponía una inmensa mayoría de informantes femeninos. El recuento de palabras utilizadas da un total de 17.531 palabras.

 

Por otro lado, en la universidad de Kragujevac participaron 102 estudiantes, de los cuales 23 pertenecían al primer curso de español, 20 al segundo, 28 al tercero y 31 al cuarto. Cabe destacar que, aunque el número de los participantes de Kragujevac es menor que el de Belgrado, el recuento de palabras utilizadas llega a ser 19.028 palabras. De nuevo nos encontramos con una inmensa mayoría de informantes femeninos, 87 mujeres frente a 15 hombres. Sus edades van desde los veinte hasta los veintinueve años.

 

 

 

4. La rentabilidad del corpus de aprendices

 

Llegamos al punto donde cabría justificar la existencia de un corpus de aprendices serbios de E/LE, por qué y para qué es importante tener uno a mano. La rentabilidad es una de las características principales de cualquier corpus, o sea, es de suma importancia que un corpus permita realizar un amplio número de investigaciones diferentes.

 

Lo esencial para el desarrollo de una enseñanza efectiva de idiomas es el conocimiento de los errores más frecuentes y más característicos de los alumnos que aprenden español, para poder conocer las principales áreas de dificultad a las que se

 

 

7  Los estudiantes de español a los que se les pidieron las composiciones que forman el corpus han dado su autorización para utilizarlas. En la definitiva base de datos, los apellidos y el nombre del informante son sustituidos por un código numérico para guardar la confidencialidad de los datos personales.


 

Colindancias: Revista de la Red Regional de Hispanistas de Hungría, Rumanía y Serbia 4: 413-422, 2013, ISSN 2067-9092 | 417


Una aproximación al estudio del corpus de aprendices serbios de E/LE

 

enfrentan los alumnos y para preparar materiales didácticos adecuados a los alumnos en función de su lengua materna (LM). Al examinar la interlengua se puede comprobar si existen etapas inestables en el proceso de adquisición de español por un grupo homogéneo de aprendices, cuáles son los problemas principales que encuentran los estudiantes en cada uno de estos niveles, cuáles desaparecen con la siguiente etapa del aprendizaje y cuáles presentan mayor riesgo de fosilización. También se deduce qué estrategias se activan para resolver esos problemas. Es recomendable que este tipo de investigaciones tengan un carácter fundamental práctico, o sea, junto a una descripción cualitativa del proceso de enseñanza-aprendizaje de E/LE se debe pensar en una futura aplicación didáctica que permita la superación de errores.

 

Por todo lo que acabamos de exponer, encontramos oportuno que el mismo corpus pueda servir de estímulo investigador en los estudios de posgrado, tanto por parte de los docentes como por los estudiantes.

 

A continuación, diferenciando los estudios basados en un corpus y derivados de ese (cfr. Biber 2012: 162), presentamos algunas sugerencias para la posible explotación del material recopilado8. Lo que nosotros proponemos son las líneas de investigación basadas en el estudio del corpus, mientras que lo que emergiera espontáneamente de los análisis se atribuiría al estudio derivado del trabajo con el corpus. Así, se sugiere:

 

-        estudiar las características (morfosintácticas, léxicas, discursivas, pragmáticas, culturales) de la producción escrita de aprendices serbios de E/LE;

 

-        comprobar si existen diferentes etapas perceptibles en el proceso de adquisición del español y cuáles son las características de esas etapas;

 

-        diferenciar los textos de acuerdo con el nivel de conocimiento de español, con el conocimiento de otros idiomas extranjeros9 y otras variables;

-        comparar el progreso de estudiantes en distintas universidades, es decir, averiguar el impacto de la enseñanza sobre el aprendizaje en dos centros diferentes, claro, si hay algún contraste;

-        mejorar los materiales de enseñanza de lenguas destacando los puntos que resultan problemáticos para los serbios aprendices de E/LE.

 

Como se puede observar, son muchas las oportunidades para trabajar con un corpus de aprendices de una LE, solo nos falta tiempo, un trabajo coordinado y buena fe para trazar todas esas líneas de investigación.

 

 

 

5. Procedimientos de análisis computacional del corpus

 

Como ya se ha mencionado en el trabajo, después de recoger las composiciones, procedimos a hacer la transcripción de las composiciones al ordenador en formato de texto,

 

 

8 En esta ocasión no pretendemos analizar la interlengua de aprendices serbios de E/LE, más bien invitamos a los interesados a que hicieran diferentes análisis, para poder obtener unos resultados lo más posible englobadores. Nosotros ya hemos analizado el uso del artículo determinado por parte de los hablantes serbios de E/LE, pero los resultados de ese análisis junto con la propuesta del material didáctico de refuerzo se expondrán en la tesis.

9 Se ha argumentado en varias ocasiones que los aprendices de idiomas extranjeros tienden a desarrollar estrategias de aprendizaje que les facilitan el proceso de aprendizaje/adquisición de una L3 o L4 (cfr. Jovanovic, Zecevic Krneta 2012; Ringbom 2007).


 

418  | Colindancias: Revista de la Red Regional de Hispanistas de Hungría, Rumanía y Serbia 4: 413-422, 2013, ISSN 2067-9092


G. Zečević Krneta

 

se ha empleado el procesador de textos Microsoft© en la digitalización de las composiciones, e hicimos el etiquetado de los códigos identificadores a cada composición: número del estudiante, sexo, curso, universidad. La ficha con los datos personales de los informantes se encuentra en las tablas de Excel y bajo un código unificador se encuentra una redacción y los datos personales correspondientes.

 

Ahora bien, cuando ya hemos montado un corpus lo suficiente grande para obtener informaciones variadas e interesantes, resulta que es demasiado grande para ser manejado sin ayudas computacionales. Gracias a los colegas informáticos, a lo largo de las dos últimas décadas se han ido desarrollando herramientas que pueden, por un lado, almacenar cantidades de informaciones y, por otro, trabajar las informaciones, es decir, contar palabras, ocurrencias; luego indicar colocaciones, grupos sintácticos etc.

 

Uno de los programas que se utiliza para el estudio de corpus hoy en día es el programa Wordsmith10 de Mike Smith para el inglés, luego VocabProfile11 de Paul Nation para el inglés y el francés, y en el ámbito académico serbio los informáticos suelen usar el programa Unitex12, elaborado por los miembros de The RELEX Network (La red internacional de los laboratorios especializados en la lingüística del corpus), fundada por Maurice Gross y su equipo LADL. Los miembros de la red mencionada se dedican a la elaboración de exhaustivos diccionarios electrónicos codificados (coded) y etiquetados (tagged ), también a la elaboración de las tablas léxico-gramaticales que permiten consultar toda la información gramatical de los vocablos de la lista13. Actualmente, Vitas, Nakamura, Voyatzi (2009) van elaborando un programa para el manejo cuantitativo y cualitativo del diccionario electrónico paralelo español-francés de palabras compuestas, que sin duda será otra herramienta muy útil para la labor docente.

 

Pues, como ya hemos dicho, nuestro proyecto a largo plazo es la codificación y la etiquetación del corpus de aprendices serbios de E/LE a base del programa Unitex, con el fin de que, en un futuro cercano, el corpus sea de fácil acceso y uso para todo aquel interesado en el estudio de algún aspecto relacionado con la enseñanza o el aprendizaje de E/LE. Nuestra tarea más inmediata es revisar y ampliar el diccionario electrónico del español del que dispone el programa computacional Unitex, creado por Xavier Blanco de la Universidad autónoma de Barcelona (cfr. Blanco 2001a; 2001b), para poner una base firme a posibles análisis computacionales tanto cualitativos (los cambios que se producen en las clases de palabras, palabras gramaticales versus palabras de contenido, la aparición de los usos idiomáticos, o la utilización de frases lexicalizadas), como cuantitativos (hallar las frecuencias absolutas y relativas de los tipos (type)14 y las muestras (token)15 de palabras, así como los patrones de colocación de las palabras dentro de contextos lingüísticos etc.).

 

Además, cabrá establecer una serie de marcas para identificar los distintos tipos de errores que se manifiestan en la palabra entendida como signo, teniendo en cuenta que las

 

 

10 http://www.lexically.net/wordsmith/

 

11 http://www.lextutor.ca/

12 http://www-igm.univ-mlv.fr/~unitex/index.php?page=0

13 A toda esa información relativa al mundo de Unitex y las posibilitades de su funcionamiento nos dio acceso el profesor Dusko Vitas de la Facultad de Ciencias Naturales y Matemáticas, por lo que se lo agradecemos mucho.

14 El tipo (type) se refiere al análisis cualitativo y se relaciona con el análisis de ciertas categorías gramaticales (morfemas, lexemas etc.) (Dobrić 2009: 51).

15 La muestra (token) se refiere a la aparición de una palabra cuya frecuencia de uso, o sea, ocurrencia, forma parte del análisis cuantitativo (Dobrić 2009: 51).


 

Colindancias: Revista de la Red Regional de Hispanistas de Hungría, Rumanía y Serbia 4: 413-422, 2013, ISSN 2067-9092 | 419


Una aproximación al estudio del corpus de aprendices serbios de E/LE

 

palabras se distribuyen en clases y se combinan para formar sintagmas, oraciones y textos. Las marcas que se establezcan serán incluidas en la edición informatizada de textos, de modo que los distintos tipos de errores se puedan fácilmente localizar en la base de datos. Una vez almacenado, etiquetado y marcado, el corpus permitirá realizar un sinfín de estudios, lo cual esperamos cumplir en un futuro no muy lejano.

 

 

 

6. Conclusión

 

A modo de conclusión, creemos que con este tipo de estudios se pueden obtener unos resultados de gran importancia que puedan aportar nuevos datos a las teorías de adquisición/aprendizaje de E/LE, reforzar diversos aspectos de la enseñanza de E/LE y ayudar a preparar un material didáctico específico.

 

En esta ocasión hemos hecho una aproximación al corpus de aprendices serbios de E/LE, que fue recopilado en dos universidades de Serbia, en los cuatro niveles de estudios académicos reconocidos. Describimos la situación de la recogida de datos, el mismo proceso de aprendizaje y los informantes. Por el momento, el corpus está informatizado en el formato de Word y su propósito comprende estar a disposición de todos los interesados en los estudios del corpus. A lo largo del trabajo, con numerosas directrices para la explotación del corpus en cuestión ,recordamos que los estudios del corpus permiten unas nuevas líneas de investigación, y que, a veces, resaltan con más exactitud unos nuevos datos sobre el uso de la lengua, lo que no podría ser anticipado de otro modo. De esa manera, resaltamos la importancia de la creación y constante recreación de un corpus codificado, puesto que eso es una demanda no solo de la lingüística aplicada sino también de la era de las nuevas tecnologías en la que vivimos.

 

Los datos que hemos expuesto no son concluyentes puesto que todavía queda ampliar el diccionario electrónico que sirve de base de codificación, y luego etiquetar los datos con el programa computacional. Este artículo, además de servir como una presentación de la labor realizada hasta el momento, también ha de servir de estímulo a los colegas interesados en los estudios del corpus, cuyo interés podrá añadir nuevos impulsos a la futura informatización de este corpus o a las investigaciones lingüísticas basadas en el estudio del corpus. Por último, hemos de decir que esperamos ver pronto las huellas de esta trayectoria, que poco a poco se creará una base sólida tan necesaria actualmente en el ámbito de adquisición del español como lengua extranjera.

 

 

 

 

Bibliografía

 

ADOLPHS, Svenja, Corpus and context, Amsterdam, John Benjamins, 2008.

 

BARNBROOK, George, Language and computers: a practical introduction to the computer analysis of language, Edinburgh, Edinburgh University Press, 1996.

BELZ, A. Julie, VYATKINA, Nina, «The pedagogical mediation of a developmental learner corpus for classroom-based language instruction», en Language Learning & Technology, 12 (3), 2008: 33-52.


 

BIBER, Douglas, «Corpus-based and corpus- driven analyses of language variation and use», en HEINE, Bernd, NARROG, Heiko (eds.), The Oxford handbook of Linguistic Anaysis, Oxford, Oxford University Press, 2012: 159-191.

 

BLANCO, Xavier, «Dictionnaires électroniques et traduction automatique français-espagnol», en Langages 143 (Lexicologie contrastive espagnol-français), Larousse, Paris, 2001a: 49-70.

BLANCO, Xavier, «Les dictionnaires électroniques de l'espagnol (DELASs et DELACs)», en Lingvisticae Investigationes XXIII: 2, Amsterdam/Philadelphia: Benjamins, 2001b: 201-218.

BUCKINGHAM, Louisa, Las construcciones con verbo de soporte en un corpus de especialidad, Frankfurt am Main, Peter Lang, 2009.

DOBRIĆ, Nikola, «Korpusna lingvistika kao osnovna paradigma istraživanja jezika», en Naučno-stručni časopis za jezik, književnost i kulturu Philologia, 7, 2009: 47-57.

FUERTES OLIVERA, Pedro A., «El lenguaje de la ciencia y la tecnología», en ALCARAZ VARÓ, Enrique, MATEO MARTÍNEZ, José, YUS RAMOS, Francisco (eds.), Las lenguas profesionales y académicas, Barcelona, Ariel, 2007: 205-217.

 

GRANGER, Sylviane, «The contribution of learner corpora to second language acquisition and foreign language teaching: a critical evaluation», en AIJMER, Karin (ed.), Corpora and Language Teaching, 8, 2009: 13-33.

 

GRANGER, Sylviane, «A Birds-eye view of learner corpus research», en GRANGER, Sylviane, HUNG, Joseph, PETCH-TYSON, Stephanie (eds.), Computer learner corpora, second language acquisition and foreign language teaching, Amsterdam-Philadelphia: John Benjamins, 2002: 3-30.

 

GRANGER, Sylviane, HUNG, Joseph, PETCH-TYSON, Stephanie (eds.), Computer learner corpora, second language acquisition and foreign language teaching, Amsterdam-Philadelphia: John Benjamins, 2002.

 

CESTERO MANCERA, Ana María et al., «Corpus para el análisis de errores de aprendices de E/LE (CORANE)», en GIMENO SANZ, Ana María (ed.), Tecnologías de la información y de las comunicaciones en la enseñanza de ELE: Actas del XII Congreso Internacional de ASELE, Valencia, Universidad Politécnica de Valencia, 2001: 527-534.

 

HUNSTON, Susan, Corpora in applied linguistics, Cambridge, Cambridge University Press, 2002. JOHANSSON, Stig, «Some thoughts on corpora and second-language acquisition», en AIJMER,

 

Karin (ed.), Corpora and Language Teaching, 8, 2009: 33-44.

 

JOVANOVIĆ, Ana, ZEČEVIĆ KRNETA, Gorana, «Abductive reasoning and second language acquisition», en Journal of Language Teaching and Research, 3(2), Academy Publisher, 2012: 306-313.

 

LEISTYNA, Pepi, MEIER, Charles (eds.), Corpus analysis: Language structure and language use, Amsterdam, Rodopi, 2003.

O’KEEFFE, Anne, MCCARTHY, Michael, CARTER, Ronald, From corpus to classroom: Language use and language teaching, Cambridge, Cambridge University Press, 2007.

 

OSBORNE, Jonathan, «What can students learn from a corpus? Building bridges between data and explanation», en BURNARD, Lou, MCENERY, Tony (eds.), Rethinking Language pedagogy from a corpus perspective, Frankfurt, Peter Lang, 1999: 165-185.

 

RINGBOM, Hakan, Cross-linguistic similarity in foreign language learning, Clevedon-Buffalo-Toronto, Multilingual Matters, 2007.

SÁNCHEZ, Álvaro, «Language teaching before and after digitalized corpora. Three main issues», en Cuadernos de Filología inglesa, 9(1), 2000: 5-37.


 

SINCLAIR, John (ed.), How to use corpora in language teaching, Amsterdam, John Benjamins, 2004. VITAS, Duško, NAKAMURA, Takuya, VOYATZI, Stavroula, «Using Aligned Corpora to

 

Construct  Large-Scaled  Linguistic  Resources:  The  Electronic  Dictionary  of  Spanish

 

Compound Nouns», en Book of abstracts: eLexicography in the 21th century: New chalenges,

 

new applications, 2009. http://www.uclouvain.be/cps/ucl/doc/cecl/documents/ eLEX_book_abstracts_FINAL_New.pdf [10/05/2013]

ZEČEVIĆ KRNETA, Gorana, «El uso del corpus electrónico en la clase de E/LE», en Actas del XLIV Congreso internacional de la Asociación europea de profesores de español, AEPE: EDICIÓN EN CD, 2010: 008B.


 

 

 

 

422  | Colindancias: Revista de la Red Regional de Hispanistas de Hungría, Rumanía y Serbia 4: 413-422, 2013, ISSN 2067-9092