El análisis lexicométrico, el corpus y el diccionario previo: caso de la lengua Vasca

Juan Abasolo

doi:10.47133/NEMITYRA2023d11-2A3

Autores/as

Juan Abasolo Universidad del País Vasco (UPV/EHU), España https://orcid.org/0000-0002-1911-4118

DOI:

https://doi.org/10.47133/NEMITYRA2023d11-2A3

Palabras clave:

Método Reinert, Iramuteq, léxico, NPL, corpus multilingue

Resumen

Siguiendo los lineamientos del método propuesto por Reinert (1983, 1990), podemos llevar a cabo una clasificación automática de grandes volúmenes de textos que aborden un determinado contexto semántico, con el fin de identificar los distintos campos semánticos o de sentido en base a las elecciones léxicas realizadas. Esta tarea se encuentra resuelta tanto en el software patrocinado por Max Reinert (1990), conocido como ALCESTE, como en el software de código abierto IRaMuTeQ (Ratinaud & Déjean, 2009) y sus desarrollos posteriores (Barnier, 2022). Como mencionaba Reinert (1990), es fundamental llevar a cabo un pretratamiento lingüístico que se ajuste al sentido semántico del texto, evitando así la variabilidad regida por las normas gramaticales. Para lograr este control sobre la variabilidad, se utiliza una preclasificación con un diccionario que contempla las formas plausibles de aparición en el texto, junto con sus correspondientes valores de significado asociados. En el caso de lenguas aglutinantes como el euskera, esto plantea un desafío particular. En esta comunicación, presentamos el proceso de creación de un diccionario para el uso del software IRaMuTeQ con textos en lengua vasca, su evaluación interna, mediante el análisis de autodescripciones de profesorado universitario, y externa, mediante el análisis de un corpus paralelo multilingüe vasco, castellano, inglés y francés.

Referencias

Aranzabe, M. J., Atutxa, A., Bengoetxea, K., Diaz de Ilarraza, A., Goenaga, I., Gojenola, K., & Uria, L. (2015). Automatic Conversion of the Basque Dependency Treebank to Universal Dependencies. In M. Dickinsons, E. Hinrichs, A. Patejuk, & A. Przepiórkowski (Eds.), Proceedings of the Fourteenth International Workshop on Treebanks an Linguistic Theories (TLT14) (pp. 233–241). Institute of Computer Science of the Polish Academy of Sciences.

Benzécri, J. P. (1981). Pratique de l’analyse des donnees: Linguistique et lexicologie. Dunod.

Hanon, S. (1991). 165. La concordance. Wörterbücher: Ein internationales Handbuch zur Lexikographie, 2, 1562–1567. https://doi.org/10.1515/9783110124200.2

Ideia [@ideiainova]. (2017). Sharing a new version of the Spanish dictionary for #Iramuteq (+500k entries) [Tweet [Link a Archivo]]. In Twitter.

Ihaka, R., & Gentleman, R. (1996). R: A Language for Data Analysis and Graphics. Journal of Computational and Graphical Statistics, 5(3), 299–314. https://doi.org/gddc3n

Loubere, L. (2023). Re: [Iramuteq-users] Dictionary in german? | iramuteq.

Nivre, J., de Marneffe, M.-C., Ginter, F., Goldberg, Y., Hajič, J., Manning, C. D., McDonald, R., Petrov, S., Pyysalo, S., Silveira, N., Tsarfaty, R., & Zeman, D. (2016). Universal Dependencies v1: A Multilingual Treebank Collection. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 1659–1666.

R Core Team. (2020). R: A language and environment for statistical computing [Manual]. R Foundation for Statistical Computing.

Rastier, F. (1987). Représentation Du Contenu Lexical Et Formalismes De L’intelligence Artificielle. Langages, 87, 79–102. https://doi.org/10.3406/lgge.1987.1964

Ratinaud, P. (2014). IRaMuTeQ: Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires.

Ratinaud, P., & Déjean, S. (2009). IRaMuTeQ: Implémentation de la méthode ALCESTE d’analyse de texte dans un logiciel libre. Modélisation Appliquée Aux Sciences Humaines Et Sociales MASHS, 8–9.

Reinert, A. (1983). Une méthode de classification descendante hiérarchique : application à l’analyse lexicale par contexte. Les cahiers de l’analyse des données, 8(2), 187–198.

Reinert, M. (1986). Un logiciel d’analyse lexicale. Les Cahiers de l’analyse Des Données, 11(4), 471–481.

Reinert, M. (1990). Alceste une méthodologie d’analyse des données textuelles et une application: Aurelia De Gerard De Nerval. Bulletin of Sociological Methodology/Bulletin de Méthodologie Sociologique, 26(1), 24–54. https://doi.org/cbhfwp

Schonhardt-Bailey, C., & Bailey, A. (2013). Deliberating American Monetary Policy: A Textual Analysis. The MIT Press. https://www.jstor.org/stable/j.ctt9qf5r7

Straka, M., Hajič, J., & Straková, J. (2016). UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 4290–4297.

Wijffels, J., BNOSAC, Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University in Prague, Republic, C., Straka, M., & Straková, J. (2020). udpipe: Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing with the «UDPipe» «NLP» Toolkit (0.8.5). https://CRAN.R-project.org/package=udpipe

El análisis lexicométrico, el corpus y el diccionario previo: caso de la lengua Vasca

Autores/as

DOI:

Palabras clave:

Resumen

Referencias

Descargas

Publicado

Número

Sección

Licencia

Cómo citar

Artículos similares

Artículos más leídos del mismo autor/a

Enviar un artículo

Información

UNA

FIL|UNA

REDES SOCIALES

INDEXACIONES

ÑEMITỸ REMIANDU

Visitantes

Palabras clave