Establishing vocabulary tests as a benchmark for evaluating large language models

Gonzalo Martínez; Javier Conde; Elena Merino-Gómez; Beatriz Bermúdez-Margaretto; José Alberto Hernández; Pedro Reviriego; Marc Brysbaert

doi:10.1371/journal.pone.0308259

Loading metrics

Open Access

Peer-reviewed

Research Article

Establishing vocabulary tests as a benchmark for evaluating large language models

Gonzalo Martínez,

Roles Data curation, Software, Validation, Visualization, Writing – original draft, Writing – review & editing

Affiliation Departamento de Ingeniería Telemática, Universidad Carlos III de Madrid, Leganés, Spain
⨯
Javier Conde,

Roles Data curation, Resources, Software, Validation, Visualization, Writing – original draft, Writing – review & editing

Affiliation ETSI de Telecomunicación, Universidad Politécnica de Madrid, Madrid, Spain

https://orcid.org/0000-0002-5304-0626

⨯
Elena Merino-Gómez,

Roles Conceptualization, Methodology, Supervision, Writing – original draft, Writing – review & editing

Affiliation Escuela de Ingenierías Industriales, Universidad de Valladolid, Valladolid, Spain

https://orcid.org/0000-0003-4129-4626

⨯
Beatriz Bermúdez-Margaretto,

Roles Data curation, Methodology, Writing – review & editing

Affiliation Departamento de Psicología Básica, Psicobiología y Metodología de las CC. del Compto, Universidad de Salamanca, Salamanca, Spain
⨯
José Alberto Hernández,

Roles Conceptualization, Writing – original draft, Writing – review & editing

Affiliation Departamento de Ingeniería Telemática, Universidad Carlos III de Madrid, Leganés, Spain
⨯
Pedro Reviriego ,

Roles Conceptualization, Investigation, Methodology, Supervision, Writing – original draft, Writing – review & editing

* E-mail: pedro.reviriego@upm.es

Affiliation ETSI de Telecomunicación, Universidad Politécnica de Madrid, Madrid, Spain

https://orcid.org/0000-0003-2540-5234

⨯
Marc Brysbaert

Roles Conceptualization, Methodology, Writing – original draft, Writing – review & editing

Affiliation Department of Experimental Psychology, Ghent University, Ghent, Belgium

https://orcid.org/0000-0002-3645-3189

⨯

Establishing vocabulary tests as a benchmark for evaluating large language models

Gonzalo Martínez,
Javier Conde,
Elena Merino-Gómez,
Beatriz Bermúdez-Margaretto,
José Alberto Hernández,
Pedro Reviriego,
Marc Brysbaert

Published: December 12, 2024
https://doi.org/10.1371/journal.pone.0308259

Reader Comments (0)

Post a new comment on this article

Subject Areas
?

For more information about PLOS Subject Areas, click here.
We want your feedback. Do these Subject Areas make sense for this article? Click the target next to the incorrect Subject Area and let us know. Thanks for your help!

Language
Is the Subject Area "Language" applicable to this article?

Thanks for your feedback.
Vocabulary
Is the Subject Area "Vocabulary" applicable to this article?

Thanks for your feedback.
Semantics
Is the Subject Area "Semantics" applicable to this article?

Thanks for your feedback.
Language acquisition
Is the Subject Area "Language acquisition" applicable to this article?

Thanks for your feedback.
Programming languages
Is the Subject Area "Programming languages" applicable to this article?

Thanks for your feedback.
Human learning
Is the Subject Area "Human learning" applicable to this article?

Thanks for your feedback.
Human performance
Is the Subject Area "Human performance" applicable to this article?

Thanks for your feedback.
Artificial intelligence
Is the Subject Area "Artificial intelligence" applicable to this article?

Thanks for your feedback.