Performance of ChatGPT in the Portuguese National Residency Access Examination

Gonçalo Ferraz-Costa; Mafalda Griné; Manuel Oliveira-Santos; Rogério Teixeira

doi:10.20344/amp.22506

Autores

Gonçalo Ferraz-Costa * Shared co-authorship. Cardiology Department. Unidade Local de Saúde de Coimbra. Coimbra; Faculdade de Medicina. Universidade de Coimbra. Coimbra; Coimbra Institute for Clinical and Biomedical Research (iCBR). Coimbra.
Mafalda Griné * Shared co-authorship. Cardiology Department. Unidade Local de Saúde de Coimbra. Coimbra; Coimbra Institute for Clinical and Biomedical Research (iCBR). Coimbra.
Manuel Oliveira-Santos Cardiology Department. Unidade Local de Saúde de Coimbra. Coimbra; Coimbra Institute for Clinical and Biomedical Research (iCBR). Coimbra; Digital Health Study Group, Sociedade Portuguesa de Cardiologia. Lisboa.
Rogério Teixeira Cardiology Department. Unidade Local de Saúde de Coimbra. Coimbra; Faculdade de Medicina. Universidade de Coimbra. Coimbra; Digital Health Study Group, Sociedade Portuguesa de Cardiologia. Lisboa.

DOI:

https://doi.org/10.20344/amp.22506

Palavras-chave:

Avaliação Educacional, Competência Clínica, Inteligência Artificial, Internato e Residência, Portugal

Resumo

O ChatGPT, um modelo de linguagem desenvolvido pela OpenAI, foi testado em vários exames de acesso à profissão médica. Este estudo tem como objetivo avaliar o desempenho do ChatGPT na Prova Nacional de Acesso à Formação Especializada, um exame obrigatório para o início do internato médico em Portugal. O estudo compara especificamente as capacidades das versões 3.5 e 4o do ChatGPT em cinco edições do exame, de 2019 a 2023. Um total de 750 perguntas de escolha múltipla foram submetidas a ambas as versões, e as suas respostas foram avaliadas em comparação com as respostas oficiais. Os resultados revelam que o ChatGPT 4o superou significativamente o ChatGPT 3.5, com uma pontuação mediana de 127 em comparação com 106 (p = 0,048). Notavelmente, o ChatGPT 4o obteve pontuações dentro do top 1% em duas edições do exame e superou o desempenho mediano dos candidatos humanos em todas as edições. Além disso, as pontuações do ChatGPT 4o foram suficientemente elevadas para se qualificar para qualquer especialidade. Em conclusão, o ChatGPT 4o pode ser uma ferramenta valiosa para a educação médica e tomada de decisões, mas a supervisão humana continua a ser essencial para garantir uma prática clínica segura e precisa.

Downloads

Referências

Berşe S, Akça K, Dirgar E, Kaplan Serin E. The role and potential contributions of the artificial intelligence language model ChatGPT. Ann Biomed Eng 2024;52:130-3. DOI: https://doi.org/10.1007/s10439-023-03296-w

Liu M, Okuhara T, Chang X, Shirabe R, Nishiie Y, Okada H, et al. Performance of ChatGPT across different versions in medical licensing examinations worldwide: systematic review and meta-analysis. J Med Internet Res. 2024;26:e60807. DOI: https://doi.org/10.2196/60807

Knoedler L, Alfertshofer M, Knoedler S, Hoch CC, Funk PF, Cotofana S, et al. Pure wisdom or potemkin villages? A comparison of chatGPT 3.5 and ChatGPT 4 on USMLE step 3 style questions: quantitative analysis. JMIR Med Educ. 2024;10:e51148. DOI: https://doi.org/10.2196/51148

Malik A, Madias C, Wessler BS. Performance of ChatGPT-4o in the adult clinical cardiology self-assessment program. Eur Hear J - Digit Heal. 2024:ztae077. DOI: https://doi.org/10.1093/ehjdh/ztae077

Ribeiro JC, Villanueva T. The new medical licensing examination in Portugal. Acta Med Port. 2018;31:293-4. DOI: https://doi.org/10.20344/amp.10857

Rosoł M, Gąsior JS, Łaba J, Korzeniewski K, Młynczak. Evaluation of the performance of GPT-3.5 and GPT-4 on the polish medical final examination. Sci Reports. 2023;13:1-13. DOI: https://doi.org/10.1038/s41598-023-46995-z

Alexandrou M, Mahtani AU, Rempakos A, Mutlu D, Ogaili AA, Gill GS, et al. Performance of ChatGPT on ACC/SCAI interventional cardiology certification simulation exam. JACC Cardiovasc Interv. 2024;17:1292-3. DOI: https://doi.org/10.1016/j.jcin.2024.03.012

Indran IR, Paranthaman P, Gupta N, Mustafa N. Twelve tips to leverage AI for efficient and effective medical question generation: a guide for educators using Chat GPT. Med Teach. 2024;46:1021-6. DOI: https://doi.org/10.1080/0142159X.2023.2294703

Desempenho do ChatGPT na Prova Nacional de Acesso

Autores

DOI:

Palavras-chave:

Resumo

Downloads

Referências

Downloads

Publicado

Como Citar

Edição

Secção

Licença

Nova Submissão

OM

Idioma

Informações