O ChatGPT é um chatbot que usa um modelo de aprendizado profundo para reconhecer padrões e relações entre palavras em seus vastos dados de treinamento para gerar respostas humanas baseadas em um prompt.
Mas como não há uma fonte de verdade em seus dados de treinamento, o chatbot pode gerar respostas que são factualmente incorretas.
Recentemente, duas novas pesquisas publicadas na Radiology, uma revista da Sociedade Radiológica da América do Norte (RSNA), testaram o desempenho do ChatGPT em um exame de estilo de radiologia, destacando o potencial dos grandes modelos de linguagem, mas também revelando limitações que prejudicam a confiabilidade.
Os pesquisadores usaram 150 questões de múltipla escolha projetadas para corresponder ao estilo, conteúdo e dificuldade dos exames do Royal College canadense e do American Board of Radiology. As questões não incluíam imagens e foram agrupadas por tipo de questão para obter insights sobre o desempenho: pensamento de ordem inferior (recordação de conhecimento, compreensão básica) e pensamento de ordem superior (aplicar, analisar, sintetizar).
O desempenho do ChatGPT foi avaliado no geral e por tipo e tópico de questão. A confiança da linguagem nas respostas também foi avaliada.
Os pesquisadores descobriram que o ChatGPT baseado no GPT-3.5, atualmente a versão mais usada, respondeu corretamente a 69% das questões (104 de 150), próximo da nota de aprovação de 70% usada pelo Royal College no Canadá. O modelo teve um desempenho relativamente bom em questões que exigiam pensamento de ordem inferior (84%, 51 de 61), mas teve dificuldades com questões que envolviam pensamento de ordem superior (60%, 53 de 89). Mais especificamente, ele teve dificuldades com questões de ordem superior envolvendo descrição de achados de imagem (61%, 28 de 46), cálculo e classificação (25%, 2 de 8) e aplicação de conceitos (30%, 3 de 10). Seu fraco desempenho em questões de pensamento de ordem superior não foi surpreendente, dado sua falta de pré-treinamento específico para radiologia.
O GPT-4 foi lançado em março de 2023 em forma limitada para usuários pagos, alegando ter melhorado as capacidades avançadas de raciocínio sobre o GPT-3.5.
Em um estudo de acompanhamento, o GPT-4 respondeu corretamente a 81% (121 de 150) das mesmas questões, superando o GPT-3.5 e excedendo o limite de aprovação de 70%. O GPT-4 teve um desempenho muito melhor do que o GPT-3.5 em questões que exigiam pensamento de ordem superior (81%), mais especificamente aquelas envolvendo descrição de achados de imagem (85%) e aplicação de conceitos (90%).
Os resultados sugerem que as capacidades avançadas de raciocínio do GPT-4 se traduzem em um melhor desempenho em um contexto radiológico. Eles também sugerem uma melhor compreensão contextual da terminologia específica da radiologia, incluindo descrições de imagem, que é crítica para permitir futuras aplicações downstream.
“Nosso estudo demonstra uma impressionante melhoria no desempenho do ChatGPT em radiologia em um curto período de tempo, destacando o crescente potencial dos grandes modelos de linguagem neste contexto”, disse o autor principal Rajesh Bhayana, M.D., FRCPC, um radiologista abdominal e líder tecnológico na University Medical Imaging Toronto, Toronto General Hospital em Toronto, Canadá.
O GPT-4 não mostrou melhoria nas questões que exigiam pensamento de ordem inferior (80% vs 84%) e respondeu incorretamente a 12 questões que o GPT-3.5 respondeu corretamente, levantando questões relacionadas à sua confiabilidade para coleta de informações.
“Ficamos inicialmente surpresos com as respostas precisas e confiantes do ChatGPT a algumas questões desafiadoras da radiologia, mas depois igualmente surpresos com algumas afirmações muito ilógicas e imprecisas”, disse o Dr. Bhayana. “É claro que, dado como esses modelos funcionam, as respostas imprecisas não devem ser particularmente surpreendentes.”
A perigosa tendência do ChatGPT em produzir respostas imprecisas, chamadas alucinações, é menos frequente no GPT-4 mas ainda limita a usabilidade na educação médica e na prática no momento.
Ambos os estudos mostraram que o ChatGPT usou linguagem confiante consistentemente, mesmo quando incorreta. Isso é particularmente perigoso se for usado apenas para informação, observa o Dr. Bhayana, especialmente para novatos que podem não reconhecer as respostas incorretas confiantes como imprecisas.
“Para mim, esta é sua maior limitação. No momento, o ChatGPT é melhor usado para gerar ideias, ajudar a iniciar o processo de escrita médica e na sumarização de dados. Se usado para recordação rápida de informações, ele sempre precisa ser verificado”, disse o Dr. Bhayana.
Fonte: Link.
Gosta do nosso conteúdo?
Este texto foi gerado com o auxílio de ferramentas de IA. Viu algum erro? Avise!