O ChatGPT é um chatbot que usa um modelo de aprendizado profundo para reconhecer padrões e relações entre palavras em seus vastos dados de treinamento para gerar respostas humanas baseadas em um prompt.

Mas como não há uma fonte de verdade em seus dados de treinamento, o chatbot pode gerar respostas que são factualmente incorretas.

Recentemente, duas novas pesquisas publicadas na Radiology, uma revista da Sociedade Radiológica da América do Norte (RSNA), testaram o desempenho do ChatGPT em um exame de estilo de radiologia, destacando o potencial dos grandes modelos de linguagem, mas também revelando limitações que prejudicam a confiabilidade.

Os pesquisadores usaram 150 questões de múltipla escolha projetadas para corresponder ao estilo, conteúdo e dificuldade dos exames do Royal College canadense e do American Board of Radiology. As questões não incluíam imagens e foram agrupadas por tipo de questão para obter insights sobre o desempenho: pensamento de ordem inferior (recordação de conhecimento, compreensão básica) e pensamento de ordem superior (aplicar, analisar, sintetizar).

O desempenho do ChatGPT foi avaliado no geral e por tipo e tópico de questão. A confiança da linguagem nas respostas também foi avaliada.

Os pesquisadores descobriram que o ChatGPT baseado no GPT-3.5, atualmente a versão mais usada, respondeu corretamente a 69% das questões (104 de 150), próximo da nota de aprovação de 70% usada pelo Royal College no Canadá. O modelo teve um desempenho relativamente bom em questões que exigiam pensamento de ordem inferior (84%, 51 de 61), mas teve dificuldades com questões que envolviam pensamento de ordem superior (60%, 53 de 89). Mais especificamente, ele teve dificuldades com questões de ordem superior envolvendo descrição de achados de imagem (61%, 28 de 46), cálculo e classificação (25%, 2 de 8) e aplicação de conceitos (30%, 3 de 10). Seu fraco desempenho em questões de pensamento de ordem superior não foi surpreendente, dado sua falta de pré-treinamento específico para radiologia.

O GPT-4 foi lançado em março de 2023 em forma limitada para usuários pagos, alegando ter melhorado as capacidades avançadas de raciocínio sobre o GPT-3.5.

Em um estudo de acompanhamento, o GPT-4 respondeu corretamente a 81% (121 de 150) das mesmas questões, superando o GPT-3.5 e excedendo o limite de aprovação de 70%. O GPT-4 teve um desempenho muito melhor do que o GPT-3.5 em questões que exigiam pensamento de ordem superior (81%), mais especificamente aquelas envolvendo descrição de achados de imagem (85%) e aplicação de conceitos (90%).

Os resultados sugerem que as capacidades avançadas de raciocínio do GPT-4 se traduzem em um melhor desempenho em um contexto radiológico. Eles também sugerem uma melhor compreensão contextual da terminologia específica da radiologia, incluindo descrições de imagem, que é crítica para permitir futuras aplicações downstream.

“Nosso estudo demonstra uma impressionante melhoria no desempenho do ChatGPT em radiologia em um curto período de tempo, destacando o crescente potencial dos grandes modelos de linguagem neste contexto”, disse o autor principal Rajesh Bhayana, M.D., FRCPC, um radiologista abdominal e líder tecnológico na University Medical Imaging Toronto, Toronto General Hospital em Toronto, Canadá.

O GPT-4 não mostrou melhoria nas questões que exigiam pensamento de ordem inferior (80% vs 84%) e respondeu incorretamente a 12 questões que o GPT-3.5 respondeu corretamente, levantando questões relacionadas à sua confiabilidade para coleta de informações.

“Ficamos inicialmente surpresos com as respostas precisas e confiantes do ChatGPT a algumas questões desafiadoras da radiologia, mas depois igualmente surpresos com algumas afirmações muito ilógicas e imprecisas”, disse o Dr. Bhayana. “É claro que, dado como esses modelos funcionam, as respostas imprecisas não devem ser particularmente surpreendentes.”

A perigosa tendência do ChatGPT em produzir respostas imprecisas, chamadas alucinações, é menos frequente no GPT-4 mas ainda limita a usabilidade na educação médica e na prática no momento.

Ambos os estudos mostraram que o ChatGPT usou linguagem confiante consistentemente, mesmo quando incorreta. Isso é particularmente perigoso se for usado apenas para informação, observa o Dr. Bhayana, especialmente para novatos que podem não reconhecer as respostas incorretas confiantes como imprecisas.

“Para mim, esta é sua maior limitação. No momento, o ChatGPT é melhor usado para gerar ideias, ajudar a iniciar o processo de escrita médica e na sumarização de dados. Se usado para recordação rápida de informações, ele sempre precisa ser verificado”, disse o Dr. Bhayana.

Fonte: Link.

Gosta do nosso conteúdo?

Contribua

Este texto foi gerado com o auxílio de ferramentas de IA. Viu algum erro? Avise!

Relatar erro

ChatGPT: o chatbot que passou em um exame de radiologia

Não perca nenhuma postagem! Assine nossa Newsletter: