top of page
Jornais

Notícias

Modelos de inteligência artificial se aproximam do desempenho de especialistas na avaliação de nódulos da tireoide, aponta estudo

  • daniellezanandre
  • há 6 horas
  • 4 min de leitura

O trabalho comparou três modelos de linguagem (GPT-4o, GPT-o3-mini e DeepSeek-R1) usando duas classificações internacionais aplicadas ao ultrassom para identificar nódulos da tireoide. Em vez de olhar para as imagens diretamente, os modelos receberam textos que descreviam os achados, da mesma forma que um médico recebe um laudo.


Luiz Paulo Kowalski

A avaliação de nódulos da tireoide é um dos exames mais comuns na prática clínica. A maior parte desses nódulos não representa risco, mas alguns exigem investigação e, em determinados casos, cirurgia. O estudo internacional “LLM evaluation for thyroid nodule assessment: comparing ACR-TIRADS, C-TIRADS, and clinician-AI trust gap” mostra que modelos avançados de inteligência artificial conseguem analisar descrições de ultrassom e produzir classificações de risco próximas às feitas por especialistas humanos.


O trabalho comparou três modelos de linguagem (GPT-4o, GPT-o3-mini e DeepSeek-R1) usando duas classificações internacionais aplicadas ao ultrassom da tireoide. Em vez de olhar para as imagens diretamente, os modelos receberam textos que descreviam os achados, da mesma forma que um médico recebe um laudo. A ideia era avaliar se eles seriam capazes de identificar sinais de nódulos mais suspeitos e sugerir condutas compatíveis com as diretrizes clínicas.


Foram analisados 93 pacientes operados entre 2020 e 2024, totalizando 101 nódulos. Depois de uma triagem rigorosa, 63 nódulos foram usados para testar os modelos. Esse grupo incluía casos que geram mais dúvidas no dia a dia, o que permitiu avaliar o desempenho da inteligência artificial em situações que exigem maior cuidado interpretativo.


Os resultados mostram que o desempenho variou entre os modelos. O melhor deles conseguiu distinguir nódulos suspeitos de nódulos tranquilos com uma taxa de acerto muito próxima à de um especialista experiente. Em termos simples, se os especialistas acertavam 9 em cada 10 casos, o modelo mais avançado acertava praticamente o mesmo número. A diferença numérica entre eles foi pequena.


Os autores explicam que não se analisou apenas a capacidade de acerto. Dois profissionais, um cirurgião de tireoide e um endocrinologista, avaliaram as recomendações produzidas pela inteligência artificial. Eles observaram se as orientações eram coerentes com as diretrizes, seguras para o paciente e se poderiam ser aplicadas na rotina. Nessa etapa, um dos modelos, o DeepSeek-R1, recebeu as avaliações mais altas, mesmo não sendo o mais preciso do ponto de vista estatístico. Os profissionais afirmaram que ele seguia uma linha de raciocínio mais semelhante à usada na prática clínica.


Essa diferença ajuda a explicar o fato de que a precisão numérica e confiança clínica não são a mesma coisa. Um modelo pode acertar muitos casos, mas ainda assim produzir recomendações que não se encaixam na forma como as decisões são tomadas no consultório ou no centro cirúrgico.


Outro achado relevante foi a necessidade de traduzir o desempenho dos modelos para a realidade cotidiana. O grupo de nódulos incluídos no estudo tinha muito mais casos de câncer do que seria esperado em uma população geral. Por isso, os autores ajustaram matematicamente os resultados. Mesmo com esse ajuste, todos os modelos foram eficazes para dizer quando um nódulo provavelmente não é câncer. Em termos práticos, isso significa que essas ferramentas podem ajudar a evitar biópsias desnecessárias, especialmente quando o ultrassom não indica nada preocupante. Por outro lado, quando a inteligência artificial classificava um nódulo como suspeito, o risco real poderia ser menor do que o indicado pelo algoritmo, o que reforça a necessidade da avaliação humana.


Os modelos também tiveram dificuldades em interpretar nódulos muito pequenos, geralmente menores que um centímetro, assim como nos casos com múltiplos nódulos. Essa é uma situação conhecida também por especialistas.


Para explicar o que esses dados representam na prática, o cirurgião oncológico Luiz Paulo Kowalski, destaca que modelos de inteligência artificial podem ser uma ferramenta complementar, desde que usados com critério. “O estudo mostra que a inteligência artificial pode ajudar na estratificação de risco, mas a decisão final depende de fatores que vão além do algoritmo”, afirma. “Um relatório pode indicar probabilidade, mas cabe ao profissional integrar isso ao histórico do paciente, ao exame físico e às imagens”, complementa Kowalski, ao analisar o artigo.


Kowalski reforça que a aceitação dessas ferramentas depende não apenas do acerto numérico, mas da capacidade de produzir recomendações compatíveis com a prática.

“Modelos que se aproximam do raciocínio clínico tendem a ser mais bem aceitos”, explica. “Se a orientação final não reflete a conduta que seria tomada no mundo real, o uso fica limitado, mesmo quando o desempenho matemático é bom”, acrescenta Kowalski.


O cirurgião também observa que a adaptação ao contexto local é fundamental antes de considerar qualquer implementação no Brasil. O estudo mostrou que os modelos funcionaram melhor quando seguiram diretrizes comuns no sistema de saúde chinês, onde o trabalho foi desenvolvido. “Cada país tem suas próprias rotinas, diferenças nos equipamentos e nos fluxos de atendimento”, lembra. “Antes de adotar qualquer ferramenta, é necessário validá-la na nossa realidade, porque uma mesma recomendação pode ter implicações diferentes, dependendo da estrutura disponível”.


Outro ponto levantado por Kowalski é o fato de os modelos terem analisado apenas descrições escritas e não as imagens de ultrassom. Para ele, é um passo inicial, mas ainda distante do que seria necessário para o uso clínico. “A interpretação direta das imagens continua sendo essencial”, diz. “A IA pode apoiar decisões, mas não substitui a análise especializada do exame”, afirma.


O estudo também aponta que os modelos de linguagem têm potencial para apoiar profissionais de saúde na avaliação de nódulos da tireoide, especialmente na padronização das descrições e na indicação de quando um nódulo parece tranquilo. No entanto, eles ainda não funcionam como ferramentas autônomas de diagnóstico.


Podem ajudar a reduzir variações entre profissionais, servir como segunda opinião e apoiar decisões em cenários de maior volume de exames, mas sempre com supervisão.

O ponto central é a combinação equilibrada entre tecnologia e prática clínica. A inteligência artificial pode ser uma aliada, desde que integrada de forma responsável. “Ela ajuda, mas não substitui a consulta, a análise das imagens e a interpretação humana. É uma ferramenta complementar que precisa ser usada com critério para trazer benefícios reais ao paciente”, conclui Kowalski.



Referência do estudo

 

Dai X, Xi Y, Hu Y, Ding Q, Zhang Y, Liu H, Chen P, Wang X, Wang W, Zhang C. LLM evaluation for thyroid nodule assessment: comparing ACR-TIRADS, C-TIRADS, and clinician-AI trust gap. Front Endocrinol (Lausanne). 2025 Sep 29;16:1667809. 

 



LOCALIZAÇÃO

(11) 3284-4483 / 3284-7336

Whatsapp: (11) 97097-1687

 

R. Maestro Cardim, 377 - conj. 85 - Bela Vista

São Paulo/SP 

 

contato@clinicakowalski.com.br

  • Facebook - Círculo Branco
  • Instagram - White Circle
  • LinkedIn - Círculo Branco

Responsável Técnico: Dr. Luiz Paulo Kowalski - CRM/SP 36404  / RQE 56910
Copyright 2019 © Clínica Kowalski  -   Todos os direitos reservados

bottom of page