Dois estudos recentes revelaram diferenças notáveis nas habilidades do popular modelo de linguagem ChatGPT quando testado em tarefas complexas do mundo real. De acordo com pesquisadores da Purdue University, o ChatGPT enfrenta desafios até mesmo em questões básicas de programação. A equipe avaliou as respostas do ChatGPT a mais de 500 perguntas no Stack Overflow, uma comunidade online para desenvolvedores, e descobriu que 52% das respostas geradas eram incorretas, e 77% eram verbosas.
Em contraste, um estudo da UCLA e da Pepperdine University of Malibu mostrou a habilidade do ChatGPT em responder a perguntas difíceis de exames médicos. Quando questionado sobre mais de 850 questões de múltipla escolha em nefrologia, uma especialidade avançada dentro da medicina interna, o ChatGPT obteve uma pontuação de 73, semelhante à taxa de aprovação de residentes médicos humanos.
Então, por que o ChatGPT se destaca em medicina, mas falha em programação? Lex Fridman, cientista da computação do MIT, observa que os modelos de aprendizado de máquina têm diferentes pontos fortes. O modelo por trás do conhecimento médico do ChatGPT recebeu dados proprietários adicionais, enquanto o ChatGPT da OpenAI dependeu apenas de dados publicamente disponíveis.
A falta de acesso gratuito a material de treinamento que não está no domínio público provavelmente permanecerá um dos obstáculos para melhorar o desempenho no futuro previsível. Enquanto o ChatGPT pode “brincar de médico”, ainda tem muito a aprender antes de se tornar um programador habilidoso. Afinal, quantos médicos você conhece que também são hackers proficientes?