Antrópico tem anunciou novos recursos Isso permitirá que alguns dos seus maiores e mais novos modelos para encerrar conversas no que a empresa descreve como “casos raros e extremos de interações persistentemente prejudiciais ou abusivas do usuário”. Surpreendentemente, o Antrópico diz que está fazendo isso para não proteger o usuário humano, mas sim o próprio modelo de IA.
Para deixar claro, a empresa não está alegando que seus modelos de IA Claude são sencientes ou podem ser prejudicados por suas conversas com os usuários. Em suas próprias palavras, o antrópico permanece “altamente incerto sobre o potencial status moral de Claude e outros LLMs, agora ou no futuro”.
No entanto, seu anúncio aponta para um programa recente criado para estudar o que chama de “bem-estar do modelo” e diz que a Antrópica está essencialmente adotando uma abordagem just-in-fase, “trabalhando para identificar e implementar intervenções de baixo custo para mitigar os riscos para modelar o bem-estar, caso esse bem-estar seja possível”.
Atualmente, esta última alteração está limitada a Claude Opus 4 e 4.1. E, novamente, isso só deve acontecer em “casos extremos de borda”, como “pedidos de usuários de conteúdo sexual envolvendo menores e tentativas de solicitar informações que permitiriam violência em larga escala ou atos de terror”.
Embora esses tipos de solicitações possam criar problemas legais ou publicitários para o próprio antrópico (testemunhe relatórios recentes sobre como o ChatGPT pode potencialmente reforçar ou contribuir para o pensamento ilusório de seus usuários), a empresa diz que, em testes de pré-implantação, Claude Opus 4 mostrou uma “forte preferência contra” responder a esses pedidos e um “padrão de distribuição aparente” quando não foi assim.
Quanto a esses novos recursos de encerramento de conversas, a empresa diz: “Em todos os casos, Claude é apenas usar sua capacidade de acabamento de conversa como último recurso quando várias tentativas de redirecionamento falharam e a esperança de uma interação produtiva se esgota, ou quando um usuário pede explicitamente a Claude para terminar um bate-papo”.
Anthrópica também diz que Claude foi “instruído a não usar essa capacidade nos casos em que os usuários podem estar em risco iminente de prejudicar a si mesmos ou a outros”.
Evento do TechCrunch
São Francisco
|
27-29 de outubro de 2025
Quando Claude encerrar uma conversa, o Anthrópico diz que os usuários ainda poderão iniciar novas conversas da mesma conta e criar novas filiais da conversa problemática, editando suas respostas.
“Estamos tratando esse recurso como um experimento em andamento e continuaremos refinando nossa abordagem”, diz a empresa.



