Home Tecnologia Anthrópica diz que alguns modelos de Claude agora podem acabar com conversas...

Tecnologia

Anthrópica diz que alguns modelos de Claude agora podem acabar com conversas ‘prejudiciais ou abusivas’

agosto 16, 2025

Antrópico tem anunciou novos recursos Isso permitirá que alguns dos seus maiores e mais novos modelos para encerrar conversas no que a empresa descreve como “casos raros e extremos de interações persistentemente prejudiciais ou abusivas do usuário”. Surpreendentemente, o Antrópico diz que está fazendo isso para não proteger o usuário humano, mas sim o próprio modelo de IA.

Para deixar claro, a empresa não está alegando que seus modelos de IA Claude são sencientes ou podem ser prejudicados por suas conversas com os usuários. Em suas próprias palavras, o antrópico permanece “altamente incerto sobre o potencial status moral de Claude e outros LLMs, agora ou no futuro”.

No entanto, seu anúncio aponta para um programa recente criado para estudar o que chama de “bem-estar do modelo” e diz que a Antrópica está essencialmente adotando uma abordagem just-in-fase, “trabalhando para identificar e implementar intervenções de baixo custo para mitigar os riscos para modelar o bem-estar, caso esse bem-estar seja possível”.

Atualmente, esta última alteração está limitada a Claude Opus 4 e 4.1. E, novamente, isso só deve acontecer em “casos extremos de borda”, como “pedidos de usuários de conteúdo sexual envolvendo menores e tentativas de solicitar informações que permitiriam violência em larga escala ou atos de terror”.

Embora esses tipos de solicitações possam criar problemas legais ou publicitários para o próprio antrópico (testemunhe relatórios recentes sobre como o ChatGPT pode potencialmente reforçar ou contribuir para o pensamento ilusório de seus usuários), a empresa diz que, em testes de pré-implantação, Claude Opus 4 mostrou uma “forte preferência contra” responder a esses pedidos e um “padrão de distribuição aparente” quando não foi assim.

Quanto a esses novos recursos de encerramento de conversas, a empresa diz: “Em todos os casos, Claude é apenas usar sua capacidade de acabamento de conversa como último recurso quando várias tentativas de redirecionamento falharam e a esperança de uma interação produtiva se esgota, ou quando um usuário pede explicitamente a Claude para terminar um bate-papo”.

Anthrópica também diz que Claude foi “instruído a não usar essa capacidade nos casos em que os usuários podem estar em risco iminente de prejudicar a si mesmos ou a outros”.

Evento do TechCrunch

São Francisco
|
27-29 de outubro de 2025

Quando Claude encerrar uma conversa, o Anthrópico diz que os usuários ainda poderão iniciar novas conversas da mesma conta e criar novas filiais da conversa problemática, editando suas respostas.

“Estamos tratando esse recurso como um experimento em andamento e continuaremos refinando nossa abordagem”, diz a empresa.

Fonte

RELATED ARTICLESMORE FROM AUTHOR

O teclado de voz do Willow permite que você digite em todos os seus aplicativos iOS – e edite o que você disse

Nintendo e Lego provocam um conjunto de Legend of Zelda: Ocarina of Time

Mini respostas de palavras cruzadas do NYT de hoje para 10 de novembro

LEAVE A REPLY Cancel reply

RELATED ARTICLES MORE FROM AUTHOR