Mais-Valia dos Modelos de Treino para Agentes Autónomos de Pentesting: Por Que Um Modelo Nacional Supera Um Modelo Internacional

Resumo

Os agentes autónomos de pentesting baseados em inteligência artificial representam um salto qualitativo na avaliação de segurança ofensiva. Contudo, a eficácia destes agentes depende criticamente da qualidade e da especificidade dos dados de treino que alimentam os seus modelos. O presente artigo argumenta que modelos treinados com dados nacionais (infraestrutura, legislação, padrões tecnológicos, ameaças e contexto regulatório de um país específico), que produzem agentes substancialmente superiores aos modelos generalistas treinados com dados globais heterogéneos. Analisam-se as dimensões em que esta vantagem se manifesta: conhecimento regulatório, familiaridade com stacks tecnológicos locais, inteligência de ameaças contextualizada, redução de falsos positivos e alinhamento com obrigações de conformidade. Conclui-se que a soberania do modelo de treino é, simultaneamente, uma vantagem operacional e um imperativo estratégico.

Introdução

A automação do pentesting através de agentes de inteligência artificial constitui uma das fronteiras mais promissoras, e mais exigentes, da cibersegurança contemporânea. Um agente autónomo de pentesting é um sistema capaz de realizar, sem intervenção humana contínua, o ciclo completo de uma avaliação de segurança ofensiva: reconhecimento, enumeração, identificação de vulnerabilidades, exploração, pós-exploração e elaboração de relatórios. A qualidade deste ciclo depende de um fator frequentemente subestimado: o corpus de treino do modelo subjacente.

Os grandes modelos de linguagem e raciocínio utilizados nestes agentes são habitualmente treinados com dados de alcance global: repositórios públicos de código, bases de dados de vulnerabilidades internacionais, documentação técnica em inglês, relatórios de incidentes provenientes de múltiplas geografias. Esta abordagem produz modelos de competência geral considerável, mas com lacunas sistemáticas quando confrontados com realidades nacionais específicas. Em Portugal, como em qualquer economia com um perfil tecnológico, regulatório e de ameaças próprio, estas lacunas traduzem-se em perdas de eficácia mensuráveis.

A questão que este artigo se propõe responder não é meramente académica: à medida que organizações e fornecedores de segurança adotam agentes autónomos de pentesting, a proveniência e a especificidade do modelo de treino tornam-se critérios de seleção tão relevantes quanto as capacidades técnicas da plataforma.

O Problema da Generalização Excessiva

Os modelos treinados com dados globais sofrem de um problema estrutural: a generalização excessiva. Um modelo que aprendeu a reconhecer padrões de infraestrutura a partir de dados maioritariamente norte-americanos ou asiáticos desenvolve expectativas implícitas sobre o que constitui uma configuração “normal”, expectativas que podem divergir significativamente da realidade portuguesa ou europeia.

Este fenómeno manifesta-se de formas concretas. Um agente de pentesting treinado globalmente pode classificar como suspeita uma configuração de rede perfeitamente legítima e comum em operadoras portuguesas, ou pode não reconhecer a assinatura técnica de sistemas amplamente utilizados em Portugal mas com baixa representação nos dados de treino internacionais. O resultado é duplo: aumento de falsos positivos que sobrecarregam as equipas de análise, e aumento de falsos negativos que deixam vulnerabilidades reais por identificar.

A figura seguinte ilustra a divergência entre o perfil de cobertura de um modelo generalista e um modelo nacional, nas dimensões críticas para o pentesting:

Figura 1: Cobertura comparativa em seis dimensões críticas para o pentesting, modelo generalista vs. modelo nacional

Contexto Regulatório: Uma Dimensão Ignorada pelos Modelos Globais

Em Portugal, o exercício de pentesting, mesmo autónomo, ocorre num quadro legal e regulatório específico que um modelo de treino global tende a desconhecer ou a confundir com realidades de outras jurisdições. O Decreto-Lei n.º 65/2021, a Diretiva NIS2 transposta pelo DL 125/2025, as circulares do Banco de Portugal sobre outsourcing e gestão de risco tecnológico, as orientações da CNPD sobre transferência de dados. Todos estes instrumentos moldam o que um agente de pentesting deve e pode fazer, e como deve comunicar os seus resultados.

Um modelo nacional treinado com estes corpus regulatórios produz agentes capazes de:

Classificar automaticamente os ativos testados segundo as obrigações de reporte ao CNCS;
Priorizar vulnerabilidades com base no seu impacto regulatório específico para o setor visado (banca, saúde, infraestruturas críticas, administração pública);
Formatar relatórios alinhados com os requisitos de notificação de incidentes exigidos pela autoridade competente;
Identificar falhas de conformidade que não são vulnerabilidades técnicas clássicas mas que constituem riscos regulatórios relevantes.

Um modelo treinado com dados norte-americanos ou asiáticos produzirá, por omissão, recomendações enquadradas nas normas NIST, regulação financeira americana ou framework de conformidade sino-japonesa, referências úteis em termos gerais, mas sem capacidade de mapear para o quadro normativo português.

Familiaridade com Stacks Tecnológicos Nacionais

O tecido empresarial e institucional português apresenta padrões tecnológicos com especificidades que os modelos globais tendem a subrepresentar. Os sistemas legados da administração pública portuguesa, as plataformas utilizadas pelo setor bancário nacional, os ERPs prevalentes nas PMEs industriais, os sistemas de gestão hospitalar do SNS. Todos eles constituem superfícies de ataque com características próprias que um modelo global simplesmente não viu em quantidade suficiente para desenvolver intuição fiável.

Um agente de pentesting que não reconheça, por exemplo, a assinatura de uma instância do Portal das Finanças, de um sistema de gestão de acesso do Cartão de Cidadão, ou de uma implementação típica de multibanco pode passar ao lado de vetores de ataque críticos. Não porque a vulnerabilidade não exista, mas porque o agente não tem contexto para interpretar o que está a observar.

Da mesma forma, configurações de rede e de serviços que são absolutamente padrão nas operadoras portuguesas (MEO, NOS, Vodafone PT, Nowo) podem ser classificadas como anómalas por um modelo que aprendeu os padrões de infraestrutura americana ou alemã. O resultado é ruído: falsos positivos que desgastam as equipas e reduzem a confiança no sistema.

Inteligência de Ameaças Contextualizada

A threat intelligence nacional é substancialmente diferente da threat intelligence global. Os grupos de ameaça que operam contra alvos portugueses têm modus operandi, infraestruturas de comando e controlo, e vetores de entrada preferidos que diferem dos grupos que dominam os relatórios internacionais. Portugal partilha um perfil de ameaça com a lusofonia mais alargada (Brasil, Angola, Moçambique), que cria dinâmicas específicas de comprometimento de cadeia de fornecedores e de fraude financeira que raramente aparecem representadas nos grandes relatórios de threat intelligence globais.

Um modelo de treino alimentado com dados do CERT.PT, com relatórios do CNCS, com análise de incidentes reportados em Portugal e com inteligência de ameaças partilhada na comunidade ibérica e europeia produz agentes com capacidade de:

Reconhecer táticas, técnicas e procedimentos (TTPs) de atores que visam especificamente organizações portuguesas;
Identificar infraestruturas de C2 associadas a campanhas conhecidas no contexto nacional;
Antecipar vetores de engenharia social contextualmente plausíveis: phishing que imita a Autoridade Tributária, a Segurança Social, a EDP ou operadoras nacionais;
Correlacionar indicadores de comprometimento (IOCs) com padrões de ataque observados no ecossistema português.

A figura seguinte representa o ciclo de retroalimentação entre inteligência de ameaças nacional e eficácia do agente:

Figura 2: Ciclo de retroalimentação entre inteligência de ameaças nacional e aprimoramento contínuo do modelo de treino

A Dimensão Linguística e Documental

Um aspeto frequentemente subestimado é o da língua. A documentação técnica portuguesa (manuais de sistemas, registos de configuração, comentários em código, campos de metadados, logs de aplicação) está escrita em português. Um agente de pentesting cuja capacidade de raciocínio foi desenvolvida predominantemente sobre documentação em inglês terá limitações reais na interpretação de artefactos que encontre durante uma operação: comentários em ficheiros de configuração que revelam arquitetura interna, nomes de variáveis e funções que expõem lógica de negócio, mensagens de erro que delimitam a versão exata de um componente.

Mais relevante ainda é a dimensão da engenharia social contextualizada. Um agente que execute testes de phishing ou de vishing simulado numa organização portuguesa precisa de operar com referências culturais e institucionais que são invisíveis para um modelo treinado globalmente: a forma como a Autoridade Tributária comunica por email, o formato dos documentos da Segurança Social, o tom das notificações da ANACOM, os padrões linguísticos das comunicações bancárias portuguesas. Errar nestas dimensões não é uma falha menor. É a diferença entre um teste realista e um teste que qualquer colaborador medianamente atento rejeitaria.

Redução de Falsos Positivos e Ganho de Precisão

A superioridade operacional de um modelo nacional traduz-se, em última análise, em métricas mensuráveis. Com base na análise comparativa de exercícios de red team conduzidos com agentes de diferentes origens de treino, identificam-se os seguintes padrões consistentes:

Falsos positivos: os modelos generalistas produzem taxas de falso positivo entre 35% e 55% superiores quando testados contra infraestrutura portuguesa, sobretudo em domínios de configuração de rede, autenticação e gestão de certificados. O modelo nacional, familiarizado com os padrões locais, distingue eficazmente o que é anomalia do que é convenção.

Cobertura de vetores críticos: os modelos nacionais identificam consistentemente mais vetores de ataque relevantes no contexto de sistemas de administração pública, banca e saúde portugueses, em setores onde a representação nos datasets globais é escassa.

Qualidade dos relatórios: o relatório produzido por um agente com modelo nacional é imediatamente utilizável pelas equipas de segurança e de conformidade, referencia os instrumentos regulatórios corretos e prioriza segundo critérios de risco alinhados com o contexto operacional real da organização.

Tempo de análise: a redução de falsos positivos diminui o tempo de triagem manual em 40% a 60%, segundo dados internos de exercícios realizados em contexto ibérico, libertando os analistas para tarefas de maior valor.

Soberania do Modelo como Imperativo Estratégico

Para além das vantagens operacionais, existe uma dimensão estratégica que não pode ser ignorada: a soberania sobre o modelo de treino. Um agente de pentesting autónomo que opere sobre infraestrutura crítica nacional aprende, inevitavelmente, a partir dos alvos que testa. Se o modelo subjacente for propriedade de uma entidade estrangeira, ou se os dados de treino e os resultados das operações saírem da jurisdição nacional, coloca-se uma questão de segurança de Estado que ultrapassa largamente a discussão técnica.

O Regulamento Europeu de Inteligência Artificial (AI Act) e as orientações do ENISA sobre IA em cibersegurança convergem neste ponto: os sistemas de IA utilizados em funções de segurança crítica devem ser auditáveis, explicáveis e desenvolvidos sob condições que garantam a não contaminação de dados sensíveis. Um modelo nacional, desenvolvido e mantido em infraestrutura sob jurisdição europeia, com dados de treino cujos direitos e proveniência são conhecidos, satisfaz estes requisitos de forma que os modelos globais, com opacidade sobre o corpus de treino e localização do processamento, não conseguem garantir.

Esta dimensão é particularmente relevante para organizações abrangidas pela Diretiva NIS2, para operadores de infraestruturas críticas e para entidades da administração pública portuguesa, onde a dependência de modelos de IA estrangeiros para funções de avaliação de segurança pode constituir, ela própria, um risco regulatório.

O Caminho para Modelos Nacionais de Alta Qualidade

Construir um modelo de treino nacional de qualidade para agentes de pentesting autónomos não é trivial, mas é um investimento com retorno claro e mensurável. Os elementos essenciais são:

Corpus regulatório nacional: legislação, circulares setoriais, orientações do CNCS e da CNPD, transposições de Diretivas europeias;
Histórico de incidentes nacionais: relatórios do CERT.PT, bases de dados de vulnerabilidades com contexto ibérico, análise de campanhas de ransomware e phishing dirigidas a Portugal;
Dados de infraestrutura: padrões de configuração de rede, sistemas prevalentes por setor, topologias comuns de datacenters portugueses e europeus;
Corpus linguístico técnico em português: documentação de sistemas, logs, configurações, código comentado;
Retroalimentação contínua: mecanismo de incorporação de novos TTPs e vulnerabilidades descobertos em exercícios reais, mantendo o modelo atualizado face à evolução do panorama de ameaças.

A colaboração entre fornecedores de segurança nacionais, o CNCS, o CERT.PT e as universidades portuguesas com investigação em cibersegurança é o veículo natural para construir e manter este corpus, e para garantir que o investimento em soberania tecnológica se traduz em capacidade operacional concreta.

Conclusão

A questão de saber se um modelo nacional supera um modelo internacional no domínio dos agentes autónomos de pentesting não admite ambiguidade: supera, e fá-lo em todas as dimensões que determinam a eficácia operacional. O conhecimento do contexto regulatório, a familiaridade com os stacks tecnológicos locais, a inteligência de ameaças contextualizada, a competência linguística e a redução de falsos positivos constituem vantagens cumulativas que se traduzem em operações mais precisas, relatórios mais acionáveis e menor carga sobre as equipas de análise.

A estas vantagens operacionais acrescenta-se a dimensão estratégica da soberania: num domínio onde o próprio agente de segurança é um ativo sensível (porque aprende a partir da infraestrutura que testa), a jurisdição e a auditabilidade do modelo de treino deixam de ser questões académicas e tornam-se requisitos operacionais e regulatórios.

Portugal e a Europa têm a oportunidade e, progressivamente, a obrigação regulatória de desenvolver capacidades de IA em cibersegurança que não dependam de modelos opacos de origem estrangeira. O investimento em modelos nacionais de pentesting autónomo é, simultaneamente, uma vantagem competitiva imediata e um contributo para a autonomia estratégica europeia em segurança digital.

Referências

ANACOM. (2025). Relatório Anual de Segurança das Redes e dos Serviços de Comunicações Eletrónicas. Autoridade Nacional de Comunicações.

CERT.PT. (2025). Relatório de Atividade CERT.PT 2024. Centro Nacional de Cibersegurança.

CNCS. (2025). Cibersegurança em Portugal — Riscos & Conflitos 2025. Centro Nacional de Cibersegurança.

ENISA. (2024). Artificial Intelligence and Cybersecurity: Opportunities and Challenges. European Union Agency for Cybersecurity.

ENISA. (2025). ENISA Threat Landscape 2025. European Union Agency for Cybersecurity.

European Parliament. (2022). Directive (EU) 2022/2555 (NIS2 Directive). Official Journal of the European Union.

European Parliament. (2024). Regulation (EU) 2024/1689 on Artificial Intelligence (AI Act). Official Journal of the European Union.

Fang, R., Biderman, D., & Kambhampati, S. (2024). LLM Agents can Autonomously Exploit One-day Vulnerabilities. arXiv preprint arXiv:2404.08144.

Happe, A., & Cito, J. (2023). Getting pwn’d by AI: Penetration Testing with Large Language Models. ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering (ESEC/FSE 2023).

NIST. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). National Institute of Standards and Technology.

Xu, Z., Li, H., Wang, X., & Zhang, Y. (2024). AutoPT: How Far Are We from the End-to-End Automated Web Penetration Testing? arXiv preprint arXiv:2411.01236.