Titulo: Seleção de Características com Algoritmo Genético em Ambientes Multirrepresentacionais de Texto
Comissão Examinadora - Titulares
Prof. Dr. Leandro Nunes de Castro Silva (Presidente) - FT/Unicamp
Prof. Dr. Guilherme Palermo Coelho - FT/Unicamp
Prof. Dr. Rodrigo Bonacin - CTI
Suplentes
Prof. Dr. Rodrigo Pasti - PUC
Profa. Dra. Ana Estela Antunes da Silva - FT/Unicamp
Local: Sala de Defesa da FT (Prédio da Pós-graduação) | https://stream.meet.google.com/stream/45660dfb-252d-4d09-bdd9-8797cef33f7b
Resumo: A clusterização de textos em espaços de características de alta dimensionalidade e elevada esparsidade permanece um desafio significativo, especialmente quando múltiplas representações textuais são combinadas para capturar informações lexicais, sintáticas, semânticas e psicolinguísticas complementares. Embora abordagens multirrepresentacionais enriqueçam a modelagem dos documentos, elas também aumentam a redundância, o ruído e o custo computacional, o que pode impactar negativamente o desempenho da clusterização. Este trabalho propõe um arcabouço evolutivo para seleção não supervisionada de características baseado em um Algoritmo Genético (GA), aplicado a ambientes textuais multirrepresentacionais. O método opera sobre espaços vetoriais resultantes de fusão precoce de representações textuais heterogêneas, incluindo Bag-of-Words baseado em contagens unigrama, embeddings neurais (Word2Vec, FastText, Doc2Vec e BERT), características sintáticas derivadas de POS tagging e representações lexicais obtidas a partir dos recursos LIWC e MRC. Cada representação é normalizada com L2 e concatenada em um único espaço vetorial, onde o Algoritmo Genético seleciona subconjuntos de características com base no índice de Dunn. As características selecionadas são posteriormente empregadas na clusterização via K-Means, permitindo uma comparação direta entre os resultados obtidos antes e após a seleção de características. Os experimentos foram conduzidos em múltiplos domínios textuais, incluindo notícias, avaliações, resumos científicos e textos curtos, sendo avaliados por métricas internas padrão, como os índices de Dunn, Calinski--Harabasz e Davies--Bouldin. Os resultados demonstram melhorias consistentes na compacidade e separação dos clusters após a seleção evolutiva de características, com ganhos particularmente expressivos em conjuntos de dados esparsos e de textos curtos. Esses achados indicam que a seleção bioinspirada de características é uma estratégia eficaz para mitigar a redundância em ambientes de clusterização textual multirrepresentacional e para aprimorar a qualidade e a estabilidade dos resultados de clusterização não supervisionada.

