ТЕМАТИЧЕСКИЙ АНАЛИЗ ДИСКУССИЙ. СОВРЕМЕННЫЕ МЕТОДЫ, НЕДОСТАТКИ И ВОЗМОЖНОСТИ
Н.А. Алмаев
THEMATIC ANALYSES OF DISCUSSIONS. CONTEMPORARY METHODS, FLAWS AND CAPABILITIES
N.A. Almayev
DOI: 10.38098/ipran.sep_2024_33_1_02
Аннотация. В данной обзорной статье обосновывается необходимость разработки средств анализа дискуссий. Критически проанализирована существующая практика применения моделей Латентного размещения Дирихле (подход «мешок слов»), и различные варианты подходов Seq2Seq (последовательность к последовательности). Особое внимание уделено большим языковым моделям, в частности трансформерам, с которыми в настоящее время связываются надежды на решение задач суммаризации и анализа мнений, как наиболее близких к анализу дискуссий. Приводятся попытки проанализировать причины галлюцинаций лингвистических моделей (LLM), в частности, работы М. Ли о математических основах галлюцинаций и эмпирическое исследование Ст. Лин, в котором было обнаружено, что количество галлюцинаций увеличивается с ростом числа параметров модели. Приводятся примеры из практики суммаризации видео, подтверждающие выводы Лин и др. Наиболее острой проблемой для анализа дискуссий видится постоянное переиначивание фамилий нейросетями. На основе изучения существующей практики намечены пути развития анализа дискуссий. Подход, лежащий в его основе, должен быть Sec2Sec (последовательность к последовательности) с предложением в качестве базовой единицы анализа. При этом на ближайшую перспективу видятся две основные задачи: 1) сопоставления всех постов какого-либо участника дискуссий между собой с целью обнаружения повторяющихся фрагментов, представляющих позицию данного человека, и 2) анализ откликов участников дискуссии на исходный пост в рамках его обсуждения. В обоих случаях предполагается сначала находить, а затем максимизировать «пятна касания» – наиболее совпадающие элементы обсуждений. Эти элементы затем могут обобщаться с помощью LLM cо сбалансированным количеством параметров, обеспечивающим обобщение, но минимизирующим галлюцинации. Также предполагается использовать низкоуровневые довекторные средства сравнения строк как для реконструкции сложных топических отношений, так и для обнаружения намеренных искажений написания слов в целях передачи дополнительной коннотативной информации.
Summary. The task of developing tools for analyzing discussions is set in this review article. The existing practice of applying Latent Dirichlet allocation models (the "bag of words" approach) and various variants of Seq2Seq (sequence to sequence) approaches are critically analyzed. Particular attention is paid to large language models, and especially transofrmers, with which hopes are currently pinned on the summarization and analysis of opinions, being the closest tasks to the analysis of discussions. Attempts are made to analyze the causes of hallucinations, in particular, the works of M. Lee on the mathematical foundations of hallucinations, and an empirical study by St. Lin et al., who found that the number of hallucinations increases with the growth of model parameters. Examples from the practice of video summarization are given, confirming the conclusions of Lin et al. The most acute problem for the analysis of discussions is the constant twisting of surnames by neural networks. Based on the study of existing practice, the ways of developing the analysis of discussions are outlined. The approach underlying it should be Sec2Sec with the sentence as the basic unit for comparison. Two main tasks are seen for the closest future: 1) comparing all the posts of a participant in the discussions with each other with the aim of detecting repeated fragments representing the position of this person, and 2) analyzing the responses of the participants in the discussion to the original post as the part of its discussion. In both cases, it is assumed to first find and then maximize the "touch spots" - the most coincident elements of discussions. Which then can be generalized using LLM with a balanced number of parameters, providing generalization but minimizing hallucinations. It is also supposed to use low-level pre-vector string comparison tools both for the reconstruction of complex topical relations and for the detection of intentional misspellings of words in order to convey additional connotative information.
Keywords: analyses of discussions, summarization, hallucinations of linguistic models, последовательность кпоследовательности, vectorization, strings similarity.