ТЕМАТИЧЕСКИЙ АНАЛИЗ ДИСКУССИЙ С ПРИМЕНЕНИЕМ МЕТОДА ЛАТЕНТНОГО РАЗМЕЩЕНИЯ ДИРИХЛЕ

Н.А. Алмаев, О.В. Мурашева

THEMATIC ANALYSIS OF DISCUSSIONS USING THE LATENT DIRICHLET ALLOCATION
N.А. Аlmaev, O.V. Murasheva

DOI: 10.38098/ipran.sep_2022_25_1_03

Скачать полный текст (.pdf)

Аннотация. Проведена оценка возможности приложения Латентного размещения Дирихле (Latent Dirichlet Allocation, LDA) к анализу дискуссий в «Живом Журнале» (ЖЖ) на примере комментариев пользователей в трех блогах по проблемам ковид-диссидентства и антиваксерства за ноябрь 2021 г. с тэгами «коронавирус», «covid-19». Алгоритм LDA был реализован в экосистеме языка Python в составе пакетов scikitlearn. Для автоматизированной обработки данных использовался интернет-ресурс ЖЖ, формат которого способствует откровенности высказываний, что и требуется для изучения мотивации посредством контент-анализа текстов обсуждений. Парсинг содержания осуществлялся в отношении непосредственно HTML страниц ЖЖ, без использования API, что представляется важным для тех интернет площадок, у которых API отсутствует либо малофункционален. Полученные результаты показали чувствительность LDA к содержанию тем и способность отражать их близость. На основе однозначных биграмм могут быть созданы рекомендаторы или автоматические резюме. Однако при поисках глубинной мотивации антиваксерства и ковид-диссидентства в самих темах обнаруживается много информационного шума, случайных биграмм с низкой содержательностью, не интерпретируемых вне контекста предложения. Причина этого в стохастическом подходе выделения слов в документе – «мешок слов». Для дальнейшего смыслового наполнения данной методики представляется целесообразным перейти к выделению суждений: необходимо включить уровень синтаксического разбора предложения в первый этап обработки текста – токенизацию, и передавать на дальнейшую векторизацию коллекции суждений, т.е. биграммы, связанные отношением субъект-предикат.

Ключевые слова: тематический анализ, латентное размещение Дирихле, ковид-диссидентство, антиваксерство, парсинг, мотивация, контент-анализ, социальные сети, биграммы, коллекции суждений.

Summary. An assessment of the application of Latent Dirichlet Allocation (LDA) to the analysis of discussions in the LJ was carried out using the example of user comments in three blogs on the problems of covid-dissidence and anti-vaxing in November with the tags "coronavirus," "covid-19." The LDA algorithm was implemented in the Python language ecosystem as part of the scikitlearn packages. LJ ("Live Journal") was used to collect test cases and further automated data processing. The LJ system contributes to the frankness of statements, which is required to study motivation through content analysis of discussion texts. A methodology for parsing and data processing was developed, attached to the analysis of the content of texts of various discussion platforms. Parsing was carried out in relation to HTML pages of LJ, without using the API, which seems important for those Internet sites where the API is missing or low-functional. The results showed the effectiveness of LDA to the content of topics and the ability to reflect their proximity. On the basis of unambiguous bigrams, advisors or automatic summaries can be created. However, when looking for the deep motivation of the anti-vaxing and covid-dissidence movement, a lot of information noise is found in the topics themselves, random bigrams with low content that are not interpreted outside the context of the sentence. The reason for this is the stochastic approach of highlighting words in the document - "bag of words." For further semantic content of this technique, it seems advisable to move to the selection of judgments: it is necessary to include the level of parsing of the sentence in the first stage of text processing - tokenization, and transfer to further vectorization the collection of judgments, i.e. the bigrams associated with the subject-predicate relationship.

Keywords: thematic analysis, Latent Dirichlet Allocation, covid-dissidence, anti-vaxing, parsing, motivation, content analysis, social networks, bigrams, judgment collection.