Анализ текста «LGBTQ America»

ВЫПОЛНИЛИ СТУДЕНТКИ ГРУППЫ И-18-1, БЕЗУКЛАДНИКОВА ВЛАДА И ЯКИМЧУК ЯНА

  1. Целью данного проекта является раскрытие возможностей ресурсов для анализа и визуализации текста об истории ЛГБТК-сообщества в Соединенных Штатах Америки.
  2. В соответствии с определенной целью были сформированы следующие задачи:
    1. Обработать текст с помощью ресурсов, предназначенных для текстового анализа;
    2. Интерпретировать результаты, полученные в ходе работы с инструментами;
    3. Описать плюсы и минусы (эффективность) того или иного инструмента текстового анализа;
    4. Представить полученные результаты в виде страницы на сайте dhumanities.ru.
  3. Список выбранных ресурсов
    1. Voyant Tools;
    2. Online Utility Text Analyzer;
    3. Online Summarize Tool (Tools4noobs)

Voyant Tools

Это веб-приложение с открытым исходным кодом для выполнения анализа текста. Он используется для интерпретации текстов, особенно учеными в области цифровых гуманитарных наук, а также студентами и широкой общественностью. Он может быть использован для анализа онлайн-текстов или тех, которые загружены пользователями. Данный инструмент текстового анализа может визуализировать загруженную информацию несколькими способами:

  • Облако слов;

Облако слов является простым и доступным средством визуализации информации, но необходимо отметить, что это лишь вспомогательный инструмент, не дающий возможности в полной мере проанализировать какой-либо объект (текст, веб-сайт и т.д.).

На основании нашего текста онлайн-ресурс voyant tool (cirrus) построил следующее облако слов:

В результате четко видны наиболее используемые в нашей статье слова. Здесь же можно упомянуть функцию данного ресурса, позволяющую при наведении на выбранное слово количество его упоминанийю. В результате мы получили следующие цифры: lgbtq (96), gay (95), history (88), sexual (66), people (57) и т.д.

  • Связь между наиболее распространенными словами;

Согласно полученным результатам, наибольшее количество связей в анализируемом нами тексте: lgbtq (5: states, united, history, people, bisexual), history (6: lgbtq, united, transgender, people, gay), gay (5: transgender, introduction, queer, bisexual, people). Исходя из этого, мы можем комбинировать слова в словосочетания и понимать крупицу контекста, в котором фразы были использованы, например, gay people; lgbtq history; transgender, queer and bisexual people и т.д. 

Перейдем к оценке самого инструмента анализа: данная визуализация удобна, естественно, наглядным представлением информации, становится понятно, о чем текст в принципе, какие термины наиболее важны и с какими употребляются. Из минусов — полностью контекст понять нельзя, получаешь только поверхностное представление, могут попасться слова, близкие по значению, что не даст смысла при их комбинировании.

  • Связь между словами в виде “ягоды”

Такой способ представления информации мало где встречается — сразу в + к возможностям Voyant’а. Но он же и является наиболее трудночитаемым, по нашему мнению. По тексту формируется скопление из кружочков-терминов в виде “ягоды” — можно регулировать, сколько терминов войдет в вашу “ягоду” (т.е. ее размер), можно выбрать, чтобы отражались понятия, далекие от основной темы (distinct) и регулировать контекст — связи между словами (и их количество). Как работает этот инструмент? После настраивания необходимых характеристик получаем готовую “ягоду”. При наведении курсора на один из элементов “ягоды” подсвечиваются те элементы, которые связаны с выбранным. Более того, он показывает, сколько раз встретилось подобное сочетание в тексте, например, lgbtq и lesbian встречались рядом в тексте 20 раз, а lgbtq и community — 4. К сожалению, не все слова отображаются в кружочках, но они показываются  при наведении на них. Этот способ позволяет быстро проследить взаимосвязь слов, просто перед работой с этим инструментом нужно разобраться 🙂

  • График употребляемости слов

Онлайн-сервис voyant tool позволяет строить различные графики, одним из которых является график употребляемости слов. Из графика видно, что такой вид анализа заключается в делении текста на 10 равных частей и нахождении количество употреблений самых “популярных” слов текста (в данном случае — gay, history, lgbtq, new, sexual). Также инструмент выдает некоторый отчет — количество слов в тексте (14562) и уникальных форм слова (3432). К тому же, мы видим коэффициент лексического разнообразия, типичное количество слов в предложении (35) и опять же наиболее употребляемые слова. 

Таким образом, voyant tools является одним из наиболее удобных и наглядных инструментов для анализа текстов. Также можно отметить его визуальную составляющую, привлекающую к себе простого, неопытного пользователя. 

Online Utility Text Analyzer

Еще одним интересным инструментом для анализа текста является Online Utility Text Analyzer. В результате обработки текста он выдает множество различных таблиц: общий анализ текста, наиболее употребляемые фразы и словосочетания, в которых содержится от 2 до 8 слов, а также список слов, ранжированных в зависимости от количества их упоминаний в тексте.

Как говорилось выше, первой мы видим “общий анализ” текста, то есть количество символов с пробелами и без (97990 и 76887 соответственно), количество слов (14570), коэффициент лексического разнообразия, количество предложений (875) и даже слогов (26039).

Выше приведена таблица наиболее употребляемых фраз, состоящих из 3 слов. Мы видим, что на первом месте стоит — the United States. Рассматривая данный список, сразу можно сделать выводы о некоторых минусах данного ресурса — не все фразы имеют смысл, часто это просто сочетания слов с предлогами и артиклями, из которых нельзя прийти к каким-либо содержательным выводам. 

Говоря об приведении наиболее часто употребляемых слов, можно сделать такие же выводы, как и из предыдущей таблицы. На первых местах здесь стоят предлоги и артикли, первым значимым словом становится аббревиатура lgbtq, стоящая на 11 месте. Также из данной таблицы можно сделать вывод о количестве разных слов, используемых в тексте (в данном случае — 3419). 

Таким образом, данный ресурс вряд ли подходит для анализа больших текстов в прямом понимании этого слова. Возможно, он будет полезен в изучении употребления служебных частей речи или в каких-то других сферах. 

Online Summarize Tool

Это простой инструмент, который помогает сокращать текстовые статьи, извлекая наиболее важные предложения. Инструмент синтеза для текстовых статей, извлечения наиболее важных предложений и классификации предложений в соответствии с их важностью. 

Так же, как и в инструменте Voyant tools, здесь присутствует возможность увидеть наиболее употребляемые слова. В первую десятку вошли lgbtq, history, sexual, people, lesbian, gender, transgender, united, queer, states. Эти слова отражают тему исследования.

В главной функции этого инструмента — сокращении текста — получилось 3 большие смысловые части, по количеству слов примерно одинаковые. Первая часть определена временными рамками с 1781 по 1896 гг. Также сюда включены события, которые исследователи считают наиболее важными для этого периода. Во второй части представлено рассуждение об определениях терминов, касающихся ориентации, как они использовались в прошлом и сейчас. В третьей — борьба за права людей с нетрадиционной ориентацией, за репрезентацию ЛГБТК-сообщества в публичной, общественной среде. Такой инструмент, действительно, экономит время ознакомления с документом, выделяет самое важное. Вопрос в том, что для человека важно в документе? Возможно, он стремится увидеть не то, что на поверхности. 

Следующая полезная функция — выделение ключевых слов в уже сокращенном тексте — обращает внимание читателя сразу на них, не давая пропустить основное в тексте. Опять же, становится понятен смысл текстового отрывка. Крупным выделены слова, которые вошли в топ-10 по употребляемости в тексте (lgbtq, history, sexual, people, lesbian, gender, transgender, united, queer, states).

Очередной полезной функцией данного инструмента можно назвать автоматическую нумерацию предложений. В нашем тексте их 447 штук.

Итак, Online Summarize Tool удобен для работы с большими текстами для их освоения за более короткий срок. Минус в субъективности понятия важного в тексте и недетализированности, поверхностности итогового текста. Но он прекрасно подходит для быстрой обработки большого количества информации и чтения “между строк”.

Подводя итог сказанному, следует сказать, что инструменты для визуализации и анализа текста значительно упрощают работу исследователю, занимающемуся, возможно, массовыми источниками, которых много. Если Вы ученый, который занимается, например, изучением повседневности или процессов, происходящих не на макро- а на микроуровне, то такие инструменты не совсем Вам подойдут. Но при исследовании глобальных процессов требуется оценка данных в большом объеме — тогда на помощь приходят инструменты текстового анализа.