ВЫПОЛНИЛИ СТУДЕНТКИ ГРУППЫ И-18-1, БЕЗУКЛАДНИКОВА ВЛАДА И ЯКИМЧУК ЯНА
- Целью данного проекта является раскрытие возможностей ресурсов для анализа и визуализации текста об истории ЛГБТК-сообщества в Соединенных Штатах Америки.
- В соответствии с определенной целью были сформированы следующие задачи:
- Обработать текст с помощью ресурсов, предназначенных для текстового анализа;
- Интерпретировать результаты, полученные в ходе работы с инструментами;
- Описать плюсы и минусы (эффективность) того или иного инструмента текстового анализа;
- Представить полученные результаты в виде страницы на сайте dhumanities.ru.
- Список выбранных ресурсов
Voyant Tools
Это веб-приложение с открытым исходным кодом для выполнения анализа текста. Он используется для интерпретации текстов, особенно учеными в области цифровых гуманитарных наук, а также студентами и широкой общественностью. Он может быть использован для анализа онлайн-текстов или тех, которые загружены пользователями. Данный инструмент текстового анализа может визуализировать загруженную информацию несколькими способами:
- Облако слов;
Облако слов является простым и доступным средством визуализации информации, но необходимо отметить, что это лишь вспомогательный инструмент, не дающий возможности в полной мере проанализировать какой-либо объект (текст, веб-сайт и т.д.).
На основании нашего текста онлайн-ресурс voyant tool (cirrus) построил следующее облако слов:
В результате четко видны наиболее используемые в нашей статье слова. Здесь же можно упомянуть функцию данного ресурса, позволяющую при наведении на выбранное слово количество его упоминанийю. В результате мы получили следующие цифры: lgbtq (96), gay (95), history (88), sexual (66), people (57) и т.д.
- Связь между наиболее распространенными словами;
Согласно полученным результатам, наибольшее количество связей в анализируемом нами тексте: lgbtq (5: states, united, history, people, bisexual), history (6: lgbtq, united, transgender, people, gay), gay (5: transgender, introduction, queer, bisexual, people). Исходя из этого, мы можем комбинировать слова в словосочетания и понимать крупицу контекста, в котором фразы были использованы, например, gay people; lgbtq history; transgender, queer and bisexual people и т.д.
Перейдем к оценке самого инструмента анализа: данная визуализация удобна, естественно, наглядным представлением информации, становится понятно, о чем текст в принципе, какие термины наиболее важны и с какими употребляются. Из минусов — полностью контекст понять нельзя, получаешь только поверхностное представление, могут попасться слова, близкие по значению, что не даст смысла при их комбинировании.
- Связь между словами в виде “ягоды”
Такой способ представления информации мало где встречается — сразу в + к возможностям Voyant’а. Но он же и является наиболее трудночитаемым, по нашему мнению. По тексту формируется скопление из кружочков-терминов в виде “ягоды” — можно регулировать, сколько терминов войдет в вашу “ягоду” (т.е. ее размер), можно выбрать, чтобы отражались понятия, далекие от основной темы (distinct) и регулировать контекст — связи между словами (и их количество). Как работает этот инструмент? После настраивания необходимых характеристик получаем готовую “ягоду”. При наведении курсора на один из элементов “ягоды” подсвечиваются те элементы, которые связаны с выбранным. Более того, он показывает, сколько раз встретилось подобное сочетание в тексте, например, lgbtq и lesbian встречались рядом в тексте 20 раз, а lgbtq и community — 4. К сожалению, не все слова отображаются в кружочках, но они показываются при наведении на них. Этот способ позволяет быстро проследить взаимосвязь слов, просто перед работой с этим инструментом нужно разобраться 🙂
- График употребляемости слов
Онлайн-сервис voyant tool позволяет строить различные графики, одним из которых является график употребляемости слов. Из графика видно, что такой вид анализа заключается в делении текста на 10 равных частей и нахождении количество употреблений самых “популярных” слов текста (в данном случае — gay, history, lgbtq, new, sexual). Также инструмент выдает некоторый отчет — количество слов в тексте (14562) и уникальных форм слова (3432). К тому же, мы видим коэффициент лексического разнообразия, типичное количество слов в предложении (≈35) и опять же наиболее употребляемые слова.
Таким образом, voyant tools является одним из наиболее удобных и наглядных инструментов для анализа текстов. Также можно отметить его визуальную составляющую, привлекающую к себе простого, неопытного пользователя.
Online Utility Text Analyzer
Еще одним интересным инструментом для анализа текста является Online Utility Text Analyzer. В результате обработки текста он выдает множество различных таблиц: общий анализ текста, наиболее употребляемые фразы и словосочетания, в которых содержится от 2 до 8 слов, а также список слов, ранжированных в зависимости от количества их упоминаний в тексте.
Как говорилось выше, первой мы видим “общий анализ” текста, то есть количество символов с пробелами и без (97990 и 76887 соответственно), количество слов (14570), коэффициент лексического разнообразия, количество предложений (875) и даже слогов (26039).
Выше приведена таблица наиболее употребляемых фраз, состоящих из 3 слов. Мы видим, что на первом месте стоит — the United States. Рассматривая данный список, сразу можно сделать выводы о некоторых минусах данного ресурса — не все фразы имеют смысл, часто это просто сочетания слов с предлогами и артиклями, из которых нельзя прийти к каким-либо содержательным выводам.
Говоря об приведении наиболее часто употребляемых слов, можно сделать такие же выводы, как и из предыдущей таблицы. На первых местах здесь стоят предлоги и артикли, первым значимым словом становится аббревиатура lgbtq, стоящая на 11 месте. Также из данной таблицы можно сделать вывод о количестве разных слов, используемых в тексте (в данном случае — 3419).
Таким образом, данный ресурс вряд ли подходит для анализа больших текстов в прямом понимании этого слова. Возможно, он будет полезен в изучении употребления служебных частей речи или в каких-то других сферах.
Online Summarize Tool
Это простой инструмент, который помогает сокращать текстовые статьи, извлекая наиболее важные предложения. Инструмент синтеза для текстовых статей, извлечения наиболее важных предложений и классификации предложений в соответствии с их важностью.
Так же, как и в инструменте Voyant tools, здесь присутствует возможность увидеть наиболее употребляемые слова. В первую десятку вошли lgbtq, history, sexual, people, lesbian, gender, transgender, united, queer, states. Эти слова отражают тему исследования.
В главной функции этого инструмента — сокращении текста — получилось 3 большие смысловые части, по количеству слов примерно одинаковые. Первая часть определена временными рамками с 1781 по 1896 гг. Также сюда включены события, которые исследователи считают наиболее важными для этого периода. Во второй части представлено рассуждение об определениях терминов, касающихся ориентации, как они использовались в прошлом и сейчас. В третьей — борьба за права людей с нетрадиционной ориентацией, за репрезентацию ЛГБТК-сообщества в публичной, общественной среде. Такой инструмент, действительно, экономит время ознакомления с документом, выделяет самое важное. Вопрос в том, что для человека важно в документе? Возможно, он стремится увидеть не то, что на поверхности.
Следующая полезная функция — выделение ключевых слов в уже сокращенном тексте — обращает внимание читателя сразу на них, не давая пропустить основное в тексте. Опять же, становится понятен смысл текстового отрывка. Крупным выделены слова, которые вошли в топ-10 по употребляемости в тексте (lgbtq, history, sexual, people, lesbian, gender, transgender, united, queer, states).
Очередной полезной функцией данного инструмента можно назвать автоматическую нумерацию предложений. В нашем тексте их 447 штук.
Итак, Online Summarize Tool удобен для работы с большими текстами для их освоения за более короткий срок. Минус в субъективности понятия важного в тексте и недетализированности, поверхностности итогового текста. Но он прекрасно подходит для быстрой обработки большого количества информации и чтения “между строк”.
Подводя итог сказанному, следует сказать, что инструменты для визуализации и анализа текста значительно упрощают работу исследователю, занимающемуся, возможно, массовыми источниками, которых много. Если Вы ученый, который занимается, например, изучением повседневности или процессов, происходящих не на макро- а на микроуровне, то такие инструменты не совсем Вам подойдут. Но при исследовании глобальных процессов требуется оценка данных в большом объеме — тогда на помощь приходят инструменты текстового анализа.