Авторы статьи:
Волков Семён
Красильников Роман
Пласкевич Анастасия
В работе пойдет речь об использовании различных инструментов для анализа и визуализации текстов, а также исследовании первой, пятой и седьмой книг всемирно известной серии британской писательницы Дж. К. Роулинг: «Гарри Поттер и философский камень», «Гарри Поттер и Орден Феникса» и «Гарри Поттер и Дары смерти». Выбор этих книг неслучаен. Во-первых, произведения связаны между собой и являются частью одной серии, рассказывающей о мире волшебства. Во-вторых, работа над романами велась долгие годы, а между публикациями исследуемых книг прошло много лет, поэтому данная работа ставит перед собой цель нахождения возможных закономерностей в стиле написания произведений автором, потенциальных изменениях в уровне лексического разнообразия книг, отыскания наиболее часто встречающихся слов, выражений, среднего числа слов в предложении и т.д.
Для проведения исследования были выбраны 3 ресурса:
Online Utility Text Analyzer
После поочередной загрузки произведений в оригинале Text Analyzer выдал следующие результаты:
Как можно увидеть, помимо стандартных характеристик текста, как, например, число символов с пробелами и без них, данный инструмент рассчитывает количество слогов, что не встречается среди аналогичных технологических решений, а также коэффициент лексической плотности (Lexical Density), который является отличной отличительной чертой лексически богатого текста и демонстрирует уровень владения автора языком. Так, например, для первого произведения серии о мире магии этот коэффициент равен 6.7420, в то время как для двух других произведениях данный показатель равен 4,5510 и 5,6863 соответственно. К сожалению, в данном случае сложно дать точное заключение по изменению уровню лексического богатства текста, вероятно, что он остался на том же уровне. Дело в том, что, несмотря на значительное падение этого показателя в 5‑ом романе серии, стоит учитывать факт того, что количество слов в этой книге больше, чем в первом романе более, чем в 3 раза.
Кроме того, Text Analyzer способен не только отыскать наиболее часто встречающиеся слова, но и проделать то же самое с целыми фразами, содержащими от двух до восьми слов. Примечательно, что лидером по количеству фраз и из двух, и из восьми слов тоже является 5-ый роман серии – «Гарри Поттер и Орден Феникса».
Text Analyzer способен отыскивать наиболее популярные в тексте слова и отмечать как полное число повторений, так и процент от общего количества слов в тексте.
WordSift
Как и многие другие подобные сервисы, инструмент WordSift анализирует текст и предлагает визуализацию наиболее популярных слов в виде облака, у которого есть одна преимущество. Данное облако, в отличие от ряда прочих аналогов, не выводит предлоги, глаголы-связки и артикли, поэтому на представленном примере мы видим имена главных героев, преподавателей школы и ещё несколько общих слов, что представляет для нас гораздо большую пользу.
При наведении на каждое из доступных слов всплывает небольшое окно с количеством повторений слова в тексте, а при нажатии пользователь может найти связанные с выбранным словом понятия благодаря интеграции в сервис корпуса Princeton WordNet. Так, например, для слова «boy» мы имеем следующую схему:
При наведении на каждый узел выводится справочная информация о том или ином термине и пример использования, а при нажатии узел скрывается. Кроме того, пользователю достаточно просто нажать на любое из слов в сети, чтобы перейти к его определению, как было со словом «boy».
В самом низу страницы есть раздел, включающий фрагменты текста, в которых встречается одно из выбранных в облаке слов. Здесь мы можем увидеть количество предложений с этим словом и узнать, в каком контексте оно использовалось.
Voyant Tools
Voyant Tools – ещё один прекрасный инструмент для анализа и визуализации текста. Как и предыдущий аналог, он способен выстраивать облака наиболее часто используемых слов в тексте, однако в данном сервисе представлена отличная возможность по изменению количества отображаемых единиц. Как и в WordSift, здесь при наведении пользователь может узнать точное число упоминаний слова в тексте.
Другой интересной особенностью данного сервиса является шкала частотности. По оси X пользователь может увидеть 9 отрезков на которые был разбит анализируемый текст. Каждому делению соответствуют точки на графике, отражающие количество повторений слова в определенный момент, что помогает увидеть, в каком сегменте текста слово использовали часто, а в каком гораздо реже.
Как и в предыдущем инструменте анализа, в данном сервисе также предлагает возможность изучения контекста, в котором употребляется то или иное слово, однако Voyant Tools примечателен тем, что пользователь может рассмотреть примеры употребления не только наиболее часто встречаемых слов, но и вообще любых других, даже если они встречаются лишь единожды.
Кроме того, для любого анализируемого текста предоставляется summary, включающее общее число слов и количество уникальных слов, среднее число слов в предложении и топ-5 самых используемых в тексте слов.
Сетевое моделирование взаимосвязей между персонажами серии романов о Гарри Поттере