Обзор Text mining инструментов на основании серии книг «Гарри Поттер»

Авторы статьи:
Волков Семён
Красильников Роман
Пласкевич Анастасия


В работе пойдет речь об использовании различных инструментов для анализа и визуализации текстов, а также исследовании первой, пятой и седьмой книг всемирно известной серии британской писательницы Дж. К. Роулинг: «Гарри Поттер и философский камень», «Гарри Поттер и Орден Феникса» и «Гарри Поттер и Дары смерти». Выбор этих книг неслучаен. Во-первых, произведения связаны между собой и являются частью одной серии, рассказывающей о мире волшебства. Во-вторых, работа над романами велась долгие годы, а между публикациями исследуемых книг прошло много лет, поэтому данная работа ставит перед собой цель нахождения возможных закономерностей в стиле написания произведений автором, потенциальных изменениях в уровне лексического разнообразия книг, отыскания наиболее часто встречающихся слов, выражений, среднего числа слов в предложении и т.д.

Для проведения исследования были выбраны 3 ресурса:

Online Utility Text Analyzer

После поочередной загрузки произведений в оригинале Text Analyzer выдал следующие результаты:

Рисунок 1. Анализ «Гарри Поттер и философский камень» в Text Analyzer

Рисунок 2. Анализ «Гарри Поттер и Орден Феникса» в Text Analyzer

Рисунок 3. Анализ «Гарри Поттер и Дары смерти» в Text Analyzer

Как можно увидеть, помимо стандартных характеристик текста, как, например, число символов с пробелами и без них, данный инструмент рассчитывает количество слогов, что не встречается среди аналогичных технологических решений, а также коэффициент лексической плотности (Lexical Density), который является отличной отличительной чертой лексически богатого текста и демонстрирует уровень владения автора языком. Так, например, для первого произведения серии о мире магии этот коэффициент равен 6.7420, в то время как для двух других произведениях данный показатель равен 4,5510 и 5,6863 соответственно. К сожалению, в данном случае сложно дать точное заключение по изменению уровню лексического богатства текста, вероятно, что он остался на том же уровне. Дело в том, что, несмотря на значительное падение этого показателя в 5‑ом романе серии, стоит учитывать факт того, что количество слов в этой книге больше, чем в первом романе более, чем в 3 раза.

Кроме того, Text Analyzer способен не только отыскать наиболее часто встречающиеся слова, но и проделать то же самое с целыми фразами, содержащими от двух до восьми слов. Примечательно, что лидером по количеству фраз и из двух, и из восьми слов тоже является 5-ый роман серии – «Гарри Поттер и Орден Феникса».

Text Analyzer способен отыскивать наиболее популярные в тексте слова и отмечать как полное число повторений, так и процент от общего количества слов в тексте.

Рисунок 4. Топ слов по числу повторений в романе «Гарри Поттер и Дары смерти»


WordSift

Как и многие другие подобные сервисы, инструмент WordSift анализирует текст и предлагает визуализацию наиболее популярных слов в виде облака, у которого есть одна преимущество. Данное облако, в отличие от ряда прочих аналогов, не выводит предлоги, глаголы-связки и артикли, поэтому на представленном примере мы видим имена главных героев, преподавателей школы и ещё несколько общих слов, что представляет для нас гораздо большую пользу.

Рисунок 5. Облако популярных слов для романа «Гарри Поттер и философский камень»

При наведении на каждое из доступных слов всплывает небольшое окно с количеством повторений слова в тексте, а при нажатии пользователь может найти связанные с выбранным словом понятия благодаря интеграции в сервис корпуса Princeton WordNet. Так, например, для слова «boy» мы имеем следующую схему:

Рисунок 6. Сеть из взаимосвязанных понятий

При наведении на каждый узел выводится справочная информация о том или ином термине и пример использования, а при нажатии узел скрывается. Кроме того, пользователю достаточно просто нажать на любое из слов в сети, чтобы перейти к его определению, как было со словом «boy».

В самом низу страницы есть раздел, включающий фрагменты текста, в которых встречается одно из выбранных в облаке слов. Здесь мы можем увидеть количество предложений с этим словом и узнать, в каком контексте оно использовалось.

Рисунок 7. Примеры употребления одного из наиболее встречаемых в тексте слов


Voyant Tools

Voyant Tools – ещё один прекрасный инструмент для анализа и визуализации текста. Как и предыдущий аналог, он способен выстраивать облака наиболее часто используемых слов в тексте, однако в данном сервисе представлена отличная возможность по изменению количества отображаемых единиц. Как и в WordSift, здесь при наведении пользователь может узнать точное число упоминаний слова в тексте.

Рисунок 8. Облака слов разных размеров

Другой интересной особенностью данного сервиса является шкала частотности. По оси X пользователь может увидеть 9 отрезков на которые был разбит анализируемый текст. Каждому делению соответствуют точки на графике, отражающие количество повторений слова в определенный момент, что помогает увидеть, в каком сегменте текста слово использовали часто, а в каком гораздо реже.

Рисунок 9. Шкала частотности

Как и в предыдущем инструменте анализа, в данном сервисе также предлагает возможность изучения контекста, в котором употребляется то или иное слово, однако Voyant Tools примечателен тем, что пользователь может рассмотреть примеры употребления не только наиболее часто встречаемых слов, но и вообще любых других, даже если они встречаются лишь единожды.

Рисунок 10. Употребление слова «emerald» в романе «Гарри Поттер и Орден Феникса»

Кроме того, для любого анализируемого текста предоставляется summary, включающее общее число слов и количество уникальных слов, среднее число слов в предложении и топ-5 самых используемых в тексте слов.

Рисунок 11. Краткие сведения по анализу романа «Гарри Поттер и Орден Феникса»


Таймлайн событий первой книги о Гарри Поттере

По следам Гарри Поттера: карта мест съемок культовой саги

Сетевое моделирование взаимосвязей между персонажами серии романов о Гарри Поттере