Анализ и визуализация статьи об экологических проблемах

Данная  работа представляет собой анализ и визуализацию научной статьи «Анализ глобальных экологических проблем», автором которой является Баришполец В. А., главный научный сотрудник Государственного ЦНИИ судостроительной промышленности. Оригинал текста можно найти здесь.

Для проведения анализа и визуализации статьи были выбраны следующие ресурсы:

  1. WordItOut
  2. Online-Utility.org
  3. www.tools4noobs.com
первый этап

В первую очередь было составлено облако слов в сервисе WordItOut , который позволяет выявить наиболее часто используемые слова в тексте и создать облако из этих слов (Рис.1). Самым популярным словом является слово «на», которое в данном случае не несет смысловой нагрузки. Кроме того, имеются другие служебные части речи, которые не несут смысловой нагрузки, ими можно пренебречь при визуализации текста. Ресурс позволяет регулировать количество отображаемых слов, поэтому некоторые слова были удалены (Рис.2).

Рис.1. Облако слов в WordItOut

В результате облако слов имеет следующий вид:

Рис. 2. Исправленное облако слов в WordItOut

Таким образом, автор обращает внимание на слова, которые неразрывно связаны с понятием «экология»: «почва», «леса», «Земля», «вода», «климат». Также выделено слово «результате», что указывает на последствия глобальных проблем, то есть автор перечисляет экологические проблемы и указывает их причины и последствия.

Второй этап

Online-Utility.org, в отличие от предыдущего ресурса, позволяет найти не только самые популярные слова в тексте, но и фразы. Несмотря на то, что сайт является англоязычным, он анализирует тексты на других языках, а именно: подсчитывает количество слов, знаков, предложений, слогов, а также лексическую плотность. В данном случае количество знаков  без пробела составляет 25 тыс. знаков, количество слов — 3900, а лексическая плотность статьи составляет почти 50, поэтому анализируемую статью можно назвать лексически плотной (Рис.3).

Рис.3. Анализ статьи с помощью Text Analyzer

Особенность инструмента заключается в том, что он выводит популярные фразы по количеству слов в них (Рис.4). Как можно заметить, самой популярной фразой, состоящей из 5 слов, является «одной из глобальных экологических проблем», которая повторяется 2 раза. Наиболее часто встречающейся фразой является «глобальных экологических проблем», это неудивительно, так как темой текста являются экологические проблемы. Статья достаточно большая, поэтому можно сделать вывод о том, что автор не использует повторяющиеся фразы, а использует разнообразную лексику.

Рис. 4. Анализ статьи с помощью Text Analyzer

С помощью данного сайта можно получить информацию не только о частоте использования слов, но и о проценте наиболее встречаемых слов от общего количества слов в тексте (Рис. 5).  Самым популярным словом оказался предлог «и», который встречается 172 раза в тексте, что составляет 4,4% от общего количества слов. Если посмотреть на список далее, то можно предположить, что в результате деятельности человека больше всего страдают почва, атмосфера, леса.

Рис. 5. Анализ статьи с помощью Text Analyzer

Третий этап

Еще одним инструментом анализа текста является www.tools4noobs.com, который также позволяет выявить наиболее популярные слова (Рис. 6). По данным данного инструмента, наиболее часто встречаемым словом оказался предлог «на».

Рис. 6. Анализ статьи с помощью Online summarize tool

Отличительной чертой данного ресурса является способность генерировать несколько предложений, отражающих  суть текста (Рис. 7). Читатель может просмотреть эти предложения и уловить смысл статьи. Однако не стоит надеяться на сайт, так как он может не упомянуть важные идеи.

Рис. 7. Анализ статьи с помощью Online summarize tool

Таким образом, все вышеперечисленные ресурсы отличаются друг от друга и имеют свои особенности, но все они важны при анализе текста или его визуализации. Стоит отметить, что все использованные ресурсы позволяют выявить популярные слова в тексте, однако результаты отличаются.  Первый ресурс (WordItOut) выделяется тем, что позволяет красочно представить облако слов для удобства восприятия информации. Последний инструмент (Online summarize tool) удобен для тех, кто не хочет читать текст полностью.