Лабораторная работа №1.Анализ текста.

Вторая Иракская война.  Анализ русскоязычных источников

В данной лабораторной работе мы планируем изучить Вторую Иракскую войну с трех позиций: что писали о войне русскоязычные источники, что о ней писали англоязычные источники,  а также непосредственный участник событий, Натаниэль Фик, который участвовал во вторжении в Ирак и свержении режима Саддама Хусейна. Он храбро воевал, сберег в боях всех своих подчиненных, дослужился до звания капитана и неожиданно для всех ушел в отставку, пораженный жестокостью современной войны и отдельными неприглядными сторонами армейской жизни. На наш взгляд, это очень интересно, узнать, что писали русскоязычные источники, англоязычные источники и непосредственный участник событий, чтобы потом сравнить их между собой, узнать, как одни события освещались разными новостными и научными изданиями и самим участником событий. Именно поэтому мы решили проанализировать  эти корпуса.

Интерактивная схема, изображающая связь слов в корпусе

Для создания ряда визуализация в данной работе мы использовали программу Voyant Tools, AntConc, Yandex wordstat, Google Ngram. Voyant позволяет нам создать множество визуализаций с лемматизированным текстом( лемматизирование проходило через лемматизатор онлайн и скрипт, написанный на языке программирования python).Эта программа позволяет создавать облака слов,  позволяет создавать кластеры со словами, позволяет создавать разного рода визуализации, которые отражают разные характеристики корпуса: частоту употребления слов, связь слов между собой, в какой части текста чаще всего употребляются те или иные слова и многое другое. Каждый из участников нашей группы использовал инструменты данной программы для создания визуализаций.

Данная схема представляет из себя замкнутую систему, которая показывает связь слов в собранном корпусе между собой,  в каком порядке эти слова идут в корпусе, в какие словосочетания они входят. От каждого слова идет связь к другому слову, с которым оно состоит в смысловых отношениях. Внизу располагается бегущая строка, которая и демонстрирует связь слов в корпусе.  Самыми главными слова в этой схеме, как мы можем видеть на схеме, являются «год», «ирак», «сша», «американский», «операция», «вторжение», «саддам», «иракский», «битва», «убитый», «террорист», «погибнуть», «апрель». Эти слова являются узловыми точками , которые связывают между собой другие части текста, ведь именно от этих слов  исходит больше всего связей к другим словам. Следовательно, эти слова являются еще и самыми употребляемыми в корпусе, так как входят в большое число словосочетаний. в которых они играют связующую роль. мы можем составить предложения и получить связный текст, если запишем все слова в том порядке, в котором они следуют друг за другом в этом корпусе, это стало возможным благодаря тому, что данная схема сохраняет смысловые отношения между словами и показывает очередность каждого слова. Перетаскивая ползунок, вы можете увеличить скорость перехода от одного слова к другому, с ним связанному в корпусе.

Облако слов, образованное из составляющих русскоязычного корпуса.

Данное облако слов показывает слова по частоте употребления в корпусе. чем чаще встречается слово, тем его размер больше. Это означает, что чаще всего в тексте встречаются слова: «ирак», «год», «американский». «битва», «террорист», «погибнуть», «сша», «апрель», «иракский», «саддам» и другие. Не читая текса, можно сделать вывод, что речь в корпусе идет об американском вторжении в Ирак в апреле, а остальные термины дополняют рассказ об этом вторжении, детализируют его, рассказывают о причинах и целях вторжения  и так алее. Передвигая ползунок в правую сторону, вы можете увеличить количество терминов, отображаемых облаком слов, что сможет еще больше дополнить картину происходивших тогда событий.

Анализ корпуса, сделанный с помощью программы AntConc

Программа AntConc позволяет детально проанализировать корпус, выделить самые ключевые и эффективные слова и сочетания слов, позволяет проследить связь слов в тексте. Этот сервис бесплатный ( как и Voyant) бесплатный и не требует регистрации, что делает сервис доступным как для работы непосредственно  в его практическом применении. Во-вторых, программа AntConc имеет интуитивно понятный интерфейс и очень проста в использовании.  В-третьих, данная программа дает возможность работать с любым текстовым файлом txt любого объема на любом языке, что позволяет выполнить статистический анализ практически любого материала. В-четвертых, сервис дает возможность анализировать несколько файлов или целиком, как единый корпус, или параллельно, как отдельные файлы, в результате чего можно провести сравнительный анализ количественных показателей в разных текстах. Об оставшихся двух сервисах. которые мы использовали, расскажут мои коллеги.

Здесь отображен лист ключевых слов нашего корпуса ( отсортированный по критерию «частота употребления»).Помимо предлога «в», присутствуют слова «быть», «ирак», «год». «быть», «американский», «сша», «апрель». «битва» , «более», «погибнуть» и другие. На данном скриншоте отражена «эффективность» этих слов, насколько эти слова являются ключевыми в тексте( отражено в столбцах «Keyness», «Effect») . Это значит, что эти слова играют наибольшую роль в тексте, входят в большое число словосочетаний в корпусе. Можно видеть соотношения критериев: например, насколько самое часто употребляемое слово являются эффективным в тексте и так далее. глядя на самые часто употребляемые ключевые слова мы можем примерно понять, о чем идет речь в нашем лемматизированном корпусе текстов.

Анализ по критерию «частота употребления»

Самые часто употребляемые слова в корпусе

Здесь отображены слова, которые употребляются чаще всего в корпусе текстов. Все слова здесь отсортированы по частоте употребления ( от самого первого слова, которое встречается чаще всего—предлог «в», который стоит под номером один; до самого последнего сова, которое употребляется реже всего) Показывается и количество употреблений этих слов. Кроме предлогов мы можем видеть здесь слова «ирак», «год», «быть»,  «американский», «сша»… Используя данные этого скриншота, мы можем понять, что, что события происходят на территории Ирака, что они связаны с Ираком и Соединенными штатами Америки, а начались эти события в апреле.

Ключевые слова в корпусе


На данном скриншоте представлены самые ключевые слова русскоязычного корпуса текстов. Указано, какой эффект, значимость эти слова имеют в тексте. Это значит, что словосочетания, в которых употребляются эти слова, имеют ключевое значение в корпусе ( это значение отображено на вкладке «keyness»). Без этих слов мы бы не смогли понять. о чем идет речь в корпусе, что является главным, а что- второстепенным. Если прочитать эти слова по порядку, то можно сделать вывод, что  США  вторглись на территорию Ирака в апреле, чтобы устранить некоего иракского террориста. Информация, представленная на данном изображении, не дает полной картины, но без этих ключевых слов мы бы вообще не смогли понять, о чем идет речь.


На данном изображении отражены самые часто употребляемые и важные словосочетания со словом «ирак»(  ключевое слово в корпусе). Прочитав эти словосочетания, можно, отчасти, понять причину вторжения в Ирак и в целом, что происходило с Ираком во время вторжения союзных сил. Помимо оценочных суждений , таких как «ирак жестокий», мы можем наблюдать все действия, связанные с Ираком, некоторые из которых и привели к вторжению или стали его следствием.

Анализ литературы и русскоязычного сектора интернета, посвященной войне в Ираке

Эти тренды отображают частоту употребления тех или иных слов в тексте. На данном изображении представлены наиболее часто употребляемые слова в книге Натаниэля Фика. Изучая эти тренды, мы можем понять, что герой служил пехотинцем во взводе морской пехоты, что действия в книге крутятся вокруг его взвода, потому что слова «взвод», «морской», «пехотинец» употребляются вместе ( это мы можем наблюдать из-за наложений графиков этих слов руг на друга и схожую модель поведения этих графиков). Автор много времени  уделяет своему взводу, что логично, ведь он и его взвод были  непосредственными участниками событий, им, отчасти, и посвящена сама книга.

График, отображающий наиболее часто упоминающиеся в книге слова в книге «One Bullet away».

Стоит отметить, что большинство книг написанных про войну в Ираке были написаны либо как мемуары людей, участвовавших в ней, либо как «путевые заметки» американских журналистов, которые продвигались совместно с бойцами КМП США. Именно этим вызвана такая частота употребления слов «морской» и «пехотинец»

Yandex.Wordstat- это сервис — который помогает получить информацию о запросах пользователей Яндекса. Например, он позволяет узнать, сколько людей в месяц ищут ту или иную фразу, и посмотреть запросы, похожие по смыслу на вашу фразу. В результатах подбора будет приведена статистика запросов на Яндексе, включающих заданное вами слово или словосочетание , и похожих запросов.

Карта интереса ко вторжению в Ирак в России, по регионам

Глядя на данный скриншот, мы можем сделать вывод, что вторжением в Ирак больше интересовались жители европейской части Российской Федерации, особенно эта тема была интересна жителям южных регионов Европейской России и  западных регионов нашей страны. Это может быть связано с тем, что компании в  этих регионах сотрудничали с иракскими компаниями, поэтому вторжение вызвало столь широкий интерес у жителей этих регионов.

Вбивая в поисковик «Ирак 2003» люди чаще всего интересуются конкретно вторжение американцев

Таким образом можно сделать некоторые выводы, что у некоторой части населения России Ирак, особенно его положение в начале нулевых, ассоциируется у людей именно с американским вторжением.

Вторая Иракская война.  Анализ англоязычных источников

Данное облако слов показывает частоту употребления тех или иных слов в тексте. Чем чаще употребляется слово, тем больше его размер в облаке. Таким образом можно увидеть, что самые часто встречающиеся слова в проанализированных нами англоязычных источниках являются: Iraq, war, country, iraqi, bush, saddam, united, invasion и т.д. Это облако слов можно настраивать, перетягивая влево и вправо ползунок «Terms», как и предыдущие облака.

Данная схема, так называемая TermsBerry (дословно с англ. — Ягода терминов), при наведении на то или иное слово показывает, как часто оно употребляется с другими словами в проанализированных нами англоязычных источниках посвящённых иракской войне. Например при наведении курсора на слово Iraq, можно увидеть, что оно употребляется по одному разу с многими другими словами, а также 5 раз со словом war. Данная схема имеет намного больше вариантов настройки, нежели использованное ранее облако слов.

Данная схема (Google Books Ngram Viewer) позволяет строить графики частотности языковых единиц на массиве печатных источников, опубликованных с 16 века и собранных в сервис Google Books. Как можно видеть, популярность таких терминов как Middle East, Saddam Hussein, Terrorism и в особенности Iraq повышается как во время первой, так и во время второй иракских войн. Также небольшой всплеск популярности приходится на 2015 год, что возможно связано с терактом в Бани-Сааде, совершённым исламских террористами, унёсшим жизни 120-130 человек.

По итогу проведенной работы мы получили несколько визуализаций, сравнив которые можно сделать вывод, что русскоязычные источники, в отличие от англоязычных, практически не упоминают президента Буша, который являлся одним из инициаторов американского вторжения, но в целом информация. которую нам сообщают эти два разных вида источников, очень похожа: в обоих видах источников идет речь о вторжении в Ирак, упоминается Саддам Хусейн и терроризм, идет речь о вооружении союзников, о контингенте США… Книга же Натаниэля Фика помогает нам понять, что переживал участник тех событий, какую роль он сыграл в них, что он думает о них спустя время. Было очень интересно сопоставлять эти корпуса источников между собой

Ссылки на источники, которые использовались для создания корпусов ( суммарный объем  знаков в проанализированных текстах превышает 100 000, подтверждения чему прикрепляем):

https://www.ictj.org/location/iraq

https://web.archive.org/web/20070319190219/http://news.independent.co.uk/world/americas/article2362747.ece

https://georgewbush-whitehouse.archives.gov/news/releases/2003/03/20030319-17.html

https://www.usip.org/iraq-timeline-2003-war

https://www.britannica.com/event/Iraq-War

https://cyclowiki.org/wiki/%D0%98%D1%80%D0%B0%D0%BA%D1%81%D0%BA%D0%B0%D1%8F_%D0%B2%D0%BE%D0%B9%D0%BD%D0%B0

https://royallib.com/book/Fick_Nathaniel/One_Bullet_Away.html

https://bigenc.ru/military_science/text/4944885

https://ria.ru/20130320/928135509.html

https://m.lenta.ru/articles/2003/03/25/attributes/

Группа И-21-1 :Харьковский Андрей, Плешивых Дмитрий. Зайцев Вадим

Вернуться на главную