Лабораторная работа 1

Текст для проекта содержит около 60000 знаков. В целом он посвящен истории марийского народа, своего рода краткая история народа мари, от железного века до новой России, однако также включает блоки о культуре народа, как духовной, так и материальной, а также быт марийцев — проект.digital.humanities.docx .

Данный текст был подготовлен на основе книги «История марийского народа», авторами которой являются А.Г. Иванова и К.Н. Сануков. К.Н. Сануков — марийский историк и педагог, доктор исторических наук, активно исследует марийский народ. Второй автор А.Г. Иванов — марийский филолог, профессор и также доктор филологических наук. Он также награжден большим числом русских и иностранных наград за свою научную деятельность.

1. Первый анализ был произведен с помощью инструмента Antconc.

С помощью данного инструмента мы посчитали в общем количестве слов (токенов) – 7485 в корпусе, количестве типов слов — 3696, слово, которое является самым частотным – марийцев, марийцы, года и предлоги. Не считая предлогов, то главные слова – марийцы и марийский, хотя они не употребляются больше 100, в тексте данных слов не больше 60 слов. Если бы у текста не было названия, мы бы все равно могли узнать о чем текст – про историю марийцев, поскольку «марийцы» и «года» — высокочастотные слова.

Далее найдем ключевые слова – марийцев, марийцы, марийского и другие коренные слова от мари, что и требовалось ожидать, поскольку проект посвящен именно этому народу. Мы можем увидеть, что типов – 1959, а слов в принципе – 3852. Мы можем узнать из данного инструмента, что 19 век был важным для марийцев, помимо этого существовали «луговые» мари. Данный инструмент еще раз показывает, что текст посвящен именно марийскому народу из за различных однокоренных слов от «мари».

После этого мы посмотрели слова в контексте. Для нас важное слово – это марийцы, поэтому мы смотрим, в каком контексте оно употребляется. Поскольку это существительное, то оно в основном должно употребляться с прилагательным или глаголом, что и показывает анализ – прилагательные – древние, ближние, восточные, луговые. Глаголы – состояли, были, занимали, страдали. При этом мы можем посмотреть синтаксический разбор предложений, в которых употребляется слово «марийцы». Также инструмент показал, что словосочетаний – 40.

Данная иллюстрация представляет наибольший интерес, поскольку мы можем проследить насколько часто употребляется слово «марийцы» в каждом файле. Это помогает нам понять в какой части текста внимание отдается именно «марийцам» и марийской культуре, а не взаимоотношениям марийцев с другими народами или их участие в конкретных событиях.

2. Следующий вид анализа мы произвели с помощью инструмента Voyant tools.

Voyant tools — ресурс, содержащий разнообразные функционалы по визуализации текста.

Как и говорилось в инструкции сперва мы пролеммитизировали текст с помощью онлайн лемматизатора и вставили в Voyant tools. В тексте содержится 7496 слова, включая 2439 уникальных . Плотность словарного запаса — 0,326, а среднее число слов в предложении мы не смогли узнать, поскольку лемматизировали текст через онлайн лемматизатор, который убрал все знаки препинания. Кроме того, summary показывает топ — 5 самых упоминаемых слов. Таковыми являются «марийский», «мариец», «народ». Данный результат уже свидетельствует о том, что текст так или иначе посвящен марийскому народу. Хотя только данных слов недостаточно чтобы понять содержание текста.

Тогда мы обращаемся к облаку слов. При наведении на слово мы можем увидеть сколько раз оно встречается в тексте и контекст, в котором оно употребляется. Проект про историю народа, благодаря этой визуализации мы можем понять, что существовали какие то войны (слово война употребляется 20 раз), при этом слова «восточный», «горный» и луговой» также часто употребляемые, что показывает нам, смотря на контекст, какие группы марийцев существовали. Часто употребляемое слово «крестьянин» говорит нам, что марийцы скорее всего были все-таки крестьянами. Слово «русский» также часто встречаемое, из этого следует, что должны быть какие то взаимоотношения между марийцами и русскими.

С помощью инструмента links мы можем увидеть связь слов в тексте. Так, «крестьянский» связан со словом «война» — в тексте встречаются крестьянские войны. «марийский» и «республика» доказывают, что текст также повествует про марийскую республику.

С помощью инструмента Bubblelines мы можем увидеть связь слов «русский» и «марийский». Что это нам дает? В начале текста рассказывается исключительно про марийцев и их происхождение, однако соседями марийцев были русскими, и впоследствие два народа начинают взаимодействовать, что один из народов присоединяет первый. В самом конце слово «русский» также не встречается, это связано с тем, что в 20 веке мари искали свою идентичность и стремились ее развивать.

Также мы использовали инструмент для проверки облака тегов — https://www.облакослов.рф/

Данное облако тегов также показывает высокочастотные слова как и Voyant tools. Для обоих инструментов мы использовали лемматизированный текст. Исходя из этого мы можем немного узнать о чем текст: о марийцах, мы видим, что слово «народ» — частотное, значит марийцы – народ. Поскольку слово «Казань» также частотное – мы можем узнать немного о территории гле они обитают (в Поволжье). Частотность слова «республики» показывает, что у марицев скорее всего должна быть собственный субъект и скорее всего он обладает некой автономией, так как слово «автономия» в данном облакое тоже встречается.

С помощью сервиса Google Books Ngramm Viewer можно проследить тенденции частоты встречаемости искомых слов в различных источниках в период с 1900 по 2019 год. Исходя из данных графиков видно, что наиболее часто встречаемым словом является слово «марийцы», особенно это заметно в период максимального скачка частоты с 1995 по 2002гг. Такой скачок частоты встречаемости обусловлен событиями, которые происходили в тот период. Так, например в 1995г. 9 мая республика широко отметила 50-летие со дня Победы советского народа в Великой Отечественной войне. А в 1993-1997 гг. в Марий Эл вышло издание «Книга Памяти», отдельным томом каждого района и города республики, куда занесены имена воинов-земляков, погибших в годы Великой Отечественной войны и Второй мировой войны.

Также, из данных графика можно заметить, что в период с 1950 по 1960гг слова «марийский» и «мариец» имели одинаковую частоту использования в источниках. Наименее часто встречаемым является словосочетание «Марий Эл», однако по графику можно увидеть небольшой скачок встречаемости в период с 1980 по 1990гг.

Таким образом, в ходе лабораторной работы мы использовали разные инструменты по анализу и визуализации текста с помощью чего проследили и выявили различные тенденции встречаемости и использования определенных слов по тематике данного исследования. Нами были использованы различные группы инструментов. К ним относятся: AntConc- инструмент для качественного анализа всего текста, подсчета общего количества слов, выявления однокоренных и ключевых слов, и др. Далее мы использовали визуальную группу инструментов: Voyant Tools, Google Books Ngramm Viewer и инструмент для проверки облака слов. В Voyant Tools мы получили представление анализа текста в предыдущем инструменте в виде некоторых визуализаций, таких как: Cirrus, Bubbelines, Trends, Reader. С помощью Google Books Ngramm Viewer мы получили также наглядное представление частоты встречаемости определенных слов в определенный период с помощью графика. Наконец, мы сравнили результат облака тегов в инструменте облака слов и Voyant Tools. Результаты имеют различия. Оба сервиса показали, что наиболее высокочастотными словами являются марийский и мариец, однако русский инструмент дал нам более конкретный результат.