Практикум «Количественное описание общения на естественных языках»

Учебные цели: формирование знаний о применении средств корпусной лингвистики в различных сферах; развитие навыков анализа текстов с использованием информационных технологий.


Тип: Практическое занятие или лабораторная работа
Автор: Екатерина Калинина
Трудомкость: 4 ч.
Тема: Корпусная лингвистика

Задание:

Придумайте или выберите тему исследования из приведенных ниже:

  1. Доля сленговых выражений и заимствований в повседневном общении современного человека.
  2. Язык писем М.И. Цветаевой в аспекте использования разговорных форм.
  3. Морфологический состав контекстной рекламы в соц.сетях.
  4. Доля устаревшей лексики в сказках А.С. Пушкина.

Сформируйте корпус, достаточный для проведения исследования, и проведите его частотный анализ с использованием корпус-менеджера AntConc. Опишите результаты исследования.

Справка по использованию корпус-менеджера AntConc:

Программа AntConc позволяет производить поиск и подсчет различных элементов текста, анализировать частотность и контекст употребления словоформ, словосочетаний и морфем, сравнивать употребительность словоформ в разных текстах.

Для использования данного корпус-менеджера достаточно скачать актуальную версию программы с официального сайта разработчика, установка не требуется.

Шаг 1. Подготовка файла, содержащего исследуемый корпус

Файл, который предполагается использовать для работы в AntConc, должен соответствовать следующим требованиям:

  • формат файла .txt;
  • кодировка совпадает с установленной в настройках программы AntConc (Global Settings → Character Encoding → Current Encoding).

Шаг 2. Загрузка файла

Для того, чтобы загрузить файл(-ы), содержащий исследуемый корпус, в AntConc, необходимо в основном меню программы выбрать пункт File, после чего выбрать один из вариантов:

  • Open File(s) для загрузки одного или нескольких файлов;
  • Open Dir для загрузки всех файлов в выбранной директории.

Внимание! Весь путь до загружаемых файлов не должен содержать кириллицы. 

Шаг 3. Частотный анализ текста

Названия всех загруженных в AntConc файлов отображаются на списке слева. Чтобы составить частотный словарь текста, необходимо выбрать нужный файл из списка:

После чего следует перейти на вкладку Word List и нажать кнопку Start:

Построенный частотный словарь выбранного текста будет иметь следующий вид:

После построения частотного словаря на вкладке Concordance можно отследить, в каких контекстах употребляется то или иное слово:

На вкладке Concordance Plot можно увидеть, в каких частях загруженных файлов встречается то или иное слово:

На вкладке Cluster/N-Grams можно вычленить из текста словосочетания указанной длинны с тем или иным словом:

Литература

Тематические проекты, онлайн-курсы и программное обеспечение


Библиографическая ссылка: Калинина Е. Количественное описание общения на естественных языках // Изучаем Digital Humanities [Электронный ресурс]. 2018. URL: https://dhumanities.ru/?p=719