Учебные цели: формирование знаний о применении средств корпусной лингвистики в различных сферах; развитие навыков анализа текстов с использованием информационных технологий.
Тип: Практическое занятие или лабораторная работа
Автор: Екатерина Калинина
Трудомкость: 4 ч.
Тема: Корпусная лингвистика
Задание:
Придумайте или выберите тему исследования из приведенных ниже:
- Доля сленговых выражений и заимствований в повседневном общении современного человека.
- Язык писем М.И. Цветаевой в аспекте использования разговорных форм.
- Морфологический состав контекстной рекламы в соц.сетях.
- Доля устаревшей лексики в сказках А.С. Пушкина.
Сформируйте корпус, достаточный для проведения исследования, и проведите его частотный анализ с использованием корпус-менеджера AntConc. Опишите результаты исследования.
Справка по использованию корпус-менеджера AntConc:
Программа AntConc позволяет производить поиск и подсчет различных элементов текста, анализировать частотность и контекст употребления словоформ, словосочетаний и морфем, сравнивать употребительность словоформ в разных текстах.
Для использования данного корпус-менеджера достаточно скачать актуальную версию программы с официального сайта разработчика, установка не требуется.
Шаг 1. Подготовка файла, содержащего исследуемый корпус
Файл, который предполагается использовать для работы в AntConc, должен соответствовать следующим требованиям:
- формат файла .txt;
- кодировка совпадает с установленной в настройках программы AntConc (Global Settings → Character Encoding → Current Encoding).
Шаг 2. Загрузка файла
Для того, чтобы загрузить файл(-ы), содержащий исследуемый корпус, в AntConc, необходимо в основном меню программы выбрать пункт File, после чего выбрать один из вариантов:
- Open File(s) для загрузки одного или нескольких файлов;
- Open Dir для загрузки всех файлов в выбранной директории.
Внимание! Весь путь до загружаемых файлов не должен содержать кириллицы.
Шаг 3. Частотный анализ текста
Названия всех загруженных в AntConc файлов отображаются на списке слева. Чтобы составить частотный словарь текста, необходимо выбрать нужный файл из списка:
После чего следует перейти на вкладку Word List и нажать кнопку Start:
Построенный частотный словарь выбранного текста будет иметь следующий вид:
После построения частотного словаря на вкладке Concordance можно отследить, в каких контекстах употребляется то или иное слово:
На вкладке Concordance Plot можно увидеть, в каких частях загруженных файлов встречается то или иное слово:
На вкладке Cluster/N-Grams можно вычленить из текста словосочетания указанной длинны с тем или иным словом:
Литература
Тематические проекты, онлайн-курсы и программное обеспечение
- Национальный корпус русского языка [Электронный ресурс]. 2018. URL: http://www.ruscorpora.ru
- AntConc Tutorial (Ver 3.4.0) // YouTube [Электронный ресурс]. 2014. URL: https://www.youtube.com/playlist?list=PLiRIDpYmiC0Ta0-Hdvc1D7hG6dmiS_TZj
- Laurence Anthony's AntConc // Laurence Anthony's Homepage [Электронный ресурс]. 2018. URL: http://www.laurenceanthony.net/software/antconc
Библиографическая ссылка: Калинина Е. Количественное описание общения на естественных языках // Изучаем Digital Humanities [Электронный ресурс]. 2018. URL: https://dhumanities.ru/?p=719