Анализ текста: лабораторная работа

Требования:

  • на 1 человека в проектной группе: текст ~30 тыс. символов (с пробелами)
  • не менее 3 прокомментированных, содержательных визуализаций

Подготовка файлов

  1. https://www.newocr.com/
  2. https://www.ocr2edit.com/ru
  3. https://onlineocr.org/ru
  4. https://tools.pdf24.org/ru/ocr-pdf

 2. ЛЕММАТИЗИРУЕМ

3. АНАЛИЗ ТЕКСТА

  1. Voyant Tools
  2. Стилометрия
    R Studio (есть также хорошие инструкции от Даниила Скоринкина: инструкция1, инструкция2)
    Весь необходимый код:

    install.packages(«stylo»)
    library(stylo)
    stylo(corpus.lang=»Other»)

     

  3.  AntConcМатериалы: мастер класс Homo Digitusтексты

Если на паре не успеем, гайд с вами. Основной смысл: извлечь ключевые слова (ключевые — которыми ваш текст отличается от корпуса (или от других текстов).

Видеоинструкция ТОЛЬКО для старой версии (AntConc 3x series)
Скачать все можно отсюда: https://laurenceanthony.net/software/antconc/