Требования:
- на 1 человека в проектной группе: текст ~30 тыс. символов (с пробелами)
- не менее 3 прокомментированных, содержательных визуализаций

Подготовка файлов
- для youtube — нужна только ссылка на видео. Тетрадка с кодом: https://colab.research.google.com/drive/1vnjcKmPl5dXXnGEcSVKk0m5hxni-Bui0?usp=sharing
- подкаст: сложнее, для этого нужен файл (mp3 или другой). Готовим ваш файл. Но! Если файла нет, можно попробовать его скачать, пример: используем Misuc Downloader (расширение для хрома) https://f1comp.ru/goto/https://chrome.google.com/webstore/detail/music-downloader/iempladfkphdpimdljfckjlmgklmdchc/related. Для примера я скачала: https://music.yandex.ru/album/10972653/track/113327625. Важно! Давайте следующие шаги по тетрадке выполнит только тот, кому это нужно для проекта (у меня есть лимит расшифроки: по-моему, суммарно 4 часа записи в месяц). Тетрадка: https://colab.research.google.com/drive/1GKlgaB2MlJnqrHXZ2AA3ZlipALnlk7CI?usp=sharing
- нераспознанные pdf: ABBYY FineReader — идеален, но это коммерческий софт. Бесплатные:
- https://www.newocr.com/
- https://www.ocr2edit.com/ru
- https://onlineocr.org/ru
- https://tools.pdf24.org/ru/ocr-pdf
2. ЛЕММАТИЗИРУЕМ
- Тетрадка: https://colab.research.google.com/drive/1hOKa9fAzhEnedbaiMTpyNWX7jbdSwCFd?usp=sharing
- Лемматизатор онлайн (работать проще, но качество хуже!)
3. АНАЛИЗ ТЕКСТА
- Voyant Tools
- Стилометрия
R Studio (есть также хорошие инструкции от Даниила Скоринкина: инструкция1, инструкция2)
Весь необходимый код:install.packages(«stylo»)
library(stylo)
stylo(corpus.lang=»Other») - AntConcМатериалы: мастер класс Homo Digitus, тексты
Если на паре не успеем, гайд с вами. Основной смысл: извлечь ключевые слова (ключевые — которыми ваш текст отличается от корпуса (или от других текстов).
Видеоинструкция ТОЛЬКО для старой версии (AntConc 3x series)
Скачать все можно отсюда: https://laurenceanthony.net/software/antconc/