1. Извлекаем текст
для youtube — нужна только ссылка на видео. Тетрадка с кодом: https://colab.research.google.com/drive/1vnjcKmPl5dXXnGEcSVKk0m5hxni-Bui0?usp=sharing
яндекс.подкаст — сложнее. используем Misuc Downloader (расширение для хрома) https://f1comp.ru/goto/https://chrome.google.com/webstore/detail/music-downloader/iempladfkphdpimdljfckjlmgklmdchc/related (если в Вышке не получится, скачаем в перерыв у меня). Для примера я скачала: https://music.yandex.ru/album/10972653/track/113327625.
Тетрадка с кодом: https://colab.research.google.com/drive/1GKlgaB2MlJnqrHXZ2AA3ZlipALnlk7CI?usp=sharing
нераспознанные pdf:
ABBYY FineReader — идеален, но это коммерческий софт.
Бесплатные:
- https://www.newocr.com/
- https://www.ocr2edit.com/ru
- https://onlineocr.org/ru
- https://tools.pdf24.org/ru/ocr-pdf
2. Лемматизируем
- Тетрадка: https://colab.research.google.com/drive/1hOKa9fAzhEnedbaiMTpyNWX7jbdSwCFd?usp=sharing
- Лемматизатор онлайн (работать проще, но качество хуже!)
3. АНАЛИЗ ТЕКСТА
- Voyant Tools
- Стилометрия
R Studio (есть также хорошие инструкции от Даниила Скоринкина: инструкция1, инструкция2
Весь необходимый код:install.packages(«stylo»)
library(stylo)
stylo()Материалы для практики по стилометрии
- AntConc
Материалы: мастер класс Homo Digitus, тексты
P.S. Может быть, AntConc тоже посмотрим вместе, но я умею работать только со старой версией 🙂
Скачать все можно отсюда: https://laurenceanthony.net/software/antconc/