Анализ текста: завершение

1. Извлекаем текст

для youtube — нужна только ссылка на видео. Тетрадка с кодом: https://colab.research.google.com/drive/1vnjcKmPl5dXXnGEcSVKk0m5hxni-Bui0?usp=sharing

яндекс.подкаст — сложнее. используем Misuc Downloader (расширение для хрома) https://f1comp.ru/goto/https://chrome.google.com/webstore/detail/music-downloader/iempladfkphdpimdljfckjlmgklmdchc/related (если в Вышке не получится, скачаем в перерыв у меня). Для примера я скачала: https://music.yandex.ru/album/10972653/track/113327625.
Тетрадка с кодом: https://colab.research.google.com/drive/1GKlgaB2MlJnqrHXZ2AA3ZlipALnlk7CI?usp=sharing

нераспознанные pdf:

ABBYY FineReader — идеален, но это коммерческий софт.
Бесплатные:

2. Лемматизируем

3. АНАЛИЗ ТЕКСТА

  1. Voyant Tools
  2. Стилометрия
    R Studio (есть также хорошие инструкции от Даниила Скоринкина: инструкция1, инструкция2
    Весь необходимый код:

    install.packages(«stylo»)
    library(stylo)
    stylo()

    Материалы для практики по стилометрии

  3. AntConc
    Материалы: мастер класс Homo Digitusтексты

P.S. Может быть, AntConc тоже посмотрим вместе, но я умею работать только со старой версией 🙂
Скачать все можно отсюда: https://laurenceanthony.net/software/antconc/