Анализ текста. Подготовительный этап

Корпуса. Национальный корпус русского языка.

Национальный корпус русского языка

Задания на Образовательном портале Национального корпуса русского языка

Частотный анализ

  • Как компьютер понимает текст?
  • Частотные слова, n-граммы. ipm, tf-idf и другое.
  • Облака слов

Полезные ссылки:

Презентация о частотном анализе

О. Н. Ляшевская, С. А. Шаров, Частотный словарь современного русского языка (на материалах Национального корпуса русского языка)

Токенизация и лемматизация текста

Когда мы точно понимаем, что требуется лемматизировать текст?

Презентация о токенизации

Сервисы

Поиск исторических событий, их отражения в корпусе по вашей теме исследований:

  1. Google Books Ngram Viewer (Google Ngram Viewer)
    Соловьев В.Д. Что корпус GoogleBooksNgram может дать для понимания механизмов сохранения и передачи знаний в человеческом обществе? (слайды 26-30)
  2. Google Trends
  3. Яндекс Wordstat

СТИЛОМЕТРИЯ

Стилометрия
R Studio (есть также хорошие инструкции от Даниила Скоринкина: инструкция1, инструкция2
Весь необходимый код:

install.packages(«stylo»)
library(stylo)
stylo()

Материалы для практики по стилометрии