Лекция «История и основные понятия корпусной лингвистики»

Учебные цели: составление представления о корпусной лингвистике как научном направлении, об истории её возникновения и развития; формирование понимания основных терминов и понятий, используемых в корпусной лингвистике.


Тип: Лекция
Автор: Екатерина Калинина
Трудомкость: 2 ч.
Тема: Корпусная лингвистика

Термин corpus linguistics впервые был использован в 1977 году, что позволяет назвать корпусную лингвистику очень молодым научным направлением. Однако за это недолгое время корпусная лингвистика как один из подходов компьютерной лингвистики успела стать одним из ведущих направлений современной лингвистики вообще. В России же данный термин стал известен только к 1996 году, благодаря лекциям одного из создателей знаменитого Международного корпуса английского языка Сидни Гринбаума.
Возникновению корпусной лингвистики предшествовал многовековой период применения корпусных методов и создания корпусов текстов, в то время еще так не называемых. В связи с неэлектронной формой хранения этих корпусов, а также неавтоматических способов обработки данных, выделяют особый период в истории развития корпусной лингвистики, называемый доцифровым.

Многие доцифровые корпуса были связаны со священными писаниями различных религий, а наиболее исследованным из них стал корпус библейских текстов. Основанные на Библии списки слов с указанием стихов получили название конкорданций (симфоний).

Корпуса XVIII-XIX веков в большинстве своем представляли собой словари, а сам период характеризовался развитием лексикографии.

Уже в конце XIX – начале XX века корпуса начинают создаваться с целью проведения лингвистических исследований или – чаще – для решения практических задач (например, для подсчета частотности языковых единиц).

С изобретением и широким распространением ЭВМ для корпусной лингвистики наступает новый этап развития – создаваемые корпуса отличаются от уже существующих не только форматом хранения, но и своими объемами.

С появлением компьютерных способов обработки информации появились и возможности для развития корпусной лингвистики, уже с помощью информационных технологий. Современная лингвистическая работа часто невозможна без перевода текстов в электронную форму, что автоматически превращает их в так называемые «корпуса первого порядка». Использование цифровых средств позволяет не только создавать новые корпуса для решения актуальных проблем лингвистики, истории, социологии и других гуманитарных наук, но также и продлевать жизнь старых корпусов, проводя их оцифровку и наполнение различными примечаниями и аннотациями, тем самым расширяя и углубляя их.
Корпусная лингвистика – отличный пример того, как развитие информационных технологий не просто дало толчок для развития, казалось бы, далекой от использования вычислительной техники и чисто гуманитарной науки (лингвистики), но и породило особую научную область, которая на данный момент фактически является лидирующей по количеству исследований, базирующихся на ее методах.

Как часто бывает в гуманитарных (и цифровых гуманитарных) науках, в компьютерной лингвистике нет четко регламентируемых терминов, которые были бы единственно верными для определения тех или иных понятий. А значит, и для корпусной лингвистики каждый специалист может дать свое собственное определение.

Однако трактовки основных понятий, составляющих основу методов корпусной лингвистики, которые можно встретить в учебниках, пособиях и статьях, посвященных лингвистическим корпусам, в целом являются схожими между собой. Для конкретики дадим следующее собирательное понятие лингвистического корпуса.

Корпус – это, так называемое, «тело языка», некое собрание текстов. Однако, в отличие от привычных для нас собраний текстов – библиотек, организованных для удобства чтения, в лингвистических корпусах тексты подготавливаются таким образом, чтобы их было удобно изучать.

Существуют и другие определения понятия корпуса, анализируя которые, можно определить минимальные требования к корпусу или свойства, которыми он должен обладать:

  1. Репрезентативность. Тексты, входящие в корпус, должны достоверно представлять выбранный язык или его часть. Для этого все отбираемые тексты должны обладать определенным объемом и жанровым разнообразием.
  2. Сбалансированность. Важная характеристика корпуса, определяющая, насколько равномерно в нем представлены тексты разных типов.
  3. Известный объем корпуса. Объем корпуса может быть любым и достигать миллионов словоформ, однако в любом случае его объем должен быть известен. Это позволяет исследователю переводить данные, содержащиеся в корпусе, в числовой формат, более подходящий для представления выводов исследований, а также использовать сложные формулы лингвистической статистики.
  4. Электронная форма представления. Неотъемлемым свойством всех современных корпусов является их цифровой формат. Этот способ хранения и обработки корпусов позволяет экономить время на поиске и извлечении материала, а также избавляет исследователей от необходимости выполнять механический поиск по тексту. Помимо упрощения и ускорения обработки текстов, электронный формат также позволяет избежать ошибок при обработке материалов, используемых в исследованиях: если человек может проявить невнимательность один, два и даже десять раз, выполняя одно и то же монотонное действие в течение долгих часов, то при использовании компьютера риск возникновения таких ошибок минимален.
  5. Наличие разметки или аннотации. Для того, чтобы корпус можно было эффективно изучать, необходимо, чтобы присутствовала возможность его расширения как в «ширину» (по объему), так и в «глубину» (по количеству информации о единицах корпуса). Последнее также определяет требования наличия специальной разметки текста, представляющей собой метатекстовую или лингвистическую информацию о выбранных единицах корпуса.

Множество корпусов, используемых современными лингвистами в различных исследованиях, можно классифицировать по множеству различных признаков.
Самое простое деление предполагает выделение одноязычных и многоязычных корпусов. Если происхождение первого типа корпусов очевидно, то корпуса второго типа собираются из текстов, возникающих в нестандартных ситуациях многоязыкового общения или же одинаковых текстов, переведенных на разные языки. В связи с последними выделяют параллельные и сравнительные корпуса.

Еще одно важное разделение – по типам текстов. В корпусе могут храниться тексты как письменной, так и устной речи, разговорные и публицистические, разговорные, исторические и тексты других видов и жанров. Каждый вид текстов, в свою очередь, важен и полезен при проведении исследований для различных гуманитарных наук – истории, социологии и других.

Важно отметить, что при создании корпуса изначально не накладывается никаких ограничений на тип текста. Единственным критерием для отбора является задача, для которой собирается корпус.

Помимо полных текстов, корпус может содержать только фрагменты различных текстов. Считается, что фрагментированные корпуса обеспечивают лучшую сбалансированность собранного материала.

Корпуса, имеющие разметку (аннотированные или размеченные) по типу этой разметки делят на метатекстовые и лингвистические. Метатекстовая разметка представляет собой информацию о самом тексте с точки зрения его информационных свойств – жанре, времени создания и т.д. Лингвистическая же разметка содержит данные о фонетике, синтаксисе, морфологии и т.д. представленного в корпусе текста.

Корпус, который в достаточной мере представляет все разнообразие изучаемого языка, называется представительным. Для наблюдения за изменениями, происходящими в языке, в режиме реального времени, создаются мониторинговые корпуса. Для иллюстрации тех или иных явлений (а не языка в целом), используются относительно маленькие по объемам корпуса – иллюстративные.

Наконец, как и для любой информации, для лингвистического корпуса определяется режим доступа – корпус может быть свободно распространяемым, распространяемым по академической лицензии или с ограниченным доступом.

Литература

Тематические проекты, онлайн-курсы и программное обеспечение


Библиографическая ссылка: Калинина Е. История и основные понятия корпусной лингвистики // Изучаем Digital Humanities [Электронный ресурс]. 2018. URL: https://dhumanities.ru/?p=667