|

Русский (ru)

Квантитативная лингвистика

С.Ю. Толдова
4 курс, осень 2013
четверг 10.50 - 12.20

0. Введение в квантитативную лингвистику.

0.1. Задачи статстистической обработки данных в лингвистических исследованиях.

0.2. Задачи квантитативной лингвистики

0.3. Статистические методы в автоматической обработке текста

0.4. Примеры

Часть 1. Статистические методы в лингвистических исследованиях

1.1. Описательная статистика. Основные меры средней тенденции и изменчивости данных

1.2. Исследование зависимостей

1.2.1. Критерии проверки статистических гипотез. Критерий χ² ,

1.2.2. Критерий Стьюдента, критерий Фишера, непараметрические критерии

1.2.3. Дисперсионный анализ

Часть 2. Квантитативная лингвистика

2.1. Закон Ципфа

2.2. Исследование связи между частотными характеристиками слов и их другими квантитативными характеристиками: фонетической и морфологической сложностью, многозначностью и т.п.

2.3. Квантитативная типология

2.4. Частотные словари и принципы их составления

Часть 3. Статистические методы в автоматической обработке текста

3.1. Тематический вес

3.2. Коллокации

3.3. Автоматическая классификация текстов. Тональность

3.4. Методы кластеризации. Примеры.

3.4.1.Salton. Гл.10 Методы кластеризации документов

3.4.2. Пример 1. Ю.Д.Апресян. Кластеризация глаголов по классам.

3.4.3. Пример 2. Разрешение семантической неоднозначности

3.5. Языковые модели. Скрытые марковские модели. Автоматическое снятие морфологической неоднозначности с использованием скрытых марковских моделей (HMM)

3.6. Вероятностные контекстно-свободные грамматики (PCFG)

Задания к зачету:

0.

0.1. ДЗ 1

0.2. Коллоквиум по теме 1.

1. Задание к зачету 2013: Задание по исследованию частотных характеристик текста, выделению тематически значимой лексики, выделению коллокаций

2. Задания по классификации и кластеризации фрагментов текстов: задание "Репка и курочка Ряба" (классификация текстов), задание "Разрешение многозначности для слова конструкция"

2. Проект

debug - пакет для обработки корпуса с использованием MyStem. Создает соответствующие файлы с леммами, создает матрицу термин (лемма) - документ (без снятия омонимии).

Документы:

	Квантитативная лингвистика. Материалы
	task-2013.rtf	Задание к зачету 2013