| |
|
МГУ им. М.В. Ломоносова
Филологический факультет Отделение теоретической и прикладной лингвистики |
С.Ю. Толдова
4 курс, осень 2013
четверг 10.50 - 12.20
0.1. Задачи статстистической обработки данных в лингвистических исследованиях.
0.2. Задачи квантитативной лингвистики
0.3. Статистические методы в автоматической обработке текста
0.4. Примеры
1.1. Описательная статистика. Основные меры средней тенденции и изменчивости данных
1.2. Исследование зависимостей
1.2.1. Критерии проверки статистических гипотез. Критерий χ2 ,
1.2.2. Критерий Стьюдента, критерий Фишера, непараметрические критерии
1.2.3. Дисперсионный анализ
2.1. Закон Ципфа
2.2. Исследование связи между частотными характеристиками слов и их другими квантитативными характеристиками: фонетической и морфологической сложностью, многозначностью и т.п.
2.4. Частотные словари и принципы их составления
3.1. Тематический вес
3.2. Коллокации
3.3. Автоматическая классификация текстов. Тональность
3.4. Методы кластеризации. Примеры.
3.4.1.Salton. Гл.10 Методы кластеризации документов
3.4.2. Пример 1. Ю.Д.Апресян. Кластеризация глаголов по классам.
3.4.3. Пример 2. Разрешение семантической неоднозначности
3.5. Языковые модели. Скрытые марковские модели. Автоматическое снятие морфологической неоднозначности с использованием скрытых марковских моделей (HMM)
3.6. Вероятностные контекстно-свободные грамматики (PCFG)
Задания к зачету:
0.
0.1. ДЗ 1
0.2. Коллоквиум по теме 1.
1. Задание к зачету 2013: Задание по исследованию частотных характеристик текста, выделению тематически значимой лексики, выделению коллокаций
2. Задания по классификации и кластеризации фрагментов текстов: задание "Репка и курочка Ряба" (классификация текстов), задание "Разрешение многозначности для слова конструкция"
2. Проект
debug - пакет для обработки корпуса с использованием MyStem. Создает соответствующие файлы с леммами, создает матрицу термин (лемма) - документ (без снятия омонимии).
Квантитативная лингвистика. Материалы | ||
task-2013.rtf |
Задание к зачету 2013 |