WWW.DOC.KNIGI-X.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Различные документы
 

«Часть II Последовательности КМАТ 04 N-граммы. Моделирование локального контекста Компьютерные методы анализа текста Кирилл Александрович ...»

Часть II

Последовательности

КМАТ 04

N-граммы. Моделирование локального

контекста

Компьютерные методы анализа текста

Кирилл Александрович Маслинский

НИУ ВШЭ Санкт-Петербург

14.02.2014 / 04

КМАТ 04

Outline

Контекст

Предсказание слова

Модель контекста: N-граммы

Языковая модель

Вероятность языковых событий

Цепь Маркова

N-граммные языковые модели

Применения N-граммных моделей

Классификация: Определение языка

Снятие неоднозначности

КМАТ 04

Контекст

Предсказание слова

Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Применения N-граммных моделей Классификация: Определение языка Снятие неоднозначности КМАТ 04 Контекст Предсказание слова Эксперимент Для начала проведем небольшой эксперимент КМАТ 04 Контекст Предсказание слова Предсказание слова сегодняшний...?

КМАТ 04 Контекст Предсказание слова Предсказание слова сегодняшний день?

КМАТ 04 Контекст Предсказание слова Условная вероятность P(B A) (1) P(B|A) = P(A) f (сегодняшний день) 12 P(день|сегодняшний) = = = 0.75 f (сегодняшний) 18 (2) КМАТ 04 Контекст Модель контекста: N-граммы Outline Контекст Предсказание слова Модель контекста: N-граммы Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Применения N-граммных моделей Классификация: Определение языка Снятие неоднозначности КМАТ 04 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов.

Униграммы Восторг внезапный ум пленил.

Биграммы Восторг внезапный ум пленил.

Триграммы s Восторг внезапный ум пленил.

КМАТ 04 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов.

Униграммы Восторг внезапный ум пленил.

Биграммы Восторг внезапный ум пленил.

Триграммы s Восторг внезапный ум пленил.

КМАТ 04 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов.

Униграммы Восторг внезапный ум пленил.

Биграммы Восторгвнезапный ум пленил.

Триграммы s Восторг внезапный ум пленил.

КМАТ 04 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов.

Униграммы Восторг внезапный ум пленил.

Биграммы Восторг внезапный ум пленил.

Триграммы s Восторг внезапный ум пленил.

КМАТ 04 Контекст Модель контекста: N-граммы N-граммы N последовательно стоящих друг за другом слов.

Униграммы Восторг внезапный ум пленил.

Биграммы Восторг внезапный ум пленил.

Триграммы s Восторг внезапный ум пленил.

КМАТ 04 Контекст Модель контекста: N-граммы Скользящее окно Марков использовал новое понятие для статистического анализа распределения букв в знаменитой поэме Пушкина «Евгений Онегин».

статистического анализа статистического распределения статистического букв анализа распределения анализа букв распределения букв КМАТ 04 Контекст Модель контекста: N-граммы Скользящее окно

–  –  –

Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Применения N-граммных моделей Классификация: Определение языка Снятие неоднозначности КМАТ 04 Языковая модель Вероятность языковых событий Вероятность языковых событий Вероятность основана на подсчете событий (частотность) В лингвистике считаем события в корпусе вероятность = относительная частотность

–  –  –

Maximum Likelihood Estimation, MLE Принцип максимального правдоподобия КМАТ 04 Языковая модель Вероятность языковых событий Language model Языковая модель — приписывает вероятность фрагменту текста (высказыванию, предложению...)

Иными словами:

максимизирует вероятность реальных текстов минимизирует вероятность нереальных текстов При наличии омонимии позволяет выбрать более вероятный вариант.

КМАТ 04 Языковая модель Цепь Маркова Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Применения N-граммных моделей Классификация: Определение языка Снятие неоднозначности КМАТ 04 Языковая модель Цепь Маркова Цепь Маркова

–  –  –

Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Применения N-граммных моделей Классификация: Определение языка Снятие неоднозначности КМАТ 04 Языковая модель N-граммные языковые модели Вероятность предложения

–  –  –

Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Применения N-граммных моделей Классификация: Определение языка Снятие неоднозначности КМАТ 04 Применения N-граммных моделей Классификация: Определение языка Идея классификации с помощью языковых моделей Задача Определить язык текста (выбрать из известных языков) Идея Языковые модели текстов на одном языке будут похожи.

КМАТ 04 Применения N-граммных моделей Классификация: Определение языка Текст как список n-грамм букв

–  –  –

Зашумленные источники (независимо от причин ошибок: опечатки, вариативность, OCR) вообщем bi-grams: _в, во, oо, об, бщ, ще, ем, м_ tri-grams: _во, воо, ооб, общ, бще, щем, ем_, м_ _ quad-grams: _воо, вооб, ообщ, обще, бщем, щем_, ем_ _, м_ _ _ КМАТ 04 Применения N-граммных моделей Классификация: Определение языка Бесплатный стемминг!

(независимо от языка — если алфавитная письменность) в общем bi-grams: _в, в_, _о, об, бщ, ще, ем, м_ tri-grams: _в_, в_ _, _об, общ, бще, щем, ем_, м_ _ quad-grams: _в_ _, в _ _ _, _общ, обще, бщем, щем_, ем_ _, м_ _ _ КМАТ 04 Применения N-граммных моделей Классификация: Определение языка Языковая модель Вероятность языковых событий Цепь Маркова N-граммные языковые модели Применения N-граммных моделей Классификация: Определение языка Снятие неоднозначности КМАТ 04 Применения N-граммных моделей Снятие неоднозначности N-граммы в задачах снятия неоднозначности

Снятие неоднозначности (disambiguation) на разных уровнях:

Определение частей речи (part of speech tagging) Снятие лексической омонимии (word sense disambiguation) Выбор варианта синтаксического разбора (syntactic disambiguation) и т.п.

КМАТ 04 Применения N-граммных моделей Снятие неоднозначности Part of speech tagging То же касается отстегивания от России кавказского грузила.

То/SPRO/APRO/PART/CONJ же/PART/CONJ касается/V отстегивания/S от/PR России/S кавказского/A грузила/V/S.

КМАТ 04 Применения N-граммных моделей Снятие неоднозначности Part of speech tagging То/SPRO же/CONJ касается/V отстегивания/S от/PR России/S кавказского/A грузила/V=грузить.

КМАТ 04 Применения N-граммных моделей Снятие неоднозначности Part of speech tagging То/SPRO же/CONJ касается/V отстегивания/S от/PR России/S кавказского/A грузила/S=грузило.

КМАТ 04 Применения N-граммных моделей

Похожие работы:

«Химия растительного сырья. 2000. № 3. C. 85–94. УДК 547.913:543.544.45 СОСТАВ ЭФИРНОГО МАСЛА СИБИРСКИХ ПОПУЛЯЦИЙ ARTEMISIA PONTICA L. ПЕРСПЕКТИВНОГО ЛЕКАРСТВЕННОГО РАСТЕНИЯ а а б в М.А. Ханина, Е.А. Серых, А.Ю. Королюк, Л.А. Бельченко, г в,г,* Л.М. Покровский, А.В. Ткачев а Сибирский медицинский университет...»

«Утвержден Общим собранием членов Ивановской областной общественной организации медицинских сестер и средних медицинских работников Протокол № 1 от 20.01.2000 г. Новая редакция Устава утверждена Общим собранием членов Ивановской областной общественной организации медицинских сестер...»

«Норман Уокер Лечение соками От редакции Впервые эта книга доктора Уокера увидела свет в 1936 году. Она сразу же завоевала популярность, причем во многих странах мира. Сегодня ее можно смело отнести к классике нетрадиционной медицины, а самого Нормана Уокера – к корифеям этого направления. Естестве...»

«Химия растительного сырья. 2000. № 3. C. 65–76. УДК 547.913:543.544.45 СОСТАВ ЭФИРНОГО МАСЛА ПОЛЫНИ ТАРХУН (ARTEMISIA DRACUNCULUS L.) СИБИРСКОЙ ФЛОРЫ а б б в в,г И.Б. Руцких, М.А. Ханина, Е.А. Серых, Л.М. Покровский, А.В. Ткачев * а Комитет по охране окружающей среды Новосибирской обл...»

«Химия растительного сырья. 2001. №3. С. 71–78. УДК 615.322:581.19 ХИМИЧЕСКОЕ ИССЛЕДОВАНИЕ ФЛАВОНОИДОВ ПОЛЫНИ ГОРЬКОЙ (ARTEMISIA ABSINTHIUM L.), П. СИВЕРСА (A. SIEVERSIANA WILLD.) И П. ЯКУТСКОЙ (A. JACUTICA DROB.) * Е.Н. Сальникова, Г.И. Калинкина, С.Е. Дмитрук Сибирский гос...»

«УДК: 801. 3 МЕДИЦИНСКАЯ МЕТАФОРА-ТЕРМИН В ПРОФЕССИОНАЛЬНОМ ДИСКУРСЕ О.С. Зубкова доцент кафедры перевода и межкультурной коммуникации кандидат филологических наук e-mail: olgaz4@rambler.ru Региональный открытый социальный институт Статья посвящена анализу функционирова...»

«УДК 316.6(075.32) РОЛЬ МАЛОЙ ГРУППЫ В ДУХОВНО-НРАВСТВЕННОМ ОПОСРЕДОВАНИИ СОЦИАЛЬНЫХ ПРЕДСТАВЛЕНИЙ СОВРЕМЕННОЙ УЧАЩЕЙСЯ МОЛОДЕЖИ О МЕЖПОЛОВЫХ ОТНОШЕНИЯХ* © 2014 А. С. Чернышев1, И. А. Орешина2 завкафедрой психологии докт....»









 
2017 www.doc.knigi-x.ru - «Бесплатная электронная библиотека - различные документы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.