WWW.DOC.KNIGI-X.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Различные документы
 

«Обработка текстов на естественном языке Александр Уланов Лекция 6. Разбор текстов по частям речи. Поиск именных сущностей © Copyright 2013 Hewlett-Packard ...»

Обработка текстов на

естественном языке

Александр Уланов

Лекция 6. Разбор текстов по частям речи.

Поиск

именных сущностей

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Оглавление курса

Введение. Слова, фразы, предложения, наборы текстов

1.

Статистики, языковые модели

2.

Классификация текстов

3.

Практика I

4.

Кластеризация текстов

5.

Разбор текстов по частям речи. Поиск именных сущностей 6.

Извлечение отношений из текстов 7.

Практика II 8.

Поиск дубликатов в тексте 9.

Анализ мнений 10.

Введение в статистический машинный перевод 11.

Практика III 12.

Литература

• Chris Manning and Hinrich Schuetze. Foundations of Statistical Natural Language Processing, MIT Press, 1999

• Philipp Koehn. Statistical Machine Translation, Cambridge Univ. Press, 2010 • © Научные статьи по теме (ссылки на слайдах), видеолекции Stanford и Coursera (Manning) Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Оглавление Введение Языковые модели (напоминание из 2й лекции) Марковские модели Разбор текста по частям речи Разпознавание именных сущностей в тексте © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Языковые модели Language models Мы рассматривали пары слов Часто для анализа этого мало, т.к. язык – это больше, чем пары слов Рассмотрим последовательности слов

• Задача: моделирование вероятности последовательностей слов в языке

– Исторически связано с OCR

• Последовательность символов, затем слов

– Распознавание речи (последовательность похожих по звучанию слов)

• I see a bird vs. Icy a bird

– Машинный перевод (более правильный перевод)

• He studied strong acids vs. He studied powerful acids

– Исправление ошибок (корректное слово)

• Текучий ремонт vs. Текущий ремонт © Лексикография (составление словарей) 4 – Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Языковые модели N-gram language modeling Вероятность последовательности слов (n-gram) 1, 2, …, Здравый смысл подсказывает, что следующее слово как-то зависит от предыдущих 1, 2, …, = 1 2 |1 |1, …, 1

Вероятность слова при условии предыдущих слов:

|1, …, 1 Если бы у нас был очень большой корпус текстов, то мы могли бы вычислить для последовательности любой длины

• Очень сложно собрать статистику для длинных последовательностей. Давайте считать, что текущее слово зависит только от m предыдущих слов (обычно берут 3 слова)

• Получается Марковская

–  –  –

POS taggers Другие подходы

• Transformation-based (основанные на преобразовании)

– Правила вида «заменить тег1 на тег2 по триггеру Х»

– Результат обучения может быть преобразован в автомат, обучение может производиться без разметки (говорят, лучше, чем HMM)

– Brill tagger

• Автомат

– АОТ

• Правила (для языков с богатой морфологией)

– Mystem © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Распознавание и классификация именных сущностей Named Entities Recognition

Задача:

• Распознавание (найти границы сущности в тексте)

• Классификация (определить принадлежность к классу) Подходы

• Словарь

– Поиск по формам, простые правила

• Машинное обучение

– Классификатор

• Скользящее окно

– Классификатор последовательностей

• Скрытые марковские модели

• Условные случайные поля (Conditional random fields) 16 © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Распознавание именных сущностей Разметка границ Челябинский тракторный завод вошел в список поставщиков Сочи-2014, сообщил генеральный директор ЧТЗ Виктор Воропаев.

• IO (INSIDE OUTSIDE)

– Проблема с именными сущностями, стоящими подряд (Мэннинг не считает серьезной проблемой)

• BILOU (BEGIN IN LAST OUT UNIT)

– Используется в современной литературе

– Позволяет исправлять ошибки (если возникли)

• Промежуточные варианты

• К разметке границ добавляется тип именной сущности (I-ORG, B-PERS…)

– Общее кол-во тегов – это их произведение (без тега O)

– БОльшее кол-во тегов не сильно влияет на эффективность классификатора 17 © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

последовательностей (на практике) Распознавание именных сущностей

–  –  –

**Clark A., Inducing syntactic categories by context distribution clustering. 2000 ***Lin, © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without of the 47th Annual Meeting of the ACL and the 4th Dekang, and Xiaoyun Wu. "Phrase clustering for discriminative learning."Proceedings of the Joint Conference notice.

International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009.

Оценки эффективности

–  –  –

X = HPLR NER © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Список программ и наборов данных Языковые модели

• SRILM, IRSTLM HMM, MEMM, CRF

• Mallet, LingPipe Разбор по частям речи

• Наборы данных: Penn Treebank (анг), OpenCorpora (рус)

• Английский: StanfordNLP, OpenNLP (и др. языки)

• Русский: TreeTagger (и др. языки), Mystem, АОТ Распознавание именных сущностей

• Наборы данных: CoNLL, NLPBA, OntoNotes, Ромип 2005 (рус), HPLR (рус)

• Stanford, Illionois, Reuters OpenCalais © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Заключение Введение Языковые модели Марковские модели Разбор текста по частям речи Разпознавание именных сущностей в тексте © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Спасибо!

nashb@yandex.ru © Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.



Похожие работы:

«Р Д. Х а л и к о в а, P. 3. Шакиров Башкирский университет / і, • ОНОМАСТІ1ЧЕСКАЯ ЛЕКСИКА БАШКИРСКИХ НАРОДНЫ ПЕСЕН Х ДОРЕВОЛЮЦИОННОГО ПЕРИОДА Характерной особенностью oaraKwpqKHx народных песен я в ­ л я е т с я содержание в них богатой ономастической лексики. Судя по тематике,...»

«РОССИЙСКАЯ АКАДЕМИЯ НАУК ОТДЕЛЕНИЕ ЛИТЕРАТУРЫ И ЯЗЫКА ВОПРОСЫ ЯЗЫКОЗНАНИЯ ТЕОРЕТИЧЕСКИЙ ЖУРНАЛ ПО ОБЩЕМУ И СРАВНИТЕЛЬНОМУ ЯЗЫКОЗНАНИЮ ЖУРНАЛ ОСНОВАН В ЯНВАРЕ 1952 ГОДА ВЫХОДИТ 6 РАЗ В ГОД СЕНТЯБРЬ — ОКТЯБРЬ "НАУКА" МОСКВА — 1992 Главный редактор: Т.В. ГАМКРЕЛИДЗЕ Заместители главного редактора: Ю.С. СТЕПАНОВ, Н.И. ТОЛСТ...»

«Вестник Томского государственного университета. Филология. 2014. №3 (29) УДК 821.161.1 – 82. 3 DOI 10.17223/19986645/29/9 Г.А. Жиличева ТЕМА ВРЕМЕНИ И ВРЕМЯ ПОВЕСТВОВАНИЯ В РУССКОМ РОМАНЕ 1920–...»

«Мирошниченко Светлана Алексеевна ПОЭТИЧЕСКИЙ ТЕКСТ КАК ЭМОТИВНЫЙ ТИП ТЕКСТА НА ЗАНЯТИИ ПО АНАЛИТИЧЕСКОМУ ЧТЕНИЮ В ЯЗЫКОВОМ ВУЗЕ В статье идёт речь о стихотворении как эмотивном типе текста. Анализ синтаксиса, ритмико-интонационных особенностей, присущих поэтическому тексту, позволяет создать у студентов-филологов предста...»

«Пономаренко Лариса Николаевна О ФОРМИРОВАНИИ ЛЕКСИЧЕСКОГО СОСТАВА АНГЛОЯЗЫЧНОЙ ИНТЕРНЕТКОММУНИКАЦИИ Статья посвящена осмыслению и анализу способов формирования англоязычной лексики интернеткоммуникаций. Основное внимание автор акцентирует на таких способах образования слов, как аффикс...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ Пятигорский государственный лингвистический университет УНИВЕРСИТЕТСКИЕ ЧТЕНИЯ – 2015 13-14 января 2015 г. ПРОГРАММА Пятигорск 2015 МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ Пятигорский государственный лингв...»

«УДК 070 ББК 76.0 К 77 Кравченко Н.П. Доктор филологических наук, профессор, заведующий кафедрой издательского дела, рекламы и медиатехнологий факультета журналистики Кубанского государственного университета, e-mail: kubgu@inb...»

«УДК 80/81.808.2:070.4 Языковая игра на газетной полосе В.Г. Стрельчук Московский государственный университет печати имени Ивана Федорова 127550, Москва, ул. Прянишникова 2А e mail: vika strelchuk@mail.ru В статье рассматривается феномен языковой игры в текстах современных газет. Проана...»









 
2017 www.doc.knigi-x.ru - «Бесплатная электронная библиотека - различные документы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.