libcats.org

Главная →

Theory and Algorithms for Information Extraction and Classification in Textual Data Mining

Theory and Algorithms for Information Extraction and Classification in Textual Data Mining

Wu T.

Regular expressions can be used as patterns to extract features from semi-structured and narrative text [8]. For example, in police reports a suspect's height might be recorded as "{CD} feet {CD} inches tall", where {CD} is the part of speech tag for a numeric value. The result in [1] shows us that regular expressions could have higher performance than explicit expressions in some applications such as Posting Act Tagging. Although much work has been done in the field of information extraction, relatively little has focused on the automatic discovery of regular expressions. Therefore, my Ph.D. research will focus on the automatic generation of reduced regular expressions (RREs) (defined in [8]) used in Information Extraction (IE).The reduced regular expressions learned can be directly used to extract features from free text, or they can be used to fill in templates in Eric Brill's Transformation-Based Learning (TBL) [2] frameworks. The original templates in TBL are explicit expressions, which are weaker than reduced regular expressions. I propose an innovative enhancement to TBL termed "Error-Driven Boolean-Logic-Rule-Based Learning" (BLogRBL) [9], which is strictly more powerful than TBL [2]. Similar to Brill's method, rules are automatically derived from templates during learning. It differs from Brill's technique in that rules take the form of complex expressions of combinational logic. Therefore, my final contribution in my PhD thesis will be a framework that combines regular expression discovery with BLogRBL.A necessary component of this research is a study of various biases inherent in the use of reduced regular expressions in IE. The purpose of this work is to determine the language biases, search biases, and overfitting biases in the RRE discovery and BLogRBL algorithms.

Скачать книгу бесплатно (pdf, 89 Kb)

Читать «Theory and Algorithms for Information Extraction and Classification in Textual Data Mining»

EPUB | FB2 | MOBI | TXT | RTF

* Конвертация файла может нарушить форматирование оригинала. По-возможности скачивайте файл в оригинальном формате.

Популярные книги за неделю:

Издание 'Сделай сам'. 1999 № 02 (DjVU)

Автор:

Размер книги: 3.94 Mb

О физической природе шаровой молнии

Автор: И.П.Стаханов

Категория: science, science, exact

Размер книги: 5.03 Mb

Секреты компьютерного шпионажа. Тактика и контрмеры

Автор: Дж. Макнамара

Категория: info, info, infotech, computers, computers, net

Размер книги: 3.10 Mb

Технология регенерации зубов

Автор: Петров Аркадий Наумович

Категория: Здоровье

Размер книги: 69 Kb

Ключ к сверхсознанию

Автор: Петров Аркадий Наумович

Категория: Путь к себе

Размер книги: 309 Kb

Система упражнений по развитию способностей человека (Практическое пособие)

Автор: Петров Аркадий Наумович

Категория: Путь к себе

Размер книги: 818 Kb

Сотворение мира (3-х томник)

Автор: Петров Аркадий Наумович

Категория: Путь к себе

Размер книги: 817 Kb

Технология солода и пива

Автор: Кунце В.

Категория: Tech

Размер книги: 113.31 Mb

Древо жизни

Автор: Петров Аркадий Наумович

Категория: Путь к себе

Размер книги: 1.70 Mb

Как обставить квартиру

Автор: Р.Милосавлевич

Категория: color, graph, house, home

Размер книги: 4.92 Mb

Только что пользователи скачали эти книги:

Дрессировка полицейских собак

Автор: Герсбах Роберт

Категория: Домашние животные, Справочная литература

Размер книги: 3.22 Mb

Юрий Яковлевич Яковлев. Игра в красавицу (Школьные коридоры)

Автор:

Размер книги: 13 Kb

К.Титаренко. Система мироздания.

Автор:

Размер книги: 20 Kb

Психология развития личности в онтогенезе

Автор: Фельдштейн Д.И.

Категория: Психология теоретическая учебная литература

Размер книги: 174 Kb

Metallica - The Black Album (Ноты, Табы)

Автор: Metallica

Категория: color, color, music

Размер книги: 22.23 Mb

Играю против шахматных фигур

Автор: Глигорич

Категория: 1807893-Шахматная библиотека webchess.ru, Выдающиеся шахматисты мира

Размер книги: 6.27 Mb

The Enzymes, Vol XX: Mechanisms of Catalysis, 3rd Edition

Автор: David S. Sigman

Категория: Химия

Размер книги: 29.45 Mb

Cornea and External Eye Disease: Corneal Allotransplantation, Allergic Disease and Trachoma (Essentials in Ophthalmology)

Автор: Thomas Reinhard, Автор: Frank Larkin

Категория: Медицина, Болезни

Размер книги: 5.44 Mb

Poema Pedagogico 2

Автор: Makarenko Anton

Категория: fiction

Размер книги: 661 Kb

Le Case Del Brivido

Автор: Greenberg Martin H, Автор: Waugh Charles G

Категория: fiction

Размер книги: 427 Kb