Информационный поиск. Основы обработки текста

Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс «Современные методы и средства построения систем информационного поиска».
Лекция №3 «Основы обработки текста»
Лектор — Игорь Андреев.

Критерии документа, кодировки. Уровни лингвистического анализа. Токены и термины. Детекция языка: графематический, N-граммный и лексический подходы. Нормализация. Проблемы токенизации. Наличие и отсутствие пробелов. Китайский, японский, арабский языки. Ударение и диакритика. Классы эквивалентности. Понижение регистра. Стоп-слова. Лемматизация. Стемминг. Предиктор. Виды языков. Статистическое снятие омонимии. Разбиение текста на предложения. Расширение поискового запроса.

Другие лекции курса | https://www.youtube.com/playlist?list=PLrCZzMib1e9rIikWB2NlBUF1z7HvaO_IO
Наш видеоканал | http://www.youtube.com/user/TPMGTU?sub_confirmation=1
Официальный сайт Технопарка | https://tech-mail.ru/
Официальный сайт Техносферы | https://sfera-mail.ru/
Технопарк в ВКонтакте | http://vk.com/tpmailru
Техносфера в ВКонтакте | https://vk.com/tsmailru
Блог на Хабре | http://habrahabr.ru/company/mailru/

#ТЕХНОПАРК
#ТЕХНОСФЕРА

x