Информационный поиск. Поиск дубликатов в Web

Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс «Современные методы и средства построения систем информационного поиска».
Лекция №11 «Поиск дубликатов в Web»
Лектор — Алексей Романенко.

Сравнение документов: точные дубликаты, неточные, почти дубликаты, версии для печати. Три этапа определения похожих документов. Шинглы (shingles), опция сжатия. Множественная модель, матричная модель. Поиск похожих колонок. Сигнатуры. Выявление похожего множества (minhashing). Поиск похожих пар. Отбор кандидатов из сигнатур Minhash. Locality-sensitive hashing. Распределение по частям и по корзинам. LSH-компромиссы. Поиск дубликатов в Web.

Другие лекции курса | https://www.youtube.com/playlist?list=PLrCZzMib1e9rIikWB2NlBUF1z7HvaO_IO
Наш видеоканал | http://www.youtube.com/user/TPMGTU?sub_confirmation=1
Официальный сайт Технопарка | https://tech-mail.ru/
Официальный сайт Техносферы | https://sfera-mail.ru/
Технопарк в ВКонтакте | http://vk.com/tpmailru
Техносфера в ВКонтакте | https://vk.com/tsmailru
Блог на Хабре | http://habrahabr.ru/company/mailru/

#ТЕХНОПАРК
#ТЕХНОСФЕРА

x