Mail.ruПочта0Мой Мир0ОдноклассникиВКонтактеИгры0ЗнакомстваНовостиПоискСмотриComboВсе проекты

Информационный поиск. Поиск дубликатов в Web

Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Современные методы и средства построения систем информационного поиска". Лекция №11 "Поиск дубликатов в Web" Лектор - Алексей Романенко. Сравнение документов: точные дубликаты, неточные, почти дубликаты, версии для печати. Три этапа определения похожих документов. Шинглы (shingles), опция сжатия. Множественная модель, матричная модель. Поиск похожих колонок. Сигнатуры. Выявление похожего множества (minhashing). Поиск похожих пар. Отбор кандидатов из сигнатур Minhash. Locality-sensitive hashing. Распределение по частям и по корзинам. LSH-компромиссы. Поиск дубликатов в Web. Другие лекции курса | https://www.youtube.com/playlist?list=PLrCZzMib1e9rIikWB2NlBUF1z7HvaO_IO Наш видеоканал | http://www.youtube.com/user/TPMGTU?sub_confirmation=1 Официальный сайт Технопарка | https://tech-mail.ru/ Официальный сайт Техносферы | https://sfera-mail.ru/ Технопарк в ВКонтакте | http://vk.com/tpmailru Техносфера в ВКонтакте | https://vk.com/tsmailru Блог на Хабре | http://habrahabr.ru/company/mailru/ #ТЕХНОПАРК #ТЕХНОСФЕРА x
Подробнее