Mail.ruПочта0Мой Мир0ОдноклассникиИгры0ЗнакомстваНовостиПоискСмотриComboВсе проекты

Информационный поиск. Основы обработки текста

Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Современные методы и средства построения систем информационного поиска". Лекция №3 "Основы обработки текста" Лектор - Игорь Андреев. Критерии документа, кодировки. Уровни лингвистического анализа. Токены и термины. Детекция языка: графематический, N-граммный и лексический подходы. Нормализация. Проблемы токенизации. Наличие и отсутствие пробелов. Китайский, японский, арабский языки. Ударение и диакритика. Классы эквивалентности. Понижение регистра. Стоп-слова. Лемматизация. Стемминг. Предиктор. Виды языков. Статистическое снятие омонимии. Разбиение текста на предложения. Расширение поискового запроса. Другие лекции курса | https://www.youtube.com/playlist?list=PLrCZzMib1e9rIikWB2NlBUF1z7HvaO_IO Наш видеоканал | http://www.youtube.com/user/TPMGTU?sub_confirmation=1 Официальный сайт Технопарка | https://tech-mail.ru/ Официальный сайт Техносферы | https://sfera-mail.ru/ Технопарк в ВКонтакте | http://vk.com/tpmailru Техносфера в ВКонтакте | https://vk.com/tsmailru Блог на Хабре | http://habrahabr.ru/company/mailru/ #ТЕХНОПАРК #ТЕХНОСФЕРА x
Подробнее