22 октября 2019, вторник, 12:39
VK.comFacebookTwitterTelegramInstagramYouTubeЯндекс.Дзен

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

Новый метод значительно ускорит поиск информации

МФТИ

Сотрудниками Московского физико-технического института и Вычислительного центра РАН Андреем Кулунчаковым и Вадимом Стрижовым предложен новый метод автоматического построения ранжирующих моделей, которые используются для обработки запросов от пользователей на поиск информации в коллекциях документов или в интернете. Предлагаемый метод значительно повышает скорость построения моделей. Результаты исследования опубликованы в журнале Expert Systems with Applications, кратко о нем сообщает пресс-релиз МФТИ.

При поиске среди миллионов документов в сети пользователь ожидает в результате получить небольшой полезный список. Документы списка должны быть проранжированы согласно поисковому запросу. Остальные документы для пользователя являются информационным мусором. Цель поисковой системы – найти нужный документ по запросу небольшой длины. Предложенный метод строит ранжирующие модели, позволяющие быстро достигнуть этой цели. Подобные модели являются ядром современных поисковых систем. Ранжирующие модели, предназначенные для быстрого и точного поиска информации, используются во многих областях от спам-фильтров до колл-центров.

Ранжирующая модель строится на основе простейших математических функций. Подобная модель предполагает создание из них сложной функции, которая бы решала поставленную задачу. Работа ученых была направлена на оптимизацию способа построения такой модели. Качество построенной модели определяли в том числе, с помощью живой экспертной оценки адекватности получаемого списка документов.

Одним из способов построения моделей является генетическое программирование. Название оно получило из-за схожести с механизмом естественного отбора в природе. В ходе решения задачи строится множество промежуточных решений – «поколений» моделей, в большей или меньшей степени похожих на искомую модель высокого качества, максимально соответствующую запросу. Алгоритм отсеивает модели низкого качества путем «естественного отбора» и на основе оставшихся создает более подходящие. Лучшие «особи» имеют большую вероятность быть включенными в следующие поколения. Сменяя множество поколений, алгоритм приближается к оптимальному решению.

К сожалению, так происходит лишь в теории. На практике число моделей растет чрезвычайно быстро с ростом сложности. Для перебора моделей, состоящих всего лишь из восьми функций, вычисления занимают не менее суток. При этом следует перебрать все варианты, из которых в будущем может эволюционировать наилучшее решение. Андрей Кулунчаков и Вадим Стрижов в рамках своего исследования создали новый подход к порождению  ранжирующих моделей для поиска документов в больших коллекциях, не имеющих этих недостатков. Также исследователи решили проблему «стагнации».  Когда в сменяющих друг друга «поколениях» модели  структурно похожи и их «скрещивание» не дает существенно новых результатов, происходит «стагнация», или «застой». В таком случае вероятность появления качественной модели существенно снижается. Для того, чтобы избежать стагнации, в поколение добавляются новые модели с целью повышения разнообразия.

Чтобы показать, что созданный метод получает модели, превосходящие по качеству  современные альтернативы, авторы поставили численный эксперимент. Были использованы базы данных Национального института стандартов и технологий США, предназначенные для анализа и сравнения подобных систем. Они состояли из двух миллионов документов и двухсот тысяч запросов. Эксперимент показал, что полученные модели имеют более высокое качество ранжирования, согласно принятому критерию МАР – Mean Average Precision (популярная мера эффективности поиска информации). Сам же метод позволяет получить модель высокого качества за существенно меньшее время.

Обсудите в соцсетях

Система Orphus
«Ангара» Африка Византия Вселенная Гренландия ДНК Иерусалим КГИ Луна МГУ Марс Монголия НАСА РБК РВК РГГУ РадиоАстрон Роскосмос Роспатент Росприроднадзор Русал СМИ Сингапур Солнце Титан Юпитер акустика антибиотики античность археология архитектура астероиды астрофизика бактерии бедность библиотеки биомедицина биомеханика бионика биоразнообразие биотехнологии блогосфера викинги вирусы воспитание вулканология гаджеты генетика география геология геофизика геохимия гравитация грибы дельфины демография демократия дети динозавры животные здоровье землетрясение змеи зоопарк зрение изобретения иммунология импорт инновации интернет инфекции ислам исламизм исследования история карикатура картография католицизм кельты кибернетика киты климатология клонирование комета кометы компаративистика космос культура лазер лексика лженаука лингвистика льготы мамонты математика материаловедение медицина металлургия метеориты микробиология микроорганизмы мифология млекопитающие мозг моллюски музеи насекомые наука нацпроекты неандертальцы нейробиология неолит обезьяны общество онкология открытия палеолит палеонтология память папирусы паразиты перевод питание планетология погода политика право приматы психиатрия психоанализ психология психофизиология птицы ракета растения религиоведение рептилии робототехника рыбы сердце смертность собаки сон социология спутники старение старообрядцы стартапы статистика такси технологии тигры топливо торнадо транспорт ураган урбанистика фармакология физика физиология фольклор химия христианство цифровизация школа экология электрохимия эпидемии эпидемиология этология язык Александр Беглов Древний Египет Западная Африка Латинская Америка НПО «Энергомаш» Нобелевская премия РКК «Энергия» Российская империя Сергиев Посад альтернативная энергетика аутизм биология бозон Хиггса глобальное потепление грипп информационные технологии искусственный интеллект история искусства история цивилизаций исчезающие языки квантовая физика квантовые технологии климатические изменения компьютерная безопасность компьютерные технологии космический мусор криминалистика культурная антропология междисциплинарные исследования местное самоуправление мобильные приложения научный юмор облачные технологии обучение одаренные дети педагогика персональные данные подготовка космонавтов преподавание истории продолжительность жизни происхождение человека русский язык сланцевая революция физическая антропология финансовый рынок черные дыры эволюция эмбриональное развитие этнические конфликты ядерная физика Вольное историческое общество жизнь вне Земли естественные и точные науки НПО им.Лавочкина Центр им.Хруничева История человека. История институтов дело Baring Vostok Протон-М 3D Apple Big data Dragon Facebook Google GPS IBM MERS PRO SCIENCE видео ProScience Театр SpaceX Tesla Motors Wi-Fi

Редакция

Электронная почта: polit@polit.ru
Телефон: +7 929 588 33 89
Яндекс.Метрика
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2019.