«Спутник» отгадывает загадки

В РГГУ прошла конференция «Диалог-2015» — крупнейшее мероприятие в области теоретической и компьютерной лингвистики и автоматической обработки текста. В этом году в рамках форума проводилось тестирование лингвистических систем в номинациях «Семантическая близость», «Ассоциативная близость», а также «Анализ тональности». В тестах по ассоциативной близости команда «Спутника» завоевала первое и третье места, а в тестах по семантической близости — третье и шестое.

15 июня 2015

Эти языковые характеристики очень важны для качества поиска именно благодаря им пользователи находят не только те документы, в которых содержатся искомые слова, но и похожие по тематике запроса. Подробнее о том,как это работает вообще и на «Спутнике» в частности, рассказал Сергей Пономарёв:

— Отношения между понятиями, близкими по смыслу, называются семантическими отношениями, а мера семантической близости — мера взаимозаменяемости слов в обычной речи, как «автомобиль» и «машина». Интернет динамичен, в нем каждый день появляются новые слова и новые смыслы уже знакомых слов. Единственный способ не терять в качестве поиска — учиться каждый день. Это научное направление называется дистрибутивная семантика .

Ассоциативная близость фокусируется на установлении связей между словами. Какие слова используют люди, описывая интересующий их объект? Как они его описывают? Для поисковой системы это похоже на отгадывание загадки: сто одёжек и все без застёжек что это? Если система правильно распознает ассоциации, человек найдет именно ответ на свой вопрос, а не десятки похожих вопросов без ответа.

Мы в «Спутнике» активно работаем над улучшением качества поиска и используем дистрибутивную семантику для построения ассоциативных и семантических связей благодаря этому мы прошли тесты с таким хорошим результатом.