Поисковая система Jumper! - всегда впереди
Искать:добавить

 Jumper! » Инфо » Поиск информации » Морфология

Морфология поиска

Нужна ли морфология в поисковых системах?

Для интеллектуальных систем морфология очень важна. Системы искусственного интеллекта обязаны понимать и использовать морфологию.

Однако есть загвоздка. В информационных системах морфология может быть реализована набором (и большим) правил и определений. На практике создание систем с полной реализацией морфологии - сложно и очень дорого. Фактически такая технология требует наличия полного словаря слов и полного набора правил и исключений. Если к этому добавить сложность русского языка, то морфология по-русски получается, как хлопотное и нереальное.

Поэтому, на сегодняшний день нет систем, реализовавших морфологию полностью на все 100 процентов. В основном, при реализации используется урезанная версия морфологического анализа - ограниченный словарь и упрощенный набор правил. Разумеется, такие системы используют морфологию с определенной погрешностью, которой в целом можно пренебречь.

В целом "урезанная морфология" оправдывает себя, хотя урезанный набор морфологических правил вносит неопределенность в понимание общей логики работы систем. И как следствие, вызывают непонимание пользователями "как это работает". Если к этому прибавить уровень неграмотности пользователей, то правила морфологии для них становятся недоступной информацией.

Все это отнюдь не доказывает о бесполезности использования морфологии. Морфология необходима. Чем более интеллектуальна система, тем выше важность применения в ней анализа морфологии.

Другое дело, что хорошая система с анализом морфологии является сложным, дорогостоящим и постоянно модифицирующимся механизмом. Ужасно, когда проекты заявляют о морфологии, но в реальности реализуют только обработку базовых окончаний и используют словарь на 1000 слов. И при этом не описывая, до какой степени реализован анализ морфологии и по каким правил он работает.

Jumper! в своей логике не использует морфологию. В будущем, возможно проект сделает поддержку неточного совпадения (псевдо морфологию). Но на данный момент действуют только полное совпадение фраз и слов.

Побочные эффекты морфологии

Введение морфологии в любую систему вносит ряд побочных явлений.

Во-первых, снижается трудоемкость размещения информации. На один запрос или ключевую фразу пользователя, морфологический анализ подразумевает целый набор слов и словосочетаний. Фактически, упрощается процесс размещения информации для всех пользователей. Тем самым снижаются затраты, что в принципе хорошо. Однако, аудиторию Интернет можно разделить на обычных пользователей и на неблагонадежных, использующих любые средства и методы для продвижения своей информации. Надо признать, что активность второй группы пользователей на порядок выше обычных пользователей. Снижение себестоимости размещения, грозит заполнением такой системы ложной и неадекватной информацией.

Во-вторых, возникают проблемы с точностью обработки запросов. Поскольку реализация полной версии морфологического анализа невозможна, то обязательно возникнут несоответствия и "непопадания" в имеющиеся в системе правила.

В-третьих, усложняется формирование "релевантного" ответа. При формировании неточного совпадения с учетом морфологии, построение "релевантного" списка результатов очень трудная задача. Как оценить вес неточно совпадающих фраз и слов, какие более значимы, какие менее? Все это требует новых правил и определений. И конечно эти правила никогда не будут полными. А это потребует их закрытости.