Примеры систем семантического поиска

Примеры

На этой странице вы узнаете различные подходы к семантическому поиску на примерах семантических поисковых систем, описанных ниже

Система Ask Jeeves (Ask.com)

Ask Jeeves является системой вопрос–ответ, т.е. пользователь задает вопрос, а система отвечает, как это делается при общении между людьми. В тексте, который система Ask Jeeves нашла на некотором сайте, выделяется та его часть, которая содержит суть запроса в виде ответа на заданный запрос, благодаря чему пользователю не надо читать всю страницу для нахождения нужной информации, как в традиционных подходах. Система Ask Jeeves функционирует на основе трех семантических технологий:
• технологии вывода прямого ответа из базы данных (direct answer from database, DADS);
• технологии вывода прямого ответа из результатов поиска (direct answer from search, DAFS);
• поисковый робот AnswerFarm, который индексирует пары вопрос–ответ (Q&A) из web-сети. Найденные в web-сети пары Q&A сохраняются в базе данных для выдачи ответа на вопросы пользователей.

Система True Knowledge (TrueKnowledge.com)

True Knowledge, как и Ask Jeeves, является системой ответов на вопросы. В отличие от Ask Jeeves, True Knowledge использует другой подход к передаче информации. В системе True Knowledge ответ производится на основе сохраненных фактов и правила логического вывода.
Технология поиска информации в данной системе выполняется следующим образом. Вначале определяется суть запроса путем выделения в нем некоторых утверждений (фактов), которые содержатся в базе данных системы. После того как такие факты будут найдены, система True Knowledge формирует ответ на основе правила логического вывода для этих фактов.

Например, на запрос «How long was Tony Blair the prime minister of the UK» (какое время Тони Блэр был премьер-министром Великобритании), True Knowledge подберет ключевые слова и использует следующие факты для вывода ответа на поставленный вопрос: «Tony Blair has been the prime minister of the UK between May 2nd 1997 and June 27^th 2007» (Тони Блэр был премьер-министром Великобритании со 2 мая 1997 по 27 июня 2007); «Tony Blair has not been the prime minister of the UK until May 2nd 1997» (Тони Блэр не был премьер-министром Великобритании до 2 мая 1997); и «Tony Blair has not been the prime minister of the UK since June 27th 2007» (Тони Блэр не был премьер-министром Великобритании с 27 июня 2007).

В настоящее время в базе данных системы True Knowledge содержится около 300 млн. фактов о более чем 8 млн объектах. Данная база дискретных фактов заполняется двумя способами: путем импорта из внешних баз данных и путем ручного занесения данных пользователями системы.

Система Hakia (Hakia.com)

Hakia является ярким примером использования семантического подхода для поиска документов в web-сети, которые семантически релевантны поисковому запросу. Как и в системах Ask Jeeves и True Knowledge, запрос пользователя для Hakia может быть представлен на естественном языке, система сама подберет ключевые слова.
Многие специалисты считают, что именно подход семантического поиска, разработанный в системе Hakia, является новым этапом развития Современных технология поиска информации и поисковых систем. Однако, пока трудно однозначно сказать, лучше или хуже система Hakia, в сравнении с поисковой системой Google. Несмотря на это, данная система действительно является отлично разработанным, инновационным подходом к поиску информации.
Система Hakia базируется на трех технологиях:

OntoSem – хранилище семантической информации,
QDEX – технология индексации документов,
SemanticRank – компонент ранжирования текстов по смыслу.

С использованием этих технологий система Hakia достаточно успешно справляется с задачей анализа смысла текстов.
OntoSem является хранилищем отношений между концептами семантической модели, или разными терминами (словами), т.е. это лингвистическая база данных, где слова распределяются по категориям в зависимости от своих значений.
QDEX является аналогом обратного индексирования в традиционных подходах информационного поиска. Для каждого документа QDEX определяет список возможных вопросов к нему и использует эти вопросы в качестве индекса при поиске.
Компонент SemanticRank реализует специальный алгоритм, который используется для ранжирования результатов поиска по степени семантической близости. Для вычисления степени релевантности используется интеллектуальный алгоритм анализа выражения естественного языка и не применяются оценки соответствия по ключевому слову или по булевой логике.

Система ABBYY Compreno

ABBYY Compreno способна проводить достаточно глубокий анализ текста. Она проводит полный лексический и семантический анализы текста, что позволяет с достаточно высокой точностью искать и передавать из текста нужную информацию. Применяется для больших информационных систем и внешних источников. Основным преимуществом системы является семантический анализ текста. Система может извлекать из текста данные, отвечающие запросу. По большей части разработка ABBYY направлена на работу с корпоративными хранилищами для анализа хранящихся там документов, но она также может использоваться и для анализа страниц в интернете.

Система Inbenta

Еще одна из систем, которая занимается обработкой текста на естественном языке - Inbenta. Inbenta представляет собой сервис, который интегрируется с сайтом и улучшает поиск по сайту. Улучшение поиска получается за счет предварительного анализа сути запроса на естественном языке. Основные этапы анализа следующие: исправление ошибок в введенной фразе, нахождение родственных связей между словами, удаление “шума”, определение “семантического веса” каждого слова. Таким образом, Inbenta находит семантически наиболее важные слова и далее ведет поиск ответа, исходя из этих слов. Преимуществом Inbenta является отсутствие необходимости в базе знаний предметной области - анализ ведется, опираясь исключительно на лингвистику. В следствие этого, инструмент можно достаточно легко интегрировать в веб-сервисы, так как требуется минимальный анализ контента сайта.

Поисковый алгоритм «Королёв»

В 2017 году Yandex запустил новый поисковый алгоритм «Королёв». Этот поисковый механизм основывается на предыдущем алгоритме, который назывался «Палех». Особенность механизма поиска состоит в том, что при поиске учитывает смысловое содержание фразы. В основе алгоритма лежит нейронная сеть, которая сопоставляет суть запроса и найденный документ. На рис. 1 представлен график частотного распределения запросов в Яндексе в виде птицы, у которой есть клюв, туловище и хвост. «Клюв» - это самые частые запросы, которые задают много, но их разнообразие не так велико. «Туловище» - запросы средней частотности. «Хвост» - разнообразные запросы, которые редко повторяются, но разнообразие которых велико - за счет этого они набирают достаточно большой процент массы от количества всех запросов.

Распределение запросов, обрабатываемых семантическим методом

Схема работы алгоритма семантического поиска информации «Королёв»

В ходе работы поискового механизма берутся близкие по содержанию запрос пользователя и найденный заголовок документа. После этого, производится их скалярное произведение. Чем больше их скалярное произведение - тем релевантнее результат поиска поисковому запросу. У «Яндекса» в распоряжении есть огромные данные поисковых запросов, на основе которых они обучают нейронную сеть таким образом, чтобы для тестов с похожими смыслами она генерировала похожие вектора, а для текстов с разными смыслами - разные.

Безусловно, механизм поиска, разрабатываемый в «Яндексе» является перспективным - и самое главное, что этот механизм может дорабатываться и улучшаться на основе миллионов запросов, которые поступают к нему для обработки.

Система IBM Watson

Схема работы алгоритма семантического поиска информации «IBM Watson»><meta itemprop=

Одной из систем, занимающихся поиском и анализом контента на естественном языке, а также поиском ответов на вопросы, является IBM Watson. Это технология поиска информации разрабатывается компанией IBM уже на протяжении 15 лет, в которую постоянно вносятся доработки. Основой IBM Watson является технология DeepQA, которая основана на статистическом подходе в компьютерной лингвистике.

Также одной из особенностей системы является - то, что в качестве базы знаний в ней используется “Википедия”. К преимуществам системы можно отнести ее широкий охват знаний (благодаря обширной базе знаний), возможность генерировать большое количество гипотез для конкретного вопроса, опираясь на базу знаний.Watson имеет большую базу знаний и поэтому она хороша для поиска ответов на самые разные вопросы, но для узкоспециализированных областей требуются дополнительные и более детальные сведения, поэтому применительно к ним, требуется ее доработка и адаптация. Кроме того, система на данный момент работает только с английским языком, что также сужает круг ее применения.

На основе рассмотрения приведенных примеров видно, что ключевым отличием подходов семантического поиска от традиционных подходов является способность понимания смысла текста. Система True Knowledge понимает структурированные данные, а остальные системы понимают текст на естественных языках.

При сравнении этих двух подходов к кодированию и обработке смысла текста между собой по точности лучшим является первый подход, так как используемые в нем структурированные данные могут обрабатываться программно и имеются эффективные алгоритмы для такой обработки. Однако в масштабах такой сети, как Web, где передача информации идет через неструктурированные тексты, второй подход является более

интересным, так как он может быть применен для любых текстов.

На главную страницу