Игорь Ашманов, кандидат технических наук, проглотил на КИБе доклад про поисковые машины, кой выигрывает у научных публикаций утилитарным подходом.
Тезисное изложение этого доклада, я обеспечу кое-какими комментариями. В капуте его прозвучал тезис, что улучшать собственно релевантность ведущих поисковиков уже некуда. Это популярный тотальный эффект, созерцаемый в системах ненастоящего интеллекта, когда своего рода тюнинг спрашивает столько же усилий, что и разработка базовой технологии. особливо броско это обнаружилось в половине 90-x для
. Они тогда добились точности распорядка 90%, однако доведение ее до 99% вырисовывалось крайне трудоемкой задачей. истина Игорь вверг более ближний ему образчик с грамматическим разбором предложений в корректорах орфографии, где по его словам с какого-то момента разработки качество перестает улучшаться.
Нарушение хронологии рассказа потребовалось для того, дабы всяческих привычных на оптимизаторских конференциях обсуждений формулы релевантности отечественных искалок дальше не последует. Всех, кого это не смущает, предлагаю вытекать канве рассказа, где отмечено, точно можно улучшать розыск на всех его этапах.
Ашманов приступил собственный доклад с метафоры про аутизм поисковиков. вожделея он разумел под этим лишь их неспособность водиться, настоящую метафору можно сделать раскатанной.
Аутизм - эта экая особенность человека, кой заставляет его константно пропускать сквозь разум огромное численность деталей обступающего мира. Аутист перегружен этой информацией, задушен ею, она мешает ему водиться этак, точно якшаются обыкновенные люд. Поисковик также перегружен информацией, деталями, однако он ничего не знает про запрос пользователя. В плоде разработчики сделали выдачу, похожую на список литературы. В нее подмешивают разнохарактерную информацию.
Классическая поисковая машина умеет найти по запросу из нескольких слов все документы, в кои входят настоящие слова, и предъявить их, то лопать ломит «как текстовой брокер» в терминах Игоря. Поисковики не знают темы запроса и резона запроса, не знают субъекта и темы возвращаемых документов, демонстрируют в сниппетах не свои аннотации, а единственно фрагмент того, что лопать на сайте.
Следствием научного строя разумов разработчиков стала нескончаемая лента, располагающая «невразумительные заголовки, аннотации, ненужные даты, URL, размер». А пользователя заставляют заниматься либо перебором ссылок, либо неглубоким программированием- подбором слов и операторов.
требования же на натуральном слоге (лидер тут - AskJeeves) Ашманов нарек «старой басней» поисковых систем.
Игорь Ашманов упрекнул ведущие поисковики в «безудержной портализации» при флегматичном сохранении перечисленных дефектов. А также - в нерациональной трате сил на персонализацию розыска. показывалось бы, образчик вялотекущего существования сайта Excite.com, кой одним из первых поисковиков в половине девяностых вступил на неверный линия портализации и персонализации, уже должен был стать уроком тому же Mail.ru, кой два года заключительных года пробовал запоминать требования малочисленных посетителей Поиска@Mail.ru и предлагать какие-то ненужные подсказки и уточнения.
А пользователь, между тем, крайне не боготворит, когда за них «умничает Интернет». однако этак дудки же, персонализация вожделея бы на уровне запоминания истории запросов лопать и у флагманов - Yahoo! и Google А в MSN - мена пользователей сложными запросами на особенном слоге, подстановки (правда, сознаюсь не знаю сколько масштабно и эффективно это работает).
Тематическую кластеризацию (Clusty, Нигма,
) Ашманов также почитает в цельном тупиковым течением. Кластеризация, разумеется, помогает структурировать выдачу. однако тут возникает незапятнанно утилитарная проблема. Стоит взять реальный список запросов, точно оказывается, что никакой ненастоящий или человечий интеллект всегдашне не в силах догадаться, что же на самом деле располагал ввиду пользователь, кой впрыскивал в окно поисковой системы одно или два слова истина, я был свидетелем, точно деятелей, кои контролируют свежеиспеченные искалки недюжинно на нарцисстическом запросе, впечатляло точно Nigma кластеризировала их по всем старым должностям и профессиональным интересам. Однако для всегдашних запросов Nigma.ru своими возможностями кластеризации Игоря не впечатляет.
Несколько отвлеченным от нити рассказа, однако зато благополучным образчиком кластеризации можно почитать пресс-портреты в Яндекс.Новостях. точно разжевал мне технический директор Яндекса Илья Сегалович,
не склеиваются (или ахово склеиваются), потому что на начальном этапе значительнее было, дабы различные люд не собрались в одинехонек пресс-портрет. А то, что одинехонек человек представлен в десяти рылах - это нормально (вот
Ильи Сегаловича).
Итак, по соображению Ашманова огромные поисковики ориентированы не столько на преодоление аутичности розыска, сколько на войну дружок с другом; у них доминируют бизнес-идеи, в частности, война за работник Стол между Google и Miscrosoft, в коей может поучаствовать и Yahoo! Основным преимуществом тут будет не функциональность, а совместимость с операционной системой Windows и офисными программами. Крупные игроки круто замедлились в части собственно розыска и носятся с инфраструктурой, торговлями, знатными индексами, здоровущим персоналом, новоиспеченными офисами.
Между тем в вчера должны убраться таковые вещи, точно мерянье размерами индекса, учет ссылочного ранжирования, и первостатейное учет единственно одной из трех сил, водящихся окрест розыска - разработчиков поисковиков, коих интересует поток посетителей и показ рекламы, и неучет самих пользователей, коим быстроного найти необходимый сайт, и сайтовладельцов:, коих интересует первые места и поток посетителей к ним.
Какие же пути не тупиковые?
Игорь приступил с самого очевидного - отбора сайтов для обхода. настоящий зачисление используют точно отвесные поисковики (по блогам, по новинкам, по товарных предложениям), этак и обыкновенные поисковые системы, в коих происходит распознавание субъекта документа и/или распознавание темы страницы (семантическое индексирование). Перспективны «семантический разбор текстов» и «разные индексы для различных фруктов сайтов огромные поисковики этим занимаются, однако во вторую очередь».
Специализированные поисковики - , Аппликата, Новотека, Тындекс, iligent и пр.
Дорвейный спам за первые месяцы 2006 года соотнесем со всем, что было сделано в этом жанре за прошлые 5-6 лет. Нынешние способы борьбы с дорвеями это основным образом бескорыстные и меркантильные сигналы в службу модерации. Предварительный выбор сайтов может постановить проблему замусоривания индекса и генерации дорвеев. особливо, если этот предварительный выбор отдан сообществу (или розным пользователям, точно в Персональном розыске Новотеки). Под «поиск» инвесторы охотно выбрасывают деньжонки, а под розыск с социальными сетями вообще утилитарны не глядя :)
Сообществу можно взвалить почитай тяни цикл настройки поисковой машины: от отбора сайтов и создания до оценки плодов розыска.
впопад, кроме ашмановского, лопать, разумеется, и
, в коих говорится, что «поиск, скорее итого, уберется от алгоритмов постраничной систематизации, на коих выстроены сегодняшние механизмы розыска. А релевантность плодов будет зависеть не от вебмастеров, задающих ключевые слова на своих сайтах, а от авторитетного для пользователя мнения».
Перспективна и графическая выдача и навигация в и Тропе (вторая из них поколе в стадии проекта), и кардинально в Vizzy (там можно
).
Перспективен вывод настоящих по субчикам в одном окне (наиболее наглядно он сделан в ).
Закончил же Игорь одной из своих боготворимых с прошедшего года тем - .
точно видаем, был продемонстрирован крайне здравый подход к теме. надобно единственно отметить, что этого конкретного докладчика интересует не единственно извлечение резона, однако и надобность в извлечении сведений посредством розыска. известно, экая точка зрения уместна при торговле поисковиков для аналитических отделов корпораций или спецслужб, при разработке товарных поисковиков. Для большинства же людей розыск это скорее подбор информации, чем извлечение сведений. В части достоверности никто всегдашне не поджидает от выдачи поисковиков крупнее, чем от Википедии.