|
Яндекс - основные сведения по популярному индексувпишите его целиком, включая www. Здесь же вы можете исключить из поиска страницы, где стоит ссылка на определенный адрес. На основе этой возможности рассчитывается индекс цитируемости. Чтобы исключить все внутренние ссылки (то есть с одних страниц вашего ресурса на другие его страницы), используйте поле сайт/вершина и исключите ресурс из поиска ссылок. Изображение Поиск документов, содержащих картинку с определенным названием или подписью. Файл картинки может называться, например, applegreen.jpg. Тогда найти такие файлы можно запросом: apple. Запрос аналогичен apple*.*. Для поиска в подписи к изображению (тэг alt) впишите запрос в соседнее поле. Специальные объекты Поиск страницы, содержащих файлы объектов: скрипт, объект, апплет, java. В поле указывается имя объекта. Язык Яндекс умеет определять язык документа. Вы можете задать язык документа, где надо провести поиск: русский (кириллица) или не русский. В базе Яндекса находятся только документы русскоязычного Интернета (по умолчанию в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, tj, ua, uz), а также зарубежные сайты, представляющие интерес для русскоязычного поиска. Формат выдачи "Краткая выдача" показывает только список заголовков документов. "Только URL" - только адреса найденных страниц. 10. Детальное описание языка запросов Как трактуются слова Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос 'идти', то в результате поиска будут найдены ссылки на документы, содержащие слова 'идти', 'идет', 'шел', 'шла' и т.д. На запрос 'окно' будет выдана информация, содержащая и слово 'окон', а на запрос 'отзывали' - документы, содержащие слово 'отозвали'. Если вы набрали в запросе слово с большой буквы, будут найдены только слова с большой буквы (если это слово не первое в предложении), в противном случае будут найдены как слова с большой, так и с маленькой буквы. Например, по запросу 'путина' найдется и президент, и сезон интенсивного рыболовства. А по запросу 'Путина' - президент и те случаи упоминания рыболовного сезона, когда он написан с большой буквы (например, если с него начинается предложение). По умолчанию поиск учитывает все формы заданного слова согласно правилам русского языка. Однако существует возможность поиска по точной словоформе, для этого перед словоформой надо поставить восклицательный знак '!'. Так по запросу '!Лужкову' будут найдены все документы, содержащие словоформу 'Лужкову', а по запросу 'Лужков ~~ !Лужкову' - документы, в которых упоминается Лужков, кроме тех, которые были найдены по первому запросу. Естественно-языковый поиск Знаки "+" и "-". Если вы хотите, чтобы слова из запроса обязательно были найдены, поставьте перед каждым из них "+". Если вы хотите исключить какие- либо слова из результата поиска, поставьте перед каждым из них "-". Например, запрос 'частные объявления продажа велосипедов', выдаст много ссылок на сайты с разнообразными частными объявлениями. А запрос с "+" 'частные объявления продажа +велосипедов' покажет объявления о продаже именно велосипедов. Если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос 'путеводитель по парижу -агентство -тур' Обратите внимание на знак "-". Это именно минус, а не тире и не дефис. Знак "-" надо писать через пробел от предыдущего и слитно с последующим словом, вот так: 'рак -гороскоп'. Если написать 'рак-гороскоп' или 'рак - гороскоп', то знак "-" будет проигнорирован. 11. Основные операторы Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа. Тот же самый эффект произведет употребление символа '&'. Например, при запросе 'лечебная физкультура' или 'лечебная & физкультура'), результатом поиска будет список документов, в которых в одном предложении содержатся и слово 'лечебная', и слово 'физкультура'. (Эквивалентно запросу '+лечебная +физкультура') Между словами можно поставить знак '|', чтобы найти документы, содержащие любое из этих слов. (Удобно при поиске синонимов). Запрос вида 'фото | фотография | фотоснимок | снимок | фотоизображение' задает поиск документов, содержащих хотя бы одно из перечисленных слов. Еще один знак, тильда '~', позволит найти документы с предложением, содержащим первое слово, но не содержащим второе. По запросу 'банки ~ закон' будут найдены все документы, содержащие слово 'банки', рядом с которым (в пределах предложения) нет слова 'закон'. Чтобы подняться на ступеньку выше, от уровня предложения до уровня документа, просто удвойте соответствующий знак. Одинарный оператор (&, ~) ищет в пределах предложения, двойной (&&, ~~) - в пределах документа. Например, по запросу 'рецепты && (плавленый сыр)' будут найдены документы, в которых есть и слово 'рецепты' и словосочетание '(плавленый сыр)' (причем '(плавленый сыр)' должен быть в одном предложении. А запрос 'руководство Visual C ~~ цена' выдаст все документы со словами 'руководство Visual C', но без слова 'цена' Поиск с расстоянием Часто в запросах ищут устойчивые словосочетания. Если поставить их в кавычки, то будут найдены те документы, в которых эти слова идут строго подряд. Например, по запросу "красная шапочка" будут найдены документы с этой фразой. (При этом контекст "а шапочка у нее была красная" найден не будет.) Как Яndex адресует слова? Если все слова в тексте перенумеровать по порядку их следования, то расстояние между словами a и b - это разница между номерами слов a и b. Таким образом, расстояние между соседними словами равно 1 (а не 0), а расстояние между соседними словами, стоящими "не в том порядке", равно -1. То же самое относится и к предложениям. Если между двумя словами поставлен знак '/', за которым сразу напечатано число, значит, требуется, чтобы расстояние между ними не превышало этого числа слов. Например, задав запрос 'поставщики /2 кофе', вы требуете найти документы, в которых содержатся и слово 'поставщики' и слово 'кофе', причем расстояние между ними должно быть не более двух слов и они должны находиться в одном предложении. (Найдутся "поставщики колумбийского кофе", "поставщики кофе из Колумбии" и т.д.) Если порядок слов и расстояние точно известны, можно воспользоваться пунктуацией '/+n'. Так, например, задается поиск слов, стоящих подряд. Запрос 'синяя /+1 борода' означает, что слово 'борода' должно следовать непосредственно за словом 'синяя'. (К тому же результату приведет запрос "синяя борода") В общем виде ограничение по расстоянию задается при помощи пунктуации вида '/(n m)', где 'n' минимальное, а 'm' максимально допустимое расстояние. Отсюда следует, что запись '/n' эквивалентна '/(-n +n)', а запись '/+n' эквивалентна '/(+n +n)'. Запрос 'музыкальное /(-2 4) образование' означает, что 'музыкальное' должна находиться от 'образование' в интервале расстояний от 2 слов слева до 4 слов справа. Практически все знаки можно комбинировать с ограничением расстояния. Например, результатом поиска по запросу 'вакансии ~ /+1 студентов' будут документы, содержащие слово 'вакансии', причем в этих документах слово 'студентов' не следует непосредственно за словом 'вакансии'. Когда знаки ограничения по расстоянию стоят после двойных операторов, то употребленные там числа - это расстояние не в словах, а в предложениях. Расстояние в абзацах определяется аналогично расстоянию в словах. Запрос 'банк && /1 налоги' означает, что слово 'налоги' должно находиться в том же самом, либо в соседнем со словом 'банк' предложении. Скобки Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки. Например, запрос '(история | технология | изготовление) /+1 (сыра | творога)' задает поиск документов, которые содержат любую из фраз 'история сыра', 'технология творога', 'изготовление сыра', 'история творога'. Поиск в зонах Можно искать информацию в "зонах" - заголовках (имя "зоны": Title), ссылках (имя "зоны": Anchor) и адресе (имя "зоны": Address). Синтаксис: $имя_зоны (поисковое выражение). Запрос '$title CompTek' ищет в заголовках документов слово 'CompTek'. Запрос '$anchor (CompTek | Dialogic)' находит документы, в cсылках внутри которых есть одно из слов 'CompTek' или 'Dialogic'. Поиск в определенных элементах Можно ограничить поиск информации списком серверов или наоборот исключить сервера из поиска (url). Можно также искать документы, содержащие ссылки на определенные URL (link), и файлы картинок (image). Если вы хотите работать не с конкретным URL (image), а со всеми, начинающимися с данной последовательности символов, используйте "*". Синтаксис: #имя_элемента="имя_файла (URL)". По запросу 'CompTek ~~ #url="www.comptek.ru*"' будут искаться упоминания компании 'CompTek' везде, кроме ее собственного сервера (www.comptek.ru). А запрос '#link="www.comptek.ru*"' покажет все документы, которые сослались на сервер компании. Запрос ' #image="tort*"' даст ссылки на документы с изображениями тортов (хотя, возможно, найдется и портрет черепахи Тортиллы). Можно также искать по ключевым словам (keywords), аннотациям (abstract) и подписям под изображениями (hint). Синтаксис: #имя_элемента=(поисковое выражение). Запросу '#keywords=(поисковая система) | #abstract=(поисковая система)' будут искаться все страницы, в meta тегах которых есть эти слова. По запросу '#hint=(кино)' будут найдены документы, содержащие изображение с такой подписью. Ранжирование результата поиска При поиске для каждого найденного документа Яндекс вычисляет величину релевантности (соответствия) содержания этого документа поисковому запросу. Список найденных документов перед выдачей пользователю сортируется по этой величине в порядке убывания. Релевантность документа зависит от ряда факторов, в том числе от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д. Пользователь может повлиять на порядок сортировки, используя операторы веса и уточнения запроса. Задание веса слова или выражения применяется для того, чтобы увеличить релевантность документов, cодержащих "взвешенное" выражение. Синтаксис: слово:число или (поисковое_выражение):число По запросу 'поисковые механизмы:5' будут найдены те же документы, что и по запросу 'поисковые механизмы'. Разница состоит в том, что наверху списка найденного окажутся документы, где чаще встречается именно слово 'механизмы'. Запрос 'поисковые (механизмы | машины | аппараты):5 ' равнозначен запросу 'поисковые (механизмы:5 | машины:5 | аппараты:5)'. Задание уточняющего слова или выражения применяется для того, чтобы увеличить релеватность документов, cодержащих уточняющее выражение. Синтаксис: ), описания (тэг ) или начала документа (если этого тэга нет) и контекстов - фрагментов вашего текста, содержащих слова запроса. Если страница не находится по тем словам, по которым вам бы хотелось, или находится не в первых рядах списка, обратите внимание на нижеследующие советы. Если же речь идет о каталоге Яндекса, то все описания в нем делаются составителями (гидами) по строгим инструкциям. Так, например, запрещены тексты рекламного характера, слова «самый», «главный», «уникальный», прилагательные в превосходных степенях и т.дю 13. Индексирование Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и так далее), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится. Яндекс создает очень компактный индекс. Индексирование документов Правила индексации в машине Яндекс Яндекс индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит redirect, робот воспримет его как ссылку на новый адрес и внесет ее в очередь на индексирование (если она удовлетворяет описанным выше правилам). То же самое произойдет, если в одном из фреймов будет стоять ссылка на другой сервер. В частности, если эта ссылка находится вне доменов, разрешенных по умолчанию, страница НЕ будет проиндексирована. Робот Яндекс хранит дату последнего обхода каждой страницы, дату ее изменения (присланную Web-сервером) и дату внесения последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые сервера. Робот Яндекс работает автоматически и обычно переиндексация происходит раз в две-три недели. Изменения уже проиндексированных страниц робот Яндекс отслеживает самостоятельно при следующем заходе на сайт. У робота свой график работы и изменить его, к сожалению, невозможно, в том числе применяя такие тэги, как . Яндекс индексирует документ полностью: текст, заголовок, подписи к картинкам, описание (description), ключевые слова и некоторую другую информацию. Как запретить индексацию определенных страниц? Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI или ISAPI скрипты - наш робот индексирует их наравне с другими документами. В простейшем виде (разрешено все, кроме директории скриптов) файл robots.txt выглядит следующим образом: User-Agent: * Disallow: /cgi-bin/ Детальное описание спецификации файла можно прочитать на странице: «Стандарт исключений для роботов». При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки: Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает ничего: Disallow: /cgi-bin Disallow: /forum Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам. Например, в следующем фрагменте файла robots.txt строка “Disallow: /forum” игнорируется, поскольку перед ней нет строки с полем User-Agent. User-Agent: * Disallow: /cgi-bin Disallow: /forum Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк. Например, нижеприведенный файл запрещает индексирование документов, начинающихся с “/cgi-bin /forum”, которых, скорее всего, не существует (а не документов с префиксами “/cgi-bin” и “/forum”). User-Agent: * Disallow: /cgi-bin /forum В строках с полем Disallow записываются не абсолютные, а относительные префиксы. То есть файл: User-Agent: * Disallow: www.myhost.ru/cgi-bin запрещает, например, индексирование документа http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi, но НЕ запрещает индексирование документа http://www.myhost.ru/cgi-bin/counter.cgi. В строках с полем Disallow указываются именно префиксы, а не что-нибудь еще. Так, файл: User-Agent: * Disallow: * запрещает индексирование документов, начинающихся с символа «* » (которых в природе не существует), и сильно отличается от файла: User-Agent: * Disallow: / который запрещает индексирование всего сайта. Если вы не можете создать/изменить файл robots.txt, то еще не все потеряно — достаточно добавить дополнительный тег в HTML-код вашей страницы (внутри тега ): Тогда данный документ также не будет проиндексирован. Вы также можете использовать тэг Он означает, что робот поисковой машины не должен идти по ссылкам с данной страницы. Для одновременного запрета индексирования страницы и обхода ссылок с нее используется тэг Как запретить индексацию определенных частей текста? Чтобы запретить индексирование определенных фрагментов текста в документе, пометьте их тегами . Как выбрать главный виртуальный хост из нескольких зеркал? Если ваш сайт находится на одном сервере (одном IP), но виден во внешнем мире под разными именами (зеркала, разные виртуальные хосты), Яндекс рекомендует вам выбрать то имя, под которым вы хотите быть проиндексированы. В противном случае Яндекс выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации. Для того, чтобы индексировалось выбранное вами зеркало, достаточно запретить индексацию всех остальных зеркал при помощи robots.txt. Это можно сделать, используя нестандартное расширение robots.txt — директиву Host, в качестве ее параметра указав имя основного зеркала. Если www.glavnoye- zerkalo.ru — основное зеркало, то robots.txt должен выглядеть примерно так: User-Agent: * Disallow: /forum Disallow: /cgi-bin Host: www.glavnoye-zerkalo.ru В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow. Аргументом директивы Host является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы одной корректной директивы Host). Таким образом, файлы robots.txt вида User-Agent: * Host: www.myhost.ru и User-Agent: * Host: www.myhost.ru:80 эквивалентны и запрещают индексирование как www.otherhost.ru, так и www.myhost.ru:8080. Параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки Host игнорируются. # Примеры игнорируемых директив Host Host: www.myhost-.ru Host: www.-myhost.ru Host: www.myhost.ru:0 Host: www.my_host.ru Host: .my-host.ru:8000 Host: my-host.ru. Host: my..host.ru Host: www.myhost.ru/ Host: www.myhost.ru:8080/ Host: http://www.myhost.ru Host: www.mysi.te Host: 213.180.194.129 Host: www.firsthost.ru,www.secondhost.ru Host: www.firsthost.ru www.secondhost.ru Если у вас сервер Apache, то можно вместо использования директивы Host задать robots.txt с использованием директив SSI: User-Agent: * Disallow: / В этом файле роботу запрещен обход всех хостов, кроме www.главное_имя.ru. Как включать SSI, можно прочесть в документации по вашему серверу или обратиться к вашему системному администратору. Проверить результат можно, просто запросив страницы: http://www.главное_имя.ru/robots.txt http://www.другое_имя.ru/robots.txt и т.д. Результаты должны быть разные. Рекомендации для веб-сервера Русский Apache В robots.txt на сайтах с русским апачем должны быть запрещены для роботов все кодировки, кроме основной. Если кодировки разложены по портам (или серверам), то надо выдавать на разных портах (серверах) РАЗНЫЙ robots.txt. А именно, во всех файлах robots.txt для всех портов/серверов, кроме «основного», должно быть написано: User-Agent: * Disallow: / Для этого можно использовать механизм SSI, описанный выше. Если кодировки в вашем Apache выделяются по именам «виртуальных» директорий, то надо написать один robots.txt, в котором должны быть примерно такие строчки (в зависимости от названий директорий): User-Agent: * Disallow: /dos Disallow: /mac Disallow: /koi Как выяснить, что Yandex проиндексировал на моем сервере? Подставьте ваш ресурс в форму на странице AddURL. Если вы получили сообщение, что «Ваш URL __url__ был только что внесен в нашу базу данных.», это значит, что ваш URL ранее не был добавлен. Теперь он добавлен и будет проиндексирован в ближайшее время. Если вы получили сообщение «Ваш URL __url__ уже известен роботу Яndex. Данный ресурс будет проиндексирован в ближайшее время.», то подождите еще пару дней. Если вы получили сообщение «Ваш URL __url__ уже проиндексирован. Вы можете посмотреть, какие страницы вашего сайта проиндексированы в Яndex.Ru к настоящему времени», то, нажав на ссылку со слов «проиндексированы в Яndex.Ru», вы получите весь список документов вашего ресурса, проиндексированных в нашей поисковой машине. Заключение Принято считать, что в Интернете есть все и на любой вкус. Если сравнить его с городом, то в нем можно найти дворцы и лачуги, музеи и бары, и, конечно, улицы. Роль улицы выполняют, в частности, Интернет-ресурсы «для взрослых». И, как и в реальной жизни, многие хотят защититься сами и оградить своих детей от влияния улицы. Чтобы помочь тем, кому это актуально, мы сделали "Семейный" Яндекс. Делая запрос в "Семейном" Яндексе, вы не найдете мата и порнографии, то есть ничего, что не разрешено «детям до 16». Воспользоваться этим можно двумя способами - во-первых, задавать запрос не на www.yandex.ru, а на family.yandex.ru . Во-вторых, настроить свой браузер - тогда даже при работе с обычным Яндексом "взрослые" ресурсы будут отфильтрованы. В опросе на тему «Ваше отношение к Интернет-ресурсам "для взрослых"», проведенном на Yandex.Ru, 15% ответило, что эти ресурсы "раздражают" и "отвлекают", из них 2% - что "из-за них не пускаю детей в Сеть". Раздражает обычно то, что человек находит мат и порнографию, совершенно на это не рассчитывая, при абсолютно "нормальных" запросах. Сегодня фильтр строится полуавтоматически - в него включаются «взрослые» сайты, а также все страницы, содержащие «нехорошие» слова. Если, воспользовавшись фильтром, вы, тем не менее, найдете «нехорошую» страницу, пожалуйста, пришлите нам URL на адрес webadmin@yandex.ru. Мы рассчитываем на широкое сотрудничество в этой области с добровольцами, в первую очередь из числа родителей и учителей. Использованные ресурсы: http://yandex.ru http://forum.yandex.ru http://xml.yandex.ru http://dzen.yandex.ru http://www.ya.ru Страницы: 1, 2 |
|
|||||||||||||||||||||||||||||
|
Рефераты бесплатно, реферат бесплатно, сочинения, курсовые работы, реферат, доклады, рефераты, рефераты скачать, рефераты на тему, курсовые, дипломы, научные работы и многое другое. |
||
При использовании материалов - ссылка на сайт обязательна. |