Uma das ferramentas para gerenciar a indexação de sites pelos motores de busca é o arquivo robots.txt. É usado principalmente para impedir que todos ou apenas alguns robôs baixem o conteúdo de certos grupos de páginas. Isso permite que você se livre do "lixo" nos resultados do mecanismo de busca e, em alguns casos, melhore significativamente a classificação do recurso. É importante ter o arquivo robots.txt correto para uma aplicação bem-sucedida.
Necessário
editor de texto
Instruções
Passo 1
Faça uma lista de robôs para os quais regras especiais de exclusão serão definidas ou diretivas do padrão estendido do robots.txt, bem como diretivas não padrão e específicas (extensões de um mecanismo de pesquisa específico) serão usadas. Insira nesta lista os valores dos campos User-Agent dos cabeçalhos de solicitação HTTP enviados pelos robôs selecionados ao servidor do site. Os nomes dos robôs também podem ser encontrados nas seções de referência dos sites de mecanismo de pesquisa.
Passo 2
Selecione os grupos de URLs dos recursos do site aos quais o acesso deve ser negado a cada um dos robôs da lista compilada na primeira etapa. Execute a mesma operação para todos os outros robôs (um conjunto indefinido de bots de indexação). Em outras palavras, o resultado deve ser várias listas contendo links para seções do site, grupos de páginas ou fontes de conteúdo de mídia que são proibidos de indexar. Cada lista deve corresponder a um robô diferente. Também deve haver uma lista de URLs proibidos para todos os outros bots. Faça listas com base na comparação da estrutura lógica do site com a localização física dos dados no servidor, bem como agrupando os URLs das páginas de acordo com suas características funcionais. Por exemplo, você pode incluir nas listas de negação o conteúdo de quaisquer catálogos de serviços (agrupados por local) ou todas as páginas de perfil do usuário (agrupadas por finalidade).
etapa 3
Selecione os sinais de URL para cada um dos recursos contidos nas listas compiladas na segunda etapa. Ao processar listas de exclusão para robôs usando apenas diretivas robots.txt padrão e robôs indefinidos, realce as porções de URL exclusivas de comprimento máximo. Para os demais conjuntos de endereços, você pode criar modelos de acordo com as especificações de mecanismos de pesquisa específicos.
Passo 4
Crie um arquivo robots.txt. Adicione grupos de diretivas a ele, cada um correspondendo a um conjunto de regras de proibição para um robô específico, cuja lista foi compilada na primeira etapa. Este último deve ser seguido por um grupo de diretivas para todos os outros robôs. Separe os grupos de regras com uma única linha em branco. Cada conjunto de regras deve começar com uma diretiva do agente do usuário identificando o robô, seguida por uma diretiva Disallow, que proíbe a indexação de grupos de URL. Faça as linhas obtidas na terceira etapa com os valores das diretivas Disallow. Separe as diretivas e seus significados com dois pontos. Considere o seguinte exemplo: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Este conjunto de diretivas instrui o robô principal do O mecanismo de pesquisa Yandex não indexa o URL. Que contém a substring / temp / data / images /. Também evita que todos os outros robôs indexem URLs contendo / temp / data /.
Etapa 5
Complemente o robots.txt com diretivas padrão estendidas ou diretivas de mecanismo de pesquisa específicas. Exemplos de tais diretivas são: Host, Sitemap, Taxa de solicitação, Tempo de visita, Atraso de rastreamento.