675 Shares 4021 views

¿Qué es un rastreador? herramienta rastreador "Yandex" y Google

Cada día en Internet hay una gran cantidad de nuevos materiales para crear un sitio web actualizado las páginas web de edad, subir fotos y videos. Sin oculto a los motores de búsqueda no se puede conocer en la World Wide Web, ninguno de estos documentos. no existen alternativas como los programas robóticos en un momento dado. ¿Qué es un robot de búsqueda, por qué lo necesita y cómo operar?

¿Qué es un robot de búsqueda

El sitio de oruga (motor de búsqueda) – es un programa automático que es capaz de visitar a los millones de páginas web, navegar rápidamente a través de Internet sin necesidad de intervención del operador. Los bots son constantemente el espacio de exploración de la World Wide Web, la búsqueda de nuevas páginas web y regularmente ya visitar indexado. Otros nombres para los rastreadores web arañas, rastreadores, los robots.

¿Por qué las arañas de los buscadores

Las principales funciones que realizan los motores de búsqueda – páginas web indexadas, así como texto, imágenes, audio y archivos de vídeo que están en ellos. Robots de verificar las referencias, sitios espejo (copias) y actualizaciones. Los robots también realizan el control de código HTML para los estándares de conformidad de la Organización Mundial, que desarrolla e implementa los estándares tecnológicos para la World Wide Web.

¿Qué es la indexación, y por qué es necesario

Indexación – es, de hecho, es el proceso de visitar una página web en particular por los motores de búsqueda. El programa escanea el texto en esta página, imágenes, vídeos, enlaces salientes, la página aparece en los resultados de búsqueda. En algunos casos, el sitio no se puede escanear de forma automática, a continuación, se puede añadir al motor de búsqueda de forma manual webmaster. Típicamente, esto se produce en ausencia de enlaces externos a una página en particular (a menudo creado sólo recientemente).

¿Cómo funcionan los motores de búsqueda

Cada motor de búsqueda tiene su propio robot con el robot de búsqueda de Google pueden variar significativamente según el mecanismo que funciona en un programa similar, "Yandex" u otros sistemas.

En general, un principio de funcionamiento del robot es el siguiente: el programa "viene" en el sitio y los enlaces externos en la página principal, "lee" recurso Web (incluyendo aquellos que buscan sobrecarga que no ve el usuario). Barco se describe cómo desplazarse entre las páginas de un sitio y pasar a otros.

El programa elegirá qué sitio para indexar? Más a menudo que no "viaje" a la araña comienza con los principales sitios de noticias o agregadores de directorios de recursos y con gran peso de referencia. Orugas explora continuamente las páginas una a una, sobre la velocidad y consistencia de la indexación de los siguientes factores:

  • Internos: perelinovka (enlaces internos entre las páginas de un mismo recurso), el tamaño del sitio, el código correcto, fácil de usar y así sucesivamente;
  • Externa: el peso total de referencia, lo que conduce al sitio.

Lo primero que las búsquedas de búsqueda robot en cualquier sitio web por robots.txt. Además la indexación de recursos se realiza en base a la información recibida es a partir de este documento. Este archivo contiene instrucciones específicas para las "arañas" que pueden aumentar las posibilidades de visitas a la página por los motores de búsqueda, y, en consecuencia, para lograr un sitio de éxito temprano en la "Yandex" o Google.

Programa de análogos de rastreadores

A menudo el término "robot de búsqueda" se confunde con el inteligente, el usuario o agentes autónomos, "hormigas" o "gusanos". Inmerso diferencias significativas sólo en comparación con los agentes, otras definiciones se refieren a tipos similares de robots.

Por ejemplo, los agentes pueden ser:

  • intelectual: el programa, que se mueven de un sitio a otro, independientemente de decidir cómo proceder; que no son muy comunes en Internet;
  • Autónoma: Estos agentes ayudan al usuario a seleccionar un producto, buscar o cumplimentación de formularios, los llamados filtros, que son poco relacionado con programas de la red;.
  • usuario: el programa contribuye a la interacción del usuario con la World Wide Web, un navegador (por ejemplo, Opera, Internet Explorer, Google Chrome, Firefox), mensajeros (Viber, telegrama) o programas de correo electrónico (MS Outlook y Qualcomm).

"Hormigas" y "gusanos" son más similares a los motores de búsqueda "arañas". La primera forma entre una red y consistentemente interactuar como esta colonia de hormigas, "gusanos" es capaz de replicar en otros aspectos el mismo que el rastreador estándar.

Variedad de robots de los buscadores

Distinguir entre muchos tipos de rastreadores. Dependiendo del propósito del programa, que son:

  • "Espejo" – Duplicados están navegando sitios web.
  • Mobile – se centran en las versiones móviles de las páginas web.
  • Rápida – fijar nueva información de forma rápida mediante la visualización de las últimas actualizaciones.
  • Referencia – índice de referencia, el recuento de sus números.
  • Indexadores diferentes tipos de contenido – programas concretos de texto, audio, vídeo, imágenes.
  • "Spyware" – en busca de páginas que aún no se muestran en el motor de búsqueda.
  • "Carpintero" – visitar periódicamente los sitios para comprobar su pertinencia y eficiencia.
  • Nacional – navegar por los recursos web ubicado en uno de los dominios de país (por ejemplo, .mobi, o .kz .ua).
  • Global – índice de todos los sitios nacionales.

Robots principales motores de búsqueda

También hay algunos motores de búsqueda. En teoría, su funcionalidad puede variar ampliamente, pero en la práctica los programas son casi idénticos. Las principales diferencias de indexación de páginas web Robots dos principales motores de búsqueda son los siguientes:

  • La rigurosidad de las pruebas. Se cree que el mecanismo de oruga "Yandex" estimaciones un tanto más estrictas el sitio para el cumplimiento de las normas de la World Wide Web.
  • La preservación de la integridad del sitio. Los índices rastreador de Google en todo el sitio (incluyendo el contenido de los medios de comunicación), "Yandex" pueden también ver el contenido de manera selectiva.
  • prueba de velocidad nuevas páginas. Google añade nuevo recurso en los resultados de búsqueda dentro de unos pocos días, en el caso del proceso "por Yandex" puede tomar dos semanas o más.
  • La frecuencia de re-indexación. Orugas "Yandex" buscar actualizaciones dos veces por semana, y Google – uno cada 14 días.

Internet, por supuesto, no se limita a los dos motores de búsqueda. Otros motores de búsqueda tienen sus robots que siguen sus propios parámetros de indexación. Además, hay varios "arañas" que están diseñados no principales recursos de búsqueda, y los equipos individuales o webmasters.

conceptos erróneos comunes

Contrariamente a la creencia popular, "arañas" no procesan la información. El programa sólo analiza y almacena las páginas web y su posterior procesamiento toma completamente diferentes robots.

Además, muchos usuarios creen que los motores de búsqueda tienen un impacto negativo e Internet "perjudicial". De hecho, algunas versiones de "arañas" pueden sobrecargar el servidor de manera significativa. También hay un factor humano – el webmaster, que creó el programa, pueden cometer errores en la configuración del robot. Sin embargo, la mayor parte de los programas existentes están bien diseñadas y gestionadas de forma profesional, y cualquier problema emergentes retiran rápidamente.

¿Cómo gestionar la indexación

robots de motores de búsqueda son los programas automatizados, pero el proceso de indexación pueden ser controlados en parte por la webmaster. Esto ayuda en gran medida externa y optimización interna del recurso. Además, se puede añadir manualmente un nuevo sitio a un motor de búsqueda: grandes recursos tienen una forma especial de registro de las páginas Web.