sábado, 3 de noviembre de 2007

A fondo el PageRank de Google 2

Para el cálculo de una página, su PageRank existente (si tiene alguno) es abandonado completamente y un nuevo cálculo es realizado donde la página se basa solamente en el PageRank "votado" para ello por sus enlaces entrantes actuales, los cuales pueden haber cambiando desde la última vez que se calculó el PageRank.

La ecuación muestra claramente como llega el PageRank de una página. Pero lo que no es inmediatamente obvio es que no puede funcionar si el cálculo se hace una sola vez. Supongamos que tenemos 2 páginas, A y B, cada una enlazada a la otra, y ninguna de las dos tienen enlaces de otro tipo. Esto es lo que ocurre:

Paso 1: Calcular el PageRank de la página A con el valor de sus enlaces entrantes.

La página A ahora tiene un nuevo valor de PageRank. En el cálculo se usó el valor del enlace entrante de la página B. Pero la página B tiene un enlace entrante (de la página A) y su nuevo valor de PageRank no ha sido trabajado todavía, por eso el nuevo valor de PageRank de la página A está basado en datos imprecisos y por lo tanto no puede ser preciso.

Paso2: Calcular el PageRank de la página B con el valor de sus enlaces entrantes.

La página B tiene ahora un nuevo valor de PageRank, pero no puede ser preciso ya que el cálculo usó el nuevo valor de PageRank del enlace entrante desde la página A, el cual es impreciso.

Es una situación "Cogidos 2 a 2". No podemos concluir con el PageRank de A hasta que conozcamos el PageRank de B, y tampoco podemos concluir con el PageRank de B hasta que conozcamos el PageRank de A.

Ahora que ambas páginas tienen nuevos valores de PageRank calculados, ¿no podríamos rehacer los cálculos para llegar a los valores precisos? No. Podemos rehacer los cálculos usando los nuevos valores y conseguir resultados más precisos, pero siempre estaremos usando valores imprecisos para los cálculos, por lo que los resultados serán siempre imprecisos.

El problema se soluciona repitiendo los cálculos muchas veces. En cada repetición se consiguen resultados ligeramente más precisos. De hecho, es imposible conseguir una precisión total ya que los cálculos siempre estarán basados en valores imprecisos. Cuarenta o cincuenta iteraciones son suficientes para alcanzar un punto donde más iteraciones no alterarían de manera notable el resultado. Esto es precisamente lo que hace Google en cada actualización y esa es la razón por la que tarda tanto.

Una cosa a tener en cuenta es que los resultados que obtenemos de los cálculos son proporcionales. Los números obtenidos deben ser puestos en una escala (conocida solo por Google) para conocer el PageRank real de cada página. Aún así, no podemos usar los cálculos para canalizar el PageRank dentro de un sitio alrededor de sus páginas ya que algunas páginas reciben una proporción mayor de PageRank que otras.

Nota: Probablemente usted venga de otras explicaciones del PageRank donde se utiliza la misma ecuación pero el resultado de cada iteración del cálculo es añadido al PageRank existente de la página. El nuevo valor (resultado + PageRank existente) es entonces usado cuando se comparte PageRank con otras páginas. Estas explicaciones son incorrectas por las siguientes razones:

1. Citan la misma ecuación publicada, pero la cambian.

de PR(A) = (1-d) + d(.....) a PR(A) + (1-d) + d(.....)

Es incorrecto e innecesario.

2. Estaremos mirando como organizar enlaces tal que ciertas páginas acaben con mayor proporción de PageRank que otras. Añadiendo el PageRank existe de la página en cada iteración produce distintas proporciones que cuando la ecuación es usada tal como se publicó. Sabiendo que la suma no es parte de la ecuación publicada, los resultados son incorrectos y la proporción imprecisa.

De acuerdo con la ecuación publicada, la página que esté siendo calculada empieza desde cero en cada iteración. Se basa solamente en sus enlaces entrantes. La idea de añadir el PageRank existente no hace eso, por lo tanto los resultados son incorrectos.

No hay comentarios:

 
Enlaces Interesantes: Miradir