Utilizando el Pagerank para determinar la importancia científica
Adam Stevenson es editor de Ars Technica. En este artículo explica cómo los científicos han comenzado a utilizar una modificación del algoritmo Pagerank de Google para una mejor evaluación de la importancia de los artículos que componen la literatura científica. La traducción es de Ismael Valladolid, editor de SEO Marketing Tools.
Adam Stevenson
Muchos aspectos de la ciencia moderna se reducen a la importancia de las publicaciones, y un artículo a tiempo en una importante revista hará más fácil que una investigación se haga notar. La exposición llega a ser más importante que la relevancia. Ser publicado en revistas de alto impacto maximiza la posibilidad de que otros citen tu trabajo, con independencia de la calidad del mismo. Ahora los investigadores han comparado la relevancia de una cita con su Pagerank y han llegado a una interesante conclusión. Los dos están relacionados. Quién sabe si hasta el punto de poder asegurar un Premio Nobel.
Chris Lee de Nobel Intent describió recientemente algunos de los problemas causados por el proceso actual de publicación científica y su énfasis en las revistas más populares. Estas revistas tienden a atraer más citas hacia su contenido, y la medida actual de la importancia científica se basa únicamente o demasiado en ese número de citas. El resultado neto es que los artículos publicados en revistas como Science Lead llevan a una mayor medida para los autores. Junto con el alquiler de influencias, el reclutaje, el puesto asegurado, y otras decisiones que alteran una carrera, se crea un efecto bola de nieve que puede llevar a los autores a la fama y la fortuna.
El número de citas —citas totales, citas por publicación, factor H, etc.— aún siendo un parámetro común es considerado habitualmente una medida pobre para una contribución científica. Uno podría por ejemplo generar muchas citas publicando artículos con conclusiones incorrectas provocando que tus pares te corrijan en sus informes. Los investigadores pueden también manipular el número de citas que reciben citando ellos mismos selectivamente su propio trabajo o parcelando los datos de los que disponen en comunicaciones más pequeñas.
Hay también parámetros independientes del investigador. Es difícil comparar citas entre campos de la ciencia distintos. Un artículo citado 20 veces en ciertas disciplinas sería un fracaso, pero un éxito sin precedentes en ciertas otras. El número de citas se polariza hacia los artículos recientes porque las comunidades científicas eran más pequeñas en el pasado y muchos archivos no incluyen datos anteriores a una fecha determinada. De hecho en nuestro laboratorio hay una broma popular que dice que nada pasó antes de 1980 dado que nuestra base de datos favorita sólo permite búsquedas a partir de esa fecha.
Los investigadores se han pasado a las teorías de red para modelar y entender mejor la importancia distinta. Muchos modelos interesantes basados en nodos describen los artículos científicos como una red interconectada de citas, incluyendo las que servirían para puntuar el impacto relativo de las publicaciones. En una aproximación simple, la mayor parte de estos modelos combinan el número de enlaces a una revista en particular —el número de citas— con el número de enlaces en los artículos que citan, y el grado de interconexión de cada red con el resto de redes de publicaciones. A investigadores en el Brookhaven National Lab y en la Universidad de Boston se les ocurrió que una herramienta para este tipo de análisis efectivo de la red ya existe: El PageRank de Google.
Google comenzo su camino hacia la dominación del mundo —la cual bendigo— con un algoritmo de búsqueda simple basado en análisis de red. El algoritmo Pagerank sitúa a un navegador hipotético en un sitio web o nodo de la red y asume que dicho navegador visitará uno de los sitios enlazados en el sitio original con una probabilidad de 1-d. Alternativamente el navegador no encontrará lo que busca en el sitio visitado y comenzará de nuevo la búsqueda con una probabilidad d. Cuando comienza dicha búsqueda de nuevo, aparece situado al azar en un nodo distinto de la red. Pagerank itera este proceso hasta que hay un númer estable de navegadores en cada sitio. Este número se utiliza ahora para puntuar el resultado para una búsqueda determinada.
Los investigadores en el BNL y la UB han comprobado el PageRank de publicaciones de la American Physical Society y se han encontrado con que generalmente escala a la par con el número de citas de los artículos con más de 50 de ellas. Interesantemente han encontrado un conjunto de rarezas en las que el Pagerank era sustancialmente más alto del esperado basándose sólo en el número de citas. Algunos de los autores son conocidos: Bardeen, Cooper y Schrieffer, Weigner y Seitz, Onsager, Kohn y Sham; Feynman y Gell-Mann. De hecho nueve de los diez autores de rarezas son ganadores del Premio Nobel y el décimo, Cabbibo —N. del T.; el descubridor de la interacción nuclear débil—, probablemente la más grave omisión en la historia de los premios.
Los investigadores han modificado el algoritmo del PageRank para reflejar mejor la actividad de buscar investigaciones científicas que la del navegador habitual de la red. Generalmente los investigadores comienzan con un artículo reciente y van volviendo hacia los anteriores. Para reflejar esta actividad, el algoritmo polariza el punto de inicio de las búsquedas hacia los artículos más recientes. Los investigadores tienden también a buscar en menos profundidad que los navegadores habituales en Internet, así que el factor probabilidad se reduce. El algoritmo resultante ha sido llamado CiteRank.
Claramente debe hacerse algo para medir la importancia científica y los modelos basados en análisis de red parecen abarcar mejor la realidad de la literatura científica que una simple cuenta de citas. Utilizando un algoritmo bien establecido y modificándolo para adaptarlo a la realidad de la investigación científica, CiteRank parece un gran paso en la dirección correcta. Claramente, la habilidad de CiteRank para escoger artículos inusualmente importantes es sorprendente, pero sus carencias podrían hacerse aparentes tras una adopción más amplia. Para una perspectiva sobre la medición de la importancia científica y los problemas del Impact Factor, lee el último artículo de Jonathan Gitlin en ScienceOnline’09.
Visto en Using PageRank to assess scientific importance publicado en Ars Technica.
¿Te pareció interesante? Sé tan amable de menear este artículo.









gracias por ofrecerme la plantilla blogger.
te he mandado un email.
muchas gracias de nuevo.