El equipo de Yahoo! ha ganado la competencia anual de ordenación (sorting) de terabyte llamada Daytona. Lo relevante de este resultado es que lo han logrado usando Hadoop, la librería opensource java que implementa MapReduce.
Esta competición que se celebra desde 1998 (en la categoría Terabyte) nunca había sido ganada por un proyecto opensource ni por uno java. Vamos que con eso de que java es lento, seguro que hubo un error en el benchmark ;-) .
Este bechmark fue creado en 1998 por Jim Gray y especifica los datos de entrada (1 Terabyte) que deben ser correctamente ordenados y escritos a disco. Yahoo! ganó la competición completando la tarea en 209 segundos, para ponerlo en perspectiva el ganador del año pasado lo logró en 297 segundos,
El clúster usado por el equipo de Yahoo! constó de:
Apache Hadoop es una implementación opensource del algoritmo mapreduce creado en Google para cloud computing. Hace un tiempo que Yahoo! contrató a los creadores del proyecto y adoptó este framework y ahora han anunciado la publicación en produccion de su nueva aplicación para búquedas web basado en Hadoop, llamada Yahoo! WebMap Search y que es la aplicación encargada de indexar un sitio encontrado por el crawler del buscador. Su tarea consiste en crear una base de datos con la información de cada sitio web encontrado por el crawler y dejarla lista para ser usada en las búsquedas en tan popular sitio.
Esta aplicación es la más grande en ambientes productivos de Hadoop, un vistazo a algunas estadísticas les darán una idea de cuan grande es:
Hadoop es muy útil cuando vamos a realizar proyectos que necesiten de escalabilidad, procesar petabytes de informacion. A su vez, es perfecto para un cluster de servidores, distribuyendo la información entre los nodos, siendo posible disponer de miles de nodos. Al disponer los datos de forma distribuida, la búsqueda se puede realizar muy rápidamente ya que Hadoop puede acceder a ella de forma paralela. Y aunque los datos estén distribuidos, no hay que preocuparse de fallos ya que dispone de un sistema de seguridad.
etiquetas: hadoop, plataforma, gran, cantidad, datos