Интернет и связь

Производительность системы индексации поисковика Yahoo выросла на треть

21 февраля 2008 года, 17:22 | Текст: Владимир Парамонов

Компания Yahoo сообщила о переводе своей системы индексации сайтов в интернете на программную платформу Hadoop.

Среда Hadoop на основе Java разрабатывается специалистами организации Apache Software Foundation и позволяет повысить скорость выполнения сложных задач за счет организации системы распределенных вычислений. Принцип работы Hadoop сводится к разбиению исходной задачи на множество подзадач, каждая из которых может быть обработана отдельным компьютерным узлом.

В Yahoo отмечают, что процесс построения поискового индекса (Search Webmap) начинается с создания огромной базы данных всех известных веб-страниц. Согласно статистике Yahoo, в эту базу входят около триллиона ссылок, а ее размер составляет более 300 Тб в сжатом виде. Обработка такого количества информации требует колоссальных вычислительных мощностей.

Yahoo подчеркивает, что на сегодняшний день Search Webmap является самым большим Hadoop-приложением в мире. Общее число процессорных ядер, задействованных при построении поискового индекса, исчисляется многими тысячами. Причем, как отмечается, после перехода на среду Hadoop скорость выполнения операций выросла на 34%.

Yahoo в настоящее время находится на втором месте в списке крупнейших поисковиков мира. Согласно статистике comScore, сейчас рыночная доля Yahoo составляет немногим менее 13%. Безоговорочным лидером является Google, обрабатывающий около 62% от общего количества поисковых запросов, вводимых пользователями интернета.

Комментариев пока нет.

Оставить первый комментарий

Последние новости по теме:

Архив материалов
  «   Декабрь 2008   »  
ПнВтСрЧтПтСбВс
1234567
891011121314
15161718192021
22232425262728
293031