воскресенье, 28 июня 2015 г.

Во что обойдется скачать весь интернет?

Читая новость о том, что http://archive.org/web/ претерпевает изменения, задумался во что обойдется скачать весь интернет?

Для начала решил оценить объем информации:
Google проиндексировал 46 млрд. страниц (http://www.worldwidewebsize.com/).
В действительности, страниц может быть больше, т.к. не все заслуживают индексации.

60Kb - средний размер HTML-страницы (https://gigaom.com/2014/12/29/the-overweight-web-average-web-page-size-is-up-15-in-2014/)
Верить этому числу нельзя, но за неимение лучшего...

Итого требуется скачать ~3000 ТБ (это не считая картинок, видео, музыки и пр.)

Далее нам нужны сервера, каналы и хранилище.
Для скачивания информации подойдут самые простые сервера, т.к. нагрузка на CPU - минимальная.
Подключение к интернету желательно быстрое - из мейнстрима - 1Gbit/sec (пиковая 10Тб/день, на практике, раза в 3 меньше)
Хранилище - самые большие из самых дешевых дисков (4Тб/диск)

Если набирать конфигурацию в дата-центре serverloft, предпочитаемом мной с точки зрения качество/цена.

$214 за конфигурацию с 16TB SATA на канале в 1Gbit/sec

Итого нам потребуется ~190 серверов и 5 дней (если дата-центр сможет обеспечить суммарный объем входящего трафика 63Gbit/sec).

Обойдется все это удовольствие в ~$40000/месяц

В своих расчетах я не учитывал:

  • разработку софта, который должен понимать, что скачено, а что нет
  • недоступность каких-то серверов (проблемы с DNS, обслуживание серверов, загрузку местных каналов)
  • медленную отдачу веб-серверов

С учетом решения описанных проблем, можно легко удвоить сумму, а время увеличить раз в 10.

Я оптимист? ;-)