Opis zlecenia
Potrzebny skrypt do szybkiego pobrania 1M domen/urli, napisany w dowolnej technologii.
szybkie pobranie ok. 1M domen
lista domen: w załączniku lub na http://notki.vot.pl/1m-sites.zip (jest to top 1M domen wg. rankingu Alexa)
uruchamiany z linii komend, gdzie pierwszym argumentem będzie lista domen lub urli, drugim plik bazy sqlite, do której będzie zapisywana zawartość. np. “python skrypt.py 1m-sites database” pobiera listę domen/urli z 1m-sites.txt i zapisuje do database.sqlite
struktura bazy - tabela “pages”: datetime | url (z listy) | urlfinal (url faktycznie pobrany po przekierowaniach) | content | kod (zwrócony kod serwera, jeśli np. domena nie istnieje zwraca kod 0)
zastosowanie technik szybkiego pobierania, np. użycie wielowątkowości czy asynchroniczności (lub innych sposobów) wraz z opcją konfiguracji
symulacja przeglądarki, żeby była np. przynajmniej identyfikacja user-agent
opcja proxy (jako trzeci argument w linii komend), przy tej opcji losuje jedno proxy z pliku proxies.txt. Przy połączeniu z proxy podejmuje max. trzy próby pobrania strony z różnymi proxy, gdyby było niepowodzenie .
skrypt sprawdza czy wcześniej strona została pobrana, jeśli nie została pobrana a była próba jej pobrania np. kod 0 w bazie, to pobiera ponownie.
przy wycenie, prosze o podanie szacounkowego czasu pobrania 1M domen (bez proxy), szacunkowa skuteczność pobrania (czyli jaki procent stron został pobrany), oraz przewidywany rozmiar bazy.