Быть прокси или не быть)

Статус: Offline
Реєстрація: 04.07.2008
Повідом.: 682
Быть прокси или не быть)

Подскажите такую вещь.
Есть сайт с 9000 городами и расстояния между ними.
Соответственной записей про расстояние (name1,name2,distance) = 9000*9000 = 81.000.000 .
Ну чтобы не вбивать ручками все 81 лимона расстояний, я написал парсер.
Через snoopy и simple_html_dom.
Первый самый важный вопрос:
1. Мне что нужно будет делать 81 миллион запросов к сайту?
Та даже если я поставлю слиип в одну сек, это огого времени :)))

2. Таблица дистансе у меня хранится в виде(Id_name_city,id_name_sec_city,distance)
Где лучше сделать индекс?

3. И как вообще проверять прокси?Если я загрузил список прокси и вычитываю его, а как мне проверить его на условие типо if(Живая_прокся) ???

:)
 
1. А какой парсер хороший?Только через cUrl?
А сколько потоков тогда сделать ?
У меня парсер работает вот так:
1. Вычитка данных из бд в массивы (2 штуки по 9000 городов)
2. потом
PHP:
        $k=0;
    while($row=mysql_fetch_array($second_country, MYSQL_NUM))
    { 
                 
              $city_name_two[$k] =  $row[3] ;
            
             
         
         $k++;
    }
PHP:
   $j=0;
    while($row=mysql_fetch_array($first_country, MYSQL_NUM))
    { 
                 
              $city_name_one[$j] =  $row[3] ;
            
             
         
         $j++;
    }

А потом уже
for($counters = 0;$counters<=count($city_name_two);$counters++){

Где
$post_array['town1'] = $city_name_one[$counters];
$post_array['town2'] = $city_name_two[$counters+1];

И потом обращаюсь к серверу URL-лом типа
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
$post_array['town1'] && to=$post_array['town2']
Где мне возвращает уже распарсенные данные и я их впихиваю в БД.

Правильно ли у меня работает логика?

Как мне быстрее распарсить 81,000,000 записей?)))
Я посчитал у меня получается около 1,7 лет))))Это бред))



(9000*9000)/60/60/24
937,5 дней, даже разбить на 10 потоков )) = 94 дня... У кого какие еще идеи?))
 
Останнє редагування:
Нужно модель на графах просчитывать. По другому - бред собачий.
 
Дык ну понятно что на графах, но тут же вопрос в построении бд и в парсинге)))
 
Причем здесь Украина?Я говорю как минимум за СНГ...
Перебор нужен для чтобы у меня были расстояния от города до города, и уже из этого граф будет
 
Почему?Из - за дубликатов?

В данном случае ребро графа это расстояние между соседними городами. То есть, если расстояние нужно от Харькова до Москвы, то это будет сумма 5ти ребер Харьков -> Белгород -> Курск -> Орел -> Тула -> Москва

При этом хранить в базе Харьков -> Курск уже не обязательно. Соответственно из Ваших 9000 городов далеко не все соседствуют и ребер между ними просто нет.

Как мне быстрее распарсить 81,000,000 записей?)))
Я посчитал у меня получается около 1,7 лет))))Это бред))

Если Вы уделите недельку времени на вопрос работы с графами, то парсить придется на порядки меньше записей :) и соответственно уложитесь в 1 день.
 
Назад
Зверху Знизу