Фев 27
Обновил скрипт парсинга урлов ГуглКартинок
Суббота, Февраль 27, 2010 / Бесплатные скрипты
Теперь не нужно вводить запросы в форму и ждать пока напарсится чтобы собрать урлы. Теперь нужно рядом со скриптом создать файлик zapros.txt в него вставить запросы и запустить скрипт. Напарсиные урлы скрипт будет класть в ssilki.txt . Еще есть одни плюс. Те запросы что скрипт отпарсил он удаляет из файла. Т.е можно впихнуть 10000 запросов, когда отпарсило допустим 1000 запросов то скрипт можно просто вырубить, а когда вы его слудующий раз запустите то он продолжит собирать дальше . Только говорю сразу, скрипт дубли не чистит так что придется воспользоваться например KeyWordKeeper .
Скрипт выкладываю на халяву, но если кто хоче то может подкинуть денежку=) кликните по ссылке
вот сам код
<?php set_time_limit(0); function read($path) { $file=fopen($path,"r"); $bufer = fread($file,filesize($path)); fclose($file); return($bufer); } function add($path,$page_body) { $file=fopen($path,"a+"); fputs($file,$page_body); fclose($file); } function write($path,$page_body) { $file=fopen($path,"w"); fwrite($file,$page_body); fclose($file); } $zaprosfile = 'zapros.txt';//файл с запросами $ssilkifile = 'ssilki.txt';//файл с урлами картинок $zapros = read($zaprosfile); $sleep = 3;//Задержка между парсингом (сек) $glub = 100;//Глубина парсинга (скоко картинок парсить по запросу) $zapros = explode("\r\n", $zapros); $count = count($zapros); for($a=0; $a<$count; $a++) { for($b=0;$b<$glub;) { $result = file_get_contents('http://images.google.com/images?hl=ru&imgsz=l&imgtbs=z&as_st=y&q='.urlencode($zapros[$a]).'&sa=N&start='.$b.'&ndsp=20'); preg_match_all("#imgurl(.*)x26#iU",$result,$ssilki); for($c=0;$c<count($ssilki[1]);$c++) { $ssilka = $ssilki[1][$c]; $ssilka = str_replace("\\x3d",'',$ssilka); $ssilka = str_replace("\\",'',$ssilka); add($ssilkifile,$ssilka."\r\n"); } $b=$b+10; sleep($sleep); } unset($zapros[$a]); $zapis = implode("\r\n",$zapros); write($zaprosfile,$zapis); } ?>



No comments yet, be a Hero.
Написать отзыв