Foros aprenderaprogramar.com
Aprender a programar => C, C++, C#, Java, Visual Basic, HTML, PHP, CSS, Javascript, Ajax, Joomla, MySql y más => Mensaje iniciado por: 5378453 en 27 de Julio 2015, 23:46
-
Tengo unas dudas, necesito hacer web scrapping para un proyecto a cierta web, aqui esta el codigo que llevo:
<?php
$html = file_get_contents("http://dof.gob.mx/index.php?year=2015&month=07&day=27");
file_put_contents('dof.html',$html);
$xml = new DomDocument();
@$xml->loadHTML($html);
$xml->normalizeDocument();
$xpath = new DOMXPath($xml);
$titulos = $xpath->query('//td[@class="subtitle_azul"]');
foreach($titulos as $item){
//print_r($item);
//echo $item->textContent;
}
@print_r($titulos);
@vardump($titulos);
echo $titulos;
?>
Quisiera saber si con ese codigo agarraria todo el texto de la pagina, o que datos tomaria con ese codigo
-
Hola!
Con file_get_contents puedes rescatar todo el código HTML de una página web. Sin embargo esto no te permitirá reproducir exactamente la web que estás copiando porque te faltarán los archivos css, javascript, etc. Además si la web que estás copiando es una web dinámica, por ejemplo generada con php, sólo podrás copiar el contenido HTML servido en un momento concreto, pero no podrás acceder al código fuente que está en el servidor y que es el que hace que la web sea realmente dinámica (aunque si la vas copiando a cada rato podrías conseguir un efecto parecido a que fuera dinámica).
Tienes una referencia de file_get_contents en
http://aprenderaprogramar.es/index.php?option=com_content&view=article&id=604:extraer-codigo-fuente-de-pagina-web-con-php-leer-archivos-completos-filegetcontents-y-nl2br-cu00838b&catid=70:tutorial-basico-programador-web-php-desde-cero&Itemid=193
Saludos!