Foros aprenderaprogramar.com

Aprender a programar => C, C++, C#, Java, Visual Basic, HTML, PHP, CSS, Javascript, Ajax, Joomla, MySql y más => Mensaje iniciado por: 5378453 en 27 de Julio 2015, 23:46

Título: file_get_contents PHP Web Scrapping copiar contenidos de otra página web
Publicado por: 5378453 en 27 de Julio 2015, 23:46

Tengo unas dudas, necesito hacer web scrapping para un proyecto a cierta web, aqui esta el codigo que llevo:

Código: [Seleccionar]

<?php		$html = file_get_contents("http://dof.gob.mx/index.php?year=2015&month=07&day=27");	file_put_contents('dof.html',$html);		$xml = new DomDocument();		@$xml->loadHTML($html);	$xml->normalizeDocument();	$xpath = new DOMXPath($xml);		$titulos = $xpath->query('//td[@class="subtitle_azul"]');		foreach($titulos as $item){		//print_r($item);		//echo $item->textContent;	}			@print_r($titulos);	@vardump($titulos);	echo $titulos;	?>

Quisiera saber si con ese codigo agarraria todo el texto de la pagina, o que datos tomaria con ese codigo


			
				Título: Re:file_get_contents PHP Web Scrapping copiar contenidos de otra página web

				Publicado por: César Krall en 28 de Julio 2015, 18:45
			
			
				Hola!

Con file_get_contents puedes rescatar todo el código HTML de una página web. Sin embargo esto no te permitirá reproducir exactamente la web que estás copiando porque te faltarán los archivos css, javascript, etc. Además si la web que estás copiando es una web dinámica, por ejemplo generada con php, sólo podrás copiar el contenido HTML servido en un momento concreto, pero no podrás acceder al código fuente que está en el servidor y que es el que hace que la web sea realmente dinámica (aunque si la vas copiando a cada rato podrías conseguir un efecto parecido a que fuera dinámica).

Tienes una referencia de file_get_contents en 
http://aprenderaprogramar.es/index.php?option=com_content&view=article&id=604:extraer-codigo-fuente-de-pagina-web-con-php-leer-archivos-completos-filegetcontents-y-nl2br-cu00838b&catid=70:tutorial-basico-programador-web-php-desde-cero&Itemid=193

Saludos!


		
			
			SMF 2.0.19 |
 SMF © 2020, Simple Machines