Aquí tienes un script básico en Python para obtener información de una página web, usando las librerías requests
y BeautifulSoup
para hacer scraping. Además, te explico cómo instalar las librerías necesarias.
1. Instalación de las librerías
Para empezar, necesitas instalar las siguientes librerías si no las tienes ya:
pip install requests beautifulsoup4

Estas dos librerías te permiten hacer peticiones HTTP y analizar el contenido HTML de las páginas web.
2. Script en Python para hacer web scraping
import requests
from bs4 import BeautifulSoup
# Función para obtener datos de una URL
def obtener_datos(url):
try:
# Realizar la solicitud HTTP a la página
response = requests.get(url)
# Verificar si la solicitud fue exitosa (código 200)
if response.status_code == 200:
# Parsear el contenido HTML de la página
soup = BeautifulSoup(response.content, 'html.parser')
# Aquí puedes extraer diferentes tipos de datos según tus necesidades
# Ejemplo: Obtener todos los títulos de la página (h1, h2, h3, etc.)
titulos = soup.find_all(['h1', 'h2', 'h3'])
for titulo in titulos:
print(titulo.get_text()) # Imprimir el texto de los títulos
else:
print(f"Error al acceder a la página. Código de estado: {response.status_code}")
except requests.exceptions.RequestException as e:
print(f"Error en la solicitud: {e}")
# Cambia esta URL por la página que quieras analizar
url = 'https://www.ejemplo.com'
obtener_datos(url)
3. Explicación del script
- requests.get(url): Realiza la solicitud HTTP a la URL proporcionada.
- BeautifulSoup(response.content, ‘html.parser’): Analiza el contenido HTML de la página.
- soup.find_all(): Busca todos los elementos HTML que coincidan con el nombre de la etiqueta que le pases (en este caso, busca todos los
h1
,h2
,h3
, etc.). - get_text(): Extrae el texto de cada elemento encontrado.
4. Cómo cambiar la URL
Simplemente cambia la URL en la línea:
url = 'https://www.ejemplo.com'
Póntelo por la URL que desees analizar, y el script imprimirá los títulos de esa página.
5. Ejecutar el script
Guarda el código en un archivo .py
(por ejemplo, scraper.py
) y ejecútalo desde tu terminal o línea de comandos:
python scraper.py
Eso es todo. El script debería mostrar los títulos de la página web que especifiques en la URL.
Si necesitas modificarlo para obtener otro tipo de información o hacer algo más específico, ¡dímelo y te ayudo!