Jump to content
Conéctate para seguir esto  
Melisa

Movie Crawler: Scraping más de 100,000 información de películas

Publicaciones recomendadas

Los datos de las películas registran las preferencias del público y su actitud hacia determinadas cosas. Recopilar la información de la película de sitios web relacionados, como IMDb y Rotten Tomatoes, contribuirá al análisis de datos y a la data mining en la industria cinematográfica. En términos generales, los datos extraídos se pueden emplear en algún escenario:

Analizar las características del público objetivo

Obtener opiniones públicas para predecir las próximas tendencias.

Ayudando a impulsar la Publicidad

Todavía hay más cosas que podemos hacer con los datos de la película según las necesidades. Para ayudarlo a completar la recopilación de datos, este artículo presentará cómo extraer la información de la lista de películas de terror de IMDb, incluida la información del director, el elenco de actores y otra información importante.

En este caso, le mostraré cómo extraer la información de la película de terror 134,555 de IMDb, usando el enlace:

https://www.imdb.com/search/title/?genres=horror&start=51&explore=title_type,genres&ref_=adv_nxt

El objetivo de este web scraper es encontrar películas que figuran en la lista de películas de terror, obtener información del director, el elenco de actores y otra información importante.
Antes de comenzar, descargue Octoparse V7 en su computadora para realizar un seguimiento. Además, es muy recomendable aprender la lógica básica del uso de Octoparse.

 

¡Empecemos!

Paso 1: Abra el sitio web de destino en el navegador incorporado de Octoparse.

Simplemente haga clic en "+ tarea" en el modo avanzado.

image7.png

Luego, pegue la URL en el cuadro y haga clic en el botón "Save URL".

image.png.056655d944708285a9750b29eda11ebb.png

 

Paso 2: Haga clic para crear una tarea para scrape la información de la película.

 

Después de abrir el URL en el navegador incorporado de Octoparse, podemos continuar creando una paginación y un elemento de bucle para obtener los datos.

Simplemente haga clic en el elemento "siguiente>>" en el navegador integrado y luego haga clic en "Hacer clic en el elemento seleccionado en bucle" en Action Tips.

image2.png

Podemos ver que la paginación se ha creado en el flujo de trabajo.

image4.png

 

Si desea que Octoparse reconozca el elemento que seleccionó con mayor precisión, simplemente puede revisar XPath. Como podemos ver en la imagen de abajo, el XPath que generó Octoparse es //DIV[@class='nav']/DIV[2]/A[2]. Será mejor que lo cambiemos a //a[contains(text(), "Next »")].

image5.png

En este caso, necesitamos extraer los datos de la lista de películas, que dice, podemos crear directamente un elemento de bucle para extraer los datos.

Seleccione uno de los "bloques" en el navegador, Octoparse puede detectar todos los campos de datos en el blog que seleccionó.

image8.png

Luego, seleccione“ Seleccionar todos los subelementos”.

Octoparse estaba selecciona todos los datos necesarios y los resalta en rojo. Seleccione “Select All” para continuar.

image.thumb.png.d6f177edaa1b6391f389243352d2d512.png

Finalmente, seleccionamos “Extraer datos en el bucle”.

image3.png

Ahora, tenemos tanto la paginación como el elemento de bucle hecho en Octoparse. Podemos ver el flujo de trabajo de la tarea en el lado izquierdo y los datos que se muestran en el lado derecho.

image10.png

 

Paso 3: Limpia los datos en Octoparse.

Antes de extraer datos, es mejor que limpiemos los datos para mejorar nuestro resultado final. Simplemente necesita hacer clic para eliminar el campo no deseado y cambiar el nombre de la descripción que necesita

 

Paso 4: Extraer datos

Simplemente haga clic en "Extraer datos" para obtener los datos localmente.

image9.png

Como la extracción local utiliza sus propios recursos informáticos, como la CPU, la velocidad de Internet, funciona más lento que el uso de la extracción en la nube Octoparse.

De todos modos, después de crear el scraper, lo que debe hacer es esperar y obtener los datos, más de 100,000 líneas de datos de películas en aproximadamente 2 horas.

image6.png

Con los pasos anteriores, supongo, todos, incluidos aquellos que no tienen experiencia en programación, pueden construir fácilmente un crawler de películas con Octoparse V7 y obtener más de 100,000 líneas de información de la película. Sin embargo, esa no es la forma más sencilla. Usar Octoparse V8 podría ser mucho más fácil:

  op8-auto-detection.gif

En general, con el data scraping, podemos obtener datos de películas en línea sobre cualquier tema legal.

Aparte de los datos, lo más importante es la habilidad que aprendió, que es extremadamente útil para hacer la investigación de mercado, mantenerse actualizado y muchas otras cosas.

 

image.png

Compartir este mensaje


Enlace al mensaje

Únete a la conversación

Participa ahora y únete más tarde. Si tienes cuenta, accede para participar con tu cuenta de usuario.

Invitado
Responder a este tema...

×   Pegar como texto enriquecido.   Restaurar formato

  Only 75 emoji are allowed.

×   Tu enlace se ha incrustado automáticamente..   Mostrar como un enlace en su lugar

×   Se ha restaurado el contenido anterior.   Limpiar editor

×   No se pueden pegar imágenes directamente. Carga o inserta imágenes desde la URL.

Conéctate para seguir esto  

×
×
  • Crear nuevo...

Información importante

Utilizamos cookies propias y de terceros para el correcto funcionamiento de la página y con fines analíticos. Más información en Términos de Uso y Política de privacidad.