Cree un extractor de palabras clave utilizando las API de Easy2Digital, Yake, Python

Cree un extractor de palabras clave usando Python, Yake, API Easy2Digital: raspador de huella de marca, raspador de SERP de Google, para

La extracción de palabras clave utilizando URL de sitios web le permite aprender rápidamente sobre una nueva marca desde cero en lugar de leer toda la información. Existen muchas herramientas, sin embargo, es costoso suscribirse o la herramienta gratuita no es fácil de usar, en particular, no proporciona API para que las integre con el panel de control de su empresa.

En este artículo, intentaría usar las API de Easy2Digital: raspador de información de marca y raspador de SERP de Google, para crear un extractor de palabras clave.

Ingredientes para construir un extractor de palabras clave usando la API Easy2Digital

Tabla de contenido

Recopilación de URL relevantes para la marca utilizando las API de Easy2Digital

La primera pregunta es dónde extraer palabras clave relacionadas con la marca que está investigando. La respuesta es el sitio oficial de la marca y los sitios del portal circundantes.

Aquí está el ejemplo de código del uso de la API de la siguiente manera:

Extraiga el contenido de las URL con BeautifulSoup

Para el raspado de páginas de sitios web no basados ​​en reacciones, Beautifulsoup es la mejor opción sin duda. Para raspar mejor tantos textos sin formato como sea posible en esta etapa, sugiero raspar el contenido h1, h2, h3 y p por separado y usar find_all() para hacerlo. Aquí están los ejemplos de código de la siguiente manera:

Extraiga las palabras clave del texto usando palabras vacías

En el argumento principal del extractor de palabras clave, podemos agregar un número para extraer solo las palabras clave más frecuentes, como las 10 principales y las 5 principales. Además, para evitar obtener las palabras vacías en inglés, podemos agregar la lista en el segundo argumento: palabras vacías

Hay algún módulo de palabras vacías, aquí te recomiendo que uses scikit-learn porque tiene la lista de palabras vacías más larga en comparación con otros según mis experiencias personales. Asegúrese de instalar el paquete scikit-learn python antes de importar este módulo al script.

from sklearn . feature_extraction . text import ENGLISH_STOP_WORDS

En extract_keywords, necesitamos alimentar el texto raspado de los sitios web que acabamos de hacer. Aquí creé una variable llamada full_text, que incluía el texto raspado.

keywords = kw_extractor . extract_keywords ( full_text )

Deduplicar o Word Cloudify las palabras clave extraídas

El script puede generar las palabras clave extraídas como esta si funciona correctamente. Es un formato JSON y podemos crear un bucle para extraer la palabra clave sin el valor de puntuación.

En general, tenemos dos formas de usar bien estas palabras clave para obtener información inteligente. Una es generar una nube de palabras utilizando miles de palabras clave para mostrar la popularidad de la palabra clave por tamaño. La otra es desduplicar las palabras clave y dejar solo una lista de palabras clave únicas. Aquí mostraría cómo desduplicar el script.

final_keyword = list ( dict . fromkeys ( keywordResult ))

Script Python completo del extractor de palabras clave

Si está interesado en el Capítulo 68: Cree un extractor de palabras clave utilizando las API de Easy2Digital, suscríbase a nuestro boletín agregando el mensaje "Capítulo 68" . Le enviaremos el guión inmediatamente a su buzón. (Si también necesita el raspador de correo electrónico, díganos que necesita la versión paga.

Espero que disfrute leyendo el Capítulo 68: Cree un extractor de palabras clave utilizando las API de Easy2Digital. Si lo hiciste, apóyanos haciendo una de las cosas que se enumeran a continuación, porque siempre ayuda a nuestro canal.

  • Apoya y dona a nuestro canal a través de PayPal ( paypal.me/Easy2digital )
  • Suscríbete a mi canal y activa la campanita de notificaciones Easy2Digital Youtube channel .
  • Sigue y dale me gusta a mi página Easy2Digital Facebook page
  • Comparte el artículo en tu red social con el hashtag #easy2digital
  • Te suscribes a nuestro boletín semanal para recibir los últimos artículos, videos y códigos de descuento de Easy2Digital
  • Suscríbase a nuestra membresía mensual a través de Patreon para disfrutar de beneficios exclusivos ( www.patreon.com/louisludigital )