Cree un extractor de palabras clave utilizando las API de Easy2Digital, Yake, Python

Cree un extractor de palabras clave usando Python, Yake, API Easy2Digital: raspador de huella de marca, raspador de SERP de Google, para

La extracción de palabras clave utilizando URL de sitios web le permite aprender rÔpidamente sobre una nueva marca desde cero en lugar de leer toda la información. Existen muchas herramientas, sin embargo, es costoso suscribirse o la herramienta gratuita no es fÔcil de usar, en particular, no proporciona API para que las integre con el panel de control de su empresa.

En este artículo, intentaría usar las API de Easy2Digital: raspador de información de marca y raspador de SERP de Google, para crear un extractor de palabras clave.

Ingredientes para construir un extractor de palabras clave usando la API Easy2Digital

Tabla de contenido

Recopilación de URL relevantes para la marca utilizando las API de Easy2Digital

La primera pregunta es dónde extraer palabras clave relacionadas con la marca que estÔ investigando. La respuesta es el sitio oficial de la marca y los sitios del portal circundantes.

Aquí estÔ el ejemplo de código del uso de la API de la siguiente manera:

Extraiga el contenido de las URL con BeautifulSoup

Para el raspado de pĆ”ginas de sitios web no basados ​​en reacciones, Beautifulsoup es la mejor opción sin duda. Para raspar mejor tantos textos sin formato como sea posible en esta etapa, sugiero raspar el contenido h1, h2, h3 y p por separado y usar find_all() para hacerlo. AquĆ­ estĆ”n los ejemplos de código de la siguiente manera:

Extraiga las palabras clave del texto usando palabras vacĆ­as

En el argumento principal del extractor de palabras clave, podemos agregar un número para extraer solo las palabras clave mÔs frecuentes, como las 10 principales y las 5 principales. AdemÔs, para evitar obtener las palabras vacías en inglés, podemos agregar la lista en el segundo argumento: palabras vacías

Hay algún módulo de palabras vacías, aquí te recomiendo que uses scikit-learn porque tiene la lista de palabras vacías mÔs larga en comparación con otros según mis experiencias personales. Asegúrese de instalar el paquete scikit-learn python antes de importar este módulo al script.

from sklearn . feature_extraction . text import ENGLISH_STOP_WORDS

En extract_keywords, necesitamos alimentar el texto raspado de los sitios web que acabamos de hacer. Aquƭ creƩ una variable llamada full_text, que incluƭa el texto raspado.

keywords = kw_extractor . extract_keywords ( full_text )

Deduplicar o Word Cloudify las palabras clave extraĆ­das

El script puede generar las palabras clave extraídas como esta si funciona correctamente. Es un formato JSON y podemos crear un bucle para extraer la palabra clave sin el valor de puntuación.

En general, tenemos dos formas de usar bien estas palabras clave para obtener información inteligente. Una es generar una nube de palabras utilizando miles de palabras clave para mostrar la popularidad de la palabra clave por tamaño. La otra es desduplicar las palabras clave y dejar solo una lista de palabras clave únicas. Aquí mostraría cómo desduplicar el script.

final_keyword = list ( dict . fromkeys ( keywordResult ))

Script Python completo del extractor de palabras clave

Si estÔ interesado en el Capítulo 68: Cree un extractor de palabras clave utilizando las API de Easy2Digital, suscríbase a nuestro boletín agregando el mensaje "Capítulo 68" . Le enviaremos el guión inmediatamente a su buzón. (Si también necesita el raspador de correo electrónico, díganos que necesita la versión paga.

Espero que disfrute leyendo el Capítulo 68: Cree un extractor de palabras clave utilizando las API de Easy2Digital. Si lo hiciste, apóyanos haciendo una de las cosas que se enumeran a continuación, porque siempre ayuda a nuestro canal.

  • Apoya y dona a nuestro canal a travĆ©s de PayPal ( paypal.me/Easy2digital )
  • SuscrĆ­bete a mi canal y activa la campanita de notificaciones Easy2Digital Youtube channel .
  • Sigue y dale me gusta a mi pĆ”gina Easy2Digital Facebook page
  • Comparte el artĆ­culo en tu red social con el hashtag #easy2digital
  • Te suscribes a nuestro boletĆ­n semanal para recibir los Ćŗltimos artĆ­culos, videos y códigos de descuento de Easy2Digital
  • SuscrĆ­base a nuestra membresĆ­a mensual a travĆ©s de Patreon para disfrutar de beneficios exclusivos ( www.patreon.com/louisludigital )