Mario Fernández Gálvez
Programació del WebScrapping

Programació del WebScrapping

Requests & BeautifulSoup: Aquest binomi constitueix el motor de web scraping. Requests gestiona les peticions HTTP per descarregar el codi font de les pàgines, mentre que BeautifulSoup actua com un parser d’HTML, permetent navegar per l’arbre de dades i extreure exclusivament la informació rellevant, eliminant el soroll del codi sobrant.

Flask: És el micro-framework encarregat de l’arquitectura del servidor. S’ocupa de gestionar les rutes de l’aplicació, processar les consultes entrants dels usuaris i retornar les respostes de l’assistent a través d’una interfície operativa.

Google GenAI: Aquest SDK (Kit de Desenvolupament de Programari) funciona com a pont d’integració amb els models de llenguatge de Gemini. Permet delegar el processament cognitiu i la generació de respostes naturals a la intel·ligència artificial de Google.

El Motor de Rastreig (Crawler)

La funció de rastreig actua com la unitat d’exploració del projecte. El seu flux operatiu s’estructura en tres fases clau:

Punt d’entrada: L’escaneig s’inicia a la pàgina principal i s’estén de forma recursiva per tot el domini.

Filtratge intel·ligent: El script navega pels enllaços interns amb un límit de 200 URLs per optimitzar recursos. Descarta automàticament fitxers no estructurats (PDF o multimèdia) que podrien entorpir el processament de dades.

Neteja de dades (Data Cleaning): S’ha programat per ometre elements redundants com menús de navegació i peus de pàgina (footers). Això evita que la IA processi «soroll» visual i garanteix que l’anàlisi es focalitzi estrictament en el contingut útil de cada secció.

El xatbot sap que respondre perquè prèviament hem fet un prompt dient-li com ha de respondre.

Ngrok

Per connectar la interfície del xat a WordPress amb el motor de processament local, utilitzo Ngrok. Atès que no disposo d’un servidor amb IP pública fixa, aquesta eina genera un túnel HTTP segur que exposa el meu servidor local a la xarxa externa. Només cal vincular la URL dinàmica proporcionada per Ngrok a la configuració del lloc web perquè les peticions dels usuaris siguin redirigides correctament cap a l’entorn de desenvolupament local per a la seva execució