Ajout (temporaire) d'exports pour traquer les problèmes d'import des pages

Voir #244
2024-12-05 18:58:53 +01:00 · 2024-12-05 18:58:53 +01:00 · bda14c6ccb
commit bda14c6ccb
parent 3d70de9c1b
1 changed files with 23 additions and 0 deletions
--- a/src/agenda_culturel/import_tasks/custom_extractors/fbevents.py
+++ b/src/agenda_culturel/import_tasks/custom_extractors/fbevents.py
@ -3,6 +3,12 @@ from ..extractor_facebook import FacebookEvent
 import json5
 from bs4 import BeautifulSoup
 import json
 import os
 from datetime import datetime
 import logging
 logger = logging.getLogger(__name__)
 # A class dedicated to get events from a facebook events page
@ -13,10 +19,24 @@ class CExtractor(TwoStepsExtractor):
    def build_event_url_list(self, content):
        soup = BeautifulSoup(content, "html.parser")
        found = False
        links = soup.find_all("a")
        for link in links:
            if link.get("href").startswith('https://www.facebook.com/events/'):
                self.add_event_url(link.get('href').split('?')[0])
                found = True
        if not found:
            directory = "errors/"
            if not os.path.exists(directory):
                os.makedirs(directory)
            now = datetime.now()
            filename = directory + now.strftime("%Y%m%d_%H%M%S") + ".html"
            logger.warning("cannot find any event link in events page. Save content page in " + filename)
            with open(filename, "w") as text_file:
                text_file.write(content)
    def add_event_from_content(
@ -42,4 +62,7 @@ class CExtractor(TwoStepsExtractor):
                event["published"] = published
                self.add_event(default_values, **event)
        else:
            logger.warning("cannot find any event in page")