#!/bin/python3 # trouver les articles précédents et suivants from utils import * from website_config import configs_sites import os import json import re import argparse import pypandoc from jinja2 import Environment, FileSystemLoader import time # Importer le module time # Démarrer le chronomètre start_time = time.time() # Configs pour tester generate_linkings_json = True generate_articles = True # Configurer argparse pour prendre le blog en argument parser = argparse.ArgumentParser(description='Générer une liste des derniers articles de blog.') parser.add_argument('blog', type=str, help='Nom du dossier du blog à traiter', default='cipherbliss_blog') parser.add_argument('--run_gemini', type=str, help='Activer ou non la génération des billets gemini', default=False) parser.add_argument('--run_pandoc', type=str, help='Activer ou non la génération des fichiers html', default=True) args = parser.parse_args() run_gemini = args.run_gemini run_pandoc = args.run_pandoc # Fonction pour extraire le basename d'un fichier def get_basename(file_name): return os.path.splitext(file_name)[0] # Chemin du dossier contenant les fichiers orgmode directory = f'sources/{args.blog}/lang_fr' destination_json = f'sources/{args.blog}/build' destination_html = f'html-websites/{args.blog}/' destination_gmi = f'gemini-capsules/{args.blog}/' # Dictionnaire pour stocker les informations des fichiers files_dict = {} def get_first_picture_url(content): # Utiliser une expression régulière pour trouver la première URL d'image dans le contenu pattern = r'\[\[(.*?)\]\]' match = re.search(pattern, content) if match: return match.group(1) else: return None def org_to_gmi(org_text: str, output_filename_slug: str) -> str: """ Convertit un texte au format Org en un fichier au format GMI (Gemini) en utilisant pypandoc. Args: - org_text (str): Le texte au format Org à convertir. - output_file (str): Chemin du fichier de sortie au format GMI, sans avoir à préciser l'extension. """ output = """ # mock land output =========== blah blah blah ----------------- Tykayn blog mock content ----------------- Navigation: => accueil.gmi Accueil => a-propos.gmi à propos """ # Conversion du texte Org en GMI via Pandoc try: output = pypandoc.convert_text(org_text, 'markdown', format='org') except RuntimeError as e: print(f"Erreur de conversion : {e}") return # Sauvegarde du contenu GMI dans un fichier try: with open(destination_gmi+'/'+output_filename_slug+'.gmi', 'w', encoding='utf-8') as f: f.write(output) print(f"Fichier GMI sauvegardé avec succès : {output_filename_slug}") except OSError as e: print(f"Erreur lors de la sauvegarde du fichier : {e}") return output if generate_linkings_json : count_articles = len(os.listdir(directory)) counter=0 rebuild_counter = 0 pandoc_runs_counter = 0 print(f"Génération des liens entre articles pour {count_articles} articles") print(f"run_pandoc: {run_pandoc}") print(f"run_gemini: {run_gemini}") # Parcourir les fichiers du dossier for file_name in os.listdir(directory): if file_name.endswith('.org'): counter+=1 if counter % 10 == 0: print(f"{time.strftime('%H:%M:%S')} : Articles traités : {counter}/{count_articles}") file_path = os.path.join(directory, file_name) with open(file_path, "r", encoding="utf-8") as f: content = f.read() date_modified = time.ctime(os.path.getmtime(file_path)) basename = get_basename(file_name) date_str, annee, slug = find_year_and_slug_on_filename(basename) tags = extract_tags_from_file(file_path, global_config['excluded_tags']) # Convertir les tags en liste si c'est un set if isinstance(tags, set): tags = list(tags) boom = basename.split('__') # Convertir le contenu Org en HTML title = find_first_level1_title(content) # Désactiver les warning d'identifiant dupliqué dans la conversion pandoc content_without_h1 = re.sub(r'^\*.*?$', '', content, count=1, flags=re.MULTILINE) gemini_content = '' html_content = '' # Vérifier l'existence du fichier HTML pour déterminer last_html_build html_path = f"html-websites/{args.blog}/{annee}/{slug}/index.html" last_html_build_time = None if os.path.exists(html_path): # Obtenir la date de création du fichier HTML last_html_build_time = os.path.getctime(html_path) print(f"last_html_build: {last_html_build_time} : {html_path}") else: print(f"----------- last_html_build html_path: {html_path} n'existe pas") # Vérifier l'existence du fichier Gemini pour déterminer last_gemini_build gemini_path = f"gemini-capsules/{args.blog}/{slug}.gmi" last_gemini_build = None rebuild_this_article_gemini = False if os.path.exists(gemini_path): last_gemini_build = time.ctime(os.path.getmtime(gemini_path)) # Vérifier si l'article doit être reconstruit en comparant les dates de modification if last_gemini_build: file_modified_time = os.path.getmtime(file_path) last_build_time = time.mktime(time.strptime(last_gemini_build)) rebuild_this_article_gemini = file_modified_time > last_build_time else: rebuild_this_article_gemini = True # Vérifier si l'article doit être reconstruit en comparant les dates de modification rebuild_this_article_html = False if last_html_build_time: file_modified_time = os.path.getmtime(file_path) print(f"--------- file_modified_time: {file_path} : {file_modified_time}") # Obtenir l'heure de dernière modification du fichier HTML rebuild_this_article_html = file_modified_time > last_html_build_time # print(f"--------- article modifié après le build de son rendu html: {file_path}, {rebuild_this_article_html}") else: # si il n'y a pas de fichier html, on le construit pour la première fois print('on reconstruit le html de l\'article', file_name) rebuild_this_article_html = True if rebuild_this_article_html: rebuild_counter += 1 if run_pandoc and rebuild_this_article_html: # convertir le contenu d'article org vers html print(f"BRRRRRRRRRRRR pandoc time {time.strftime('%H:%M:%S')} : Conversion de {file_name} en html") html_content = pypandoc.convert_text(content_without_h1, 'html', format='org') pandoc_runs_counter += 1 else: html_content = content_without_h1 if run_gemini and rebuild_this_article_gemini: os.makedirs(destination_gmi, exist_ok=True) # convertir le contenu d'article org vers gmi pour la capsule gemini gemini_content = org_to_gmi(content_without_h1, slug) files_dict[f"{annee}/{slug}"] = { 'path': file_path, 'basename': basename, 'roam_id': find_org_roam_id(content), 'slug': f"{slug}/", 'slug_with_year': f"{annee}/{slug}", 'date': boom[0], 'date_modified' : date_modified, 'first_picture_url' : get_first_picture_url(content), 'date_formattee': datetime.strptime(date_str, '%Y%m%d%H%M%S').strftime('%d %B %Y à %H:%M:%S') if len(date_str) == 14 else datetime.strptime(date_str, '%Y%m%dT%H%M%S').strftime('%d %B %Y à %H:%M:%S') if len(date_str) == 15 else datetime.strptime(date_str, '%Y-%m-%d').strftime('%d %B %Y'), 'annee': annee, 'tags': tags, 'title': title, 'next': None, 'previous': None, 'last_html_build': last_html_build_time, 'last_gemini_build': last_gemini_build, 'org_content': content, # Contenu Org original 'html_content_without_h1': re.sub(r'