18 سبتمبر 2025 Dans 3 semaines
Mise en Place d’une Plateforme de Données (Data Lake et Data Warehouse) au sein de l’ITCEQ
Ministère de l’Economie et de la Planification
1 Contexte de l’intervention d’Expertise France en appui à l’ITCEQ
Depuis le 1er février 2023, Expertise France met en œuvre le projet « Savoirs Éco en Tunisie » sur un financement de l’Union européenne de 4,5 millions d’EUR pour une durée de 3 ans1. L’objectif du Projet est d’appuyer le débat public sur les enjeux économiques et de développement durable en Tunisie à travers un renforcement des Structures Productrices de Savoirs Économiques (SPSE) c’est-à dire : i) les structures publiques d’analyse économique et d’aide à la décision ; ii) les structures de recherche en économie ; et iii) les think-tanks issus de la société civile.
Parmi les SPSE publiques avec lesquelles le projet collabore, l’Institut Tunisien de la Compétitivité et des Études Quantitatives (ITCEQ) est appuyé en assistance technique à travers quatre activités principales :
∙ Modélisation et analyses quantitatives
∙ Système d’information
∙ Organisation interne
∙ Communication et diffusion
L’activité sur le Système d’information de l’ITCEQ a fait l’objet d’une assistance technique ayant permis de mener un audit du Système d’Information (SI) et d’élaborer un Schéma Directeur du Système d’Information (SDSI). A l’issue de la mission de l’expert, l’ITCEQ s’est engagé sur les 3 volets suivants :
iii) Déploiement d’un ERP (logiciel de gestion des ressources humaines). L’activité est prise en charge sur le budget de l’ITCEQ et devrait être finalisée d’ici fin 2025 – début 2026
Il a été décidé en comité de pilotage (08/07/2025) que le projet Savoirs Eco appuierait l’ITCEQ dans la mise en place d’un système de base de données intégré (objet des présents termes de référence).
2 Contexte et justification du projet sur le système de base de données
L’Institut Tunisien de la Compétitivité et des Etudes Quantitatives (ITCEQ) est un établissement public en charge de la production d’analyses économiques et sociales. La qualité et la disponibilité des données sont essentielles à l’accomplissement de ses missions. L’étude du Schéma Directeur du Système d’Information de l’ITCEQ réalisée dans le cadre du projet de 1Se clôturant initialement le 31/01/2026, le projet Savoirs Eco sera prolongé pour une durée de 7 mois supplémentaire jusqu’au 31/08/2026.
“SavoirEco” financé par l’Union Européenne est exécuté par Expertise France a mis en évidence des limites structurelles dans le processus de centralisation, de nettoyage et d’exploitation des données gérées par l’ITCEQ.
En réponse aux insuffisances susmentionnées, le SDSI préconise la mise en œuvre d’une architecture de données unifiée, articulée autour d’un Data Warehouse pour la gestion des données structurées et d’un Data Lake pour l’intégration et le stockage des données brutes ou semi-structurées, en vue d’une exploitation analytique et prospective renforcée.
Ce projet constitue un levier stratégique pour le renforcement des capacités internes d’analyse de données, l’amélioration de l’interopérabilité entre les différents sous-systèmes d’information de l’ITCEQ, ainsi que pour l’appui à une prise de décision fondée sur des données fiables, consolidées et accessibles.
3 Objectifs
∙ Renforcer la gouvernance et la maîtrise des données au sein de l’ITCEQ par la mise en place d’une infrastructure unifiée de stockage, de traitement et d’analyse des données. ∙ Garantir la centralisation, la qualité, la traçabilité et l’accessibilité des données internes, en assurant leur structuration et leur historisation.
∙ Offrir une capacité d’exploitation avancée des données via des outils modernes d’analyse (reporting, tableaux de bord, IA, machine learning) adaptés aux besoins des études économiques et sociales.
∙ Soutenir les processus d’aide à la décision stratégique à travers la mise à disposition de données consolidées, fiables et exploitables en temps réel.
∙ Favoriser l’interopérabilité avec les systèmes existants et les sources externes de données pour enrichir les analyses de l’Institut.
∙ Permettre la montée en compétence des équipes internes par le biais de formations ciblées et d’un transfert de compétences structuré.
∙ Garantir la centralisation, la qualité et la traçabilité des données internes. ∙ Permettre à l’ITCEQ de disposer d’une capacité renforcée d’analyse et de valorisation des données via la mise en place d’outils de visualisation avancée (tableaux de bord dynamiques), de modèles prédictifs, et de solutions de reporting interactif, au service des activités d’études, de veille et depilotage stratégique.
4 Portée fonctionnelle du projet
Le projet vise la mise en place d’une plateforme intégrée de gestion et d’exploitation de données, articulée autour d’un Data Lake pour la collecte et la conservation de données massives et hétérogènes, et d’un Data Warehouse pour leur structuration, leur consolidation et leur valorisation à des fins analytiques. Cette infrastructure permettra de répondre aux besoins croissants de l’ITCEQ en matière d’études, de modélisation économique, de suivi de la compétitivité et de production de rapports stratégiques.
Elle permettra notamment :
∙ La centralisation et la structuration de l’ensemble des données institutionnelles. ∙ Le développement de capacités analytiques avancées pour appuyer les missions de veille et d’aide à la décision.
∙ La mise à disposition d’un environnement unifié, sécurisé et interopérable pour tous les métiers utilisateurs.
∙ La possibilité d’intégrer, traiter et analyser des données multi-sources, internes et externes.
∙ Le soutien aux initiatives futures de transformation numérique et d’ouverture des données publiques.
∙ Le développement des dispositifs nécessaires à la collecte, à la normalisation et à l’alimentation automatisée du Data Warehouse à partir des données structurées existantes.
∙ La mise en œuvre des mécanismes d’ingestion, de stockage et de catalogage permettant au Data Lake d’accueillir durablement les données non structurées et semi-structurées dans leurs formats natifs.
4.1 Fonctionnalités du Data Warehouse
∙ Centralisation des données structurées (ERP, CRM, bases statistiques). ∙ Préparation au reporting et aux requêtes analytiques complexes.
∙ Nettoyage, dédoublonnage, harmonisation via ETL.
∙ Historisation des données pour analyse temporelle.
∙ Gouvernance, contrôle d’accès, audit, conformité.
4.2 Fonctionnalités du Data Lake
∙ Intégration des données brutes multi-formats (structurées, semi-structurées, non structurées).
∙ Lecture flexible (schema-on-read).
∙ Support pour l’IA, machine learning, exploration data science.
∙ Coût de stockage optimisé (technologies Hadoop, Cloud).
∙ Zones logiques : Raw, Trusted, Refined, Sandbox.
4.3 Fonctionnalités complémentaires
∙ Architecture Data Lake house hybride.
∙ Flux de données entre les composants.
∙ Optimisation coûts/performances.
5 Architecture technique recommandée
L’architecture technique à mettre en place doit reposer sur une stratégie modulaire fondée essentiellement sur des solutions open source à chaque niveau de la chaîne de traitement des données. Elle devra garantir la flexibilité, la maîtrise des coûts, la sécurité, la scalabilité, et l’interopérabilité avec les systèmes existants.
5.1 Couches fonctionnelles et outils
o Doit permettre l’intégration de flux de données issus de multiples sources (bases SQL, fichiers plats, API, web services, flux temps réel).
o Outils recommandés : plateformes d’intégration de données open source comme Apache NiFi, Talend Open Studio ou Airbyte.
o Doit permettre le stockage massif de données brutes, multi-formats (Parquet, JSON, CSV, etc.).
o Organisation en zones : Raw Zone, Trusted Zone, Refined Zone, Sandbox. o Outils recommandés : systèmes de fichiers distribués open source comme Hadoop HDFS ou stockage objet compatible S3.
o Doit assurer le nettoyage, l’enrichissement, la validation et la structuration des données.
o Outils recommandés : Apache Airflow pour l’orchestration, outils ETL open source (Talend, Pentaho).
o Doit permettre le stockage de données modélisées, optimisées pour les requêtes analytiques.
o Le système doit être compatible avec les moteurs SQL open source comme PostgreSQL avec extension analytique, ou Apache Druid.
o Doit permettre la visualisation (reporting, tableaux de bord), l’exploration et l’analyse avancée (IA, ML).
o Outils recommandés : outils de BI open source (Metabase, Superset) et langages analytiques (Python, R).
o Doit permettre la documentation, le catalogage, la traçabilité et le contrôle d’accès aux données.
o Outils recommandés : solutions open source de gouvernance telles qu’Apache Atlas ou Amundsen.
5.2 Principes architecturaux
∙ Modularité : chaque couche doit être indépendante mais intégrée.
∙ Interopérabilité : usage de formats standards et d’API REST.
∙ Scalabilité : architecture distribuée et évolutive.
∙ Sécurité : chiffrement, gestion fine des accès, audit des actions.
∙ Maîtrise des coûts : recours prioritaire à des solutions open source ou gratuites.
Schéma d’architecture technique cible du système de gestion des données (Data Lake & Data Warehouse)
6 Exigences techniques et de sécurité
Le système à mettre en place devra respecter un ensemble d’exigences techniques et de sécurité pour garantir la robustesse, la performance et la conformité de la plateforme aux besoins stratégiques de l’ITCEQ.
6.1 Exigences de stockage
∙ Support des formats standards (CSV, JSON, Parquet, Avro, ORC).
∙ Capacité à gérer des volumes massifs de données en croissance constante. ∙ Systèmes de fichiers distribués ou stockage objet open source, compatibles avec les environnements Cloud et on-premise.
∙ Gestion de l’archivage et de l’évolutivité des données.
6.2 Exigences de performance
∙ Réduction de la latence pour les requêtes analytiques complexes.
∙ Traitement parallèle des données via architecture distribuée.
∙ Intégration d’outils de supervision open source (Prometheus, Grafana, etc.) pour le monitoring en temps réel des performances et des flux.
6.3 Intégration de l’intelligence artificielle
Les solutions à mettre en place devront intégrer, de manière progressive et maîtrisée, des composants basés sur l’intelligence artificielle, afin de répondre à plusieurs besoins spécifiques de l’ITCEQ, notamment :
∙ L’analyse automatisée des données statistiques issues du Data Warehouse et du Data Lake, incluant la détection d’anomalies, les corrélations multi-variables et l’identification de tendances économiques.
∙ L’aide à la conduite d’études prospectives, en s’appuyant sur des modèles prédictifs et des simulations alimentées par les données consolidées.
∙ L’exploitation intelligente des jeux de données non structurés, notamment les textes, documents et publications, via des technologies de traitement du langage naturel (NLP). ∙ L’assistance à la rédaction automatisée de rapports analytiques ou de synthèses à partir de modèles IA entraînés sur les données sectorielles.
Les outils IA doivent être open source ou compatibles avec des frameworks libres (comme TensorFlow, PyTorch, Scikit-learn, HuggingFace) afin d’assurer leur pérennité, leur évolutivité et leur intégration dans l’architecture globale proposée. Leur déploiement devra être documenté, maîtrisé et validé dans le respect des principes d’éthique et de transparence algorithmique.
7 Livrables attendus
Le projetdoit déboucher sur la remise d’un ensemble de livrables techniques, documentaires et opérationnels permettant à l’ITCEQ d’exploiter efficacement l’infrastructure mise en place. Les livrables attendus sont :
∙ Un environnement complet et opérationnel de Data Lake et de Data Warehouse, est configuré, testé et sécurisé.
∙ Des pipelines d’intégration, de transformation et de chargement des données (ETL/ELT), sont automatisés, documentés et reproductibles.
∙ Un ensemble de tableaux de bord de supervision technique (monitoring des flux, qualité des données, performances) sont conçus.
∙ Une documentation technique exhaustive incluant une architecture déployée, procédures de sauvegarde et de restauration, consignes de sécurité, journalisation des accès… est élaborée.
∙ Un manuel utilisateur adapté aux différents profils (administrateurs, analystes, utilisateurs métiers) est élaboré.
∙ Des guides d’administration de la plateforme (Data Lake, Data Warehouse, ETL, BI) sont élaborés.
∙ Une démonstration fonctionnelle de l’exploitation de cas d’usage concrets en lien avec les missions d’études économiques de l’ITCEQ est faite.
∙ Un environnement Data Lake et Data Warehouse est déployé.
∙ Des Pipelines ETL/ELT sont documentés et automatisés.
∙ Un Tableau de bord de monitoring des flux de données est mis en place.
∙ Une Documentation technique complète (manuel utilisateur) est élaborée.
8 Phasage du projet
Le projet sera structuré en quatre phases distinctes, permettant une mise en œuvre progressive, modulaire et maîtrisée de l’ensemble de l’infrastructure de données, incluant le développement des modules applicatifs, la gestion des métadonnées, et la mise à disposition d’outils de reporting et d’analyse.
Chaque phase doit intégrer la production de livrables validés par l’ITCEQ et couvrir l’ensemble des besoins fonctionnels définis, notamment :
Les quatre phases sont définies comme suit :
Phase 1 : Analyse, cadrage technique et architecture cible
Cette phase constitue le socle préparatoire du projet. Elle comprend :
∙ La cartographie détaillée des sources de données internes et externes exploitées par l’ITCEQ ;
∙ L’analyse des besoins fonctionnels des directions métiers en matière d’accès, de qualité, de fréquence et de volumétrie des données ;
∙ La définition des cas d’usage prioritaires (études statistiques, tableaux de bord, modélisation économique, veille, etc.) ;
∙ L’élaboration de l’architecture cible intégrant les composants Data Lake, Data Warehouse, pipelines ETL/ELT, gouvernance, sécurité, IA, visualisation et interopérabilité ;
∙ Le choix des solutions techniques open source adaptée à chaque couche du système (collecte, stockage, traitement, exposition des données) ;
∙ La planification détaillée du projet, incluant les jalons, ressources, charges estimées, outils de suivi et modalités de coordination ;
∙ La définition des prérequis techniques (infrastructure, connectivité, sécurité, droits d’accès) ;
∙ La préparation des environnements de test pour valider progressivement les composants à venir ;
∙ La rédaction d’un dossier de conception générale à valider avec le comité de pilotage avant passage à la phase suivante.
Phase 2 : Déploiement du Data Lake, des outils de gestion des métadonnées et des bases NoSQL
Cette phase couvre la mise en œuvre du socle technique du Data Lake, la structuration des zones logiques (Raw, Trusted, Refined, Sandbox), l’installation des outils d’ingestion de données multi-formats, et la mise en place des dispositifs de catalogage, traçabilité et gouvernance des données non structurées et semi-structurées.
Afin d’assurer la performance, la flexibilité et la gestion adaptée de certains types de contenus (textes, documents, données événementielles ou faiblement structurées), le projet inclura également la sélection, la conception et l’implémentation de bases de données NoSQL lorsque cela s’avère pertinent. Cette activité comprendra :
∙ L’analyse des besoins en structuration NoSQL selon les cas d’usage métier ; ∙ Le choix de technologies open source appropriées (ex. MongoDB, Elastic search, Neo4j, etc.) ;
∙ La configuration, l’intégration au Data Lake et les premiers tests d’exploitation de ces bases dans les chaînes de traitement.
L’intégration progressive des premières sources de données internes (rapports, fichiers non structurés, logs applicatifs, etc.) sera assurée dans un cadre maîtrisé, avec suivi des métadonnées et contrôle de qualité.
Phase 3 : Déploiement du Data Warehouse, des modules de saisie et des pipelines de traitement
Cette phase couvre la conception et la modélisation du Data Warehouse, ainsi que le développement des interfaces applicatives dédiées à la saisie des données structurées. Ces interfaces devront permettre aux unités opérationnelles de l’ITCEQ de saisir manuellement ou semi-automatiquement des données statistiques, économiques et administratives, tout en assurant :
∙ La validation des champs en temps réel,
∙ L’historisation automatique des versions de données,
∙ Le contrôle qualité à l’entrée (logique métier, alertes, doublons),
∙ L’ergonomie adaptée aux différents profils utilisateurs.
Les modules devront être accessibles via le Web, multilingues, sécurisés (authentification, droits d’accès) et interopérables avec les autres briques du système.
En parallèle, les pipelines de traitement (ETL/ELT) seront développés pour automatiser la transformation, le nettoyage, et le chargement des données vers le Data Warehouse. Cette phase inclut également les connexions aux sources internes, les tests de cohérence, et la validation des premiers jeux de données consolidées.
Phase 4 : Intégration des outils analytiques, mise en production et transfert de compétences
Déploiement des outils de visualisation, de reporting et d’analyse avancée (statistique, économique, prospective). Cette phase devra inclure l’intégration progressive de solutions d’intelligence artificielle pour :
∙ L’interrogation intelligente et l’exploration assistée des données consolidées ; ∙ L’analyse prédictive et la simulation de scénarios économiques ;
∙ La détection automatisée de tendances, ruptures ou anomalies dans les séries statistiques ;
∙ L’exploitation de textes, rapports ou documents via des algorithmes de traitement du langage naturel (NLP).
Les outils devront s’appuyer sur des frameworks open source (ex. TensorFlow, PyTorch, Scikit learn, HuggingFace) interopérables avec l’infrastructure existante.
La phase inclura également la réalisation des tests de performance, la finalisation de la documentation technique et utilisateur, les formations ciblées, et la bascule contrôlée en environnement de production, avec suivi post-livraison.
Durées et charges estimées :
Phase Intitulé Durée | ||
Phase 1 | Analyse, cadrage & architecture cible | 4 semaines
maximum |
Phase 2 | Data Lake, métadonnées & NoSQL | 6 semaines
maximum |
Phase 3 | Data Warehouse, modules de saisie, pipelines ETL/ELT | 7 semaines
maximum |
Phase 4 | Analytique, mise en production & transfert de compétences | 5 semaines
maximum |
9 Profils requis des experts
L’équipe proposée par le soumissionnaire devra justifier d’une expertise technique, fonctionnelle et organisationnelle avérée dans les domaines de la gestion de données massives, des architectures de Data Lake/Data Warehouse, de la science des données et de l’intelligence artificielle appliquée. Les experts devront également démontrer une capacité à interagir avec des interlocuteurs institutionnels et à produire une documentation technique de qualité.
Les profils minimums requis sont présentés dans le tableau suivant :
Fonction Diplômes / Expérience requis | |
Chef de projet technique | Diplôme universitaire Bac+5 minimum en informatique, systèmes d’information ou équivalent ; minimum 7 ans d’expérience ; |
maîtrise des architectures BI, ETL, Cloud et open source ; certification projet (PMP, PRINCE2) souhaitée. | |
Architecte Data / Big Data | Diplôme Bac+5 en systèmes d’information ou data engineering ; minimum 5 ans d’expérience dans la conception et l’implémentation de solutions Data Lake/Data Warehouse ; connaissance des technologies open source et NoSQL. |
Expert en science des données / IA | Bac+5 ou doctorat en statistiques, économie quantitative ou science des données ; expérience avérée dans les modèles prédictifs et analyses avancées ; maîtrise de Python/R et bibliothèques IA open source. |
Développeur
ETL/ELT & Intégration |
Bac+3 minimum ; au moins 3 ans d’expérience en développement de flux de données, automatisation, connecteurs API ; bonne maîtrise des outils ETL open source recommandés. |
Spécialiste en visualisation de données | Bac+3 minimum ; expérience avec des outils BI open source (Superset, Metabase, etc.) ; capacité à produire des tableaux de bord adaptés aux besoins des utilisateurs métiers. |
Administrateur
système / sécurité |
Bac+3 minimum ; expertise dans le déploiement sécurisé d’infrastructures de données ; connaissance des mécanismes IAM, chiffrement, monitoring et outils open source de supervision. |
10 Critères de sélection
Le soumissionnaire devra démontrer ses capacités techniques, méthodologiques et organisationnelles à travers les éléments suivants :
10.1 Références techniques et expériences similaires
∙ Fourniture d’au moins trois références pertinentes réalisées au cours des cinq dernières années, dans des contextes similaires de mise en place de solutions Data Lake/Data Warehouse, incluant des modules analytiques et d’intégration de l’IA.
∙ Chaque référence devra inclure une description du projet, la période de réalisation, les technologies utilisées, les résultats obtenus et une attestation de bonne exécution.
10.2 Compréhension du besoin et qualité de l’offre technique
∙ Pertinence de l’approche méthodologique proposée.
∙ Qualité de l’architecture cible et cohérence avec les principes du présent CCT.
∙ Capacité à proposer une solution modulaire, sécurisée et évolutive, fondée sur des technologies open source.
10.3 Compétences de l’équipe projet
∙ Adéquation des profils proposés avec les exigences détaillées dans la section 9. ∙ Expérience sur des projets similaires et complémentarité des compétences (data engineering, IA, sécurité, visualisation, etc.).
10.4 Transfert de compétences et accompagnement
∙ Qualité du plan de formation proposé pour les utilisateurs et les administrateurs. ∙ Capacité à documenter, transférer et pérenniser les savoir-faire.
10.5 Aspects organisationnels
∙ Réalisme du planning de mise en œuvre.
∙ Modalités de pilotage du projet, de gestion des risques et de suivi qualité. 10.6 Conditions financières
∙ Clarté de la proposition financière.
∙ Optimisation des coûts par l’usage de solutions open source.
∙ Une décomposition de l’offre financière présentée sous la forme d’un prix unitaire et avec une estimation du nombre de jours nécessaires à exécuter pour les 4 phases précisées ci-dessus et couvrant l’ensemble des prestations dues au titre du marché.
10.7 Grille de notation des offres
L’évaluation des soumissionnaires se fera sur la base d’une note globale NG composée d’une note technique (NT) pour l’évaluation de l’offre technique et une note Financière (NF) pour l’évaluation de l’offre financière.
La note globale est détaillée comme suit :
∙ LA NOTE TECHNIQUE :
La note technique sera calculée selon les critères suivants :
Critère Description Note maximale | ||
1. Références techniques et expériences similaires | Projets similaires réalisés, attestation de bonne exécution, pertinence des contextes présentés | 25pts |
2. Qualité de l’offre technique et compréhension | Cohérence de l’approche méthodologique, architecture proposée, adéquation aux besoins | 20pts |
3. Compétences de l’équipe projet | Pertinence des profils, complémentarité, conformité aux exigences de la section 8 | 25pts |
4. Transfert de compétences et accompagnement | Plan de formation, clarté des supports, pérennité des savoir-faire transférés | 15pts |
5. Organisation, pilotage, délais | Réalisme du planning, mécanismes de pilotage, gestion des risques et qualité | 15pts |
Total | 100 pts |
∙ LA NOTE FINANCIERE :
La note financière sera attribuée selon la formule suivante :
NF=offre financière du moins disantx 100
L’offre financière du soumissionnaire
∙ LA NOTE GLOBALE :
NG= 70% NT + 30% NF
Le marché sera attribué au soumissionnaire ayant la meilleure note globale (NG).
11 Candidature :
Les éléments d’offre ainsi que toute correspondance et documents relatifs à la présente consultation doivent être rédigés en français.
Les candidats devront remettre un dossier constitué des documents suivants :
– Preuve d’enregistrement au registre des sociétés (RNE, Patente,k-bis ou équivalent)
11.1 Date limite de soumission des offres
Toutes les offres devront être adressées à l’adresse suivante : sonia.gharbi@expertisefrance.fr au plus tard le 18 septembre 2025 à midi (Heure Tunis).
11.2 Renseignements Complémentaires
Pour tout renseignement complémentaire ou clarification concernant les Termes de Référence, veuillez contacter manel.chlibi@.expertisefrance.fr et sonia.gharbi@expertisefrance.fr au plus tard le 11 septembre 2025 à midi (Heure Tunis).
Il est prévu que les phases d’évaluation et de contractualisation aient lieu au mois d’octobre 2025
11.3 Droit de Révision
L’organisation se réserve le droit de réviser ou d’annuler cet appel d’offres en tout ou en partie sans encourir aucune obligation envers les soumissionnaires.
EF_Savoirs Eco_Termes de référence_Mise en Place d’une Plateforme de Don…
Date limite de candidature: 18 septembre 2025 à midi (Heure Tunis)
Adresse réception des offres: sonia.gharbi@expertisefrance.fr
Appel d’offres منشور على "جمعيتي" في 27 août 2025
إكتشف المزيد من الفرص على "جمعيتي" عبر النّقر على هذا الرّابط.