← Retour aux articles

Réussir votre mise en production GenAI sur GCP

Guide pratique pour DSI et CTO : architecture, sécurité, coûts et gouvernance pour passer vos projets GenAI du POC à la production sur Google Cloud Platform.

80 % des projets GenAI ne dépassent pas le stade du POC. Ce n’est pas un problème d’IA — c’est un problème d’ingénierie. Le modèle fonctionne dans un notebook, l’équipe data est enthousiaste, le comité de direction a vu la démo. Et puis tout s’arrête quand le DSI pose les bonnes questions : où sont stockées les données ? Qui a accès au modèle ? Combien ça coûte à l’échelle ? Comment on monitore les hallucinations ?

Ce guide répond à ces questions. Pas avec des slides — avec de l’architecture.

Le problème du passage en production

Un POC GenAI, c’est un script Python, un notebook Colab, et un appel API vers GPT-4 ou Gemini. Ça fonctionne. C’est impressionnant. Et c’est exactement ce qui ne peut pas aller en production.

Les raisons sont connues :

La bonne nouvelle : GCP fournit tous les blocs nécessaires pour résoudre ces problèmes. La mauvaise : il faut savoir lesquels utiliser et comment les assembler.

Architecture cible

L’architecture de production d’un système GenAI sur GCP repose sur 5 couches :

1. Couche d’inférence — Vertex AI

Vertex AI est le point d’entrée. Il expose les modèles Google (Gemini Pro, Gemini Ultra) et les modèles tiers (Claude, Mistral via Model Garden) derrière une API unifiée.

Pourquoi Vertex AI et pas l’API directe de Google AI Studio ?

Configuration recommandée :

# vertex-ai-config.yaml
endpoint:
  region: europe-west1          # Données en Europe
  model: gemini-1.5-pro-002
  max_output_tokens: 8192
  temperature: 0.1              # Production = déterminisme
  safety_settings:
    - category: HARM_CATEGORY_DANGEROUS_CONTENT
      threshold: BLOCK_LOW_AND_ABOVE

2. Couche d’orchestration — Cloud Run + LangGraph

Le modèle seul ne fait rien d’utile. Il faut une couche d’orchestration qui gère :

Cloud Run est le choix par défaut pour héberger cette couche :

LangGraph est le framework d’orchestration recommandé :

3. Couche de données — Cloud SQL + AlloyDB

Les données de votre système GenAI se répartissent en 3 catégories :

TypeSolution GCPUsage
Données métierCloud SQL (PostgreSQL)CRM, ERP, données structurées
Embeddings vectorielsAlloyDB + pgvectorRAG, recherche sémantique
Cache conversationnelMemorystore (Redis)Sessions, mémoire court-terme
Documents sourceCloud StoragePDFs, images, fichiers bruts

AlloyDB mérite une attention particulière :

-- Création d'une table avec colonne vectorielle
CREATE TABLE documents (
    id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
    content TEXT NOT NULL,
    embedding VECTOR(768),  -- Dimension Vertex AI embeddings
    metadata JSONB,
    created_at TIMESTAMPTZ DEFAULT NOW()
);

-- Index HNSW pour la recherche approximative
CREATE INDEX idx_documents_embedding
ON documents USING hnsw (embedding vector_cosine_ops)
WITH (m = 16, ef_construction = 200);

4. Couche de sécurité

La sécurité d’un système GenAI en production couvre 4 périmètres :

Périmètre réseau :

Périmètre identité :

Périmètre données :

Périmètre modèle :

5. Couche d’observabilité

Vous ne pouvez pas exploiter ce que vous ne pouvez pas voir. L’observabilité d’un système GenAI va au-delà du monitoring classique :

Métriques techniques (Cloud Monitoring) :

Métriques métier (custom) :

Traces (Cloud Trace + Langfuse) :

# Exemple d'instrumentation avec Langfuse
from langfuse import Langfuse

langfuse = Langfuse(
    public_key=os.environ["LANGFUSE_PUBLIC_KEY"],
    secret_key=os.environ["LANGFUSE_SECRET_KEY"],
    host="https://langfuse.your-domain.com"  # Self-hosted
)

@langfuse.observe(name="process_query")
def process_query(user_query: str, session_id: str):
    # La trace capture automatiquement :
    # - Le prompt envoyé au modèle
    # - Les tokens consommés
    # - La latence
    # - Les outils appelés
    # - La réponse générée
    ...

Estimation des coûts

Le coût d’un système GenAI en production sur GCP se décompose en 4 postes :

PosteService GCPEstimation mensuelle
InférenceVertex AI (Gemini Pro)500 – 3 000 €
ComputeCloud Run (2 services)50 – 200 €
Base de donnéesAlloyDB300 – 800 €
Stockage + réseauCloud Storage + egress50 – 100 €
ObservabilitéCloud Monitoring + Langfuse100 – 300 €
Total1 000 – 4 400 € /mois

Ces estimations correspondent à un usage de 10 000 à 50 000 requêtes par mois. Le poste principal est toujours l’inférence — le nombre de tokens consommés.

Optimisations courantes :

CI/CD et déploiement

Le pipeline de déploiement d’un système GenAI ressemble à un pipeline classique, avec des étapes supplémentaires :

# cloudbuild.yaml
steps:
  # 1. Tests unitaires + intégration
  - name: 'python:3.12-slim'
    entrypoint: 'bash'
    args: ['-c', 'pip install -r requirements.txt && pytest tests/']

  # 2. Scan des tool calls (diplomat-agent)
  - name: 'python:3.12-slim'
    entrypoint: 'bash'
    args: ['-c', 'pip install diplomat-agent && diplomat-agent . --fail-on-unchecked']

  # 3. Scan de sécurité (Trivy)
  - name: 'aquasec/trivy'
    args: ['fs', '--severity', 'HIGH,CRITICAL', '--exit-code', '1', '.']

  # 4. Build + push image
  - name: 'gcr.io/cloud-builders/docker'
    args: ['build', '-t', 'gcr.io/$PROJECT_ID/genai-service:$SHORT_SHA', '.']

  # 5. Deploy sur Cloud Run
  - name: 'gcr.io/cloud-builders/gcloud'
    args:
      - 'run'
      - 'deploy'
      - 'genai-service'
      - '--image=gcr.io/$PROJECT_ID/genai-service:$SHORT_SHA'
      - '--region=europe-west1'
      - '--platform=managed'
      - '--no-allow-unauthenticated'
      - '--vpc-connector=genai-vpc-connector'

Points importants :

Conformité AI Act

L’AI Act européen entre en application en août 2026 pour les systèmes à haut risque. Si votre système GenAI prend des décisions impactant des personnes (santé, RH, finance, justice), vous êtes concerné.

Les obligations techniques principales :

ArticleObligationImplémentation GCP
Art. 9Gestion des risquesRegistre toolcalls.yaml + guardrails documentés
Art. 12TraçabilitéCloud Audit Logs + Langfuse traces
Art. 14Contrôle humainNœuds d’interruption LangGraph (human-in-the-loop)
Art. 13TransparenceDocumentation d’architecture + registre des capacités

La bonne pratique : intégrer ces obligations dès la conception (privacy & compliance by design), pas en retrofit avant l’échéance.

Checklist de mise en production

Avant de déployer votre système GenAI en production sur GCP :

Infrastructure :

Sécurité :

Observabilité :

Gouvernance :

Conclusion

Mettre un système GenAI en production sur GCP n’est pas fondamentalement différent de mettre n’importe quel système distribué en production. Les mêmes principes s’appliquent : infrastructure as code, observabilité, sécurité en profondeur, CI/CD, documentation.

Ce qui change, c’est la surface de risque. Un LLM peut halluciner, être injecté par un prompt malveillant, ou consommer des milliers d’euros de tokens en quelques minutes si les guardrails ne sont pas en place.

La bonne nouvelle : GCP fournit tous les blocs. L’enjeu est de les assembler correctement — architecture réseau, gestion des identités, observabilité, gouvernance des outils. C’est de l’ingénierie, pas de la magie.

Si vous êtes DSI ou CTO et que vous avez un POC GenAI qui attend de passer en production, prenez 30 minutes pour en discuter. On regarde ensemble votre architecture et on identifie les gaps.