02-ce-que-je-construis/specs/ia-veille-sources.md

Lot 3 — Veille agentique : catalogue de sources

Catalogue des flux pour le pipeline de veille (cf. specs/ia-veille.md). V1 = un thème pilote (IA) avec 10 flux ; le reste du catalogue est gardé en réserve pour les itérations suivantes (dev web, qualité, juridique).


1. Types de flux exploitables

Pour ce pipeline Symfony en pull, RSS et Atom couvrent 95 % du besoin et restent le bon choix pour le V1. Trois variantes méritent d'être connues, sans être indispensables pour démarrer :

  • Flux Substack / Beehiiv : les newsletters hĂ©bergĂ©es sur ces plateformes exposent un RSS standard (/feed). Pas de cas particulier Ă  coder — c'est du RSS classique, mais ça ouvre l'accès Ă  beaucoup de newsletters analystes (Latent Space, Import AI, Ahead of AI…).
  • Flux Atom des releases GitHub : tout dĂ©pĂ´t expose https://github.com/<org>/<repo>/releases.atom. Très utile pour suivre les sorties de bibliothèques ou de modèles. Standard Atom, parsĂ© comme le reste.
  • Pont email → RSS : pour les newsletters qui n'ont que l'email (TLDR AI, Ben's Bites quand pas hĂ©bergĂ©es Substack), un service comme Kill the Newsletter! crĂ©e une boĂ®te qui devient un flux RSS. RecommandĂ© en V2, pas en V1 (dĂ©pendance externe).

Hors périmètre raisonnable : JSON Feed (peu adopté, ajoute un parser), webhooks (modèle push incompatible avec Scheduler/Messenger en pull), scraping de pages sans flux (fragile, non éthique, à éviter).


2. État des sources IA majeures (point critique)

Important pour la résilience du pipeline : plusieurs labos n'exposent plus de RSS natif depuis leurs refontes récentes. La communauté maintient des flux scrapés via GitHub Actions, fiables mais fragiles par nature.

Source RSS natif ? Fallback
Anthropic (news, engineering, research) Non Flux communautaires : Olshansk/rss-feeds, taobojlen/anthropic-rss-feed
OpenAI (news, research) Non (perdu lors de la refonte 2024) Flux communautaires Olshansk, 0xSMW/rss-feeds
Mistral AI Non Flux communautaire feed_mistral_news.xml (0xSMW)
Meta AI Non Flux communautaire feed_meta_ai.xml (Olshansk)
xAI Non Flux communautaire feed_xai_news.xml (0xSMW)
Google DeepMind Oui —
Hugging Face Blog Oui (/blog/feed.xml) —
Claude Code Changelog Oui (officiel Anthropic) —
arXiv Oui (Atom natif) —

Conséquence pour l'architecture : prévoir un champ source_type (native / community) sur chaque source pour pouvoir prioriser les natives, monitorer les communautaires, et basculer si l'une tombe.


3. Top 10 — V1 (thème pilote : IA)

Sélection raisonnée : 4 constructeurs majeurs, 1 souveraineté FR, 1 recherche source, 2 synthèses anglo, 1 source FR pro, 1 pulse communautaire.

# Source URL flux Type Cadence Pourquoi
1 Anthropic News https://raw.githubusercontent.com/Olshansk/rss-feeds/main/feeds/feed_anthropic_news.xml community hebdo Source cible (poste = migration vers Claude). Indispensable.
2 OpenAI News https://raw.githubusercontent.com/Olshansk/rss-feeds/main/feeds/feed_openai_research.xml community hebdo Concurrent direct, comparatif obligatoire.
3 Google DeepMind Blog https://deepmind.google/blog/rss.xml (à vérifier au branchement) native hebdo 3e force du marché. RSS officiel.
4 Hugging Face Blog https://huggingface.co/blog/feed.xml native quotidien Écosystème open source, outillage, tutos.
5 Mistral AI News https://raw.githubusercontent.com/0xSMW/rss-feeds/main/feeds/feed_mistral_news.xml community bi-mensuel Souveraineté FR, attendue par les DSI françaises.
6 arXiv cs.AI https://export.arxiv.org/rss/cs.AI native (Atom) quotidien Recherche source. Volume fort → filtrage indispensable côté résumé.
7 Simon Willison's Weblog https://simonwillison.net/atom/everything/ native ~2/j Meilleure synthèse pratique anglo, recul + recul.
8 MarkTechPost https://www.marktechpost.com/feed/ native quotidien Agrégateur fiable à haute cadence (modèles, papers).
9 L'Usine Digitale https://www.usine-digitale.fr/rss native quotidien Source FR pro orientée transformation numérique. Filtrer la rubrique IA.
10 Hacker News (filtré IA) https://hnrss.org/newest?q=AI+OR+LLM+OR+Claude+OR+GPT&points=100 native (via hnrss.org) continu Pulse communauté, captation des signaux faibles. Seuil de points = filtre qualité.

Charge estimée V1 : ~30-50 items/jour après dédup, à résumer par Claude. Cohérent avec le périmètre annoncé.


4. Catalogue large (réserve pour V2+)

4.1 Constructeurs et labos IA (en plus du top 10)

Source URL flux Type
Anthropic Engineering feed Olshansk/feed_anthropic_engineering.xml community
Anthropic Research feed Olshansk/feed_anthropic_research.xml community
Anthropic Frontier Red Team feed Olshansk/feed_anthropic_red.xml community
Claude Code Changelog RSS officiel (lien dans Olshansk/rss-feeds) native
OpenAI Alignment Research feed 0xSMW/feed_openai_alignment.xml community
Meta AI Blog feed Olshansk/feed_meta_ai.xml community
xAI News feed 0xSMW/feed_xai_news.xml community
Cohere Blog feed Olshansk/feed_cohere.xml community
Cursor Blog feed Olshansk/feed_cursor.xml community
Google Developers AI Blog feed Olshansk/feed_google_ai.xml community
Groq Blog feed Olshansk/feed_groq.xml community
Thinking Machines Blog feed 0xSMW/feed_thinkingmachines.xml community
Microsoft Azure AI Blog RSS officiel (techcommunity.microsoft.com) native

4.2 Recherche

Source URL Type
arXiv cs.CL (traitement langage) https://export.arxiv.org/rss/cs.CL native
arXiv cs.LG (machine learning) https://export.arxiv.org/rss/cs.LG native
BAIR Blog (Berkeley) https://bair.berkeley.edu/blog/feed.xml native
HF Daily Papers https://papers.takara.ai/api/feed community
The Gradient https://thegradient.pub/rss/ native
Stanford HAI News RSS section actualités native

4.3 Synthèses / Analystes (newsletters Substack & assimilés)

Source URL flux Auteur / Angle
Import AI Substack RSS Jack Clark — politique & technique
The Batch https://www.deeplearning.ai/the-batch/feed/ DeepLearning.AI / Andrew Ng
Latent Space Substack RSS Swyx — engineering pratique
Ahead of AI Substack RSS Sebastian Raschka — research pédagogique
One Useful Thing Substack RSS Ethan Mollick — usage métier
AI Snake Oil Substack RSS Princeton — esprit critique
Last Week in AI Substack RSS hebdo synthétique

4.4 Médias tech (anglo)

  • MIT Technology Review (rubrique AI)
  • The Verge (rubrique AI)
  • VentureBeat AI
  • Wired (rubrique AI)

4.5 Médias tech (FR)

  • LeBigData.fr — https://www.lebigdata.fr/feed
  • FrenchWeb — https://www.frenchweb.fr/feed
  • Le Monde Informatique — flux thĂ©matiques sur lemondeinformatique.fr/flux-rss/
  • Numerama (rubrique IA)
  • ZDNet France
  • La Revue du Digital
  • Journal du Net (rubrique IA / web-tech)

4.6 Dev web (hors V1, futur lot)

  • Symfony Blog — https://symfony.com/blog/feed.xml
  • PHP releases (GitHub Atom)
  • Web.dev (Google)
  • MDN Blog
  • CSS-Tricks
  • Smashing Magazine

4.7 Qualité / Accessibilité (hors V1, futur lot)

  • W3C Blog
  • Opquast Blog
  • The A11y Project
  • WebAIM

4.8 Juridique (hors V1, futur lot — sujet sensible, garde-fous renforcés)

  • CNIL — actualitĂ©s RSS
  • EUR-Lex — flux RSS sur le Journal Officiel UE (AI Act)
  • ANSSI — alertes et avis
  • Legifrance — RSS textes publiĂ©s

5. Conventions pour la config

Format pressenti pour veille.sources (à raffiner à l'implémentation) :

sources:
  - id: anthropic_news
    name: "Anthropic News"
    url: "https://raw.githubusercontent.com/Olshansk/rss-feeds/main/feeds/feed_anthropic_news.xml"
    type: community
    theme: ia
    subtheme: constructeurs
    lang: en
    enabled: true
  • id : slug stable, sert de clĂ© de dĂ©dup et de tag dans la classification.
  • type: native|community : pour la priorisation et le monitoring de fiabilitĂ©.
  • enabled : pouvoir couper un flux qui tombe sans toucher au code.

6. Points d'attention V1

  • VĂ©rifier chaque URL au branchement : certaines URL ci-dessus (notamment les natives DeepMind, Microsoft) sont indiquĂ©es « Ă  vĂ©rifier au branchement » — RSS bouge, les CMS changent.
  • Monitorer les flux communautaires : un repo GitHub peut ĂŞtre abandonnĂ© ; prĂ©voir une alerte si un flux ne rend plus rien depuis N jours.
  • Filtrage arXiv : volume très Ă©levĂ©. Au dĂ©marrage, retenir arXiv mais filtrer via embeddings sur 2-3 sous-thèmes ciblĂ©s plutĂ´t que tout cs.AI brut.
  • Hacker News : ajuster le seuil points= après quelques jours pour calibrer le bruit.
  • Respect des sources : conformĂ©ment Ă  la spec, rĂ©sumĂ© + lien, jamais de copie intĂ©grale.

7. Sources retenues pour mémoire mais non incluses dans le top 10

  • Planet AI (planet-ai.net) : agrĂ©gateur en place, mais le sens du projet est de bâtir sa propre veille — utiliser un agrĂ©gateur tiers en source brouille le bĂ©nĂ©fice de dĂ©monstration.
  • Stratechery : excellent contenu, paywall — non exploitable en RSS public.
  • Twitter/X listes IA : pas de RSS officiel, dĂ©pendance forte Ă  des bridges fragiles. Hors V1.

Documents liés


Implémentation

Aspect Localisation
Stockage sources Table veille_source dans tlr-codexia — administrée via /admin/veille/sources
Champ type native / community / html sur entité VeilleSource
Charge V1 ~30-50 items/jour après dédup — 10 flux RSS/Atom thème IA
Catalogue complet Ce document (§3 = V1, §4 = réserve V2+)

Historique des décisions

Version Date Décision
1.0 2026-06-14 Version initiale — première formalisation du versioning des specs.
— 2026-06-01 Top 10 V1 figé : 4 constructeurs majeurs, 1 FR, 1 arXiv, 2 synthèses anglo, 1 FR pro, 1 HN filtré. Note : plusieurs labos (Anthropic, OpenAI, Mistral, Meta, xAI) n'exposent plus de RSS natif — flux communautaires utilisés.

Assistant documentaire

Posez une question sur la documentation. Les réponses citent leurs sources — un clic ouvre le document à gauche.

Loading…
Loading the web debug toolbar…
Attempt #