Forum Libre

1164 readers

28 users here now

Partagez et discutez de sujets positifs ou liés à votre quotidien, tels que:

Fil quotidien "comment allez-vous?"
Contenu détendu
Questions à la communauté
Aujourd'hui j'ai appris
Anecdotes personnelles
Bonnes nouvelles
Projets locaux / associatifs
Inspiration
BD / illustrations
Etc.

Les mots d'ordre sont : respect et bienveillance, l'objectif est de proposer un environnement positif et tranquille.

Les discussions politiques ou pouvant provoquer des émotions négatives sont déconseillées, et ont davantage leur place sur

Les règles de l'instance sont bien entendu d'application.

Fils hebdomadaires"

Lundi Lecture
Mardi Marrant
Mercredi CinéSéries
Jeudi Tech
Samedi DJ/Musique
Dimanche Jeux Videos

"Demandez-moi n'importe quoi"

Communautés détendues

Communautés liées:

Loisirs:

Vie Pratique:

Communautés d'actualité

Société:

Pays:

Communauté de secours:

!jlailu_statut@sh.itjust.works

Communautés principales de l'instance

Nous rejoindre sur Zulip: https://jlailu.zulipchat.com/

founded 2 years ago

MODERATORS

[Fil quotidien] Discussions du jour (2025-05-24) (jlai.lu)

submitted 4 months ago by Nono@jlai.lu to c/forumlibre@jlai.lu

10 comments fedilink hide all child comments

Discutons et de rien :)

you are viewing a single comment's thread
view the rest of the comments

[–] troglodyte_mignon@lemmy.world 2 points 4 months ago (1 children)

Assurez-vous d’avoir l’autorisation de télécharger le contenu de la page web en question.

Je ne m’y connais pas du tout, mais n’est-ce pas contradictoire avec le fait d’ignorer robots.txt ?

[–] oeil@jlai.lu 3 points 4 months ago* (last edited 4 months ago) (1 children)

Pareil que toi, mais ça me semble bien contradictoire. Si je dis pas de bêtises, le document robots.txt est un document non contraignant, c'est plutôt une convention.

Le protocole d'exclusion des robots, plus connu sous le nom de robots.txt, est une convention visant à empêcher les robots d'exploration (web crawlers) d'accéder à tout ou une partie d'un site web.

Les robots peuvent ignorer votre fichier robots.txt, en particulier les robots malveillants qui crawlent les sites à la recherches de vulnérabilités ou d'adresses email

Le fichier robots.txt est un fichier accessible au public, ce qui signifie que n'importe qui peut voir ce que vous souhaitez ne pas faire indexer par les moteurs

https://robots-txt.com/

Ah voilà, j'ai retrouvé le post d'@innermeerkat@jlai.lu (coucou!) à ce sujet : https://jlai.lu/post/16807807

According to Drew, LLM crawlers don't respect robots.txt requirements and include expensive endpoints like git blame, every page of every git log, and every commit in your repository. They do so using random User-Agents from tens of thousands of IP addresses, each one making no more than one HTTP request, trying to blend in with user traffic.

[–] innermeerkat@jlai.lu 3 points 4 months ago

Coucou !