Pour les généticiens du monde entier, Excel est un vrai cauchemar. Le logiciel est à l'origine d'un nombre important d'erreurs, car il convertit les noms de certains gènes, comme "MARCH1" en dates (1-Mar). Environ une publication scientifique sur 5 en fait les frais, et la solution la plus simple a donc consisté à renommer des dizaines de gènes.

Tous les commentaires (75)
Comme.... ?
Le lol était pour préciser que j’ai troll
C’est bien connu.. sous Mac, plus d’erreurs de calcul, plus de virus ( même le SIDA, COVID, Ebola, etc) , plus aucuns accidents de la route , ni lèpre ni autisme, plus de violence urbaine ni conjugale, ...
Par contre, toujours autant de cons et ça Apple n’y pourra rien :-( .. RIP Steeve Jobs..
Quel manque de bon sens de ne pas avoir de Mac pour régler tout nos problèmes !!
Témoignage prof.
Dans mon usine :
-1 on est mariés à microsoft
-2 un Mac? Même pas pourNoël, du hp de base, point.
-3 personne, sauf service info,
n'a des droits d'administrateur
-4 donc impossible de mettre un OS tournant sous Linux et encore moins installer un logiciel adapté à ses besoins
Bref, on "bricole" avec excel.
Exemple : "chasse" aux clients de plus 90 ans, souvent des clients décédés mais clôture dossier non faite=> 4 fois plus de centenaires que les stat. nationales ! LOL.
Pour travailler des dates de naissance antérieure à 1900, il faut saisir des téra brouettes de formule.
Tapez ITALIE=> transformée d'office en Italie. 150 étiquettes adresses à benner.
Les chercheurs ne sont pas idiots, mais n'ont ni le temps ni les moyens de fiabiliser. Ils font comme moi, ils s'adaptent, contournent et bricolent.
Ok. Au temps pour moi.
Solution ==> arrêter d'utiliser excel ?
Il suffit juste de modifier le format de cellule, easy
Si vous aviez lu les sources vous auriez pu vous rendre compte que le problème persiste même en modifiant le format sur excel alors évitez de prendre un air supérieur pour dire des anneries pareil
Le généticien est généticien, pas un peu ronde l’informatique.
Je vois les chercheurs autour de moi ben déjà ils font avec les logiciels que leur fournit l’employeur (interdiction souvent de matériel privé pour limiter les fuites/virus)
Ensuite ils prennent déjà bcp de
Temps à faire les recherches et écrire donc oui passer des heures à vérifier colonne per colonne le bon format c’est très vite infaisable (parce que le format date doit être utile sur d’autre colonne)
Ce changement des noms de la nomenclature est donc récente (2020) après, quand même, deux décennies d'erreurs inopinées. Je suis étonné que le HUGO Gene Nomenclature Committee n'ait pas pris cette décision plus tôt. Car, depuis au moins dix ans et comme cité plus haut, l'apostrophe règle ce problème simplement.
C'est le partage des fichiers Excel qui était problématique car celui qui le reçoit doit reconvertir les colonnes incriminées sans toujours réussir.
Encore une fois, l'apostrophe règle définitivement ce problème. C'est donc l'oubli à l'écriture des données qui pose problème.
Quant à vérifier chaque lignes pour corriger celles qui en ont besoin, une simple macro suffisait.
Pour les traitements de données hétérogènes et en grandes quantité, il existe d'autres soft bien mieux adapté qu'Excel (qui n'est pas fait pour ça) powerBI ou tableau, certains sont même open source : RStudio et possedent leur propre langage. Apres, le problème peut apparaitre au sein des fichiers collectés et condolidés et là, seul un traitement pré intégration peut corriger et ça peut être long à préparer au cas par cas.
Microsoft qui finance abondamment l’OMS. L’interférence est encore plus grande que ce qu’on imagine.
vache tu es bien éloigné des considérations de récupération de données
étant informaticien je peux te dire que d'une part le format csv, c'est pas terrible du tout
il regroupe plusieurs formats non normés, problématiques de format de date, de guillemets, de séparateur, de caractères d’échappements
c'est bien pratique comme format quand il reste fixe, mais avec des milliers d'utilisateurs c'est difficile
et même si c'est un seul émetteur, regarde une fois ce qui se passe avec les chiffres covid du moment, santé publique france a plusieurs fois changé de format de date
concernant l'utilisation, une des problématiques principales quand tu fais ce genre de fichiers c'est le bruit, les erreurs de chiffres anormalement trop grand, trop faibles tout simplement parce qu'il y a trop de données
t'es pas obligé de rajouter des soucis avec des pb d'utilisation surtout si tu peux le corriger facilement
ensuite dans l'administration, libre office est utilisé, cependant le leader reste excel et souvent tu ne peux pas installer un autre logiciel. d'ailleurs les saisies peuvent être faites par des gens n'ayant pas d'intérêt financier, tu peux pas influer sur leur poste de travail
enfin bref avant de combattre la médiocrité des gens instruits, je t'invite à regarder la tienne.
Première analyse et étonnement, puis lecture des commentaires : des dizaines de millions de données provenant de plusieurs centaines de labos situés plusieurs dizaines de pays. La normalisation se fait naturellement avec le logiciel le plus employé au monde.
Bon alors un scientifique ne travail que rarement sous Excel... Le plus souvent lorsqu'une étude est prévue et qu'il y a le budget, a ce moment un outil de recueil de donnée est créé par une cellule de data management. On appel cela le CRF (case report form). C'est un espèce de formulaire qui réunit toutes les variables de l'étude et chaque personne qui va recueillir des données va le compléter. ( souvent c'est l'attaché de recherche clinique qui s'en charge). Il y a des contrôles sur les champs pour éviter les erreurs de saisies. Mais ça ressemble plus à un formulaire qu'à un fichier Excel. Donc ce n'est qu'une fois créé que l'on va lancer l'étude. Ensuite à la fin de l'étude la base de donnee est nettoyées, on va régler tout ce qui est étrange au niveau de la saisie, essayé de compléter tous les trous... C'est une étape assez longue... Enfin une fois que la base est clean elle est donnée au biostatisticien qui va faire les analyses statistiques pour la publication.
La donnée ne transite donc jamais entre les mains du chercheur responsable de l'étude. Lui ne fait que suivre les inclusions. Il intervient lors de la création du protocole, pour le suivi (inclusion, consultation) en s'assurant que les inclusions avancent bien, que les conditions de sécurités soient respectées, et pour la publication finale.
C'est formidable ! Les utilisateurs de ce site ont toujours des solutions pour tout. On se demande bien pourquoi les gens qui ont des problèmes ne posent pas d'abord la question sur ce site au lieu de perdre des années à chercher eux-mêmes des solutions concrètes en utilisant leur expérience, alors que les utilisateurs de ce site trouvent facilement des solutions après avoir découvert le problème 2 minutes avant et sans toute cette expérience et ces années d'essais !
Il faut raison garder. C'est ici un problème d'échelle.
Oui ce problème est simple a résoudre et les personnes qui commentent ici ont raison, il suffit de quelques manipulations informatiques ou de changer de logiciel pour le résoudre à échelle individuelle.
Non ce problème n'est pas si simple quand on commence à multiplier les fichiers et les données par milliers voire centaines de milliers avec des personnes et des laboratoires de recherche différents. La résolution ne ce problème est largement complexifiée par le risque d'erreur lié à la quantité de données. Ainsi, il est plus simple sur une échelle globale pour la communauté scientifique de régler le problème à la source, à savoir le nom des gênes.
Tu as pris mon message au premier degré et tu n'as pas perçu l'ironie ? Bien évidemment que s'il suffisait de connaître l'utilisation d'Excel pour résoudre ce problème, ça n'aurait pas traîné pendant 20 ans. Moi-même je suis un expert d'Excel mais je me garderais bien de décréter qu'il aurait fallu faire comme ci ou comme ça, en pensant innocemment que si la solution pouvait être trouvée en 2 min en commentaire d'une anecdote, le problème n'aurait pas duré aussi longtemps. Les spécialistes en résolution de problèmes en 2 min feraient bien de se pencher sur le problème de la faim dans le monde, il doit y avoir une solution qui tient en quelques lignes de commentaire puisqu'il y a largement assez de nourriture produite pour nourrir tout le monde.
L'ironie de tes messages ne m’empêche pas de te dire que les personnes en commentaires ont raison et que les scientifiques de l'anecdote aussi. D'ailleurs il serait plus judicieux d'expliquer aux personnes en commentaire pourquoi les scientifiques ont opté pour cette méthode plutôt que de répondre ironiquement.
A mon avis, ce qui complexifie sûrement le problème, même si il y a une solution simple pour désactiver la conversion automatique au niveau de la cellule ou globalement, c'est que les scientifiques veulent certaines cellules ou ça s'applique et d'autres non.
Et c'est là que les erreurs d'inattention apparaissent...
Du coup la solution adoptée est sûrement la plus pragmatique.