Excel et les gènes sont fâchés

Proposé par
le

Pour les généticiens du monde entier, Excel est un vrai cauchemar. Le logiciel est à l'origine d'un nombre important d'erreurs, car il convertit les noms de certains gènes, comme "MARCH1" en dates (1-Mar). Environ une publication scientifique sur 5 en fait les frais, et la solution la plus simple a donc consisté à renommer des dizaines de gènes.


Tous les commentaires (74)

a écrit : Voilà comment résoudre tous les problèmes indiqués dans la première source : www.google.fr/search?q=alternative+Excel

Quelqu’un qui se plaint qu’il n’arrive pas à faire sa compta correctement avec Paint, je lui répondrai qu’il est débile et qu’il doit utiliser autre chose. Là c’est pareil.
Ex
cel ça reste un logiciel généraliste. Il permets de faire plein de choses, mais moyennement bien. Dans beaucoup de situations ça suffit, mais dès fois non. Dans ce cas il faut trouver autre chose de plus spécifique.
Comme je l’ai indiqué, les alternatives à Excel c’est pas ce qui manque. Il y en a littéralement des centaines.
Afficher tout
Comme.... ?

a écrit : J'aimerais bien connaître le rapport entre l'anecdote qui concerne un logiciel et ton commentaire qui parle d'un système d'exploitation. Tu sais que le pack Office existe pour Mac ?

J'aimerais aussi beaucoup connaître le rapport entre "être un professionnel" et "être sous mac".
Le lol était pour préciser que j’ai troll

a écrit : En même temps des pro qui ne sont pas sous Mac ....
Lol
C’est bien connu.. sous Mac, plus d’erreurs de calcul, plus de virus ( même le SIDA, COVID, Ebola, etc) , plus aucuns accidents de la route , ni lèpre ni autisme, plus de violence urbaine ni conjugale, ...
Par contre, toujours autant de cons et ça Apple n’y pourra rien :-( .. RIP Steeve Jobs..
Quel manque de bon sens de ne pas avoir de Mac pour régler tout nos problèmes !!

Témoignage prof.
Dans mon usine :
-1 on est mariés à microsoft
-2 un Mac? Même pas pourNoël, du hp de base, point.
-3 personne, sauf service info,
n'a des droits d'administrateur
-4 donc impossible de mettre un OS tournant sous Linux et encore moins installer un logiciel adapté à ses besoins
Bref, on "bricole" avec excel.
Exemple : "chasse" aux clients de plus 90 ans, souvent des clients décédés mais clôture dossier non faite=> 4 fois plus de centenaires que les stat. nationales ! LOL.
Pour travailler des dates de naissance antérieure à 1900, il faut saisir des téra brouettes de formule.
Tapez ITALIE=> transformée d'office en Italie. 150 étiquettes adresses à benner.
Les chercheurs ne sont pas idiots, mais n'ont ni le temps ni les moyens de fiabiliser. Ils font comme moi, ils s'adaptent, contournent et bricolent.

a écrit : Le lol était pour préciser que j’ai troll Ok. Au temps pour moi.

Solution ==> arrêter d'utiliser excel ?

Il suffit juste de modifier le format de cellule, easy

a écrit : Il suffit juste de modifier le format de la colonne, de la ligne voire de la cellule excel concernés en "Texte" en lieu et place du format "standard" voire "date".
Un simple paramétrage aurait évité de renommer des gènes. C'est ce changement qui est un cauchemar et pas Excel qui doit être utilisé correctement.
Si vous aviez lu les sources vous auriez pu vous rendre compte que le problème persiste même en modifiant le format sur excel alors évitez de prendre un air supérieur pour dire des anneries pareil

Posté le

android

(8)

Répondre

Le généticien est généticien, pas un peu ronde l’informatique.
Je vois les chercheurs autour de moi ben déjà ils font avec les logiciels que leur fournit l’employeur (interdiction souvent de matériel privé pour limiter les fuites/virus)
Ensuite ils prennent déjà bcp de
Temps à faire les recherches et écrire donc oui passer des heures à vérifier colonne per colonne le bon format c’est très vite infaisable (parce que le format date doit être utile sur d’autre colonne)

a écrit : Cet article explique un peu mieux le problème : www.numerama.com/sciences/641575-il-etait-plus-simple-de-renommer-des-genes-humains-que-de-mettre-a-jour-excel.html

Ce n'est pas 1 ou 2 gênes qui posent problème mais une vingtaine ayant des noms pouvant se transformer en date. Comme la nomencl
ature des gênes n'est pas si compliqué à changer et que le risque d'erreur est bien trop grand, il est plus simple de changer la nomenclature que de mettre à jour Excel ou trifouiller les données. Afficher tout
Ce changement des noms de la nomenclature est donc récente (2020) après, quand même, deux décennies d'erreurs inopinées. Je suis étonné que le HUGO Gene Nomenclature Committee n'ait pas pris cette décision plus tôt. Car, depuis au moins dix ans et comme cité plus haut, l'apostrophe règle ce problème simplement.

C'est le partage des fichiers Excel qui était problématique car celui qui le reçoit doit reconvertir les colonnes incriminées sans toujours réussir.
Encore une fois, l'apostrophe règle définitivement ce problème. C'est donc l'oubli à l'écriture des données qui pose problème.

Quant à vérifier chaque lignes pour corriger celles qui en ont besoin, une simple macro suffisait.

Pour les traitements de données hétérogènes et en grandes quantité, il existe d'autres soft bien mieux adapté qu'Excel (qui n'est pas fait pour ça) powerBI ou tableau, certains sont même open source : RStudio et possedent leur propre langage. Apres, le problème peut apparaitre au sein des fichiers collectés et condolidés et là, seul un traitement pré intégration peut corriger et ça peut être long à préparer au cas par cas.

a écrit : J’approuve totalement. Je pensais que les les chercheurs avaient un niveau d’éducation suffisant pour pouvoir utiliser Excel correctement (c’est vraiment pas compliqué). Et au pire, si Excel ne convient pas, il suffit d’utiliser autre chose. C’est pas les logiciels de traitement de données qui manquent.

Je
trouve flippant qu’un pan entier de la recherche scientifique soit obligé de se réformer à cause de Microsoft. Afficher tout
Microsoft qui finance abondamment l’OMS. L’interférence est encore plus grande que ce qu’on imagine.

vache tu es bien éloigné des considérations de récupération de données
étant informaticien je peux te dire que d'une part le format csv, c'est pas terrible du tout
il regroupe plusieurs formats non normés, problématiques de format de date, de guillemets, de séparateur, de caractères d’échappements
c'est bien pratique comme format quand il reste fixe, mais avec des milliers d'utilisateurs c'est difficile
et même si c'est un seul émetteur, regarde une fois ce qui se passe avec les chiffres covid du moment, santé publique france a plusieurs fois changé de format de date

concernant l'utilisation, une des problématiques principales quand tu fais ce genre de fichiers c'est le bruit, les erreurs de chiffres anormalement trop grand, trop faibles tout simplement parce qu'il y a trop de données
t'es pas obligé de rajouter des soucis avec des pb d'utilisation surtout si tu peux le corriger facilement
ensuite dans l'administration, libre office est utilisé, cependant le leader reste excel et souvent tu ne peux pas installer un autre logiciel. d'ailleurs les saisies peuvent être faites par des gens n'ayant pas d'intérêt financier, tu peux pas influer sur leur poste de travail

enfin bref avant de combattre la médiocrité des gens instruits, je t'invite à regarder la tienne.

Première analyse et étonnement, puis lecture des commentaires : des dizaines de millions de données provenant de plusieurs centaines de labos situés plusieurs dizaines de pays. La normalisation se fait naturellement avec le logiciel le plus employé au monde.

Bon alors un scientifique ne travail que rarement sous Excel... Le plus souvent lorsqu'une étude est prévue et qu'il y a le budget, a ce moment un outil de recueil de donnée est créé par une cellule de data management. On appel cela le CRF (case report form). C'est un espèce de formulaire qui réunit toutes les variables de l'étude et chaque personne qui va recueillir des données va le compléter. ( souvent c'est l'attaché de recherche clinique qui s'en charge). Il y a des contrôles sur les champs pour éviter les erreurs de saisies. Mais ça ressemble plus à un formulaire qu'à un fichier Excel. Donc ce n'est qu'une fois créé que l'on va lancer l'étude. Ensuite à la fin de l'étude la base de donnee est nettoyées, on va régler tout ce qui est étrange au niveau de la saisie, essayé de compléter tous les trous... C'est une étape assez longue... Enfin une fois que la base est clean elle est donnée au biostatisticien qui va faire les analyses statistiques pour la publication.
La donnée ne transite donc jamais entre les mains du chercheur responsable de l'étude. Lui ne fait que suivre les inclusions. Il intervient lors de la création du protocole, pour le suivi (inclusion, consultation) en s'assurant que les inclusions avancent bien, que les conditions de sécurités soient respectées, et pour la publication finale.

C'est formidable ! Les utilisateurs de ce site ont toujours des solutions pour tout. On se demande bien pourquoi les gens qui ont des problèmes ne posent pas d'abord la question sur ce site au lieu de perdre des années à chercher eux-mêmes des solutions concrètes en utilisant leur expérience, alors que les utilisateurs de ce site trouvent facilement des solutions après avoir découvert le problème 2 minutes avant et sans toute cette expérience et ces années d'essais !

a écrit : C'est formidable ! Les utilisateurs de ce site ont toujours des solutions pour tout. On se demande bien pourquoi les gens qui ont des problèmes ne posent pas d'abord la question sur ce site au lieu de perdre des années à chercher eux-mêmes des solutions concrètes en utilisant leur expérience, alors que les utilisateurs de ce site trouvent facilement des solutions après avoir découvert le problème 2 minutes avant et sans toute cette expérience et ces années d'essais ! Afficher tout Il faut raison garder. C'est ici un problème d'échelle.

Oui ce problème est simple a résoudre et les personnes qui commentent ici ont raison, il suffit de quelques manipulations informatiques ou de changer de logiciel pour le résoudre à échelle individuelle.

Non ce problème n'est pas si simple quand on commence à multiplier les fichiers et les données par milliers voire centaines de milliers avec des personnes et des laboratoires de recherche différents. La résolution ne ce problème est largement complexifiée par le risque d'erreur lié à la quantité de données. Ainsi, il est plus simple sur une échelle globale pour la communauté scientifique de régler le problème à la source, à savoir le nom des gênes.

a écrit : Il faut raison garder. C'est ici un problème d'échelle.

Oui ce problème est simple a résoudre et les personnes qui commentent ici ont raison, il suffit de quelques manipulations informatiques ou de changer de logiciel pour le résoudre à échelle individuelle.

Non ce problème n'
est pas si simple quand on commence à multiplier les fichiers et les données par milliers voire centaines de milliers avec des personnes et des laboratoires de recherche différents. La résolution ne ce problème est largement complexifiée par le risque d'erreur lié à la quantité de données. Ainsi, il est plus simple sur une échelle globale pour la communauté scientifique de régler le problème à la source, à savoir le nom des gênes. Afficher tout
Tu as pris mon message au premier degré et tu n'as pas perçu l'ironie ? Bien évidemment que s'il suffisait de connaître l'utilisation d'Excel pour résoudre ce problème, ça n'aurait pas traîné pendant 20 ans. Moi-même je suis un expert d'Excel mais je me garderais bien de décréter qu'il aurait fallu faire comme ci ou comme ça, en pensant innocemment que si la solution pouvait être trouvée en 2 min en commentaire d'une anecdote, le problème n'aurait pas duré aussi longtemps. Les spécialistes en résolution de problèmes en 2 min feraient bien de se pencher sur le problème de la faim dans le monde, il doit y avoir une solution qui tient en quelques lignes de commentaire puisqu'il y a largement assez de nourriture produite pour nourrir tout le monde.

a écrit : Tu as pris mon message au premier degré et tu n'as pas perçu l'ironie ? Bien évidemment que s'il suffisait de connaître l'utilisation d'Excel pour résoudre ce problème, ça n'aurait pas traîné pendant 20 ans. Moi-même je suis un expert d'Excel mais je me garderais bien de décréter qu'il aurait fallu faire comme ci ou comme ça, en pensant innocemment que si la solution pouvait être trouvée en 2 min en commentaire d'une anecdote, le problème n'aurait pas duré aussi longtemps. Les spécialistes en résolution de problèmes en 2 min feraient bien de se pencher sur le problème de la faim dans le monde, il doit y avoir une solution qui tient en quelques lignes de commentaire puisqu'il y a largement assez de nourriture produite pour nourrir tout le monde. Afficher tout L'ironie de tes messages ne m’empêche pas de te dire que les personnes en commentaires ont raison et que les scientifiques de l'anecdote aussi. D'ailleurs il serait plus judicieux d'expliquer aux personnes en commentaire pourquoi les scientifiques ont opté pour cette méthode plutôt que de répondre ironiquement.

a écrit : Tu as pris mon message au premier degré et tu n'as pas perçu l'ironie ? Bien évidemment que s'il suffisait de connaître l'utilisation d'Excel pour résoudre ce problème, ça n'aurait pas traîné pendant 20 ans. Moi-même je suis un expert d'Excel mais je me garderais bien de décréter qu'il aurait fallu faire comme ci ou comme ça, en pensant innocemment que si la solution pouvait être trouvée en 2 min en commentaire d'une anecdote, le problème n'aurait pas duré aussi longtemps. Les spécialistes en résolution de problèmes en 2 min feraient bien de se pencher sur le problème de la faim dans le monde, il doit y avoir une solution qui tient en quelques lignes de commentaire puisqu'il y a largement assez de nourriture produite pour nourrir tout le monde. Afficher tout A mon avis, ce qui complexifie sûrement le problème, même si il y a une solution simple pour désactiver la conversion automatique au niveau de la cellule ou globalement, c'est que les scientifiques veulent certaines cellules ou ça s'applique et d'autres non.

Et c'est là que les erreurs d'inattention apparaissent...

Du coup la solution adoptée est sûrement la plus pragmatique.