Six questions à poser avant de sauter dans une feuille de calcul

Six questions à poser avant de sauter dans une feuille de calcul

Demandez un tas de chercheurs s’ils utilisent des feuilles de calcul dans leur travail et vous devez toucher un nerf. Beaucoup ont juré des feuilles de calcul, d’autres jurent par eux, et certains jurent violemment lorsqu’ils sont obligés de les utiliser.

Qu’est-ce qui rend ce symbole de la monotonie de l’entreprise si polarisante? Les feuilles de calcul sont largement disponibles mais peuvent provoquer des maux de tête pour les négligents. Par exemple, il est facile de remplacer le contenu d’une cellule de données, par exemple ou de choisir la mauvaise plage pour un calcul et de se terminer avec des valeurs incorrectes. Parfois, le logiciel lui-même peut gêner: par exemple, Microsoft Excel est connu dans les cercles de génétique pour convertir automatiquement des noms tels que. 4 octobre aux dates.

Mais cela ne signifie pas qu’ils sont un cas perdu. “Il y a une sorte de croyance qu’une feuille de calcul n’est pas un bon outil pour faire de la science”, explique Yanina Bellini Saibène, “et ce n’est pas correct.” Bellini Saibene est un scientifique des données à Santa Rosa, en Argentine et responsable de la société pour Ropensci, une initiative à but non lucratif à Berkeley, en Californie, qui fournit des outils logiciels open source pour les utilisateurs du langage de programmation R. Rainyard a une place dans les boîtes à outils des chercheurs, dit-elle, mais, mais comme chaque outil, leur efficacité dépend.

Malheureusement, un manque d’éducation standardisée a conduit certains chercheurs à développer de mauvaises habitudes de données qui sapent finalement le travail de la feuille de calcul pour être utile, explique Karl Broman, statisticien à l’Université du Wisconsin-Madison, qui a écrit sur les feuilles de calcul de données (KW Broman & Kh J’ai. État. 722–10; 2018). “Les gens sont créatifs dans la façon dont ils veulent abuser des feuilles de calcul”, dit-il en riant.

La prochaine fois que vous songez à utiliser une feuille de calcul pour la recherche, voici six questions que vous pouvez vous poser de les rendre plus efficaces.

Où sont mes données brutes?

Avant de faire quoi que ce soit avec un fichier de données, assurez-vous d’avoir enregistré une version vierge et clairement étiquetée des idées de données brutes en tant que fichier en lecture seule dans un dossier séparé.

“Chaque fois que vous interagissez avec Excel, une opportunité d’écriture accidentellement quelque chose quelque part et de ne pas le réaliser”, explique Broman. Lorsque même une seule touche peut écraser ou supprimer des données écraser les données, il encourage les chercheurs à verrouiller leur fichier de données principal et à ne pas les déranger. Au lieu de cela, faites une copie des données brutes et utilisez le duplicate comme version de travail.

Qu’est-ce que je veux réaliser?

Marla Hertz, bibliothécaire de direction des données de recherche à l’Université de l’Alabama à Birmingham, dit que de nombreux problèmes liés à la feuille de calcul proviennent d’essayer de faire toutes les étapes d’une analyse dans un seul fichier. Chaque phase du cycle de vie des données – des données brutes et traitées à l’analyse et le nombre final – sert un objectif clair et doit être séparé des autres étapes.

Obose Eselbor, technicienne de logiciels de recherche au Leeds Institute for Data Analytics de l’Université de Leeds, au Royaume-Uni, affirme que sa stratégie de nettoyage et d’analyse des données dépend de ses objectifs, qu’il s’agisse d’une visualisation rapide ou d’une figure digne de publication. Avoir un objectif clair aide Eselebor à rester concentré tout en nettoyant dans de grands ensembles de données désordonnés. Ses suggestions pour éviter d’être dépassées est de s’attaquer aux problèmes un à la fois, comme la normalisation de tous les formats de date ou le suivi de toutes les cellules vides avant de passer à autre chose.

Triptych de gauche à droite - Yanina Bellini Saibene, Marla Hertz et Obose Eselbor.

La chercheuse des données Yanina Bellini Saibene (à gauche), la bibliothécaire de gestion des données de recherche Marla Hertz (Centre) et le technicien logiciel de recherche Obose Eselbor.Crédit: LR: EMBL Photolab; Lexi Coon / conseil d’administration de l’Université de l’Alabama pour l’Université de l’Alabama à Birmingham; Programme de stage noir HDR UK Black

J’utilise le bon outil?

Si les cibles sont la saisie et la collecte des données, les feuilles de calcul vides sont suffisantes. Mais il existe de meilleurs outils qui peuvent aider à éviter les problèmes ultérieurs, explique Crystal Lewis, consultant en gestion de données indépendantes à St Louis, Missouri. La saisie de données à l’aide de formulaires numériques tels que Google Forms, Microsoft Forms, RedCap ou Qualtrics peut réduire les erreurs d’entrée de données en donnant aux utilisateurs une liste définie des paramètres qui limitent les types de valeur qui peuvent être alimentés afin que les données ne soient pas mises au mauvais endroit.

Pour l’analyse des données pures, cependant, le tableur ne devrait pas être votre premier choix, le conseiller scientifique des données Heidi Seibold à Munich, en Allemagne, directeur co-exécutif de la Digital Research Academy, un réseau qui offre une éducation pour améliorer la qualité de la recherche. Contrairement à un script écrit dans un langage de programmation tel que Python ou R qui documente à chaque étape du processus et peut être stocké, versionné et exécuté, une analyse qui se produit dans une feuille de calcul à l’aide de pivot et de clic est difficile à suivre et encore plus difficile à reproduire.

Les feuilles de calcul ne doivent pas non plus être utilisées si vous avez un ensemble de données particulièrement important, explique Eselbor. Elle rappelle une époque où ce qui aurait dû être un regard rapide sur une feuille de calcul de 100 000 rangées a continué à geler son ordinateur portable. “Habituellement, je passe à Python ou SQL pour travailler avec d’énormes fichiers.” (Le langage de requête SQL ou structuré est un langage de programmation utilisé pour gérer les informations dans les bases de données.)

Broman convient que les bases de données peuvent être utiles lorsque les choses “deviennent vraiment grandes ou vraiment compliquées ou lorsque vous avez besoin d’avoir un accès beaucoup plus rapide aux données”, mais le processus nécessite généralement des compétences en programmation. Si le projet est suffisamment complexe pour exiger une base de données, c’est probablement une bonne idée de s’impliquer de toute façon des programmeurs, dit-il.

Comment dois-je formater ma feuille?

L’une des choses les plus importantes qu’un scientifique puisse faire est de garder leur machine de calcul lisible. Cela signifie le formater de telle manière qu’un programme informatique peut se déplacer logiquement dans les données et traiter exactement les informations dans chaque cellule.

“L’ordinateur aura un rectangle de données où les lignes sont des individus ou des éléments, et les colonnes sont des mesures”, explique Broman. Il conseille que toutes les valeurs d’une colonne doivent contenir le même type de données avec le même formatage.

Les cellules vides, fusionnées ou contiennent des espaces ou des caractères spéciaux peuvent également inhiber la réadabilité de la machine, ainsi que le mélange de types de données dans une cellule (comme inclure à la fois une valeur et son appareil). Les tirets ou les soulignements peuvent être utilisés pour séparer les mots au lieu de l’espace, explique Ming Tommy Tang, directeur de la bioinformatique de la société pharmaceutique AstraZeneca à Waltham, Massachusetts. Mais il encourage les utilisateurs à ne pas les utiliser de manière interchangeable: “Soyez simplement cohérent”.

Comment explorer les données de manière responsable?

Si vous effectuez une sorte d’analyse ou d’examen dans Excel, gardez chaque ensemble de données dans votre propre feuille de calcul et limitez les calculs et visualisations aux onglets dédiés, conseille Bellini Saibene.

Leave a Reply

Your email address will not be published. Required fields are marked *