La technologie axée sur le ML est la prochaine percée pour les avancées en biologie

novembre 30, 2021 Par admin 0
La technologie axée sur le ML est la prochaine percée pour les avancées en biologie

Crédit d'image: kentoh/Shutterstock

Écoutez les DSI, les CTO et d'autres cadres supérieurs et cadres sur les données et les stratégies d'IA au Sommet sur l'avenir du travail ce 12 janvier 2022. En savoir plus

Cet article a été contribué par Luis Voloch, cofondateur et directeur de la technologie chez Immunai

La biologie numérique est au même stade de développement (précoce, passionnant et transformateur) qu'Internet dans les années 90. À l'époque, le concept d'adresses IP était nouveau, et être « technophile » signifiait que vous saviez comment utiliser Internet. Avance rapide de trois décennies, et aujourd'hui, nous bénéficions d'une communication industrialisée sur Internet sans rien savoir de son fonctionnement. Internet a une infrastructure mature dont le monde entier profite.

Nous devons apporter une industrialisation similaire à la biologie. Exploiter pleinement son potentiel nous aidera à lutter contre des maladies dévastatrices comme le cancer. A16z a reformulé sa célèbre devise « Le logiciel mange le monde » en « La biologie mange le monde ». La biologie n'est pas seulement une science; c'est aussi en train de devenir une discipline d'ingénierie. Nous nous rapprochons de la possibilité de « programmer la biologie » à des fins de diagnostic et de traitement.

Intégrer des technologies de pointe comme l'apprentissage automatique dans des domaines tels que la découverte de médicaments permettra d'accélérer le processus de la biologie numérisée. Cependant, pour y arriver, il y a de gros défis à relever.

Biologie numérisée : Nager dans des océans de données

Pas si longtemps après des gigaoctets de données biologiques a été considérée comme beaucoup, nous nous attendons à ce que les données biologiques générées au cours des prochaines années soient comptées en exaoctets. Travailler avec des données à ces échelles est un défi de taille. Pour relever ce défi, l'industrie doit développer et adopter des pratiques modernes de gestion et de traitement des données.

L'industrie biotechnologique n'a pas encore une culture mature de la gestion des données. Les résultats des expériences sont rassemblés et stockés à différents endroits, dans une variété de formats désordonnés. Il s'agit d'un obstacle important à la préparation des données pour la formation en apprentissage automatique et à la réalisation rapide d'analyses. Cela peut prendre des mois pour préparer les données numérisées et les ensembles de données biologiques à analyser.

L'avancement des pratiques de gestion des données biologiques nécessitera également normes pour décrire la biologie numérisée et les données biologiques, similaires à nos normes pour les protocoles de communication.

Indexation des ensembles de données dans les données centrales magasins et suivre les pratiques de gestion des données qui sont devenues courantes dans l'industrie du logiciel facilitera grandement la préparation et l'utilisation des ensembles de données à l'échelle dont nous avons collectivement besoin. Pour que cela se produise, les sociétés biopharmaceutiques auront besoin du soutien de la suite C et de changements culturels et opérationnels généralisés.

Bienvenue au monde de la simulation

Cela peut coûter millions de dollars pour mener une seule expérience biologique. Des coûts de cette ampleur rendent prohibitif la réalisation d'expériences à l'échelle dont nous aurions besoin, par exemple, pour apporter une véritable personnalisation aux soins de santé, de la découverte de médicaments à la planification du traitement. La seule façon de relever ce défi est d'utiliser la simulation (expériences in silico) pour augmenter les expériences biologiques. Cela signifie que nous devons intégrer les flux de travail d'apprentissage automatique (ML) dans la recherche biologique en tant que priorité absolue.

Avec l'industrie de l'intelligence artificielle est en plein essor et avec le développement de puces informatiques conçues spécifiquement pour les charges de travail d'apprentissage automatique, nous serons bientôt en mesure d'exécuter des millions d'expériences in-silico en quelques jours pour le même coût qu'une seule expérience en direct une période de plusieurs mois.

Bien sûr, les expériences simulées souffrent d'un manque de fidélité par rapport aux expériences biologiques. Une façon de surmonter cela est de mener les expériences in-silico in vitro ou in vivo pour obtenir les résultats les plus intéressants. L'intégration des données in-silico d'expériences in vitro/vivo conduit à une boucle de rétroaction où les résultats des expériences in vitro/vivo deviennent des données d'entraînement pour les prédictions futures, conduisant à une précision accrue et à une réduction des coûts expérimentaux à long terme. Plusieurs groupes universitaires et entreprises utilisent déjà de telles approches et ont réduit leurs coûts de 50 fois.

Cette approche d'utilisation les modèles d'apprentissage automatique pour sélectionner les expériences et alimenter systématiquement les données expérimentales pour la formation en ML devraient devenir une norme de l'industrie.

Maîtres de l'univers

Comme Steve Jobs une fois a déclaré: « Les gens qui sont assez fous pour penser qu'ils peuvent changer le monde sont ceux qui le font. »

Les deux dernières décennies ont apporté des avancées technologiques épiques dans le séquençage du génome, le développement de logiciels et l'apprentissage automatique. Toutes ces avancées sont immédiatement applicables au domaine de la biologie. Nous avons tous la chance de participer et de créer des produits qui peuvent améliorer considérablement les conditions de l'humanité dans son ensemble.

La biologie a besoin d'ingénieurs logiciels, de plus d'ingénieurs en infrastructure et de plus d'ingénieurs en apprentissage automatique. Sans leur aide, il faudra des décennies pour numériser la biologie. Le principal défi est que la biologie en tant que domaine est si complexe qu'elle intimide les gens. En ce sens, la biologie me rappelle l'informatique de la fin des années 80, où les développeurs devaient connaître le génie électrique pour développer des logiciels.

Pour toute personne dans l'industrie du logiciel, je peux peut-être suggérer une façon différente de voir cette complexité: Considérez la complexité de la biologie comme une opportunité plutôt que comme un défi insurmontable. L'informatique et les logiciels sont devenus suffisamment puissants pour nous faire basculer dans un tout nouvel engrenage de compréhension biologique. Vous êtes la première génération de programmeurs à avoir cette opportunité. Saisissez-le avec les deux bras.

Apportez vos compétences, votre intelligence et votre expertise à la biologie. Aidez les biologistes à augmenter la capacité de technologies telles que CRISPR, la génomique unicellulaire, l'immunologie et l'ingénierie cellulaire. Aidez à découvrir de nouveaux traitements contre le cancer, la maladie d'Alzheimer et tant d'autres maladies contre lesquelles nous sommes impuissants depuis des millénaires. Jusqu'à présent.

Luis Voloch est cofondateur et chef de la technologie Agent chez Immunai