La science de l'information

Mathématiques, sciences humaines, anthropologie, écologie, biologie, génétique, médecine, ou encore philologie, linguistique, grammaire et autres. La vaste partie consacrée aux sciences dans leur ensemble, et dans leur unicité.
Répondre
Invité

La science de l'information

Message par Invité »

Coucou,

J'ouvre ce post parce que je me suis rendu compte qu'on me pose souvent des questions sur mon domaine d'étude, et puis quand je l'explique, je me rends compte que c'est soit très méconnu, soit que cela semble magique et donc parfois dénué de sens (surtout dénigré par les spécialistes d'un domaine d'étude précis), soit qu'il y a beaucoup d'amalgames qui sont faits, et qu'au final à la fois mon métier et mon domaine ne sont pas hyper connus. J'ai même eu une fois une personne qui a comparé mon domaine à de la pseudo-science ou de la para-science et j'étais littéralement scié.

C'est la faute de personne, c'est seulement dû au fait que de plus en plus aujourd'hui nous sommes tous plus ou moins multidisciplinaires et travaillons dans des cadres interdisciplinaires ou pluridisciplinaires (ca coûte moins cher !). J'ai fait une rapide recherche sur le forum, et je n'ai pas trouvé de topic qui en parlait, alors j'ouvre celui-ci - je m'excuse si j'ai raté un topic qui en parle - et je vais surtout livrer un témoignage, donc si d'autres personnes sont dans le domaine, je les invite à venir compléter, infirmer, confirmer ce que je vais écrire ici.

Donc pour expliquer un peu le contexte, je suis Assistant Professor (l'équivalent de Maître de conférence en France) en Computer Science, et plus particulièrement je suis modélisateur généraliste. Je suis donc universitaire, mais aussi ingénieur de formation puisque avant de faire ma thèse, j'ai eu l'occasion de travailler dans l'industrie.

Je vais vous parler ici donc de ce qu'est précisément un modélisateur et plus particulièrement un truc qui est moins connu (ou qu'on croit connaitre) qui s'appelle la Science de l'Information qui est mon domaine d'étude (avec une formation en sciences de la communication), et que j'appelle affectueusement la Science globale du Monde, ou la Science du tout et du rien, et qu'on confond particulièrement pas mal en France avec l'informatique pour une raison simple: le mot Informatique en France est un mot fourre-tout. Si vous voulez une base sur ce qu'est la science de l'information et, en particulier le sous-domaine de la modélisation, en vous passant de mon long speech ici, je vous renvoie aux pages du CEA et de Wikipedia qui sont plutôt bien faites je trouve:

- http://www.cea.fr/comprendre/jeunes/Pag ... ateur.aspx
- https://fr.wikipedia.org/wiki/Science_d ... nformation
- https://en.wikipedia.org/wiki/Information_science

Donc déjà qu'est ce que la science de l'information ? Comme son nom l'indique, il s'agit de la science qui s'intéresse à l'information en tant qu'objet, qui contient un message ou une connaissance qu'on diffuse ou qu'on partage à l'aide d'un signal (un signal étant un moyen - ou un média - qui peut être le son, la parole, l'image, la syntaxe, etc). Le mot "information" lui-même signifie "forme de" ou "donner forme à une idée ou à l'esprit". Une information est donc tout objet qu'on peut percevoir au travers d'un procédé (appelé capture) et qui a un sens. D'une manière générale, tout peut donc être information à partir du moment où on peut le manipuler (exemple: les données contiennent certaines informations). La science de l'information s'intéresse donc à ce qu'est une information, comment on la caractérise, comment on l'analyse, comment on la collecte, comment on la classifie, comment on la manipule, comment on la stocke, comment on la récupère et comment on la protège, à la fois en tant qu'objet abstrait, mais aussi en tant qu'objet concret lorsqu'on l'applique à un domaine.

A noter qu'ici on fait une distinction entre science de l'information et sciences de la communication qui ont toutes les deux pour objet l'information, mais les secondes s'intéressent à la construction médiatique pour donner un certain pouvoir (au sens politique du terme) à un message et à la meilleure façon d'énoncer une information pour donner du poids au message ou une sous-partie du message. Les sciences de la communication s'intéressent donc plus au média qu'à l'information elle-même. Comme les deux sciences sont assez proches, on a inventé une autre science qui sont les Sciences de l'Information et de la Communication qui sont à l'intersection des deux premiers ensembles et qui étudient la relation entre les deux, mais dont je ne vais pas parler ici. L'idée pour un scientifique de l'information c'est de s'abstraire totalement de la partie communication pour extraire l'essentiel de la donnée, le scientifique de la communication s'intéresse à l' "enrobage" (le média), et le scientifique de la communication et de l'information fait le lien entre les deux (comment faire un bon kinder surprise, quel dose de chocolat, quel dose de jouet, etc).

A noter qu'il ne faut pas confondre la science de l'information et la théorie de l'information, cette dernière s'intéressant plus à l'aspect quantitatif qu'à l'aspect qualitatif, mais qu'un scientifique de l'information peut connaître s'il est un peu plus mathématicien.

Je précise aussi que la science de l'information a des liens avec le journalisme, mais elle est différente dans la mesure où on ne s'intéresse pas au fait d' "informer les personnes". Information et connaissance sont étroitement liées (puisque qu'un manque de connaissance engendre un besoin d'information => et donc il y a un lien entre science de l'information et science tout court). Je vais m'abstenir ici de faire tout le déballage vrai science vs fausse science, qui est d'une relative complexité. Je ne vais pas trop entrer dans les détails méthodologiques qui font que la science de l'information est une science à part entière.

Donc historiquement, en France, la Science de l'Information est une sous-discipline des mathématiques (qui a pour objet l'abstraction du réel sous forme d'idées), et est étroitement lié à l'Informatique qui est la science du traitement automatique de l'Information. On a du mal en France à la reconnaitre en tant que science indépendante, et on la voit au travers d'autres sciences. En d'autres termes, une grande partie de ce qu'on appelle "des informaticiens" font en réalité de la science de l'information. La distinction est plus visible dans les pays anglophones, parce qu'on a 4 termes différents:

- Computer Science qui traite de la partie du théorique du traitement automatique de l'information par le calcul; On parlera de computer scientist.
- Computer Engineering qui traite de la partie génie (ou ingénierie) du traitement automatique de l'information; On parlera de computer engineer.
- Information Science qui est la science de l'information d'une manière plus large, sur le plan théorique, technique et pratique; On parlera d'information scientist.
- Informatics qui est la science qui s'occupe de traiter l'information à partir des données et les systèmes d'information, et à la technologie de l'information; Ceci se rapproche le plus du terme "directeur des systèmes d'informations" au sens traditionnel.

Les 4 sont associés à l'Informatique en France, mais dans la mesure où on applique l'Informatique à à peu près tout de nos jours, le dernier touche à pratiquement tous les domaines scientifiques (et c'est aussi pour ça qu'on a commencé à inventer des métiers comme les bio-informaticiens, les chémo-informaticiens, les physico-informaticiens, le data scientist, etc). C'est aussi pour ça que bon nombre d'informaticiens ne sont pas des experts (ou sont de mauvais informaticiens) dans l'imaginaire collectif (bon nombre d'informaticiens ne savent pas programmer, ne sont pas capables de réparer un ordinateur, etc, mais simplement parce qu'ils ne font pas ce que vous pensez qu'ils font !), et ce n'est pas parce que vous savez programmer que vous faites de l'informatique. On commence aussi à faire des distinctions en IA entre data scientist (scientifique des données) et machine learning engineer (qui sont des computer engineers spécialisé dans l'application du data science à l'information). Il est même probable de nos jours que les gens ont du mal à définir ce qu'ils font vraiment (des informaticiens qui se prétendent informaticiens alors qu'ils ne le sont pas, des scientifiques de l'information qui se présentent comme biologiste alors qu'ils ne le sont pas, et même parfois des scientifiques de l'information qui ont du mal à savoir s'ils font de la science de l'information ou pas !).

L'informatique lui-même est normalement une sous-discipline des maths, et l'informatique que le grand public s'imagine est plus lié au computer engineering, lui-même associé à l'électronique dont une partie est liée à la science de l'information (j'espère que vous avez tout suivi !). En d'autres termes, plus un informaticien sera spécialisé dans un de ces sous-domaines, moins son bagage sera grand dans les autres domaines, et plus on sera généraliste, plus on maîtrisera l'ensemble des domaines mais on sera moins précis et moins performant (dans la mesure où on n'a pas certaines habitudes qu'un spécialiste possède de par son expérience). En allant plus loin, on peut arriver à voir une différence entre l'automaticien et l'informaticien (les deux font fondamentalement la même chose, sauf que l'informaticien voit ça du point de vue de l'information, alors que l'automaticien voit ça du point de vue système, même si la notion de systémique peut être aussi lié à l'informatique - on parle aussi d'informatique industrielle).

Plus concrètement, un scientifique de l'information s'intéresse à comprendre les mécanismes de la conceptualisation et de l'information en elle-même sur le plan théorique (tout ce qui est méta-) et à la classification de l'information (à la manière d'un documentaliste). On va par exemple définir des ontologies, essayer de comprendre les mécanismes de la représentation de la connaissance, essayer d'établir des liens entre concepts, idées, preuves, etc. Sur un plan plus spécialisé, un scientifique de l'information spécialiste dans un domaine de connaissance joue le rôle d'un libraire. A partir d'une quantité énorme d'information, on va être capable d'extraire les informations intéressantes et guider les experts de ce domaine vers ces informations. Les experts vont par la suite vérifier ces informations selon les critères de leur domaine et interpréter les résultats en fonction des connaissances qu'ils ont. C'est aussi pour cette raison que je suis particulièrement affecté par la fast-science, peut-être plus qu'un scientifique spécialisé dans un domaine d'études.

De nos jours, on forme des spécialistes qui sont capables de faire les 2 (donc extraire l'information intéressante de la masse et interpréter les résultats - ce sont les xxx-informaticiens dont je parlais plus haut, ou vous pouvez aussi croiser les termes de xxx computationnelle comme la biologie computationnelle ou la neuropsychologie computationelle). La contrepartie, c'est qu'on ne forme pas ces personnes là à la science de l'information, et donc elles ne peuvent pas changer de domaines comme un scientifique de l'information pourrait le faire. Elles ne sont pas non plus des informaticiens au sens de la Computer Science (mais on ne le leur demande pas).

Pour illustrer concrètement, un bio-informaticien spécialiste en génomique connait parfaitement les algorithmes de traitement et de séquençage de gène, est capable d'interpréter les résultats comme un biologiste le ferait, mais il ne peut pas passer à la chémo-informatique. Un scientifique de l'information généraliste à la différence connait les notions clefs de la génomique, connait les algorithmes de séquençage en général, mais ne sait pas lesquels sont les plus optimaux dans le cadre précis de la génomique, et n'est pas capable d'interpréter aussi finement les résultats qu'un bio-informaticien, parce qu'il ne connait pas toutes les subtilités qu'il pourrait y avoir en génomique (et donc il aura besoin d'un biologiste pour aboutir à la même conclusion qu'un bio-informaticien). En contre partie, ce scientifique de l'information pourra travailler dans d'autres domaines assez aisément (chimie, aeronautique, industriel, etc). C'est un trade-off particulier. Ensuite parmi les scientifiques de l'information, il y a encore ceux qui sont spécialistes de la théorie et qui ne s'intéressent pas au côté applicatif (et qui donc ne s'intéresse pas aux autres domaines d'études), ceux qui s'interessent plus au côté applicatif (et donc plus orienté sur la technique et moins sur le côté théorique de l'information) et qui sont des spécialistes d'un domaine d'étude particulier, et ceux qui sont entre les 2.

Une autre chose intéressante avec la science de l'information, c'est qu'on emprunte beaucoup de choses à plusieurs domaines: l'informatique, les maths, la philo, la psycho, les sciences cognitives, etc.

Je vous renvoie à deux cartes excellentes et au tableau de la carte des connaissance de Zins relatif à la Science de l'Information, et qui vous explique tous les raffinements possibles:
https://upload.wikimedia.org/wikipedia/ ... mation.png
https://ateliercartographie.files.wordp ... tesic2.pdf
https://www.researchgate.net/publicatio ... es/figures

Il faut imaginer pour le premier schéma que toutes les autres sciences se placent autour en cercle concentrique ou en fleur, et que plus on est à l'extérieur, plus on est spécialiste d'un domaine et moins touche à tout, et plus on est proche du centre, plus on est à même d'aborder et de comprendre tout un tas de sujet, et de travailler dans un tas de domaine, sans avoir la possibilité de comprendre toutes les subtilités propres à ces domaines et liés à l'expérience.

En ce qui me concerne, je suis donc très proche du traitement de la connaissance, ce qui me permet de travailler dans plusieurs domaines (et donc toujours en binôme avec un spécialiste), ce qui rend la chose un peu plus magique: je peux m'abstraire plus facilement de la communication, et m'intéresser à l'essentiel, et faire des liens en comparant avec ce qui se fait dans d'autres domaines, de lier les domaines entre eux (par exemple, je serai plus à même d'avoir des idées qui vont lier des résultats en biologie et des résultats en médecine clinique, de les prouver, et puis plus tard, je pourrais travailler en aéro comme en IA, ou faire du software engineering - ce qui fait de moi un "informaticien généraliste complet" au sens où je maîtrise les bases des 4 domaines de l'Informatique et que ma formation est centrée en science de l'information, et donc je peux chercher et trier beaucoup plus vite ce qui m'intéresse; en contrepartie, je vais être très souvent moins précis dans les termes dans les cas où il y a subtilité pour un expert d'un domaine). La contrepartie, c'est que comme je l'ai dit, je suis beaucoup moins spécialiste donc je ne peux pas participer à des débats de fond lorsqu'ils sont trop pointus ou qu'on est dans des subtilités extrêmes, je dois faire attention lorsque je suis en phase d'acquisition rapide des connaissances scientifiques (parce qu'il faut normalement du temps pour acquérir et comprendre des connaissances scientifiques lorsqu'on n'est pas spécialiste d'un domaine), ne pas me laisser prendre au jeu de la vulgarisation, de la fausse science ou de la fast-science. Heureusement pour moi, j'ai des outils théoriques qui me permettent d'extraire rapidement l'essentiel, mais il arrive très souvent que je puisse louper des subtilités (et donc seul le temps corrige ça). On est donc particulièrement vulnérable à la notion d'opinions vs connaissances, mais on en est aussi tout à fait conscient, ce qui nous pousse à chercher toujours plus de connaissances au travers de l'information.

Maintenant j'en viens à la notion de modélisation. Historiquement, la modélisation est une sous-discipline des maths puisqu'elle consiste à essayer de travailler sur de l'abstraction du réel. En réalité, il y a autant de définitions de modèle (ou modélisation) qu'il y a de domaines scientifiques, et il y a même plusieurs sous-catégories de modélisation (modélisation des données, méta-modélisation, modélisation des processus et des traitements, etc). Par conséquent, il y a autant de modélisateur qu'il y a domaines. De la même manière qu'il y a des spécialistes en science de l'information, il y a des spécialistes en modélisation (il y a des personnes qui sont spécialisés en biostatistique par exemple, en épidémiologie, etc). Un spécialiste de la modélisation biologique maîtrise tous les outils relatifs à la biologie, un modélisateur plus généraliste va s'intéresser plus à la méthodologie, à la théorie de la modélisation, à la création de la méthodologie de modélisation, et va maîtriser tout un tas d'outils qui vont le rendre polyvalent mais moins précis (on ne fait pas toujours les bons choix). Ce qui engendre aussi un problème de vocabulaire.

Par exemple, lorsqu'un automaticien va parler de "système", il va voir une machine. Lorsqu'un modélisateur en science de l'information va parler de "système", il va faire référence à un phénomène (ca peut être une machine, un phénomène climatique, un évènement épidémiologique, etc).

Lorsqu'on modélise à partir des données, on n'essaie pas nécessairement de faire de la prédiction. Il s'agit surtout de faire une simplification d'un phénomène centré sur des aspects particuliers pour aider à la compréhension pour un spécialiste. Typiquement, on va évacuer de notre représentation toute l'information qui n'est pas nécessaire à la compréhension d'un aspect particulier d'un système, et garder uniquement ce qui intéressant pour aider à prouver ou infirmer des propriétés qui intéressent le spécialiste. On a donc à la fois une vue globale, et une vue centrée des systèmes. De fait, la modélisation dépend de plusieurs choses:
- la qualité du modélisateur: il faut savoir à quel niveau placer l'abstraction, ce qui n'est pas simple, parce qu'il faut évacuer la communication, il faut savoir quel est le degré de corrélation entre différents phénomènes qui s'entrelacent, ne pas faire un modèle qui irait dans le sens de notre avis et qui nous pousserait à s'abstraire de choses qui sont importantes et qu'on supprimerait juste pour se donner raison, etc;
- la qualité de l'expérimentation : un bon modèle sert de base de réflexion, et donc il doit être confronté à la réalité pour savoir si effectivement on peut en tirer quelque chose. Il y a des modèles formelles et des modèles expérimentaux, les deux ont leurs avantages et leurs inconvénients.

En d'autres termes, il n'y a pas un SEUL UNIQUE modèle vrai, mais il peut y avoir plusieurs modèles qui décrivent plusieurs aspects d'un même phénomène et qui soient tout à fait valides. Aussi, il y a autant de modèles qu'il y a d'êtres humains (parce que la modélisation est procédé qu'on pratique tous inconsciemment au minimum au quotidien), et donc ce qui intéressant c'est de pouvoir discuter sur ce qui rend un modèle plus vraisemblable qu'un autre. Pour un scientifique de l'information, un modèle peut être partiellement vrai, dépendant donc d'un contexte particulier (et donc vous avez ici un echo à ce que je disais sur la science et la vulgarisation).

Il faut savoir que la théorie de la modélisation est relativement récente (1976), et qu'on essaie de donner un cadre pour tous les modélisateurs. En effet, n'importe qui peut faire un modèle, et il y a des modélisateurs qui sont spécialistes d'un domaine, qui produisent des modèles tout à fait valide, sans respecter nécessairement la méthodologie de la modélisation. Le mot "modèle" est un peu utilisé à tort et à travers aussi, j'avoue que parfois, ca me fait bondir de ma chaise. C'est aussi pour ça que j'essaie un peu de me battre contre la mode qui consiste à faire de tout le monde des informaticiens, et tout le monde des modélisateurs (même si dans les faits, on tend vers ça. Etant donné la masse d'information qu'il y a, on préfère un spécialiste qu'un généraliste), et cela a forcément tendance à énerver un tas de gens (qui font des modèles !).

Enfin, il y a les modèles de prédiction qui permettent d'essayer de prédire le futur ou le passé avec une certaine probabilité par rapport à ce qu'on connait. Moins on a de données, moins les modèles sont précis, et plus il est difficile de prédire. Plus on a de données, plus on a un risque de s'affranchir dans le process d'abstraction d'informations qui pourraient être importantes pour expliquer un phénomène (par exemple, si on prend un gestion de foule en milieu d'incendie, il faut prendre en compte le mouvement de foule, la propagation du feu, la disposition des installations; comme on va avoir du mal à traiter tout ça, on va faire une abstraction et prendre en compte que la foule et la propagation du feu, alors que peut-être la disposition des installations va jouer un énorme rôle). Ce qui signifie qu'un modèle n'est valide que dans un cadre donné pour un temps donné, et que donner du crédit à un modèle dépend d'une méthodologie rigoureuse normalement (il ne s'agit pas juste de faire un modèle et de le confronter à la réalité, ca ne suffit pas). Par ce fait là, un spécialiste qui n'a connaissance qu'un domaine fera des modèles précis pour son utilisation, grâce à son expérience, mais prendra en compte moins d'éléments. Un modélisateur plus généraliste va pouvoir naviguer dans différents domaines, et corréler des informations pour essayer d'expliquer au mieux un phénomène, tout en sachant qu'il y a un degré d'imprécision plus élevé. Donc tout notre travail consiste à trouver le bon niveau d'abstraction, d'essayer de supprimer l'émotionnel et la communication de l'information pour être le plus objectif possible tout en sachant qu'on est très subjectif, pour essayer de prédire au mieux, en l'état actuel de connaissance scientifique, ce qui va possiblement se produire.

Ce qui est intéressant ici, c'est qu'on a donc des problèmes philosophiques qui apparaissent et un bon nombre de questions existentielles puisqu'on essaie fondamentalement de comprendre le fonctionnement du monde. C'est pour ça qu'à titre personnel, je peux naviguer dans différents sujets et que vous pouvez par exemple me trouver un jour en train de travailler sur un projet d'intelligence artificielle, et un autre jour sur le covid en collaboration avec des cliniciens, des biologistes, etc. (modélisation moléculaire, modélisation de phénomène épidémiologique, établissement de modèles fonctionnels, etc), tout en sachant que je peux avoir un rôle de "libraire" (en faisant de la veille scientifique large), un rôle d'ingénieur en informatique, un rôle de modélisateur, etc. Par contre effectivement, je travaille toujours en équipe en binôme avec des spécialistes et je suis obligé de parler avec énormément de scientifiques pour maîtriser rapidement tous les aspects clefs des domaines que je ne connais pas, et surtout à un niveau scientifique: je ne peux pas me permettre de vulgarisation puisque je dois pouvoir être capable de fournir à des experts des modèles qui ont du sens pour eux. Ca implique aussi de savoir prendre en compte toutes les hypothèses, toutes les opinions, faire le tri entre connaissances et opinions, etc, et surtout être plus scientifique qu'un journaliste (on ne s'intéresse pas à relater des faits, on essaie de comprendre le sens qu'il y a derrière sur le plan scientifique). Et il est bien évident qu'un scientifique de l'information (ou un informaticien) ne peut pas tout faire même s'il est transdisciplinaire, on a chacun des domaines de prédilection, et un ou plusieurs domaines de spécialité.

Mais pour résumer: mon rôle en tant que modélisateur consiste essentiellement à aider les experts dans la compréhension de l'information (i.e. d'un phénomène ou un système), au moyen d'outils informatiques (mathématiques), et de leur permettre de se concentrer sur des problématiques spécifiques et concrètes, et qui devraient leur permettre de prendre des décisions (le processus de décision en tant que tel ne me concerne pas, je me contente de fournir des explications concrètes par rapport à ce qu'on extrait comme connaissance dans l'information).

Et ce qui est aussi bien avec la science de l'information, c'est qu'on finit tous par en faire plus ou moins sans s'en rendre compte !

Nous ne sommes pas nombreux dans le monde à faire de la science de l'information et de la modélisation comme je le fais à un niveau très abstrait (on doit être une centaine dans le monde), la grande majorité étant plutôt spécialisée dans un domaine précis et donc plutôt associé à ces domaines (biostatisticien, épidémiologiste, pharmaceutiques, chémostatisticien, etc). C'est aussi très difficile parce qu'on passe notre temps à essayer de comprendre les différences sémantiques d'un même terme pour adapter notre langage à chacun des domaines, et parfois il faut arriver à démêler des concepts similaires (notamment pour ceux qui se spécialisent dans les ontologies). Bref, sportif mais hyper intéressant lorsqu'on a l'occasion de toucher à tout !

En espérant que cela puisse vous éclairer sur ce qu'est la modélisation et la science de l'information en générale. Si vous avez des questions, besoin de référence sur le domaine, de précision, ou si vous voulez vous-même apporter des précisions, n'hésitez pas ! Comme le domaine est assez vaste, c'est un peu compliqué d'aborder le sujet sans partir dans tous les sens.
Ces utilisateurs ont remercié l’auteur Invité pour son message (2 au total) :
daniJoemanix

dani
Messages : 1060
Inscription : mer. 26 oct. 2016 16:17
Profil : Intéressé pour une personne de mon entourage
Test : NON

Re: La science de l'information

Message par dani »

C'est vraiment très intéressant [mention]Kurai[/mention] même si je ne suis pas certaine d'avoir tout bien saisi, car cela me semble bien complexe. Ce que j'en retiens, c'est que les chercheurs de tous domaines vont de plus en plus travailler avec vous, les scientifiques de l'information, et ça donne presque le vertige.

J'ai été assez "choquée" hier en lisant l'article de mediapart que j'ai mis hier sur le fil de Covid-actu à propos de l'hypothèse de la bactérie Pretovella. Le chercheur Sandeep Chakrabory fait donc un peu le même job que toi, c'est ça ? Je remets le lien ici https://blogs.mediapart.fr/igaal/blog/2 ... e-covid-19

"Nous avons d’un côté Sandeep Chakraborty, scientifique et chercheur indien travaillant à l’Université de Californie (UC Davis), dont le domaine d’expertise est la biologie numérique ou biologie computationnelle (Computational biology).

Le travail quotidien de Chakraborty est de réunir des données publiées afin d’en tirer des éléments observationnels. Autrement dit, il scanne des études et en étudie les points communs pour émettre des hypothèses. Un peu comme un statisticien observe des corrélations statistiques avant d’interroger leur lien de causalité."

ça me semblait "fou", mais à te lire je vois des similitudes entre ce que tu décris et ce qu'il a fait. Et c'est très probablement ainsi que se développeront les futures connaissances, en y réfléchissant un peu ça semble même incontournable, c'est étonnant d'ailleurs que l'on n'en parle pas plus.

Tu aurais un exemple concret à nous donner ?
Rien ne vous emprisonne excepté vos pensées, rien ne vous limite excepté vos peurs, rien ne vous contrôle excepté vos croyances. (Marianne Williamson)

Invité

Re: La science de l'information

Message par Invité »

dani a écrit : jeu. 23 avr. 2020 10:33 C'est vraiment très intéressant @Kurai même si je ne suis pas certaine d'avoir tout bien saisi, car cela me semble bien complexe. Ce que j'en retiens, c'est que les chercheurs de tous domaines vont de plus en plus travailler avec vous, les scientifiques de l'information, et ça donne presque le vertige.

J'ai été assez "choquée" hier en lisant l'article de mediapart que j'ai mis hier sur le fil de Covid-actu à propos de l'hypothèse de la bactérie Pretovella. Le chercheur Sandeep Chakrabory fait donc un peu le même job que toi, c'est ça ? Je remets le lien ici https://blogs.mediapart.fr/igaal/blog/2 ... e-covid-19

"Nous avons d’un côté Sandeep Chakraborty, scientifique et chercheur indien travaillant à l’Université de Californie (UC Davis), dont le domaine d’expertise est la biologie numérique ou biologie computationnelle (Computational biology).

Le travail quotidien de Chakraborty est de réunir des données publiées afin d’en tirer des éléments observationnels. Autrement dit, il scanne des études et en étudie les points communs pour émettre des hypothèses. Un peu comme un statisticien observe des corrélations statistiques avant d’interroger leur lien de causalité."

ça me semblait "fou", mais à te lire je vois des similitudes entre ce que tu décris et ce qu'il a fait. Et c'est très probablement ainsi que se développeront les futures connaissances, en y réfléchissant un peu ça semble même incontournable, c'est étonnant d'ailleurs que l'on n'en parle pas plus.

Tu aurais un exemple concret à nous donner ?
Oui, c'est exactement ça. Je ne sais pas exactement quelle est sa formation, mais ce qui est décrit dans l'article correspond à ce que font une partie des scientifiques de l'information et une partie des modélisateurs issus de la science de l'information. Après, comme je l'ai dit, même en tant que scientifique de l'information, on finit par se spécialiser dans un domaine parce qu'il y a trop de choses pour un seul individu, et on finit par faire par la force des choses ce que des gens formés spécifiquement à des métiers comme la bio-statistique ou la bio-informatique font. C'est pour ça qu'on appelle cela de la biologie computationnelle (l'application du calcul au domaine de la biologie, qui est donc assez proche de la bio-informatique). La science de l'information est un peu une généralisation de tous ces nouveaux métiers, ou plutôt les sciences computationnelles sont des sous-spécialisations, des restrictions ou des applications de la science de l'information à des domaines d'études particuliers.

D'ailleurs tu verras par exemple sur la page wikipedia de la biologie numérique qu'elle est décrite comme une sous-branche de la science de l'information, et la page de l'institut pasteur est assez explicite aussi : https://www.pasteur.fr/fr/nos-missions/ ... ationnelle

Il y a donc vraiment des sous-spécialistes dans la science de l'information (comme Chakraborty visiblement) et puis des gens comme moi qui ont décidé de rester un peu plus généraliste et un peu plus agile (on peut se greffer alors à n'importe quelle département de sciences computationnelles), et qui nous intéressons à la fois à l'étude de l'information en elle-même et à son application concrète.

Pour répondre à tes deux autres questions, notamment sur le fait que ce ne soit pas plus connu, je pense que c'est surtout culturel, et surtout lié au fait que cette science est assez jeune. Dans les faits, ils commencent quand même à se rendre compte qu'il y a trop d'informations, que les systèmes sont trop intriqués, qu'il y a un soucis de communication, et donc on fait appel à nous pour démêler tout ça et essayer de redonner un peu d'objectivité subjective ou de subjectivité objective (j'aime cette phrase !).

Il y a aussi une vrai différence entre les pays américains et anglophones dans lesquels c'est un peu plus répandu, et la France (et certains autres pays européens) où on a peut-être encore une culture sectaire et élitiste de la science (qui est tout à fait justifié par le fait qu'une personne multidisciplinaire ne peut pas avoir le même degré d'expertise qu'un scientifique spécialiste). On aime bien les catégories, et on va avoir du mal avec des métiers qui sont un peu multi-casquettes. En plus, on a aussi le problème inverse: on a tendance à inventer plein de catégories par effet de mode alors qu'au final les gens finissent par faire la même chose, parce qu'on répond tous à un besoin particulier (il faut bien se nourrir dans la vie !). Donc il y a un vrai décalage entre ce qu'on peut potentiellement faire et pour lequel on nous recrute initialement, et ce qu'on fait au final dans la vie de tous les jours. Ceci a tendance à nous ramener vers les métiers qui font autorité (et donc à rattacher la biologie computationnelle à la biologie pour reprendre l'exemple).

Moi-même, je me définis avant tout comme un computer scientist avant d'être information scientist (alors que dans les faits, je m'occupe plus de science de l'information que de science informatique), et j'ai du mal avec toutes les personnes qui se définissent comme informaticien alors qu'elles n'ont pas les bagages de base en informatique (pour moi, un bio-informaticien n'est pas un informaticien par exemple). Donc on aura tendance à mettre de côté en France ces métiers là. D'ailleurs fun-fact amusant, au conseil scientifique sur le COVID, il y a Simon Cauchemez, très discret, qui est modélisateur, et qui se présente surtout comme épidémiologiste (ce qui n'est en soit pas faux parce que son domaine d'étude et d'application est l'épidémiologie). Alors lui n'est pas scientifique de l'information mais il est plus mathématicien qu'autre chose. S'il se présentait comme mathématicien, on aurait cette question d'autorité: est-ce qu'un mathématicien a la légitimité pour parler santé ? On va avoir donc plus tendance à mettre en valeur le domaine d'autorité ou d'application pour donner un peu de poids à sa parole, et au final on finit par se rattacher entièrement à ce domaine. Donc ce qu'on fait déjà avec des bio-mathématiciens sera encore plus vrai pour un scientifique de l'information.

Pour rester sur le même exemple, un décideur va surtout faire appel à un spécialiste de l'épidémiologie pour modéliser les effets de décision de confinement (sa modélisation sera plus sûre que celle d'un scientifique de l'information comme moi, parce que je n'ai pas l'expérience ou l'expertise spécifiquement liée à l'épidémiologie). Mais là où le bio-statisticien va avoir tendance à se concentrer sur la biologie et la médecine uniquement, on va avoir nous, scientifique de l'information, la possibilité d'émettre des hypothèses en croisant ce qui se fait dans d'autres domaines (pharma, chimie, génomique, etc). On les soumets ensuite aux experts pour voir ce qu'ils en pensent parce qu'ils sont les seuls à pouvoir interpréter ce qu'on a (ce que normalement a dû faire Chakraborty, et qui pour une raison ou une autre est passée dans le domaine public alors que cela n'aurait jamais dû arriver).

On aura aussi la capacité de développer des outils plus adaptés à certaines modélisations (on peut aider à la réalisation d'un réseau de neurone pour améliorer les simulations par exemple - notamment celui qui a été fait au MIT et qui prédit la fin du monde après le déconfinement :lol: ), de faire le tri dans l'information, de croiser des informations, etc. Mais dans tous les cas, on n'a pas la capacité de travailler seul. On a toujours besoin de mathématicien et d'experts avec nous. Donc forcément, on va avoir une certaine levée de bouclier aussi de la part des spécialistes lorsqu'on émet des hypothèses. On fait face à deux problèmes que j'ai décrit en pointillé dans la fast-science:

- on n'est pas spécialiste donc on n'a pas le pouvoir d'interprétation, ou du moins la preuve qu'on est susceptible de fournir est plus "faible". Et donc l'une des règles de bases qu'on se fixe, c'est qu'on émet des hypothèses, on les prouve en utilisant une méthodologie, mais la validation finale revient toujours à un expert qui a la compétence dans la science de son domaine. En d'autres termes, on n'a pas autorité scientifique, et donc le seul endroit où on a la parole, c'est uniquement en interne dans les équipes de recherche. D'ailleurs, dans les communications scientifiques en conférence ou journal, on a toujours avec nous un auteur qui est spécialiste du domaine d'application. C'est aussi pour cette raison que j'ai tendance à laisser les débats scientifiques aux spécialistes concernés, et pas trop me mettre dedans, même si en ce moment, les errements de communication ont tendance à m'énerver (j'ai rarement vu des scientifiques autant pris par la com' jusqu'à aujourd'hui, en général, ils arrivent bien à extraire les messages).

- l'histoire de catégorisation de la science a tendance à rapidement nous marginaliser (je l'ai dit en introduction, ce n'est pas une science connue, et pour certains, c'est même de la pseudo-science ou de la para-science). Donc en général, un expert ne va pas forcément donner du crédit à ce qu'on dit parce qu'il va d'abord regarder notre background, nous demander d'où on vient, etc. Et donc pour un infectiologue ou un médecin qui n'est pas habitué pas à travailler avec des scientifiques de l'information, la première impression c'est "je m'y connais mieux que lui" (ce qui est vrai !). On pourra émettre toutes les hypothèses qu'on veut, on va avoir droit: "il n'y a rien qui le prouve", alors qu'au fond, il y a des signaux si on veut bien prendre la peine de réfléchir. A partir de là, si on l'ouvre trop, on fait face à un biais d'autorité qui va avoir tendance à mettre en marge nos hypothèses et nos démonstrations (même lorsque le niveau de preuve est assez élevé). Mais sur le long terme, les spécialistes se rendent compte qu'on n'avait pas tout à fait tort (puisqu'au final des études séparées dans différents domaines ont tendance à général à mener à la même explication globale ). Par exemple: on observe en médecine clinique que les gens qui fument sont moins touchés par le covid. Peut-être qu'un jour une étude biochimique va confirmer ce fait. En général, comme on a deux niveaux ici - macroscopique et microscopique -, les médecins et les biochimistes ne sont pas au courant des résultats de l'une et de l'autre. Et on aura en général appliqué déjà un traitement à la nicotine, avant qu'on ait prouvé qu'il y a bien quelque chose dedans qui explique le phénomène. Notre travail à nous c'est justement de regarder ce qui est fait en biochimie, ce qui fait en médecine, et dire aux médecins: "Ah, est-ce que vous penseriez pas qu'on a un début d'explication là ?". C'est une caricature, parce qu'on analyse beaucoup plus en détails les données en réalité (et n'interprétez pas mes propos, je n'affirme pas que la nicotine protège du Covid, je n'en sais absolument rien).

Donc je pense que tout ceci contribue à faire à ce qu'on ne parle pas trop de nous, et qu'au final, c'est quelque chose d'assez restreints. C'est aussi une bonne chose parce que ca peut être une science qui peut apparaître comme facile pour un profane, alors que c'est peut-être celle qui nécessite le plus de rigueur.

Pour être encore plus concret, sur le COVID je travaille en collaboration avec des unités de recherche en biologie moléculaire, en microbiologie, en chémo-informatique et en médecine pour essayer de trouver des pistes sur le fonctionnement exact du virus et ses effets sur l'organisme. Donc je recoupe les différentes études qui sortent, de voir les différentes stratégies qui sont proposées (au delà de leur validité prouvée/non-prouvée par la communauté), et j'essaie d'en tirer quelque chose par modélisation ou simulation (typiquement, au lieu de se dire "est ce que tel traitement marche ou marche pas", on va essayer plutôt de répondre à des questions: "est ce qu'il n'y aurait pas des mécanismes qui expliquent pourquoi on observe ça, et là on observe ça"). Une fois qu'on a ces hypothèses, on essaie d'établir des modèles explicatifs, et on les soumet aux experts, qui poursuivent les études dessus s'ils pensent qu'il y a matière à pousser (ca peut aller de l'étude d'une protéine à des choses plus macroscopiques comme l'effet du confinement sur l'immunité collective et sur ce qu'il risque de se passer lorsqu'on va déconfiner à la vue des données qu'on connait dans les autres domaines). Donc à la fin on rejoint assez les problématiques des modélisateurs spécialisées, parce que les questions sont dictées par les décideurs, mais on a une approche transversale dans la résolution.

Sur un autre registre, je travaille sur un projet de science cognitive qui consiste à essayer d'appliquer les avancées de la neuropsychologie et de la neuroscience à l'intelligence artificielle, avec deux objectfs: essayer de comprendre par le calcul le lien entre les observations de la neuropsychologie et de la neuroscience, et améliorer les algorithmes décisionnelles en IA qui en retour vont alimenter les recherches en neuropsychologie et en neuroscience. Ce qui fait que je peux me retrouver confronter à des questions de philosophie (puisqu'on est rapidement mené à réfléchir à ce qu'on peut faire avec du calcul, et donc on va avoir des questions relatifs à la conscience qui vont apparaitre). Mon travail là dedans c'est de faire le tri et de voir s'il y a pas des liens entre tout ça, et s'il y a des liens, comment ca s'articule, et comment on peut faire avancer tout ce beau monde en adaptant les résultats d'un domaine à un autre.

EDIT: J'ai essayé de regarder un peu le profil de Chakraborty et oui, il est visiblement scientifique de l'information comme moi de formation, mais la majorité de ses travaux de recherche sont orientés en biologie computationnelle.

dani
Messages : 1060
Inscription : mer. 26 oct. 2016 16:17
Profil : Intéressé pour une personne de mon entourage
Test : NON

Re: La science de l'information

Message par dani »

Ah ouais quand même !! c'est juste passionnant, merci des précisions et exemple, je vais me mettre à suivre ça d'un peu plus près ...

Puis concernant cela
Kurai a écrit : jeu. 23 avr. 2020 12:34 Sur un autre registre, je travaille sur un projet de science cognitive qui consiste à essayer d'appliquer les avancées de la neuropsychologie et de la neuroscience à l'intelligence artificielle, avec deux objectfs: essayer de comprendre par le calcul le lien entre les observations de la neuropsychologie et de la neuroscience, et améliorer les algorithmes décisionnelles en IA qui en retour vont alimenter les recherches en neuropsychologie et en neuroscience. Ce qui fait que je peux me retrouver confronter à des questions de philosophie (puisqu'on est rapidement mené à réfléchir à ce qu'on peut faire avec du calcul, et donc on va avoir des questions relatifs à la conscience qui vont apparaitre). Mon travail là dedans c'est de faire le tri et de voir s'il y a pas des liens entre tout ça, et s'il y a des liens, comment ca s'articule, et comment on peut faire avancer tout ce beau monde en adaptant les résultats d'un domaine à un autre.
Concernant la neuropsy-neuroscience et prise de décision j'ai été interpellée par cet article récent que je présente ici qui démontre que la pensée fonctionne selon un processus qui serait plus proche d'une théorie quantique que des théories de processus d'apprentissage linéaire

viewtopic.php?f=13&t=10194&p=314703&hil ... ue#p314703

donc si tu as des éléments à amener sur ce fil là j'en serais ravie ! Merci pour toutes tes explications en tout cas, c'est une réelle découverte pour moi :)
Rien ne vous emprisonne excepté vos pensées, rien ne vous limite excepté vos peurs, rien ne vous contrôle excepté vos croyances. (Marianne Williamson)

Répondre