Wie is de Michael Jordan van de informatica? Nieuwe tool rangschikt de invloed van onderzoekers

Afgelopen herfst lanceerde het Allen Institute for Artificial Intelligence in Seattle, Washington, een uitdaging voor Google Scholar, PubMed en andere online zoekmachines door een dienst genaamd Semantic Scholar te onthullen. Het programma, oorspronkelijk getraind op 2 miljoen artikelen uit de informatica, was bedoeld om een ​​zoekmachine te bieden, aangedreven door kunstmatige intelligentie (AI), om de inhoud van gepubliceerde literatuur in beperkte mate te begrijpen . Het corpus is gegroeid tot 4 miljoen kranten. En vandaag voegt het instituut een nieuwe mogelijkheid toe aan Semantic Scholar met een even ambitieus doel: het meten van de invloed die een wetenschapper of organisatie heeft gehad op later onderzoek.

De tool, die zich voorlopig alleen op informatica richt, maar door de herfst en vervolgens naar andere onderwerpen zal uitbreiden naar neurowetenschappen, kan artikelen, auteurs en instellingen rangschikken op basis van een specifieke invloedsscore. De tool constateert bijvoorbeeld dat de meest invloedrijke informatica gebeurt aan het Massachusetts Institute of Technology in Cambridge. Geen verrassing daar. Maar de meest invloedrijke computerwetenschapper? Het is Michael I. Jordan van de Universiteit van Californië, Berkeley, een pionier van AI die maar weinigen buiten zijn vakgebied herkennen. "Hij staat bekend als de Michael Jordan van machine learning", zegt Oren Etzioni, directeur van het in Seattle gevestigde Allen Institute dat Semantic Scholar heeft opgericht. (Klik hier voor een lijst met de top 50 auteurs en hier voor een lijst met de top 50 domeinen.)

Als buitenstaanders de ranglijst van Semantic Scholar betrouwbaar vinden, kunnen de cijfers worden gebruikt door huur- en tenure-commissies. Dat komt omdat invloed moeilijk te meten is. De oude manier is om citaten te tellen. Dergelijke tellingen zijn een hoeksteen geworden van de statistieken van de academische uitgeverijsector, waarbij Thomson Reuters, Elsevier en anderen toegang verkopen tot bibliografische databases waarmee gebruikers de nummers kunnen uitvoeren.

Maar niet alle citaten zijn gelijk gemaakt bijvoorbeeld, aangehaald als de inspiratie voor een heel artikel is heel anders dan een korte vermelding in de sectie methoden. Dus de ruwe telling kan een misleidend portret van de impact van een wetenschapper schilderen. En onderzoekers klagen dat traditionele op citaten gebaseerde statistieken hebben bijgedragen aan het creëren van een "publiceren of vergaan" -mentaliteit, waardoor ze worden gedwongen om zo snel mogelijk kranten uit te spugen, ongeacht het belang van de bevindingen, in de hoop citaten te verzamelen.

Wat volgens sommigen nodig is, is een meer directe meting van de feitelijke invloed van een paper op toekomstig onderzoek. Daarom bouwde het team van Etzioni een nieuwe tool in Semantic Scholar waarmee een influence-grafiek kan worden gemaakt. De meeste papieren in de database zijn in PDF-indeling, die voor een mens gemakkelijk te lezen is, maar er gewoon uitziet als een klodder ongestructureerde tekst op een computer. Meer lezen als een mens vereist machinaal leren, een techniek die een computer helpt om nauwkeurige schattingen te maken. Het moet bijvoorbeeld niet alleen de verschillende secties van het papier ontdekken Inleiding, methoden, resultaten maar ook de toon onderscheiden van hoe papieren worden geciteerd. Dus gebruikte het Allen Institute-team machine learning om een ​​statistisch model te trainen dat al deze functies detecteert. Toen verbeterde de computer zijn model gestaag door zijn gissingen te vergelijken met die van menselijke experts die een voorbeeld van de papieren hadden samengesteld.

Voorlopig meet het systeem alleen "directe invloed" tussen papieren die elkaar citeren, zegt Etzioni, maar toekomstige versies zullen de indirecte invloed verklaren van papieren die papieren noemen die op hun beurt andere papieren noemen, enzovoort.

Testrit

De tool debuteerde vandaag op www.semanticscholar.org. Wetenschap vroeg Jeff Clune, een computerwetenschapper aan de Universiteit van Wyoming in Laramie, om een ​​proefrit te maken.

Het eerste wat Clune deed, was naar zijn eigen buurt kijken in de invloedsgrafiek. "Het is ontzettend leuk", zegt hij. "Ik kan zien welke wetenschappers mijn eigen carrière het meest hebben beïnvloed, welke wetenschappers ik het meest heb geïnspireerd, en hetzelfde voor elke andere wetenschapper." De meeste resultaten waren precies wat Clune verwachtte - zijn mentoren hadden invloed op hem en hij had invloed op zijn afgestudeerde studenten en postdocs - maar er waren enkele verrassingen. Hij was bijvoorbeeld niet bekend met de naam van iemand die uitgebreid vervolgonderzoek heeft gedaan, geïnspireerd op de kranten van Clune.

Maar naast de entertainmentwaarde, gelooft Clune dat de tool waarde kan hebben in het academische wervings- en promotieproces. De commissies die die beslissingen nemen, worden onder druk gezet om niet alleen kandidaten te rangschikken door het succes van eerder werk, maar om de toekomstige impact van elke kandidaat te voorspellen. Semantic Scholar probeert te onthullen wat "hot" is in het veld door de "snelheid" en "versnelling" van werklichamen te meten, metingen van hoe snel anderen bepaald werk citeren, en of dat trending is. Departementale commissies berekenen dat al 'ter plekke', zegt Clune, dus die cijfers zullen wennen, voorspelt hij.

Maar dat aspect baart hem ook zorgen. Tot op zekere hoogte is Semantic Scholar 'een zwarte doos', zegt Clune. "Zullen mensen begrijpen waar de cijfers vandaan komen?"

Etzioni erkent de troebelheid van hoe de algoritmen de resultaten produceren. "Het is altijd een afweging in machine learning", zegt hij. "Een ding dat helpt, is dat je voorbeelden kunt zien van waar de nummers vandaan komen als je over de nummers zweeft."

Ondertussen neemt de Michael Jordan van machine learning zijn toppositie in de pas, maar wijst krediet af. "Ondanks de mythologieën die historisch zijn opgebouwd rond bepaalde individuen in de wetenschap en wiskunde, geloof ik persoonlijk dat het de netwerken zijn waartoe onderzoekers behoren die het meest voorspellend zijn voor hun succes, " zegt hij. "Mijn eigen persoonlijke netwerk zit vol met geweldige mensen die geweldige ideeën hebben gehad."

Het team van Etzioni laat Semantic Scholar nu los in een enorm corpus van onderzoekspapers die zich richten op de hersenen. Die tool en de invloed-ranglijst voor hersenonderzoekers zullen op 12 november debuteren tijdens de Society for Neuroscience-bijeenkomst in San Diego, Californië.