Zoologia digital

Além dos Leitores Humanos (I)

Ver Currículo - Ana Dal Molin • 22 de May de 2017

Não faz muito tempo, encontrei por acaso um volume publicado pela Systematics Association em 1984, intitulado “Databases in Systematics”. A primeira frase no primeiro abstract é a seguinte: “os taxônomos não têm prestado atenção alguma na eficiência da parte de processamento de informação em sua ciência” (Heywood, 1984). Heywood, que na época era professor no departamento de Botânica da Universidade de Reading, estava presenciando o que acredito ser a primeira grande “onda” de informatização relacionada a dados taxonômicos.

Em 2005, me meti pela primeira vez a tentar entender as redes de bancos de dados de biodiversidade. Na época, com exceção dos bancos de dados moleculares, não era muito comum ver bancos de dados públicos (na Internet) associados a publicações em biologia. Com relação a listas faunísticas e taxonômicas, eu conhecia aqueles que usávamos quase que diariamente, além dos poucos lugares em que podíamos obter material digitalizado na época (ou seja: PDF), que muitas vezes eram sites pessoais dos pesquisadores montados em coisas tipo o FrontPage e não muito mais que isso. Alguns museus haviam organizado listas, que muitas vezes eram limitadas a seus tipos. Na parte de descrições, a AntBase estava se consolidando, com a idéia de ter todas as descrições de formigas já feitas em um único lugar. A FishBase era meio que um exemplo que muitos secretamente desejavam para seu respectivo grupo. Alguns catálogos haviam sido publicados com cópias eletrônicas em CD. Mas para um primeiro olhar, já parecia uma quantidade enorme de iniciativas, e logo parecia que havia algumas competindo entre si: já naquele ponto, tinha-se o Catalogue of Life (2001), Wikispecies (2004), o DiscoverLife, os e-types (“e-tipos”) da All Species Foundation, a versão online do Nomenclator Zoologicus, entre outras iniciativas que tinham como objetivo tornar-se catálogos de todas as espécies.

Acontece que nesse período, entre 2000 e 2005, houve como que uma “explosão” de projetos desse tipo. Críticas severas à taxonomia “tradicional” e um senso de que não conseguiríamos conhecer todas as espécies antes que elas se extinguissem ecoavam após a Convenção da Diversidade Biológica. Dois anos antes, em 2003, Edward O. Wilson havia publicado um artigo em que estava o “germe” da Encyclopedia of Life (no mesmo volume da TREE em que se discutia “barcoding” para identificação de espécies e a taxonomia de uma maneira geral era atacada como se fosse uma ciência ultrapassada).

A maioria dos projetos que surgiram nessa época declaravam, entre seus objetivos principais, alguma variação do Artigo 17 da CBD, o compromisso de repatriar informações sobre biodiversidade. Mas obviamente um observador se perguntaria se na realidade essas iniciativas não seriam uma resposta às críticas de que a taxonomia seria uma ciência “ultrapassada” e que precisava se modernizar. Porém, depois de “fuçar” um pouco essa história, comecei a me questionar se o problema não seria do observador, que não havia feito seu dever de casa.

Ler a coletânea de 1984 mostrou que havia uma quantidade de bancos de dados taxonômicos… que não eram públicos, mas já eram produzidos desde os anos 70! O volume trata tanto de conceitos quanto apresenta várias descrições de bancos de dados de flora, de museus, de grupos taxonômicos, de localidades geográficas, e sistemas para produção de descrições (a linguagem Delta data daquela época). E uma das questões que eles já discutiam, além do otimismo de que um número cada vez maior de pesquisadores estava adotando bancos de dados, era “a falta de comunicação entre projetos, a falta de material publicado a respeito dos projetos existentes” (Sarasan & Neuner, 1983). Então, o problema não era que havia poucos dados publicados nem que eles são produzidos de forma lenta, e sim que os locais onde eles estavam não tinham como se comunicar, dificultando a descoberta de suas informações tanto por seres humanos quanto por computadores. Em outras palavras: o problema era que os dados capturados por uma instituição não necessariamente eram lidos por outra, ou seja, os mesmos problemas que víamos em 2005!...

slide de powerpoint (captura de tela)

Slide da minha apresentação lá por 2005. O tempo provou que “muitos” é relativo.

Não sei quanto ao leitor, mas sei que muitas das pessoas da minha geração acadêmica lidaram muito pouco com a pesquisa pré-Internet. Alguns de nós tivemos a experiência de enviar pelo correio cartões solicitando cópias de manuscrito aos autores, por exemplo. No entanto, desde essa época de transição no início dos anos 2000, quando recursos online começaram a proliferar ao ponto de quase se tornarem redundantes, o progresso parece ter sido relativamente linear com relação ao crescimento das coleções de informação e a convergência sobre usar linguagens que permitam a troca de dados entre os computadores, e não só entre pessoas. Em 10 anos, o panorama mudou completamente.

Uma das soluções para o problema de possibilitar a troca de informações entre bancos de dados é o uso de convenções, ou padrões (“standards”). Na versão mais simples, isso significaria algo como seguir as convenções para nomear os campos de suas tabelas, para que seja mais fácil marcar a equivalência entre um e outro. A questão dos dados estarem todos espalhados por aí levou ao surgimento do TDWG (“tiduíg”), o Taxonomic Databases Working Group, atualmente chamado Biodiversity Information Standards. O TDWG começou a propor padrões para trocas de dados desde justamente no início dos anos 80. De 2005 para cá, tornou-se difundido o uso de convenções como o DarwinCore e o TAPIR.

Conforme esses sistemas se desenvolveram, eles deixaram de ser exclusivamente para olhos humanos. A informação de interesse pode ser marcada com “tags” de XML. Este tipo de marcação é dita “semântica”, porque tem a ver com o significado do conteúdo: diferente das “tags” de formatação como no HTML, essa marcação não tem efeito nenhum na interface que enxergamos, mas identifica uma informação para que quando o “robozinho” de outro site realize uma busca dentro do seu. Assim, conforme esse padrão se desenvolve, é possível identificar não só os campos de uma tabela bem estruturada, mas também partes de um texto. Por exemplo, é possível informar qual parte de um texto é um nome científico (e às vezes também o próprio nome científico), qual parte corresponde a uma descrição (e subseções de uma descrição), qual parte corresponde a número de tombo de espécimes, etc. Quanto mais reconhecíveis esses campos, maior a possibilidade de que essa informação será encontrada pela busca de outros sites. Assim, seu texto não é somente rico devido à hipótese testada ou as descrições: torna-se rico também quando permite que seus dados tais como os registros de espécimes sejam encontrados por outros bancos de dados. Agora não é somente o leitor que absorve o seu conteúdo: outros computadores, outros sites, também.

Não é à toa que quando Wilson descreveu sua visão da “Enciclopédia da Vida”, pensou num portal centralizando informação, e não produzindo informação a partir do zero. Como bem descrito no artigo de Blaustein (2009), a EoL nunca se tornaria realidade se tentasse ser mais um banco de dados esperando que os pesquisadores contribuíssem: eles só poderiam crescer como um metaportal, isto é, um centralizador, que agrega informação de diversos outros lugares. Graças a esta estratégia, a maioria das páginas da EoL agora conta com pelo menos um conteúdo mínimo obtido das vastas coleções de literatura que têm sido depositadas na Biodiversity Heritage Library. Eles também “absorvem” dados de sites como o Morphbank para fotos e GBIF para espécimes depositados em museus. Também graças a esta estratégia, o Catalogue of Life consegue crescer ao receber os catálogos revisados por especialistas em suas respectivas plataformas.

Voltando a 2017, vemos que neste ponto conseguimos vencer uma das maiores dificuldades: a de se formar o consenso de que é necessário compartilhar as informações que produzimos, e para que uma informação seja “encontrável” da maneira mais eficiente possível, ela (ou ao menos uma referência a ela) precisa estar disponível digitalmente. Atualmente o TDWG lista 685 bancos de dados relacionadas a biodiversidade em vários aspectos (taxonômicas, listas faunísticas, guias, chaves, imagens, fotos, etc…), com foco em diferentes organismos e suas interações. Penev e colaboradores publicaram no mês passado um guia para ajudar os autores que querem tornar os dados de seus artigos mais fáceis de encontrar (e, espera-se, citar).

A tendência de revistas como Zoologia a se tornarem digitais e interagirem com grupos de desenvolvedores como o da editora Pensoft, que são extremamente preocupados com o uso de semântica em suas publicações, cada vez mais permitirá que não se encontrem artigos somente através de palavras chaves, e sim que se busque pelas partes que são relevantes no texto todo. Dessa maneira, não somente o ser humano, mas também outros bancos de dados poderão encontrar seu artigo.

Talvez finalmente, depois de quase 40 anos, estejamos no ponto em que a visão de comunicação discutida desde os anos 80 pode ser implementada!

captura do filme

Agregadores de dados. [Fonte: "Um Robô em Curto-Circuito" (1986)]

Referências

Blaustein, R. 2009. The Encyclopedia of Life: Describing Species, Unifying Biology. BioScience 59 (7): 551–556. doi: 10.1525/bio.2009.59.7.4. Artigo (site do editor)
González-Oreja, A.J. 2008. The Encyclopedia of Life vs. the Brochure of Life: Exploring the relationships between the extinction of species and the inventory of life on Earth. Zootaxa 1965: 61-68
Heywood, V. H. 1984. Electronic Data Processing in Taxonomy and Systematics. In: Allkin, R. & Bisby, F. A. (eds.) Databases in Systematics. London: Academic Press. p. 1-15.
Penev, L., Mietchen, D., Chavan, V., et al. 2017. Strategies and guidelines for scholarly publishing of biodiversity data. Research Ideas and Outcomes 3: e12431. Artigo (site do editor)

Sarasan, L. & Neuner, A. M. 1983. Background: A Brief History of Museum Computer Projects. In: Museum Collections and Computers: Report of an ASC Survey. Lawrence, KS: Association of Systematics Collections. p. 5-8.
Wilson, E. O. 2003. The encyclopedia of life. Trends in Ecology & Evolution 18(2): 77-80.

Créditos das imagens: Capa: Patrick Tomasso/Unsplash/Pexels