Reader Comments

Post a new comment on this article

From the authors: drawing a line through the raw data gives a wrong estimate of insect decline

Posted by ejongejans on 14 Nov 2017 at 15:31 GMT

By Caspar A. Hallmann, Martin Sorg, Eelke Jongejans, Henk Siepel, Hans de Kroon

What we explain below is that
• one cannot estimate the decline from a simple regression on the raw data, given the complexity of the dataset
• the estimated trend is computed from all available data, and does not depend on a particular starting year or ending year
• further analysis of the data shows that the decline of more than 75% is a robust estimate

Following publication of our paper “More than 75% decline in flying insect biomass over 27 years in protected areas” in PLoS ONE, confusion emerged on how the decline was estimated. Other estimates around 30% popped up in some commentaries. Here we explain why these lower percentages are wrong. We do this by further clarifying the sampling scheme, how we have analysed the data taking into account its complex structure, and how we have obtained the trend in insect decline.

Data sampling
The purpose of the extensive sampling scheme of the Entomological Society Krefeld over nearly 30 years, was to get a qualitative and quantitative overview of the flying insect diversity in German nature reserves. As a result, a large variety of locations have been sampled. Limited funds and access permits restricted the sampling intensity. Consequently, not all habitat types were sampled in all years, and in some years it was not possible to sample. When over the years declines became conspicuous, locations were increasingly resampled. Altogether, a unique dataset on insect biomass was obtained, with 1503 data points over a total trap exposure period of 16908 days. The extensiveness of the data in space and time, based on strict standardisation of sampling and weighing protocols, allows for a thorough scientific analysis of the insect decline. In turn, this allows one to estimate an overall rate of decline.

Statistical Analysis
Given the complexity of the data one cannot simply draw a line between the yearly averages from raw data and compute the decline. One reason is that habitat clusters are not represented in the same proportions in all years. Habitat clusters differ majorly in insect abundance, with mesic grasslands naturally containing much more biomass than dry heathlands. Another reason is the huge variation in insect abundance within the season (see Fig. 2b in the paper). Although the traps remained in the field for at least several months, the sampling period was not exactly the same for all locations in all years. This also affects yearly averages of the collected samples.

There are solid statistical techniques to analyse such complex data. We took a hierarchical approach, starting with a simple (null) model, increasingly adding factors that explain the variation, to end with a final model with factors that explain the patterns best.

The null model contains seasonal variation (day numbers) and habitat clusters. The full dataset allows reliable estimates for these effects that together explain already 39% of the total variation in insect biomass. Next, year was added as a factor (and year by day-number interaction; basic model), which resulted in a major improvement of the model. The basic model explains 61% of total variation.

Finally other factors are included, such as weather, forest area, area of arable land (both in a range of 200 m around the traps), and plant species composition in the direct vicinity of the traps. Importantly, also interactions between these factors and year are included. These interactions explain some of the decline over the years (Fig. 5 in the paper) but to a very limited extent. The final model explains 67% of the total variation in insect biomass (over all years, seasons and habitats). In this model, the decline over the 27 years of study amounts to 76%.

It is important to note in this analysis that there is no such thing as a reference year. Drawing a line from a reference year would overweigh the data from a single year. By contrast, in our analysis, each of the 1503 data points have equal weight in estimating the effects of the factors included in the model. The estimation of the yearly decline therefore depends only to a limited extent on the first or last years (or any other year) of the measurement series.

Robustness of the results
It should be noted that there are no a priory reasons to dismiss data from any of the years, and doing so is scientific malpractice. For what scientific reason would one be interested in ignoring the first couple of years? Why not ignoring the last couple of years instead?

However, to clear all doubts, and as a robustness check, we reran our statistical models, and trend calculations are as follows
• Years 1989 – 2016 : decline overall 76.7% - mid-summer decline 81.6% (n=1503 data points, as in the paper)
• Years 1991 – 2016 : decline overall 76.8% - midsummer decline 82.0% (n=1279 data points)

It may seem counterintuitive that the trend hardly changes when the first two years with very high biomass are left out of the calculations. However, these high biomasses are not outliers. They fit in the trend that can be computed on the basis of data in subsequent years. That is why the trend estimate hardly changes when these years are left out.

With the first years of measurements fitting in the overall trend, we may ask the question what the trend would have looked like if data would have been available from 1980 onwards. The trend estimate of 76% may well have been stronger if earlier data could have been included.

Altogether, these additional analyses show that the strong overall decline does not depend on the first years of sampling. The conclusions of our paper are therefore robust. Erroneous analyses of the yearly averages of the sampled biomass greatly misrepresent our data and distract the scientific and societal debate on the causes of the decline and the implications of the results.

No competing interests declared.

RE: From the authors: drawing a line through the raw data gives a wrong estimate of insect decline

ejongejans replied to ejongejans on 17 Nov 2017 at 14:16 GMT

To assist readers in the Netherlands, we translated this comment into Dutch:

Van de auteurs: een lijn trekken door de ruwe data geeft een verkeerde schatting van de afname in insectbiomassa

Caspar A. Hallmann, Martin Sorg, Eelke Jongejans, Henk Siepel, Hans de Kroon


Wat we hieronder uitleggen is dat
• het niet mogelijk is de afname te berekenen door een simpele regressielijn te trekken door de ruwe jaargemiddelden, gegeven de complexiteit van de data
• de geschatte trend berekend is op basis van alle beschikbare data, en niet afhankelijk is van een specifiek start jaar
• verdere analyse van de data laat zien dat de afname van ruim 75% over de 27 jaar van de studie een robuuste schatting is


In navolging van ons artikel “More than 75% decline in flying insect biomass over 27 years in protected areas” in PLoS ONE, ontstond er bij verwarring over hoe de afname berekend was. Schattingen rond 30% verschenen in sommige commentaren. Hier leggen we uit waarom die lagere percentages fout zijn. Dit doen we door uit te leggen hoe de data verzameld zijn, hoe we de data geanalyseerd hebben met inachtneming van de complexe structuur, en hoe we de negatieve trend in insectbiomassa berekend hebben.

Hoe de data verzameld zijn
Het doel van de uitgebreide bemonsteringprogramma (bijna 30 jaar) door de Entomologische Vereniging Krefeld was het verkrijgen van een kwalitatief en kwantitatief overzicht van de diversiteit van vliegende insecten in Duitse natuurgebieden. Hiervoor is een grote verscheidenheid aan gebieden bemonsterd. Beperkte middelen en vergunningen zorgden ervoor dat niet alle habitattypes elk jaar bemonsterd zijn, en in sommige jaren was het niet mogelijk monsters te verzamelen. Toen de afname over de jaren duidelijk begon te worden, werden er vaker herhaalmetingen gedaan in eerder bemonsterde gebieden. Alles bij elkaar resulteerde dit bemonsteringsschema in een unieke dataset van insectbiomassa, met 1503 datapunten (verzamelde potten) en een totaal aan 16908 vangstdagen. De omvang van de data in ruimte en tijd, in combinatie met de strikte standaardisatie van de bemonstering en het wegen van de insecten, heeft een grondige wetenschappelijke analyse van trends in de insectenbiomassa mogelijk gemaakt. Hierdoor konden we de afname in biomassa van vliegende insecten goed berekenen.

Statistische analyse
Gegeven de complexiteit van de data is het niet mogelijk om een simpele regressielijn te trekken door de jaarlijkse gemiddeldes van de ruwe data, en daarmee de afname berekenen. Een reden is dat de habitattypes niet elk jaar in dezelfde verhoudingen zijn bemonsterd. Habitattypes verschillen sterk in hoeveelheden insecten, waarbij in vochtige graslanden meer insectenbiomassa voorkomt dan in droge heide. Een andere reden is de grote variatie aan hoeveelheden insecten gedurende het seizoen (zie Fig. 2b in het PLoS ONE artikel). Hoewel de insectenvallen meerdere maanden in het veld stonden, was de bemonsteringsperiode niet precies hetzelfde voor alle gebieden en jaren. Ook dit beïnvloedt de jaarlijkse gemiddeldes van de bemonsterde insectenbiomassa.

Er bestaan solide statistische technieken om zulke complexe data te analyseren. Hier gebruikten we een hiërarchische aanpak, beginnend met een simpel nulmodel, waarna we factoren toevoegden die de variatie in de data verklaarden, om te eindigen met een model met die factoren die samen de patronen goed beschrijven.

Het nulmodel bevatte dagnummer (voor variatie door het seizoen) en habitattype. De grote dataset staat betrouwbare schattingen van deze effecten toe; gezamenlijk verklaarden ze reeds 39% van de variatie in de insectenbiomassa in de verzamelde potten. Vervolgens was jaar toegevoegd als verklarende factor (alsook de interactie tussen dagnummer en jaar; dit is het ‘basic’ model in ons artikel), hetgeen resulteerde in een grote verbetering van het model. Dit basismodel verklaart 61% van de totale variatie.

Tot slot voegden we andere factoren toe, zoals weersvariabelen, oppervlakte bos, oppervlakte akker (beide binnen een straal van 200 meter rond de insectenval), en de samenstelling van de vegetatie in de directe omgeving van de vallen. Ook de interacties tussen deze factoren en jaar werden meegenomen. Deze jaar-interacties verklaarden slechts een klein gedeelte van de afnemende trend over de jaar (zie Fig. 5 in het artikel). Het uiteindelijke model verklaart 67% van de totale variatie in insectenbiomassa (over alle jaren, seizoenen en habitattypes). De schatting van de jaarlijkse afname in insectenbiomassa in dit model komt neer op een 76% afname over de 27 jaar van de studie. Ofwel gemiddeld een 6,1% jaarlijkse afname.

Het is hierbij belangrijk om te realiseren dat deze analyses geen gebruik maken van een ‘referentiejaar’. Een trendlijn laten beginnen in een referentiejaar zou de data van dat jaar ongewenst belangrijker maken. In onze analyses, daarentegen, wegen alle 1503 datapunten even zwaar mee in het schatten van de effecten van de factoren die in de modellen meegenomen zijn. De schatting van de jaarlijkse afname hangt daarom slechts voor klein deel af van de eerste of laatste jaren van de studie.

Hoe robuust is de afname van 76%?
De eerste check van de robuustheid staat in het paper. Een analyse met alleen de 26 standplaatsen waarin tenminste in twee jaren is gemeten gaf vrijwel dezelfde trend te zien (5,2% jaarlijkse afname; Fig. 4 in het PLoS ONE artikel) als de analyse van de gehele dataset met 63 standplaatsen. De trend wordt dus niet beïnvloed door standplaatsen die slechts een keer zijn bemonsterd.

Is de sterke afname afhankelijk van de eerste jaren met hoge biomassa? Als we deze jaren eruit laten is de trend dan veel minder sterk? Laten we eerst opmerken dat er geen a priori reden is om data van bepaalde jaren weg te laten, en dat zomaar weglaten van data uit de analyse wetenschappelijk wangedrag is. Er is geen enkele wetenschappelijke reden om geïnteresseerd te zijn in het weglaten van de eerste jaren, van de laatste jaren, of welke jaren dan ook. Echter, om alle verwarring weg te nemen, en om de robuustheid te controleren, hebben we onze modellen opnieuw gedraaid, en de berekeningen van de trend in insectenbiomassa was als volgt:

Jaren 1989-2016: Totale afname van 76,7% - midzomer afname van 81,6% (gebaseerd op 1503 datapunten; dit is wat we in het artikel beschrijven)
Jaren 1991-2016: Totale afname van 76,8% - midzomer afname van 82,0% (gebaseerd op 1279 datapunten)

Het lijkt verrassend dat de trend nauwelijks verandert als we de eerste twee jaren met hoge biomassa’s weglaten. Deze hoge insectenbiomassa’s zijn dus geen uitbijters. Ze blijken te passen in de trend die berekend kan worden op basis van de data van latere jaren. Nader beschouwd is dit niet onverwacht: met een gemiddelde jaarlijkse afname van 6,1% verwacht je dat de eerste jaren de hoogste biomassa’s hebben. En dat de absolute afname in biomassa over de eerste jaren het grootst is.

Nu we hebben laten zien dat de eerste twee jaar consistent zijn met de algehele trend, zouden we ons af kunnen vragen hoe groot de afname zou zijn geweest als we data hadden gehad vanaf bijvoorbeeld 1980. Wellicht zou de berekende afname nog wel groter zijn geweest.

Samenvattend kunnen we stellen dat de gevonden sterke afname niet afhangt van de eerste jaren van de studie. De conclusies van ons artikel zijn daarom robuust. Simpele regressies van de jaarlijkse gemiddeldes van de verzamelde insectenbiomassa geven de patronen verkeerd weer. Dergelijke foute analyses leiden af van het wetenschappelijk en maatschappelijke debat over de oorzaken en implicaties van de gerapporteerde afname.

No competing interests declared.

RE: From the authors: drawing a line through the raw data gives a wrong estimate of insect decline

ejongejans replied to ejongejans on 18 Nov 2017 at 13:03 GMT

To assist readers in Germany, we translated this comment into German:

Das Ziehen einer Linie durch die Rohdaten ergibt eine falsche Berechnung des Insektenrückgangs

Caspar A. Hallmann, Martin Sorg, Eelke Jongejans, Henk Siepel & Hans de Kroon

Im Folgenden erklären wir:
• Man kann den Rückgang aufgrund der Komplexität des Datensatzes nicht durch eine simple Regression zu den Rohdaten ermitteln.
• Der ermittelte Trend ist aus allen verfügbaren Daten berechnet worden und ist nicht abhängig von einem bestimmten Startjahr oder Endjahr.
• Weitere Analysen der Daten bestätigen den Rückgang von mehr als 75% als robuste Berechnung.

Nach unserer Veröffentlichung "More than 75% decline in flying insect biomass over 27 years in protected areas" in PLoS ONE entstand Verwirrung darüber, wie der Rückgang berechnet wurde. Andere Berechnungen um 30% tauchten in einigen Kommentaren auf. Wir erklären hier, warum diese niedrigeren Prozentsätze falsch sind. Wir tun dies, indem wir den Probenplan weitergehend erklären, ferner wie wir die Daten unter Berücksichtigung ihrer komplexen Struktur analysiert und den Trend für den Rückgang berechnet haben.

Herkunft der Daten
Der Zweck der umfangreichen Probennahme des Entomologischen Vereins Krefeld über fast 30 Jahre bestand darin, einen qualitativen und quantitativen Überblick über die Diversität fliegender Insekten in deutschen Schutzgebieten zu erhalten. Infolgedessen wurde eine große Vielfalt an Standorten beprobt. Begrenzte Fördermittel und Genehmigungen schränkten die Intensität der Probennahme ein. Folglich wurden nicht alle Lebensraumtypen in allen Jahren beprobt, und in manchen Jahren war es zudem nicht möglich, Proben zu nehmen. Als im Laufe der Jahre Rückgänge auffielen, wurden Standorte zunehmend neu beprobt. Insgesamt wurde ein einzigartiger Datensatz über die Insektenbiomasse mit 1.503 Datenpunkten über eine gesamte Betriebszeit der Insektenfallen von 16.908 Tagen ermittelt. Der Umfang der Daten in Raum und Zeit, basierend auf einer strengen Standardisierung von Probenahme- und Wiegeprotokollen, ermöglicht eine gründliche wissenschaftliche Analyse des Insektenrückgangs. Dies wiederum erlaubt es, eine Gesamtrate des Rückgangs zu berechnen.

Statistische Analyse
Angesichts der Komplexität der Daten kann man nicht einfach zwischen den Jahresdurchschnittswerten der Rohdaten eine Linie ziehen und so den Rückgang berechnen. Ein Grund dafür ist, dass Habitatcluster nicht in allen Jahren in den gleichen Proportionen vertreten sind. Verschiedene Habitatcluster unterscheiden sich in der Insektenmenge pro Raumeinheit, wobei natürlicherweise feuchtere Grünlandgesellschaften mehr Biomasse enthalten als trockene Sandheiden. Ein weiterer Grund ist die große Variation der Insektenmenge innerhalb jeder Saison (siehe Abb. 2b in der Veröffentlichung). Obwohl die Fallen mindestens einige Monate im Freiland blieben, war die Zeitspanne nicht in allen Jahren für alle Standorte exakt identisch. Dies beeinflusst auch die Jahresmittelwerte der gesammelten Proben.

Es existieren solide statistische Techniken, um solche komplexen Daten zu analysieren. Wir haben einen hierarchischen Ansatz gewählt, beginnend mit einem einfachen (Null-)Modell, haben dann zunehmend Faktoren hinzufügt, die die Variation erklären, um mit einem finalen Modell mit Faktoren zu enden, welche die vorliegenden Muster am besten erklären.

Das Nullmodell enthält die saisonale Variation (Tageszahlen) und Habitatcluster. Der vollständige Datensatz erlaubt zuverlässige Berechnungen für diese Effekte, die zusammen bereits 39% der gesamten Variation der Insektenbiomasse erklären. Als nächstes wurde das Jahr als Faktor (und die Interaktion von Jahr zu Tageszahl; Basismodell) hinzugefügt, was zu einer wesentlichen Verbesserung des Modells führte. Dieses Basismodell erklärt 61% der gesamten Variation.

Schließlich wurden weitere Faktoren berücksichtigt, wie Wetter, Waldfläche, Ackerfläche (beide in einer Entfernung von 200 m um die Fallen) und die Artenzusammensetzung der Vegetation in unmittelbarer Nähe der Fallen. Wichtig ist auch, dass auch Wechselwirkungen zwischen diesen Faktoren und dem Jahr integriert wurden. Diese Interaktionen erklären einen Teil des Rückgangs über die Jahre hinweg (Abb. 5 in der Veröffentlichung), jedoch in sehr begrenztem Maße. Das finale Modell erklärt 67% der gesamten Variation der Insektenbiomasse (über alle Jahre, Jahreszeiten und Lebensräume). In diesem Modell beträgt der Rückgang 76% über die Zeitspanne von 27 Jahren.

Es ist wichtig zu beachten, dass es in dieser Analyse kein Referenzjahr gibt. Das Ziehen einer Linie aus einem Referenzjahr würde die Daten eines einzelnen Jahres überbewerten. Im Gegensatz dazu hat jeder unserer 1503 Datenpunkte gleiches Gewicht bei unserer Analyse der Auswirkungen der im Modell enthaltenen Faktoren. Die Berechnung des jährlichen Rückgangs hängt daher nur in begrenztem Maße vom ersten oder letzten Jahr (oder irgendeinem anderen Jahr) der Messreihen ab.

Robustheit der Ergebnisse
Es sollte angemerkt werden, dass es keine grundsätzlichen Gründe gibt, Daten aus einem der Jahre wegzulassen, und dies zu tun wäre wissenschaftliches Fehlverhalten. Aus welchem wissenschaftlichen Grund wäre man daran interessiert, die ersten Jahre zu ignorieren? Warum nicht die letzten Jahre ignorieren?

Um jedoch alle Zweifel auszuräumen und um die Robustheit der Analyse zu überprüfen, führen wir unsere statistischen Modelle erneut aus, und die Trendberechnungen sind im Ergebnis wie folgt:
Jahre 1989 - 2016:
Rückgang insgesamt 76,7% - Rückgang in der Mitte des Sommers 81,6% (n = 1503 Datenpunkte, wie in der Publikation)
Jahre 1991 - 2016:
Rückgang insgesamt 76,8% - Rückgang in der Mitte des Sommers 82,0% (n = 1279 Datenpunkte)

Es mag kontraintuitiv erscheinen, dass sich der Trend kaum ändert, wenn die ersten zwei Jahre mit sehr hohen Biomassen nicht berücksichtigt werden. Diese hohen Biomassen sind jedoch keine Ausreißer, sie passen in den Trend, der mit den Folgejahren auf Basis der Daten berechnet werden kann. Deshalb ändert sich die Trendberechnung kaum, wenn diese Jahre herausgenommen werden.

Wenn die ersten Jahre der Messungen in den allgemeinen Trend passen, könnten wir die Frage stellen, wie der Trend aussehen würde, wenn zusätzlich Daten ab 1980 verfügbar gewesen wären. Die Trendberechnung von 76% könnte durchaus höher ausgefallen sein, wenn ältere Daten hätten einbezogen werden können.

Insgesamt zeigen diese zusätzlichen Analysen, dass der starke Gesamtrückgang nicht von den ersten Jahren der Probenahme abhängt. Die Schlussfolgerungen in unserer Publikation sind daher robust. Fehlerhafte Analysen mit Jahresdurchschnitten der gesammelten Biomasse verfälschen erheblich unsere Daten und lenken die wissenschaftliche und gesellschaftliche Debatte über die Ursachen des Rückganges und der Implikationen der Ergebnisse ab.

No competing interests declared.