Spatial Cross-Validation of Species Distribution Models in R: Introducing the blockCV Package

Post provided by Roozbeh Valavi

این پست به فارسی موجود است

Modelling species distributions involves relating a set of species occurrences to relevant environmental variables. An important step in this process is assessing how good your model is at figuring out where your target species is. We generally do this by evaluating the predictions made for a set of locations that aren’t included in the model fitting process (the ‘testing points’).

Random splitting of the species occurrence data into training and testing points

Random splitting of the species occurrence data into training and testing points

The normal, practical advice people give about this suggests that, for reliable validation, the testing points should be independent of the points used to train the model. But, truly independent data are often not available. Instead, modellers usually split their data into a training set (for model fitting) and a testing set (for model validation), and this can be done to produce multiple splits (e.g. for cross-validation). The splitting is typically done randomly. So testing points sometimes end up located close to training points. You can see this in the figure to the right: the testing points are in red and training points are in blue. But, could this cause any problem? Continue reading

اعتبارسنجی متقاطع مکانی در مدلسازی توزیع گونه‌‌ها

نویسنده: روزبه وَلَوی

This post is available in English

مدلسازی توزیع گونه‌ها به تخمین و برآورد ارتباط بین مجموعه‌ای از نقاط حضور گونه با متغیرهای زیست‌محیطی مرتبط می پردازد. یکی از مراحل اساسی این فرایند، ارزیابی قدرت مدل برای پیش­بینی مکان‌هایی است که احتمال حضورگونه در آنجا وجود دارد. این کار اغلب با ارزیابی پیش­بینی انجام شده در مجموعه‌ای ازنقاط که در فرآیند مدلسازی مورد استفاده قرار نگرفته اند (نقاط آزمایشی) صورت می‌گیرد.

تقسیم تصادفی داده‌های حضور گونه به نقاط آزمایشی و آموزشی

تقسیم تصادفی داده‌های حضور گونه به نقاط آزمایشی و آموزشی

مطالعات پیشین بر این نکته تاکید دارند که به منظور ارزیابی معتبر، نقاط آزمایشی باید مستقل از نقاط آموزشی باشند، این درحالیست که داده مستقل واقعی به ندرت در دسترس می باشد. به همین دلیل، در فرایند مدلسازی معمولا داده‌های موجود را به دو قسمت داده‌های آموزشی (برای کالیبره کردن مدل) و داده های آزمایشی (برای ارزیابی دقت مدل) تقسیم می‌کنند، این استراتژی می‌تواند چند قسمتی هم باشد (برای مثال اعتبارسنجی متقاطع یا cross-validation). از آنجاییکه این تقسیم بندی معمولا بصورت تصادفی انجام می‌شود، بنابراین گاهی اوقات نقاط آزمایشی در فواصل نزدیک به نقاط آموزشی قرار می‌گیرند. شکل زیر این مساله را به خوبی نشان می دهد که در آن نقاط آزمایشی به رنگ قرمز و نقاط آموزشی آبی هستند. اما آیا این مساله می‌تواند مشکلی ایجاد کند؟ Continue reading

In Conservation Planning, Some Data are More Important Than Others

Provided by Heini Kujala and José Lahoz-Monfort

Esta entrada de blog también está disponible en español

Spatial Conservation Planning and the Quest for Perfect Data

Conservation planners and managers often need to make decisions with imperfect information. When deciding what action to take or how to divide resources between candidate locations, we rarely have all the information we’d like on what species are present at a site or which areas are most critical for supporting their population viability. A large volume of ecological research focuses on answering these very questions.

To make conservation decisions, we need other types of data as well. These include information on things like the cost of carrying out a given conservation action, current condition of sites, the distribution and intensity of threats in a region, and much more. Many conservation problems are spatial, meaning that we often need to decide between multiple candidate locations and that there are spatial dependencies between sites that need to be accounted for. All these different pieces of information are needed to make cost-efficient and effective conservation decisions.

Ecologists and conservation biologists are usually concerned about the completeness and accuracy of the ecological data used to make these decisions (understandably). But less effort has been spent in researching and verifying the accuracy of the types of data mentioned above. At the same time, we have relatively poor understanding of how data gaps influence solutions optimised across multiple species and locations, and the relative importance of gaps in different types of data. This is what we set out to find in ‘Not all data are equal: Influence of data type and amount in spatial conservation prioritisation’. Continue reading

En la planificación de la conservación, algunos datos son más importantes que otros

Por Heini Kujala y José Lahoz-Monfort

This blog post is also available in English

La planificación espacial de la conservación y la búsqueda de datos perfectos

Los planificadores y administradores de la conservación a menudo necesitan tomar decisiones con información imperfecta. Al decidir qué acción tomar o cómo dividir recursos entre diferentes localizaciones, rara vez tenemos toda la información que nos gustaría sobre qué especies están presentes en un lugar o qué áreas son las más críticas para respaldar su viabilidad poblacional. Un gran volumen de investigación ecológica se focaliza en responder a estas preguntas.

Para tomar decisiones de conservación, también necesitamos otros tipos de datos, incluyendo, entre otros, información sobre el costo de llevar a cabo una acción de conservación determinada, la condición actual de los diferentes sitios, y la distribución e intensidad de las amenazas en una región. Muchos problemas de conservación son espaciales, es decir que a menudo tenemos que decidir entre varias ubicaciones candidatas, con dependencias espaciales entre ellas. Todas estas diferentes piezas de información son necesarias para tomar decisiones de conservación rentables y efectivas.

Los ecólogos y los biólogos de la conservación suelen estar preocupados por la integridad y exactitud de los datos ecológicos utilizados para tomar estas decisiones (comprensiblemente). Pero se ha dedicado menos esfuerzo a investigar y verificar la exactitud de los otros tipos de datos mencionados anteriormente. Además, tenemos una comprensión relativamente pobre de cómo las lagunas en los datos influyen en las soluciones optimizadas en múltiples especies y ubicaciones, y la importancia relativa de las lagunas en los diferentes tipos de datos. Es esto precisamente lo que nos propusimos investigar en el artículo ‘Not all data are equal: Influence of data type and amount in spatial conservation prioritisation’. Continue reading

Can Opportunistically Collected Citizen Science Data Create Reliable Habitat Suitability Models for Less Common Species?

Post provided by Ute Bradter, Mari Jönsson and Tord Snäll

Detta blogginlägget är tillgängligt på svenska

Opportunistically collected species observation data, or citizen science data, are increasingly available. Importantly, they’re also becoming available for regions of the world and species for which few other data are available, and they may be able to fill a data gap.

Siberian jay ©Ute Bradter

Siberian jay ©Ute Bradter

In Sweden, over 60 million citizen science observations have been collected – an impressive number given that Sweden has a population of about 10 million people and that the Swedish Species Observation System, Artportalen, was created in 2000. For bird-watchers (or plant, fungi, or other animal enthusiasts), this is a good website to bookmark. It will give you a bit of help in finding species and as a bonus, has a lot of pretty pictures of interesting species. Given the amount of data citizen science can provide in areas with few other data, it’s important to evaluate whether they can be used reliably to answer questions in applied ecology or conservation. Continue reading

Kan medborgarnas opportunistiskt insamlade data användas för artutbredningsmodeller av mindre vanliga arter?

Bloginlägg av Ute Bradter, Mari Jönsson och Tord Snäll

This blog post is available in English

Opportunistiskt insamlade artobservationer av frivilliga, så kallade medborgarforskningsdata, blir alltmer tillgängliga. Dessa data har potentialen att fylla ett databehov för olika regioner i världen och arter för vilka få andra data är tillgängliga.

Siberian jay ©Ute Bradter

Lavskrika ©Ute Bradter

I Sverige har över 60 miljoner artobservationer samlats in av frivilliga i Artportalen – ett imponerande antal med tanke på att Sverige har en befolkning på cirka 10 miljoner människor och att webbplatsen endast har funnits sedan år 2000. För fågelskådare (eller växt-, svamp-, andra djurentusiaster), är Artportalen en bra hemsida att bokmärka om man vill ha lite hjälp med att hitta arter eller tycker om att titta på vackra bilder på arter. Globalt samlas ett stort antal sådana uppgifter för artförekomst i Global Biodiversity Information Facility. Med tanke på den mängd data som medborgarforskare kan tillhandahålla för områden med få andra data är det viktigt att utvärdera om de kan användas för att tillförlitligt besvara frågor inom grundläggande ekologi eller naturvård. Continue reading

The Social Life of Birds: A New Technique for Studying Behavioural Ecology

Post provide by Damien Farine

Esta publicación de blog también está disponible en español

Key Challenges when Studying Social Behaviour

Researchers are increasingly interested in how social behaviour influences a range of biological processes. Social data have the interesting mathematical property that the number of potential connections among individuals is typically much larger than the number of individuals (because individuals can interact with every other member of their group). This introduces a huge challenge when it comes to collecting data on social interactions—not only does the amount of data needed increase exponentially with group size, the data can also be more difficult to record.

Larger groups have more simultaneous interactions, making it harder for observers to capture a complete or representative sample. It’s also more difficult for observers to tell individuals apart in larger groups. Coloured markers are often used to distinguish different members of a group – the bigger the group, the more complex the markers are needed.

Group-level properties or behaviours can also emerge or change rapidly over time or depending on the situation. This means that observations have to be made at high temporal resolution. To study social behaviour with group sizes that resemble those occurring in nature, we need new techniques to extract sufficient information from social groups. Continue reading

Un nuevo método para automatizar los estudios de comportamiento en aves

Escrito por Gustavo Alarcon-Nieto

This blog post is available in English

Existe un creciente interés por parte de muchos investigadores por entender cómo el comportamiento social de los animales influencia otros procesos biológicos. Sin embargo, estudiar las interacciones entre múltiples individuos presenta un enorme reto metodológico, ya que el número de potenciales interacciones simultáneas aumenta, casi exponencialmente, con el tamaño del grupo (cada individuo puede interactuar con todos los demás miembros del grupo). Además, la cantidad de datos necesarios para un análisis robusto también se incrementa, haciendo difícil que los registros sean completos y representativos. Continue reading