אבני דרך לניהול נתונים במדע אזרחי – מדריך למדענים

צילום תמונת הנושא: יעל אורגד (iNaturalist)
הקדמה
מטרת מדריך זה לתת כלים למדענים בתחום של ניהול נתונים במדע אזרחי (ובכלל). אם הנכם חוקרים ומדענים המתעניינים במדע אזרחי וברצונכם להבין כיצד לתכנן, ליזום ולבצע מיזם מדע אזרחי – אנא היעזרו במדריך לפיתוח מיזם. המדריך פונה למדענים המובילים מיזמים של מדע אזרחי ועוסקים באיסוף וניהול נתונים, או מנהלי מערכות המידע.
המדריך שם דגש על כלים ייעודיים למדענים הקשורים לניהול נתונים, איסוף ועיבוד שלהם. המדריך הוא תרגום ועיבוד של Guides to Better Science – DATA MANAGEMENT של האגודה האקולוגית הבריטית.
מהם נתוני מחקר?
נתוני מחקר הם פיסות מידע בהן אנו עושים שימוש לייצור תוצאות מחקר תקפות. בנתונים ניתן להשתמש יותר מפעם אחת. קיימים חמישה סוגים עיקריים של נתונים:
- תצפיות – נתונים הקשורים לזמן ומקום שאין להם תחליף (כמו תצפיות שטח, קריאות מתחנות מזג אוויר, נתונים סטטיסטיים)
- ניסויים – נתונים שנוצרים בסביבות מבוקרות או מבוקרות למחצה ושניתן לחזור עליהם (כמו דגימות שטח, ניסויים בגזי חממה, ניתוח כימיקלים)
- מודלים – נתונים המחושבים ע”י מודלים (כמו מודלים אקלימיים או של אוכלוסיות)
- נתונים נגזרים – נתונים שלא נאספים באופן ישיר אלא נוצרים מנתונים אחרים (כמו למשל חישוב הביומסה של אוכלוסייה שחושבה מתוך צפיפות אוכלוסייה ונתונים של גודל גוף ממוצע)
- מטא-דאטה – נתונים על נתונים
תצפיות הן הנתונים הנפוצים ביותר במחקרי מדע אזרחי. העבודה עם מגוון מקורות נתונים היא אתגר לחוקרים. יש פרויקטים המשלבים סוגי נתונים שונים בניתוח אחד, לעיתים גם נתונים מתחומי מחקר שאינם אקולוגיים, וזאת גם כי המחקרים הופכים להיות משותפים וחוצי תחומים, כמו למשל מחקר סוציו-אקולוגי.
מחזור החיים של נתונים
בכל המחקרים, גם אלו של מדע אזרחי, לרוב הנתונים יש אורך חיים ארוך משל הפרויקט שבמסגרתו הם נוצרו, כפי שניתן לראות באיור. ישנם פרויקטים המתמקדים ביצירת נתונים ראשוניים, אחרים בשימוש בנתונים קיימים שמקורם במחקרים קודמים, וכאלו המשלבים בין השניים.

באופן מסורתי, חוקרים בד”כ מתמקדים בשלבים המוקדמים של מחזור החיים של הנתונים – יצירה, עיבוד ושימוש בנתונים. זה נובע, בין השאר, מהקושי הרב שהיה בעבר באיתור ושיתוף נתונים, כיוון שהנתונים נרשמו על דפים ואוחסנו במשרדים. היום, טכנולוגיה המאפשרת שיתוף, איתור ושימוש חוזר בנתונים, יחד עם עליית המודעות לצורך לאחד נתונים ממגוון מקורות כדי לענות על שאלות אקולוגיות מורכבות, גרמו לכך ששיתוף נתונים הוא מרכיב וצורך חשוב בתהליך המדעי. עקרון חשוב במדע אזרחי הוא שיתוף הנתונים ותוצאותיהם עם הציבור התורם לאיסופם ואף לניתוח הנתונים. יש ערך מוסף גבוה גם בשיתוף הנתונים עם חוקרים מגופים שונים.
חשוב לציין שניתן ורצוי להשתמש בנתוני מחקר יותר מפעם אחת. מנגנון הציטוט של מקורות באמצעות DOI (Digital Object Identifier) מאפשר לתת הכרה לתורמים המקוריים של הנתונים. בניתוח נתונים בקנה מידה גדול, אף אדם או מיזם, גם אם יש בידיהם מימון נרחב, לא יוכלו לייצר, לאסוף או לאגור את כל הנתונים הנדרשים, ולכן חוברת זו נועדה להצביע על צרכים, דרכים ושיטות בשיתוף ובשימוש חוזר של נתונים.
מוכר לנו החשש ששיתוף נתונים הוא מורכב ולא נוח, משום שנחשפים נתונים גולמיים שעלולים לסכן קדימויות אקדמיות ואפילו התפתחות קריירה. הפתרון הוא בקבלת ההחלטה על הזמן והאופן הנכונים לשתף את הנתונים. ניתן למשל לפרסם קודם את המאמר ואח”כ את הנתונים המשרתים את המאמר, לפי העניין. בקהילה המדעית מקובל לאפשר זמן סביר עד לחשיפה של נתונים שנתמכים בתקציבים ציבוריים.
למה לנהל נתונים?
ניהול הנתונים מתייחס לתכנון של כל שלבי מחזור החיים של הנתונים וליישום של התכנון במהלך המחקר. אם זה ייעשה ביעילות, מחזור הנתונים יזרום ותהליך המחקר יהיה יעיל ויבטיח שהנתונים שלנו יעמדו בכל הציפיות שלנו, של גורמי המימון ושל מוסדות מחקר ולגליזציה (למשל זכויות יוצרים, הגנת הנתונים).
בבואנו לנהל את הנתונים עלינו להיערך כך שעמיתים יוכלו להמשיך את המחקר שלנו בהעדרנו, יבינו את הנתונים מבלי לדבר איתנו, או שאנחנו נוכל למצוא את מאגר הנתונים שלנו ולהשתמש בו שוב גם בעוד 10-20 שנה. אם כל אלו יוכלו לקרות – סימן שהנתונים שלנו מנוהלים כהלכה.
יש לא מעט יתרונות פוטנציאליים לניהול טוב של נתונים:
- הבטחה שהנתונים מדויקים, מלאים, אותנטיים ואמינים
- הגברת יעילות המחקר
- חיסכון בזמן וכסף בטווח הארוך בזכות מניעת טעויות
- עמידה בדרישות גורם מימון
- מזעור הסיכון לאובדן נתונים
- מניעת כפילות על ידי אחרים
- הקלה על שיתוף נתונים
- הבטחת איתור נתונים ושימוש חוזר
למה לשתף את הנתונים שלנו?
גישת מדע פתוח מכוונת להפוך את המחקר המדעי ונתוניו לזמינים לכל המתעניינים, בין אם חוקרים מקצועיים או חובבים, וזאת ע”י יצירת רשתות שיתופיות המאפשרות ידע שקוף ונגיש, פרסום מחקר פתוח, עידוד מדענים לשתף את נתוניהם והקלה על תהליך הפרסום והפצת הידע המדעי באופן כללי.
לעיתים עבודה לפי גישת מדע פתוח היא דרישה של גופי תמיכה ומימון, ומעבר לכך, יש תועלות אפשריות משיתוף נתונים:
- הגדלת האימפקט והנראות של המיזם
- עידוד שיתופי פעולה ושותפויות עם חוקרים אחרים
- הגברת שקיפות ואחריותיות (accountability)
- עידוד שיפור ואמינות (validation) של שיטות המחקר
- הפחתת עלויות של הכפלת איסוף נתונים
- קידום המדע ע”י מתן יכולת לאחרים לעשות שימוש בנתונים בדרך חדשנית
על אף אלו, ישנן גם סיבות לא לשתף נתונים, כגון:
- הנתונים כוללים מידע רגיש על מינים רגישים ובסכנת הכחדה
- הנתונים כוללים מידע אישי – שיתוף שלהם עלול להיות מנוגד לחוקי המדינה
- חלקים מהנתונים הם בבעלות של אחרים – יתכן שאין לנו את הזכות לשתף אותם
בעת תכנון שלבי המיזם של מדע אזרחי, צריך להחליט אילו נתונים יכולים וצריכים להיות משותפים. מקובל להימנע משיתוף נתונים אם טרם פורסמו באופן רשמי בפרסום מדעי או אם הם כוללים מידע רגיש.
שיתוף נתונים הוא ביטוי לשינוי תרבותי כלפי מדע פתוח. תחילתו במאה ה-17, כאשר החלו לפרסם מאמרים בכתבי עת מדעיים, והמשכו בעידן של ימינו, המקדם גישה פתוחה וחינמית למאמרים ולנתונים, בדומה לגישת “קוד פתוח” בתכנות. יש דרכים שונות לשיתוף במסגרת מדע פתוח:
- סביבות מחקר וירטואליות (Virtual research environments) – שיתוף הנתונים נעשה בין שותפי המחקר באמצעות סביבת עבודה שיתופית המאפשרת תקשורת בין השותפים, ניהול גירסאות, גישה למקורות וכדומה.
- יומנים דיגיטליים (Open notebooks) – למשל יומני מעבדה הכוללים מידע גולמי, כולל חומרים ואפילו ניסויים שנכשלו. גישה של שקיפות למחקר מאפשרת לאחרים לתת משוב על העבודה שלכם בזמן אמת.
- נתונים פתוחים (Open data) – מונח המתייחס לנתונים ציבוריים שכל אחד יכול לעשות בהם שימוש ויש להם רישיון לשימוש ללא הגבלה. לאחרונה, עם התפתחות התחום יש עניין שמחוללי בינה מלאכותית ישתמשו במסדי נתונים פתוחים. המונח נעשה שגור ב-2009 כאשר ממשלות כמו ארה”ב, בריטניה ואוסטרליה הכריזו על יוזמות לפתיחת גישה למידע ציבורי.
- נתוני עתק (Big data) – מונח המתייחס לבסיסי נתונים מורכבים וגדולים מאוד, שקשה לעבד אותם בשיטות מסורתיות ונדרש לכך כוח מחשוב נוסף. זה מונח יחסי משום שמה שנחשב גדול היום, עם התפתחות כוח המחשוב לא ייחשב כך בעתיד.
ככל שמדענים ישתפו את המידע שלהם ויעבדו בשיתופי פעולה, האפשרויות של שילוב נתונים פתוחים ונתוני עתק יגדלו ויש לכך פוטנציאל עוצמתי. בתחום האקולוגי נתונים כאלו יסייעו לענות על שאלות בנושא שינוי האקלים, יאפשרו ליצור מודלים רחבים ויתמכו בעיצוב מדיניות סביבתית.
תכנון ניהול נתונים

מומלץ לקדם תוכנית לניהול נתונים לפני תחילת איסוף הנתונים. תוכנית ניהול נתונים תסייע להתמודד עם כל סוגייה שעלולה להתעורר בהקשר לנתונים. ניהול נתונים טוב הוא תהליך שאמור להיות מותאם לשינויים בנסיבות או בהזדמנויות שיעלו במהלך המיזם. התוכנית צריכה לשמש כ”מסמך חי” שיעודכן באופן מתמשך לפי הצורך.
לפני התכנון
בדקו אם יש הנחיות ספציפיות של הגורם המממן לתוכניות ניהול נתונים. דרישות אופייניות כוללות: תיאור של הנתונים, אמצעים להערכת איכות הנתונים, תוכניות לשיתוף, הגבלות לשיתוף (אם ישים), זכויות יוצרים וקניין רוחני של הנתונים, אמצעים לאחסון וגיבוי, חוקים של ניהול ואחריות בעלי תפקידים, עלויות ניהול נתונים.
התייעצו עם הארגון שלכם. למוסדות יש משאבים ומדיניות שיכולים לעזור לכם בתהליך של ניהול המידע. יתכן שיש ציפיות של הארגון לגבי ניהול נתונים טוב ואולי גם קווים מנחים שצריך להכיר. לעיתים קרובות ניתן למצוא מידע על ניהול נתונים באוניברסיטאות באתרי האינטרנט ובדפי המידע של הספריות.
התחשבו בתקציב. לניהול נתונים יש עלויות שיש לכלול בתקציב הכולל של פרויקט המחקר. אפשר להיעזר במחזור החיים של הנתונים שהוצג לעיל על מנת לתמחר כל פעילות שנדרשת במונחים של שעות עבודה או משאבים נחוצים נוספים.
דברו עם האחראים עליכם ועם עמיתים ושותפים למחקר. שוחחו על האתגרים שכבר נתקלו בהם מתוך נסיונם ולמדו מהשגיאות שלהם.
נושאים שיש להתחשב בהם בתכנון
זמן: כתיבת תוכנית לניהול נתונים עשויה לקחת זמן רב. התכנון חייב להיות יסודי לפני תחילת מחקר על מנת להבטיח שניהול הנתונים מוטמע בתהליך מראשיתו.
עיצוב מותאם לצרכים: כשמתכננים ומטמיעים את ניהול הנתונים יש לתת את הדעת על מטרת המחקר. יש לדעת כיצד ייעשה השימוש בנתונים, כיצד הם ינותחו. התייחסו לסטנדרטים בינלאומיים על מנת להבטיח שהנתונים שלכם יהיו ניתנים לשימוש ע”י אנשים רבים כאשר המיזם יסתיים.
חוקים ואחריות: יצירת תוכנית לניהול נתונים יכולה להיות באחריות מישהו אחד, אבל יישום של ניהול הנתונים עשוי לערב מספר אנשים בשלבים שונים. אחד השימושים העיקריים של תוכנית ניהול נתונים הוא לאפשר עבודה מתואמת ותקשורת בין החוקרים במיזם. בפרט כשיש שיתוף פעולה בין מוסדות שונים, חשוב לוודא שיש הסכמה משותפת על אילו נתונים נוצרים ומשמשים למחקר ובאילו תנאים הם נגישים. לכן במהלך התכנון חשוב ליצור חוקים ברורים ולהגדיר תחומי אחריות במקום להסתפק בהנחות. יתכן שיש אנשים חיצוניים המעורבים בניהול הנתונים בנוסף לכם ולשותפים למחקר (למשל אנשי IT המספקים שירותי אחסון ותמיכה, מרכזי נתונים חיצוניים או ארכיוני נתונים).
הערכה: תכננו כיצד ניהול הנתונים יהיה מוערך תוך כדי המיזם וייערכו בו התאמות לפי הצורך. זה יסייע לאחד בין ניהול הנתונים לתהליך המחקר ולהבטיח יישום של הפרקטיקות הטובות ביותר. הערכה תסייע לתפוס סוגיות בשלבים מוקדמים, לפני שהן הופכות לבעיות גדולות. ראו את הצ’קליסט שיסייע להבין מה יש לעשות כשמתכננים ניהול נתונים ובמהלך ביצוע המיזם.
צ’קליסט לניהול נתונים
- האם אתם משתמשים בפרוצדורות סטנדרטיות ועקביות לאיסוף, הערכה, אימות ותיקוף נתונים?
- האם קבעתם נוהל או שיטה לזיהוי ותיקון שגיאות בנתונים?
- האם מבנה הנתונים שלכם ניתן להבנה באופן פשוט מבחינת שמות המשתנים, הקודים וקיצורים?
- אילו תיאורים ומסמכים יכולים להסביר מה משמעות הנתונים שלכם, איך הנתונים נאספו ומהן השיטות בהן השתמשו כדי ליצור אותם?
- איך אתם מתייגים ומארגנים את הנתונים, ההקלטות והקבצים?
- האם אתם פועלים בעקביות בכל הנוגע לקטלוג, תמלול וארגון הנתונים, כלומר בתבניות אחידות או טפסים?
- איזה תקן נתונים בינלאומי הכי מתאים לנתונים שלכם? האם תאגרו את הנתונים שלכם באותו תקן בינלאומי או תתקנו את ייצוא הנתונים?
- באילו פורמטים של נתונים תשתמשו? האם פורמטים ותוכנות שיאפשרו שיתוף של הנתונים גם לטווח ארוך, כגון תוכנה שאינה קניינית ומבוססת על נתונים פתוחים?
- כאשר אתם ממירים נתונים בין פורמטים שונים, האם אתם בודקים שנתונים והמידע עליהם (metadata) לא אובדים או משתנים?
- האם הנתונים הדיגיטליים והלא דיגיטליים שלכם וההעתקים שלהם מוחזקים במקום בטוח ומוגן?
- האם אתם עושים שימוש באחסון מאובטח למידע אישי או רגיש?
- איך נתונים הנאספים בטלפון נייד מועברים ומאוחסנים?
- אם נתונים מוחזקים במקומות שונים, איך תעקבו אחר הגירסאות?
- האם הקבצים שלכם מגובים באופן קבוע ויעיל והאם קבצי הגיבוי מאוחסנים בבטחה?
- האם אתם יודעים מהו הקובץ של גרסת המאסטר של הנתונים שלכם?
- האם הנתונים שלכם כוללים מידע חסוי או רגיש? אם כן, האם שוחחתם עם מי שאספתם מהם את הנתונים לגבי השיתוף שלהם?
- האם יש לכם הסכמה (בכתב) מהמשיבים לשיתוף נתונים מעבר למחקר שלכם?
- האם אתם צריכים להפוך נתונים לאנונימיים על מנת להסיר מידע מזהה או מידע אישי, במהלך מחקר או בהכנה לשיתוף הנתונים?
- האם הסדרתם מי בעלי הזכויות של הנתונים שלכם?
- למי יש גישה ולאילו נתונים במהלך המחקר ואחריו? האם נדרשות הרשאות גישה שונות?
- מי אחראים לאיזה חלק של ניהול הנתונים?
- האם אתם צריכים משאבים נוספים לניהול הנתונים, כמו כוח אדם, זמן או חומרה?
יצירת הנתונים

במחזור החיים של הנתונים, יצירת בסיסי נתונים מתרחשת כאשר חוקרים או מתנדבים אוספים נתונים בשדה או במעבדה והופכים אותם לנתונים גולמיים דיגיטליים. בקרת איכות במהלך איסוף נתונים חשובה משום שבסיטואציות מסוימות יש רק הזדמנות אחת לאסוף נתונים. לבקרת איכות הנתונים יש חשיבות רבה בפרט בפרויקטים של מדע אזרחי, כאשר אוספי הנתונים לא תמיד מומחים בתחום. החוקרים צריכים לבדוק את השיטות באופן ביקורתי לפני שאיסוף הנתונים מתחיל – שיטות איסוף באיכות גבוהה יניבו נתונים טובים.
צריך להיות תיעוד מפורט של תהליך האיסוף שישמש כעדות לאיכות – יש לתעד את המטא-דאטה (נתונים על הנתונים) לפני תחילת האיסוף: תעדו את מאמץ הדיגום, מקום, זמן, קבוצה טקסונומית, עזרים מכניים והיבטים חשובים אחרים של איסוף הנתונים. מעטפת חשובה זו של מטא-דאטה עוטפת את הנתונים שלכם ועוזרת לכם ולאחרים לטפל בנתונים ביעילות. למשל, אם צריך לשלב אותם עם מערכי נתונים אחרים, או כאשר אתם משתפים את הנתונים מאוחר יותר. גם לתיעוד המטא-דאטה יש חשיבות יתרה במחקרי מדע אזרחי.
נושאים שיש להתחשב בהם במהלך איסוף הנתונים:
- סוגיות לוגיסטיות בשדה (למשל ציוד דרוש)
- כיול מכשירים
- איסוף מדידות/תצפיות/דגימות מרובות
- יצירת תבנית לשימוש באיסוף הנתונים (למשל טופס דיווח לפי הנחיות פרוטוקול) כדי להבטיח שכל המידע יאסף באופן עקבי, בפרט כשיש מתנדבים רבים שאוספים את הנתונים
- תיאור של התנאים השוררים במהלך איסוף הנתונים שעלולים להשפיע על איכות הנתונים (למשל עוצמת רוח בעת ניטור פרפרים)
- בניית שאלון מלווה למתנדבים, הכולל שאלות שקשורות לאיכות הנתונים
- הרחבת היישומים האפשריים של הנתונים על מנת להגדיל את ההשפעה שלהם, ע”י הוספת משתנים וגורמים, כמו משתני נוף רחבים, שיעודדו שימוש חוזר ויפתחו אפיקים חדשים למחקר
- איסוף נתונים חיוניים לשם ולידציה של הזיהוי, כמו תאריך ותמונה
- אפשרות לטיוב התצפית על ידי קבלת מידע על האורגניזם לשם זיהוי מיטבי, למשל על פי תמונה והפניה למקור מידע
- צמצום טעויות אפשריות ע”י בחירת שם אורגניזם מרשימה סגורה
- בניית מנגנוני ולידציה כמו התרעת תצפית חריגה בזמן אמת בשטח
הנתונים יכולים להיאסף ישירות באופן דיגיטלי באמצעות מכשירים (כמו טלפונים ניידים או טאבלטים), או ברשימות בכתב יד. בכל דרך, תהיה רמה של עיבוד על מנת לקבל מאגר של נתונים גולמיים. כדאי להכיר את המערכות לאיסוף נתונים במסגרת מדע אזרחי שמציע המרכז הישראלי למדע אזרחי.
נושאים שיש להתחשב בהם במהלך הדיגיטציה של הנתונים:
- תכנון מבנה מאגר נתונים שיאפשר לארגן את הנתונים והקבצים שלכם
- שימוש בפורמט עקבי לכל קובץ נתונים – שורה אחת מייצגת תיעוד מלא של תצפית ועמודות מייצגות כל אחת את המשתנים המרכיבים את התיעוד (פורמט של גיליון אלקטרוני)
- במקרה של הזנת נתונים אוטומטית – וידוא שרק פרט מידע אחד נמצא בכל ערך
- שימוש בתווי טקסט רגיל (למשל ASCII, Unicode) כדי להבטיח שהנתונים ניתנים לקריאה על ידי מספר מירבי של תוכנות
- כשמשתמשים בקידוד ערך מספרי למשתנים על מנת לאפשר ניתוח סטטיסטי של נתונים – שמירה על קידוד פשוט
- הכנת תיאור לתוכן של קבצי הנתונים בקובץ ‘readme.txt’, או תקן מטא-דאטה אחר, כולל הגדרה של כל פרמטר, יחידות וקודים לערכים חסרים
- שימוש בתקני נתונים בינלאומיים – סביר שהנתונים שלכם יתמזגו עם נתונים אחרים בשלב מסוים ושימוש בתקנים בינלאומיים יעזור לתהליך זה
- שמירה על הנתונים הגולמיים

שימוש במערכות איסוף נתונים קיימות כמו eBird, iNaturalist ו-BioCollect יחסוך את ההיערכות בנושא הדיגיטציה של הנתונים.
שמירת פרטיות והגנה על נתונים אישיים
האסדרה הכללית להגנה על מידע (GDPR – General Data Protection Regulation) היא אוסף של הוראות מחייבות שהוסדרו על ידי הפרלמנט האירופי, מועצת האיחוד האירופי והנציבות האירופית. מטרתה להגן על פרטיותם של תושבי האיחוד האירופי בכל הנוגע לאיסוף, שמירה והעברה של נתונים אישיים שלהם. הרגולציה חלה על כל ארגון, גם אם אינו פועל באיחוד, המעבד נתונים של תושבי האיחוד.
בעידן הדיגיטלי, פרטיות הפכה לנושא קריטי. הרגולציה נועדה להבטיח שתושבי האיחוד האירופי יהיו בעלי שליטה רבה יותר על נתוניהם האישיים, ושיוכלו לקבל החלטות מושכלות לגבי אופן השימוש בהם. לפיכך, הרגולציה קובעת כללים רבים בנוגע לאיסוף, שמירה והעברה של נתונים אישיים. היא דורשת מארגונים לקבל הסכמה מפורשת מתושבי האיחוד לפני עיבוד נתוניהם, ומאפשרת להם למחוק, לתקן ולעיין בנתונים שלהם. אי ציות להוראות עלול לגרור אזהרות, ביקורות תקופתיות וקנסות חמורים.
על פי האיחוד האירופי, הרגולציה מבוססת על שלושה עקרונות מנחים: עיבוד הגון וחוקי של המידע האישי; הגבלה של מטרות עיבוד המידע האישי; ושאיפה לצמצום השמירה של המידע האישי. כמו כן, בעלי המידע חייבים להיות מודעים לכך שנעשה עיבוד למידע האישי שלהם ולהכיר את מטרותיו.
האנשים מהם או עליהם נאסף מידע הם בעלי הזכויות הבאות:
- הזכות לשקיפות אודות המידע שנאסף לגביהם ומטרות עיבודו
- הזכות לקבל מידע לגבי העברת המידע שלהם לצד שלישי
- הזכות לדעת מהו המידע השמור אודותיהם
- הזכות לתקן את המידע השמור אודותיהם ולמוחקו (“הזכות להישכח”)
- הזכות להגביל את העיבוד של המידע אודותיהם
- הזכות לנייד את המידע שלהם לגורם אחר
- הזכות להתנגד לעיבוד המידע וליצירת פרופיל
המשמעות היא שלפני איסוף נתונים אישיים של משתתפי מדע אזרחי (למשל שם, כתובת, מגדר, מגזר, גיל וכדומה) יש לבקש את אישור המשתתפים לאסוף את המידע ולהסביר את מטרת איסוף המידע. אין להעביר את המידע לאף גורם (אלא אם ניתנה הסכמה מפורשת לכך). יש לאפשר למשתתפים לתקן ואף למחוק את הפרטים שמסרו.
עיבוד נתונים

בקרת נתונים
מהפכת המדע האזרחי יצרה מציאות חדשה והציבה אתגר עצום למנהלי הנתונים, משום שכל התצפיות חייבות לעבור קודם במנגנוני בקרה בדרכן למאגרי המידע. הבקרה יכולה להיות ידנית, על ידי החוקרים או מנהלי הנתונים, או באמצעות מערכות המידע, שלהן יש יכולת לסנן, לנקות ולהגיש לחוקרים את הנתונים בתבניות שמקלות על עבודת הניתוח.
תקנים לנתוני מגוון ביולוגי
שימוש בתקני נתונים נפוצים (סטנדרטים) ופרסום בכלים של קוד פתוח מאפשרים לשלב, למצוא ולהשתמש בנתונים מאלפי אוספים ופרויקטים שונים על מנת לתמוך במחקר ובמדיניות. תקנים אלה פותחו על ידי קבוצת עבודה של מסדי נתונים טקסונומיים (TDWG – Taxonomic Databases Working Group), עמותה מדעית וחינוכית, המזוהה עם האיגוד הבינלאומי למדעי הביולוגיה. Darwin Core הם תקנים מומלצים מאוד לפרסום נתונים באמצעות GBIF (Global Biodiversity Information Facility).
חשיבות השימוש בתקני הנתונים של TDWG
הנתונים על המגוון הביולוגי בעולם הם מורכבים. במשך מאות שנים, חוקרים אספו שפע של מידע על האורגניזמים שצפו בהם או אספו אותם. מוסדות ציבוריים ופרטיים ברחבי העולם מנהלים מידע על מגוון ביולוגי, ועם ההתקדמות הטכנולוגית ניתן ליצור ביניהם קשרים. חשוב לעודד את בעלי הנתונים לפרסם את מאגרי המידע שלהם מפורטים ככל הניתן, על מנת להבטיח את השימוש בהם במגוון רחב של גישות ושאלות מחקר. אמנם לא כל מערך נתונים כולל מידע באותה רמת פירוט, אבל שיתוף במידע שזמין הוא בעל ערך, כי אפילו מידע חלקי יכול לענות על שאלות חשובות. איסוף נתונים במסגרת הפלטפורמות המוצעות ע”י המרכז הישראלי למדע אזרחי (BioCollect, eBird ו-iNaturalist) מבטיח שהנתונים יאספו על פי התקנים הנדרשים.
ניתן לאחסן את נתוני המגוון הביולוגי הדיגיטליים בפורמטים שונים, אבל הם צריכים להיות מובנים עבור עיבוד. גיליונות אלקטרוניים (או טבלאות) הם הצורה הנפוצה ביותר של הצגת נתוני מגוון ביולוגי, כאשר שורה אחת מייצגת תיעוד מלא של תצפית ועמודות מייצגות תכונות של התצפית כמו טקסון, יישוב, תאריך תצפית או שם הצופה. עם זאת, כשכמות הנתונים גדלה, הביצועים של תוכניות מבוססות גיליונות אלקטרוניים נחלשים. חלופה שימושית היא לייבא נתונים למערכת ניהול מסד נתונים. למערכות מודרניות לניהול מסדי נתונים יש מנגנון מפותח המאפשר הימנעות מנתונים עודפים על ידי אחסון נתונים ייחודיים (כמו שמות טקסונים) בטבלאות נפרדות והפניה לנתונים שנמצאים בטבלאות אחרות באמצעות מפתחות זיהוי מספריים.

מערכות איסוף נתונים קיימות כמו eBird, iNaturalist ו-BioCollect כבר פועלות לפי תקני נתונים סטנדרטיים.
תיעוד נתונים

תיעוד של הנתונים ומטא-דאטה טובים מבטיחים שניתן יהיה להבין ולהשתמש בנתונים לאורך זמן ארוך. תיעוד מתאר את הנתונים, מסביר מניפולציות ומספק מידע הקשרי – אסור להותיר לאחרים אפשרות לפרש את הנתונים בצורה לא נכונה. יש להגדיר את כל דרישות התיעוד כבר בשלבי התכנון. כך ימנע הצורך לבצע פעולות שחזור במצבים שבהם שכחתם מה קרה ומתי, או אם חוקרים או מתנדבים עזב מבלי להשאיר תיעוד.
תיעוד הנתונים כולל מידע ברמות הפרויקט והנתונים ואמור לכלול את הנושאים הבאים:
רמת הפרויקט:
- מטרת הפרויקט, יעדים והשערות
- הצוות המעורב בפרויקט כולל איש/אשת קשר לשאלות
- מידע על חסויות ותומכים
- שיטות איסוף נתונים, כולל מידע על ציוד ותנאי סביבה במהלך איסוף הנתונים, וההנחיות לאיסוף
- סטנדרטים של נתונים שבהם נעשה שימוש
- מבנה הנתונים וארגון הקבצים
- שלמות הנתונים ופערים ידועים
- התוכנות שנעשה בהן שימוש לעיבוד נתונים, כולל בקרת איכות וניהול גרסאות והתאריכים שבהם בוצעו
- בעיות ידועות שעלולות להגביל נגישות ושימוש בנתונים
- תהליך תיקוף הנתונים
- הנחיות לציטוט הנתונים
- זכויות קניין רוחני ושיקולי רישוי אחרים
רמת הנתונים:
- שמות, תוויות ותיאורים למשתנים
- הסבר מפורט על הקודים שבהם נעשה שימוש
- הגדרות של ראשי תיבות או מונחים מקצועיים
- סיבות לערכים חסרים
- נתונים נגזרים שנוצרו מהקובץ הגולמי, כולל הקוד או האלגוריתם ששימשו ליצירה שלהם
אם נעשה שימוש בתוכנה כגון R לעיבוד נתונים, חלק גדול מתיעוד הנתונים ייווצר ויוטבע במהלך הניתוח.
מטא-דאטה (נתונים על נתונים) עוזרים לאחרים לגלות נתונים באמצעות חיפוש וגלישה מקוונת ומאפשרים פעולה הדדית בין מכונה למכונה, הנחוצה לשימוש חוזר בנתונים. ניתן לייצר מטא-דאטה באמצעות טופס הגשה של הנתונים למאגר מידע, עורך של מטא-דאטה או כלי ליצירת מטא-דאטה, שניתן לחפש באינטרנט. למטא-דאטה מבנה סטנדרטי אפשרי בשלוש צורות:
- תיאורי – כולל שדות כמו כותרת, מחברים, תקציר ומילות מפתח
- מנהלי – כולל מידע על זכויות והרשאות ונתונים על עיצוב
- מבניים – הסברים למשל על טבלאות בתוך הנתונים

בהורדת נתונים ממערכות איסוף נתונים קיימות כמו eBird, iNaturalist ו-Living Atlas יתקבלו תיעוד של הנתונים ומטא-דאטה.
שימור נתונים

כדי להגן על נתונים מפני אובדן וכדי לוודא שהם מאוחסנים בצורה מאובטחת, ניהול נתונים טוב צריך לכלול אסטרטגיה לגיבוי ואחסון ביעילות. מומלץ לשמור שלוש גרסאות של הנתונים שלכם: המקור, עותק חיצוני מקומי ועותק חיצוני מרוחק.
גיבוי
בתכנון אסטרטגיית גיבוי, יש לתת את הדעת על הדרכים האפשריות לאובדן נתונים, כמו:
- כשל בחומרה
- תקלות תוכנה
- זיהום בווירוסים או פריצה של האקרים
- הפסקת חשמל
- טעות אנוש
- גניבה או אובדן של חומרה
- נזק לחומרה (למשל שריפה, שיטפון)
- דריסת גיבויים טובים ע”י גיבויים מנתונים פגומים
הסבירות להתרחשות כל אחד מהתרחישים הללו היא שונה, והיא עשויה להיות ספציפית לסביבה (למשל, נתונים שנאספים בשטח עשויים להיות חשופים לסיכונים שונים מאשר נתונים בשימוש בצוות מחקר רב מוסדי). אסטרטגיית גיבוי אידיאלית צריכה לספק הגנה מפני כל הסיכונים, אבל הגיוני לשקול אילו סיכונים הם הסבירים ביותר להתרחש בכל הקשר ולהיות מודעים אליהם כאשר אתם מתכננים את אסטרטגיית הגיבוי שלכם.
דברים שיש לקחת בחשבון בעת בניית אסטרטגיית גיבוי:
- אילו קבצים דורשים גיבוי
- מי אחראים לגיבויים
- תדירות הגיבוי הנדרשת – תושפע מהאופן בו קבצים מעודכנים באופן קבוע
- האם יש צורך בגיבוי מלא או מצטבר – כדאי לשקול להפעיל שילוב גיבויים מצטברים תכופים (לכידת שינויים אחרונים בנתונים) יחד עם גיבוי מלא תקופתי (לכידת ‘תמונת מצב’ של כל הקבצים)
- נהלי גיבוי לכל מיקום שבו נתונים מוחזקים, למשל טאבלטים, מחשבים ביתיים או כוננים מרוחקים
- כיצד לארגן ולתייג קבצי גיבוי

במערכות איסוף נתונים קיימות כמו eBird, iNaturalist ו-Living Atlas גיבוי הנתונים מתבצע באחריות מנהלי המערכות.
אחסון
מערכת אחסון נתונים, בין אם מדובר בנתונים המקוריים או בגיבוי, צריכה להיות חזקה. זה נכון בין אם הנתונים מאוחסנים על נייר או דיגיטלית, אבל אחסון דיגיטלי מעלה בעיות מיוחדות. שיטות עבודה מומלצות לאחסון דיגיטלי של נתונים:
- להשתמש במערכות אחסון (למשל מדיה, התקנים) באיכות גבוהה
- להשתמש בפורמטים שאינם קנייניים לשימוש בתוכנה לטווח ארוך
- להעביר קבצי נתונים כל שנתיים עד חמש שנים למערכת אחסון חדשה – זאת משום שאמצעי אחסון כגון תקליטורים, DVD וכוננים קשיחים יכולים להתקלקל עם הזמן או להתיישן
- לבדוק את הנתונים המאוחסנים באופן קבוע כדי לוודא ששום דבר לא אבד
- להשתמש בצורות שונות של אחסון עבור אותם נתונים, שזו גם שיטה של גיבוי. למשל, באמצעות שימוש באחסון מרוחק, כוננים קשיחים חיצוניים וכונן רשת
- לתייג ולארגן קבצים מאוחסנים באופן הגיוני כדי שיהיה קל לאתר אותם ולגשת אליהם
- לחשוב על הצפנה: נתונים רגישים עשויים להיחשב כמוגנים אם המחשב מוגן בסיסמא, אך כאשר הוא מגובה בכונן קשיח נייד הם עשויים להפוך לנגישים לכל אחד – ייתכן שיהיה צורך לאבטח או להצפין גם גיבויים
ניתן לאחסן ולגבות נתונים בכל מיני אופנים:
- כונני רשת המנוהלים ע”י צוות מחשוב ומגובים באופן קבוע. הם מבטיחים אחסון בטוח ומונעים כניסה לא מאושרת לקבצים.
- התקנים אישיים כמו מחשבים ניידים וטאבלטים הם נוחים לאחסון זמני לטווח קצר, אבל אין להשתמש בהם לאחסון קבצי המקור. התקנים אלו מצויים בסיכון גבוה להיאבד, להיגנב או להינזק.
- התקנים חיצוניים כמו כוננים קשיחים, כונני USB או תקליטורים הם לעיתים קרובות נוחים בשל העלות הזולה והניידות שלהם. אולם, הם לא מבטיחים שמירה ארוכת טווח ויכולים גם הם להיאבד, להיגנב או להינזק. יש להשתמש בהתקנים חיצוניים ברמה גבוהה מיצרן מהימן.
- שירותי ענן יכולים מבחינה טכנית לאפשר למשתמשים לסנכרן קבצים בין מחשבים שונים. הם מספקים שטח אחסון חינם אבל תדרשו לרכוש שטח נוסף אם יידרש או לשלם לתפקודים שונים.

איסוף נתונים במסגרת הפלטפורמות המוצעות ע”י המרכז הישראלי למדע אזרחי (BioCollect ו-iNaturalist) מבטיח שהנתונים ישמרו ויגובו בשרתים של המרכז.
שיתוף נתונים

ניתן לשתף נתוני מחקר באופנים שונים ולכל שיטה יהיו יתרונות וחסרונות. דוגמאות לדרכי שיתוף מידע:
- שימוש במרכזי נתונים נושאיים כמו Dryad (מידע אקולוגי ואבולוציוני) או GenBank (מידע על רצפים גנטים)
- הפקדת נתונים במרכז הנתונים של הגורם המממן את המחקר שלכם
- הפקדת נתונים באחריות האוניברסיטה
- שיתוף נתונים העומדים בסטנדרטים הנדרשים בפורטלים לאומיים כמו BioGis או בפורטלים בינלאומיים כמו GBIF (כפי שעושה המרכז הישראלי למדע אזרחי עם הנתונים המנוהלים דרכו)
- הנגשת הנתונים און-ליין דרך מחברות פתוחות או אתרי פרויקטים, או דרך אתר המרכז הישראלי למדע אזרחי
מדיניות החברה האקולוגית הבריטית מחייבת שכל הנתונים ששימשו להפקת תוצאות במאמרים שפורסמו בכתבי העת שלה, יהיו מאוחסנים במאגר מתאים המספק גישה והתחייבות לשימור, וזאת במטרה לעודד את הכותבים לבחור במאגר המתאים ביותר לנתונים שלהם. גם כתבי עת אקדמיים מובילים מחייבים או לפחות דורשים הצהרה מפורטת על זמינות הנתונים, ומעודדים (ולעתים מחייבים) שיתוף נתונים במאגרים ציבוריים בני קיימא, כחלק מהמאמצים לשקיפות, שיחזור ושימור ידע מדעי. כך למשל ב-Nature חובה לכלול הצהרת זמינות נתונים ונתונים מסוימים חייבים להישמר במאגר פתוח; ב-PLOS ONE חובה להנגיש את ה־Minimal Data Set (הנתונים שנאספו או נותחו בפועל, כפי שהוצגו או שימשו ליצירת הגרפים, הטבלאות והמסקנות, כולל מטא-דאטה מלאים) כתנאי לפרסום; כתב העת Springer Nature מעודד אחסון במאגרים העומדים בעקרונות FAIR ולעיתים זו חובה פורמלית; להוצאה Elsevier מדיניות הנוגעת למדעים מדויקים ומחייבת שיתוף נתונים פתוחים והצהרה על זמינות הנתונים.כדאי לשקול ללכת בעקבות עקרונות שיתוף נתונים של World Data System, המדגישים שצריך לשתף נתונים באופן פתוח, עם הגבלות מעטות ככל האפשר ולעשות בהם שימוש עם הציטוט הנכון.
מאגרי נתונים
אחסון הנתונים במאגרים הוא דרך אמינה לשיתוף נתונים. נתונים שיישלחו למאגרים יצטרכו להתאים להנחיות ההגשה, דרישה שעלולה להגביל את הנתונים שניתן לשתף דרך המאגר, אולם למהלך כזה מספר יתרונות:
- הבטחה שהנתונים עומדים בסטנדרטים הנדרשים
- הבטחה לשמירה ארוכת טווח
- הנתונים מאובטחים והגישה אליהם יכולה להיות מבוקרת
- הנתונים מגובים באופן שגרתי
- שיפור בסיכוי שאחרים יגלו את הנתונים
- יש שיטות ברורות לציטוט הנתונים
- יש ניטור של השימוש המשני בנתונים
בסיסי נתונים ארוכי טווח הם חשובים מאוד באקולוגיה ובאבולוציה. חיוב כתבי העת את הכותבים לאחסון הנתונים שלהם מבטיח רק את השמירה של הנתונים שנעשה בהם שימוש במאמר ספציפי, אבל מגביר את המודעות של החוקרים לחשיבות של אחסון ושיתוף בסיסי נתונים. שיתוף בסיסי נתונים לא היה פרקטיקה נפוצה בתחומים כמו אקולוגיה. אולם, ככל שגדלים האמון בקווים מנחים של אתיקה, דרישות של גורמי מימון ושל כתבי עת וציפיות מהקהילה בנוגע לגישה וציטוט נכון של אחרים, כך ניתן יהיה להתקדם לקראת עתיד עם יותר גישה לנתונים פתוחים.
מאמרי נתונים
מאמר נתונים הוא מאמר שעבר ביקורת עמיתים המתפרסם בכתב עת אקדמי ומתאר מערך נתונים ספציפי או קבוצה של מערכי נתונים. המטרה העיקרית של מאמר כזה היא להציג את המטא-דאטה ולתאר את הנתונים והנסיבות בהן נאספו, יותר מאשר לדווח על השערות ומסקנות. בפרסום מאמר נתונים תקבלו קרדיט דרך כתב העת באותה דרך ככל מאמר מחקרי.
פרסום נתוני מגוון ביולוגי דרך GBIF
Global Biodiversity Information Facility היא תשתית מחקרית של נתונים פתוחים, שנוסדה ע”י ממשלות ונועדה לספק לכל אחד, בכל מקום גישה לנתונים על כל סוגי החיים על פני כדור הארץ. GBIF, שמנוהלת ע”י מזכירות בקופנהגן, דנמרק, מאפשרת למוסדות בעלי נתונים מרחבי העולם לשתף מידע על היכן ומתי הנתונים נאספו. הידע הזה מגיע ממקורות רבים, כולל פריטי אוספים ממוזיאונים שגילם עשרות ומאות שונים, מחקרים ותוכניות ניטור עכשוויים, וכן מיזמי מדע אזרחי. נכון ל-2023, מעל מחצית מנתוני GBIF מקורם ממיזמים של מדע אזרחי בעולם וההערכה היא כי חלקם היחסי יעלה עם הזמן.
על ידי עידוד השימוש בסטנדרטים המקובלים לנתונים ובכלים של קוד פתוח לפרסום, GBIF מאפשרת גילוי, איחוד ושימוש בנתונים מאלפי אוספים ופרויקטים שונים, כדי לתמוך במחקר ובמדיניות. יש גישה חופשית לנתונים שמתפרסמים באמצעות GBIF דרך האתר ושירותי אינטרנט מקושרים, כמו גם דרך פורטלים לאומיים ונושאיים העושים שימוש בתשתית המשותפת.
דרך רשת הסניפים הלאומיים, האזוריים והנושאיים, GBIF משמשת גם כקהילה שיתופית, המשתפת מיומנויות ופרקטיקות מיטביות לעידוד השתתפות רחבה ככל האפשר. המרכז הישראלי למדע אזרחי מעביר את הנתונים שבמאגר שלו ל-GBIF.
שיתוף נתונים באמצעות הכלים של GBIF מאפשר לחוקרים ולמוסדות:
- להוסיף ערך לנתונים, כאשר מאפשרים לעשות בהם שימוש חוזר במגוון רחב של שדות מחקר
- להשלים פערי ידע גיאוגרפיים וטקסונומיים תוך קידום הידע על המגוון הביולוגי המקומי ומעבר לו
- לאפשר נראות לאוספי טבע היסטוריים ולפרויקטים מחקריים, כולל מעורבות של אנשים בכל השלבים כמו איסוף בשטח, זיהוי, אוצרות וניהול נתונים
- מעקב אחר השימוש והיישומים של הנתונים באמצעות מידע על ציטוטים במחקרים ועל הורדת נתונים
- לעמוד בהתחייבויות לגב ניהול והנגשת נתונים, הנדרשות יותר ויותר ע”י סוכנויות מימון ורשויות ציבוריות

נתונים שנאספים במסגרת הפלטפורמות המוצעות ע”י המרכז הישראלי למדע אזרחי מועברים ל-GBIF אחת לשבוע (iNaturalist), אחת לרבעון (BioCollect) או אחת לשנה (eBird).
שימוש חוזר בנתונים

כל ההיבטים של ניהול נתונים מובילים לגילוי ושימוש חוזר בנתונים על ידינו ועל ידי אחרים. זכויות קניין אינטלקטואלי, הרשאות ורשיונות רלוונטיים לשימוש חוזר בנתונים צריכים להיות מוסברים בתיעוד הנתונים או במטא-דאטה. בשלב זה של מחזור החיים של הנתונים, חשוב להצהיר באופן גלוי על הציפיות בעת שימוש חוזר בנתונים שלנו, כלומר, תנאים של הכרה, ציטוט ושיתוף פעולה. כך זה הופך להיות האחריות של המשתמשים לעשות שימוש חוזר בנתונים באופן יעיל, לתת קרדיט לאוספי הנתונים המקוריים, לצטט את המקור ולנהל מחקר המשך לאותן השפעות.
כאשר מבקשים ממישהו או מישהי רשות להשתמש בנתונים שלהם, חשוב להבהיר את המטרות של הבקשה, כולל הרעיון אליו אתם מתייחסים והציפיות שלכם לגבי שיתוף פעולה או הכרה. שיתוף פעולה הוא נושא מורכב וצריך לשוחח עליו עם כל השותפים בתחילת הפרויקט. הגברת הנגישות לנתונים והבטחה שיישמרו לאורך זמן מחזקת שיתופי פעולה ושקיפות, ומעודדת מחקר שמכוון לענות על שאלות גדולות באקולוגיה ובאבולוציה. ע”י יישום פרקטיקות טובות לניהול נתונים, חוקרים יכולים להבטיח שנתונים איכותיים יישמרו לקהילת המחקר ויהיה להם תפקיד בקידום המדע בדורות הבאים.
הנגשת נתונים
- מעלה את יעילות המחקר
- מעודדת קפדנות ואיכות מחקרית
- מאפשרת לעקוב אחר שימוש בנתונים וציטוט שלהם באמצעות DOI
- הגדלת הספקטרום של תוצרים אקדמיים דרך מאמרי נתונים
- מאפשרת לחוקרים לשאול שאלת מחקר חדשות
- מאפשרת שיתופי פעולה ובניית קהילות
- מגדילה את ההשפעות הכלכליות והחברתיות של המחקר
- תומכת באמנות בינלאומיות ובדרישות של קרנות מימון
ציטוט נתונים
נתונים שנלקחו מפורטלי נתונים הם על פי רוב פתוחים וחינמיים, אבל לא חופשיים ממגבלות. קראו וכבדו את הכללים לשימוש בנתונים של פורטל הנתונים שבהם אתם משתמשים במחקר, ועקבו אחר הנחיות הציטוט של הפורטל וההנחיות לכותבים בכתב העת שלכם. כשניתן, השתמשו ב-DOI כדי להפנות לנתונים הגולמיים או שהורדו, לנתונים המעובדים ולגרסה המאוחסנת. פרקטיקות טובות של ציטוט מבטיחות שקיפות מדעית ויכולת שחזור על ידי הכוונה של חוקרים אחרים למקור המידע הראשוני. הן גם מתגמלות מוסדות ואנשים המפרסמים נתונים, ע”י חיזוק התרומה של שיתוף מידע פתוח והדגמה של השלכות השיתוף לבעלי העניין ולנותני החסות. מאגרי נתונים המתפרסמים באמצעות GBIF ופורטלים אחרים הם פרסומים מאושרים של נתונים אלקטרונים, וככאלו יש לנהוג בהם כמו תוצאות מחקר מהשורה הראשונה ולצטט אותם כנדרש.
מדריכים נוספים

מדריך לחקר נתוני iNaturalist עם תלמידים
הצעה לפעילות לתלמידי חטיבת ביניים ותיכון של עבודת חקר אישית או קבוצתית על בסיס נתוני iNaturalist, שעשויה להתאים במסגרת למידה על נושאי סביבה בתחומי הוראה מגוונים.

מדריך לפרויקט iNaturalist
ב-iNaturalist אפשר בין היתר לשתף פעולה עם אחרים בפרויקטים, המאגדים תצפיות תחת מטרה משותפת. פרויקט מאפשר למשתתפים לעקוב אחר איסוף התצפיות ולהתעדכן מפוסטים ביומן הפרויקט.

מדריך לביובליץ
ביובליצים הם אירועים מהנים ומרתקים המספקים משמעות ותוצאות ליחידים ולארגונים, אבל הם גם אירועים מורכבים. יש להיערך, לתכנן ולנהל את הביובליץ בתשומת לב. מדריך זה מיועד לסייע בכך.