Данные — это деликатная тема, и вы, естественно, будете иметь дело с ней как специалист по данным. Вот несколько правил, которым вы всегда должны следовать.
Данные чрезвычайно ценны, и их использование является одной из лучших практик для большинства организаций сегодня. Но знание отраслевых стандартов в отношении этого необходимо для ученых, занимающихся данными, чтобы не ошибаться с данными, поскольку люди узнают больше о их ценности.
Таким образом, специалисты по данным должны использовать безопасные и этичные методы и применять стандартизированные. Вместо того, чтобы рассматривать только то, насколько ценны данные, разумно подвергнуть сомнению методы получения и обработки данных для любых целей. Итак, вот девять кодексов поведения, которым должен следовать каждый специалист по данным.
1. Соблюдайте правила
Специалисты по данным должны знать правила защиты данных, применимые к определенным должностям. В противном случае вы можете неосознанно нарушить закон и подвергнуть риску себя и других. Таким образом, эти знания имеют решающее значение для обеспечения этичной работы и предотвращения непреднамеренного вреда.
Таким образом, проверьте соответствующие законы, прежде чем заниматься какой-либо деятельностью. Кроме того, не просто соблюдайте правила, чтобы следовать правилам; также стремиться к более глубокому пониманию их. Чтобы правильно соблюдать правила, вы должны знать, почему они установлены и от чего они защищают.
Несколько заслуживающих внимания законов о конфиденциальности — это Общий регламент ЕС по защите данных (GDPR) и Калифорнийский закон о конфиденциальности потребителей (CCPA). Другие включают HIIPA, DPA, PIPEDA, LGPD и многие отраслевые правила.
2. Уважайте конфиденциальность
Адреса, электронные письма и идентификаторы — это идентификаторы, которые не должны быть общедоступными, поскольку они представляют реальную опасность для людей. Следовательно, убедитесь, что вы делаете эти детали как можно более конфиденциальными.
В случае разоблачения жертвы могут пострадать от кражи личных данных или мошенничества. Их также могут шантажировать люди, угрожающие раскрыть их конфиденциальную информацию. Кроме того, профессионалы могут пострадать от репутации и преследований в Интернете, как только их личные предпочтения станут достоянием общественности. Это может повлиять на их отношения, карьерные возможности и социальное положение.
Имея это в виду, исследуйте и выбирайте эффективные способы улучшения безопасные онлайн-идентификации и обезличить данные. Например, вы можете заменить символы, удалить прямые идентификаторы или обобщить. Это защищает конфиденциальные данные от киберпреступников и помогает организациям с вашими выводами.
3. Устранить предвзятость
Исследователи данных полагаются на статистику, чтобы быть максимально объективными. Тем не менее, несмотря на эти усилия, предвзятость сохраняется, потому что представление о том, что большие данные более точны, является одним из самых распространенные мифы о науке о данных.
В этом есть доля правды, но, к сожалению, большие данные иногда содержат ненужные или фиктивные элементы и статистику. Таким образом, вместо того, чтобы сосредотачиваться только на цифрах, убедитесь, что ваши данные чисты и репрезентативны.
Очистка или фильтрация данных перед использованием — отличные методы борьбы с предвзятостью. Например, вы можете проверить наличие ошибок или использовать стратифицированную выборку для получения репрезентативных данных.
4. Не придумывайте и не придумывайте результаты
Фабрикация — это форма неправомерного использования данных и мошенничества в исследованиях, которая включает в себя выдумку результатов и представление их как истинных.
Например, специалист по данным может сообщить, что лекарство не имеет побочных эффектов для большинства представителей определенной возрастной группы. Эти выводы были бы сфабрикованы, если бы не было первоначальных медицинских экспериментов и сбора данных для их подтверждения.
Фабрикация имеет серьезные и негативные последствия для специалистов по данным и тех, кто полагается на их работу. Это может подорвать доверие к вам, запятнать репутацию вашей организации, навредить обществу или подвергнуть вас юридическим рискам.
5. Не фальсифицируйте и не манипулируйте доказательствами
Фальсификация — это манипулирование реальностью, сбор данных в соответствии с повесткой дня. В то время как производители выдумывают результаты из несуществующих данных для подтверждения своих утверждений, фальсификаторы работают над тем, чтобы опровергнуть реальные и существующие данные по личным причинам. Для этого они могут вмешиваться в исследовательское оборудование, изменять или полностью опускать данные.
Фальсификация может нанести вред обществу, предоставляя ложную информацию, влияющую на принятие решений в различных секторах. Например, фальсифицированное исследование лекарств может подвергнуть людей ненужному риску, неэффективному лечению или вредным побочным эффектам. Это также может привести к потере денег, времени или материалов, которые могли бы быть использованы для других целей.
Фабрикация и фальсификация являются недобросовестными действиями с неблагоприятными последствиями и многочисленными санкциями. Это могут быть штрафы, отзыв полномочий, потеря финансирования исследований или лишение свободы.
6. Показать прозрачность
Прозрачность для специалистов по данным означает честность в отношении методов, применяемых для сбора, анализа и представления данных. Специалисты по данным должны быть открыты и готовы делиться своим опытом с другими специалистами по данным и участниками исследования.
Кроме того, вы должны получить согласие участников исследования, потому что публикация результатов без информированного согласия может вызвать неуважение к участникам или нанести им ущерб различными способами. Они могут нарушать их достоинство, неприкосновенность частной жизни и автономию или подвергать их пагубным, ненужным рискам в результате исследования.
Прозрачность укрепляет доверие тех, кто использует ваши данные для понимания. Это также обеспечивает качество данных, позволяя другим просматривать ваши результаты.
Кроме того, открытость среди специалистов по данным способствует сотрудничеству и обучению. Вы можете способствовать инновациям, делясь своим процессом и сообщая лучшие методы визуализации данных и методы науки о данных коллегам, учась у них.
7. Безопасный сбор данных
Специалисты по данным должны подтвердить безопасность методов, используемых для сбора, анализа и хранения данных. Это предотвращает потенциальные утечки данных, которые могут повлиять на ученых и участников исследования.
Утечки данных ставят под угрозу личную безопасность, подрывают общественное доверие и выявляют организационную некомпетентность, что приводит к ошеломляющим финансовым потерям для компании. Этими потерями могут быть судебные иски от жертв утечки данных, меньшее количество клиентов и многое другое.
В связи с этим необходимо провести исследование, чтобы найти самые эффективные решения для защиты данных и применять их. Например, вы можете защитить соединения с помощью шифрования TLS/SSL или использовать чередующиеся прокси. Кроме того, вы можете применять меры контроля доступа и создавать резервные копии на случай атаки. Когда вы найдете решения, не забудьте поделиться ими с другими, чтобы обеспечить максимальную безопасность.
8. Используйте алгоритмы ответственно
Алгоритмы — это не просто инструменты для анализа данных. Они оказывают мощное влияние на жизнь, поведение и возможности людей. Однако, хотя они помогают решать проблемы и делать инновационные прогнозы, они также несовершенны.
Если алгоритмы не будут тщательно разработаны, протестированы или развернуты, они будут иметь социальные и этические последствия, которые могут нанести вред определенным группам людей. Они также вносят предвзятость, если обучаются на данных, которые отражают существующие предубеждения и могут быть непредсказуемыми. Таким образом, специалисты по данным должны разрабатывать и использовать их ответственно.
Всегда выбирайте подходящие алгоритмы, проверяйте их производительность и объясняйте, как они работают. Кроме того, убедитесь, что вы определили потенциальные источники предвзятости и внедрили механизмы, которые при необходимости обновляются или исправляются.
9. Подумайте о долгосрочных последствиях вашей работы
Ваша работа в качестве специалиста по данным окажет значительное влияние на многие аспекты жизни общества. Поэтому всегда учитывайте, как ваши модели влияют на людей.
Например, постарайтесь задаться вопросом, может ли ваша работа увековечить предрассудки и неравенство или поставить под угрозу неприкосновенность частной жизни в будущем. Затем адекватно решите эти проблемы.
Обратите внимание, что перспектива, ориентированная на будущее, важнее любого корректирующего метода, а размышления о предстоящих днях — один из наиболее эффективных способов принятия этически обоснованных решений.
Вы должны быть этичными как Data Scientist
Как специалист по данным, вы получаете власть, которая связана с пропорциональной ответственностью. Ваши навыки редки, поэтому вы находитесь в авангарде принятия организационных решений.
Ваши решения влияют на все: от бизнес-планов компании до систем уголовного правосудия. Таким образом, вы не должны делать их легкомысленными. Всегда будьте честны, этичны и дотошны в своей работе, чтобы защитить людей от существующих этических дилемм в вашей отрасли и других областях техники.