Как стать автором
Обновить

Утечка исходных кодов сервисов Яндекс

Время на прочтение3 мин
Количество просмотров145K

25 января 2023 в сети появились исходные коды и сопутствующие им данные множества сервисов и программ компании Яндекс. Раздача содержит отдельные архивы (.tar.bz2), по названиям которых можно идентифицировать соответствующие сервисы Яндекса.
Общий объём архивов (в сжатом виде) составляет более 44.7 ГБ.

26 января 2023 Яндекс подтвердил Хабру публикацию исходных кодов части проектов из внутреннего репозитория.

30 января 2023 Яндекс раскрыл первые результаты расследования (см. ниже).

Ранее, в 2022 году, в свободном доступе были выложены архивы сервиса «Яндекс.Еда» с данными заказов клиентов.

Краткая статистика

ТОП-5 самых больших архивов

Название архива

Размер

frontend

18.26 ГБ

classfields

4.67 ГБ

market

4.00 ГБ

taxi

3.30 ГБ

portal

2.35 ГБ

ТОП-35 забавных названий

Огласите весь список!

Сначала был ТОП-5 забавных названий папок и модулей. По мере изучения исходников, возник уже ТОП-10, потом ТОП-20 и ТОП-30, но… в какой-то момент остроумие авторов несколько утомило и я перестал фиксировать названия, которые уже не казались такими забавными.

  1. nirvana

  2. skynet

  3. samogon

  4. testopithecus

  5. scrooge (Скрудж, разумеется, часть payplatform)

  6. emily (видимо, конкурентка alice)

  7. dolbilka

  8. matrixnet

  9. spaniel

  10. collie

  11. begemot

  12. beholder

  13. catmachine

  14. tractor

  15. cocaine

  16. tikaite

  17. libblackbox2

  18. mystery-mailer

  19. ciao

  20. morty

  21. plutonium

  22. jurassic

  23. shiftinator

  24. perforator

  25. woland

  26. iconostasis

  27. priemka

  28. pumpkin

  29. zephyr

  30. panther

  31. bert

  32. hamster

  33. whitespirit / darkspirit

  34. oops

  35. razladki_suggest

Языки программирования и описания данных

  • Python

  • C++

  • Go

  • TypeScript

  • Protocol Buffers

  • Yaml, JSON etc

Список папок

Общее количество папок: 83

Полный список папок
  1. aapi

  2. admins

  3. ads

  4. alice

  5. analytics

  6. antiadblock

  7. antirobot

  8. autocheck

  9. balancer

  10. billing

  11. bindings

  12. captcha

  13. cdn

  14. certs

  15. ci

  16. classifieds

  17. client_analytics

  18. client_method

  19. cloud

  20. commerce

  21. config

  22. connect

  23. crm

  24. crypta

  25. customer_service

  26. datacloud

  27. delivery

  28. direct

  29. disk

  30. docs

  31. drive

  32. extsearch

  33. frontend

  34. fuzzing

  35. gencfg

  36. groups

  37. helpdesk

  38. infra

  39. intranet

  40. investors

  41. it-office

  42. jupytercloud

  43. kernel

  44. library

  45. load

  46. mail

  47. maps

  48. maps_2

  49. maps_adv

  50. market

  51. metrika

  52. mobile-WARNING-notfull

  53. nginx

  54. noc

  55. partner

  56. passport

  57. pay

  58. payplatform

  59. paysys

  60. portal

  61. privacy_office

  62. products

  63. robot

  64. rt-research

  65. saas

  66. sandbox

  67. search

  68. security

  69. skynet

  70. smart_devices

  71. smarttv

  72. solomon

  73. stocks

  74. switch

  75. tasklet

  76. taxi

  77. tools

  78. travel

  79. wmconsole

  80. yandex360

  81. yandex_io

  82. yaphone

  83. yawe

Странные особенности

Даты файлов
  • Единая дата всех файлов и папок во всех архивах

  • Дата всех файлов: 2022-02-24

Версии Python
  • Относительное большое количество вспомогательного кода на Python 2.7

Реакция Яндекса

30 января 2023 Яндекс раскрыл первые результаты расследования:

Опубликованные фрагменты действительно взяты из нашего внутреннего репозитория — инструмента, с помощью которого разработчики компании работают с кодом. При этом содержимое архива соответствует устаревшей версии репозитория — она отличается от актуальной версии, которая используется нашими сервисами.

Первичный анализ показал, что опубликованные фрагменты не несут какой-либо угрозы для безопасности наших пользователей или работоспособности сервисов. В то же время мы решили, что сложившаяся ситуация — повод провести масштабный аудит всего содержимого репозитория.

Яндекс дополнительно приводит примеры серьезного нарушения внутренних политик компании, в том числе:

  • В коде содержались контактные данные некоторых партнёров. Например, водителей — в некоторых случаях их контакты и номера водительских удостоверений передавались из одного таксопарка в другой.

  • Зафиксированы случаи, когда логику работы сервисов корректировали не алгоритмическим способом, а «костылями» (прим.: буквальная цитата Яндекса). Через такие «костыли» исправляли отдельные ошибки системы рекомендаций, которая отвечает за дополнительные элементы поисковой выдачи, и регулировали настройки поиска по картинкам и видео.

  • В сервисе Яндекс Лавка существовала возможность ручной настройки рекомендаций любых товаров без пометки об их рекламном характере.

  • Наличие приоритетной поддержки для отдельных групп пользователей в сервисах Такси и Еда.

  • Некоторые части кода содержали слова, которые никак не влияли на работу сервисов, но были сами по себе оскорбительны для людей разных рас и национальностей.

  • Для улучшения качества активации ассистента и уменьшения количества ложных срабатываний в бета-версии для сотрудников применяется настройка, которая включает микрофон устройства на несколько секунд в случайный момент без упоминания Алисы (утверждается, что такой функционал возможен только в тестовом режиме).

Итог

По состоянию на 30 января 2023:

  • Яндекс заверил, что данные пользователей не пострадали.

  • Яндекс принёс извинения пользователям и партнёрам.

  • Яндекс привёл свои объяснения причин возникшей ситуации.

  • Яндекс поделился планами по дальнейшим действиям.

  • Яндекс не привёл оценки рисков, которые могут последовать за столь обширной утечкой исходных кодов такого большого количества сервисов компании.

Теги:
Хабы:
Всего голосов 111: ↑111 и ↓0+111
Комментарии214

Другие новости

Истории

Работа

Ближайшие события