Фон

В конце 2019 года мне посчастливилось возглавить проект машинного обучения, ориентированный на результат (в Slalom Consulting) с Американским онкологическим обществом в честь коллеги, который скончался от рака. По мере того, как мы изучали разные темы и проводили семинары по областям сотрудничества, в которых наши навыки (информатика, искусственный интеллект, эпидемиология, демографическая наука) могли бы дополнять друг друга, мы в конечном итоге остановились на сценарии использования, который был очень близок и дорог моему сердцу. Я надеюсь, что этот общий обзор донесет до любого читателя общий процесс, вопросы, которые следует учитывать, проблемы и возможности такого рода работы.

Проблема

Статистически мы знаем, что у 1 из 8 женщин только в США в течение жизни будет диагностирован рак молочной железы. Многие из нас, в том числе и я, уже потеряли или потеряют членов семьи и близких людей из-за этой сложной болезни.

Мы также знаем, что патологоанатомы, узкоспециализированные ученые, которые обучаются пониманию конкретных заболеваний, особенно по образцам (например, образцам тканей), пользуются большим спросом и низким предложением. Просто не хватает патологоанатомов, чтобы удовлетворить растущий спрос на случаи.

Однако с ростом числа цифровых патологий (согласно Allied Market Research ожидается рост на 13% в год до 2026 г.) и оцифровкой образцов тканей появляются возможности для расширения возможностей патологоанатомов и масштабирования анализа образцов тканей с использованием машинного обучения. поддерживайте их (не заменяйте) последовательной и неутомимой способностью компьютеров. Машины также могут видеть информацию на уровне пикселей в изображениях, которые не видны человеческому глазу.

Это было то, что мы хотели исследовать и изучить возможность выявления закономерностей на цифровых изображениях образцов ткани опухоли рака молочной железы с использованием компьютерного зрения.

Проект

Американское онкологическое общество имеет богатую историю сбора данных о раке посредством крупных когортных исследований, называемых Исследование по предотвращению рака. Эти исследования отслеживают участников на протяжении всей их жизни с помощью лонгитюдных опросов и дают нам бесценную информацию о том, как развивается рак, начиная с факторов образа жизни, диагнозов и даже геномной информации. Когда мы начали наше сотрудничество, они только что оцифровали 1700 ~ образцов опухолевой ткани рака молочной железы, собранных в ходе II исследования по предотвращению рака (20 лет) из 847 больниц по всей территории Соединенных Штатов.

Мы хотели изучить следующие вопросы:

  • Можно ли использовать машинное обучение, особенно компьютерное зрение и глубокое обучение, для выявления закономерностей во всех этих изображениях без явного указания, что искать (без присмотра)?
  • Могут ли существовать новые закономерности, которые сможет увидеть только машина?
  • Основываясь на этих шаблонах, можем ли мы сгруппировать изображения по общим признакам? Приведут ли эти группировки к логическим группам, которые могли бы поддержать или ускорить работу патологоанатомов?

Чтобы эффективно определить, были ли эти вопросы правильными для совместного изучения, и если мы хотим отправиться в это путешествие вместе, было важно рассмотреть:

  • Является ли это подходящим уровнем охвата и в какие сроки может быть выполнено это исследование?
  • Есть ли совпадение ценностей и интересов между двумя командами?
  • Имеет ли ответ на этот вопрос значительную исследовательскую/социальную ценность? Как будет измеряться успех?
  • Достаточно ли междисциплинарного представительства для проведения сотрудничества? Распространено заблуждение, что проекты по машинному обучению могут выполняться только учеными-компьютерщиками. Реальность такова, что проекты будут иметь лучшие результаты при правильном сочетании разнообразного опыта и взглядов.
  • Возможно ли это с технической точки зрения? Достаточно ли у нас вычислений и доступа к графическим процессорам? Чтобы ответить на последний вопрос, мы привлекли к этому проекту облачного партнера и использовали доступные там вычислительные ресурсы для масштабируемого распределения обработки.

Процесс

Начало такого рода сотрудничества обычно начинается с данных, и даже сегодня существует множество проблем при работе с неструктурированными данными, такими как изображения. Изображения, с которыми мы работали для этой работы, выглядели так, как показано ниже.

Набор данных, который у нас был, содержал много проблем с качеством данных, что также является нормальным для любого проекта машинного обучения. В частности:

  • Изображения были собраны из более чем 847 больниц, а это означает, что методы, использованные для их сбора, не обязательно были последовательными.
  • Некоторые образцы состарились, а это означает, что цвета или красители потускнели. Другие были перекрашены и только добавили бы шума любой модели машинного обучения.
  • 1700~ изображений, которые у нас были, были многомерными (слоистыми) и занимали 3–12 ГБ на изображение. Они также были сохранены в собственном формате изображений (.SCN от Leica).
  • Некоторые образцы были физически разорваны на предметном стекле, что сделало их непригодными для использования.

Чтобы преобразовать данные в формат, который нам нужен для запуска соответствующих моделей компьютерного зрения и глубокого обучения, нам нужно было провести обработку изображений и учесть эти различные проблемы с качеством данных.

Обработка изображений

Первым шагом, который необходимо было сделать, было преобразование изображений в стандартный формат. Большинство моделей машинного обучения требуют, чтобы данные изображения были в стандартном формате для запуска поверх них, и .SCN не входит в их число. Это собственный формат, характерный для Leica и таких типов медицинских изображений. К сожалению, не было простого способа сделать это в масштабе (параллельно и вытягивая определенный слой из нескольких слоев) во время запуска этого проекта, и для этого преобразования требовалось индивидуальное инженерное решение.

Как только это препятствие было преодолено, нам понадобился способ решить проблемы с выцветанием и другими проблемами качества данных, включая физически порванные ткани и нарисованные от руки маркером метки на предметных стеклах, которые попали на цифровые изображения. Эти ошибочные фрагменты данных называются «артефактами». Мы также хотели избежать траты вычислительных ресурсов на обработку фрагментов изображений, которые представляли собой пустое пространство, и сосредоточиться только на тех частях изображения, на которых были реальные ткани.

Чтобы устранить выцветание и некоторые артефакты, мы внедрили технику, называемую нормализацией цвета. По сути, это когда вы определяете конкретные цветовые диапазоны — когда мы берем «золотой шаблон» и убеждаемся, что в пределах определенного диапазона изображения, которые мы рассматриваем, имеют большую часть своей ткани в одной и той же области цветов, так что «фиолетовый» «фиолетовый» по всем направлениям. Неестественные цвета, такие как цвет черного маркера, будут быстро идентифицированы и помечены. Этот метод не всегда применяется в таких исследованиях и не всегда может быть необходим или полезен.

Чтобы избежать обработки белого пространства, мы использовали формулу для определения отношения данного изображения, с помощью которой можно определить, какие области имеют высокую долю белого пространства по сравнению с реальной тканью на изображении.

Теперь мы поняли, что изображения были слишком большими для обработки (что называется обработкой изображений всего слайда), и поэтому еще один метод был объединен со всеми этими другими, называемыми «плиткой». Это именно то, на что это похоже, когда одно массивное изображение (помните, до ~ 10 ГБ каждое) разбито на несколько меньших «плиток». Это упрощает устранение меньших частей (плиток), которые имеют артефакты, а также те, которые содержат пустое пространство, таким образом, что мы можем разбивать вычисления распределенным образом, то есть каждая плитка может обрабатываться одновременно через много машин. Это наиболее ресурсоемкая часть процесса и может быть очень дорогостоящей, что делает ее потенциально непосильной для некоторых (подробнее об этом позже).

Образец всего изображения слайда «плитки»

После завершения всего этого процесса можно приступать к процессу моделирования.

Разработка функций

Поскольку целью этого исследовательского сотрудничества было группирование изображений на основе шаблонов, которые видит машина, а не логических группировок, которые использовал бы человек, нам нужно было использовать так называемые «неконтролируемые» методы. В то время как в «контролируемых» методах мы сообщаем компьютеру, что такое «кошка», и скармливаем ему миллионы изображений, помеченных людьми как «кошки», в неконтролируемых мы должны найти способы, с помощью которых машина выполнит оставшиеся шаги, включая проектирование признаков.

Разработка признаков относится к той части процесса машинного обучения, где мы преобразовываем необработанные данные или части необработанных данных в инженерные данные на основе знаний предметной области, которые будут более эффективными для прогнозирования того, что мы хотим. Это может означать использование финансового опыта для использования стандартного отклонения чего-либо вместо исходного числа.

Есть способы сделать этот процесс без присмотра. Один из этих методов называется автоэнкодер и часто применяется в компьютерном зрении и других задачах с неструктурированными данными.

В этом случае работа автоэнкодера состоит в том, чтобы взять мозаичное изображение и свести его к числовому векторному представлению основных компонентов и шаблонов внутри него, сохраняя при этом возможность максимально точно воспроизвести исходный ввод. Это было применено ко всем плиткам и охватывало вопрос об использовании определяемых машиной шаблонов, а затем выходные данные были переданы в модель машинного обучения второго типа (в частности, глубокое обучение).

Кластеризация

Первоначальная гипотеза заключалась не только в том, чтобы проверить, может ли машина идентифицировать закономерности на изображениях, но и в том, чтобы группировать их. Для этого мы использовали несколько раундов кластеризации с помощью алгоритма, известного как К-средних. Это сгруппировало результаты предыдущего шага в 10 групп, как показано на изображении ниже (только представитель):

Результаты

С созданными компьютером кластерами, сгруппированными по признакам, определенным с помощью неконтролируемых методов, исследовательские группы должны были провести дальнейшие исследования и определить новизну группировок на основе последующего объединения плиток/образцов тканей с базовой информацией продольного исследования от Cancer Prevention. Исследование II. Дополнительные исследования в этой области можно найти по ссылкам ниже.

Также есть желание открыть исходный код этой работы и поделиться ею с сообществом, чтобы другие могли продолжить исследование или улучшить процесс.

Мы понимаем, что эти типы технологических достижений могут улучшить результаты для многих и расширить работу патологоанатомов по всему миру, но мы также должны обеспечить уровень доступности по мере их разработки.

Возможности на будущее

Сотрудничество принесло много уроков и открытий, но всегда есть возможность сделать больше в этой области, чтобы добиться лучших результатов для пациентов. Некоторые из соображений включают:

  1. Сокращение вычислительных усилий. Чтобы сделать этот тип технологии более доступным для всех областей и пациентов, необходимо уменьшить барьер для входа, вызванный как вычислительными ресурсами, так и необходимыми специализированными человеческими навыками. Природа медицинских изображений делает их сложными и дорогими для обработки в больших масштабах.
  2. Увеличьте распространение данных исходной информации. Многие организации работают над увеличением разнообразия данных, собираемых для исследований, и это должно оставаться в центре внимания, чтобы гарантировать, что все будут приняты во внимание.
  3. Сделайте модели глубокого обучения более объяснимыми. На этом фронте есть много нововведений, но это все еще область улучшений с точки зрения понимания того, как некоторые из этих моделей приходят к конкретным выводам. Мы также должны иметь возможность воспроизвести любое исследование, что не всегда так.
  4. Повысить доступность/принятие цифровой патологии. Не у всех есть доступ к цифровой патологии, поскольку для внедрения аппаратной части часто требуются высокие затраты на инфраструктуру (например, специальные сканеры, интеграции и т. д.). Есть много профессиональных организаций, продвигающих это внедрение, но это еще одна область возможностей, поскольку она откроет возможность патологоанатомам в любом месте рассматривать и обсуждать случаи.

Кросспост с моего сайта, здесь.

Справочник

Союзническое маркетинговое исследование. "Отчет." 2020.

AACR. Масштабируемая, облачная, неконтролируемая система глубокого обучения для идентификации, извлечения и обобщения потенциально незаметных закономерностей в цельных изображениях ткани рака молочной железы. 2019. Ссылка.

ВАБЕ. Использование искусственного интеллекта для борьбы с раком груди. 2019. Ссылка.

Изображения из оригинальной общедоступной презентации Google NEXT. 2019. Ссылка. Ссылка 2.

Американское онкологическое общество. О раке молочной железы. 2021. Звено.

Американское онкологическое общество. История изучения профилактики рака. 2021. Звено.

Ссылки на Википедию.