Тетяна Кодлюк: Data Science Полегшує нам Життя

08 Sep, 2017

Тетяна Кодлюк, Data Scientist в компанії V.I.Tech. Після завершення аспірантури в галузі математики, працювала викладачем Тернопільського національного педагогічного університету, а також викладачем онлайн курсів Data Analysis від Mumbai Aegis School of Business. В інтерв’ю, яке було опубліковано у виданні IT ID Lviv, Тетяна розповідає як вона застосовує математику в щоденному житті протягом останніх 8 років.

Все почалося з математики. Це був мій улюблений предмет в школі, який я дуже любила. В університеті в мене було велике бажання застосовувати математику на практиці. На 4 курсі я почала працювати аналітиком. Мені було дуже цікаво аналізувати дані, коли є багато інформації, яку треба зрозуміти, візуалізувати, структуризувати і отримати результат.

Після університету мені бракувало знань і я вступила на аспірантуру в Києві. Там я працювала в Академії наук. Це було цікаво, але це була дуже теоретична наука. Моя дисертація була про диференціальні рівняння. В дослідженнях ми намагалися знайти рівняння, яке б описувало фізичні процеси і можна було б його застосовувати в реальності, але самі його в реальності не застосовували. Дисертація була цікава, але в мене далі постійно стояло запитання – а яке прикладне значення цієї теореми? Мені хотілося реального застосування математики в житті.

t2
Data Science – це комбінація математики, аналітики та ІТ

Є кілька прикладів коли дівчата прийшли в Data Science з декрету. Є такий жарт. В цьому щось є, бо коли працюєш немає вільного часу вчити щось нове, а в декреті з’явився час підівчитися. Я пройшла 20 онлайн-курсів. Основними курсами, з яких я починала були “Machine Learning” by Andrew Ng, спеціалізація по Data Science на Coursera, курси по Big Data Apache Spark на edx та інші. В Україні проходити такі курси є необхідністю, адже в університетах цьому не навчають.

Чим більше я знаю, тим більше розумію що треба знати ще більше. Це безкінечний процес, але мені це подобається. Професія Data Scientist дає можливість постійно розвиватися. Якби цього не було, то мені було б нудно.

В компанії V.I.Tech ми розробляємо платформу для госпіталів в Штатах на основі Data Science. На сьогодні в нас вже 54 млн користувачів. Ми використовуємо дані про всіх пацієнтів, їхні історії хворіб, щоб мати змогу передбачити низку хворіб, які можуть з’явитися в майбутньому в тої чи іншої людини. Для конкретної точки часу ми можемо перебачити на що захворіє людина чи який стан її здоров’я буде, наприклад, 16 липня 2020 року і, наприклад, скільки коштуватиме її лікування. Це колосально. До цих даних належать і демографічні дані, дані про національності, історії хворіб, записи лікарів при огляді пацієнтів тощо. Нейронні мережі здатні обробляти ці величезні об’єми даних і на основі цього вчитися – поділити пацієнтів на групи схожі за якимись критеріями. Майбутнє конкретної людини нам невідоме, але ми маємо дані хворіб людей з її групи, з якою вони схожі і на основі цього її майбутнє може виглядати так само.

Медицина це важливо. Тому результат передбачення має сягати не менше 90%.

t3
Машина ніколи не може приймати рішення, такий основний закон у медичній сфері, згідно законодавства США. Її результати обчислень мають лише рекомендаційний характер. Людина у співпраці зі штучним інтелектом – це краще рішення ніж просто людина, але рішення приймає все одно людина.

Всі ці особисті дані пацієнтів не є публічною інформацією. Ці дані захищені. Кожен з 70 працівників цього проекту у V.I.Tech пройшов тренінг та отримав сертифікат HIPАA про захист та нерозголошення інформації.

Ми можемо передбачити майже все

Data Science робить наше життя легшим. Оптимізовує роботу, економить час, скорочує кількість спеціалістів, які роблять рутинну роботу. Ми можемо застосовувати Data в будь-якій сфері життя. Зараз найбільше це використовують банки, фінансові біржі. Є терабайти різних файлів. Людина не може перевірити таку велику кількість даних, а алгоритм може.

Аналізуючи особисті дані людини чи користувача соцмереж, можна передбачити все: вгадати в якому місці і в котрій годині людина буде перебувати в майбутньому, що вирішить купити, на що захворіє, коли захоче звільнитися з роботи тощо.

Інколи маю відчуття що займаюся чимось дуже важливим. Особливо коли це стосується медицини. Це приносить сатисфакцією. Не даремно я вивчаю теореми чи займаюсь математикою. Я маю відчуття що роблю реальні потрібні речі. Майже, рятую життя людей. Коли ми впровадимо цю систему передбачення хворіб чи помилок лікарів, це справді може багатьом допомогти.

Виступаючи на конференціях я себе реалізовую як викладач, мені цього дуже бракує. Цікаво коли люди щось запитують, мені тоді здається що я роблю це недаремно. Коли цілий рік працюю над проектом і комунікую лише з замовником, цього мені недостатньо. А тут є можливість розказати і отримати віддачу, побачити, що роблю корисну роботу. Так я отримую натхнення, маю поштовх рухатись далі. Крім того, на конференціях є можливість отримати нові знання. Хтось із запрошених спікерів замається чимось таким цікавим, що також викликає в мене цікавість. Я починаю шукати інформацію про той чи інший напрямок, технологію, пробую робити щось схоже і випадково знаходжу ідею для проекту над яким вже працюю.

t4
Спільно з колегами я розробляла курси для бізнес-університету в Мумбаї. Я начитувала лекції онлайн для студентів в аудиторії та перевіряла лабораторні. Цей досвід був корисний, студенти задавали цікаві запитання. Більшість з них вже працюють, але пишуть мені ще й досі. Незабаром їду на конгрес по Data Science  в Індію.

Майбутнє Data Science в Україні

Мені дуже хочеться зробити щось важливе тут в Україні, можливо, в області медицини, так само як і в науці. Я оптимістично налаштована щодо України. Більшість ІТ працівників і спеціалістів по Data Science працюють зараз на аутсорс але всі вони є тут, тому є надія що в країні почнуть впроваджувати власні проекти. Залежить від позиції влади та наявності інвестицій.

В Україні вже починають застосовувати Data Science. Нещодавно було оголошено владою про комп’ютеризацію медичних даних. У Львові, в Києві та Харкові діє вже проект, який робить аналітику для швидкої допомоги. Аналізуються виклики швидкої, по яких хворобах, тощо.

В Україні також є проект Lang-uk, де група інтузіастів займається створенням інструментів для обробки українських текстів за допомогою Machine Learning. Її очільник – Дмитро Чаплинський. Недавно, ми з Дмитром натренували і оцінили word embeddings моделі для українських корпусів. Дмитро тренував, а я оцінювала. Це моделі, які допомагають кожне українське слово зобразити як n-вимірний вектор і використати його для класифікації текстів, sentiment analysis, clustering, entities recognition та інших задач. Всі результати є у відкритому доступі і будь-хто може ними користуватись.

Я вірю, якщо багато працювати то можна досягнути чого забажаєш. Більшість моїх друзів і колег досягли б більшого, якби більше працювали, це – єдине що треба. Кожна людина в Україні може самореалізуватися.