Pracownia Bioinformatyki i Biostatystyki zajmuje się szeroko pojętą działalnością naukową z zakresu analizy danych, analizy biostatystycznej, wizualizacji danych oraz tworzenia oprogramowania na potrzeby badań naukowych.
- Prowadzenie badań i analiz danych biologicznych przy zastosowaniu narzędzi informatycznych, metod analiz i statystycznego modelowania danych.
- Katalogowanie informacji biologicznych i wyszukiwanie danych w komputerowych bazach danych.
- Projektowanie baz danych.
- Opracowywanie i wdrażanie narzędzi umożliwiających efektywne zarządzanie dostępem do różnych rodzajów informacji.
- Wizualizacja danych przy użyciu zróżnicowanych narzędzi graficznych
- i analitycznych.
- Rozwijanie metod obliczeniowych, umożliwiających badanie struktury, ewolucji makromolekuł, interakcji między nimi oraz mechanizmów przekazywania informacji genetycznej.
- Ewidencja oraz analiza informacji biologicznych, gromadzonych w trakcie eksperymentów i badań genomicznych i proteomicznych.
- Modelowanie komputerowe, pozwalające przewidywać zachowanie zarówno układów biologicznych, jak i pojedynczych cząsteczek w określonych warunkach.
Kompetencje członków Pracowni:
dr hab. Joanna Czarnecka, prof. UMCS
tel. 81 537 59 46
e-mail: joanna.czarnecka@mail.umcs.pl
Kompetencje w zakresie biostatystyki i analizy danych: etapy prowadzenia analizy danych z zastosowaniem narzędzi statystycznych; statystyki opisowe – zastosowanie i interpretacja (średnia, mediana, odchylenie standardowe, współczynniki zmienności); błąd standardowy, poziom ufności i przedział ufności; typ rozkładu a dobór statystyk opisowych i metod analizy danych; weryfikacja hipotez statystycznych – etapy, formułowanie hipotezy zerowej i alternatywnej, dobór poziomu istotności, dobór testu, interpretacja uzyskanych wyników; testy istotności różnic między średnimi: analizy jednoczynnikowe i wieloczynnikowe (testy t-Studenta, analiza wariancji), testy post-hoc, ocena efektów eksperymentalnych; nieparametryczne odpowiedniki testów parametrycznych; analiza frekwencji (testy zgodności χ2, test χ2 niezależności dwóch zmiennych jakościowych); analiza kowariancji; korelacja i regresja (współwystępowanie a związki przyczynowo-skutkowe) – budowa i ocena istotności modeli, wykorzystanie modeli do prognozowania; analizy wielowymiarowe i ich zastosowanie w naukach przyrodniczych. Analiza log-liniowa. Prezentacja graficzna wyników analiz.
Wykonanie analiz z wykorzystaniem programu Statistica PL.
prof. dr hab. Sławomir Dresler
tel. 81 537 50 78
e-mail:
Kompetencje w zakresie analizy danych i chemometrii:
Chemometria i wielowymiarowe techniki eksploracyjne
- Umiejętność stosowania metod chemometrycznych do analizy danych chemicznych.
- Znajomość technik eksploracji danych w kontekście wielowymiarowych zestawów danych.
Statystyka parametryczna i nieparametryczna
Regresja logistyczna
- Umiejętność modelowania zjawisk z wykorzystaniem regresji logistycznej w kontekście analiz danych.
Doświadczalnictwo i planowanie doświadczeń (DoE)
- Znajomość metodologii doświadczalnej oraz umiejętność projektowania eksperymentów zgodnie z zasadami DoE.
- Tworzenie i weryfikacja modeli
Walidacja metod analitycznych
dr Piotr Koper
tel. 81 537 59 76
e-mail: piotr.koper@mail.umcs.pl
5 lat doświadczenia w bioinformatyce, ze szczególnym uwzględnieniem analizy danych NGS (Next-Generation Sequencing) genomicznych, transkryptomicznych oraz metagenomicznych (16S rRNA i shotgun).
Umiejętności techniczne:
Analiza danych NGS:
Genomika:
- Składanie (assembly) genomów prokariotycznych i eukariotycznych.
- Adnotacja genomów, identyfikacja genów i elementów strukturalnych.
- Analizy genomiki porównawczej, w tym wykrywanie i interpretacja wariantów genomowych.
Transkryptomika (RNA-Seq):
- Analiza danych RNA-Seq, w tym kontrola jakości, mapowanie odczytów i kwantyfikacja ekspresji genów.
- Analiza różnicowej ekspresji genów oraz interpretacja funkcjonalna wyników.
- Badanie izoform i splicingu alternatywnego.
Metagenomika:
- Analiza danych 16S rRNA oraz całych metagenomów.
- Taksonomiczna klasyfikacja mikroorganizmów, analiza różnorodności mikrobiologicznej.
- Analiza funkcjonalna i metaboliczna metagenomów.
Programowanie i skrypty:
Python i R:
- Tworzenie skryptów do przetwarzania i analizy danych.
- Automatyzacja zadań bioinformatycznych.
- Analiza statystyczna i wizualizacja danych z wykorzystaniem odpowiednich pakietów i bibliotek (m.in. tidyverse, ggplot2, pakiety repozytorium Bioconductor).
Praca w środowisku Linux:
- Biegła znajomość systemu Linux i linii poleceń.
- Pisanie skryptów bash do automatyzacji zadań.
- Doświadczenie w pracy na zdalnych serwerach i klastrach HPC
Systemy kontroli wersji:
- Efektywne zarządzanie kodem źródłowym i wersjonowanie projektów.
- Współpraca w zespole poprzez platformy takie jak GitHub czy GitLab.
mgr inż. Emilia Łabuć
pokój 67B
tel. 81 537 59 21
e-mail: emilia.labuc@mail.umcs.pl
dr Małgorzata Pac-Sosińska
pokój 67B
tel. 81 537 59 21
e-mail: malgorzata.pac-sosinska@mail.umcs.pl
- Przetwarzanie danych omicznych, w tym obsługa narzędzi do analizy danych proteomicznych i immunologicznych, takich jak Mascot, Proteome Discoverer itp. Interpretacja wyników uzyskanych z technik LC-MS/MS i zastosowanie ich w badaniach nad białkami i układem odpornościowym.
- Znajomość kluczowych baz danych proteomicznych i immunologicznych, takich jak UniProt, PeptideAtlas, PRIDE oraz IEDB, IMGT, VDJdb, BCEDB, umożliwiająca efektywne wyszukiwanie, analizę i interpretację danych oraz integrację tych zasobów w badaniach.
- Znajomość języków programowania (Python, R) na poziomie umożliwiającym automatyzację analiz danych omicznych, w tym tworzenie skryptów do analizy, obróbki i wizualizacji danych.
- Doświadczenie w wykorzystaniu narzędzi do wizualizacji danych biologicznych, takich jak ggplot2 itp. w celu tworzenia zaawansowanych, czytelnych i estetycznych wizualizacji.
- Znajomość metod statystycznych, w tym testów statystycznych (t-Studenta, ANOVA, chi-kwadrat) oraz umiejętność ich implementacji i interpretacji wyników w kontekście badań biologicznych i medycznych.
dr Anna Rysiak
tel.: 81 537 50 16
e-mail: anna.rysiak@mail.umcs.pl
- Klasyczna analiza statystyczna: korelacje, testowanie istotności różnic, analiza wariancji, analiza frekwencji. Dobór testów w zależności od struktury danych – testy parametryczne i nieparametryczne.
- Transformacja danych.
- Analiza klastrowa (klasyfikacja danych) hierarchiczna, niehierarchiczna, akumulacyjna, dzieląca.
- Ordynacyjne analizy wielowymiarowe pośrednie (PCA – analiza głównych składowych; CA – analiza zgodności, DCA – nietendencyjna analiza zgodności) i bezpośrednie (RDA – analiza redundacji, CCA – kanoniczna analiza zgodności) dla danych o rozkładzie normalnymi i różnym dla normalnego w oparciu o oprogramowanie: Statistica, MVSP, Canoco 5.
- Wstępna analiza i wykorzystanie danych systemu informacji geograficznej (GIS) do integracji, zarządzania i wizualizacji przestrzennych danych środowiskowych.
dr Leszek Wawiórka
e-mail: leszek.wawiorka@mail.umcs.pl
Narzędzia chemoinformatyczne w chemii leków Computer Aided Drug-Design
- Wizualizacja struktur przestrzennych makromolekuł
- Modelowanie struktur przestrzennych makromolekuł;
- Dokowanie molekularne ligandów do struktury białkowych receptorów (Molecular Docking) oraz wirtualny screening aktywnych ligandów (Virtual Screening)
- Analiza struktury i właściwości ligandów drobnocząsteczkowych- Python rdkit
- Data-mining baz danych drobnocząsteczkowych ligandów (small- molecules) i ich receptorów
- Analiza i modelowanie relacji struktura-funkcja dla small-molecules (QSAR)
Narzędzia immunomatyczne
- przewidywanie antygenowości (np. VaxiGen, narzędzia grupy Immunomedicine)
- wykrywanie epitopów ciągłych (narzędzia IEBD, Epitopia)
- przewidywanie i modelowanie epitopów nieciągłych na podstawie danych strukturalnych (Discotope, ElliPro, SEPPA 3.0)
- Przewidywanie wiązania MHC (IEBD)
- Przewidywanie alergennych epitopów poprzez mapowanie do IgE ( AlgPred, AllerTOP )
- podobieństwo peptydów prowadzące do reaktywności krzyżowej przeciwciał (Cross-React)
Narzędzia analizy NGS
Analiza danych RNAseq
- Przygotowanie surowych danych NGS - kontrola jakości (kontrola FASTQ)
- Czyszczenie danych i usuwanie adapterów (trimmomatic),
- Genomowe wyrównanie odczytów (Hisat2)
- Analiza ekspresji różnicowej (DE) genów za pomocą Python/Sanbomics/ R
- Projektowanie analiz transkryptomicznych
DataScience / AI:
- Programowanie w języku Python
- Obróbka danych (dane tabelaryczne, szeregi czasowe, przetwarzanie obrazu) w celach analitycznych- Exploratory Data Analysis: NumPy, Pandas, SciPy, sklearn
- Wizualizacja danych: Matplotlib, Seaborn
- Inżynieria danych- feature selection / feature engineering
- Przygotowanie danych dla modeli Machine Learning i Deep Learning- obróbka danych, “czyszczenie”, analiza statystyczna, kodowanie zmiennych
- Tworzenie modeli predykcyjnych Machine Learning and Deep Learning- wiele algorytmów regresyjnych, klasyfikacyjnych i klasteryzacyjnych oraz opartych o różne architektury sieci neuronowych (tensorflow, Torch).