Artificial intelligence assisted project analysis for optimization of electrolytic hydrogen plant building process
Niemi, Patrick (2024)
Diplomityö
Niemi, Patrick
2024
School of Energy Systems, Sähkötekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2024062056588
https://urn.fi/URN:NBN:fi-fe2024062056588
Tiivistelmä
In this thesis artificial intelligence application ChatGPT and machine learning model random forest are studied to see how well they can catch trends affecting projects performance. Nine projects are analysed with these tools and compared to an electrolytic hydrogen production plant building project. The goal of this study is to find features and trends in project data, that could be used later in project management for more efficient projects. Main point of this thesis is to see if older projects can be used to improve upcoming electrolytic hydrogen production plant projects, as we only have one project to compare.
Electrolytic hydrogen plants are studied in this thesis including parts, energy requirements, products, location, and transport. Also, project models, planning, project data and safety are studied for complete understanding of the subject. After that a literature review of artificial intelligence is written.
Before analysing projects, project data is prepared. Once data is prepared, it is ready for analysis. For first ChatGPT based analysis was done with weekly hour data. ChatGPT was able to find negative correlations between project performance and variance and standard deviation of expended hours.
For second ChatGPT based analysis, a more in-depth data was used, which had task level details. This analysis found that delayed starts for tasks negatively correlated with project performance. It also found that task duration and cost variance had correlated with project performance. This however turned out not to be meaningful.
For random forest algorithms, two training sets were prepared. For first training many features for full projects we used. This was done to find which features affected the model most and therefore could be used for later training. This first set found that delays and cost variance were the most important factors. Second set of random forest training was done with hour data, performance metrics, cost variance and delays for first 12 weeks of the projects. Best results were found with hour data and performance metrics and with hour data, performance metrics and delays.
Ideas for further development are thought and reliability of the results considered. Tässä diplomityössä tutkitaan ChatGPT:tä ja satunnaismetsä-koneoppimismallia, jotta nähdään, kuinka hyvin ne pystyvät tunnistamaan projektien suorituskykyyn vaikuttavia tekijöitä. Työssä analysoidaan yhdeksän projektia näiden työkalujen avulla ja verrataan niitä elektrolyyttisen vedyntuotantolaitoksen rakennusprojektiin. Tutkimuksen tavoitteena on löytää projektidatasta ominaisuuksia ja tekijöitä, joita voidaan myöhemmin hyödyntää projektinhallinnassa tehokkaampien projektien toteuttamiseksi. Diplomityön tavoitteena on nähdä, voiko vanhoja projekteja käyttää tulevien vetytuotantolaitoksen projektien parantamiseen, koska vertailukohtana on vain yksi projekti.
Tässä työssä tutkitaan elektrolyyttisiä vedyntuotantolaitoksia. Työssä käydään läpi niiden osat, energiavaatimukset, sijainti ja kuljetus. Tutkimuksessa käsitellään myös projektimalleja, projektin suunnittelua, projektidataa ja turvallisuutta, jotta aiheesta saadaan kattava ymmärrys. Tämän jälkeen kirjoitetaan kirjallisuuskatsaus tekoälystä.
Projektien analysointia varten projektidata valmistellaan ensin. Kun data on valmisteltu, se on valmis analysoitavaksi. Ensimmäisessä ChatGPT-pohjaisessa analyysissä käytettiin viikoittaista työtuntidataa. ChatGPT löysi negatiivisia korrelaatioita projektin suorituskyvyn sekä käytettyjen tuntien varianssin ja keskihajonnan välillä.
Toisessa ChatGPT-pohjaisessa analyysissa käytettiin yksityiskohtaisempaa dataa, jossa oli tehtävätason tietoja. Tämä analyysi löysi, että tehtävien viivästynyt aloitus korreloi negatiivisesti projektin suorituskyvyn kanssa. Analyysi havaitsi myös, että tehtävän keston ja kustannusten vaihtelut korreloivat projektin suorituskyvyn kanssa. Tämä osoittautui kuitenkin merkityksettömäksi.
Satunnaismetsä -algoritmeja varten valmisteltiin kaksi koulutusdatatiedostoa. Ensimmäisessä koulutuksessa käytettiin ominaisuuksia kokonaisista projekteista. Tämä tehtiin sen vuoksi, jotta voitaisiin selvittää, mitkä ominaisuudet vaikuttivat malliin eniten ja siten voitaisiin käyttää myöhemmin koulutuksessa. Ensimmäisestä testidatasta löydettiin, että viivästykset ja kustannusten vaihtelut olivat tärkeimmät tekijät. Toisessa satunnaismetsämallissa käytettiin tuntidataa, suorituskykymittareita, kustannusten vaihteluita ja viivästyksiä projektien ensimmäisten 12 viikon ajalta. Parhaat tulokset saatiin tuntidatan ja suorituskykymittareiden sekä tuntidatan, suorituskykymittareiden ja viivästysten avulla. Jatkokehitysideoita ja tulosten luotettavuutta pohditaan.
Electrolytic hydrogen plants are studied in this thesis including parts, energy requirements, products, location, and transport. Also, project models, planning, project data and safety are studied for complete understanding of the subject. After that a literature review of artificial intelligence is written.
Before analysing projects, project data is prepared. Once data is prepared, it is ready for analysis. For first ChatGPT based analysis was done with weekly hour data. ChatGPT was able to find negative correlations between project performance and variance and standard deviation of expended hours.
For second ChatGPT based analysis, a more in-depth data was used, which had task level details. This analysis found that delayed starts for tasks negatively correlated with project performance. It also found that task duration and cost variance had correlated with project performance. This however turned out not to be meaningful.
For random forest algorithms, two training sets were prepared. For first training many features for full projects we used. This was done to find which features affected the model most and therefore could be used for later training. This first set found that delays and cost variance were the most important factors. Second set of random forest training was done with hour data, performance metrics, cost variance and delays for first 12 weeks of the projects. Best results were found with hour data and performance metrics and with hour data, performance metrics and delays.
Ideas for further development are thought and reliability of the results considered.
Tässä työssä tutkitaan elektrolyyttisiä vedyntuotantolaitoksia. Työssä käydään läpi niiden osat, energiavaatimukset, sijainti ja kuljetus. Tutkimuksessa käsitellään myös projektimalleja, projektin suunnittelua, projektidataa ja turvallisuutta, jotta aiheesta saadaan kattava ymmärrys. Tämän jälkeen kirjoitetaan kirjallisuuskatsaus tekoälystä.
Projektien analysointia varten projektidata valmistellaan ensin. Kun data on valmisteltu, se on valmis analysoitavaksi. Ensimmäisessä ChatGPT-pohjaisessa analyysissä käytettiin viikoittaista työtuntidataa. ChatGPT löysi negatiivisia korrelaatioita projektin suorituskyvyn sekä käytettyjen tuntien varianssin ja keskihajonnan välillä.
Toisessa ChatGPT-pohjaisessa analyysissa käytettiin yksityiskohtaisempaa dataa, jossa oli tehtävätason tietoja. Tämä analyysi löysi, että tehtävien viivästynyt aloitus korreloi negatiivisesti projektin suorituskyvyn kanssa. Analyysi havaitsi myös, että tehtävän keston ja kustannusten vaihtelut korreloivat projektin suorituskyvyn kanssa. Tämä osoittautui kuitenkin merkityksettömäksi.
Satunnaismetsä -algoritmeja varten valmisteltiin kaksi koulutusdatatiedostoa. Ensimmäisessä koulutuksessa käytettiin ominaisuuksia kokonaisista projekteista. Tämä tehtiin sen vuoksi, jotta voitaisiin selvittää, mitkä ominaisuudet vaikuttivat malliin eniten ja siten voitaisiin käyttää myöhemmin koulutuksessa. Ensimmäisestä testidatasta löydettiin, että viivästykset ja kustannusten vaihtelut olivat tärkeimmät tekijät. Toisessa satunnaismetsämallissa käytettiin tuntidataa, suorituskykymittareita, kustannusten vaihteluita ja viivästyksiä projektien ensimmäisten 12 viikon ajalta. Parhaat tulokset saatiin tuntidatan ja suorituskykymittareiden sekä tuntidatan, suorituskykymittareiden ja viivästysten avulla. Jatkokehitysideoita ja tulosten luotettavuutta pohditaan.
