From aa520b6238764a7eec0c4d7b9419b56fa63eff11 Mon Sep 17 00:00:00 2001
From: yyh <ykongxiang@outlook.com>
Date: Sun, 17 Aug 2025 15:30:14 +0800
Subject: [PATCH] =?UTF-8?q?=E4=B8=8A=E4=BC=A0=E6=96=87=E4=BB=B6=E8=87=B3?=
 =?UTF-8?q?=20train=5Fmodels?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 train_models/__init__.cpython-310.pyc   | Bin 0 -> 150 bytes
 train_models/bilstm_cnn.cpython-310.pyc | Bin 0 -> 10774 bytes
 train_models/bilstm_cnn.py              | 507 ++++++++++++++++++++++++
 train_models/hist_gb.cpython-310.pyc    | Bin 0 -> 7598 bytes
 train_models/hist_gb.py                 | 344 ++++++++++++++++
 5 files changed, 851 insertions(+)
 create mode 100644 train_models/__init__.cpython-310.pyc
 create mode 100644 train_models/bilstm_cnn.cpython-310.pyc
 create mode 100644 train_models/bilstm_cnn.py
 create mode 100644 train_models/hist_gb.cpython-310.pyc
 create mode 100644 train_models/hist_gb.py
diff --git a/train_models/__init__.cpython-310.pyc b/train_models/__init__.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e58686f74f62f2d270ff40797f252522af207b0a
GIT binary patch
literal 150
zcmd1j<>g`k0`13hGC=fW5P=LBfgA@QE@lA|DGb33nv8xc8Hzx{2;!Heer{fgeok&d
zQmTG>X=-tafuX)zaB^Z^L1lb$er|4N36M%j)z1YIImP<%@tJu*p?JN5%3B;ZK*7?S
OR6CH7#Y{kgg#iFK7$Rf<

literal 0
HcmV?d00001

diff --git a/train_models/bilstm_cnn.cpython-310.pyc b/train_models/bilstm_cnn.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..62edabb45fc90ed2affa6c80325f50f35b24d8ef
GIT binary patch
literal 10774
zcmai4OK=>=d7jtK&dxrtSS+3d$>m!siJ)kgB`2mWlLREeCPA8jZMrShWU)P1F1RoD
z3`hbslc)^ZvXda8o!E{YCRw<0;VGA#Q@-Yus$5bvxg<`dTuf4xT#{5|NzC{6%q~EP
zwr6X4yZ?T7|NTF{o^C#GD|qhz>!Vv!Ur>~Pp~U{jK;rXwy*X7;xWW{!a;>E@RsL&C
zm;VM!$$yij@vpb6c7|ozHnZDVmTl))uAOK3c7YXCs&BML+C^4ukFrsjPPIzyF*YXS
zW~<yDXX7%SZcVf&*<^c)O|_@lbbE%)NV?TJ)ShLts^aSFhx<o(W>-Z#jrh?x{-(lh
zo_(P3EU1<BW9!Gab#?;O9M6NA-`3bkeuR(k;scePLTr?m5IfDsc=>_C&hVproKJxA
z0-xklpj0zjM&lJe&1XP;ksso-puXh3%n#qz#P{9V{@GmxV|ZyBA=j4WTRpb*b^B8D
z%JRz9vzM2aDp$MQZB^E~qO$DX*>F2`w{p2v^StI-vtIL?-HyFn>ooo5mdh)5UEzTu
zOZPTbTS<wEx3Su8q6!K>p>0~Kno(YK>rQQ>?s)aCaHB%4Uf&S4`eu^0*3Kufk)Ckt
zO{$y_a!A)&twF(7x8bz9o>$c(vsK%~5F)cpgZ8RwRPehFhUqrC0)uIRlJC{H<0Vt^
zsz#J)bwS}ZzZR9e+FjT2MXlLsb{bBzv(}A{d2Y+C`{?4HQ}1@xnw-|a@oMc}%k`Xk
zrxTUjyS3H^dU0gGL_<gRrJCnnrW%bWFJjVln)&`mPZHj%h`0)vQ(+ocnf{)#26pB8
z1B)3=iW@wI4NUP2Pjd?~^F75-SbABh+R?~W*T>wv%UF`tTK)FcnL$i$1J<f5IA&8B
zOsmq4E7Wl`h7ZN_cxg=D4-ojuw$fLLJsQ8{$JIx<Kyfs#HPnW}^+y^~I#&=Heu^90
zDq<#2AxulEwZA29J~EM$c@E8%rL)5}ax$Ig3g(+$s^%hFPDO4y%fxXo5-TLpgppV-
zPRHEBM&i_vnV1z5*3L&6-}PvNJr6{RQfv7*HfSs>lSx|znb>P8Ez@h~1uY}^FhAgq
z8s{#L@_yH^fnQ^miFEMQlc#tdn~_1iMmjo-ticJ0%%q#lu!l%nJ6|nCDQ~0aipX-n
znoZwvqN1Dw@oKWE(P-0mg*=x-lD$fElB^k}*1+w4RFEV&YB_+oh}-MdZ$(9!hpu_E
zPUqW;O7}MgjXAfPp5GOl(L~L^-RyV=>1+zeWo_>W?RCv2pOYikeC9bB$#igx49b11
zMj6McliYEf$IAPkIoIy^=UVOFs(Y@nf$6<+{@feO^;)O5i9_0MV{z&b0q0^laBj8P
z^87ZP%emgBs9=+(@Om#JuvJqtRr*;U7?!45ADJo8=%<5*R2<r>t!_;nIBRo*ji?XK
zGFnu|sad?2@p>!Bd8lsvaiI03657>5UB-2;A#Mb5%Ak~_r-m_;VvqwGPd_rl6t_at
z$C+B!*7a>QOb6+}oK$#bN(syvCA55_p9<2uYM9yjhHnPewmPr8^IB*Jc3_s3FzcrS
zn`b6bx~v50Z7sy<MO#+fVvr4T-_)k13fj@ayq^j3zP+u9dXVS#v;vA6<kz#?D$m?D
zL?_7ibGx7h`5+V5y`bFrY>?r(+eSa{7ch>3KO);MVq~Mp$@9XlzODHx(xm|EFKO$C
z{#aZt$ZTsJmFN6&k}jb1_#h7DII^Sr69>|h&!**CjeJ$<95xhxYV#jdB`m7S)~G+t
zi|8+2&%v6a+}B_pgvH-3c2e>GJ@p<W*!m3C?i1l?Fxo%FM|V~6-vN{@S7?R866FV@
z(@K9fNcEMVMEgX_{LVkh@?*Q|LsjHaqx_s2BL`}XaCMq`JbW8`B0d!)Y3Fc2^7Dv)
zluUvCahl~WQBELsqJNUo{ZqRN^&4dRr*}#2p7CEGIv?NG&{mD&>s797(0FS8i<FLO
zGJI)U4{7CJ##~1*SHzN8jbV(VgIPUP?|dm~cS5$iBWs^c+I_gM-Lo=h4(-woo<qCi
zvfXn@yX6DzhF`_%FDv^)+O>!3=Hq1F(tA5ZCHMBII=LifaKIXP<r7&@!cvHfLm-G*
z3Jy~+jo`_<6p(n1WwaWlVXUlnJ@@CJ;rXZ68xvpo`Jexl{`VIe|4YL8>3_anRat(^
z6<von?@9wiOrj(+W5w~rq(n*z(I+XyBjcuXe<QMPI<ai5z7pvT*N^m;+lf-K{55Yn
zR3XwjJ(i-jy(lGWorW9f?PiCi6R{iF=&$4XHJBRE5s<l%{kLj8m!;QQHQ#qT%&d9-
zW)Jn69bcrWdvjB^&5U}h*<<ELrwMyaXvh*Io&=3o&_D&5$5CeCe%<Yngcm1?c#McP
z`V_u*uj${4%v!JKcDOi2xu+>t^Vg!(ZRi(IWGJ1jx4NCg>JcX-#dCe<p4)8P^1UdF
z*$)#&y$jiUh6<%`)jUi>2r_)c2$76UES-3P(yvk4+DsNvRFSNX3$mbCD%Ma?nhj5k
zQQ>n$&c_=vP=WSp&9C2bJeZ`c(2;90(7nU7EaH01mfP18-BmAAn=B)z?=<;+md4a&
zBpWv;%M8oA+=G1~^=fQQMJl%9wz~<(K@yx!t?fqkp5}yw`;5jEXKDO0m_sbe!M>H#
zbI|dpLGd0SFw`7=nojD+RyF+0_YFIz7FAo*kYlMObrw06T99u+o6wJgUX(xk{X)iu
zdMkZoy{kR7(>8Ku@aEJhReQIHR*{FFt<LHb6sogY{Ga>K)QURVM7^!qgKBU8P?ze&
zVS|U_#9dPN5nDkH;M8uYqKKH<C;6lF^;mAjCwf_VtS(gz$v@&ZQAK=#f-fSdYI5Jj
zbs{`xz2bexdcB7N9`U!WPN>H7M?5SnZc@`0nNhS!Fr#dT%%hDK#dD5xXQS3ia?*~&
z;iov#Xb@keaeNIyluxXYx(i3d**CVAs0eMSC?OzIz$070qMg)omC`jyuY>f=L+kc=
zydF(;zc0WwW^f(0zrjqrX}qwbdFm%B%YbfklVy3D<+#Q2cndtkM!3z2h>!9tEAbqx
z=6qzvj>y)LtJ0m5j!Xmo79IaeuO_e#up7N*WeFqyB*yTBMpM<FNXhXjB9M$}oV`5z
z?>~EW=Jh7+vLL!RPnl&3{t)tYsX8VYk-tvC+Z4QmfMu5!-gK5PUcG*0VVRXLUt4-(
zaeiUx@`AJS){TYbx2|28kMavwFD=Z^FD||5%r9PzY;r-JFE1^wEJs;*qRtzOS5_8o
zEJsC3d~xB%(!v#Id66wFN4fbM*REgt@``ig;>tplzp`-g#u7CnllG;HE0^DrC7HQ!
z{o3WXmZQQVnq9nj#YxiT<%KJ6I4d_Uf{uEFQdckDbQaO)#g)ZtOUuzD+P(5MXL;q?
z_3KpZI_NZqC^vA89f<mU%rHFN!oeE+9$xP_0%C@}pS3R@Q!Q1N7aV0jcDiUo<mn;>
z=i_|A&r)HL!J6ZUk%h7hDt2Aln!FAt+x5H(lu4uIRt9eG(qmQp2CBnV(LsyscI`e5
zz2V>5H+m_SijaHM#L#8_Gt~2lU1v4n<L{XP(%|SA(!aNYfbbQrlLPz6_>LkSTa%|B
z!07BNyUIKUAHpCEG&u=HoP-IiajSue#MCLJ9Gf^A&kQD4wYMe~I%MA;oL9_?G&oU1
z@Ps50Jbd+Hq^?Bj<w$+=8K;*D(r8JOc;pc@uyF5Kq55r%E`U3}t9@6y16-u4CRT$W
z!HiYY=3a@6RrvRCOww)WNvv<Ya&pn^3#78)i1a@9m((_OG^K2v0CIp)50`T8LaPf<
z!uuQ|gYvSYrK%pKHlTfl+@{EM??dJDsxAat5*`B5Pt+KXyA6ph`yM&a$u4rF2!d*m
zf<LE<Z-Dm9zL8ZxizONB^N0)?OBL9w<zaeC3E`%26%Gd+mq16_2$Voi${SPCM3&6=
z$raIT4_U6VCc5p)YS+J2!A!i0->nF@R=-t&y#X_!l5pP!`WAN(R8w-U(Csom;ZBB?
zAZ}!tmb>P|&1|-rEy&uC@q^3@!=Tw7F85<J>*WySG!n)Z6lPfy+aT0w?t^Cn5t4Os
zExrel*1#O`rtku?i23%NPrR*#X*gYKU`YcWj!l^HH8?{Qvjd~A2evfMQ;1m{$C6T9
z53}3|th=ytq{C)$gL1@cD1%s-4NR2JN_WEc&3-yC;7a9WEQMHJ#!SQjtr$vJ2uHxF
zDJa-)1?sxxeG8*3;vEgtWTdmdW~9a8NJsaN^o}EYDoRI=#sN1d9FcvN;5KNo&z}Zx
zAibZWzcSu&a$xCHzw_(*ED!q}f2PkL$v(^IsU&0Lh>Zm~IGKfDBrt<gFt$dpm$`N1
zx^SVl+&x&U*5MVh$SMToF>7suAVT*JOSNjNZmSV*?|;2M0A~`zbg7zQ7GWl$d(V>s
zO`Z<%2FgcTkF!*#>vwA60@5s16QZ^mrQCMU->gmyfGCL_#vqc6<_B1zL>1%Xn!ry3
z2~5@_!HkX^oEH^haA;^Ps}9pKqWBDClcO%DW5(8Xl!hlkEktRU{S*<O!4L&;Es!v>
zO!xYV!K=6{X5SoQnatkYi<gF@-m5q=q{WpF9<Utz71{+k(Z5F5-W3FfPI|1U6<|`@
zFiZ_d9t*O^)+lYktlXbZrtB}HmNfAPXz&@SodscdJ_+CVVOWy#+fhRmaX9zBz7DCx
zb-)?MjvfGLfR<7EDdd{SOY;;$i<>(-Tx#f^PzU!Kpk=_j(;=0!k;(=s0$h1!2QUpv
znP>x`M_^JMCp;hE9K!8C;}-(Jo!o{RUP74>ltDU7cZ>kW8%}i^EfzTpHJ;ni0KTY@
z97=zbMu8Cks-ZMW<dYH!<vAs6UXX22iHu)b9|KH~0Wd-`$6hb{<LeXalj~Dx8Gy%*
z%12==mVTo0u^k;ifsM0M-kQ7&(d)aFeJH>5PNC*5VsT@$4hswWk7b&j-i8kk7=pID
z;Sb`um>f&(m8!;y!u2-<Ao>Ba4pUWhd#J(;;kGuI0S<SejMHn)7MYq+7LH`c#TkX4
z7TGmmjd!Iv3MUw_DJfL4EX6A{4pn@Y;=hG}rM+gO-EDGoYRXY~EFF&wfIrK(+?tT+
zJ&aqIjjc9ucmWE+)An3=%5XxVMkP2PVFE%3XqsJk!flL1NK}EP6KAqIBP{APwMfgr
zG7IfhHy#{Wbi$>){G}#u0<tAry4GR_*{x!YvYQm#qB3NE-#tGsNDQ&ko2~9@t#!3_
z|9ZFE!c37t@<u9qmPJvzvgpwGQ}b@egV#SFucdUmSxOr5QJM^lX3G_CQr)+xWqUXc
zj~N$vtu59;u4bcbyk9YfkR;?~3Cp;HDKSf;q_kyOK&4KysNx~Dtb@W#_zf5uyb&5z
zWX2_8r|p1yHd&WE=IlYQF#`Q>XiPdeP{O(fL13!Jhniu0V5Cc`_Egi1j|>2?Bp}G!
zMTrlzl<|w439ps>QLUsG;j!Y?3uvK89<geEXqe*rXt_?X#NZ)#mxP5><kz9%r7sG!
zZH<l&jt!2G4I{>OV8|fUgA_soYQ}beq#^{0iZJb4+k~HH*6sD|dJf_xzg~!q+8raz
zaT7{;#D{+iBQ{?qleXZGu9x~_F^$wFlvjbLC3;u{!j}#TG7iiwC`v?8mH$BF2q^=4
zrpo_uh>tW>`)Xjw{D}^*;BbNtI;p~-9E`8gXvXnQ1QUeAHZ&O9){ce4o?V~BJB4?;
zKeG#@_>mq0Ev0xk1@nOZr;{GO2XTfp(ARW0!wneVs71Ih&rT~zDmO?`KIS&Htu|Di
zf0POjk)Xsl|HeNAv^fO<sfV+{EHB8qhxo_^AkMPH-^mhbh&(+!92_2&C|*$H`p)(b
zli3s=36AuS1a|*uf^cFk;Zbgc6~D5ryqyY<;dh+E;5fDWP!kiu@%3X5HE+T{9vt_9
zknSp2l~a6lM}IpVo{%-D7JmL|t|IRYS0|NiZ63HQjQ*3rIPKs>fJ@i#RB#Gysp62T
zbbf*MPJOJs)8QG})(f(|VsIMb-?&Yv>!(oXpZ(E(HJA!cH-OoOQ%JoSOb2IVYC4#a
zBUZ&VNuLQ`ko1{^%ZQV(vLE9l(0(N+O(mQ(op91r!b#H!Ck=Z2b};iRdFiF+^3ow*
z0^a>{aFP^WaELeqseL?>(7_`KJ>iywK1OuR4C|Co$_Yiz3vEgc!utK}86E=f$QC6p
z$(oXnQ0{-8;iN+x=LkJZj*{hQY{?kHYETW10$<le`B!pTH9Q)e3@bpqb7=htIXK{k
z7lX;*P*4e8<l~Qw@Fmdg;H5Pks&rzjx<aPc$24h$095!st+lh#HXCX)!Yfx|XA)pe
zyNheQu3%OVnh!>v%gO?l8}7p$d2yBisp1o;)%fv`==s~%ae2;0fOR)vYeM5l(+hqP
z-Q9WOODHKGAc!*XEaio;C#ys0oua(c6da>~yk0?GuORTInu;>RtHU^t$YPuVa)}bX
z2tZR_+GP_olM+A^$R!m&e5L|)J*)(L830(GZqmhZWG6R|!=9r28WePEaE(|!8(SbG
z%lGWr7$;sL8iB*&8U+Ne?P)&o10-2~p(a|J%YHX@$fb(zQn^bM5aJ>2cwDf;S?IP|
z79Mtc!;j4leXZ$>7L~b8!GYBxyH-NgQU!}eN)B;Kk)!0dC?IoHd=o*GnTH?p1|e&r
zN5s!k(4nA!fSGrJHP>%5^OpP<ZOS1lp!%}-eTwf;Ftq8#?^03%<_8wyk0^t1Q+%5e
zW6}8HA>MjcfHBm<Cl$$xungUic)eB=I=tf`5v7|Q-17nnPeAlRGD{@~iG1Q~Bvtc?
z$B`tnH>ssTVsl@j{H#|K7ZE?Av5w$t4*`SBNt)gxB#rM82B(1dM|_!ruTXG;n#ss>
zLQE)rOhm%i#CIqMquS_5uLT$haV9I`Ji<zI@%cx56Hl(tfJUy+FkVc$+@s_M!<AkA
zDVoErJ{^6W?3lX`*gq38_haTy1!lGPKC0(Zmb_t>H_h_4*#e*+8$Bj&q6xq!px%-=
z1+WVENCpfZX)wuhCYe6}XXFg{R_2FR8fb=Uz(gYN3Y1@1R*o(OGztsw#b9WuMZF}i
z4a!d^3=J0p##75cpL$L$KP@0uKz*Ca>P47V`}-#!4gCW-p>}ATasP$v6fP6wB?5ZF
zRe}r)xLSxug0k=CbPcASyuA3pPK!RKU&lLq=qL{jwf{hZK0bkxS3>x0p$^Xs{v8lO
zTztdJBXyn%O+sJ7OlXHT*MNg$@#gU6!$N?obr>VB1@HpB*HBmYQ+*TWz+U}qn4_BU
z4<-<mzZMuMe+}jF`O1OvXmwCJv~iIR69)#O6<>W5I>Ggw%-ec65*EWz--5X}N{R*_
z!5FH7bTLV%IMC0X6x7`a(WDZwwkEEU4jHghWo@G)eF^a=SPHrsdCsY41~EQ9=OF31
z0>7uw^qfSL62f22#xhBYBPj=^43Z*>q>~^RSMG$!Q>=)96)!DH%>C-Mc|hy)i#Mtz
z@gC)Vn*w>N(vbgzaj=2>r^GLpSMoSMXZZ2q&F&kp_zUXez#%f)SQuR4E8YvpErN}}
z<WGyKLc+uagYLk}Pc?W902n?hnq@Gc_z4Qr?GDv;95|00gsQ%@6h~4^^i=2M#YCia
zJ;=h1HZCV6#$)!N8*sr%t3=m*9j`0!(ab%mYuJc)TRNC?iKyLoy$S~-xn4CXMi2!n
z?$w`*?@cYrBQJ$b9L$^B@bR6BuqpG*$1(|NiJ^FioVkIUE$G~^f~+|=WE`oE<i3)s
zk!p+O;xh5gkKAwZi0b0|8kaMR?rkY1{m59GT7wVCVqGh_$fx$cLBTc!lD(v|?o*N$
zUf%w&QsVx_jxj#IbG?0=E4O(Lg(K@ieDU@<Y_j5!7BdvfAZXT7D~Sl4f=J0hL``Ug
fyLQPoEX&SXuWGMqs{K^?9qZH92@9~2@zMVSBpUPD

literal 0
HcmV?d00001

diff --git a/train_models/bilstm_cnn.py b/train_models/bilstm_cnn.py
new file mode 100644
index 0000000..3ff9cd8
--- /dev/null
+++ b/train_models/bilstm_cnn.py
@@ -0,0 +1,507 @@
+"""
+BiLSTM-CNN Model for Sequence Classification
+"""
+import os
+import numpy as np
+import pandas as pd
+import tensorflow as tf
+from sklearn.metrics import roc_auc_score, accuracy_score, f1_score, precision_score, recall_score, log_loss
+from tensorflow.keras import layers, models
+from tensorflow.keras.utils import to_categorical
+from tensorflow.keras.preprocessing.sequence import pad_sequences
+
+from utils.function import load_data, save_training_info, select_low_confidence_samples_cnn, evaluate_model_cnn
+from utils.config import BaseConfig
+
+# Set random seeds
+np.random.seed(42)
+tf.random.set_seed(42)
+
+class MetricsCallback(tf.keras.callbacks.Callback):
+    """Callback for recording training metrics"""
+    
+    def __init__(self):
+        super().__init__()
+        self.training_metrics = {
+            'train_loss': [], 'train_auc': [], 'train_accuracy': [], 
+            'train_recall': [], 'train_precision': [], 'train_f1': [],
+            'test_loss': [], 'test_auc': [], 'test_accuracy': [], 
+            'test_recall': [], 'test_precision': [], 'test_f1': []
+        }
+        
+        self.iteration_metrics = {
+            'samples_added': [0],
+            'total_samples': []
+        }
+        
+        self.best_model = None
+        self.best_test_loss = float('inf')
+        self.best_epoch = -1
+        self.best_predictions = None
+        
+        self.xu_metrics_history = {
+            'loss': [], 'auc': [], 'accuracy': [], 
+            'recall': [], 'precision': [], 'f1': []
+        }
+        self.atkins_metrics_history = {
+            'loss': [], 'auc': [], 'accuracy': [], 
+            'recall': [], 'precision': [], 'f1': []
+        }
+
+        self.self_training_best_model = None
+        self.self_training_best_loss = float('inf')
+        self.self_training_best_metrics = None
+
+    def on_epoch_end(self, epoch, logs={}):
+        try:
+            train_loss = logs.get('loss', 0.0)
+            val_loss = logs.get('val_loss', 0.0)
+            
+            train_metrics = {
+                'loss': train_loss,
+                'auc': logs.get('auc', 0.0),
+                'accuracy': logs.get('accuracy', 0.0),
+                'recall': logs.get('recall', 0.0),
+                'precision': 0.0,
+                'f1': 0.0
+            }
+            
+            # Calculate test metrics using batch processing
+            batch_size = 128
+            n_test_samples = len(self.model.X_test)
+            n_test_batches = (n_test_samples + batch_size - 1) // batch_size
+            
+            test_probs = np.zeros(n_test_samples)
+            try:
+                for i in range(n_test_batches):
+                    start_idx = i * batch_size
+                    end_idx = min((i + 1) * batch_size, n_test_samples)
+                    batch_probs = self.model.predict(self.model.X_test[start_idx:end_idx], verbose=0)
+                    if isinstance(batch_probs, list):
+                        batch_probs = batch_probs[0]
+                    if len(batch_probs.shape) > 1:
+                        batch_probs = batch_probs.flatten()
+                    test_probs[start_idx:end_idx] = batch_probs
+                
+                test_preds = (test_probs > 0.5).astype(int)
+                
+                test_metrics = {
+                    'loss': log_loss(self.model.y_test, np.clip(test_probs, 1e-15, 1-1e-15)),
+                    'auc': roc_auc_score(self.model.y_test, test_probs) if len(np.unique(test_probs)) > 1 else 0.5,
+                    'accuracy': accuracy_score(self.model.y_test, test_preds),
+                    'recall': recall_score(self.model.y_test, test_preds, zero_division=0),
+                    'precision': precision_score(self.model.y_test, test_preds, zero_division=0),
+                    'f1': f1_score(self.model.y_test, test_preds, zero_division=0)
+                }
+                
+            except Exception as e:
+                test_metrics = {
+                    'loss': float('inf'), 'auc': 0.0, 'accuracy': 0.0,
+                    'recall': 0.0, 'precision': 0.0, 'f1': 0.0
+                }
+            
+            # Record metrics
+            for key in self.training_metrics:
+                if key.startswith('train_'):
+                    metric_name = key[6:]
+                    self.training_metrics[key].append(train_metrics.get(metric_name, 0.0))
+                elif key.startswith('test_'):
+                    metric_name = key[5:]
+                    self.training_metrics[key].append(test_metrics.get(metric_name, 0.0))
+            
+            # Update best model based on test loss
+            if test_metrics['loss'] < self.best_test_loss:
+                self.best_test_loss = test_metrics['loss']
+                self.best_epoch = epoch
+                self.best_model = tf.keras.models.clone_model(self.model)
+                self.best_model.set_weights(self.model.get_weights())
+                self.best_predictions = test_probs.copy()
+            
+            # Evaluate external validation sets if available
+            if hasattr(self.model, 'X_xu') and self.model.X_xu is not None:
+                xu_metrics = evaluate_model_cnn(self.model, self.model.X_xu, self.model.y_xu)
+                for key in self.xu_metrics_history:
+                    self.xu_metrics_history[key].append(xu_metrics.get(key, 0.0))
+            
+            if hasattr(self.model, 'X_atkins') and self.model.X_atkins is not None:
+                atkins_metrics = evaluate_model_cnn(self.model, self.model.X_atkins, self.model.y_atkins)
+                for key in self.atkins_metrics_history:
+                    self.atkins_metrics_history[key].append(atkins_metrics.get(key, 0.0))
+                    
+        except Exception as e:
+            pass
+
+    def on_train_end(self, logs=None):
+        if self.best_model is not None:
+            self.model.set_weights(self.best_model.get_weights())
+
+class Config:
+    """Model configuration parameters"""
+    NEG_SAMPLES = 20000
+    CONFIDENCE_THRESHOLD = 0.5
+    EMBEDDING_DIM = 64
+    LSTM_UNITS = 64
+    CNN_FILTERS = 64
+    CNN_KERNEL_SIZES = [3, 5, 7]
+    DROPOUT_RATE = 0.5
+    LEARNING_RATE = 1e-4
+    BATCH_SIZE = 1024
+    EPOCHS = 5
+    INITIAL_EPOCHS = 5
+    SELF_TRAINING_EPOCHS = 1
+    MAX_ITERATIONS = 20
+    EARLY_STOPPING_PATIENCE = 5
+    Sequence_len = 399
+
+def process_sequence(seq, max_length=399):
+    """Process single sequence"""
+    return seq[:max_length] if len(seq) > max_length else seq
+
+def encode_sequence(seq, max_length=399):
+    """Encode single sequence"""
+    mapping = {'A': 1, 'T': 2, 'C': 3, 'G': 4}
+    encoded = [mapping.get(base, 0) for base in seq.upper()]
+    if len(encoded) < max_length:
+        encoded.extend([0] * (max_length - len(encoded)))
+    return encoded[:max_length]
+
+def trim_sequence(seq, target_length):
+    """Trim sequence from both ends to reach target length"""
+    if len(seq) <= target_length:
+        return seq
+    
+    excess = len(seq) - target_length
+    left_trim = excess // 2
+    right_trim = excess - left_trim
+    
+    return seq[left_trim:len(seq)-right_trim]
+
+def prepare_data(train_data, test_data=None, low_conf_data=None, max_length=399):
+    """Prepare training and test data"""
+    # Process training data
+    train_sequences = []
+    train_labels = []
+    sample_weights = []
+    
+    for _, row in train_data.iterrows():
+        seq = process_sequence(row['full_seq'], max_length)
+        encoded_seq = encode_sequence(seq, max_length)
+        train_sequences.append(encoded_seq)
+        train_labels.append(row['label'])
+        
+        weight = 1.0
+        if 'sample_weight' in row and pd.notna(row['sample_weight']):
+            weight = row['sample_weight']
+        sample_weights.append(weight)
+    
+    X_train = np.array(train_sequences)
+    y_train = np.array(train_labels)
+    sample_weights = np.array(sample_weights)
+    
+    # Process test data
+    X_test = y_test = None
+    if test_data is not None and not test_data.empty:
+        test_sequences = []
+        test_labels = []
+        
+        for _, row in test_data.iterrows():
+            seq = process_sequence(row['full_seq'], max_length)
+            encoded_seq = encode_sequence(seq, max_length)
+            test_sequences.append(encoded_seq)
+            test_labels.append(row['label'])
+        
+        X_test = np.array(test_sequences)
+        y_test = np.array(test_labels)
+    
+    # Process low confidence data
+    X_low_conf = y_low_conf = None
+    if low_conf_data is not None and not low_conf_data.empty:
+        low_conf_sequences = []
+        low_conf_labels = []
+        
+        for _, row in low_conf_data.iterrows():
+            seq = process_sequence(row['full_seq'], max_length)
+            encoded_seq = encode_sequence(seq, max_length)
+            low_conf_sequences.append(encoded_seq)
+            low_conf_labels.append(row['label'])
+        
+        X_low_conf = np.array(low_conf_sequences)
+        y_low_conf = np.array(low_conf_labels)
+    
+    return X_train, y_train, X_test, y_test, sample_weights, X_low_conf, y_low_conf
+
+def create_bilstm_cnn_model(input_shape):
+    """Create BiLSTM-CNN model"""
+    input_layer = layers.Input(shape=input_shape)
+    
+    # Embedding layer
+    embedding = layers.Embedding(
+        input_dim=5, 
+        output_dim=Config.EMBEDDING_DIM, 
+        input_length=input_shape[0]
+    )(input_layer)
+    
+    # BiLSTM layers
+    lstm_out = layers.Bidirectional(
+        layers.LSTM(Config.LSTM_UNITS, return_sequences=True, dropout=Config.DROPOUT_RATE)
+    )(embedding)
+    
+    # CNN branches
+    cnn_outputs = []
+    for kernel_size in Config.CNN_KERNEL_SIZES:
+        cnn = layers.Conv1D(
+            filters=Config.CNN_FILTERS,
+            kernel_size=kernel_size,
+            activation='relu',
+            padding='same'
+        )(lstm_out)
+        cnn = layers.GlobalMaxPooling1D()(cnn)
+        cnn_outputs.append(cnn)
+    
+    # Concatenate CNN outputs
+    if len(cnn_outputs) > 1:
+        concat = layers.Concatenate()(cnn_outputs)
+    else:
+        concat = cnn_outputs[0]
+    
+    # Dense layers
+    dense = layers.Dense(128, activation='relu')(concat)
+    dense = layers.Dropout(Config.DROPOUT_RATE)(dense)
+    dense = layers.Dense(64, activation='relu')(dense)
+    dense = layers.Dropout(Config.DROPOUT_RATE)(dense)
+    
+    # Output layer
+    output = layers.Dense(1, activation='sigmoid')(dense)
+    
+    model = models.Model(inputs=input_layer, outputs=output)
+    
+    # Compile model
+    model.compile(
+        optimizer=tf.keras.optimizers.Adam(learning_rate=Config.LEARNING_RATE),
+        loss='binary_crossentropy',
+        metrics=['accuracy', 'auc', 'recall']
+    )
+    
+    return model
+
+def train_bilstm_cnn_model(X_train, y_train, X_test, y_test, sample_weights=None, 
+                          X_xu=None, y_xu=None, X_atkins=None, y_atkins=None):
+    """Train BiLSTM-CNN model with self-training"""
+    
+    # Create model
+    input_shape = (X_train.shape[1],)
+    model = create_bilstm_cnn_model(input_shape)
+    
+    # Store validation data in model for callback access
+    model.X_test = X_test
+    model.y_test = y_test
+    model.X_xu = X_xu
+    model.y_xu = y_xu
+    model.X_atkins = X_atkins
+    model.y_atkins = y_atkins
+    
+    # Initial training
+    metrics_callback = MetricsCallback()
+    
+    early_stopping = tf.keras.callbacks.EarlyStopping(
+        monitor='val_loss',
+        patience=Config.EARLY_STOPPING_PATIENCE,
+        restore_best_weights=True,
+        verbose=0
+    )
+    
+    # Split training data for validation
+    val_split = 0.2
+    n_val = int(len(X_train) * val_split)
+    indices = np.random.permutation(len(X_train))
+    train_indices = indices[n_val:]
+    val_indices = indices[:n_val]
+    
+    X_train_split = X_train[train_indices]
+    y_train_split = y_train[train_indices]
+    X_val_split = X_train[val_indices]
+    y_val_split = y_train[val_indices]
+    
+    if sample_weights is not None:
+        sample_weights_split = sample_weights[train_indices]
+    else:
+        sample_weights_split = None
+    
+    # Initial training
+    model.fit(
+        X_train_split, y_train_split,
+        validation_data=(X_val_split, y_val_split),
+        epochs=Config.INITIAL_EPOCHS,
+        batch_size=Config.BATCH_SIZE,
+        sample_weight=sample_weights_split,
+        callbacks=[metrics_callback, early_stopping],
+        verbose=0
+    )
+    
+    # Store initial training info
+    initial_info = {
+        'best_test_loss': metrics_callback.best_test_loss,
+        'best_epoch': metrics_callback.best_epoch,
+        'training_metrics': metrics_callback.training_metrics.copy()
+    }
+    
+    # Self-training iterations
+    current_X_train = X_train.copy()
+    current_y_train = y_train.copy()
+    current_weights = sample_weights.copy() if sample_weights is not None else None
+    
+    iteration_metrics = {
+        'iteration': [0],
+        'train_loss': [metrics_callback.training_metrics['train_loss'][-1]],
+        'test_loss': [metrics_callback.training_metrics['test_loss'][-1]],
+        'samples_added': [0],
+        'total_samples': [len(current_X_train)]
+    }
+    
+    if X_xu is not None:
+        xu_metrics = evaluate_model_cnn(model, X_xu, y_xu)
+        iteration_metrics['xu_loss'] = [xu_metrics['loss']]
+    
+    if X_atkins is not None:
+        atkins_metrics = evaluate_model_cnn(model, X_atkins, y_atkins)
+        iteration_metrics['atkins_loss'] = [atkins_metrics['loss']]
+    
+    best_model = tf.keras.models.clone_model(model)
+    best_model.set_weights(model.get_weights())
+    best_loss = metrics_callback.best_test_loss
+    best_iteration = 0
+    
+    # Load low confidence data for self-training
+    _, _, low_conf_data, _, _ = load_data()
+    
+    if low_conf_data is not None and not low_conf_data.empty:
+        X_unlabeled, _, _, _, _, _, _ = prepare_data(
+            low_conf_data, pd.DataFrame(), max_length=Config.Sequence_len
+        )
+        
+        for iteration in range(1, Config.MAX_ITERATIONS + 1):
+            # Select low confidence samples
+            selected_samples = select_low_confidence_samples_cnn(
+                model, X_unlabeled, low_conf_data
+            )
+            
+            if selected_samples.empty:
+                break
+            
+            # Prepare selected samples
+            X_selected, y_selected, _, _, weights_selected, _, _ = prepare_data(
+                selected_samples, pd.DataFrame(), max_length=Config.Sequence_len
+            )
+            
+            if len(X_selected) == 0:
+                break
+            
+            # Add to training set
+            current_X_train = np.vstack([current_X_train, X_selected])
+            current_y_train = np.hstack([current_y_train, y_selected])
+            
+            if current_weights is not None:
+                current_weights = np.hstack([current_weights, weights_selected])
+            
+            # Retrain model
+            metrics_callback = MetricsCallback()
+            
+            # Split updated training data
+            n_val = int(len(current_X_train) * val_split)
+            indices = np.random.permutation(len(current_X_train))
+            train_indices = indices[n_val:]
+            val_indices = indices[:n_val]
+            
+            X_train_split = current_X_train[train_indices]
+            y_train_split = current_y_train[train_indices]
+            X_val_split = current_X_train[val_indices]
+            y_val_split = current_y_train[val_indices]
+            
+            if current_weights is not None:
+                sample_weights_split = current_weights[train_indices]
+            else:
+                sample_weights_split = None
+            
+            model.fit(
+                X_train_split, y_train_split,
+                validation_data=(X_val_split, y_val_split),
+                epochs=Config.SELF_TRAINING_EPOCHS,
+                batch_size=Config.BATCH_SIZE,
+                sample_weight=sample_weights_split,
+                callbacks=[metrics_callback, early_stopping],
+                verbose=0
+            )
+            
+            # Record iteration metrics
+            iteration_metrics['iteration'].append(iteration)
+            iteration_metrics['train_loss'].append(metrics_callback.training_metrics['train_loss'][-1])
+            iteration_metrics['test_loss'].append(metrics_callback.training_metrics['test_loss'][-1])
+            iteration_metrics['samples_added'].append(len(X_selected))
+            iteration_metrics['total_samples'].append(len(current_X_train))
+            
+            if X_xu is not None:
+                xu_metrics = evaluate_model_cnn(model, X_xu, y_xu)
+                iteration_metrics['xu_loss'].append(xu_metrics['loss'])
+            
+            if X_atkins is not None:
+                atkins_metrics = evaluate_model_cnn(model, X_atkins, y_atkins)
+                iteration_metrics['atkins_loss'].append(atkins_metrics['loss'])
+            
+            # Update best model
+            current_loss = metrics_callback.training_metrics['test_loss'][-1]
+            if current_loss < best_loss:
+                best_model = tf.keras.models.clone_model(model)
+                best_model.set_weights(model.get_weights())
+                best_loss = current_loss
+                best_iteration = iteration
+    
+    # Final evaluation
+    final_metrics = evaluate_model_cnn(best_model, X_test, y_test)
+    
+    training_info = {
+        'initial_info': initial_info,
+        'iteration_metrics': iteration_metrics,
+        'best_iteration': best_iteration,
+        'final_metrics': final_metrics
+    }
+    
+    return best_model, model, training_info
+
+def main():
+    """Main training function"""
+    # Load data
+    train_data, test_data, low_conf_data, xu_data, atkins_data = load_data()
+    
+    # Prepare data
+    X_train, y_train, X_test, y_test, sample_weights, _, _ = prepare_data(
+        train_data, test_data, max_length=Config.Sequence_len
+    )
+    
+    # Prepare validation data
+    X_xu = y_xu = X_atkins = y_atkins = None
+    
+    if xu_data is not None and not xu_data.empty:
+        X_xu, y_xu, _, _, _, _, _ = prepare_data(
+            xu_data, pd.DataFrame(), max_length=Config.Sequence_len
+        )
+    
+    if atkins_data is not None and not atkins_data.empty:
+        X_atkins, y_atkins, _, _, _, _, _ = prepare_data(
+            atkins_data, pd.DataFrame(), max_length=Config.Sequence_len
+        )
+    
+    # Train model
+    best_model, final_model, training_info = train_bilstm_cnn_model(
+        X_train, y_train, X_test, y_test, sample_weights,
+        X_xu=X_xu, y_xu=y_xu, X_atkins=X_atkins, y_atkins=y_atkins
+    )
+    
+    # Save results
+    save_training_info(best_model, training_info, BaseConfig.BILSTM_MODEL_DIR, "best")
+    save_training_info(final_model, training_info, BaseConfig.BILSTM_MODEL_DIR, "final", is_final_model=True)
+    
+    return best_model, final_model, training_info
+
+if __name__ == "__main__":
+    BaseConfig.create_directories()
+    main()
diff --git a/train_models/hist_gb.cpython-310.pyc b/train_models/hist_gb.cpython-310.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d5b77e96ffd0a0282364d72801724c357b19f0bc
GIT binary patch
literal 7598
zcmb7JTa4V+dFDCfkQ~lsN2}FcmdAk|du&6p-MCFtMbb)I$qJ;EA}N+k%cZ$<xGS#a
zwuc-^J0(>Y>!3gyJ@m<F;sCorUW7gtMbSRwv1t2Jr07G#hrSeOA)pTh`ckxs-0wf+
z%+5-3nsRV{o*V!FT>ks?Yc)s1bL3w?zkTVLru_>wrXL-RQz+3t0|?F41QWc&T&CXK
z)z#Z@OX_X9Cf<6->e{Z&Xs*#IcOBR1R@_Rr>Q=iox7Mw@bv0J%%yb)WL)FdBuI{Wm
z%e3>Fu!Q}oChQIF?iPoIBPyRVcdpFKT)ZHvqK4KUaYW3B25Ni7E;0M5=I#?Oirr!k
zJ^L}XN9;xIfY>MYW9*<fAP(YvC^#$*-Qltu%x=E0r7<lyv;ipiHC0;8(TC1^VHBU2
zz6gU}e7fI{;;^^Uywn##r+F`oZ#OTUTWFpO{CFsX$hqeC!Z;iSqIoxvQP}S_m;16g
z7%p|fwjWbF8ZLFih=!cUI6!T&#j+#Mqj9F=W7={U$W|$<$$s1Ohixxv_hpckso5UN
zyFu1y_j}7j!sm7UScdnry#pDvL)C+d-{}-H_xV_pzY=)c;|d!Vuq(LhcZPl(cwO3<
zx3Yvz=d>RMXMjCiY12xlABM&$l<4aKfriW1TrL<cpSy<8arp)=zT{fMbZud|WnsIH
zD7zKmxK&YcYodBhYt=IQ{OO#+=$&7E22HiFCT%uc8A^4QVdGUzTlvAC(DU<?k4sp}
z<JSSMKPC=#jZQy`9>0WYG3Rej7L~s|x!9^_w&(TyZs2*D<I%o{9jaG7Z*AyziV@56
z1diIv>`U`Ey$jbDu4c813-ebOFD#z-uFhXy$jUTucHzqP_p<8M`NgxBFL~Fl(?A{5
zE`ET<<ttY(J8LYe@4dy#-kJC27tb$b*0nR2uhP)WwS{kgXJPTof_HIY@jNi?et-Vr
zg|qY5FI-;q&Rv~9LzV2nwM+9CFM7`zdZfu0uuTR2`|HQLz4%zCJ6H;itqg-Ge(UXH
z=dQK=-eBEp_q*LN#!Cdp)PY9FZiBsX-$w`Ql1^<7CE5>QYX&no3jOo~>NZoe9yb>?
ztxZfYe&|~&XHcT!7#V#p);3wpSM^OJF0DcfZ1F9YvZs2v>g7-M>Z(^4hA6G@)JRyu
z6Mb1ft9^7JEhPrtbE%n_Nom!(%jB5^tOhAQDbSOc$F;R%!W!4s-bnOB7xn>7l<)8Z
z+NQmwrPid+ne^F-mDtN1xL+w~G^c3%0jTMqrpYyYYaY;gHBhafeNR+-R<VLqm_0V3
z?XP{5uUug+-O#RSh8CCCf5f!3%(RhpL;FAzwY2=8Eb7oWs&<dv(^@m5moD~w(Tt@Z
z_DJ9OJ!lla6N+4k;N_3@bOX5(2v1G&sOxAux;vU1cjM}}dk+@9+ejv3nY}!Ol8Az}
ztkm(Bf{vt%&9uyn`a{_cTz+%tn)C6Uuoty>W_OnZ?`v-@4YD%T-hKzwf5QjrS$tGl
zq^IR%d>~v~2EOpHs*Lxe%ozCb?aWy1hdo)wbk_!p&wFPtT+OU@zccLiFsI!gtY_tg
z`|V&r`m*J?m0qyoMSgeC38Ku|-fdQn$6It~p4yk&kipt8lsKLOGt|>^rlXNr_lIil
zS;bd-${Q@$mLYirtINtAT!9*V4bA8q0G#h-^s{-L+st9AaQ+GZpE+xeRaM_CtFk&X
zpP=_i!>;o>vp?Zq$anF1n|3{ZW>A?(%s-$JYpX0RC$O7C7F809-m;Efo|a=BZv&--
zVxm|mHcA=ANy>shv{NT>Rx61Ho`VX0s533DCJsr?hMragORG6<c@o@8xKFBaNDRiS
z7_SvHFDJGdzpTa~6&SApH<fxklQ_cI;POMX8sK)8RFY~^6Q$2}VSa9;b<nIN^<^Cj
z-Wt7romjZ}>nQid7F>j`f8Pt^K)SU~;7j6t56V7p%QPUs6Sv)}gf#TKUKG<n9n(7N
zX!HjI%yt_+^}W~Yd+pnPZzXUovT_*8c26<Mvh>@EzgSkwdCR*Oge$k>Y<6mvvX7D1
z(ldj2&E@wY2|3raVBm66ZYAeQHQC+u%;#BcIqdlzuN%NTx1-iBr9$N)T)8|<fD_nF
zfV8jNLtrm~eFR7u%L4$ez8uEVrkYi3(ydOB_A=|XANg@CC0XUxOlIB8l|yE&7Znpd
z*hprggWmNWdx!Yl^zIKcW1XOV)62J-+3Q73{w5G-C1pB5o5Zi!mFqyN#`St3SVcRl
zsa4WlhCTR06I+$bStH+rGDHgVw?HI14q%oV%w#;bKDi|V<jnl9MzyLNdIO?na0Ly6
z%`(n8MvY&Zzi=w@JP^n_zz#b_5=cj=?9{)bvZAGI1%By|SqdwZXd6sf7d;_MFhjOy
z6aFnMh`vwzp(c#P_@VYAV~a6ut-j`nk}yBj$jT+0ywr#IYJ;Va(nJ&b{%vd}h0Rph
z%2U|P3AT6F-iBwpjjb}l23ZF-YYLmCu-OV*bqbq3!FFryCPocW6ZI9?T?VZHd7K%2
z>uLZ`6>e$nu{O!iiJD=r-5Cm8P!sNAa{#|7T<QePB{+cNnUS(V<m?uoMvsh)&1dX-
z#?EByyldby@3Ar+%-eD1#NXtcT|@a#V(b;{=OZhH)3}LsZLvS*Yw)-qG5Hk?;`Ii-
zc*c*u1+0E3pXM0ncn4k!oSDIiKO~$)V6QfMWhIEcVs*;3i;f=e^x*+VCr}xG@t9^m
zVwov}0S*CfYS@Eg{iQ3GmoZ;nA@FVbl1ti$YeAS{k>aP;Ca+`gAx-`cz+(!QToe8l
z+;jOdb-w}thrR?Qwi0BfKNti(k(Ej3#r=LK%B+EeFWQET2KQr(waS?T+w66M-U`g8
zJwE=dMAs8#EX)k5Wi_>tPSB4-f&P+eW_7F+`<rx|dHbnlXS<#`y95i3Xvqe*^(su=
zVaC7MZ#15%)eVEo5EI*Uvg3y?+(1!+b_$hTxDs}UNjm{AjNALQltXyfK`n(4B@h}2
zotD7hkuWC4e(k$(+rYehbn&_jyG<O%FzB_xnX=z)F7*+E;h3Uk+;76&Xy0zeKK!D%
znIG7j%{xIrmZ8~302d$_>qiLD`aStR7KJcJ$2?q!4zzA9|Fk%37dOxjqR1_Gg5?+*
zH0-*LBqO2fPah$)TnMXFtnM>lkE#GwIML)8*ldo=4m#Sz6yt|xm?-L){tnVZ+umeb
zkc$nT>d;O`p`A)GM;~dYBk)T}pB#W6YsT<yH`pCbwsOBTvET`}5(BcY<bG|Bs_RN)
z?OEGJJ~cEJJaTvgrmzZ)WfOM63mx+^DA=IzBK#3k@O|2Z%Ev?neda!OEeU*T`SBFB
zb5qpLt(_M36t(h%nxm+hQ`8(qt&(G&Q2VT)RxYSjK<%?BYUvcUbZs4M<iM}_d2A&-
zMz%oy6^$o+vn(p2N-+iW;J61NXx`KNs+#Y_m1T}^eg^7%g9-CaN&XD8tAtgU#Dw&H
zZ-)Aib*Scg6~6zDc3j)6C&m_O+xqC62yPK{$IY{g^V@t2Mjfl)yFoiff?!+!PAgdX
z9vDMjB0y^O*VRz+Dt)oj$SSq;=hRPXY4qBdOTD;1)|k&#mP$zEjsFkz559!@Psh}y
zi`rtY4ZljAN+r%H*~m&mC`2hgr2bU`w+MVh;CBHs2Z@ayJU_^PW{41KQirT(2C4U~
z6c3@2rAHHaZ;+LIDgE_UHM7V2l^-i46u7`oLv&2eTiER)P9XWOkF7_3FLDX9Wt)H?
z5D-`<utMNAft}}^&5bEdpX`q@F**eRRjKF7bU$2|D(Ao0Z;?WM`ME9Ia^Td=v4bcL
zL>vy6_kd)F{-7wrLQ(qTufZnJ7=_kA6sv7&TN)(Gy~R@#+5$1f0WC$OE5OZZIn+`|
z=m|x&Z^UeqqhBX3m#^kEc=rapef_v5N@~`LVpd7b`UYm9R?I3LCoN$^g*y~)B#8Ty
z%0%MIR1+rR46Fk5yaJP@FnPd)8bv7hs!DU$oVc`!m>W3*UDY5{DKZJ@E1_1xK5Hm-
zXe}Eu|2GL+wIaY`$7lb~9sgv<jyJz#$A7V7$A9)KcU+t7xQ?3I@!CdGlYg&PUE5+f
zDI1YgUH+5msTVzUXgMQ6KXMk(`^y$|M|t$_6*wrq40a{~$mecStp8;?qX}k^FA*Ty
zEhhp-9E;~aPRifHOT}8`bIAU^NWO+1x76#$JzsHHE_4xkWekv&g6<$*Z_P;LgEjdU
zfsYB0k1oGS;1mJmgtSZtMmeOWTEtzd`2en&$5-+M^_(Q|l;~8Em!u7=kozAoA-V`)
zz_T~N{$xNQJnRVGM_5&N5PlmvLUD+W!}FHG>WBuOompkGd=^EHfUr$o$@rmgU=oCX
z4~@~=u@<vc7yvMv4!0X-SRP9de8Z_H<}+Y6`R6bts}L44rVk-nvAtT}gaKKt3UiB-
zSw^sIVHD;SY;PxK$SD1D14$^A1gfu}MG^=J@gfOSPVEOajR{p#Ng!u*Y#wpr`e@>V
zH^c6rFO~9Zz80a;q5SY9*WAkH#`<e}BBEFBT17w9=LCZ!2k%^qxn)0sYee4vXz#P%
zQ%(t9QYq|-;J&+iX&825gmK<BqD3$Uxqo?Bdys0sL*Vxa5Nl=SvtZbB5}}4$iLik}
z_sSN{c%1-w{CQ5uJb#)pLaqtR1k&;-Mp|XLKohoEhj`GfjaRFJ7<bq9lJYcp<kqIT
z#Iidx)uddM{2F0>iVY9?`Js>P;?z#@$3*TDbLe76H^G1uaGFm{-TY<4tb-9v=;<Qk
z^ZP(fwqx?lp;kdry7~cdjs6tb8<rw|+|X{7QbeGso)V+!DsKqpd#K;CNOPxlT238|
zBEfEGX$7T<QiJ}3p9lSSBQaKu=*DQD^6U&^&W9|W0VX4vAvRW+DruE)<i8tQZ!hwZ
z_WJu^MQm;4<hawS%1iRJ@u1NIv(uXxk{BP9zK^V{5q-a)gbeJ2QfZ13RyL-S>Jv(T
zw1X1nJfBhwuak17Nm=ERkX=gZ!gyG|rKh`qbvAaAU22qX80l`*XUPr;WM!9mk!7{l
ze_GJWv#e?t0-AMuKP`K-_Yx(i#@UJH@~~GVg_M57Uo-Me+*iwx^LWYA1nBbQSpt+0
zl)nwo;z)Q_rr7^o8X;XH?-L*ykPiqDHpS6-c7iyhHRsMue1<$^nNqW)Qsp}YeuKca
z!rc~yQ#A0L^|_AH+A7bJGrE$YbC~Yd^USV?zpRFxIC@$Hj4qDl4PtiMG6z#PbPjf(
z`=U{*gW>C}i87}Wn{|l5bekKL7Og(1o3q=Z@Cne+|1E^q^Kh&$qC>t4fO?%?T)h@s
zN8~IGk!FBJ8g}uw1lb|i93biE=cY=zgKi_bqf&%NgI*MLk*-jAG#qBpT_m5RPWVXY
z%Mt;T0C`MqeHe$G=;-*;^UPW`@67*aQW`10S9PW5>071hI#eTPEWc*DNcjl?^2glS
zHUd%nnI@2cCjUMRrjJ<Zn<JQ)*~jz0olfAWwTN_@q1gu6FS2TfS=B-+nLBg*E1WrB
VIPchpoC@G^`;h%6rJju^{|l79fyV#<

literal 0
HcmV?d00001

diff --git a/train_models/hist_gb.py b/train_models/hist_gb.py
new file mode 100644
index 0000000..7f4841d
--- /dev/null
+++ b/train_models/hist_gb.py
@@ -0,0 +1,344 @@
+"""
+HistGradientBoosting Model with MFE Features
+"""
+import os
+import numpy as np
+import pandas as pd
+import itertools
+from sklearn.ensemble import HistGradientBoostingClassifier
+from sklearn.metrics import (
+    roc_auc_score,
+    roc_curve,
+    confusion_matrix,
+    precision_recall_curve,
+    average_precision_score
+)
+from utils.function import evaluate_model_gb
+from utils.config import BaseConfig
+
+class GBConfig:
+    """HistGradientBoostingClassifier model configuration"""
+    # Model training parameters
+    MAX_ITER = 10000
+    LEARNING_RATE = 0.4
+    MAX_DEPTH = 5
+    RANDOM_STATE = 42
+    
+    # Early stopping parameters
+    EARLY_STOPPING = True
+    N_ITER_NO_CHANGE = 10
+    SCORING = 'loss'
+    
+    # Sequence parameters
+    SEQUENCE_LENGTH = 33  # Must be multiple of 3 (codon length)
+    
+    # Validation parameters
+    VALIDATION_FRACTION = 0.2
+    SMALL_VALIDATION_FRACTION = 0.1
+
+def load_data(neg_samples=20000):
+    """Load training and validation data"""
+    try:
+        train_data = pd.read_csv(os.path.join(BaseConfig.DATA_DIR, "merged_train_data.csv"))
+        test_data = pd.read_csv(os.path.join(BaseConfig.DATA_DIR, "merged_test_data.csv"))
+        validation_data = pd.read_csv(os.path.join(BaseConfig.DATA_DIR, "merged_validation_data.csv"))
+        
+        required_columns = ['full_seq', 'label']
+        
+        for df in [train_data, test_data, validation_data]:
+            for col in required_columns:
+                if col not in df.columns:
+                    if col == 'label':
+                        df[col] = 0
+                    else:
+                        df[col] = ''
+        
+        xu_data = validation_data[validation_data['source'] == 'Xu'].copy()
+        atkins_data = validation_data[validation_data['source'] == 'Atkins'].copy()
+        
+        for df in [xu_data, atkins_data]:
+            for col in required_columns:
+                if col not in df.columns:
+                    df[col] = validation_data[col] if col in validation_data.columns else (
+                        0.0 if col in ['mfe_40bp', 'mfe_120bp'] else (
+                            0 if col == 'label' else ''
+                        )
+                    )
+        
+        return train_data, test_data, validation_data, xu_data, atkins_data
+        
+    except Exception as e:
+        return None, None, None, None, None
+
+def train_hist_model(X_train, y_train, X_test, y_test, sample_weights=None, 
+                    X_xu=None, y_xu=None, X_atkins=None, y_atkins=None):
+    """Train HistGradientBoostingClassifier model"""
+    
+    # Determine validation fraction
+    validation_fraction = GBConfig.VALIDATION_FRACTION
+    if X_xu is not None or X_atkins is not None:
+        validation_fraction = GBConfig.SMALL_VALIDATION_FRACTION
+    
+    # Create and train model
+    model = HistGradientBoostingClassifier(
+        max_iter=GBConfig.MAX_ITER,
+        learning_rate=GBConfig.LEARNING_RATE,
+        max_depth=GBConfig.MAX_DEPTH,
+        random_state=GBConfig.RANDOM_STATE,
+        early_stopping=GBConfig.EARLY_STOPPING,
+        n_iter_no_change=GBConfig.N_ITER_NO_CHANGE,
+        scoring=GBConfig.SCORING,
+        validation_fraction=validation_fraction
+    )
+    
+    # Train model
+    model.fit(X_train, y_train, sample_weight=sample_weights)
+    
+    # Evaluate on test set
+    test_metrics = evaluate_model_gb(model, X_test, y_test)
+    
+    # Evaluate on external validation sets
+    xu_metrics = None
+    if X_xu is not None and y_xu is not None:
+        xu_metrics = evaluate_model_gb(model, X_xu, y_xu)
+    
+    atkins_metrics = None
+    if X_atkins is not None and y_atkins is not None:
+        atkins_metrics = evaluate_model_gb(model, X_atkins, y_atkins)
+    
+    # Prepare training info
+    training_info = {
+        'n_iter': model.n_iter_,
+        'train_score': model.train_score_,
+        'validation_scores': model.validation_scores_ if hasattr(model, 'validation_scores_') else None,
+        'final_metrics': {
+            'test': test_metrics,
+            'xu': xu_metrics,
+            'atkins': atkins_metrics
+        }
+    }
+    
+    return model, test_metrics, training_info
+
+def get_feature_names(seq_length=33):
+    """Return feature names including all possible base features and MFE features"""
+    features = []
+    
+    # Single nucleotide features
+    bases = ['A', 'T', 'C', 'G']
+    for i in range(seq_length):
+        for base in bases:
+            features.append(f'pos_{i+1}_{base}')
+    
+    # Dinucleotide features
+    dinucleotides = [''.join(pair) for pair in itertools.product(bases, repeat=2)]
+    for i in range(seq_length - 1):
+        for dinuc in dinucleotides:
+            features.append(f'dinuc_{i+1}_{dinuc}')
+    
+    # Trinucleotide (codon) features
+    trinucleotides = [''.join(triplet) for triplet in itertools.product(bases, repeat=3)]
+    for i in range(seq_length - 2):
+        for trinuc in trinucleotides:
+            features.append(f'codon_{i+1}_{trinuc}')
+    
+    # MFE features
+    features.extend(['mfe_40bp', 'mfe_120bp'])
+    
+    return features
+
+def trim_sequence(seq, target_length):
+    """Trim sequence from both ends to reach target length, keeping center position"""
+    if len(seq) <= target_length:
+        return seq
+    
+    excess = len(seq) - target_length
+    left_trim = excess // 2
+    right_trim = excess - left_trim
+    
+    return seq[left_trim:len(seq)-right_trim]
+
+def sequence_to_features(sequence, seq_length=33, mfe_values=None):
+    """Convert DNA sequence to feature vector including MFE features"""
+    
+    # Trim sequence to target length
+    trimmed_seq = trim_sequence(sequence.upper(), seq_length)
+    
+    # Initialize feature vector
+    feature_vector = []
+    
+    # Single nucleotide features (one-hot encoding)
+    bases = ['A', 'T', 'C', 'G']
+    for i in range(seq_length):
+        for base in bases:
+            if i < len(trimmed_seq) and trimmed_seq[i] == base:
+                feature_vector.append(1)
+            else:
+                feature_vector.append(0)
+    
+    # Dinucleotide features
+    dinucleotides = [''.join(pair) for pair in itertools.product(bases, repeat=2)]
+    for i in range(seq_length - 1):
+        for dinuc in dinucleotides:
+            if i + 1 < len(trimmed_seq) and trimmed_seq[i:i+2] == dinuc:
+                feature_vector.append(1)
+            else:
+                feature_vector.append(0)
+    
+    # Trinucleotide (codon) features
+    trinucleotides = [''.join(triplet) for triplet in itertools.product(bases, repeat=3)]
+    for i in range(seq_length - 2):
+        for trinuc in trinucleotides:
+            if i + 2 < len(trimmed_seq) and trimmed_seq[i:i+3] == trinuc:
+                feature_vector.append(1)
+            else:
+                feature_vector.append(0)
+    
+    # Add MFE features
+    if mfe_values is not None:
+        if isinstance(mfe_values, dict):
+            feature_vector.append(mfe_values.get('mfe_40bp', 0.0))
+            feature_vector.append(mfe_values.get('mfe_120bp', 0.0))
+        elif isinstance(mfe_values, (list, tuple)) and len(mfe_values) >= 2:
+            feature_vector.extend(mfe_values[:2])
+        else:
+            feature_vector.extend([0.0, 0.0])
+    else:
+        feature_vector.extend([0.0, 0.0])
+    
+    return np.array(feature_vector)
+
+def prepare_data(train_data, test_data, seq_length=33):
+    """Prepare training and test data including MFE features"""
+    
+    # Process training data
+    X_train = []
+    y_train = []
+    sample_weights = []
+    
+    for _, row in train_data.iterrows():
+        sequence = row['full_seq']
+        label = row['label']
+        
+        # Get MFE values
+        mfe_values = {}
+        if 'mfe_40bp' in row:
+            mfe_values['mfe_40bp'] = row['mfe_40bp'] if pd.notna(row['mfe_40bp']) else 0.0
+        if 'mfe_120bp' in row:
+            mfe_values['mfe_120bp'] = row['mfe_120bp'] if pd.notna(row['mfe_120bp']) else 0.0
+        
+        # Convert to features
+        features = sequence_to_features(sequence, seq_length, mfe_values)
+        X_train.append(features)
+        y_train.append(label)
+        
+        # Sample weight
+        weight = 1.0
+        if 'sample_weight' in row and pd.notna(row['sample_weight']):
+            weight = row['sample_weight']
+        sample_weights.append(weight)
+    
+    X_train = np.array(X_train)
+    y_train = np.array(y_train)
+    sample_weights = np.array(sample_weights)
+    
+    # Process test data
+    X_test = []
+    y_test = []
+    
+    if test_data is not None and not test_data.empty:
+        for _, row in test_data.iterrows():
+            sequence = row['full_seq']
+            label = row['label']
+            
+            # Get MFE values
+            mfe_values = {}
+            if 'mfe_40bp' in row:
+                mfe_values['mfe_40bp'] = row['mfe_40bp'] if pd.notna(row['mfe_40bp']) else 0.0
+            if 'mfe_120bp' in row:
+                mfe_values['mfe_120bp'] = row['mfe_120bp'] if pd.notna(row['mfe_120bp']) else 0.0
+            
+            # Convert to features
+            features = sequence_to_features(sequence, seq_length, mfe_values)
+            X_test.append(features)
+            y_test.append(label)
+    
+    X_test = np.array(X_test) if X_test else None
+    y_test = np.array(y_test) if y_test else None
+    
+    return X_train, y_train, X_test, y_test, sample_weights, train_data, test_data
+
+def analyze_feature_importance(model, X_test, y_test, test_data):
+    """Analyze feature importance (simplified version)"""
+    try:
+        # Get feature names
+        feature_names = get_feature_names(GBConfig.SEQUENCE_LENGTH)
+        
+        # Built-in feature importance
+        if hasattr(model, 'feature_importances_'):
+            importance_scores = model.feature_importances_
+            
+            # Create importance DataFrame
+            importance_df = pd.DataFrame({
+                'feature': feature_names,
+                'importance': importance_scores
+            }).sort_values('importance', ascending=False)
+            
+            # Save results
+            importance_path = os.path.join(BaseConfig.GB_DIR, 'feature_importance.csv')
+            importance_df.to_csv(importance_path, index=False)
+            
+            return {'built_in_importance': importance_df}
+        
+        return None
+        
+    except Exception as e:
+        return None
+
+def main():
+    """Main training function"""
+    try:
+        # Set sequence length
+        sequence_length = GBConfig.SEQUENCE_LENGTH
+        
+        # Load data
+        train_data, test_data, _, xu_data, atkins_data = load_data()
+        
+        # Prepare data
+        X_train, y_train, X_test, y_test, sample_weights, _, _ = prepare_data(
+            train_data, test_data, seq_length=sequence_length
+        )
+        
+        # Prepare validation data
+        X_xu = y_xu = X_atkins = y_atkins = None
+        if xu_data is not None and not xu_data.empty:
+            try:
+                empty_test = pd.DataFrame(columns=xu_data.columns)
+                X_xu, y_xu, _, _, _, _, _ = prepare_data(xu_data, empty_test, seq_length=sequence_length)
+            except Exception as e:
+                X_xu = y_xu = None
+
+        if atkins_data is not None and not atkins_data.empty:
+            try:
+                empty_test = pd.DataFrame(columns=atkins_data.columns)
+                X_atkins, y_atkins, _, _, _, _, _ = prepare_data(atkins_data, empty_test, seq_length=sequence_length)
+            except Exception as e:
+                X_atkins = y_atkins = None
+        
+        # Train model
+        model, _, training_info = train_hist_model(
+            X_train, y_train, X_test, y_test, sample_weights,
+            X_xu=X_xu, y_xu=y_xu, X_atkins=X_atkins, y_atkins=y_atkins
+        )
+        
+        # Feature importance analysis
+        source_results = analyze_feature_importance(model, X_test, y_test, test_data)
+        
+        return model, training_info['final_metrics']['test']
+        
+    except Exception as e:
+        return None, None
+
+if __name__ == "__main__":
+    BaseConfig.create_directories()
+    main()