├── .idea
    ├── deployment.xml
    ├── encodings.xml
    ├── inspectionProfiles
    │   └── Project_Default.xml
    ├── misc.xml
    ├── modules.xml
    ├── tiny_ml.iml
    ├── vcs.xml
    └── workspace.xml
├── README.md
├── notes
    └── linear_model
    │   ├── linear_reg_closed_form.pdf
    │   └── logistic_regression.pdf
├── requirements.txt
└── tinyml
    ├── __init__.py
    ├── __pycache__
        ├── __init__.cpython-36.pyc
        └── __init__.cpython-37.pyc
    ├── bayes
        ├── NaiveBayesClassifier.py
        ├── __init__.py
        └── __pycache__
        │   ├── NaiveBayesClassifier.cpython-37.pyc
        │   └── __init__.cpython-37.pyc
    ├── cluster
        ├── AGNES.py
        ├── DBSCAN.py
        ├── GaussianMixture.py
        ├── KMeans.py
        ├── LVQ.py
        ├── __init__.py
        └── __pycache__
        │   ├── AGNES.cpython-37.pyc
        │   ├── DBSCAN.cpython-37.pyc
        │   ├── GaussianMixture.cpython-37.pyc
        │   ├── KMeans.cpython-37.pyc
        │   ├── LVQ.cpython-37.pyc
        │   └── __init__.cpython-37.pyc
    ├── compare
        ├── __init__.py
        ├── cluster_result
        │   ├── sklearn_AGNES.jpg
        │   ├── sklearn_DBSCAN.jpg
        │   ├── sklearn_GMM.jpg
        │   ├── sklearn_KMeans.jpg
        │   ├── tinyml_AGNES.jpg
        │   ├── tinyml_DBSCAN.jpg
        │   ├── tinyml_GMM.jpg
        │   └── tinyml_KMeans.jpg
        ├── compare_classification.py
        ├── compare_clustering.py
        ├── compare_dimension_reduction.py
        ├── compare_regresssor.py
        └── dimension_reduction_result
        │   ├── sklearn_KernalPCA.jpg
        │   ├── sklearn_LLE.jpg
        │   ├── sklearn_MDS.jpg
        │   ├── sklearn_PCA.jpg
        │   ├── tinyml_KernalPCA.jpg
        │   ├── tinyml_LLE.jpg
        │   ├── tinyml_MDS.jpg
        │   └── tinyml_PCA.jpg
    ├── dimension_reduction
        ├── Isomap.py
        ├── KernelPCA.py
        ├── LLE.py
        ├── MDS.py
        ├── PCA.py
        ├── __init__.py
        └── __pycache__
        │   ├── Isomap.cpython-37.pyc
        │   ├── KernelPCA.cpython-37.pyc
        │   ├── LLE.cpython-37.pyc
        │   ├── MDS.cpython-36.pyc
        │   ├── MDS.cpython-37.pyc
        │   ├── PCA.cpython-37.pyc
        │   ├── __init__.cpython-36.pyc
        │   └── __init__.cpython-37.pyc
    ├── discriminant_analysis
        ├── GDA.py
        ├── LDA.py
        ├── __init__.py
        └── __pycache__
        │   ├── GDA.cpython-37.pyc
        │   ├── LDA.cpython-37.pyc
        │   └── __init__.cpython-37.pyc
    ├── ensemble
        ├── AdaBoostClassifier.py
        ├── GradientBoostingRegressor.py
        ├── RandomForestRegressor.py
        ├── XGBRegressor.py
        ├── __init__.py
        └── __pycache__
        │   ├── AdaBoostClassifier.cpython-37.pyc
        │   ├── GradientBoostingRegressor.cpython-37.pyc
        │   ├── RandomForestRegressor.cpython-37.pyc
        │   ├── XGBRegressor.cpython-37.pyc
        │   └── __init__.cpython-37.pyc
    ├── factorization_machine
        ├── FMClassifier.py
        └── __init__.py
    ├── feature_selection
        ├── ReliefFeatureSelection.py
        └── __init__.py
    ├── linear_model
        ├── LinearRegression.py
        ├── LocallyWeightedLinearRegression.py
        ├── LogisticRegression.py
        ├── SGDRegressor.py
        ├── __init__.py
        └── __pycache__
        │   ├── LinearRegression.cpython-37.pyc
        │   ├── LogisticRegression.cpython-37.pyc
        │   ├── SGDRegressor.cpython-37.pyc
        │   └── __init__.cpython-37.pyc
    ├── metrices
        ├── __init__.py
        ├── __pycache__
        │   ├── __init__.cpython-37.pyc
        │   └── curves.cpython-37.pyc
        └── curves.py
    ├── svm
        ├── SVC.py
        ├── __init__.py
        └── __pycache__
        │   ├── SVC.cpython-37.pyc
        │   └── __init__.cpython-37.pyc
    └── tree
        ├── DecisionTreeClassifier.py
        ├── DecisionTreeRegressor.py
        ├── __init__.py
        ├── __pycache__
            ├── DecisionTreeClassifier.cpython-37.pyc
            ├── DecisionTreeRegressor.cpython-36.pyc
            ├── DecisionTreeRegressor.cpython-37.pyc
            ├── __init__.cpython-36.pyc
            ├── __init__.cpython-37.pyc
            ├── treePlotter.cpython-36.pyc
            └── treePlotter.cpython-37.pyc
        └── treePlotter.py


/.idea/deployment.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0" encoding="UTF-8"?>
 2 | <project version="4">
 3 |   <component name="PublishConfigData">
 4 |     <serverData>
 5 |       <paths name="fengyang@10.79.27.58:22">
 6 |         <serverdata>
 7 |           <mappings>
 8 |             <mapping local="$PROJECT_DIR$" web="/" />
 9 |           </mappings>
10 |         </serverdata>
11 |       </paths>
12 |       <paths name="fengyang@10.79.27.58:22 (1)">
13 |         <serverdata>
14 |           <mappings>
15 |             <mapping local="$PROJECT_DIR$" web="/" />
16 |           </mappings>
17 |         </serverdata>
18 |       </paths>
19 |     </serverData>
20 |   </component>
21 | </project>


--------------------------------------------------------------------------------
/.idea/encodings.xml:
--------------------------------------------------------------------------------
1 | <?xml version="1.0" encoding="UTF-8"?>
2 | <project version="4">
3 |   <component name="Encoding" addBOMForNewFiles="with NO BOM" />
4 | </project>


--------------------------------------------------------------------------------
/.idea/inspectionProfiles/Project_Default.xml:
--------------------------------------------------------------------------------
 1 | <component name="InspectionProjectProfileManager">
 2 |   <profile version="1.0">
 3 |     <option name="myName" value="Project Default" />
 4 |     <inspection_tool class="PyPackageRequirementsInspection" enabled="true" level="WARNING" enabled_by_default="true">
 5 |       <option name="ignoredPackages">
 6 |         <value>
 7 |           <list size="2">
 8 |             <item index="0" class="java.lang.String" itemvalue="scikit_learn" />
 9 |             <item index="1" class="java.lang.String" itemvalue="skrebate" />
10 |           </list>
11 |         </value>
12 |       </option>
13 |     </inspection_tool>
14 |     <inspection_tool class="PyPep8Inspection" enabled="true" level="WEAK WARNING" enabled_by_default="true">
15 |       <option name="ignoredErrors">
16 |         <list>
17 |           <option value="W29" />
18 |           <option value="E501" />
19 |           <option value="W29" />
20 |           <option value="E501" />
21 |           <option value="W29" />
22 |           <option value="E501" />
23 |         </list>
24 |       </option>
25 |     </inspection_tool>
26 |   </profile>
27 | </component>


--------------------------------------------------------------------------------
/.idea/misc.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0" encoding="UTF-8"?>
 2 | <project version="4">
 3 |   <component name="JavaScriptSettings">
 4 |     <option name="languageLevel" value="ES6" />
 5 |   </component>
 6 |   <component name="PreferredVcsStorage">
 7 |     <preferredVcsName>ApexVCS</preferredVcsName>
 8 |   </component>
 9 |   <component name="ProjectRootManager" version="2" project-jdk-name="Python 3.7 (tpy)" project-jdk-type="Python SDK" />
10 | </project>


--------------------------------------------------------------------------------
/.idea/modules.xml:
--------------------------------------------------------------------------------
1 | <?xml version="1.0" encoding="UTF-8"?>
2 | <project version="4">
3 |   <component name="ProjectModuleManager">
4 |     <modules>
5 |       <module fileurl="file://$PROJECT_DIR$/.idea/tiny_ml.iml" filepath="$PROJECT_DIR$/.idea/tiny_ml.iml" />
6 |     </modules>
7 |   </component>
8 | </project>


--------------------------------------------------------------------------------
/.idea/tiny_ml.iml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0" encoding="UTF-8"?>
 2 | <module type="PYTHON_MODULE" version="4">
 3 |   <component name="NewModuleRootManager">
 4 |     <content url="file://$MODULE_DIR$" />
 5 |     <orderEntry type="jdk" jdkName="Python 3.7 (tpy)" jdkType="Python SDK" />
 6 |     <orderEntry type="sourceFolder" forTests="false" />
 7 |   </component>
 8 |   <component name="TestRunnerService">
 9 |     <option name="projectConfiguration" value="pytest" />
10 |     <option name="PROJECT_TEST_RUNNER" value="pytest" />
11 |   </component>
12 | </module>


--------------------------------------------------------------------------------
/.idea/vcs.xml:
--------------------------------------------------------------------------------
1 | <?xml version="1.0" encoding="UTF-8"?>
2 | <project version="4">
3 |   <component name="VcsDirectoryMappings">
4 |     <mapping directory="$PROJECT_DIR$" vcs="Git" />
5 |   </component>
6 | </project>


--------------------------------------------------------------------------------
/.idea/workspace.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0" encoding="UTF-8"?>
  2 | <project version="4">
  3 |   <component name="ChangeListManager">
  4 |     <list default="true" id="464edce4-ba5b-4e33-97d9-e0b8f86036ff" name="Default Changelist" comment="">
  5 |       <change beforePath="$PROJECT_DIR$/README.md" beforeDir="false" afterPath="$PROJECT_DIR$/README.md" afterDir="false" />
  6 |     </list>
  7 |     <option name="EXCLUDED_CONVERTED_TO_IGNORED" value="true" />
  8 |     <option name="SHOW_DIALOG" value="false" />
  9 |     <option name="HIGHLIGHT_CONFLICTS" value="true" />
 10 |     <option name="HIGHLIGHT_NON_ACTIVE_CHANGELIST" value="false" />
 11 |     <option name="LAST_RESOLUTION" value="IGNORE" />
 12 |   </component>
 13 |   <component name="CoverageDataManager">
 14 |     <SUITE FILE_PATH="coverage/tiny_ml$LogisticRegression__1_.coverage" NAME="LogisticRegression (1) Coverage Results" MODIFIED="1541729745217" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/linear_model" />
 15 |     <SUITE FILE_PATH="coverage/tiny_ml$RandomForestRegressor.coverage" NAME="RandomForestRegressor Coverage Results" MODIFIED="1551059904320" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/ensemble" />
 16 |     <SUITE FILE_PATH="coverage/tiny_ml$SGDRegressor.coverage" NAME="SGDRegressor Coverage Results" MODIFIED="1551188101298" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/linear_model" />
 17 |     <SUITE FILE_PATH="coverage/tiny_ml$LDA.coverage" NAME="LDA Coverage Results" MODIFIED="1551059946151" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/discriminant_analysis" />
 18 |     <SUITE FILE_PATH="coverage/tiny_ml$DecisionTreeClassifier.coverage" NAME="DecisionTreeClassifier Coverage Results" MODIFIED="1541148105583" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/tree" />
 19 |     <SUITE FILE_PATH="coverage/tiny_ml$t.coverage" NAME="t Coverage Results" MODIFIED="1541763416720" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/feature_selection" />
 20 |     <SUITE FILE_PATH="coverage/tiny_ml$pytest_in_t_py.coverage" NAME="pytest in t.py Coverage Results" MODIFIED="1540107533876" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/dimension_reduction" />
 21 |     <SUITE FILE_PATH="coverage/tiny_ml$AdaBoostClassifier.coverage" NAME="AdaBoostClassifier Coverage Results" MODIFIED="1551059915058" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/ensemble" />
 22 |     <SUITE FILE_PATH="coverage/tiny_ml$KMeans.coverage" NAME="KMeans Coverage Results" MODIFIED="1551060443142" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/cluster" />
 23 |     <SUITE FILE_PATH="coverage/tiny_ml$LLE.coverage" NAME="LLE Coverage Results" MODIFIED="1540129848157" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/dimension_reduction" />
 24 |     <SUITE FILE_PATH="coverage/tiny_ml$XGBRegressor.coverage" NAME="XGBRegressor Coverage Results" MODIFIED="1551059881641" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/ensemble" />
 25 |     <SUITE FILE_PATH="coverage/tiny_ml$GradientBoostingRegressor.coverage" NAME="GradientBoostingRegressor Coverage Results" MODIFIED="1541148451326" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/ensemble" />
 26 |     <SUITE FILE_PATH="coverage/tiny_ml$GDA.coverage" NAME="GDA Coverage Results" MODIFIED="1551059931039" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/discriminant_analysis" />
 27 |     <SUITE FILE_PATH="coverage/tiny_ml$GaussianMixture.coverage" NAME="GaussianMixture Coverage Results" MODIFIED="1551060398650" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/cluster" />
 28 |     <SUITE FILE_PATH="coverage/tiny_ml$GBDTRegressor.coverage" NAME="GBDTRegressor Coverage Results" MODIFIED="1540795911365" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/ensemble" />
 29 |     <SUITE FILE_PATH="coverage/tiny_ml$NaiveBayesClassifier.coverage" NAME="NaiveBayesClassifier Coverage Results" MODIFIED="1551059969853" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/bayes" />
 30 |     <SUITE FILE_PATH="coverage/tiny_ml$AGNES.coverage" NAME="AGNES Coverage Results" MODIFIED="1551060181654" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/cluster" />
 31 |     <SUITE FILE_PATH="coverage/tiny_ml$KernelPCA.coverage" NAME="KernelPCA Coverage Results" MODIFIED="1540132590904" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/dimension_reduction" />
 32 |     <SUITE FILE_PATH="coverage/tiny_ml$svm.coverage" NAME="svm Coverage Results" MODIFIED="1539863637119" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/svm" />
 33 |     <SUITE FILE_PATH="coverage/tiny_ml$LinearRegression.coverage" NAME="LinearRegression Coverage Results" MODIFIED="1551059836555" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/linear_model" />
 34 |     <SUITE FILE_PATH="coverage/tiny_ml$ReliefFeatureSelection.coverage" NAME="ReliefFeatureSelection Coverage Results" MODIFIED="1551059861789" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/feature_selection" />
 35 |     <SUITE FILE_PATH="coverage/tiny_ml$PCA.coverage" NAME="PCA Coverage Results" MODIFIED="1540132479988" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/dimension_reduction" />
 36 |     <SUITE FILE_PATH="coverage/tiny_ml$LocallyWeightedLinearRegression.coverage" NAME="LocallyWeightedLinearRegression Coverage Results" MODIFIED="1551188110613" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/linear_model" />
 37 |     <SUITE FILE_PATH="coverage/tiny_ml$DBSCAN.coverage" NAME="DBSCAN Coverage Results" MODIFIED="1551060245470" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/cluster" />
 38 |     <SUITE FILE_PATH="coverage/tiny_ml$MDS.coverage" NAME="MDS Coverage Results" MODIFIED="1540132409236" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/dimension_reduction" />
 39 |     <SUITE FILE_PATH="coverage/tiny_ml$SVC.coverage" NAME="SVC Coverage Results" MODIFIED="1540086225348" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/svm" />
 40 |     <SUITE FILE_PATH="coverage/tiny_ml$LogisticRegression.coverage" NAME="LogisticRegression Coverage Results" MODIFIED="1551237551111" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/linear_model" />
 41 |     <SUITE FILE_PATH="coverage/tiny_ml$tree.coverage" NAME="tree Coverage Results" MODIFIED="1540517955637" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/tree" />
 42 |     <SUITE FILE_PATH="coverage/tiny_ml$DecisionTreeRegressor.coverage" NAME="DecisionTreeRegressor Coverage Results" MODIFIED="1542416002319" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/tree" />
 43 |     <SUITE FILE_PATH="coverage/tiny_ml$LVQ.coverage" NAME="LVQ Coverage Results" MODIFIED="1551060461198" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/cluster" />
 44 |   </component>
 45 |   <component name="FileTemplateManagerImpl">
 46 |     <option name="RECENT_TEMPLATES">
 47 |       <list>
 48 |         <option value="Python Script" />
 49 |       </list>
 50 |     </option>
 51 |   </component>
 52 |   <component name="Git.Settings">
 53 |     <option name="RECENT_GIT_ROOT_PATH" value="$PROJECT_DIR$" />
 54 |   </component>
 55 |   <component name="ProjectId" id="1TgLZM36Gx5Y6gkceEl6GNfay4Y" />
 56 |   <component name="ProjectLevelVcsManager" settingsEditedManually="true" />
 57 |   <component name="PropertiesComponent">
 58 |     <property name="SearchEverywhereHistoryKey" value="&#9;FILE&#9;file://F:/2018fall/tiny_ml/tinyml/ensemble/GBDTRegressor.py" />
 59 |     <property name="WebServerToolWindowFactoryState" value="true" />
 60 |     <property name="last_opened_file_path" value="F:/2018summer_vacation/cs229/cs229_assignments" />
 61 |     <property name="nodejs_interpreter_path.stuck_in_default_project" value="undefined stuck path" />
 62 |     <property name="nodejs_npm_path_reset_for_default_project" value="true" />
 63 |     <property name="settings.editor.selected.configurable" value="com.jetbrains.python.configuration.PyActiveSdkModuleConfigurable" />
 64 |   </component>
 65 |   <component name="RecentsManager">
 66 |     <key name="MoveFile.RECENT_KEYS">
 67 |       <recent name="F:\2018fall\tiny_ml\tinyml\discriminant_analysis" />
 68 |     </key>
 69 |   </component>
 70 |   <component name="RunDashboard">
 71 |     <option name="ruleStates">
 72 |       <list>
 73 |         <RuleState>
 74 |           <option name="name" value="ConfigurationTypeDashboardGroupingRule" />
 75 |         </RuleState>
 76 |         <RuleState>
 77 |           <option name="name" value="StatusDashboardGroupingRule" />
 78 |         </RuleState>
 79 |       </list>
 80 |     </option>
 81 |   </component>
 82 |   <component name="RunManager" selected="Python.FMClassifier">
 83 |     <configuration name="FMClassifier" type="PythonConfigurationType" factoryName="Python" temporary="true">
 84 |       <module name="tiny_ml" />
 85 |       <option name="INTERPRETER_OPTIONS" value="" />
 86 |       <option name="PARENT_ENVS" value="true" />
 87 |       <envs>
 88 |         <env name="PYTHONUNBUFFERED" value="1" />
 89 |       </envs>
 90 |       <option name="SDK_HOME" value="" />
 91 |       <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$/tinyml/factorization_machine" />
 92 |       <option name="IS_MODULE_SDK" value="true" />
 93 |       <option name="ADD_CONTENT_ROOTS" value="true" />
 94 |       <option name="ADD_SOURCE_ROOTS" value="true" />
 95 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
 96 |       <option name="SCRIPT_NAME" value="$PROJECT_DIR$/tinyml/factorization_machine/FMClassifier.py" />
 97 |       <option name="PARAMETERS" value="" />
 98 |       <option name="SHOW_COMMAND_LINE" value="false" />
 99 |       <option name="EMULATE_TERMINAL" value="false" />
100 |       <option name="MODULE_MODE" value="false" />
101 |       <option name="REDIRECT_INPUT" value="false" />
102 |       <option name="INPUT_FILE" value="" />
103 |       <method v="2" />
104 |     </configuration>
105 |     <configuration name="KMeans" type="PythonConfigurationType" factoryName="Python" temporary="true">
106 |       <module name="tiny_ml" />
107 |       <option name="INTERPRETER_OPTIONS" value="" />
108 |       <option name="PARENT_ENVS" value="true" />
109 |       <envs>
110 |         <env name="PYTHONUNBUFFERED" value="1" />
111 |       </envs>
112 |       <option name="SDK_HOME" value="" />
113 |       <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$/tinyml/cluster" />
114 |       <option name="IS_MODULE_SDK" value="true" />
115 |       <option name="ADD_CONTENT_ROOTS" value="true" />
116 |       <option name="ADD_SOURCE_ROOTS" value="true" />
117 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
118 |       <option name="SCRIPT_NAME" value="$PROJECT_DIR$/tinyml/cluster/KMeans.py" />
119 |       <option name="PARAMETERS" value="" />
120 |       <option name="SHOW_COMMAND_LINE" value="false" />
121 |       <option name="EMULATE_TERMINAL" value="false" />
122 |       <option name="MODULE_MODE" value="false" />
123 |       <option name="REDIRECT_INPUT" value="false" />
124 |       <option name="INPUT_FILE" value="" />
125 |       <method v="2" />
126 |     </configuration>
127 |     <configuration name="ReliefFeatureSelection" type="PythonConfigurationType" factoryName="Python" temporary="true">
128 |       <module name="tiny_ml" />
129 |       <option name="INTERPRETER_OPTIONS" value="" />
130 |       <option name="PARENT_ENVS" value="true" />
131 |       <envs>
132 |         <env name="PYTHONUNBUFFERED" value="1" />
133 |       </envs>
134 |       <option name="SDK_HOME" value="" />
135 |       <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$/tinyml/feature_selection" />
136 |       <option name="IS_MODULE_SDK" value="true" />
137 |       <option name="ADD_CONTENT_ROOTS" value="true" />
138 |       <option name="ADD_SOURCE_ROOTS" value="true" />
139 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
140 |       <option name="SCRIPT_NAME" value="$PROJECT_DIR$/tinyml/feature_selection/ReliefFeatureSelection.py" />
141 |       <option name="PARAMETERS" value="" />
142 |       <option name="SHOW_COMMAND_LINE" value="false" />
143 |       <option name="EMULATE_TERMINAL" value="false" />
144 |       <option name="MODULE_MODE" value="false" />
145 |       <option name="REDIRECT_INPUT" value="false" />
146 |       <option name="INPUT_FILE" value="" />
147 |       <method v="2" />
148 |     </configuration>
149 |     <configuration name="SVC" type="PythonConfigurationType" factoryName="Python" temporary="true">
150 |       <module name="tiny_ml" />
151 |       <option name="INTERPRETER_OPTIONS" value="" />
152 |       <option name="PARENT_ENVS" value="true" />
153 |       <envs>
154 |         <env name="PYTHONUNBUFFERED" value="1" />
155 |       </envs>
156 |       <option name="SDK_HOME" value="" />
157 |       <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$/tinyml/svm" />
158 |       <option name="IS_MODULE_SDK" value="true" />
159 |       <option name="ADD_CONTENT_ROOTS" value="true" />
160 |       <option name="ADD_SOURCE_ROOTS" value="true" />
161 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
162 |       <option name="SCRIPT_NAME" value="$PROJECT_DIR$/tinyml/svm/SVC.py" />
163 |       <option name="PARAMETERS" value="" />
164 |       <option name="SHOW_COMMAND_LINE" value="false" />
165 |       <option name="EMULATE_TERMINAL" value="false" />
166 |       <option name="MODULE_MODE" value="false" />
167 |       <option name="REDIRECT_INPUT" value="false" />
168 |       <option name="INPUT_FILE" value="" />
169 |       <method v="2" />
170 |     </configuration>
171 |     <configuration name="curves" type="PythonConfigurationType" factoryName="Python" temporary="true">
172 |       <module name="tiny_ml" />
173 |       <option name="INTERPRETER_OPTIONS" value="" />
174 |       <option name="PARENT_ENVS" value="true" />
175 |       <envs>
176 |         <env name="PYTHONUNBUFFERED" value="1" />
177 |       </envs>
178 |       <option name="SDK_HOME" value="" />
179 |       <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$/tinyml/metrices" />
180 |       <option name="IS_MODULE_SDK" value="true" />
181 |       <option name="ADD_CONTENT_ROOTS" value="true" />
182 |       <option name="ADD_SOURCE_ROOTS" value="true" />
183 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
184 |       <option name="SCRIPT_NAME" value="$PROJECT_DIR$/tinyml/metrices/curves.py" />
185 |       <option name="PARAMETERS" value="" />
186 |       <option name="SHOW_COMMAND_LINE" value="false" />
187 |       <option name="EMULATE_TERMINAL" value="false" />
188 |       <option name="MODULE_MODE" value="false" />
189 |       <option name="REDIRECT_INPUT" value="false" />
190 |       <option name="INPUT_FILE" value="" />
191 |       <method v="2" />
192 |     </configuration>
193 |     <list>
194 |       <item itemvalue="Python.curves" />
195 |       <item itemvalue="Python.ReliefFeatureSelection" />
196 |       <item itemvalue="Python.SVC" />
197 |       <item itemvalue="Python.KMeans" />
198 |       <item itemvalue="Python.FMClassifier" />
199 |     </list>
200 |     <recent_temporary>
201 |       <list>
202 |         <item itemvalue="Python.FMClassifier" />
203 |         <item itemvalue="Python.KMeans" />
204 |         <item itemvalue="Python.SVC" />
205 |         <item itemvalue="Python.ReliefFeatureSelection" />
206 |         <item itemvalue="Python.curves" />
207 |       </list>
208 |     </recent_temporary>
209 |   </component>
210 |   <component name="SvnConfiguration">
211 |     <configuration />
212 |   </component>
213 |   <component name="TaskManager">
214 |     <task active="true" id="Default" summary="Default task">
215 |       <changelist id="464edce4-ba5b-4e33-97d9-e0b8f86036ff" name="Default Changelist" comment="" />
216 |       <created>1539678095512</created>
217 |       <option name="number" value="Default" />
218 |       <option name="presentableId" value="Default" />
219 |       <updated>1539678095512</updated>
220 |       <workItem from="1543318257778" duration="6798000" />
221 |       <workItem from="1543416249627" duration="220000" />
222 |       <workItem from="1543506621486" duration="14000" />
223 |       <workItem from="1543749932010" duration="2202000" />
224 |       <workItem from="1543884982175" duration="42000" />
225 |       <workItem from="1551059796187" duration="2588000" />
226 |       <workItem from="1551187298230" duration="4677000" />
227 |       <workItem from="1573876851084" duration="6669000" />
228 |       <workItem from="1575034982793" duration="26999000" />
229 |       <workItem from="1575275073191" duration="20776000" />
230 |     </task>
231 |     <servers />
232 |   </component>
233 |   <component name="TestHistory">
234 |     <history-entry file="pytest_in_t_py - 2018.10.21 at 15h 38m 51s.xml">
235 |       <configuration name="pytest in t.py" configurationId="tests" />
236 |     </history-entry>
237 |     <history-entry file="pytest_in_t_py - 2018.10.21 at 15h 38m 56s.xml">
238 |       <configuration name="pytest in t.py" configurationId="tests" />
239 |     </history-entry>
240 |   </component>
241 |   <component name="TodoView">
242 |     <todo-panel id="selected-file">
243 |       <is-autoscroll-to-source value="true" />
244 |     </todo-panel>
245 |     <todo-panel id="all">
246 |       <are-packages-shown value="true" />
247 |       <is-autoscroll-to-source value="true" />
248 |     </todo-panel>
249 |   </component>
250 |   <component name="TypeScriptGeneratedFilesManager">
251 |     <option name="version" value="1" />
252 |   </component>
253 |   <component name="Vcs.Log.Tabs.Properties">
254 |     <option name="TAB_STATES">
255 |       <map>
256 |         <entry key="MAIN">
257 |           <value>
258 |             <State>
259 |               <option name="COLUMN_ORDER" />
260 |             </State>
261 |           </value>
262 |         </entry>
263 |       </map>
264 |     </option>
265 |   </component>
266 |   <component name="com.intellij.coverage.CoverageDataManagerImpl">
267 |     <SUITE FILE_PATH="coverage/tiny_ml$curves.coverage" NAME="curves Coverage Results" MODIFIED="1575360017322" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/metrices" />
268 |     <SUITE FILE_PATH="coverage/tiny_ml$NaiveBayesClassifier.coverage" NAME="NaiveBayesClassifier Coverage Results" MODIFIED="1575206364908" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/bayes" />
269 |     <SUITE FILE_PATH="coverage/tiny_ml$DecisionTreeRegressor.coverage" NAME="DecisionTreeRegressor Coverage Results" MODIFIED="1575079427010" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/tree" />
270 |     <SUITE FILE_PATH="coverage/tiny_ml$LinearRegression.coverage" NAME="LinearRegression Coverage Results" MODIFIED="1575035524043" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/linear_model" />
271 |     <SUITE FILE_PATH="coverage/tiny_ml$SGDRegressor.coverage" NAME="SGDRegressor Coverage Results" MODIFIED="1575078917172" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/linear_model" />
272 |     <SUITE FILE_PATH="coverage/tiny_ml$AdaBoostClassifier.coverage" NAME="AdaBoostClassifier Coverage Results" MODIFIED="1575035160974" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/ensemble" />
273 |     <SUITE FILE_PATH="coverage/tiny_ml$PCA.coverage" NAME="PCA Coverage Results" MODIFIED="1575101191439" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/dimension_reduction" />
274 |     <SUITE FILE_PATH="coverage/tiny_ml$compare_regresssor.coverage" NAME="compare_regresssor Coverage Results" MODIFIED="1575275638497" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/compare" />
275 |     <SUITE FILE_PATH="coverage/tiny_ml$compare_linear_model.coverage" NAME="compare_linear_model Coverage Results" MODIFIED="1575036729230" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/compare" />
276 |     <SUITE FILE_PATH="coverage/tiny_ml$LDA.coverage" NAME="LDA Coverage Results" MODIFIED="1575084759044" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/discriminant_analysis" />
277 |     <SUITE FILE_PATH="coverage/tiny_ml$LogisticRegression.coverage" NAME="LogisticRegression Coverage Results" MODIFIED="1575358832967" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/linear_model" />
278 |     <SUITE FILE_PATH="coverage/tiny_ml$FMClassifier.coverage" NAME="FMClassifier Coverage Results" MODIFIED="1575608809836" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/factorization_machine" />
279 |     <SUITE FILE_PATH="coverage/tiny_ml$GradientBoostingRegressor.coverage" NAME="GradientBoostingRegressor Coverage Results" MODIFIED="1575081606118" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/ensemble" />
280 |     <SUITE FILE_PATH="coverage/tiny_ml$KernelPCA.coverage" NAME="KernelPCA Coverage Results" MODIFIED="1575100304861" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/dimension_reduction" />
281 |     <SUITE FILE_PATH="coverage/tiny_ml$__init__.coverage" NAME="__init__ Coverage Results" MODIFIED="1573894388944" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/tree" />
282 |     <SUITE FILE_PATH="coverage/tiny_ml$ReliefFeatureSelection.coverage" NAME="ReliefFeatureSelection Coverage Results" MODIFIED="1575360242889" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/feature_selection" />
283 |     <SUITE FILE_PATH="coverage/tiny_ml$LLE.coverage" NAME="LLE Coverage Results" MODIFIED="1575100309821" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/dimension_reduction" />
284 |     <SUITE FILE_PATH="coverage/tiny_ml$AGNES.coverage" NAME="AGNES Coverage Results" MODIFIED="1575097862424" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/cluster" />
285 |     <SUITE FILE_PATH="coverage/tiny_ml$MDS.coverage" NAME="MDS Coverage Results" MODIFIED="1575100314479" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/dimension_reduction" />
286 |     <SUITE FILE_PATH="coverage/tiny_ml$XGBRegressor.coverage" NAME="XGBRegressor Coverage Results" MODIFIED="1575082973794" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/ensemble" />
287 |     <SUITE FILE_PATH="coverage/tiny_ml$PRC.coverage" NAME="PRC Coverage Results" MODIFIED="1575358773314" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/metrices" />
288 |     <SUITE FILE_PATH="coverage/tiny_ml$compare_dimension_reduction.coverage" NAME="compare_dimension_reduction Coverage Results" MODIFIED="1575103020022" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/compare" />
289 |     <SUITE FILE_PATH="coverage/tiny_ml$KMeans.coverage" NAME="KMeans Coverage Results" MODIFIED="1575516028818" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/cluster" />
290 |     <SUITE FILE_PATH="coverage/tiny_ml$Isomap.coverage" NAME="Isomap Coverage Results" MODIFIED="1575102507801" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/dimension_reduction" />
291 |     <SUITE FILE_PATH="coverage/tiny_ml$GaussianMixture.coverage" NAME="GaussianMixture Coverage Results" MODIFIED="1575099355110" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/cluster" />
292 |     <SUITE FILE_PATH="coverage/tiny_ml$DecisionTreeClassifier.coverage" NAME="DecisionTreeClassifier Coverage Results" MODIFIED="1575089818558" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/tree" />
293 |     <SUITE FILE_PATH="coverage/tiny_ml$DBSCAN.coverage" NAME="DBSCAN Coverage Results" MODIFIED="1575093709705" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/cluster" />
294 |     <SUITE FILE_PATH="coverage/tiny_ml$compare_clustering.coverage" NAME="compare_clustering Coverage Results" MODIFIED="1575099715385" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/compare" />
295 |     <SUITE FILE_PATH="coverage/tiny_ml$compare_classification.coverage" NAME="compare_classification Coverage Results" MODIFIED="1575206798884" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/compare" />
296 |     <SUITE FILE_PATH="coverage/tiny_ml$LocallyWeightedLinearRegression.coverage" NAME="LocallyWeightedLinearRegression Coverage Results" MODIFIED="1575035196844" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/linear_model" />
297 |     <SUITE FILE_PATH="coverage/tiny_ml$LVQ.coverage" NAME="LVQ Coverage Results" MODIFIED="1575098158157" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/cluster" />
298 |     <SUITE FILE_PATH="coverage/tiny_ml$RandomForestRegressor.coverage" NAME="RandomForestRegressor Coverage Results" MODIFIED="1575081334261" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/ensemble" />
299 |     <SUITE FILE_PATH="coverage/tiny_ml$GDA.coverage" NAME="GDA Coverage Results" MODIFIED="1575088099159" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/discriminant_analysis" />
300 |     <SUITE FILE_PATH="coverage/tiny_ml$SVC.coverage" NAME="SVC Coverage Results" MODIFIED="1575372965378" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/tinyml/svm" />
301 |   </component>
302 | </project>


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
  1 | # tinyml
  2 | 利用numpy实现的一些周志华《机器学习》（西瓜书）一书及 斯坦福cs229课程中的算法，宜配合西瓜书和cs229课件食用。并选择性实现了一些经典算法的简易版本，
  3 | 如 按照陈天奇的slides实现的XGBRegressor。
  4 | ## 已经实现的算法
  5 | - **线性模型**  
  6 | - [LinearRegression](/tinyml/linear_model/LinearRegression.py)    [线性回归闭式解推导](notes/linear_model/linear_reg_closed_form.pdf)  
  7 | - [LogisticRegression](/tinyml/linear_model/LogisticRegression.py)  [逻辑回归相关推导](/notes/linear_model/logistic_regression.pdf)  
  8 | - [SGDRegressor](/tinyml/linear_model/SGDRegressor.py)  
  9 | - [LocallyWeightedLinearRegression](/tinyml/linear_model/LocallyWeightedLinearRegression.py)    
 10 | - **判别分析**  
 11 | - [LDA](/tinyml/discriminant_analysis/LDA.py)  
 12 | - [GDA](/tinyml/discriminant_analysis/GDA.py)    
 13 | - **决策回归树**   
 14 | - [DecisionTreeClassifier](/tinyml/tree/DecisionTreeClassifier.py)  
 15 | - [DecisionTreeRegressor](/tinyml/tree/DecisionTreeRegressor.py)    
 16 | - **支持向量机**  
 17 | - [SVC](/tinyml/svm/SVC.py)  
 18 | - **贝叶斯**  
 19 | - [NaiveBayesClassifier](/tinyml/bayes/NaiveBayesClassifier.py)  
 20 | - **聚类算法**
 21 | - [KMeans](/tinyml/cluster/KMeans.py)  
 22 | - [LVQ](/tinyml/cluster/LVQ.py)  
 23 | - [GaussianMixture](/tinyml/cluster/GaussianMixture.py)  
 24 | - [DBSCAN](/tinyml/cluster/DBSCAN.py)  
 25 | - [AGNES](/tinyml/cluster/AGNES.py)    
 26 | - **降维算法**  
 27 | - [MDS](/tinyml/dimension_reduction/MDS.py)  
 28 | - [PCA](/tinyml/dimension_reduction/PCA.py)  
 29 | - [KernelPCA](/tinyml/dimension_reduction/KernelPCA.py)  
 30 | - [LLE](/tinyml/dimension_reduction/LLE.py)  
 31 | - [Isomap](/tinyml/dimension_reduction/Isomap.py)    
 32 | - **集成学习**  
 33 | - [AdaBoostClassifier](/tinyml/ensemble/AdaBoostClassifier.py)  
 34 | - [GradientBoostingRegressor](/tinyml/ensemble/GradientBoostingRegressor.py)  
 35 | - [RandomForestRegressor](/tinyml/ensemble/RandomForestRegressor.py)  
 36 | - [XGBRegressor](/tinyml/ensemble/XGBRegressor.py)    
 37 | - **特征选择**  
 38 | - [ReliefFeatureSelection](/tinyml/feature_selection/ReliefFeatureSelection.py)  
 39 | ## 和sklearn实现的比较
 40 | - **回归算法结果** [代码](/tinyml/compare/compare_regresssor.py)
 41 | <table>
 42 |     <tr>
 43 |         <td rowspan="2">Algorithm vs. RMSE</td>
 44 |         <td colspan="2">sklearn-boston</td>
 45 |     </tr>
 46 |     <tr>
 47 |         <td>tinyml</td>
 48 |         <td>sklearn</td>
 49 |     </tr>
 50 |     <tr>
 51 |         <td>LinearRegression</td>
 52 |         <td>27.196</td>
 53 |         <td>27.196</td>
 54 |     </tr>
 55 |     <tr>
 56 |         <td>SGDRegressor</td>
 57 |         <td>27.246</td>
 58 |         <td>27.231</td>
 59 |     </tr>
 60 |     <tr>
 61 |         <td>DecisionTreeRegressor</td>
 62 |         <td>21.887</td>
 63 |         <td>21.761</td>
 64 |     </tr>
 65 |     <tr>
 66 |         <td>RandomForestRegressor</td>
 67 |         <td>21.142</td>
 68 |         <td>21.142</td>
 69 |     </tr>
 70 |     <tr>
 71 |         <td>GradientBoostRegressor</td>
 72 |         <td>16.778</td>
 73 |         <td>16.106</td>
 74 |     </tr>
 75 |     <tr>
 76 |         <td>XGBRegressor</td>
 77 |         <td>20.149</td>
 78 |         <td>15.7</td>
 79 |     </tr>
 80 | </table>
 81 | 
 82 | - **分类算法结果** [代码](/tinyml/compare/compare_classification.py)
 83 | <table>
 84 |    <tr>
 85 |        <td rowspan="2">Algorithm vs. RMSE</td>
 86 |        <td colspan="2">sklearn-breast_cancer</td>
 87 |    </tr>
 88 |    <tr>
 89 |       <td>tinyml</td>
 90 |       <td>sklearn</td>
 91 |    </tr>
 92 |    <tr>
 93 |       <td>NaiveBayes</td>
 94 |       <td>90.64%</td>
 95 |       <td>90.64%</td>
 96 |    </tr>
 97 |    <tr>
 98 |       <td>LogisticRegression</td>
 99 |       <td>92.98%</td>
100 |       <td>92.98%</td>
101 |    </tr>
102 |    <tr>
103 |       <td>LDA</td>
104 |       <td>94.15%</td>
105 |       <td>92.40%</td>
106 |    </tr>
107 |    <tr>
108 |       <td>GDA</td>
109 |       <td>92.40%</td>
110 |       <td>93.57%</td>
111 |    </tr>
112 |    <tr>
113 |       <td>SVC</td>
114 |       <td>86.55%</td>
115 |       <td>92.98%</td>
116 |    </tr>
117 |    <tr>
118 |       <td>AdaboostClassifier</td>
119 |       <td>92.40%</td>
120 |       <td>92.40%</td>
121 |    </tr>
122 | </table>
123 | 
124 | - **聚类算法比较** [代码](/tinyml/compare/compare_clustering.py)
125 | - KMeans
126 | <div align="center">
127 | <img src="/tinyml/compare/cluster_result/tinyml_KMeans.jpg" height="300px" alt="tinyml KMeans" >
128 | <img src="/tinyml/compare/cluster_result/sklearn_KMeans.jpg" height="300px" alt="sklearn KMeans" >
129 | </div>
130 | 
131 | - DBSCAN
132 | <div align="center">
133 | <img src="/tinyml/compare/cluster_result/tinyml_DBSCAN.jpg" height="300px" alt="tinyml DBSCAN" >
134 | <img src="/tinyml/compare/cluster_result/sklearn_DBSCAN.jpg" height="300px" alt="sklearn DBSCAN" >
135 | </div>
136 | 
137 | - GMM
138 | <div align="center">
139 | <img src="/tinyml/compare/cluster_result/tinyml_GMM.jpg" height="300px" alt="tinyml GMM" >
140 | <img src="/tinyml/compare/cluster_result/sklearn_GMM.jpg" height="300px" alt="sklearn GMM" >
141 | </div>
142 | 
143 | - AGNES
144 | <div align="center">
145 | <img src="/tinyml/compare/cluster_result/tinyml_AGNES.jpg" height="300px" alt="tinyml AGNES" >
146 | <img src="/tinyml/compare/cluster_result/sklearn_AGNES.jpg" height="300px" alt="sklearn AGNES" >
147 | </div>
148 | 
149 | - **降维算法比较** [代码](/tinyml/compare/compare_dimension_reduction.py)
150 | - PCA
151 | <div align="center">
152 | <img src="/tinyml/compare/dimension_reduction_result/tinyml_PCA.jpg" height="300px" alt="tinyml PCA" >
153 | <img src="/tinyml/compare/dimension_reduction_result/sklearn_PCA.jpg" height="300px" alt="sklearn PCA" >
154 | </div>
155 | 
156 | - KernalPCA
157 | <div align="center">
158 | <img src="/tinyml/compare/dimension_reduction_result/tinyml_KernalPCA.jpg" height="300px" alt="tinyml KernalPCA" >
159 | <img src="/tinyml/compare/dimension_reduction_result/sklearn_KernalPCA.jpg" height="300px" alt="sklearn KernalPCA" >
160 | </div>
161 | 
162 | - LLE
163 | <div align="center">
164 | <img src="/tinyml/compare/dimension_reduction_result/tinyml_LLE.jpg" height="300px" alt="tinyml LLE" >
165 | <img src="/tinyml/compare/dimension_reduction_result/sklearn_LLE.jpg" height="300px" alt="sklearn LLE" >
166 | </div>
167 | 
168 | - MDS
169 | <div align="center">
170 | <img src="/tinyml/compare/dimension_reduction_result/tinyml_MDS.jpg" height="300px" alt="tinyml MDS" >
171 | <img src="/tinyml/compare/dimension_reduction_result/sklearn_MDS.jpg" height="300px" alt="sklearn MDS" >
172 | </div>
173 | 
174 | 
175 | 
176 | 
177 | 
178 | 
179 | 


--------------------------------------------------------------------------------
/notes/linear_model/linear_reg_closed_form.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/notes/linear_model/linear_reg_closed_form.pdf


--------------------------------------------------------------------------------
/notes/linear_model/logistic_regression.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/notes/linear_model/logistic_regression.pdf


--------------------------------------------------------------------------------
/requirements.txt:
--------------------------------------------------------------------------------
1 | xgboost
2 | numpy
3 | matplotlib
4 | torch
5 | scipy
6 | graphviz
7 | scikit_learn
8 | skrebate
9 | 


--------------------------------------------------------------------------------
/tinyml/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/__init__.py


--------------------------------------------------------------------------------
/tinyml/__pycache__/__init__.cpython-36.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/__pycache__/__init__.cpython-36.pyc


--------------------------------------------------------------------------------
/tinyml/__pycache__/__init__.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/__pycache__/__init__.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/bayes/NaiveBayesClassifier.py:
--------------------------------------------------------------------------------
  1 | import numpy as np
  2 | # 只考虑离散值
  3 | class NaiveBayesClassifier:
  4 |     def __init__(self,n_classes=2):
  5 |         self.n_classes=n_classes
  6 |         self.priori_P={}
  7 |         self.conditional_P={}
  8 |         self.N={}
  9 |         pass
 10 | 
 11 |     def fit(self,X,y):
 12 |         for i in range(self.n_classes):
 13 |             # 公式 7.19
 14 |             self.priori_P[i]=(len(y[y==i])+1)/(len(y)+self.n_classes)
 15 |         for col in range(X.shape[1]):
 16 |             self.N[col]=len(np.unique(X[:,col]))
 17 |             self.conditional_P[col]={}
 18 |             for row in range(X.shape[0]):
 19 |                 val=X[row,col]
 20 |                 if val not in self.conditional_P[col].keys():
 21 |                     self.conditional_P[col][val]={}
 22 |                     for i in range(self.n_classes):
 23 |                         D_xi=np.where(X[:,col]==val)
 24 |                         D_c=np.where(y==i)
 25 |                         D_cxi=len(np.intersect1d(D_xi,D_c))
 26 |                         # 公式 7.20
 27 |                         self.conditional_P[col][val][i]=(D_cxi+1)/(len(y[y==i])+self.N[col])
 28 |                 else:
 29 |                     continue
 30 | 
 31 |     def predict(self,X):
 32 |         pred_y=[]
 33 |         for i in range(len(X)):
 34 |             p=np.ones((self.n_classes,))
 35 |             for j in range(self.n_classes):
 36 |                 p[j]=self.priori_P[j]
 37 |             for col in range(X.shape[1]):
 38 |                 val=X[i,col]
 39 |                 for j in range(self.n_classes):
 40 |                     p[j]*=self.conditional_P[col][val][j]
 41 |             pred_y.append(np.argmax(p))
 42 |         return np.array(pred_y)
 43 | # 连续值
 44 | class NaiveBayesClassifierContinuous:
 45 |     def __init__(self,n_classes=2):
 46 |         self.n_classes=n_classes
 47 |         self.priori_P={}
 48 | 
 49 |     def fit(self,X,y):
 50 |         self.mus=np.zeros((self.n_classes,X.shape[1]))
 51 |         self.sigmas=np.zeros((self.n_classes,X.shape[1]))
 52 | 
 53 |         for c in range(self.n_classes):
 54 |             # 公式 7.19
 55 |             self.priori_P[c]=(len(y[y==c]))/(len(y))
 56 |             X_c=X[np.where(y==c)]
 57 | 
 58 |             self.mus[c]=np.mean(X_c,axis=0)
 59 |             self.sigmas[c]=np.std(X_c,axis=0)
 60 | 
 61 |     def predict(self,X):
 62 |         pred_y=[]
 63 |         for i in range(len(X)):
 64 |             p=np.ones((self.n_classes,))
 65 |             for c in range(self.n_classes):
 66 |                 p[c]=self.priori_P[c]
 67 |                 for col in range(X.shape[1]):
 68 |                     x=X[i,col]
 69 |                     p[c]*=1./(np.sqrt(2*np.pi)*self.sigmas[c,col])*np.exp(-(x-self.mus[c,col])**2/(2*self.sigmas[c,col]**2))
 70 |             pred_y.append(np.argmax(p))
 71 |         return np.array(pred_y)
 72 | 
 73 | if __name__=='__main__':
 74 |     X = np.array([[0, 0, 0, 0, 0, 0], [1, 0, 1, 0, 0, 0],
 75 |                                 [1, 0, 0, 0, 0, 0], [0, 0, 1, 0, 0, 0],
 76 |                                 [2, 0, 0, 0, 0, 0], [0, 1, 0, 0, 1, 1],
 77 |                                 [1, 1, 0, 1, 1, 1], [1, 1, 0, 0, 1, 0],
 78 |                                 [1, 1, 1, 1, 1, 0], [0, 2, 2, 0, 2, 1],
 79 |                                 [2, 2, 2, 2, 2, 0], [2, 0, 0, 2, 2, 1],
 80 |                                 [0, 1, 0, 1, 0, 0], [2, 1, 1, 1, 0, 0],
 81 |                                 [1, 1, 0, 0, 1, 1], [2, 0, 0, 2, 2, 0],
 82 |                                 [0, 0, 1, 1, 1, 0]])
 83 |     y = np.array([1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0])
 84 | 
 85 |     X_test=np.array([[0, 0, 1, 0, 0, 0], [1, 0, 1, 0, 0, 0],
 86 |                     [1, 1, 0, 1, 1, 0], [1, 0, 1, 1, 1, 0],
 87 |                      [1, 1, 0, 0, 1, 1], [2, 0, 0, 2, 2, 0],
 88 |                      [0, 0, 1, 1, 1, 0],
 89 |                      [2, 0, 0, 2, 2, 0],
 90 |                      [0, 0, 1, 1, 1, 0]
 91 |                      ])
 92 | 
 93 |     naive_bayes=NaiveBayesClassifier(n_classes=2)
 94 |     naive_bayes.fit(X,y)
 95 |     print('self.PrirP:',naive_bayes.priori_P)
 96 |     print('self.CondiP:',naive_bayes.conditional_P)
 97 |     pred_y=naive_bayes.predict(X_test)
 98 |     print('pred_y:',pred_y)
 99 | 
100 | 
101 | 


--------------------------------------------------------------------------------
/tinyml/bayes/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/bayes/__init__.py


--------------------------------------------------------------------------------
/tinyml/bayes/__pycache__/NaiveBayesClassifier.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/bayes/__pycache__/NaiveBayesClassifier.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/bayes/__pycache__/__init__.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/bayes/__pycache__/__init__.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/cluster/AGNES.py:
--------------------------------------------------------------------------------
  1 | import numpy as np
  2 | import matplotlib.pyplot as plt
  3 | 
  4 | class AGNES:
  5 |     def __init__(self,k=3,dist_type='AVG'):
  6 |         self.k=k
  7 |         self.labels_=None
  8 |         self.C={}
  9 |         self.dist_func=None
 10 |         if dist_type=='MIN':
 11 |             self.dist_func=self.mindist
 12 |         elif dist_type=='MAX':
 13 |             self.dist_func=self.maxdist
 14 |         else:
 15 |             self.dist_func=self.avgdist
 16 | 
 17 |     # p215 图9.11 AGNES算法
 18 |     def fit(self,X):
 19 |         for j in range(X.shape[0]):
 20 |             self.C[j]=set()
 21 |             self.C[j].add(j)
 22 |         M=1e10*np.ones((X.shape[0],X.shape[0]),dtype=np.float32)
 23 |         for i in range(X.shape[0]):
 24 |             for j in range(i+1,X.shape[0]):
 25 |                 M[i,j]=self.dist_func(X,self.C[i],self.C[j])
 26 |                 M[j,i]=M[i,j]
 27 |         q=X.shape[0]
 28 |         while q>self.k:
 29 |             index=np.argmin(M)
 30 |             i_=index//M.shape[1]
 31 |             j_=index%M.shape[1]
 32 |             self.C[i_]=set(self.C[i_].union(self.C[j_]))
 33 |             #print(self.C[i_])
 34 |             for j in range(j_+1,q):
 35 |                 self.C[j-1]=set(self.C[j])
 36 |             del self.C[q-1]
 37 |             M=np.delete(M,[j_],axis=0)
 38 |             M=np.delete(M,[j_],axis=1)
 39 |             for j in range(q-1):
 40 |                 if i_!=j:
 41 |                     M[i_,j]=self.dist_func(X,self.C[i_],self.C[j])
 42 |                     M[j,i_]=M[i_,j]
 43 |             q-=1
 44 |         self.labels_=np.zeros((X.shape[0],),dtype=np.int32)
 45 |         for i in range(self.k):
 46 |             self.labels_[list(self.C[i])] = i
 47 | 
 48 |     @classmethod
 49 |     def mindist(cls,X,Ci,Cj):
 50 |         Xi=X[list(Ci)]
 51 |         Xj=X[list(Cj)]
 52 |         min=1e10
 53 |         for i in range(len(Xi)):
 54 |             d=np.sqrt(np.sum((Xi[i]-Xj)**2,axis=1))
 55 |             dmin=np.min(d)
 56 |             if dmin<min:
 57 |                 min=dmin
 58 |         return min
 59 | 
 60 |     @classmethod
 61 |     def maxdist(cls,X,Ci,Cj):
 62 |         Xi=X[list(Ci)]
 63 |         Xj=X[list(Cj)]
 64 |         max=0
 65 |         for i in range(len(Xi)):
 66 |             d=np.sqrt(np.sum((Xi[i]-Xj)**2,axis=1))
 67 |             dmax=np.max(d)
 68 |             if dmax>max:
 69 |                 max=dmax
 70 |         return max
 71 | 
 72 |     @classmethod
 73 |     def avgdist(cls,X,Ci,Cj):
 74 |         Xi=X[list(Ci)]
 75 |         Xj=X[list(Cj)]
 76 |         sum=0.
 77 |         for i in range(len(Xi)):
 78 |             d=np.sqrt(np.sum((Xi[i]-Xj)**2,axis=1))
 79 |             sum+=np.sum(d)
 80 |         dist=sum/(len(Ci)*len(Cj))
 81 |         return dist
 82 | 
 83 | 
 84 | 
 85 | 
 86 | if __name__=='__main__':
 87 |     X=np.array([[0.697,0.460],[0.774,0.376],[0.634,0.264],[0.608,0.318],[0.556,0.215],
 88 |                 [0.403,0.237],[0.481,0.149],[0.437,0.211],[0.666,0.091],[0.243,0.267],
 89 |                 [0.245,0.057],[0.343,0.099],[0.639,0.161],[0.657,0.198],[0.360,0.370],
 90 |                 [0.593,0.042],[0.719,0.103],[0.359,0.188],[0.339,0.241],[0.282,0.257],
 91 |                 [0.748,0.232],[0.714,0.346],[0.483,0.312],[0.478,0.437],[0.525,0.369],
 92 |                 [0.751,0.489],[0.532,0.472],[0.473,0.376],[0.725,0.445],[0.446,0.459]])
 93 | 
 94 |     X_test=X
 95 |     agnes=AGNES()
 96 |     agnes.fit(X)
 97 |     print('C:', agnes.C)
 98 |     print(agnes.labels_)
 99 |     plt.figure(12)
100 |     plt.subplot(121)
101 |     plt.scatter(X[:, 0], X[:, 1], c=agnes.labels_)
102 |     plt.title('tinyml')
103 | 
104 |     from sklearn.cluster.hierarchical import AgglomerativeClustering
105 |     sklearn_agnes=AgglomerativeClustering(n_clusters=7,affinity='l2',linkage='average')
106 |     sklearn_agnes.fit(X)
107 |     print(sklearn_agnes.labels_)
108 |     plt.subplot(122)
109 |     plt.scatter(X[:,0],X[:,1],c=sklearn_agnes.labels_)
110 |     plt.title('sklearn')
111 |     plt.show()
112 | 
113 | 
114 | 
115 | 
116 | 
117 | 


--------------------------------------------------------------------------------
/tinyml/cluster/DBSCAN.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | import matplotlib.pyplot as plt
 3 | import random
 4 | from queue import Queue
 5 | random.seed(1)
 6 | 
 7 | class DBSCAN:
 8 |     def __init__(self,epsilon=0.11,min_pts=5):
 9 |         self.epsilon=epsilon
10 |         self.min_pts=min_pts
11 |         self.labels_=None
12 |         self.C=None
13 |         self.Omega=set()
14 |         self.N_epsilon={}
15 | 
16 |     # p213 图9.9 DBSCAN算法
17 |     def fit(self,X):
18 |         self.C={}
19 |         for j in range(X.shape[0]):
20 |             dist=np.sqrt(np.sum((X-X[j])**2,axis=1))
21 |             self.N_epsilon[j]=np.where(dist<=self.epsilon)[0]
22 |             if len(self.N_epsilon[j])>=self.min_pts:
23 |                 self.Omega.add(j)
24 |         self.k=0
25 |         Gamma=set(range(X.shape[0]))
26 |         while len(self.Omega)>0:
27 |             Gamma_old=set(Gamma)
28 |             o=random.sample(list(self.Omega),1)[0]
29 |             Q=Queue()
30 |             Q.put(o)
31 |             Gamma.remove(o)
32 |             while not Q.empty():
33 |                 q=Q.get()
34 |                 if len(self.N_epsilon[q])>=self.min_pts:
35 |                     Delta=set(self.N_epsilon[q]).intersection(set(Gamma))
36 |                     for delta in Delta:
37 |                         Q.put(delta)
38 |                         Gamma.remove(delta)
39 |             self.C[self.k]=Gamma_old.difference(Gamma)
40 |             self.Omega=self.Omega.difference(self.C[self.k])
41 |             self.k += 1
42 |         self.labels_=np.zeros((X.shape[0],),dtype=np.int32)
43 |         for i in range(self.k):
44 |             self.labels_[list(self.C[i])]=i
45 | 
46 | 
47 | if __name__=='__main__':
48 |     X=np.array([[0.697,0.460],[0.774,0.376],[0.634,0.264],[0.608,0.318],[0.556,0.215],
49 |                 [0.403,0.237],[0.481,0.149],[0.437,0.211],[0.666,0.091],[0.243,0.267],
50 |                 [0.245,0.057],[0.343,0.099],[0.639,0.161],[0.657,0.198],[0.360,0.370],
51 |                 [0.593,0.042],[0.719,0.103],[0.359,0.188],[0.339,0.241],[0.282,0.257],
52 |                 [0.748,0.232],[0.714,0.346],[0.483,0.312],[0.478,0.437],[0.525,0.369],
53 |                 [0.751,0.489],[0.532,0.472],[0.473,0.376],[0.725,0.445],[0.446,0.459]])
54 | 
55 |     dbscan=DBSCAN()
56 |     dbscan.fit(X)
57 |     print('C:',dbscan.C)
58 |     print(dbscan.labels_)
59 |     plt.figure(12)
60 |     plt.subplot(121)
61 |     plt.scatter(X[:,0],X[:,1],c=dbscan.labels_)
62 |     plt.title('tinyml')
63 | 
64 |     import sklearn.cluster as cluster
65 |     sklearn_DBSCAN=cluster.DBSCAN(eps=0.11,min_samples=5,metric='l2')
66 |     sklearn_DBSCAN.fit(X)
67 |     print(sklearn_DBSCAN.labels_)
68 |     plt.subplot(122)
69 |     plt.scatter(X[:,0],X[:,1],c=sklearn_DBSCAN.labels_)
70 |     plt.title('sklearn')
71 |     plt.show()
72 | 
73 | 


--------------------------------------------------------------------------------
/tinyml/cluster/GaussianMixture.py:
--------------------------------------------------------------------------------
  1 | import numpy as np
  2 | import matplotlib.pyplot as plt
  3 | 
  4 | class GaussianMixture:
  5 |     def __init__(self,k=3,max_iter=50):
  6 |         self.k=k
  7 |         self.max_iter=max_iter
  8 |         self.labels_=None
  9 |         self.C=None
 10 |         self.alpha=None
 11 |         self.mu=None
 12 |         self.cov=None
 13 |         self.gamma=None
 14 |         pass
 15 | 
 16 |     # p210 图9.6 高斯混合聚类算法
 17 |     def fit(self,X):
 18 |         # p210初始化方法
 19 |         self.alpha=np.zeros((self.k,))
 20 |         for i in range(self.k):
 21 |             self.alpha[i]=1./self.k
 22 |         mu_indices=[5,21,26]
 23 |         self.mu=X[mu_indices]
 24 |         self.cov=np.array([[[0.1,0.],[0.0,0.1]],[[0.1,0.],[0.,0.1]],[[0.1,0.],[0.,0.1]]])
 25 | 
 26 |         self.gamma=np.zeros((X.shape[0],self.k))
 27 |         for _ in range(self.max_iter):
 28 |             for j in range(X.shape[0]):
 29 |                 alpha_p=np.zeros((self.k,))
 30 |                 sum=0.
 31 |                 for i in range(self.k):
 32 |                     alpha_p[i]=self.alpha[i]*self._p(X[j],self.mu[i],self.cov[i])
 33 |                     sum+=alpha_p[i]
 34 |                 self.gamma[j,:]=alpha_p/sum
 35 | 
 36 |             for i in range(self.k):
 37 |                 sum_gamma_i=np.sum(self.gamma[:,i])
 38 |                 self.mu[i]=X.T.dot(self.gamma[:,i])/sum_gamma_i
 39 |                 numerator=0.
 40 |                 for j in range(X.shape[0]):
 41 |                     numerator+=(self.gamma[j,i]*((X[j]-self.mu[i]).reshape(-1,1).dot((X[j]-self.mu[i]).reshape(1,-1))))
 42 |                 self.cov[i]=numerator/sum_gamma_i
 43 |                 self.alpha[i]=sum_gamma_i/X.shape[0]
 44 |         self.labels_=np.argmax(self.gamma,axis=1)
 45 |         self.C={}
 46 |         for i in range(self.k):
 47 |             self.C[i]=[]
 48 |         for j in range(len(self.labels_)):
 49 |             self.C[self.labels_[j]].append(j)
 50 | 
 51 |     def predict(self,X):
 52 |         gamma = np.zeros((X.shape[0], self.k))
 53 |         for j in range(X.shape[0]):
 54 |             alpha_p = np.zeros((self.k,))
 55 |             sum = 0.
 56 |             for i in range(self.k):
 57 |                 alpha_p[i] = self.alpha[i] * self._p(X[j], self.mu[i], self.cov[i])
 58 |                 sum += alpha_p[i]
 59 |             gamma[j, :] = alpha_p / sum
 60 |         return np.argmax(gamma,axis=1)
 61 | 
 62 | 
 63 |     # 公式 9.28
 64 |     @classmethod
 65 |     def _p(cls,x,mu,cov):
 66 |         exp_coef=-0.5*((x-mu).T.dot(np.linalg.inv(cov)).dot(x-mu))
 67 |         p=np.exp(exp_coef)/(np.power(2*np.pi,mu.shape[0]/2)*np.sqrt(np.linalg.det(cov)))
 68 |         return p
 69 | 
 70 | if __name__=='__main__':
 71 |     X=np.array([[0.697,0.460],[0.774,0.376],[0.634,0.264],[0.608,0.318],[0.556,0.215],
 72 |                 [0.403,0.237],[0.481,0.149],[0.437,0.211],[0.666,0.091],[0.243,0.267],
 73 |                 [0.245,0.057],[0.343,0.099],[0.639,0.161],[0.657,0.198],[0.360,0.370],
 74 |                 [0.593,0.042],[0.719,0.103],[0.359,0.188],[0.339,0.241],[0.282,0.257],
 75 |                 [0.748,0.232],[0.714,0.346],[0.483,0.312],[0.478,0.437],[0.525,0.369],
 76 |                 [0.751,0.489],[0.532,0.472],[0.473,0.376],[0.725,0.445],[0.446,0.459]])
 77 | 
 78 |     X_test=X
 79 |     gmm=GaussianMixture(k=3,max_iter=50)
 80 |     gmm.fit(X)
 81 |     print(gmm.C)
 82 |     print(gmm.labels_)
 83 |     print(gmm.predict(X_test))
 84 |     plt.scatter(X[:, 0], X[:, 1], c=gmm.labels_)
 85 |     plt.scatter(gmm.mu[:, 0], gmm.mu[:, 1],c=range(gmm.k), marker='+')
 86 |     plt.title('tinyml')
 87 |     plt.show()
 88 | 
 89 | 
 90 |     from sklearn.mixture import GaussianMixture
 91 | 
 92 |     sklearn_gmm = GaussianMixture(n_components=3, covariance_type='full',
 93 |                                   max_iter=50).fit(X)
 94 |     labels=sklearn_gmm.predict(X)
 95 |     print(labels)
 96 |     plt.scatter(X[:,0],X[:,1],c=labels)
 97 |     plt.title('sklearn')
 98 |     plt.show()
 99 | 
100 | 
101 | 
102 | 
103 | 
104 | 


--------------------------------------------------------------------------------
/tinyml/cluster/KMeans.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | import random
 3 | import matplotlib.pyplot as plt
 4 | random.seed(1)
 5 | 
 6 | class KMeans:
 7 |     def __init__(self,k=2):
 8 |         self.labels_=None
 9 |         self.mu=None
10 |         self.k=k
11 | 
12 |     def init(self,X,method='kmeans++',random_state=False):
13 |         if method=='kmeans++':
14 |             if random_state is False:
15 |                 np.random.seed(0)
16 |             mus=[X[np.random.randint(0,len(X))]]
17 |             while len(mus)<self.k:
18 |                 Dxs=[]
19 |                 array_mus=np.array(mus)
20 |                 for x in X:
21 |                     Dx=np.sum(np.sqrt(np.sum((x-array_mus)**2,axis=1)))
22 |                     Dxs.append(Dx)
23 |                 Dxs=np.array(Dxs)
24 |                 index=np.argmax(Dxs)
25 |                 mus.append(X[index])
26 |             self.mu=np.array(mus)
27 | 
28 | 
29 |         elif method=='default':
30 |             self.mu = X[random.sample(range(X.shape[0]), self.k)]
31 | 
32 |         else:
33 |             raise NotImplementedError
34 | 
35 |     # p203图9.2算法流程
36 |     def fit(self,X):
37 |         self.init(X,'kmeans++')
38 |         while True:
39 |             C={}
40 |             for i in range(self.k):
41 |                 C[i]=[]
42 |             for j in range(X.shape[0]):
43 |                 d=np.sqrt(np.sum((X[j]-self.mu)**2,axis=1))
44 |                 lambda_j=np.argmin(d)
45 |                 C[lambda_j].append(j)
46 |             mu_=np.zeros((self.k,X.shape[1]))
47 |             for i in range(self.k):
48 |                 mu_[i]=np.mean(X[C[i]],axis=0)
49 |             if np.sum((mu_-self.mu)**2)<1e-8:
50 |                 self.C=C
51 |                 break
52 |             else:
53 |                 self.mu=mu_
54 |         self.labels_=np.zeros((X.shape[0],),dtype=np.int32)
55 |         for i in range(self.k):
56 |             self.labels_[C[i]]=i
57 | 
58 |     def predict(self,X):
59 |         preds=[]
60 |         for j in range(X.shape[0]):
61 |             d=np.zeros((self.k,))
62 |             for i in range(self.k):
63 |                 d[i]=np.sqrt(np.sum((X[j]-self.mu[i])**2))
64 |             preds.append(np.argmin(d))
65 |         return np.array(preds)
66 | 
67 | if __name__=='__main__':
68 |     # p202 西瓜数据集4.0
69 |     X=np.array([[0.697,0.460],[0.774,0.376],[0.634,0.264],[0.608,0.318],[0.556,0.215],
70 |                 [0.403,0.237],[0.481,0.149],[0.437,0.211],[0.666,0.091],[0.243,0.267],
71 |                 [0.245,0.057],[0.343,0.099],[0.639,0.161],[0.657,0.198],[0.360,0.370],
72 |                 [0.593,0.042],[0.719,0.103],[0.359,0.188],[0.339,0.241],[0.282,0.257],
73 |                 [0.748,0.232],[0.714,0.346],[0.483,0.312],[0.478,0.437],[0.525,0.369],
74 |                 [0.751,0.489],[0.532,0.472],[0.473,0.376],[0.725,0.445],[0.446,0.459]])
75 | 
76 |     kmeans=KMeans(k=3)
77 |     kmeans.fit(X)
78 |     print(kmeans.C)
79 |     print(kmeans.labels_)
80 |     print(kmeans.predict(X))
81 |     plt.figure(12)
82 |     plt.subplot(121)
83 |     plt.scatter(X[:,0],X[:,1],c=kmeans.labels_)
84 |     plt.scatter(kmeans.mu[:,0],kmeans.mu[:,1],c=range(kmeans.k),marker='+')
85 |     plt.title('tinyml')
86 | 
87 |     from sklearn.cluster import KMeans
88 |     sklearn_kmeans=KMeans(n_clusters=3)
89 |     sklearn_kmeans.fit(X)
90 |     print(sklearn_kmeans.labels_)
91 |     plt.subplot(122)
92 |     plt.scatter(X[:,0],X[:,1],c=sklearn_kmeans.labels_)
93 |     plt.title('sklearn')
94 |     plt.show()
95 | 
96 | 
97 | 
98 | 


--------------------------------------------------------------------------------
/tinyml/cluster/LVQ.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | import random
 3 | import matplotlib.pyplot as plt
 4 | random.seed(10)
 5 | class LVQ:
 6 |     def __init__(self,t,eta=0.1,max_iter=400):
 7 |         # t[i]表示第i个原型向量对应的类别
 8 |         self.t=t
 9 |         # p[i]表示第i个原型向量的值
10 |         self.p=None
11 |         self.c=len(np.unique(t))
12 |         self.q=len(t)
13 |         self.eta=eta
14 |         self.max_iter=max_iter
15 |         self.C=None
16 |         self.labels_=None
17 | 
18 |     # p205 图9.4 学习向量量化算法
19 |     def fit(self,X,y):
20 |         C={}
21 |         for i in range(self.q):
22 |             C[i]=[]
23 |         self.p=np.zeros((len(self.t),X.shape[1]))
24 | 
25 |         # 初始化原型向量 从p类别标记对应的X中随机选择1个作为初始原型向量
26 |         for i in range(self.q):
27 |             candidate_indices=np.where(y==self.t[i])[0]
28 |             target_indice=random.sample(list(candidate_indices),1)
29 |             self.p[i]=X[target_indice]
30 |         """
31 |         # 书上p的选取
32 |         indices=[4,11,17,22,28]
33 |         self.p=X[indices]
34 |         """
35 |         for _ in range(self.max_iter):
36 |             j=random.sample(list(range(len(y))),1)
37 |             d=np.sqrt(np.sum((X[j]-self.p)**2,axis=1))
38 |             i_=np.argmin(d)
39 |             old_p=self.p
40 |             if y[j]==t[i_]:
41 |                 self.p[i_]=self.p[i_]+self.eta*(X[j]-self.p[i_])
42 |             else:
43 |                 self.p[i_]=self.p[i_]-self.eta*(X[j]-self.p[i_])
44 | 
45 |         for j in range(X.shape[0]):
46 |             d=np.sqrt(np.sum((X[j]-self.p)**2,axis=1))
47 |             i_=np.argmin(d)
48 |             C[i_].append(j)
49 |         self.C=C
50 |         self.labels_ = np.zeros((X.shape[0],), dtype=np.int32)
51 |         for i in range(self.q):
52 |             self.labels_[C[i]] = i
53 | 
54 | 
55 |     def predict(self,X):
56 |         preds_y=[]
57 |         for j in range(X.shape[0]):
58 |             d=np.sqrt(np.sum((X[j]-self.p)**2,axis=1))
59 |             i_=np.argmin(d)
60 |             preds_y.append(self.t[i_])
61 |         return np.array(preds_y)
62 | 
63 | 
64 | if __name__=='__main__':
65 |     X=np.array([[0.697,0.460],[0.774,0.376],[0.634,0.264],[0.608,0.318],[0.556,0.215],
66 |                 [0.403,0.237],[0.481,0.149],[0.437,0.211],[0.666,0.091],[0.243,0.267],
67 |                 [0.245,0.057],[0.343,0.099],[0.639,0.161],[0.657,0.198],[0.360,0.370],
68 |                 [0.593,0.042],[0.719,0.103],[0.359,0.188],[0.339,0.241],[0.282,0.257],
69 |                 [0.748,0.232],[0.714,0.346],[0.483,0.312],[0.478,0.437],[0.525,0.369],
70 |                 [0.751,0.489],[0.532,0.472],[0.473,0.376],[0.725,0.445],[0.446,0.459]])
71 |     y=np.zeros((X.shape[0],),dtype=np.int32)
72 |     y[range(9,21)]=1
73 |     t=np.array([0,1,1,0,0],dtype=np.int32)
74 | 
75 |     print(y)
76 |     X_test=X
77 |     lvq=LVQ(t)
78 |     lvq.fit(X,y)
79 |     print(lvq.C)
80 |     print(lvq.labels_)
81 |     print(lvq.predict(X))
82 |     plt.scatter(X[:, 0], X[:, 1], c=lvq.labels_)
83 |     plt.scatter(lvq.p[:, 0], lvq.p[:, 1], c=range(len(lvq.p)), marker='+')
84 |     plt.title('tinyml')
85 |     plt.show()
86 | 
87 | 


--------------------------------------------------------------------------------
/tinyml/cluster/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/cluster/__init__.py


--------------------------------------------------------------------------------
/tinyml/cluster/__pycache__/AGNES.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/cluster/__pycache__/AGNES.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/cluster/__pycache__/DBSCAN.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/cluster/__pycache__/DBSCAN.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/cluster/__pycache__/GaussianMixture.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/cluster/__pycache__/GaussianMixture.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/cluster/__pycache__/KMeans.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/cluster/__pycache__/KMeans.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/cluster/__pycache__/LVQ.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/cluster/__pycache__/LVQ.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/cluster/__pycache__/__init__.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/cluster/__pycache__/__init__.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/compare/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/__init__.py


--------------------------------------------------------------------------------
/tinyml/compare/cluster_result/sklearn_AGNES.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/cluster_result/sklearn_AGNES.jpg


--------------------------------------------------------------------------------
/tinyml/compare/cluster_result/sklearn_DBSCAN.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/cluster_result/sklearn_DBSCAN.jpg


--------------------------------------------------------------------------------
/tinyml/compare/cluster_result/sklearn_GMM.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/cluster_result/sklearn_GMM.jpg


--------------------------------------------------------------------------------
/tinyml/compare/cluster_result/sklearn_KMeans.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/cluster_result/sklearn_KMeans.jpg


--------------------------------------------------------------------------------
/tinyml/compare/cluster_result/tinyml_AGNES.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/cluster_result/tinyml_AGNES.jpg


--------------------------------------------------------------------------------
/tinyml/compare/cluster_result/tinyml_DBSCAN.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/cluster_result/tinyml_DBSCAN.jpg


--------------------------------------------------------------------------------
/tinyml/compare/cluster_result/tinyml_GMM.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/cluster_result/tinyml_GMM.jpg


--------------------------------------------------------------------------------
/tinyml/compare/cluster_result/tinyml_KMeans.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/cluster_result/tinyml_KMeans.jpg


--------------------------------------------------------------------------------
/tinyml/compare/compare_classification.py:
--------------------------------------------------------------------------------
 1 | from sklearn.metrics import mean_squared_error
 2 | import numpy as np
 3 | 
 4 | def train_and_eval(data,classifier):
 5 |     train_X, train_y, test_X, test_y=data
 6 |     classifier.fit(train_X,train_y)
 7 |     preds_y=classifier.predict(test_X)
 8 |     accuracy=len(preds_y[preds_y==test_y])/len(preds_y)
 9 |     return accuracy
10 | 
11 | from sklearn.datasets import load_iris,load_breast_cancer,load_wine
12 | from sklearn.preprocessing import StandardScaler,MinMaxScaler
13 | from sklearn.model_selection import train_test_split
14 | import sklearn.tree as tree
15 | 
16 | from tinyml.bayes.NaiveBayesClassifier import NaiveBayesClassifierContinuous as tinymlNaiveBayesClassifier
17 | from tinyml.discriminant_analysis.LDA import LDA as tinymlLDA
18 | from tinyml.discriminant_analysis.GDA import GDA as tinymlGDA
19 | from tinyml.ensemble.AdaBoostClassifier import AdaBoostClassifier as tinymlAdaboostClassifier
20 | from tinyml.linear_model.LogisticRegression import LogisticRegression as tinymlLogisticRegression
21 | from tinyml.svm.SVC import SVC as tinymlSVC
22 | from tinyml.tree.DecisionTreeClassifier import DecisionTreeClassifier as tinymlDecsionTreeClassifier
23 | 
24 | from sklearn.ensemble import AdaBoostClassifier as sklearnAdaboostClassifier
25 | from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as sklearnLDA
26 | from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis as sklearnGDA
27 | from sklearn.linear_model import LogisticRegression as sklearnLogisticRegression
28 | from sklearn.svm import LinearSVC,SVC
29 | from sklearn.naive_bayes import GaussianNB as sklearnNaiveBayes
30 | from sklearn.tree import DecisionTreeClassifier as sklearnDecisionTreeClassifier
31 | 
32 | if __name__=='__main__':
33 | 
34 | 
35 |     X, y=load_breast_cancer(return_X_y=True)
36 |     print(X[:,7:])
37 |     X=X[:,:7]
38 |     X = MinMaxScaler().fit_transform(X)
39 | 
40 |     #y=(2*y-1).astype(np.int)
41 |     n_classes=2
42 | 
43 |     train_X, test_X, train_y, test_y=train_test_split(X, y, test_size=0.3,random_state=0)
44 | 
45 |     data= train_X, train_y, test_X, test_y
46 | 
47 |     acc_tinyml_naivebayes=train_and_eval(data,tinymlNaiveBayesClassifier(n_classes=n_classes))
48 |     print('tinyml accuracy NaiveBayes:',acc_tinyml_naivebayes)
49 |     acc_sklearn_naivebayes=train_and_eval(data,sklearnNaiveBayes())
50 |     print('sklearn accuracy NaiveBayes:',acc_sklearn_naivebayes)
51 | 
52 | 
53 | 
54 |     acc_tinyml_adaboost_classifier=train_and_eval((train_X,(train_y*2-1).astype(np.int),
55 |                                                    test_X,(test_y*2-1).astype(np.int)),tinymlAdaboostClassifier(n_estimators=100,base_estimator=tree.DecisionTreeClassifier(max_depth=1,random_state=False),method='re-weighting'))
56 |     print('tinyml accuracy AdaboostClassifier:',acc_tinyml_adaboost_classifier)
57 |     acc_sklearn_adaboost_classifier=train_and_eval(data,sklearnAdaboostClassifier(n_estimators=100, random_state=False, algorithm='SAMME',
58 |                                                     base_estimator=tree.DecisionTreeClassifier(max_depth=1,random_state=False)))
59 |     print('sklearn accuracy AdaboostClassifier:',acc_sklearn_adaboost_classifier)
60 | 
61 |     acc_tinyml_lda_classifier=train_and_eval(data,tinymlLDA())
62 |     print('tinyml accuracy LDA:',acc_tinyml_lda_classifier)
63 |     acc_sklearn_lda_classifier=train_and_eval(data,sklearnLDA())
64 |     print('sklearn accuracy LDA:',acc_sklearn_lda_classifier)
65 | 
66 |     acc_tinyml_gda_classifier=train_and_eval(data,tinymlGDA())
67 |     print('tinyml accuracy GDA:',acc_tinyml_gda_classifier)
68 |     acc_sklearn_gda_classifier=train_and_eval(data,sklearnGDA())
69 |     print('sklearn accuracy QDA:',acc_sklearn_gda_classifier)
70 | 
71 |     acc_tinyml_logistic=train_and_eval(data,tinymlLogisticRegression(max_iter=100,use_matrix=False))
72 |     print('tinyml accuracy Logistic:',acc_tinyml_logistic)
73 |     acc_sklearn_logistic=train_and_eval(data,sklearnLogisticRegression(max_iter=100,solver='newton-cg'))
74 |     print('sklearn acccuracy Logistic:',acc_sklearn_logistic)
75 | 
76 |     tinyml_svc=tinymlSVC(max_iter=100,kernel='rbf',C=1)
77 |     tinyml_svc.fit(train_X, (train_y*2-1).astype(int))
78 |     preds_y = np.sign(tinyml_svc.predict(test_X))
79 |     acc_tinyml_SVC = len(preds_y[preds_y == (2*test_y-1).astype(np.int)]) / len(preds_y)
80 |     print('tinyml accuracy SVC:',acc_tinyml_SVC)
81 | 
82 |     acc_sklearn_SVC=train_and_eval(data,SVC(kernel='rbf'))
83 |     print('sklearn accuracy SVC:',acc_sklearn_SVC)
84 | 
85 |     """
86 |     acc_tinyml_decision_tree_classifier=train_and_eval(data,tinymlDecsionTreeClassifier(tree_type='ID3',k_classes=2))
87 |     print('tinyml accuracy decision tree:',acc_tinyml_decision_tree_classifier)
88 |     acc_sklearn_decision_tree_classifier=train_and_eval(data,sklearnDecisionTreeClassifier())
89 |     print('sklearn accuracy decison tree:',acc_sklearn_decision_tree_classifier) 
90 |     """
91 | 


--------------------------------------------------------------------------------
/tinyml/compare/compare_clustering.py:
--------------------------------------------------------------------------------
 1 | from tinyml.cluster.KMeans import KMeans as tinymlKMeans
 2 | from tinyml.cluster.AGNES import AGNES as tinymlAGNES
 3 | from tinyml.cluster.DBSCAN import DBSCAN as tinymlDBSCAN
 4 | from tinyml.cluster.GaussianMixture import GaussianMixture as tinymlGaussianMixture
 5 | from tinyml.cluster.LVQ import LVQ as tinymlLVQ
 6 | 
 7 | from sklearn.cluster.hierarchical import AgglomerativeClustering as sklearnAGNES
 8 | from sklearn.cluster import DBSCAN as sklearnDBSCAN
 9 | from sklearn.cluster import KMeans as sklearnKMeans
10 | from sklearn.mixture import GaussianMixture as sklearnGaussianMixture
11 | 
12 | import numpy as np
13 | import matplotlib.pyplot as plt
14 | if __name__=='__main__':
15 |     # p202 西瓜数据集4.0
16 |     X = np.array([[0.697, 0.460], [0.774, 0.376], [0.634, 0.264], [0.608, 0.318], [0.556, 0.215],
17 |                   [0.403, 0.237], [0.481, 0.149], [0.437, 0.211], [0.666, 0.091], [0.243, 0.267],
18 |                   [0.245, 0.057], [0.343, 0.099], [0.639, 0.161], [0.657, 0.198], [0.360, 0.370],
19 |                   [0.593, 0.042], [0.719, 0.103], [0.359, 0.188], [0.339, 0.241], [0.282, 0.257],
20 |                   [0.748, 0.232], [0.714, 0.346], [0.483, 0.312], [0.478, 0.437], [0.525, 0.369],
21 |                   [0.751, 0.489], [0.532, 0.472], [0.473, 0.376], [0.725, 0.445], [0.446, 0.459]])
22 | 
23 |     # KMeans
24 |     tinyml_kmeans = tinymlKMeans(k=3)
25 |     tinyml_kmeans.fit(X)
26 |     plt.scatter(X[:, 0], X[:, 1], c=tinyml_kmeans.labels_)
27 |     plt.scatter(tinyml_kmeans.mu[:, 0], tinyml_kmeans.mu[:, 1], c=range(tinyml_kmeans.k), marker='+')
28 |     plt.title('tinyml KMeans')
29 |     plt.savefig('./cluster_result/tinyml_KMeans.jpg')
30 |     plt.show()
31 | 
32 |     sklearn_kmeans = sklearnKMeans(n_clusters=3)
33 |     sklearn_kmeans.fit(X)
34 |     plt.scatter(X[:, 0], X[:, 1], c=sklearn_kmeans.labels_)
35 |     plt.scatter(sklearn_kmeans.cluster_centers_[:,0],sklearn_kmeans.cluster_centers_[:,1],c=range(sklearn_kmeans.n_clusters),marker='+')
36 |     plt.title('sklearn KMeans')
37 |     plt.savefig('./cluster_result/sklearn_KMeans.jpg')
38 |     plt.show()
39 | 
40 |     # DBSCAN
41 |     tinyml_dbscan = tinymlDBSCAN()
42 |     tinyml_dbscan.fit(X)
43 |     plt.scatter(X[:, 0], X[:, 1], c=tinyml_dbscan.labels_)
44 |     plt.title('tinyml DBSCAN')
45 |     plt.savefig('./cluster_result/tinyml_DBSCAN.jpg')
46 |     plt.show()
47 | 
48 |     sklearn_DBSCAN =sklearnDBSCAN(eps=0.11, min_samples=5, metric='l2')
49 |     sklearn_DBSCAN.fit(X)
50 |     plt.scatter(X[:, 0], X[:, 1], c=sklearn_DBSCAN.labels_)
51 |     plt.title('sklearn DBSCAN')
52 |     plt.savefig('./cluster_result/sklearn_DBSCAN.jpg')
53 |     plt.show()
54 | 
55 |     # GMM
56 |     tinyml_gmm = tinymlGaussianMixture(k=3, max_iter=50)
57 |     tinyml_gmm.fit(X)
58 |     plt.scatter(X[:, 0], X[:, 1], c=tinyml_gmm.labels_)
59 |     plt.scatter(tinyml_gmm.mu[:, 0], tinyml_gmm.mu[:, 1], c=range(tinyml_gmm.k), marker='+')
60 |     plt.title('tinyml GMM')
61 |     plt.savefig('./cluster_result/tinyml_GMM.jpg')
62 |     plt.show()
63 | 
64 |     sklearn_gmm = sklearnGaussianMixture(n_components=3, covariance_type='full',
65 |                                   max_iter=50).fit(X)
66 |     labels = sklearn_gmm.predict(X)
67 |     plt.scatter(X[:, 0], X[:, 1], c=labels)
68 |     plt.scatter(sklearn_gmm.means_[:,0],sklearn_gmm.means_[:,1],c=range(sklearn_gmm.n_components),marker='+')
69 |     plt.title('sklearn GMM')
70 |     plt.savefig('./cluster_result/sklearn_GMM.jpg')
71 |     plt.show()
72 | 
73 |     # AGNES
74 |     tinyml_agnes = tinymlAGNES(k=3)
75 |     tinyml_agnes.fit(X)
76 |     plt.scatter(X[:, 0], X[:, 1], c=tinyml_agnes.labels_)
77 |     plt.title('tinyml AGNES')
78 |     plt.savefig('./cluster_result/tinyml_AGNES.jpg')
79 |     plt.show()
80 | 
81 |     sklearn_agnes = sklearnAGNES(n_clusters=3, affinity='l2', linkage='average')
82 |     sklearn_agnes.fit(X)
83 |     plt.scatter(X[:, 0], X[:, 1], c=sklearn_agnes.labels_)
84 |     plt.title('sklearn AGNES')
85 |     plt.savefig('./cluster_result/sklearn_AGNES.jpg')
86 |     plt.show()
87 | 
88 | 
89 | 


--------------------------------------------------------------------------------
/tinyml/compare/compare_dimension_reduction.py:
--------------------------------------------------------------------------------
  1 | from tinyml.dimension_reduction.PCA import PCA as tinymlPCA
  2 | from tinyml.dimension_reduction.KernelPCA import KernelPCA as tinymlKernalPCA
  3 | from tinyml.dimension_reduction.LLE import LLE as tinymlLLE
  4 | from tinyml.dimension_reduction.Isomap import Isomap as tinymlIsomap
  5 | from tinyml.dimension_reduction.MDS import MDS as tinymlMDS
  6 | 
  7 | from sklearn.decomposition import PCA as sklearnPCA
  8 | from sklearn.decomposition import KernelPCA as sklearnKernalPCA
  9 | from sklearn.manifold import LocallyLinearEmbedding as sklearnLLE
 10 | from sklearn.manifold import MDS as sklearnMDS
 11 | from sklearn.manifold import Isomap as sklearnIsomap
 12 | 
 13 | from sklearn.datasets import load_iris
 14 | 
 15 | import numpy as np
 16 | import matplotlib.pyplot as plt
 17 | if __name__=='__main__':
 18 |     from sklearn.datasets import make_s_curve
 19 | 
 20 |     X, y = make_s_curve(n_samples=500,
 21 |                         noise=0.1,
 22 |                         random_state=0)
 23 | 
 24 |     # PCA
 25 |     tinyml_pca = tinymlPCA(d_=2)
 26 |     X_=tinyml_pca.fit_transform(X)
 27 |     plt.scatter(X_[:, 0], X_[:, 1], c=y)
 28 |     plt.title('tinyml PCA')
 29 |     plt.savefig('./dimension_reduction_result/tinyml_PCA.jpg')
 30 |     plt.show()
 31 | 
 32 |     sklearn_pca=sklearnPCA(n_components=2,svd_solver='full')
 33 |     X_=sklearn_pca.fit_transform(X)
 34 |     plt.scatter(X_[:, 0], X_[:, 1], c=y)
 35 |     plt.title('sklearn PCA')
 36 |     plt.savefig('./dimension_reduction_result/sklearn_PCA.jpg')
 37 |     plt.show()
 38 | 
 39 |     # KPCA
 40 |     tinyml_kpca = tinymlKernalPCA(d_=2, kernel='rbf',gamma=0.5)
 41 |     X_ = tinyml_kpca.fit_transform(X)
 42 |     plt.scatter(X_[:, 0], X_[:, 1], c=y)
 43 |     plt.title('tinyml KernalPCA')
 44 |     plt.savefig('./dimension_reduction_result/tinyml_KernalPCA.jpg')
 45 |     plt.show()
 46 | 
 47 |     sklearn_kpca = sklearnKernalPCA(n_components=2, kernel='rbf', gamma=0.5)
 48 |     X_ = sklearn_kpca.fit_transform(X)
 49 |     plt.scatter(X_[:, 0], X_[:, 1], c=y)
 50 |     plt.title('sklearn KernalPCA')
 51 |     plt.savefig('./dimension_reduction_result/sklearn_KernalPCA.jpg')
 52 |     plt.show()
 53 | 
 54 |     # LLE
 55 | 
 56 |     tinyml_lle = tinymlLLE(d_=2, k=30,reg=1e-3)
 57 |     X_ = tinyml_lle.fit_transform(X)
 58 |     plt.scatter(X_[:, 0], X_[:, 1], c=y)
 59 |     plt.title('tinyml LLE')
 60 |     plt.savefig('./dimension_reduction_result/tinyml_LLE.jpg')
 61 |     plt.show()
 62 | 
 63 |     sklearn_lle= sklearnLLE(n_components=2,n_neighbors=30,reg=1e-3)
 64 |     X_ = sklearn_lle.fit_transform(X)
 65 |     plt.scatter(X_[:, 0], X_[:, 1], c=y)
 66 |     plt.title('sklearn LLE')
 67 |     plt.savefig('./dimension_reduction_result/sklearn_LLE.jpg')
 68 |     plt.show()
 69 | 
 70 |     # MDS
 71 | 
 72 |     tinyml_mds = tinymlMDS(d_=2)
 73 |     X_ = tinyml_mds.fit_transform(X)
 74 |     plt.scatter(X_[:, 0], X_[:, 1], c=y)
 75 |     plt.title('tinyml MDS')
 76 |     plt.savefig('./dimension_reduction_result/tinyml_MDS.jpg')
 77 |     plt.show()
 78 | 
 79 |     sklearn_mds = sklearnMDS(n_components=2,metric=True,random_state=False)
 80 |     X_ = sklearn_mds.fit_transform(X)
 81 |     plt.scatter(X_[:, 0], X_[:, 1], c=y)
 82 |     plt.title('sklearn MDS')
 83 |     plt.savefig('./dimension_reduction_result/sklearn_MDS.jpg')
 84 |     plt.show()
 85 | 
 86 |     """
 87 |     # Isomap
 88 |     tinyml_isomap = tinymlIsomap(k=5,d_=2)
 89 |     X_ = tinyml_isomap.fit_transform(X)
 90 |     plt.scatter(X_[:, 0], X_[:, 1], c=y)
 91 |     plt.title('tinyml Isomap')
 92 |     plt.savefig('./dimension_reduction_result/tinyml_Isomap.jpg')
 93 |     plt.show()
 94 | 
 95 |     sklearn_isomap = sklearnIsomap(n_neighbors=5, n_components=2,path_method='auto')
 96 |     X_ = sklearn_isomap.fit_transform(X)
 97 |     plt.scatter(X_[:, 0], X_[:, 1], c=y)
 98 |     plt.title('sklearn Isomap')
 99 |     plt.savefig('./dimension_reduction_result/sklearn_Isomap.jpg')
100 |     plt.show()
101 |     """
102 | 
103 | 
104 | 
105 | 
106 | 
107 | 
108 | 
109 | 
110 | 
111 | 


--------------------------------------------------------------------------------
/tinyml/compare/compare_regresssor.py:
--------------------------------------------------------------------------------
 1 | from sklearn.metrics import mean_squared_error
 2 | def train_and_eval(data,regressor):
 3 |     train_X, train_y, test_X, test_y=data
 4 |     regressor.fit(train_X,train_y)
 5 |     preds_y=regressor.predict(test_X)
 6 |     mse=mean_squared_error(test_y,preds_y)
 7 |     del regressor
 8 |     return mse
 9 | 
10 | from sklearn.datasets import load_boston,load_diabetes
11 | from sklearn.preprocessing import StandardScaler,MinMaxScaler
12 | from sklearn.model_selection import train_test_split
13 | import sklearn.tree as tree
14 | from tinyml.linear_model.LinearRegression import LinearRegression as tinymlLinearRegression
15 | from tinyml.linear_model.SGDRegressor import SGDRegressor as tinymlSGDRegressor
16 | from tinyml.ensemble.GradientBoostingRegressor import GradientBoostingRegressor as tinymlGradientBoostingRegressor
17 | from tinyml.ensemble.RandomForestRegressor import RandomForestRegressor as tinymlRandomForestRegressor
18 | from tinyml.ensemble.XGBRegressor import XGBRegressor as tinymlXGBRegressor
19 | from tinyml.tree.DecisionTreeRegressor import DecisionTreeRegressor as tinymlDecisionTreeRegressor
20 | 
21 | from sklearn.linear_model import LinearRegression as sklearnLinearRegression
22 | from sklearn.linear_model import SGDRegressor as sklearnSGDRegressor
23 | from sklearn.tree import DecisionTreeRegressor as sklearnDecisonTreeRegressor
24 | from sklearn.ensemble import RandomForestRegressor as sklearnRnadomForestRegressor
25 | from sklearn.ensemble import GradientBoostingRegressor as sklearnGradientBoostRegressor
26 | from xgboost import XGBRegressor
27 | 
28 | if __name__=='__main__':
29 | 
30 | 
31 |     boston_X,boston_y=load_boston(return_X_y=True)
32 | 
33 |     boston_train_X,boston_test_X,boston_train_y,boston_test_y=train_test_split(boston_X,boston_y,test_size=0.3,random_state=0)
34 | 
35 |     data=boston_train_X,boston_train_y,boston_test_X,boston_test_y
36 | 
37 |     rmse_tinyml_linear_regression=train_and_eval(data,tinymlLinearRegression())
38 |     print('tinyml LinearRegression:',rmse_tinyml_linear_regression)
39 |     rmse_sklearn_linear_regression=train_and_eval(data,sklearnLinearRegression())
40 |     print('sklearn LinearRegression:',rmse_sklearn_linear_regression)
41 |     print('\n')
42 |     std_scaler=StandardScaler()
43 |     std_scaler.fit(boston_train_X)
44 |     X_train=std_scaler.transform(boston_train_X)
45 |     X_test=std_scaler.transform(boston_test_X)
46 |     rmse_tinyml_sgd_regressor=train_and_eval((X_train,boston_train_y,X_test,boston_test_y),tinymlSGDRegressor(max_iter=200,penalty='l1',alpha=1e-3,l1_ratio=0.5))
47 |     print('tinyml SGDRegressor:',rmse_tinyml_sgd_regressor)
48 |     rmse_sklearn_sgd_regressor=train_and_eval((X_train,boston_train_y,X_test,boston_test_y),sklearnSGDRegressor(max_iter=200,penalty='l1',alpha=1e-3))
49 |     print('sklearn SGDRegressor:',rmse_sklearn_sgd_regressor)
50 |     print('\n')
51 |     rmse_tinyml_decision_tree_regressor=train_and_eval(data,tinymlDecisionTreeRegressor(min_samples_split=20,min_samples_leaf=5))
52 |     print('tinyml DecisionTreeRegressor:',rmse_tinyml_decision_tree_regressor)
53 |     rmse_sklearn_decision_tree_regressor=train_and_eval(data,sklearnDecisonTreeRegressor(min_samples_split=20,min_samples_leaf=5,random_state=False))
54 |     print('sklearn DecisionTreeRegressor:',rmse_sklearn_decision_tree_regressor)
55 |     print('\n')
56 |     rmse_tinyml_random_forest_tree_regressor = train_and_eval(data, tinymlRandomForestRegressor(
57 |             base_estimator=tinymlDecisionTreeRegressor,
58 |             n_estimators=100, min_samples_leaf=5, min_samples_split=15))
59 |     print('tinyml RandomForestRegressor:', rmse_tinyml_random_forest_tree_regressor)
60 |     rmse_sklearn_random_forest_tree_regressor=train_and_eval(data,sklearnRnadomForestRegressor(n_estimators=100, min_samples_leaf=5, min_samples_split=15, random_state=False))
61 |     print('sklearn RandomForestRegressor:',rmse_tinyml_random_forest_tree_regressor)
62 | 
63 |     rmse_tinyml_gradient_boost_regressor = train_and_eval(data,
64 |                                                           tinymlGradientBoostingRegressor(n_estimators=500,
65 |                                                                                           base_estimator=tree.DecisionTreeRegressor(
66 |                                                                                               min_samples_split=15,
67 |                                                                                               min_samples_leaf=5,
68 |                                                                                               random_state=False)))
69 | 
70 |     print('tinyml GradientBoostRegressor:', rmse_tinyml_gradient_boost_regressor)
71 |     rmse_sklearn_gradient_boost_regressor=train_and_eval(data,
72 |                                                          sklearnGradientBoostRegressor(n_estimators=500,min_samples_leaf=5,min_samples_split=15,random_state=False))
73 |     print('sklearn GradientBoostRegressor:',rmse_sklearn_gradient_boost_regressor)
74 | 
75 |     rmse_tinyml_xgbregressor = train_and_eval(data,
76 |                                               tinymlXGBRegressor(n_estimators=100, max_depth=3, gamma=0.))
77 |     print('tinyml XGBRegressor:', rmse_tinyml_xgbregressor)
78 |     rmse_xgboost_xgbregressor=train_and_eval(data,XGBRegressor(max_depth=3,learning_rate=0.1,n_estimators=100,gamma=0,reg_lambda=1))
79 |     print('xgboost XGBRegressor:',rmse_xgboost_xgbregressor)
80 | 
81 | 
82 | 
83 | 


--------------------------------------------------------------------------------
/tinyml/compare/dimension_reduction_result/sklearn_KernalPCA.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/dimension_reduction_result/sklearn_KernalPCA.jpg


--------------------------------------------------------------------------------
/tinyml/compare/dimension_reduction_result/sklearn_LLE.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/dimension_reduction_result/sklearn_LLE.jpg


--------------------------------------------------------------------------------
/tinyml/compare/dimension_reduction_result/sklearn_MDS.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/dimension_reduction_result/sklearn_MDS.jpg


--------------------------------------------------------------------------------
/tinyml/compare/dimension_reduction_result/sklearn_PCA.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/dimension_reduction_result/sklearn_PCA.jpg


--------------------------------------------------------------------------------
/tinyml/compare/dimension_reduction_result/tinyml_KernalPCA.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/dimension_reduction_result/tinyml_KernalPCA.jpg


--------------------------------------------------------------------------------
/tinyml/compare/dimension_reduction_result/tinyml_LLE.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/dimension_reduction_result/tinyml_LLE.jpg


--------------------------------------------------------------------------------
/tinyml/compare/dimension_reduction_result/tinyml_MDS.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/dimension_reduction_result/tinyml_MDS.jpg


--------------------------------------------------------------------------------
/tinyml/compare/dimension_reduction_result/tinyml_PCA.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/compare/dimension_reduction_result/tinyml_PCA.jpg


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/Isomap.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | # 用Floyd_Warshall算法算出的dist和sklearn有差异
 3 | # MDS也有差异
 4 | class Isomap:
 5 |     def __init__(self,k=5,d_=2):
 6 |         self.d_=d_
 7 |         self.k=k
 8 |         self.dist_matrix_=None
 9 | 
10 |     @staticmethod
11 |     def Floyd_Warshall(Dist):
12 |         m = Dist.shape[0]
13 |         for k in range(m):
14 |             for i in range(m):
15 |                 for j in range(m):
16 |                     Dist[i, j] = min(Dist[i,j],Dist[i, k] + Dist[k, j])
17 |         return Dist
18 | 
19 |     def fit(self,X):
20 |         m = X.shape[0]
21 |         Dist = np.zeros((m, m), dtype=np.float32)
22 |         self.Omega = np.zeros((m, m), dtype=np.float32)
23 |         for i in range(m):
24 |             Dist[i, :] = np.sqrt(np.sum((X[i] - X) ** 2, axis=1))
25 |             inf_index=np.argsort(Dist[i,:])[self.k+1:]
26 |             Dist[i,inf_index]=float('inf')
27 |         Dist=Isomap.Floyd_Warshall(Dist)
28 |         self.dist_matrix_=Dist
29 |         # 使用MDS中的步骤
30 |         Dist_i2 = np.mean(Dist, axis=1).reshape(-1, 1)
31 |         Dist_j2 = np.mean(Dist, axis=0).reshape(1, -1)
32 |         dist_2 = np.mean(Dist)
33 |         B_new = -0.5 * (Dist - Dist_i2 - Dist_j2 + dist_2)
34 |         # 用eig和eigh函数分解出的结果符号位不同
35 |         #values, vectors = np.linalg.eig(B_new)
36 |         values,vectors=np.linalg.eigh(B_new)
37 |         idx = np.argsort(values)[::-1]
38 |         self.values_ = values[idx][:self.d_]
39 |         # print('values:',self.values_)
40 |         self.vectors_ = vectors[:, idx][:, :self.d_]
41 |         self.Z = self.vectors_.dot(np.diag(np.sqrt(self.values_))).real
42 | 
43 | 
44 |     def fit_transform(self,X):
45 |         self.fit(X)
46 |         return self.Z
47 |         pass
48 | 
49 | if __name__=='__main__':
50 |     X=np.array([[0.697,0.460],[0.774,0.376],[0.634,0.264],[0.608,0.318],[0.556,0.215],
51 |                 [0.403,0.237],[0.481,0.149],[0.437,0.211],[0.666,0.091],[0.243,0.267],
52 |                 [0.245,0.057],[0.343,0.099],[0.639,0.161],[0.657,0.198],[0.360,0.370],
53 |                 [0.593,0.042],[0.719,0.103],[0.359,0.188],[0.339,0.241],[0.282,0.257],
54 |                 [0.748,0.232],[0.714,0.346],[0.483,0.312],[0.478,0.437],[0.525,0.369],
55 |                 [0.751,0.489],[0.532,0.472],[0.473,0.376],[0.725,0.445],[0.446,0.459]])
56 | 
57 |     X=np.c_[X,X]
58 |     isomap=Isomap(k=5,d_=2)
59 |     Z=isomap.fit_transform(X)
60 |     print('tinyml:')
61 |     print(Z)
62 | 
63 |     import sklearn.manifold as manifold
64 |     sklearn_Isomap=manifold.Isomap(n_neighbors=5, n_components=2,path_method='auto')
65 |     Z2=sklearn_Isomap.fit_transform(X)
66 |     print('sklearn')
67 |     print(Z2)
68 | 
69 |     print('dist_matrix_diff:',np.sum((isomap.dist_matrix_-sklearn_Isomap.dist_matrix_)**2))
70 |     print('Z diff:',np.sum((Z-Z2)**2))


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/KernelPCA.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | # 线性核 与 sklearn 结果一致
 3 | #　其他核都与sklearn结果不一致!!! 还没找到原因
 4 | 
 5 | class KernelPCA:
 6 |     def __init__(self,d_=2,kernel='linear',gamma=None,coef0=1.,degress=3):
 7 |         self.d_=d_
 8 |         self.W=None
 9 |         self.mean_x=None
10 |         self.V=None
11 |         self.kernel=kernel
12 |         self.coef0=coef0
13 |         self.degress=degress
14 |         if gamma is None:
15 |             self.gamma=1./self.d_
16 |         else:
17 |             self.gamma=gamma
18 | 
19 |     def kernel_func(self,kernel,x1,x2):
20 |         if kernel=='linear':
21 |             return x1.dot(x2.T)
22 |         elif kernel=='rbf':
23 |             return np.exp(-self.gamma*(np.sum((x1-x2)**2)))
24 |         elif kernel=='poly':
25 |             return np.power(self.gamma*(x1.dot(x2.T)+1)+self.coef0,self.degress)
26 |         elif kernel=='sigmoid':
27 |             return np.tanh(self.gamma*(x1.dot(x2.T))+self.coef0)
28 | 
29 |     def computeK(self,X,kernel):
30 |         m=X.shape[0]
31 |         K=np.zeros((m,m))
32 |         for i in range(m):
33 |             for j in range(m):
34 |                 if i<=j:
35 |                     K[i,j]=self.kernel_func(kernel,X[i],X[j])
36 |                 else:
37 |                     K[i,j]=K[j,i]
38 |         return K
39 | 
40 |     # p233 公式10.24
41 |     def fit(self,X):
42 |         self.mean_x=np.mean(X,axis=0)
43 |         X_new=X-self.mean_x
44 |         K=self.computeK(X_new,kernel=self.kernel)
45 |         # sklearn实现用的eigh分解
46 |         values,vectors = np.linalg.eigh(K)
47 |         idx = values.argsort()[::-1]
48 |         # 这一步不可少
49 |         vectors/=np.sqrt(values)
50 |         self.alphas_= vectors[:, idx][:, :self.d_]
51 |         self.lambdas_= values[idx][:self.d_]
52 | 
53 |     # 公式 10.25
54 |     def fit_transform(self,X):
55 |         self.fit(X)
56 |         X = X - self.mean_x
57 |         m=X.shape[0]
58 |         self.Z=np.zeros((m,self.d_))
59 |         for k in range(m):
60 |             for j in range(self.d_):
61 |                 sum=0.
62 |                 for i in range(m):
63 |                     sum+= self.alphas_[i, j] * (self.kernel_func(self.kernel, X[i], X[k]))
64 |                 self.Z[k,j]=sum
65 |         return self.Z
66 | 
67 | 
68 | if __name__=='__main__':
69 |     X=np.array([[0.697,0.460],[0.774,0.376],[0.634,0.264],[0.608,0.318],[0.556,0.215],
70 |                 [0.403,0.237],[0.481,0.149],[0.437,0.211],[0.666,0.091],[0.243,0.267],
71 |                 [0.245,0.057],[0.343,0.099],[0.639,0.161],[0.657,0.198],[0.360,0.370],
72 |                 [0.593,0.042],[0.719,0.103],[0.359,0.188],[0.339,0.241],[0.282,0.257],
73 |                 [0.748,0.232],[0.714,0.346],[0.483,0.312],[0.478,0.437],[0.525,0.369],
74 |                 [0.751,0.489],[0.532,0.472],[0.473,0.376],[0.725,0.445],[0.446,0.459]])
75 | 
76 |     X=np.c_[X,X]
77 |     kpca=KernelPCA(d_=2, kernel='linear', gamma=1. / 2)
78 |     Z=kpca.fit_transform(X)
79 |     print('tinyml:')
80 |     #print('lambdas:', kpca.lambdas_)
81 |     #print('alphas:', kpca.alphas_)
82 |     print(Z)
83 | 
84 |     import sklearn.decomposition as decomposition
85 |     sklearn_KPCA=decomposition.KernelPCA(n_components=2, kernel='linear', gamma=1. / 2, eigen_solver='dense', random_state=False)
86 |     Z2=sklearn_KPCA.fit_transform(X)
87 |     print('sklearn')
88 |     #print('lambdas:',sklearn_KPCA.lambdas_)
89 |     #print('alphas:',sklearn_KPCA.alphas_)
90 |     print(Z2)
91 | 
92 |     print('Z diff:',np.sum((Z-Z2)**2))
93 | 
94 | 
95 | 
96 | 


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/LLE.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | import scipy
 3 | """
 4 | Omega的计算参考这篇blog
 5 | [局部线性嵌入(LLE)原理总结](https://www.cnblogs.com/pinard/p/6266408.html?utm_source=itdadao&utm_medium=referral)
 6 | """
 7 | class LLE:
 8 |     def __init__(self,d_=2,k=6,reg=1e-3):
 9 |         self.d_=d_
10 |         self.k=k
11 |         self.reg=reg
12 | 
13 |     # p237 图10.10 LLE算法
14 |     def fit(self,X):
15 |         m=X.shape[0]
16 |         Dist=np.zeros((m,m),dtype=np.float32)
17 |         self.Omega=np.zeros((m,m),dtype=np.float32)
18 |         self.Q={}
19 |         for i in range(m):
20 |             Dist[i,:]=np.sqrt(np.sum((X[i]-X)**2,axis=1))
21 |             self.Q[i]=np.argsort(Dist[i,:])[1:self.k+1]
22 |             self.compute_omega(i,X)
23 | 
24 |         self.M=np.matmul((np.identity(m)-self.Omega).T,(np.identity(m)-self.Omega))
25 |         w,v=np.linalg.eig(self.M)
26 |         index=np.argsort(w)
27 |         self.Z=v[:,index][:,1:1+self.d_]
28 | 
29 |     def fit_transform(self,X):
30 |         self.fit(X)
31 |         return self.Z
32 | 
33 |     def compute_omega(self,i,X):
34 |         Z=(X[i]-X[self.Q[i]]).dot((X[i]-X[self.Q[i]]).T)
35 |         Z+= self.reg * np.trace(Z) * np.identity(self.k)
36 |         Ik=np.ones((self.k,))
37 |         Zinv=np.linalg.inv(Z)
38 |         self.Omega[i, self.Q[i]]=np.matmul(Zinv,Ik)/(Ik.T.dot(Zinv).dot(Ik))
39 | 
40 | if __name__=='__main__':
41 |     X = np.array([[0.697, 0.460], [0.774, 0.376], [0.634, 0.264], [0.608, 0.318], [0.556, 0.215],
42 |                   [0.403, 0.237], [0.481, 0.149], [0.437, 0.211], [0.666, 0.091], [0.243, 0.267],
43 |                   [0.245, 0.057], [0.343, 0.099], [0.639, 0.161], [0.657, 0.198], [0.360, 0.370],
44 |                   [0.593, 0.042], [0.719, 0.103], [0.359, 0.188], [0.339, 0.241], [0.282, 0.257],
45 |                   [0.748, 0.232], [0.714, 0.346], [0.483, 0.312], [0.478, 0.437], [0.525, 0.369],
46 |                   [0.751, 0.489], [0.532, 0.472], [0.473, 0.376], [0.725, 0.445], [0.446, 0.459]])
47 |     X = np.c_[X, X]
48 |     lle = LLE(d_=2, k=5,reg=1e-3)
49 |     Z = lle.fit_transform(X)
50 |     print(Z)
51 | 
52 |     import sklearn.manifold as manifold
53 |     sklearn_LLE= manifold.LocallyLinearEmbedding(n_components=2,n_neighbors=5,reg=1e-3)
54 |     Z2 = sklearn_LLE.fit_transform(X)
55 |     print(Z2)
56 | 
57 |     print('check diff:',np.sum((Z2-Z)**2))
58 | 


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/MDS.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | import matplotlib.pyplot as plt
 3 | # 不知道如何验证正确性，sklearn中的实现方式和西瓜书中不一致,sklearn中用的smacof方法
 4 | # 和自己实现的KernelPCA线性核时结果一致
 5 | 
 6 | class MDS:
 7 |     def __init__(self,d_=2):
 8 |         self.d_=d_
 9 |         self.Z=None
10 |         self.values_=None
11 |         self.vectors_=None
12 | 
13 |     # p229 图10.3 MDS算法
14 |     def fit(self,X):
15 |         m=X.shape[0]
16 |         B=X.dot(X.T)
17 |         Dist_2=np.zeros((m,m),dtype=np.float32)
18 |         for i in range(m):
19 |             for j in range(m):
20 |                 Dist_2[i,j]=B[i,i]+B[j,j]-2*B[i,j]
21 |         Dist_i2=np.mean(Dist_2,axis=1).reshape(-1,1)
22 |         Dist_j2=np.mean(Dist_2,axis=0).reshape(1,-1)
23 |         dist_2=np.mean(Dist_2)
24 |         B_new=-0.5*(Dist_2-Dist_i2-Dist_j2+dist_2)
25 | 
26 |         """
27 |         B_new=np.zeros((m,m))
28 |         for i in range(m):
29 |             for j in range(m):
30 |                 B_new[i,j]=-0.5*(Dist_2[i,j]-Dist_i2[i,0]-Dist_j2[0,j]+dist_2)
31 |         """
32 |         # 用eig和eigh函数分解出的结果符号位不同
33 |         values,vectors=np.linalg.eig(B_new)
34 |         #values,vectors=np.linalg.eigh(B_new)
35 |         idx=np.argsort(values)[::-1]
36 |         self.values_=values[idx][:self.d_]
37 |         # print('values:',self.values_)
38 |         self.vectors_=vectors[:,idx][:,:self.d_]
39 |         self.Z=self.vectors_.dot(np.diag(np.sqrt(self.values_))).real
40 | 
41 |     def fit_transform(self,X):
42 |         self.fit(X)
43 |         return self.Z
44 | 
45 | 
46 | if __name__=='__main__':
47 |     X=np.array([[0.697,0.460],[0.774,0.376],[0.634,0.264],[0.608,0.318],[0.556,0.215],
48 |                 [0.403,0.237],[0.481,0.149],[0.437,0.211],[0.666,0.091],[0.243,0.267],
49 |                 [0.245,0.057],[0.343,0.099],[0.639,0.161],[0.657,0.198],[0.360,0.370],
50 |                 [0.593,0.042],[0.719,0.103],[0.359,0.188],[0.339,0.241],[0.282,0.257],
51 |                 [0.748,0.232],[0.714,0.346],[0.483,0.312],[0.478,0.437],[0.525,0.369],
52 |                 [0.751,0.489],[0.532,0.472],[0.473,0.376],[0.725,0.445],[0.446,0.459]])
53 | 
54 |     X=np.c_[X,X]
55 |     mds=MDS(d_=2)
56 |     Z=mds.fit_transform(np.array(X))
57 |     print(Z)
58 | 
59 |     """
60 |     import sklearn.manifold as manifold
61 |     sklearn_MDS=manifold.MDS(n_components=2,metric=True,random_state=False)
62 |     Z2=sklearn_MDS.fit_transform(X)
63 |     print(Z2)
64 |     print('diff:',np.sum((Z-Z2)**2))
65 |     """
66 | 
67 | 
68 | 
69 | 
70 | 


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/PCA.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | 
 3 | class PCA:
 4 |     def __init__(self,d_=2):
 5 |         self.d_=d_
 6 |         self.W=None
 7 |         self.mean_x=None
 8 |         self.V=None
 9 | 
10 |     # p231 图10.5 PCA算法
11 |     def fit(self,X):
12 |         self.mean_x=np.mean(X,axis=0)
13 |         X_new=X-self.mean_x
14 |         covM=X_new.T.dot(X_new)
15 |         v,w = np.linalg.eig(covM)
16 |         idx = v.argsort()[::-1]
17 |         self.W=w[:,idx][:,:self.d_]
18 |         self.V=v[idx][:self.d_]
19 | 
20 | 
21 |     def fit_transform(self,X):
22 |         self.fit(X)
23 |         X=X-self.mean_x
24 |         new_X=X.dot(self.W)
25 |         return new_X
26 | 
27 | 
28 | if __name__=='__main__':
29 |     X=np.array([[0.697,0.460],[0.774,0.376],[0.634,0.264],[0.608,0.318],[0.556,0.215],
30 |                 [0.403,0.237],[0.481,0.149],[0.437,0.211],[0.666,0.091],[0.243,0.267],
31 |                 [0.245,0.057],[0.343,0.099],[0.639,0.161],[0.657,0.198],[0.360,0.370],
32 |                 [0.593,0.042],[0.719,0.103],[0.359,0.188],[0.339,0.241],[0.282,0.257],
33 |                 [0.748,0.232],[0.714,0.346],[0.483,0.312],[0.478,0.437],[0.525,0.369],
34 |                 [0.751,0.489],[0.532,0.472],[0.473,0.376],[0.725,0.445],[0.446,0.459]])
35 |     X=np.c_[X,X]
36 | 
37 |     pca=PCA(d_=2)
38 |     Z=pca.fit_transform(X)
39 |     print(Z)
40 | 
41 |     import sklearn.decomposition as decomposition
42 |     sklearn_PCA=decomposition.PCA(n_components=2,svd_solver='full')
43 |     Z2=sklearn_PCA.fit_transform(X)
44 |     print(Z2)
45 | 
46 |     print('diff:',np.sum((Z-Z2)**2))
47 | 


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/dimension_reduction/__init__.py


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/__pycache__/Isomap.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/dimension_reduction/__pycache__/Isomap.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/__pycache__/KernelPCA.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/dimension_reduction/__pycache__/KernelPCA.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/__pycache__/LLE.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/dimension_reduction/__pycache__/LLE.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/__pycache__/MDS.cpython-36.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/dimension_reduction/__pycache__/MDS.cpython-36.pyc


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/__pycache__/MDS.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/dimension_reduction/__pycache__/MDS.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/__pycache__/PCA.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/dimension_reduction/__pycache__/PCA.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/__pycache__/__init__.cpython-36.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/dimension_reduction/__pycache__/__init__.cpython-36.pyc


--------------------------------------------------------------------------------
/tinyml/dimension_reduction/__pycache__/__init__.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/dimension_reduction/__pycache__/__init__.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/discriminant_analysis/GDA.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | from sklearn.datasets import load_breast_cancer
 3 | from sklearn.model_selection import train_test_split
 4 | from sklearn.preprocessing import MinMaxScaler
 5 | """
 6 | Gaussian Discriminant Analysis 
 7 | https://see.stanford.edu/materials/aimlcs229/cs229-notes2.pdf
 8 | https://zhuanlan.zhihu.com/p/37476759
 9 | """
10 | class GDA:
11 |     def __init__(self):
12 |         self.Phi=None
13 |         self.mu0=None
14 |         self.mu1=None
15 |         self.Sigma=None
16 |         self.n=None
17 |         pass
18 | 
19 |     def fit(self, X, y):
20 |         m=X.shape[0]
21 |         self.n=X.shape[1]
22 |         bincount=np.bincount(y)
23 |         assert bincount.shape==(2,)
24 |         self.Phi=bincount[1]*1./m
25 |         zeros_indices=np.where(y==0)
26 |         one_indices=np.where(y==1)
27 |         self.mu0=np.mean(X[zeros_indices],axis=0)
28 |         self.mu1=np.mean(X[one_indices],axis=0)
29 |         self.Sigma=np.zeros((self.n,self.n))
30 |         for i in range(m):
31 |             if y[i]==0:
32 |                 tmp=(X[i]-self.mu0).T.dot((X[i]-self.mu0))
33 |                 self.Sigma+=tmp
34 |             else:
35 |                 tmp=(X[i]-self.mu1).reshape(-1,1).dot((X[i]-self.mu1).reshape(1,-1))
36 |                 self.Sigma+=tmp
37 | 
38 |         self.Sigma=(X[zeros_indices]-self.mu0).T.dot(X[zeros_indices]-self.mu0)+(X[one_indices]-self.mu1).T.dot(X[one_indices]-self.mu1)
39 |         self.Sigma=self.Sigma/m
40 | 
41 | 
42 |     def predict_proba(self, X):
43 |         probs=[]
44 |         m=X.shape[0]
45 |         p0=1-self.Phi
46 |         p1=self.Phi
47 |         denominator=np.power(2*np.pi,self.n/2)*np.sqrt(np.linalg.det(self.Sigma))
48 |         for i in range(m):
49 |             px_y0=np.exp(-0.5*(X[i]-self.mu0).dot(np.linalg.inv(self.Sigma)).dot((X[i]-self.mu0).T))/denominator
50 |             px_y1 = np.exp(-0.5 * (X[i] - self.mu1).dot(np.linalg.inv(self.Sigma)).dot((X[i] - self.mu1).T)) /denominator
51 |             p_y0=px_y0*p0
52 |             p_y1=px_y1*p1
53 |             probs.append([p_y0/(p_y0+p_y1),p_y1/(p_y0+p_y1)])
54 |         return np.array(probs)
55 | 
56 |     def predict(self, X):
57 |         p = self.predict_proba(X)
58 |         res = np.argmax(p, axis=1)
59 |         return res
60 | 
61 | 
62 | if __name__ == '__main__':
63 |     np.random.seed(42)
64 |     breast_data = load_breast_cancer()
65 |     X, y = breast_data.data, breast_data.target
66 |     X=MinMaxScaler().fit_transform(X)
67 |     X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2)
68 |     gda = GDA()
69 |     gda.fit(X_train, y_train)
70 |     lda_prob = gda.predict_proba(X_test)
71 |     lda_pred = gda.predict(X_test)
72 |     print('gda_prob:', lda_prob)
73 |     print('gda_pred:', lda_pred)
74 |     print('accuracy:',len(y_test[y_test ==lda_pred]) * 1. / len(y_test))
75 | 
76 | 


--------------------------------------------------------------------------------
/tinyml/discriminant_analysis/LDA.py:
--------------------------------------------------------------------------------
 1 | from sklearn import discriminant_analysis
 2 | import numpy as np
 3 | from sklearn.datasets import load_breast_cancer
 4 | from sklearn.model_selection import train_test_split
 5 | from sklearn.preprocessing import MinMaxScaler
 6 | 
 7 | class LDA:
 8 |     def __init__(self):
 9 |         self.omega=None
10 |         self.omiga_mu_0=None
11 |         self.omiga_mu_1=None
12 |         pass
13 | 
14 |     # 《机器学习》 p61
15 |     def fit(self,X,y):
16 |         n_samples = X.shape[0]
17 |         extra = np.ones((n_samples,))
18 |         X = np.c_[X, extra]
19 |         X_0=X[np.where(y==0)]
20 |         X_1=X[np.where(y==1)]
21 |         mu_0=np.mean(X_0,axis=0)
22 |         mu_1=np.mean(X_1,axis=0)
23 |         S_omega=X_0.T.dot(X_0)+X_1.T.dot(X_1)
24 |         invS_omega=np.linalg.inv(S_omega)
25 |         self.omega=invS_omega.dot(mu_0 - mu_1)
26 |         self.omega_mu_0=self.omega.T.dot(mu_0)
27 |         self.omega_mu_1=self.omega.T.dot(mu_1)
28 |         pass
29 | 
30 |     # 书上没讲怎么判断分类
31 |     # 采用距离度量，计算X到两个投影中心的L2距离，分类为距离更近的类别。
32 |     def predict_proba(self,X):
33 |         if self.omega is None:
34 |             raise RuntimeError('cant predict before fit')
35 |         n_samples = X.shape[0]
36 |         extra = np.ones((n_samples,))
37 |         X = np.c_[X, extra]
38 |         omega_mu = X.dot(self.omega)
39 |         d1=np.sqrt((omega_mu-self.omega_mu_1)**2)
40 |         d0=np.sqrt((omega_mu-self.omega_mu_0)**2)
41 |         prob_0=d1/(d0+d1)
42 |         prob_1=1-prob_0
43 |         return np.column_stack([prob_0, prob_1])
44 | 
45 |     def predict(self,X):
46 |         p = self.predict_proba(X)
47 |         res = np.argmax(p, axis=1)
48 |         return res
49 | 
50 | 
51 | if __name__=='__main__':
52 |     np.random.seed(42)
53 |     breast_data = load_breast_cancer()
54 |     X, y = breast_data.data, breast_data.target
55 |     X = MinMaxScaler().fit_transform(X)
56 |     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
57 |     lda = LDA()
58 |     lda.fit(X_train, y_train)
59 |     lda_prob = lda.predict_proba(X_test)
60 |     lda_pred = lda.predict(X_test)
61 |     #print('tinyml lda_prob:', lda_prob)
62 |     #print('tinyml lda_pred:', lda_pred)
63 |     print('tinyml accuracy:', len(y_test[y_test == lda_pred]) * 1. / len(y_test))
64 | 
65 | 
66 |     sklearn_lda = discriminant_analysis.LinearDiscriminantAnalysis()
67 |     sklearn_lda.fit(X_train,y_train)
68 |     sklearn_prob=sklearn_lda.predict_proba(X_test)
69 |     sklearn_pred=sklearn_lda.predict(X_test)
70 |     #print('sklearn prob:',sklearn_prob)
71 |     #print('sklearn pred:',sklearn_pred)
72 |     print('sklearn accuracy:',len(y_test[y_test==sklearn_pred])*1./len(y_test))
73 | 


--------------------------------------------------------------------------------
/tinyml/discriminant_analysis/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/discriminant_analysis/__init__.py


--------------------------------------------------------------------------------
/tinyml/discriminant_analysis/__pycache__/GDA.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/discriminant_analysis/__pycache__/GDA.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/discriminant_analysis/__pycache__/LDA.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/discriminant_analysis/__pycache__/LDA.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/discriminant_analysis/__pycache__/__init__.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/discriminant_analysis/__pycache__/__init__.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/ensemble/AdaBoostClassifier.py:
--------------------------------------------------------------------------------
 1 | """
 2 | 只针对2分类
 3 | 自己实现的DecisionTreeClassifier没有实现 sample_weight参数
 4 | 重点在AdaBoost， 使用sklearn的DecisionTreeClassifier作为基学习器
 5 | """
 6 | import numpy as np
 7 | import copy
 8 | from sklearn.tree import DecisionTreeClassifier
 9 | from sklearn.ensemble import AdaBoostClassifier as sklearnAdaBoostClassifier
10 | import sklearn.datasets as datasets
11 | 
12 | class AdaBoostClassifier:
13 |     def __init__(self, base_estimator=None, n_estimators=300,method='re-weighting'):
14 |         self.base_estimator = base_estimator
15 |         self.n_estimators = n_estimators
16 |         self.method=method
17 |         self.hs_ = []
18 |         self.epsilons_ = []
19 |         self.alphas_ = []
20 |         self.Ds_ = []
21 | 
22 |     def fit(self, X, y):
23 |         m = X.shape[0]
24 |         self.Ds_.append(np.ones((m,)) / m)
25 |         for t in range(self.n_estimators):
26 |             ht = self.base_estimator
27 |             if self.method=='re-weighting':
28 |                 ht.fit(X, y, self.Ds_[t])
29 |             elif self.method=='re-sampling':
30 |                 sample_indices=np.random.choice(range(m),size=m,p=self.Ds_[t])
31 |                 ht.fit(X[sample_indices],y[sample_indices])
32 |             y_pred = ht.predict(X).astype(np.int32)
33 |             valid_indices = (y != y_pred)
34 |             mask = np.ones((len(y),))
35 |             mask[valid_indices] = 0
36 |             epsilon_t = 1 - np.sum(self.Ds_[t] * mask)
37 |             if epsilon_t > 0.5:
38 |                 break
39 |             self.hs_.append(copy.copy(ht))
40 |             self.epsilons_.append(epsilon_t)
41 |             alpha_t = 0.5 * np.log((1 - epsilon_t) / epsilon_t)
42 |             self.alphas_.append(alpha_t)
43 |             self.Ds_.append(self.Ds_[t] * np.exp(-alpha_t * y * y_pred))
44 |             self.Ds_[t + 1] = self.Ds_[t + 1] / np.sum(self.Ds_[t + 1])
45 | 
46 | 
47 |     @classmethod
48 |     def calc_epsilon(clf, D, y_target, y_pred):
49 |         return 1 - np.sum(D[y_target == y_pred])
50 | 
51 |     def predict(self, X):
52 |         H=np.zeros((X.shape[0],))
53 |         for t in range(len(self.alphas_)):
54 |            H+=(self.alphas_[t]*self.hs_[t].predict(X))
55 |         return np.sign(H)
56 | 
57 | 
58 | if __name__ == '__main__':
59 |     breast_data = datasets.load_breast_cancer()
60 |     X, y = breast_data.data, breast_data.target
61 |     y = 2 * y - 1
62 |     X_train, y_train = X[:200], y[:200]
63 |     X_test, y_test = X[200:], y[200:]
64 |     base_estimator=DecisionTreeClassifier(max_depth=1,random_state=False)
65 | 
66 |     sklearn_decision_tree = DecisionTreeClassifier(max_depth=1)
67 |     sklearn_decision_tree.fit(X_train, y_train)
68 |     y_pred_decison_tree = sklearn_decision_tree.predict(X_test)
69 |     print('single decision tree:', len(y_test[y_pred_decison_tree == y_test]) * 1.0 / len(y_test))
70 | 
71 |     print('tinyml:')
72 |     adaboost_clf = AdaBoostClassifier(n_estimators=100,base_estimator=base_estimator,method='re-weighting')
73 |     adaboost_clf.fit(X_train, y_train)
74 |     y_pred = adaboost_clf.predict(X_test)
75 |     print('adaboost y_pred:', len(y_test[y_pred == y_test]) * 1. / len(y_test))
76 | 
77 |     print('sklearn:')
78 |     sklearn_adboost_clf = sklearnAdaBoostClassifier(n_estimators=100, random_state=False, algorithm='SAMME',
79 |                                                     base_estimator=base_estimator)
80 |     sklearn_adboost_clf.fit(X_train, y_train)
81 |     sklearn_y_pred = sklearn_adboost_clf.predict(X_test)
82 |     print('sklearn adaboost y_pred:', len(y_test[y_test == sklearn_y_pred]) * 1. / len(y_test))
83 | 
84 | 


--------------------------------------------------------------------------------
/tinyml/ensemble/GradientBoostingRegressor.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | from sklearn import datasets
 3 | from sklearn.metrics import mean_squared_error
 4 | from sklearn import ensemble
 5 | import copy
 6 | from sklearn import tree
 7 | 
 8 | """
 9 | loss使用均方误差
10 | 残差为 y-y_pred
11 | 李航《统计学习方法》 p151
12 | """
13 | class GradientBoostingRegressor:
14 |     def __init__(self,base_estimator=None,n_estimators=10,lr=0.1):
15 |         self.base_estimator=base_estimator
16 |         self.n_esimators=n_estimators
17 |         self.estimators=[]
18 |         self.lr=lr
19 |         self.mean=None
20 | 
21 |     def fit(self,X,y):
22 |         F0_x=np.ones_like(y)*np.mean(y)
23 |         y_pred=F0_x
24 |         self.mean=np.mean(y)
25 |         for i in range(self.n_esimators):
26 |             hm=copy.deepcopy(self.base_estimator)
27 |             hm.fit(X,y-y_pred)
28 |             self.estimators.append(hm)
29 |             y_pred=y_pred+self.lr*hm.predict(X)
30 | 
31 |     def predict(self,X):
32 |         y=self.mean*np.ones((X.shape[0],))
33 |         for i in range(self.n_esimators):
34 |             y=y+self.lr*self.estimators[i].predict(X)
35 |         return y
36 | 
37 | 
38 | if __name__=='__main__':
39 |     breast_data = datasets.load_boston()
40 |     X, y = breast_data.data, breast_data.target
41 |     print(X.shape)
42 |     X_train, y_train = X[:400], y[:400]
43 |     X_test, y_test = X[400:], y[400:]
44 | 
45 |     sklearn_decisiontree_reg=tree.DecisionTreeRegressor(min_samples_split=15, min_samples_leaf=5,random_state=False)
46 |     sklearn_decisiontree_reg.fit(X_train, y_train)
47 |     decisiontree_pred=sklearn_decisiontree_reg.predict(X_test)
48 |     print('base estimator:',mean_squared_error(y_test,decisiontree_pred))
49 | 
50 |     tinyml_gbdt_reg=GradientBoostingRegressor(n_estimators=500, base_estimator=tree.DecisionTreeRegressor(min_samples_split=15, min_samples_leaf=5, random_state=False))
51 |     tinyml_gbdt_reg.fit(X_train, y_train)
52 |     y_pred=tinyml_gbdt_reg.predict(X_test)
53 |     print('tinyml mse:',mean_squared_error(y_test,y_pred))
54 | 
55 | 
56 |     sklearn_gbdt_reg=ensemble.GradientBoostingRegressor(n_estimators=500,min_samples_leaf=5,min_samples_split=15,random_state=False)
57 |     sklearn_gbdt_reg.fit(X_train,y_train)
58 |     sklearn_pred=sklearn_gbdt_reg.predict(X_test)
59 |     print('sklearn mse:',mean_squared_error(y_test,sklearn_pred))
60 | 


--------------------------------------------------------------------------------
/tinyml/ensemble/RandomForestRegressor.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | from sklearn import datasets,ensemble,tree
 3 | from sklearn.metrics import mean_squared_error
 4 | 
 5 | class RandomForestRegressor:
 6 |     def __init__(self,base_estimator,n_estimators=10,min_samples_leaf=5,min_samples_split=15):
 7 |         self.base_estimator=base_estimator
 8 |         self.n_estimators=n_estimators
 9 |         self.min_samples_split=min_samples_split
10 |         self.min_samples_leaf=min_samples_leaf
11 |         self.estimators_=[]
12 | 
13 |     def fit(self,X,y):
14 |         for t in range(self.n_estimators):
15 |             estimator_t=self.base_estimator(random_state=True,min_samples_split=self.min_samples_split,min_samples_leaf=self.min_samples_leaf)
16 |             estimator_t.fit(X,y)
17 |             self.estimators_.append(estimator_t)
18 | 
19 |     def predict(self,X):
20 |         preds=[]
21 |         for t in range(self.n_estimators):
22 |             preds.append(self.estimators_[t].predict(X))
23 |         return np.mean(np.array(preds),axis=0)
24 | 
25 | 
26 | if __name__=='__main__':
27 |     breast_data = datasets.load_boston()
28 |     X, y = breast_data.data, breast_data.target
29 |     X_train, y_train = X[:400], y[:400]
30 |     X_test, y_test = X[400:], y[400:]
31 | 
32 |     tinyml_decisiontree_reg=tree.DecisionTreeRegressor(min_samples_split=20, min_samples_leaf=5,random_state=True)
33 |     tinyml_decisiontree_reg.fit(X_train, y_train)
34 |     decisiontree_pred=tinyml_decisiontree_reg.predict(X_test)
35 |     print('base estimator:',mean_squared_error(y_test,decisiontree_pred))
36 | 
37 |     tinyml_rf_reg=RandomForestRegressor(n_estimators=100, base_estimator=tree.DecisionTreeRegressor)
38 |     tinyml_rf_reg.fit(X_train,y_train)
39 |     y_pred=tinyml_rf_reg.predict(X_test)
40 |     print('tinyml rf mse:',mean_squared_error(y_test,y_pred))
41 | 
42 |     sklearn_rf_reg=ensemble.RandomForestRegressor(n_estimators=100, min_samples_leaf=5, min_samples_split=20, random_state=False)
43 |     sklearn_rf_reg.fit(X_train, y_train)
44 |     sklearn_pred=sklearn_rf_reg.predict(X_test)
45 |     print('sklearn mse:',mean_squared_error(y_test,sklearn_pred))
46 | 


--------------------------------------------------------------------------------
/tinyml/ensemble/XGBRegressor.py:
--------------------------------------------------------------------------------
  1 | import numpy as np
  2 | import abc
  3 | from sklearn import datasets,tree
  4 | from sklearn.metrics import mean_squared_error
  5 | import xgboost as xgb
  6 | np.random.seed(1)
  7 | 
  8 | class LossBase(object):
  9 |     def __init__(self,y_target,y_pred):
 10 |         self.y_target=y_target
 11 |         self.y_pred=y_pred
 12 |         pass
 13 | 
 14 |     @abc.abstractmethod
 15 |     def forward(self):
 16 |         raise NotImplementedError
 17 | 
 18 |     @abc.abstractmethod
 19 |     def g(self):
 20 |         raise NotImplementedError
 21 | 
 22 |     @abc.abstractmethod
 23 |     def h(self):
 24 |         raise NotImplementedError
 25 | 
 26 | class MSELoss(LossBase):
 27 |     def __init__(self,y_target,y_pred):
 28 |         super(MSELoss,self).__init__(y_target,y_pred)
 29 | 
 30 |     def forward(self):
 31 |         return (self.y_target-self.y_pred)**2
 32 | 
 33 |     def g(self):
 34 |         return 2*(self.y_pred-self.y_target)
 35 | 
 36 |     def h(self):
 37 |         return 2*np.ones_like(self.y_target)
 38 | 
 39 | class CART:
 40 | 
 41 |     def __init__(self, reg_lambda=1, gamma=0., max_depth=3,col_sample_ratio=0.5,row_sample_ratio=1.):
 42 |         self.reg_lambda=reg_lambda
 43 |         self.gamma=gamma
 44 |         self.max_depth=max_depth
 45 |         self.tree = None
 46 |         self.leaf_nodes=0
 47 |         self.obj_val=0.
 48 |         self.col_sample_ratio=col_sample_ratio
 49 |         self.row_sample_ratio=row_sample_ratio
 50 | 
 51 |     def fit(self, X, y,g,h):
 52 |         D = {}
 53 |         D['X'] = X
 54 |         D['y'] = y
 55 |         A = np.arange(X.shape[1])
 56 |         m=len(y)
 57 |         self.tree = self.TreeGenerate(D,A,g,h,np.array(range(m)),0)
 58 |         self.obj_val=-0.5*self.obj_val+self.gamma*self.leaf_nodes
 59 | 
 60 |     def predict(self, X):
 61 |         if self.tree is None:
 62 |             raise RuntimeError('cant predict before fit')
 63 |         y_pred = []
 64 |         for i in range(X.shape[0]):
 65 |             tree = self.tree
 66 |             x = X[i]
 67 |             while True:
 68 |                 if not isinstance(tree, dict):
 69 |                     y_pred.append(tree)
 70 |                     break
 71 |                 a = list(tree.keys())[0]
 72 |                 tree = tree[a]
 73 |                 if isinstance(tree, dict):
 74 |                     val = x[a]
 75 |                     split_val=float(list(tree.keys())[0][1:])
 76 |                     if val<=split_val:
 77 |                         tree=tree[list(tree.keys())[0]]
 78 |                     else:
 79 |                         tree=tree[list(tree.keys())[1]]
 80 |                 else:
 81 |                     y_pred.append(tree)
 82 |                     break
 83 |         return np.array(y_pred)
 84 | 
 85 |     def TreeGenerate(self, D, A,g,h,indices,depth):
 86 |         X = D['X']
 87 |         if depth>self.max_depth:
 88 |             G=np.sum(g[indices])
 89 |             H=np.sum(h[indices])
 90 |             w=-(G/(H+self.reg_lambda))
 91 |             self.obj_val+=(G**2/(H+self.reg_lambda))
 92 |             self.leaf_nodes+=1
 93 |             return w
 94 |         split_j=None
 95 |         split_s=None
 96 |         max_gain=0.
 97 | 
 98 |         col_sample_indices=np.random.choice(A,size=int(len(A)*self.col_sample_ratio))
 99 |         indices=np.random.choice(indices,size=int(len(indices)*self.row_sample_ratio))
100 | 
101 |         for j in A:
102 |             if j not in col_sample_indices:
103 |                 continue
104 |             for s in np.unique(X[:,j]):
105 |                 tmp_left=np.where(X[indices,j]<=s)[0]
106 |                 tmp_right=np.where(X[indices,j]>s)[0]
107 |                 if len(tmp_left)<1 or len(tmp_right)<1:
108 |                     continue
109 |                 left_indices=indices[tmp_left]
110 |                 right_indices=indices[tmp_right]
111 |                 G_L=np.sum(g[left_indices])
112 |                 G_R=np.sum(g[right_indices])
113 |                 H_L=np.sum(h[left_indices])
114 |                 H_R=np.sum(h[right_indices])
115 |                 gain=  (G_L ** 2 / (H_L + self.reg_lambda) + G_R ** 2 / (H_R + self.reg_lambda) - (G_L + G_R) ** 2 / (H_L + H_R + self.reg_lambda)) - self.gamma
116 |                 if gain>max_gain:
117 |                     split_j=j
118 |                     split_s=s
119 |                     max_gain=gain
120 | 
121 |         if split_j is None:
122 |             G = np.sum(g[indices])
123 |             H = np.sum(h[indices])
124 |             w = -(G / (H + self.reg_lambda))
125 |             self.obj_val += (G ** 2 / (H + self.reg_lambda))
126 |             self.leaf_nodes += 1
127 |             return w
128 | 
129 |         tree = {split_j: {}}
130 |         left_indices=indices[np.where(X[indices,split_j]<=split_s)[0]]
131 |         right_indices=indices[np.where(X[indices,split_j]>split_s)[0]]
132 |         tree[split_j]['l'+str(split_s)]=self.TreeGenerate(D,A,g,h,left_indices,depth+1)
133 |         tree[split_j]['r'+str(split_s)]=self.TreeGenerate(D,A,g,h,right_indices,depth+1)
134 |         # 当前节点值
135 |         tree[split_j]['val']= -(np.sum(g[indices]) / (np.sum(h[indices]) + self.reg_lambda))
136 |         return tree
137 | 
138 | """
139 | 使用MSELoss
140 | 按照陈天奇的xgboost PPT实现
141 | """
142 | class XGBRegressor:
143 |     def __init__(self, reg_lambda=1, gamma=0., max_depth=5, n_estimators=250, eta=.1):
144 |         self.reg_lambda=reg_lambda
145 |         self.gamma=gamma
146 |         self.max_depth=max_depth
147 |         self.n_estimators=n_estimators
148 |         self.eta=eta
149 |         self.mean=None
150 |         self.estimators_=[]
151 | 
152 |     def fit(self,X,y):
153 |         self.mean=np.mean(y)
154 |         y_pred = np.ones_like(y)*self.mean
155 |         loss = MSELoss(y, y_pred)
156 |         g, h = loss.g(), loss.h()
157 |         for t in range(self.n_estimators):
158 |             estimator_t=CART(self.reg_lambda, self.gamma, self.max_depth)
159 |             y_target=y-y_pred
160 |             estimator_t.fit(X,y_target,g,h)
161 |             self.estimators_.append(estimator_t)
162 |             y_pred+=(self.eta*estimator_t.predict(X))
163 |             loss=MSELoss(y,y_pred)
164 |             g,h=loss.g(),loss.h()
165 | 
166 |     def predict(self,X):
167 |         y_pred=np.ones((X.shape[0],))*self.mean
168 |         for t in range(self.n_estimators):
169 |             y_pred+=(self.eta*self.estimators_[t].predict(X))
170 |         return y_pred
171 | 
172 | if __name__=='__main__':
173 |     breast_data = datasets.load_boston()
174 |     X, y = breast_data.data, breast_data.target
175 | 
176 |     X_train, y_train = X[:400], y[:400]
177 |     X_test, y_test = X[400:], y[400:]
178 | 
179 |     sklearn_decisiontree_reg=tree.DecisionTreeRegressor(min_samples_split=15, min_samples_leaf=5,random_state=False)
180 |     sklearn_decisiontree_reg.fit(X_train, y_train)
181 |     decisiontree_pred=sklearn_decisiontree_reg.predict(X_test)
182 |     print('base estimator:',mean_squared_error(y_test,decisiontree_pred))
183 | 
184 |     tinyml_gbdt_reg=XGBRegressor(n_estimators=100,max_depth=3,gamma=0.)
185 |     tinyml_gbdt_reg.fit(X_train, y_train)
186 |     y_pred=tinyml_gbdt_reg.predict(X_test)
187 |     print('tinyml mse:',mean_squared_error(y_test,y_pred))
188 | 
189 |     xgb_reg=xgb.sklearn.XGBRegressor(max_depth=3,learning_rate=0.1,n_estimators=100,gamma=0,reg_lambda=1)
190 |     xgb_reg.fit(X_train,y_train)
191 |     xgb_pred=xgb_reg.predict(X_test)
192 |     print('xgb  mse:',mean_squared_error(y_test,xgb_pred))
193 | 


--------------------------------------------------------------------------------
/tinyml/ensemble/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/ensemble/__init__.py


--------------------------------------------------------------------------------
/tinyml/ensemble/__pycache__/AdaBoostClassifier.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/ensemble/__pycache__/AdaBoostClassifier.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/ensemble/__pycache__/GradientBoostingRegressor.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/ensemble/__pycache__/GradientBoostingRegressor.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/ensemble/__pycache__/RandomForestRegressor.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/ensemble/__pycache__/RandomForestRegressor.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/ensemble/__pycache__/XGBRegressor.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/ensemble/__pycache__/XGBRegressor.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/ensemble/__pycache__/__init__.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/ensemble/__pycache__/__init__.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/factorization_machine/FMClassifier.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | from sklearn import linear_model
 3 | from sklearn.datasets import load_breast_cancer
 4 | from sklearn.model_selection import train_test_split
 5 | from sklearn.preprocessing import MinMaxScaler
 6 | import math
 7 | np.random.seed(0)
 8 | import torch
 9 | from torch import nn,optim
10 | class SGDFMClassifier:
11 |     class FMClassifier(nn.Module):
12 |         def __init__(self,n_features,loss='logistic',degree=2,n_components=2):
13 |             super(SGDFMClassifier.FMClassifier,self).__init__()
14 |             self.loss=loss
15 |             self.degree=degree
16 |             self.n_components=n_components
17 |             self.linear=nn.Linear(n_features,1)
18 |             self.v=nn.Parameter(torch.Tensor(n_features,self.n_components))
19 |             stdev=1./math.sqrt(self.v.size(1))
20 |             self.v.data.uniform_(-stdev,stdev)
21 |             self.sigmoid=nn.Sigmoid()
22 | 
23 |         def forward(self,X):
24 |             y=self.linear(X)+0.5*torch.sum(torch.pow(torch.mm(X,self.v),2)-
25 |                                            torch.mm(torch.pow(X,2),torch.pow(self.v,2)))
26 |             return self.sigmoid(y)
27 | 
28 |     def __init__(self,max_iter=100000,learning_rate=0.005):
29 |         self.max_iter=max_iter
30 |         self.learning_rate=learning_rate
31 |         self.criterion=nn.BCELoss()
32 |         self.fitted=False
33 | 
34 |     def fit(self,X,y):
35 |         n_feature=X.shape[1]
36 |         self.model=self.FMClassifier(n_feature)
37 |         self.optimizer=optim.SGD(self.model.parameters(),lr=self.learning_rate)
38 |         X=torch.from_numpy(X.astype(np.float32))
39 |         y=torch.from_numpy(y.astype(np.float32))
40 |         for epoch in range(self.max_iter):
41 |             y_predict=self.model(X)[:,0]
42 |             loss=self.criterion(y_predict,y)
43 |             #print('epoch:',epoch,' loss.item():',loss.item())
44 |             self.optimizer.zero_grad()
45 |             loss.backward()
46 |             self.optimizer.step()
47 | 
48 |     def predict(self,X):
49 |         X = torch.from_numpy(X.astype(np.float32))
50 |         with torch.no_grad():
51 |             y_pred = self.model(X).detach().numpy()
52 |             y_pred[y_pred>0.5]=1
53 |             y_pred[y_pred<=0.5]=0
54 |         return y_pred[:,0]
55 | 
56 | if __name__=='__main__':
57 |     breast_data = load_breast_cancer()
58 |     X, y = breast_data.data[:, :7], breast_data.target
59 |     X = MinMaxScaler().fit_transform(X)
60 |     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
61 | 
62 |     torch_mfclassifier = SGDFMClassifier(20000, 0.001)
63 |     torch_mfclassifier.fit(X_train, y_train)
64 |     torch_pred = torch_mfclassifier.predict(X_test)
65 |     print('torch accuracy:', len(y_test[y_test == torch_pred]) / len(y_test))


--------------------------------------------------------------------------------
/tinyml/factorization_machine/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/factorization_machine/__init__.py


--------------------------------------------------------------------------------
/tinyml/feature_selection/ReliefFeatureSelection.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | from sklearn.preprocessing import MinMaxScaler
 3 | from sklearn.datasets import load_breast_cancer
 4 | import random
 5 | 
 6 | # 处理连续型
 7 | class ReliefFeatureSelection:
 8 |     def __init__(self,sample_ratio=0.5,k=5,seed=None):
 9 |         self.feature_importances_=None
10 |         self.k=k
11 |         self.sample_ratio=sample_ratio
12 |         self.seed=seed
13 |         random.seed(self.seed)
14 | 
15 |     def fit(self,X,y):
16 |         m,n=X.shape
17 |         self.feature_importances_=np.zeros((n,))
18 |         for t in range(self.k):
19 |             indices=random.sample(range(m),int(m*self.sample_ratio))
20 |             subX,suby=X[indices],y[indices]
21 |             self.feature_importances_+=self._fit(subX,suby)
22 |         self.feature_importances_/=self.k
23 | 
24 | 
25 |     def transform(self,X,k_features):
26 |         choosed_indices=np.argsort(self.feature_importances_)[::-1][:k_features]
27 |         return X[:,choosed_indices]
28 | 
29 |     def _fit(self,subX,suby):
30 |         label_to_indices = {}
31 |         labels = np.unique(suby)
32 |         for label in labels:
33 |             label_to_indices[label] = list(np.where(suby == label)[0])
34 |         m, n = subX.shape
35 |         feature_scores_ = np.zeros((n,))
36 |         for j in range(n):
37 |             for i in range(m):
38 |                 label_i = suby[i]
39 |                 xi_nhs = (subX[i, j] - subX[label_to_indices[label_i], j]) ** 2
40 |                 if len(xi_nhs) == 1:
41 |                     xi_nh = 0
42 |                 else:
43 |                     xi_nh = np.sort(xi_nhs)[1]
44 |                 feature_scores_[j] -= xi_nh
45 |                 for label in labels:
46 |                     if label == label_i:
47 |                         continue
48 |                     xi_nm = np.sort((subX[i, j] - subX[label_to_indices[label], j]) ** 2)[0]
49 |                     feature_scores_[j] += (xi_nm * len(label_to_indices[label]) / m)
50 |         return feature_scores_
51 | 
52 | 
53 | if __name__=='__main__':
54 |     breast_data = load_breast_cancer()
55 |     subX, suby = breast_data.data, breast_data.target
56 |     scaler=MinMaxScaler()
57 |     subX=scaler.fit_transform(subX)
58 |     reliefF=ReliefFeatureSelection()
59 |     reliefF.fit(subX, suby)
60 |     print('relief feature_importances:',reliefF.feature_importances_)
61 |     print('sorted:',np.argsort(reliefF.feature_importances_))
62 | 
63 |     import skrebate.relieff as relieff
64 |     skrebate_reliefF=relieff.ReliefF()
65 |     skrebate_reliefF.fit(subX, suby)
66 |     print('skrebate feature_importances_:',skrebate_reliefF.feature_importances_)
67 |     print('sorted:',np.argsort(skrebate_reliefF.feature_importances_))
68 | 
69 | 
70 | 
71 | 
72 | 
73 | 


--------------------------------------------------------------------------------
/tinyml/feature_selection/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/feature_selection/__init__.py


--------------------------------------------------------------------------------
/tinyml/linear_model/LinearRegression.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | from sklearn import linear_model
 3 | 
 4 | 
 5 | class LinearRegression:
 6 |     def __init__(self):
 7 |         self.w=None
 8 |         self.n_features=None
 9 | 
10 |     def fit(self,X,y):
11 |         """
12 |         w=(X^TX)^{-1}X^Ty
13 |         """
14 |         assert isinstance(X,np.ndarray) and isinstance(y,np.ndarray)
15 |         assert X.ndim==2 and y.ndim==1
16 |         assert y.shape[0]==X.shape[0]
17 |         n_samples = X.shape[0]
18 |         self.n_features=X.shape[1]
19 |         extra=np.ones((n_samples,))
20 |         X=np.c_[X,extra]
21 |         if self.n_features<n_samples:
22 |             self.w=np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)
23 |         else:
24 |             raise ValueError('dont have enough samples')
25 | 
26 |     def predict(self,X):
27 |         n_samples=X.shape[0]
28 |         extra = np.ones((n_samples,))
29 |         X = np.c_[X, extra]
30 |         if self.w is None:
31 |             raise RuntimeError('cant predict before fit')
32 |         y_=X.dot(self.w)
33 |         return y_
34 | 
35 | if __name__=='__main__':
36 |     X=np.array([[1.0,0.5,0.5],[1.0,1.0,0.3],[-0.1,1.2,0.5],[1.5,2.4,3.2],[1.3,0.2,1.4]])
37 |     y=np.array([1,0.5,1.5,2,-0.3])
38 |     lr=LinearRegression()
39 |     lr.fit(X,y)
40 |     X_test=np.array([[1.3,1,3.2],[-1.2,1.2,0.8]])
41 |     y_pre=lr.predict(X_test)
42 |     print(y_pre)
43 | 
44 |     sklearn_lr=linear_model.LinearRegression()
45 |     sklearn_lr.fit(X,y)
46 |     sklearn_y_pre=sklearn_lr.predict(X_test)
47 |     print(sklearn_y_pre)
48 | 
49 |     ridge_reg = linear_model.Ridge(alpha=0., solver='lsqr')
50 |     ridge_reg.fit(X, y)
51 |     ridge_y_pre=ridge_reg.predict(X_test)
52 |     print(ridge_y_pre)
53 | 
54 | 
55 | 


--------------------------------------------------------------------------------
/tinyml/linear_model/LocallyWeightedLinearRegression.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | import matplotlib.pyplot as plt
 3 | """
 4 | implementation of Locally weighted linear regression in http://cs229.stanford.edu/notes/cs229-notes1.pdf
 5 | """
 6 | class LocallyWeightedLinearRegression:
 7 |     def __init__(self,tau):
 8 |         self.tau=tau
 9 |         self.w=None
10 | 
11 |     def fit_predict(self,X,y,checkpoint_x):
12 |         m = X.shape[0]
13 |         self.n_features = X.shape[1]
14 |         extra = np.ones((m,))
15 |         X = np.c_[X, extra]
16 |         checkpoint_x=np.r_[checkpoint_x,1]
17 |         self.X=X
18 |         self.y=y
19 |         self.checkpoint_x=checkpoint_x
20 |         weight=np.zeros((m,))
21 |         for i in range(m):
22 |             weight[i]=np.exp(-(X[i]-checkpoint_x).dot((X[i]-checkpoint_x).T)/(2*(self.tau**2)))
23 |         weight_matrix=np.diag(weight)
24 |         self.w=np.linalg.inv(X.T.dot(weight_matrix).dot(X)).dot(X.T).dot(weight_matrix).dot(y)
25 |         return checkpoint_x.dot(self.w)
26 | 
27 |     def fit_transform(self,X,y,checkArray):
28 |         m=len(y)
29 |         preds=[]
30 |         for i in range(m):
31 |             preds.append(self.fit_predict(X,y,checkArray[i]))
32 |         return np.array(preds)
33 | 
34 | 
35 | if __name__=='__main__':
36 |     X=np.linspace(0,30,100)
37 |     y=X**2+2
38 |     X=X.reshape(-1,1)
39 |     lr=LocallyWeightedLinearRegression(tau=100)
40 |     y_pred=lr.fit_transform(X,y,X)
41 |     plt.plot(X,y,label='gt')
42 |     plt.plot(X,y_pred,label='pred')
43 |     plt.legend()
44 |     plt.show()
45 | 
46 | 


--------------------------------------------------------------------------------
/tinyml/linear_model/LogisticRegression.py:
--------------------------------------------------------------------------------
  1 | import numpy as np
  2 | from sklearn import linear_model
  3 | from sklearn.datasets import load_breast_cancer
  4 | from sklearn.model_selection import train_test_split
  5 | from sklearn.preprocessing import MinMaxScaler
  6 | np.random.seed(42)
  7 | import torch
  8 | from torch import nn,optim
  9 | 
 10 | 
 11 | class SGDLogisticRegression:
 12 |     class LogisticRegressionModel(nn.Module):
 13 |         def __init__(self,n_features):
 14 |             super(SGDLogisticRegression.LogisticRegressionModel,self).__init__()
 15 |             self.linear=nn.Linear(n_features,1)
 16 |             self.sigmoid=nn.Sigmoid()
 17 | 
 18 |         def forward(self,X):
 19 |             return self.sigmoid(self.linear(X))
 20 | 
 21 |     def __init__(self,max_iter=100000,learning_rate=0.005):
 22 |         self.max_iter=max_iter
 23 |         self.learning_rate=learning_rate
 24 |         self.criterion=nn.BCELoss()
 25 |         self.fitted=False
 26 | 
 27 |     def fit(self,X,y):
 28 |         n_feature=X.shape[1]
 29 |         self.model=SGDLogisticRegression.LogisticRegressionModel(n_feature)
 30 |         self.optimizer=optim.SGD(self.model.parameters(),lr=self.learning_rate)
 31 |         X=torch.from_numpy(X.astype(np.float32))
 32 |         y=torch.from_numpy(y.astype(np.float32))
 33 |         for epoch in range(self.max_iter):
 34 |             y_predict=self.model(X)[:,0]
 35 |             loss=self.criterion(y_predict,y)
 36 |             #print('epoch:',epoch,' loss.item():',loss.item())
 37 |             self.optimizer.zero_grad()
 38 |             loss.backward()
 39 |             self.optimizer.step()
 40 | 
 41 |     def predict(self,X):
 42 |         X = torch.from_numpy(X.astype(np.float32))
 43 |         with torch.no_grad():
 44 |             y_pred = self.model(X).detach().numpy()
 45 |             y_pred[y_pred>0.5]=1
 46 |             y_pred[y_pred<=0.5]=0
 47 |         return y_pred[:,0]
 48 | 
 49 | 
 50 | class LogisticRegression:
 51 |     def __init__(self,max_iter=100,use_matrix=True):
 52 |         self.beta=None
 53 |         self.n_features=None
 54 |         self.max_iter=max_iter
 55 |         self.use_Hessian=use_matrix
 56 | 
 57 |     def fit(self,X,y):
 58 |         n_samples=X.shape[0]
 59 |         self.n_features=X.shape[1]
 60 |         extra=np.ones((n_samples,))
 61 |         X=np.c_[X,extra]
 62 |         self.beta=np.random.random((X.shape[1],))
 63 |         for i in range(self.max_iter):
 64 |             if self.use_Hessian is not True:
 65 |                 dldbeta=self._dldbeta(X,y,self.beta)
 66 |                 dldldbetadbeta=self._dldldbetadbeta(X,self.beta)
 67 |                 self.beta-=(1./dldldbetadbeta*dldbeta)
 68 |             else:
 69 |                 dldbeta = self._dldbeta(X, y, self.beta)
 70 |                 dldldbetadbeta = self._dldldbetadbeta_matrix(X, self.beta)
 71 |                 self.beta -= (np.linalg.inv(dldldbetadbeta).dot(dldbeta))
 72 | 
 73 | 
 74 | 
 75 |     @staticmethod
 76 |     def _dldbeta(X,y,beta):
 77 |         # 《机器学习》 公式 3.30
 78 |         m=X.shape[0]
 79 |         sum=np.zeros(X.shape[1],).T
 80 |         for i in range(m):
 81 |             sum+=X[i]*(y[i]-np.exp(X[i].dot(beta))/(1+np.exp(X[i].dot(beta))))
 82 |         return -sum
 83 | 
 84 |     @staticmethod
 85 |     def _dldldbetadbeta_matrix(X,beta):
 86 |         m=X.shape[0]
 87 |         Hessian=np.zeros((X.shape[1],X.shape[1]))
 88 |         for i in range(m):
 89 |             p1 = np.exp(X[i].dot(beta)) / (1 + np.exp(X[i].dot(beta)))
 90 |             tmp=X[i].reshape((-1,1))
 91 |             Hessian+=tmp.dot(tmp.T)*p1*(1-p1)
 92 |         return Hessian
 93 | 
 94 |     @staticmethod
 95 |     def _dldldbetadbeta(X,beta):
 96 |         # 《机器学习》公式 3.31
 97 |         m=X.shape[0]
 98 |         sum=0.
 99 |         for i in range(m):
100 |             p1=np.exp(X[i].dot(beta))/(1+np.exp(X[i].dot(beta)))
101 |             sum+=X[i].dot(X[i].T)*p1*(1-p1)
102 |         return sum
103 | 
104 |     def predict_proba(self,X):
105 |         n_samples = X.shape[0]
106 |         extra = np.ones((n_samples,))
107 |         X = np.c_[X, extra]
108 |         if self.beta is None:
109 |             raise RuntimeError('cant predict before fit')
110 |         p1 = np.exp(X.dot(self.beta)) / (1 + np.exp(X.dot(self.beta)))
111 |         p0 = 1 - p1
112 |         return np.c_[p0,p1]
113 | 
114 |     def predict(self,X):
115 |         p=self.predict_proba(X)
116 |         res=np.argmax(p,axis=1)
117 |         return res
118 | 
119 | 
120 | if __name__=='__main__':
121 |     breast_data = load_breast_cancer()
122 |     X, y = breast_data.data[:,:7], breast_data.target
123 |     X = MinMaxScaler().fit_transform(X)
124 |     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
125 |     tinyml_logisticreg = LogisticRegression(max_iter=100,use_matrix=True)
126 |     tinyml_logisticreg.fit(X_train, y_train)
127 |     lda_prob = tinyml_logisticreg.predict_proba(X_test)
128 | 
129 | 
130 |     lda_pred = tinyml_logisticreg.predict(X_test)
131 |     # print('tinyml logistic_prob:', lda_prob)
132 |     # print('tinyml logistic_pred:', lda_pred)
133 |     print('tinyml accuracy:', len(y_test[y_test == lda_pred]) * 1. / len(y_test))
134 | 
135 |     sklearn_logsticreg = linear_model.LogisticRegression(max_iter=100,solver='newton-cg')
136 |     sklearn_logsticreg.fit(X_train, y_train)
137 |     sklearn_prob = sklearn_logsticreg.predict_proba(X_test)
138 |     sklearn_pred = sklearn_logsticreg.predict(X_test)
139 |     # print('sklearn prob:',sklearn_prob)
140 |     # print('sklearn pred:',sklearn_pred)
141 |     print('sklearn accuracy:', len(y_test[y_test == sklearn_pred]) * 1. / len(y_test))
142 | 
143 |     torch_sgd_logisticreg=SGDLogisticRegression(100000,0.01)
144 |     torch_sgd_logisticreg.fit(X_train,y_train)
145 |     torch_pred=torch_sgd_logisticreg.predict(X_test)
146 |     print('torch accuracy:',len(y_test[y_test==torch_pred])/len(y_test))
147 | 
148 |     # expected output
149 |     """
150 |     tinyml accuracy: 0.9590643274853801
151 |     sklearn accuracy: 0.9298245614035088
152 |     torch accuracy: 0.9532163742690059
153 |     """
154 | 
155 | 
156 | 
157 | 
158 | 
159 | 
160 | 
161 | 


--------------------------------------------------------------------------------
/tinyml/linear_model/SGDRegressor.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | from sklearn import linear_model
 3 | 
 4 | # 采用MSE作为损失函数
 5 | # penalty = 'l2' 则为 Ridge Regression
 6 | # penalty = 'l1' 则为 Lasso Regression
 7 | # penalty = 'l1l2' 则为 Elastic Net
 8 | # alpha 为 正则化系数
 9 | 
10 | # https://wwdguu.github.io/2018/09/01/%C2%96HOMLWSLATF-ch4/
11 | np.random.seed(1)
12 | class SGDRegressor:
13 |     def __init__(self,max_iter=100,penalty=None,alpha=1e-3,l1_ratio=0.5):
14 |         self.w = None
15 |         self.n_features = None
16 |         self.penalty=penalty
17 |         self.alpha=alpha
18 |         self.l1_ratio=l1_ratio
19 |         self.max_iter=max_iter
20 | 
21 |     #
22 |     def fit(self, X, y):
23 |         assert isinstance(X, np.ndarray) and isinstance(y, np.ndarray)
24 |         assert y.shape[0] == X.shape[0]
25 |         n_samples = X.shape[0]
26 |         self.n_features = X.shape[1]
27 |         extra = np.ones((n_samples,1))
28 |         X = np.c_[X,extra]
29 |         self.w=np.random.randn(X.shape[1],1)
30 |         for iter in range(self.max_iter):
31 |             for i in range(n_samples):
32 |                 sample_index=np.random.randint(n_samples)
33 |                 x_sample=X[sample_index:sample_index+1]
34 |                 y_sample=y[sample_index:sample_index+1]
35 |                 lr=SGDRegressor.learning_schedule(iter*n_samples+i)
36 |                 # 求导
37 |                 grad=2*x_sample.T.dot(x_sample.dot(self.w)-y_sample)
38 |                 if self.penalty is not None:
39 |                     # Ridge
40 |                     if self.penalty=='l2':
41 |                         grad+=self.alpha*self.w
42 |                     # Lasso
43 |                     elif self.penalty=='l1':
44 |                         grad+=self.alpha*np.sign(self.w)
45 |                     # Elastic Net
46 |                     elif self.penalty=='l1l2':
47 |                         grad+=(self.alpha*self.l1_ratio*np.sign(self.w)+
48 |                                (1-self.l1_ratio)*self.alpha*self.w)
49 | 
50 |                 self.w=self.w-lr*grad
51 | 
52 | 
53 |     def predict(self, X):
54 | 
55 |         n_samples = X.shape[0]
56 |         extra = np.ones((n_samples,1))
57 |         X = np.c_[X,extra]
58 |         if self.w is None:
59 |             raise RuntimeError('cant predict before fit')
60 |         y_ = X.dot(self.w)
61 |         return y_
62 | 
63 |     @staticmethod
64 |     def learning_schedule(t):
65 |         return 5 / (t + 50)
66 | 
67 | 
68 | if __name__ == '__main__':
69 |     X = 2 * np.random.rand(100,1)
70 |     y = 4 + 3 * X + np.random.randn(100,1)
71 |     y=y.ravel()
72 |     print(X.shape)
73 |     print(y.shape)
74 |     lr = SGDRegressor(max_iter=200,penalty='l1l2',alpha=1e-3,l1_ratio=0.5)
75 |     lr.fit(X, y)
76 |     print('w:',lr.w)
77 | 
78 |     sklearn_lr = linear_model.SGDRegressor(max_iter=200,penalty='l1',alpha=1e-3)
79 |     sklearn_lr.fit(X, y)
80 |     print(sklearn_lr.coef_)
81 |     print(sklearn_lr.intercept_)
82 | 
83 | 


--------------------------------------------------------------------------------
/tinyml/linear_model/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/linear_model/__init__.py


--------------------------------------------------------------------------------
/tinyml/linear_model/__pycache__/LinearRegression.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/linear_model/__pycache__/LinearRegression.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/linear_model/__pycache__/LogisticRegression.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/linear_model/__pycache__/LogisticRegression.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/linear_model/__pycache__/SGDRegressor.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/linear_model/__pycache__/SGDRegressor.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/linear_model/__pycache__/__init__.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/linear_model/__pycache__/__init__.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/metrices/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/metrices/__init__.py


--------------------------------------------------------------------------------
/tinyml/metrices/__pycache__/__init__.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/metrices/__pycache__/__init__.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/metrices/__pycache__/curves.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/metrices/__pycache__/curves.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/metrices/curves.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | def precision_recall_curve(y_true,pred_prob):
 3 |     probs=sorted(list(pred_prob),reverse=True)
 4 |     Rs=[]
 5 |     Ps=[]
 6 |     for i in range(1,len(probs)):
 7 |         thresh=probs[i]
 8 |         preds_p=np.where(pred_prob>=thresh)[0]
 9 |         preds_n=np.where(pred_prob<thresh)[0]
10 |         TP=len(np.where(y_true[preds_p]==1)[0])
11 |         FP=len(preds_p)-TP
12 |         FN=len(np.where(y_true[preds_n]==1)[0])
13 |         #TN=len(preds_n)-FN
14 |         R=TP/(TP+FN)
15 |         S=TP/(TP+FP)
16 |         Rs.append(R)
17 |         Ps.append(S)
18 | 
19 |     return np.array(Ps),np.array(Rs)
20 | 
21 | def roc_curve(y_true,pred_prob):
22 |     probs=sorted(list(pred_prob),reverse=True)
23 |     TPRs=[]
24 |     FPRs=[]
25 |     for i in range(1,len(probs)):
26 |         thresh = probs[i]
27 |         preds_p = np.where(pred_prob >=thresh)[0]
28 |         preds_n = np.where(pred_prob <thresh)[0]
29 |         TP = len(np.where(y_true[preds_p] == 1)[0])
30 |         FP = len(preds_p) - TP
31 |         FN = len(np.where(y_true[preds_n] == 1)[0])
32 |         # TN=len(preds_n)-FN
33 |         TN=len(preds_n)-FN
34 |         TPRs.append(TP/(TP+FN))
35 |         FPRs.append(FP/(TN+FP))
36 |     return np.array(FPRs),np.array(TPRs)
37 | 
38 | def roc_auc_score(y_true,pred_prob):
39 |     FPRs,TPRs=roc_curve(y_true,pred_prob)
40 |     auc=0.
41 |     for i in range(0,len(FPRs)-1):
42 |         auc+=0.5*(FPRs[i+1]-FPRs[i])*(TPRs[i+1]+TPRs[i])
43 |     return auc
44 | 
45 | if __name__=='__main__':
46 |     y_true=np.array([1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0])
47 |     pred_prob=np.array([0.7,0.9,0.2,0.8,0.3,0.64,0.53,0.12,0.34,0.52,0.98,0.03,0.32,0.4,
48 |                         0.8,0.21,0.01,0.67,0.32,0.08,0.05,0.8,0.34,0.8])
49 | 
50 |     import matplotlib.pyplot as plt
51 |     Ps,Rs=precision_recall_curve(y_true,pred_prob)
52 |     plt.plot(Rs,Ps,label='tinyml')
53 | 
54 |     from sklearn.metrics import precision_recall_curve as sklearn_pr_curve
55 |     Ps,Rs,_=sklearn_pr_curve(y_true,pred_prob)
56 |     plt.plot(Rs,Ps,label='sklearn')
57 |     plt.legend()
58 |     plt.title('PRC')
59 |     plt.show()
60 | 
61 |     FPR,TPR=roc_curve(y_true,pred_prob)
62 |     plt.plot(FPR,TPR,label='tinyml')
63 |     print('tinyml_auc:',roc_auc_score(y_true,pred_prob))
64 |     from sklearn.metrics import roc_curve as sklearn_roc_curve
65 |     from sklearn.metrics import roc_auc_score as sklearn_roc_auc_score
66 |     FPR,TPR,_=sklearn_roc_curve(y_true,pred_prob)
67 |     plt.plot(FPR,TPR,label='sklearn')
68 |     plt.legend()
69 |     plt.title('ROC')
70 |     plt.show()
71 |     print('sklearn auc:',sklearn_roc_auc_score(y_true,pred_prob))
72 | 


--------------------------------------------------------------------------------
/tinyml/svm/SVC.py:
--------------------------------------------------------------------------------
  1 | import numpy as np
  2 | 
  3 | """
  4 | [知乎专栏：支持向量机(SVM)——SMO算法](https://zhuanlan.zhihu.com/p/32152421)
  5 | """
  6 | np.random.seed(1)
  7 | 
  8 | class SVC:
  9 |     def __init__(self,max_iter=100,C=1,kernel='rbf',sigma=1):
 10 |         self.b=0.
 11 |         self.alpha=None
 12 |         self.max_iter=max_iter
 13 |         self.C=C
 14 |         self.kernel=kernel
 15 |         self.K=None
 16 |         self.X=None
 17 |         self.y=None
 18 |         if kernel=='rbf':
 19 |             self.sigma=sigma
 20 |         pass
 21 | 
 22 |     def kernel_func(self,kernel,x1,x2):
 23 |         if kernel=='linear':
 24 |             return x1.dot(x2.T)
 25 |         elif kernel=='rbf':
 26 |             return np.exp(-(np.sum((x1-x2)**2))/(2*self.sigma*self.sigma))
 27 | 
 28 |     def computeK(self,X,kernel):
 29 |         m=X.shape[0]
 30 |         K=np.zeros((m,m))
 31 |         for i in range(m):
 32 |             for j in range(m):
 33 |                 if i<=j:
 34 |                     K[i,j]=self.kernel_func(kernel,X[i],X[j])
 35 |                 else:
 36 |                     K[i,j]=K[j,i]
 37 |         return K
 38 | 
 39 |     def compute_u(self,X,y):
 40 |         u = np.zeros((X.shape[0],))
 41 |         for j in range(X.shape[0]):
 42 |             u[j]=np.sum(y*self.alpha*self.K[:,j])+self.b
 43 |         return u
 44 | 
 45 |     def checkKKT(self,u,y,i):
 46 |         if self.alpha[i]<self.C and y[i]*u[i]<=1:
 47 |             return False
 48 |         if self.alpha[i]>0 and y[i]*u[i]>=1:
 49 |             return False
 50 |         if (self.alpha[i]==0 or self.alpha[i]==self.C) and y[i]*u[i]==1:
 51 |             return False
 52 |         return True
 53 | 
 54 | 
 55 |     def fit(self,X,y):
 56 |         self.X=X
 57 |         self.y=y
 58 |         self.K=self.computeK(X,self.kernel)
 59 |         self.alpha=np.random.random((X.shape[0],))
 60 |         self.omiga=np.zeros((X.shape[0],))
 61 | 
 62 |         for _ in range(self.max_iter):
 63 |             u = self.compute_u(X, y)
 64 |             finish=True
 65 |             for i in range(X.shape[0]):
 66 |                 if not self.checkKKT(u,y,i):
 67 |                     finish=False
 68 |                     y_indices=np.delete(np.arange(X.shape[0]),i)
 69 |                     j=y_indices[int(np.random.random()*len(y_indices))]
 70 |                     E_i=np.sum(self.alpha*y*self.K[:,i])+self.b-y[i]
 71 |                     E_j=np.sum(self.alpha*y*self.K[:,j])+self.b-y[j]
 72 |                     if y[i]!=y[j]:
 73 |                         L=max(0,self.alpha[j]-self.alpha[i])
 74 |                         H=min(self.C,self.C+self.alpha[j]-self.alpha[i])
 75 |                     else:
 76 |                         L=max(0,self.alpha[j]+self.alpha[i]-self.C)
 77 |                         H=min(self.C,self.alpha[j]+self.alpha[i])
 78 |                     eta=self.K[i,i]+self.K[j,j]-2*self.K[i,j]
 79 |                     alpha2_new_unc=self.alpha[j]+y[j]*(E_i-E_j)/eta
 80 |                     alpha2_old=self.alpha[j]
 81 |                     alpha1_old=self.alpha[i]
 82 |                     if alpha2_new_unc>H:
 83 |                         self.alpha[j]=H
 84 |                     elif alpha2_new_unc<L:
 85 |                         self.alpha[j]=L
 86 |                     else:
 87 |                         self.alpha[j]=alpha2_new_unc
 88 |                     self.alpha[i]=alpha1_old+y[i]*y[j]*(alpha2_old-self.alpha[j])
 89 |                     b1_new=-E_i-y[i]*self.K[i,i]*(self.alpha[i]-alpha1_old)-y[j]*self.K[j,i]*(self.alpha[j]-alpha2_old)+self.b
 90 |                     b2_new=-E_j-y[i]*self.K[i,j]*(self.alpha[i]-alpha1_old)-y[j]*self.K[j,j]*(self.alpha[j]-alpha2_old)+self.b
 91 |                     if self.alpha[i]>0 and self.alpha[i]<self.C:
 92 |                         self.b=b1_new
 93 |                     elif self.alpha[j]>0 and self.alpha[j]<self.C:
 94 |                         self.b=b2_new
 95 |                     else:
 96 |                         self.b=(b1_new+b2_new)/2
 97 |             if finish:
 98 |                 break
 99 | 
100 | 
101 | 
102 |     def predict(self,X):
103 |         y_preds=[]
104 |         for i in range(X.shape[0]):
105 |             K=np.zeros((len(self.y),))
106 |             support_indices=np.where(self.alpha>0)[0]
107 |             for j in support_indices:
108 |                 K[j]=self.kernel_func(self.kernel,self.X[j],X[i])
109 |             y_pred=np.sum(self.y[support_indices]*self.alpha[support_indices]*K[support_indices].T)
110 |             y_pred+=self.b
111 |             y_preds.append(y_pred)
112 |         return np.array(y_preds)
113 | 
114 | 
115 | if __name__=='__main__':
116 | 
117 |     # 测试 线性核
118 |     X = np.array([[2, -1], [3, -2], [1, 0], [0,1],[-2,1],[-1.3,0.3],[-0.2,-0.8],[2.3,-3.3],[-2,-4],[7,8]])
119 |     y = np.array([1, 1, 1, 1,-1,-1,-1,-1,-1,1])
120 |     svc=SVC(max_iter=100,kernel='linear',C=1)
121 | 
122 |     """
123 |     # 测试rbf核
124 |     X=np.array([[1,0],[-1,0],[0,-1],[0,1],[2,np.sqrt(5)],[2,-np.sqrt(5)],[-2,np.sqrt(5)],[-2,-np.sqrt(5)],[300,400]])
125 |     y=np.array([-1,-1,-1,-1,1,1,1,1,1])
126 |     svc=SVC(max_iter=100,kernel='rbf',C=1)
127 |     """
128 |     svc.fit(X,y)
129 |     print('alpha:',svc.alpha)
130 |     print('b:',svc.b)
131 |     pred_y=svc.predict(np.array([[1,0],[-0.2,-0.1],[0,1]]))
132 |     print('pred_y1:',pred_y)
133 |     pred_y=np.sign(pred_y)
134 |     print('pred_y:',pred_y)
135 | 
136 | 
137 | 
138 | 
139 | 


--------------------------------------------------------------------------------
/tinyml/svm/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/svm/__init__.py


--------------------------------------------------------------------------------
/tinyml/svm/__pycache__/SVC.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/svm/__pycache__/SVC.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/svm/__pycache__/__init__.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/svm/__pycache__/__init__.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/tree/DecisionTreeClassifier.py:
--------------------------------------------------------------------------------
  1 | import numpy as np
  2 | """
  3 | 简单的决策树实现，算法参考 周志华《机器学习》一书
  4 | 只处理离散值，不考虑缺失值
  5 | """
  6 | from tinyml.tree.treePlotter import createPlot
  7 | np.random.seed(100)
  8 | class DecisionTreeClassifier:
  9 |     """
 10 |     决策树分类
 11 |     """
 12 |     def __init__(self,tree_type='ID3',k_classes=2):
 13 |         self.tree_type=tree_type
 14 |         self.k_classes=k_classes
 15 |         if tree_type=='ID3':
 16 |             self.gain_func=self.Gain
 17 |         elif tree_type=='CART':
 18 |             self.gain_func=self.GiniIndex
 19 |         elif tree_type=='C45':
 20 |             self.gain_func=self.GainRatio
 21 |         else:
 22 |             raise ValueError('must be ID3 or CART or C45')
 23 |         self.tree=None
 24 | 
 25 |     def fit(self,X,y):
 26 |         D={}
 27 |         D['X']=X
 28 |         D['y']=y
 29 |         A=np.arange(X.shape[1])
 30 |         aVs={}
 31 |         for a in A:
 32 |             aVs[a]=np.unique(X[:,a])
 33 |         self.tree=self.TreeGenerate(D,A,aVs)
 34 | 
 35 |     def predict(self,X):
 36 |         if self.tree is None:
 37 |             raise RuntimeError('cant predict before fit')
 38 |         y_pred=[]
 39 |         for i in range(X.shape[0]):
 40 |             tree = self.tree
 41 |             x=X[i]
 42 |             while True:
 43 |                 if not isinstance(tree,dict):
 44 |                     y_pred.append(tree)
 45 |                     break
 46 |                 a=list(tree.keys())[0]
 47 |                 tree=tree[a]
 48 |                 if isinstance(tree,dict):
 49 |                     val = x[a]
 50 |                     tree = tree[val]
 51 |                 else:
 52 |                     y_pred.append(tree)
 53 |                     break
 54 |         return np.array(y_pred)
 55 | 
 56 | 
 57 |     # p74 图4.2算法图
 58 |     def TreeGenerate(self,D,A,aVs):
 59 |         X=D['X']
 60 |         y=D['y']
 61 |         # 情形1
 62 |         unique_classes=np.unique(y)
 63 |         if len(unique_classes)==1:
 64 |             return unique_classes[0]
 65 |         flag=True
 66 |         for a in A:
 67 |             if(len(np.unique(X[:,a]))>1):
 68 |                 flag=False
 69 |                 break
 70 |         # 情形2
 71 |         if flag:
 72 |             return np.argmax(np.bincount(y))
 73 | 
 74 |         gains=np.zeros((len(A),))
 75 |         if self.tree_type=='C45':
 76 |             gains=np.zeros((len(A),2))
 77 |         for i in range(len(A)):
 78 |             gains[i]=self.gain_func(D,A[i])
 79 |         #print(gains)
 80 |         subA=None
 81 |         if self.tree_type=='CART':
 82 |             a_best=A[np.argmin(gains)]
 83 |             subA=np.delete(A,np.argmin(gains))
 84 |         elif self.tree_type=='ID3':
 85 |             a_best=A[np.argmax(gains)]
 86 |             subA=np.delete(A,np.argmax(gains))
 87 |         elif self.tree_type=='C45':
 88 |             gain_mean=np.mean(gains[:,0])
 89 |             higher_than_mean_indices=np.where(gains[:,0]>=gain_mean)
 90 |             higher_than_mean=gains[higher_than_mean_indices,1][0]
 91 |             index=higher_than_mean_indices[0][np.argmax(higher_than_mean)]
 92 |             a_best=A[index]
 93 |             subA=np.delete(A,index)
 94 | 
 95 |         tree={a_best:{}}
 96 | 
 97 |         for av in aVs[a_best]:
 98 |             indices=np.where(X[:,a_best]==av)
 99 |             Dv={}
100 |             Dv['X']=X[indices]
101 |             Dv['y']=y[indices]
102 |             if len(Dv['y'])==0:
103 |                 tree[a_best][av]=np.argmax(np.bincount(y))
104 |             else:
105 |                 tree[a_best][av]=self.TreeGenerate(Dv,subA,aVs)
106 |         return tree
107 | 
108 | 
109 | 
110 |     @classmethod
111 |     def Ent(cls,D):
112 |         """
113 |          《机器学习》 公式4.1 信息熵
114 |         :param D: 数据集
115 |         :return: 信息熵
116 |         """
117 |         y=D['y']
118 |         bin_count=np.bincount(y)
119 |         total=len(y)
120 |         ent=0.
121 |         for k in range(len(bin_count)):
122 |             p_k=bin_count[k]/total
123 |             if p_k!=0:
124 |                  ent+=p_k*np.log2(p_k)
125 |         return -ent
126 | 
127 |     @classmethod
128 |     def Gain(cls,D,a):
129 |         """
130 |         《机器学习》 公式4.2 信息增益
131 |         a表示属性列 index
132 |         """
133 |         X=D['X']
134 |         y=D['y']
135 |         aV=np.unique(X[:,a])
136 |         sum=0.
137 |         for v in range(len(aV)):
138 |             Dv={}
139 |             indices=np.where(X[:,a]==aV[v])
140 |             Dv['X']=X[indices]
141 |             Dv['y']=y[indices]
142 |             ent=cls.Ent(Dv)
143 |             sum+=(len(Dv['y'])/len(y)*ent)
144 |         gain=cls.Ent(D)-sum
145 |         return gain
146 | 
147 |     @classmethod
148 |     def Gini(cls,D):
149 |         """
150 |         《机器学习》 公式4.5
151 |         """
152 |         y = D['y']
153 |         bin_count = np.bincount(y)
154 |         total = len(y)
155 |         ent = 0.
156 |         for k in range(len(bin_count)):
157 |             p_k = bin_count[k] / total
158 |             ent+=p_k**2
159 |         return 1-ent
160 | 
161 |     @classmethod
162 |     def GiniIndex(cls,D,a):
163 |         """
164 |         公式4.6
165 |         """
166 |         X = D['X']
167 |         y = D['y']
168 |         aV = np.unique(X[:, a])
169 |         sum = 0.
170 |         for v in range(len(aV)):
171 |             Dv = {}
172 |             indices = np.where(X[:, a] == aV[v])
173 |             Dv['X'] = X[indices]
174 |             Dv['y'] = y[indices]
175 |             ent = cls.Gini(Dv)
176 |             sum += (len(Dv['y']) / len(y) * ent)
177 |         gain = sum
178 |         return gain
179 | 
180 |     @classmethod
181 |     def GainRatio(cls,D,a):
182 |         """
183 |         公式4.3 4.4
184 |         """
185 |         X = D['X']
186 |         y = D['y']
187 |         aV = np.unique(X[:, a])
188 |         sum = 0.
189 |         intrinsic_value=0.
190 |         for v in range(len(aV)):
191 |             Dv = {}
192 |             indices = np.where(X[:, a] == aV[v])
193 |             Dv['X'] = X[indices]
194 |             Dv['y'] = y[indices]
195 |             ent = cls.Ent(Dv)
196 |             sum += (len(Dv['y']) / len(y) * ent)
197 |             intrinsic_value+=(len(Dv['y'])/len(y))*np.log2(len(Dv['y'])/len(y))
198 |         gain = cls.Ent(D) - sum
199 |         intrinsic_value=-intrinsic_value
200 |         gain_ratio=gain/intrinsic_value
201 |         return np.array([gain,gain_ratio])
202 | 
203 | if __name__=='__main__':
204 |     watermelon_data = np.array([[0, 0, 0, 0, 0, 0], [1, 0, 1, 0, 0, 0],
205 |                                 [1, 0, 0, 0, 0, 0], [0, 0, 1, 0, 0, 0],
206 |                                 [2, 0, 0, 0, 0, 0], [0, 1, 0, 0, 1, 1],
207 |                                 [1, 1, 0, 1, 1, 1], [1, 1, 0, 0, 1, 0],
208 |                                 [1, 1, 1, 1, 1, 0], [0, 2, 2, 0, 2, 1],
209 |                                 [2, 2, 2, 2, 2, 0], [2, 0, 0, 2, 2, 1],
210 |                                 [0, 1, 0, 1, 0, 0], [2, 1, 1, 1, 0, 0],
211 |                                 [1, 1, 0, 0, 1, 1], [2, 0, 0, 2, 2, 0],
212 |                                 [0, 0, 1, 1, 1, 0]])
213 |     label = np.array([1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0])
214 |     X_test=np.array([[0, 0, 1, 0, 0, 0], [1, 0, 1, 0, 0, 0],
215 |                         [1, 1, 0, 1, 1, 0], [1, 0, 1, 1, 1, 0],
216 |                      [1, 1, 0, 0, 1, 1], [2, 0, 0, 2, 2, 0],
217 |                      [0, 0, 1, 1, 1, 0]])
218 | 
219 |     decision_clf=DecisionTreeClassifier(tree_type='ID3')
220 |     decision_clf.fit(watermelon_data,label)
221 |     print(decision_clf.tree)
222 |     createPlot(decision_clf.tree)
223 | 
224 |     y_pred=decision_clf.predict(X_test)
225 |     print('y_pred:',y_pred)
226 | 
227 | 
228 | 
229 | 
230 | 
231 | 
232 | 
233 | 
234 | 
235 | 


--------------------------------------------------------------------------------
/tinyml/tree/DecisionTreeRegressor.py:
--------------------------------------------------------------------------------
  1 | import numpy as np
  2 | from tinyml.tree import treePlotter
  3 | import sklearn.datasets as datasets
  4 | from sklearn.metrics import mean_squared_error
  5 | import sklearn.tree as tree
  6 | import graphviz
  7 | 
  8 | class DecisionTreeRegressor:
  9 |     """
 10 |     《统计学习方法》 p69 最小二乘回归树
 11 |     """
 12 |     def __init__(self, min_samples_split=3,min_samples_leaf=1,random_state=False):
 13 |         self.min_samples_split=min_samples_split
 14 |         self.min_samples_leaf=min_samples_leaf
 15 |         self.random=random_state
 16 |         self.tree = None
 17 | 
 18 |     def fit(self, X, y):
 19 |         D = {}
 20 |         D['X'] = X
 21 |         D['y'] = y
 22 |         A = np.arange(X.shape[1])
 23 |         self.tree = self.TreeGenerate(D, A)
 24 | 
 25 |     def predict(self, X):
 26 |         if self.tree is None:
 27 |             raise RuntimeError('cant predict before fit')
 28 |         y_pred = []
 29 |         for i in range(X.shape[0]):
 30 |             tree = self.tree
 31 |             x = X[i]
 32 |             while True:
 33 |                 if not isinstance(tree, dict):
 34 |                     y_pred.append(tree)
 35 |                     break
 36 |                 a = list(tree.keys())[0]
 37 |                 tree = tree[a]
 38 |                 if isinstance(tree, dict):
 39 |                     val = x[a]
 40 |                     split_val=float(list(tree.keys())[0][1:])
 41 |                     if val<=split_val:
 42 |                         tree=tree[list(tree.keys())[0]]
 43 |                     else:
 44 |                         tree=tree[list(tree.keys())[1]]
 45 |                 else:
 46 |                     y_pred.append(tree)
 47 |                     break
 48 |         return np.array(y_pred)
 49 | 
 50 |     def TreeGenerate(self, D, A):
 51 |         X = D['X']
 52 |         y = D['y']
 53 |         if len(y)<=self.min_samples_split:
 54 |             return np.mean(y)
 55 |         split_j=None
 56 |         split_s=None
 57 |         min_val=1.e10
 58 |         select_A=A
 59 |         if self.random is True:
 60 |             d=len(A)
 61 |             select_A=np.random.choice(A,size=int(d//2),replace=False)
 62 |         for j in select_A:
 63 |             for s in np.unique(X[:,j]):
 64 |                 left_indices=np.where(X[:,j]<=s)[0]
 65 |                 right_indices=np.where(X[:,j]>s)[0]
 66 |                 if len(left_indices)<self.min_samples_leaf or len(right_indices)<self.min_samples_leaf:
 67 |                     continue
 68 |                 val=np.sum((y[left_indices]-np.mean(y[left_indices]))**2)+np.sum((y[right_indices]-np.mean(y[right_indices]))**2)
 69 |                 if val<min_val:
 70 |                     split_j=j
 71 |                     split_s=s
 72 |                     min_val=val
 73 | 
 74 |         if split_j is None:
 75 |             return np.mean(y)
 76 |         tree = {split_j: {}}
 77 |         left_indices=np.where(X[:,split_j]<=split_s)[0]
 78 |         right_indices=np.where(X[:,split_j]>split_s)[0]
 79 |         D_left, D_right = {},{}
 80 |         D_left['X'],D_left['y'] = X[left_indices],y[left_indices]
 81 |         D_right['X'],D_right['y']=X[right_indices],y[right_indices]
 82 |         tree[split_j]['l'+str(split_s)]=self.TreeGenerate(D_left,A)
 83 |         tree[split_j]['r'+str(split_s)]=self.TreeGenerate(D_right,A)
 84 |         # 当前节点值
 85 |         tree[split_j]['val']=np.mean(y)
 86 |         return tree
 87 | 
 88 | 
 89 | if __name__=='__main__':
 90 |     breast_data = datasets.load_boston()
 91 |     X, y = breast_data.data, breast_data.target
 92 |     X_train, y_train = X[:200], y[:200]
 93 |     X_test, y_test = X[200:], y[200:]
 94 | 
 95 | 
 96 |     decisiontree_reg=DecisionTreeRegressor(min_samples_split=20,min_samples_leaf=5)
 97 |     decisiontree_reg.fit(X_train,y_train)
 98 |     print(decisiontree_reg.tree)
 99 |     treePlotter.createPlot(decisiontree_reg.tree)
100 |     y_pred=decisiontree_reg.predict(X_test)
101 |     print('tinyml mse:',mean_squared_error(y_test,y_pred))
102 | 
103 | 
104 |     sklearn_reg=tree.DecisionTreeRegressor(min_samples_split=20,min_samples_leaf=5,random_state=False)
105 |     sklearn_reg.fit(X_train,y_train)
106 |     print(sklearn_reg.feature_importances_)
107 |     sklearn_pred=sklearn_reg.predict(X_test)
108 |     print('sklearn mse:',mean_squared_error(y_test,sklearn_pred))
109 |     dot_data=tree.export_graphviz(sklearn_reg,out_file=None)
110 |     graph=graphviz.Source(dot_data)
111 | 


--------------------------------------------------------------------------------
/tinyml/tree/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/tree/__init__.py


--------------------------------------------------------------------------------
/tinyml/tree/__pycache__/DecisionTreeClassifier.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/tree/__pycache__/DecisionTreeClassifier.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/tree/__pycache__/DecisionTreeRegressor.cpython-36.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/tree/__pycache__/DecisionTreeRegressor.cpython-36.pyc


--------------------------------------------------------------------------------
/tinyml/tree/__pycache__/DecisionTreeRegressor.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/tree/__pycache__/DecisionTreeRegressor.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/tree/__pycache__/__init__.cpython-36.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/tree/__pycache__/__init__.cpython-36.pyc


--------------------------------------------------------------------------------
/tinyml/tree/__pycache__/__init__.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/tree/__pycache__/__init__.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/tree/__pycache__/treePlotter.cpython-36.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/tree/__pycache__/treePlotter.cpython-36.pyc


--------------------------------------------------------------------------------
/tinyml/tree/__pycache__/treePlotter.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fengyang95/tiny_ml/6a3ee55e4ee4ddc3dad1e53f511725679a99f083/tinyml/tree/__pycache__/treePlotter.cpython-37.pyc


--------------------------------------------------------------------------------
/tinyml/tree/treePlotter.py:
--------------------------------------------------------------------------------
 1 | import matplotlib.pyplot as plt
 2 | from pylab import mpl
 3 | 
 4 | """
 5 | 《Machine Learning in Action》一书中可视化决策树的代码
 6 | """
 7 | 
 8 | mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体
 9 | mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
10 | decisionNode = dict(boxstyle="sawtooth", fc="0.8")
11 | leafNode = dict(boxstyle="round4", fc="0.8")
12 | arrow_args = dict(arrowstyle="<-")
13 | 
14 | def plotNode(nodeTxt, centerPt, parentPt, nodeType):
15 |     createPlot.ax1.annotate(nodeTxt, xy=parentPt, xycoords='axes fraction', \
16 |                             xytext=centerPt, textcoords='axes fraction', \
17 |                             va="center", ha="center", bbox=nodeType, arrowprops=arrow_args)
18 | 
19 | def getNumLeafs(myTree):
20 |     numLeafs = 0
21 |     firstStr = list(myTree.keys())[0]
22 |     secondDict = myTree[firstStr]
23 |     for key in secondDict.keys():
24 |         if type(secondDict[key]).__name__ == 'dict':
25 |             numLeafs += getNumLeafs(secondDict[key])
26 |         else:
27 |             numLeafs += 1
28 |     return numLeafs
29 | 
30 | def getTreeDepth(myTree):
31 |     maxDepth = 0
32 |     firstStr = list(myTree.keys())[0]
33 |     secondDict = myTree[firstStr]
34 |     for key in secondDict.keys():
35 |         if type(secondDict[key]).__name__ == 'dict':
36 |             thisDepth = getTreeDepth(secondDict[key]) + 1
37 |         else:
38 |             thisDepth = 1
39 |         if thisDepth > maxDepth:
40 |             maxDepth = thisDepth
41 |     return maxDepth
42 | 
43 | def plotMidText(cntrPt, parentPt, txtString):
44 |     xMid = (parentPt[0] - cntrPt[0]) / 2.0 + cntrPt[0]
45 |     yMid = (parentPt[1] - cntrPt[1]) / 2.0 + cntrPt[1]
46 |     createPlot.ax1.text(xMid, yMid, txtString)
47 | 
48 | def plotTree(myTree, parentPt, nodeTxt):
49 |     numLeafs = getNumLeafs(myTree)
50 |     depth = getTreeDepth(myTree)
51 |     firstStr = list(myTree.keys())[0]
52 |     cntrPt = (plotTree.xOff + (1.0 + float(numLeafs)) / 2.0 / plotTree.totalw, plotTree.yOff)
53 |     plotMidText(cntrPt, parentPt, nodeTxt)
54 |     plotNode(firstStr, cntrPt, parentPt, decisionNode)
55 |     secondDict = myTree[firstStr]
56 |     plotTree.yOff = plotTree.yOff - 1.0 / plotTree.totalD
57 |     for key in secondDict.keys():
58 |         if type(secondDict[key]).__name__ == 'dict':
59 |             plotTree(secondDict[key], cntrPt, str(key))
60 |         else:
61 |             plotTree.xOff = plotTree.xOff + 1.0 / plotTree.totalw
62 |             plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff), cntrPt, leafNode)
63 |             plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))
64 |     plotTree.yOff = plotTree.yOff + 1.0 / plotTree.totalD
65 | 
66 | def createPlot(inTree):
67 |     fig = plt.figure(1, facecolor='white')
68 |     fig.clf()
69 |     axprops = dict(xticks=[], yticks=[])
70 |     createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)
71 |     plotTree.totalw = float(getNumLeafs(inTree))
72 |     plotTree.totalD = float(getTreeDepth(inTree))
73 |     plotTree.xOff = -0.5 / plotTree.totalw
74 |     plotTree.yOff = 1.0
75 |     plotTree(inTree, (0.5, 1.0), '')
76 |     plt.show()
77 | 


--------------------------------------------------------------------------------