├── README.md
├── LICENSE
├── .gitignore
└── flomo-export.py


/README.md:
--------------------------------------------------------------------------------
 1 | # data-export
 2 | flomo export to markdown for obsidian/logseq; 
 3 | 
 4 | ## 用法
 5 | - step1，使用 `python 3.6+`
 6 | - step2, 安装需要的包，`pip install beautifulsoup4` 
 7 | - step3，运行命令  `python flomo-export.py`
 8 | - 参数：
 9 | 	- `--input` ， 从 flomo 中导出的 html文件位置，放到和flomo 同目录可忽略
10 | 	- `--out` ，最终生成的 markdown 路径。
11 | 
12 | 
13 | 更多内容可见：[让 flomo 更好用](https://bbruceyuan.com/post/make-flomo-better.html/)
14 | 
15 | 


--------------------------------------------------------------------------------
/LICENSE:
--------------------------------------------------------------------------------
 1 | MIT License
 2 | 
 3 | Copyright (c) 2023 Chaofa Yuan
 4 | 
 5 | Permission is hereby granted, free of charge, to any person obtaining a copy
 6 | of this software and associated documentation files (the "Software"), to deal
 7 | in the Software without restriction, including without limitation the rights
 8 | to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
 9 | copies of the Software, and to permit persons to whom the Software is
10 | furnished to do so, subject to the following conditions:
11 | 
12 | The above copyright notice and this permission notice shall be included in all
13 | copies or substantial portions of the Software.
14 | 
15 | THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
16 | IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
17 | FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
18 | AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
19 | LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
20 | OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
21 | SOFTWARE.
22 | 


--------------------------------------------------------------------------------
/.gitignore:
--------------------------------------------------------------------------------
  1 | # Byte-compiled / optimized / DLL files
  2 | __pycache__/
  3 | *.py[cod]
  4 | *$py.class
  5 | 
  6 | # C extensions
  7 | *.so
  8 | 
  9 | # Distribution / packaging
 10 | .Python
 11 | build/
 12 | develop-eggs/
 13 | dist/
 14 | downloads/
 15 | eggs/
 16 | .eggs/
 17 | lib/
 18 | lib64/
 19 | parts/
 20 | sdist/
 21 | var/
 22 | wheels/
 23 | pip-wheel-metadata/
 24 | share/python-wheels/
 25 | *.egg-info/
 26 | .installed.cfg
 27 | *.egg
 28 | MANIFEST
 29 | 
 30 | # PyInstaller
 31 | #  Usually these files are written by a python script from a template
 32 | #  before PyInstaller builds the exe, so as to inject date/other infos into it.
 33 | *.manifest
 34 | *.spec
 35 | 
 36 | # Installer logs
 37 | pip-log.txt
 38 | pip-delete-this-directory.txt
 39 | 
 40 | # Unit test / coverage reports
 41 | htmlcov/
 42 | .tox/
 43 | .nox/
 44 | .coverage
 45 | .coverage.*
 46 | .cache
 47 | nosetests.xml
 48 | coverage.xml
 49 | *.cover
 50 | *.py,cover
 51 | .hypothesis/
 52 | .pytest_cache/
 53 | 
 54 | # Translations
 55 | *.mo
 56 | *.pot
 57 | 
 58 | # Django stuff:
 59 | *.log
 60 | local_settings.py
 61 | db.sqlite3
 62 | db.sqlite3-journal
 63 | 
 64 | # Flask stuff:
 65 | instance/
 66 | .webassets-cache
 67 | 
 68 | # Scrapy stuff:
 69 | .scrapy
 70 | 
 71 | # Sphinx documentation
 72 | docs/_build/
 73 | 
 74 | # PyBuilder
 75 | target/
 76 | 
 77 | # Jupyter Notebook
 78 | .ipynb_checkpoints
 79 | 
 80 | # IPython
 81 | profile_default/
 82 | ipython_config.py
 83 | 
 84 | # pyenv
 85 | .python-version
 86 | 
 87 | # pipenv
 88 | #   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
 89 | #   However, in case of collaboration, if having platform-specific dependencies or dependencies
 90 | #   having no cross-platform support, pipenv may install dependencies that don't work, or not
 91 | #   install all needed dependencies.
 92 | #Pipfile.lock
 93 | 
 94 | # PEP 582; used by e.g. github.com/David-OConnor/pyflow
 95 | __pypackages__/
 96 | 
 97 | # Celery stuff
 98 | celerybeat-schedule
 99 | celerybeat.pid
100 | 
101 | # SageMath parsed files
102 | *.sage.py
103 | 
104 | # Environments
105 | .env
106 | .venv
107 | env/
108 | venv/
109 | ENV/
110 | env.bak/
111 | venv.bak/
112 | 
113 | # Spyder project settings
114 | .spyderproject
115 | .spyproject
116 | 
117 | # Rope project settings
118 | .ropeproject
119 | 
120 | # mkdocs documentation
121 | /site
122 | 
123 | # mypy
124 | .mypy_cache/
125 | .dmypy.json
126 | dmypy.json
127 | 
128 | # Pyre type checker
129 | .pyre/
130 | 


--------------------------------------------------------------------------------
/flomo-export.py:
--------------------------------------------------------------------------------
  1 | """
  2 | Author: bbruceyuan
  3 | Time: 2023/2/8
  4 | 
  5 | 导出 flomo 的数据,
  6 | 把从官网导出的 flomo 数据，导出成数据，共其他的 app 使用，比如 obsidian, typora, logseq,
  7 | """
  8 | import argparse
  9 | import pathlib
 10 | import re
 11 | from dataclasses import dataclass
 12 | from typing import List, Optional, Tuple, Any
 13 | 
 14 | import bs4
 15 | from bs4 import BeautifulSoup
 16 | 
 17 | 
 18 | @dataclass
 19 | class Memo:
 20 |     """ memo 规则
 21 |     content: 正文内容
 22 |         - 普通的 p 标签
 23 |         - 加粗标签； 需要替换成 ****， 现在 parser 之前就 替换了；还有 B 标签
 24 |         - 有序列表
 25 |         - 无序列表；
 26 |         目前暂时不支持嵌套 （因为 flomo 不支持）
 27 |     """
 28 |     create_time: str
 29 |     content: str = ""
 30 |     file_list: Optional[List[str]] = None
 31 |     tag_list: Optional[List[str]] = None
 32 | 
 33 |     def __lt__(self, other):
 34 |         return self.create_time < other.create_time
 35 | 
 36 | 
 37 | def parse_file(file_path: pathlib.Path) -> List[Memo]:
 38 |     """
 39 |        html 格式：
 40 |         所有的日志放在 <div class="memos"></div> 中
 41 |         每一条日志是一个 <div class"memo"></div>
 42 | 
 43 |        example:
 44 |         <div class="memo">
 45 |             <div class="time">2021-03-29 18:07:06</div>
 46 |             <div class="content">
 47 |                 <p>test</p><p></p><p>这东西还是挺有意思的</p>
 48 |             </div>
 49 |             <div class="files"></div>
 50 |         </div>
 51 | 
 52 |     """
 53 |     with open(file_path, 'r', encoding='utf-8') as f:
 54 |         file_content = f.read()
 55 |     # 提前替换<strong></strong> b 标签
 56 |     file_content = re.sub(r"<b>(.+?)</b>",
 57 |                           __bold_to_md_type, file_content, re.DOTALL)
 58 |     file_content = re.sub(r"<strong>(.+?)</strong>",
 59 |                           __bold_to_md_type, file_content, re.DOTALL)
 60 |     # todo: 除了 <p> 标签之外，还有 li/ui 标签需要考虑如何嵌套；这里也是建议 先用 markdown 语法替换；
 61 |     # 如果是导入到 标准的 markdown 中，比如 obsidian, 还可以把 li 之类的东西加上。
 62 | 
 63 |     tree = BeautifulSoup(file_content, 'html.parser')
 64 | 
 65 |     one_file_memos = []
 66 |     for item in tree.find_all("div", class_="memo"):
 67 |         # 把文件中的 所有 memo 都 parse 了；
 68 |         one_memo = _parse_one_memo(item)
 69 |         one_file_memos.append(one_memo)
 70 | 
 71 |     return one_file_memos
 72 | 
 73 | 
 74 | def __bold_to_md_type(match_obj):
 75 |     return "**{}**".format(match_obj.group(1))
 76 | 
 77 | 
 78 | def _parse_one_memo(item) -> Memo:
 79 |     ret = {}
 80 |     time_item = item.find("div", class_="time")
 81 |     # 所有的 content 都在这一步
 82 |     content_parent = item.find("div", class_="content")
 83 | 
 84 |     raw_contents: List[bs4.element.NavigableString] = content_parent.contents
 85 |     # 得到 content 和 tag_list
 86 |     clearn_markdown_content, tag_list = _memo_content_clean(raw_contents)
 87 |     ret.update({
 88 |         "content": clearn_markdown_content,
 89 |         "tag_list": tag_list
 90 |     })
 91 | 
 92 |     # todo: 这里仅仅是找到 image list, 可能有人需要支持语音，因为我没有图片，所以我实际上也没有导出图片
 93 |     file_items = item.find_all("img")
 94 |     if len(file_items) != 0:
 95 |         image_srcs_list = [
 96 |             file_item["src"] for file_item in file_items
 97 |         ]
 98 |         ret.update({
 99 |             "file_list": image_srcs_list
100 |         })
101 | 
102 |     ret.update({
103 |         "create_time": time_item.getText()
104 |     })
105 |     memo = Memo(**ret)
106 |     return memo
107 | 
108 | 
109 | def _memo_content_clean(content_elements: List[bs4.element.NavigableString]) -> Tuple[str, List[str]]:
110 |     """
111 |         如果是无序列表，那么等就是把  ol 换成 ul
112 |         <ol>
113 |             <li>
114 |                 <p>数据增强的方式，同义词替换。同标签词替换？需要考虑</p>
115 |             </li>
116 |             <li>
117 |                 <p>context representation 的表示。</p>
118 |             </li>
119 |         </ol>
120 | 
121 |     """
122 |     tag_list = []
123 |     markdown_ret = []
124 |     for item in content_elements:
125 |         tag_list_tmp, markdown_without_tag = _extract_tag_from_content(item)
126 |         tag_list.extend(tag_list_tmp)
127 |         if markdown_without_tag:
128 |             markdown_ret.append(markdown_without_tag)
129 | 
130 |     return "\n\n".join(markdown_ret), tag_list
131 | 
132 | 
133 | def _extract_tag_from_content(content_: Any) -> Tuple[List[str], str]:
134 |     def _extract_tag_from_str(content: str) -> Tuple[List[str], str]:
135 |         # TAG 在 logseq 和 obsidian 是不一样的。
136 |         if not content:
137 |             return [], content
138 |         else:
139 |             tag_list = re.findall(r'(#.+?\s+?)', content, re.DOTALL)
140 |             tag_list = list(map(lambda x: x.strip(), tag_list))
141 | 
142 |             content = re.sub(r'(#.+?\s+?)', "", content, re.DOTALL).strip()
143 | 
144 |             # 特殊的 TAG, 假设这一行只有 TAG, 那么上面的规则不可靠
145 |             match_obj = re.match(r"^(#.+?)$", content.strip())
146 |             if match_obj and not re.search(r"\s", content):
147 |                 tag_list.append(match_obj.group(1))
148 |                 content = re.sub(r"^(#.+?)$", "", content, re.DOTALL).strip()
149 | 
150 |             return list(set(tag_list)), content
151 |         # _extract_tag_from_str()  function end
152 | 
153 |     ret_tag_list = []
154 |     ret_content = []
155 |     for one_item_element in content_.stripped_strings:
156 |         ret_tag_list_tmp, ret_tmp = _extract_tag_from_str(one_item_element)
157 |         ret_tag_list.extend(ret_tag_list_tmp)
158 |         ret_content.append(ret_tmp)
159 |     return list(set(ret_tag_list)), "\n".join(ret_content)
160 | 
161 | 
162 | def write_memo_as_md(memos: List[Memo], file_path: Optional[pathlib.Path] = None) -> None:
163 |     def _memo_to_md(one_memo: Memo) -> str:
164 |         ret = "- {}".format(one_memo.create_time)
165 |         if one_memo.tag_list:
166 |             ret += "  ,  {}".format(" ".join(one_memo.tag_list))
167 |         ret += "\n\n"
168 |         contents = one_memo.content.split("\n")
169 |         for one_line in contents:
170 |             if one_line:
171 |                 ret += "\t" + one_line + '\n\n'
172 |                 
173 |         if one_memo.file_list:
174 |             print(one_memo.file_list)
175 |             for file in one_memo.file_list:
176 |                 ret += "\n\n"
177 |                 ret += f"![{file}]({file})"
178 | 
179 |         # 如果是导入到 logseq 中，使用下面的三行
180 |         # ret += "\t- " + one_memo.content
181 |         ret += "\n\n"
182 |         return ret
183 | 
184 |     memos = sorted(memos)
185 |     with file_path.open('w', encoding='utf-8') as f:
186 |         for memo in memos:
187 |             tmp = _memo_to_md(memo)
188 |             f.write(tmp)
189 | 
190 | 
191 | def get_args():
192 |     parser = argparse.ArgumentParser()
193 |     parser.add_argument("--out", default="flomo_export.md",
194 |                         help="输出路径")
195 |     parser.add_argument("--input", default=".",
196 |                         help="输入的文件位置，默认是当前路径")
197 |     args = parser.parse_args()
198 |     return args
199 | 
200 | 
201 | def main():
202 |     args = get_args()
203 |     cur_path = pathlib.Path(args.input)
204 |     html_files = cur_path.glob("**/*.html")
205 |     memos = []
206 |     for file in html_files:
207 |         memos.extend(parse_file(file))
208 |     write_memo_as_md(memos, pathlib.Path(args.out))
209 | 
210 | 
211 | if __name__ == '__main__':
212 |     main()
213 | 


--------------------------------------------------------------------------------