Forgot password?
 Create new account
View 365|Reply 26

从帖子自动提取标签

[Copy link]

418

Threads

1627

Posts

110K

Credits

Credits
11886

Show all posts

abababa Posted at 2025-3-23 12:47:54 |Read mode
Last edited by hbghlyj at 2025-3-24 00:01:03在$\triangle ABC$内部有$n$个点,连同$A,B,C$三点共$n+3$个点,将这些点连线组成互不重叠的三角形,现将$A,B,C$分别染成红、黄、蓝三色,其它点任意染成红、黄、蓝三色之一,求证三顶点都不同色的三角形的数量为奇数。

418

Threads

1627

Posts

110K

Credits

Credits
11886

Show all posts

 Author| abababa Posted at 2025-3-23 12:54:11
Last edited by hbghlyj at 2025-3-24 02:54:33这个帖子是和组合、奇偶分析有关的,应该是这两个标签,但是发帖时,直接显示的标签里就没有这两个,而是一些乱七八糟的什么C语言、Python之类的和编程有关的,还有和抽象代数有关的等等。这些标签没有规律,一堆放在那,想找也困难。

最好是能从这个帖子的内容里,自动提取出“组合”、“奇偶分析”这两个标签,不能的话,我觉得在添加标签时,应该把标签分类,先找大类,再找小标签。

3148

Threads

8489

Posts

610K

Credits

Credits
66148
QQ

Show all posts

hbghlyj Posted at 2025-3-23 13:46:32
abababa 发表于 2025-3-23 04:54
自动提取出“组合”、“奇偶分析”这两个标签
drupal 插件 Tagging 有这个功能:You get automatical (semantic) tag suggestions based on your node current content!

可惜这里用的不是 Drupal,需要自己想办法

3148

Threads

8489

Posts

610K

Credits

Credits
66148
QQ

Show all posts

hbghlyj Posted at 2025-3-23 14:04:24
abababa 发表于 2025-3-23 04:54
应该把标签分类,先找大类,再找小标签。
这也是 Drupal 具有的功能。如 Tags › analysis › harmonic analysis
tricki.org/tag/Area_of_mathematics/analysis/harmonic_analysis

可惜这里用的不是 Drupal,需要自己想办法

3148

Threads

8489

Posts

610K

Credits

Credits
66148
QQ

Show all posts

hbghlyj Posted at 2025-3-24 00:40:18
abababa 发表于 2025-3-23 04:54
最好是能从这个帖子的内容里,自动提取出“组合”、“奇偶分析”这两个标签
点击“提取标签”可以提取所输入的内容中包含的标签

3148

Threads

8489

Posts

610K

Credits

Credits
66148
QQ

Show all posts

hbghlyj Posted at 2025-3-24 03:43:03
输入“空间”,自动建议包含“空间”的标签
Screenshot 2025-03-23 194240.png

Comment

这个还有点实用  Posted at 2025-3-24 04:22

418

Threads

1627

Posts

110K

Credits

Credits
11886

Show all posts

 Author| abababa Posted at 2025-3-24 12:10:11
hbghlyj 发表于 2025-3-24 03:43
输入“空间”,自动建议包含“空间”的标签
只是从帖子的文本里面匹配了那些标签,如果帖子中没有那些标签文本,就提取不出来了。觉得还是要从帖子的意义上来提取才行。

就比如主楼的这个帖,点提取标签,提取出了“三角形”、“标签”这两个,还是和主题不相关。

3148

Threads

8489

Posts

610K

Credits

Credits
66148
QQ

Show all posts

hbghlyj Posted at 2025-3-24 12:22:08
abababa 发表于 2025-3-24 04:10
觉得还是要从帖子的意义上来提取才行。
如何从帖子的意义上提取呢

Comment

这需要AI  Posted at 2025-3-24 13:00

418

Threads

1627

Posts

110K

Credits

Credits
11886

Show all posts

 Author| abababa Posted at 2025-3-24 18:57:58
hbghlyj 发表于 2025-3-24 12:22
如何从帖子的意义上提取呢
我不知道具体怎么做,就是觉得从帖子的内容上来提取才是正确的,原因见8楼最后一段。

Comment

我也不知道具体怎么做  Posted at 2025-3-24 22:01

3148

Threads

8489

Posts

610K

Credits

Credits
66148
QQ

Show all posts

hbghlyj Posted at 2025-3-25 08:31:11
abababa 发表于 2025-3-24 10:57
就是觉得从帖子的内容上来提取才是正确的 ...
Discourse有自动提取相关帖子的功能,如 forum.infinityfree.commeta.discourse.org

这里问题是关于“如何轻松将 askbot 迁移到 Discourse”,软件会自动在页面底部列出“相关帖子”:
  • 寻求从 Discuz 3.4 迁移到 Discourse 的帮助
  • 从 Questions2Answers 导入
  • 从 Buddypress 导入到 Discourse
  • 从 WordPress 迁移到 Discourse
  • 从其他论坛迁移到 Discourse
  • 迁移到 Discourse

这些都与迁移有关,因此相关主题功能相当不错。不知是否按内容提取还是只按标签?

将Discuz X3.x导入Discourse的脚本

3148

Threads

8489

Posts

610K

Credits

Credits
66148
QQ

Show all posts

hbghlyj Posted at 2025-3-25 08:44:37
abababa 发表于 2025-3-24 10:57
就是觉得从帖子的内容上来提取才是正确的
例如,每次我在 stackoverflow.com 上填写问题时发布前都会向我推荐大量类似的问题以避免问重复的。这是用何算法实现的?
参考:What algorithm does StackOverflow use for finding similar questions?
Algorithms for finding similar questions based on another question's title?
Algorithm to find articles with similar text

418

Threads

1627

Posts

110K

Credits

Credits
11886

Show all posts

 Author| abababa Posted at 2025-3-25 21:15:46
abababa 发表于 2025-3-24 18:57
我不知道具体怎么做,就是觉得从帖子的内容上来提取才是正确的,原因见8楼最后一段。 ...
$type tags.tar (80 KB, Downloads: 24)

上面是maven网友发来的一个自动提取标签的,但是我运行不了,是不是少什么东西,看提示是少了什么库,查了一下,需要用pip安装才行。里面的那个train_data.csv文件里的内容是我提供给他的,他说这个多一点的话效果会更好。

3148

Threads

8489

Posts

610K

Credits

Credits
66148
QQ

Show all posts

hbghlyj Posted at 2025-3-26 05:03:51

现有平台参考

​arXiv与MathSciNet的启发
虽然非开源,但其分类机制(如MSC代码)和引用追踪功能值得借鉴。例如,MathSciNet的"被引用文献"功能使用图数据库(如Neo4j)构建引用网络。

3148

Threads

8489

Posts

610K

Credits

Credits
66148
QQ

Show all posts

hbghlyj Posted at 2025-3-26 05:05:27
THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。文本文类通常包括特征选取、特征降维、分类模型学习三个步骤。如何选取合适的文本特征并进行降维,是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验,在THUCTC中选取二字串bigram作为特征单元,特征降维方法为Chi-square,权重计算方法为tfidf,分类模型使用的是LibSVM或LibLinear。THUCTC对于开放领域的长文本具有良好的普适性,不依赖于任何中文分词工具的性能,具有准确率高、测试速度快的优点。

下载地址:thuctc.thunlp.org/

3148

Threads

8489

Posts

610K

Credits

Credits
66148
QQ

Show all posts

hbghlyj Posted at 2025-3-26 05:07:36

一个开源的数学公式搜索引擎,支持基于公式结构和关键词的联合检索

MathWebSearch is a content-based search engine for mathematical formulae. It indexes MathML formulae, using a technique derived from automated theorem proving: term indexing.

3148

Threads

8489

Posts

610K

Credits

Credits
66148
QQ

Show all posts

hbghlyj Posted at 2025-3-26 05:10:52

LDA(Latent Dirichlet Allocation)算法生成主题-关键词关联矩阵

Last edited by hbghlyj at 2025-3-26 08:52:25使用潜在狄利克雷分配 (LDA) 的标签推荐算法
本文使用 Python 开发了一个 LDA 模型,根据用户的 StackOverflow 帖子向用户推荐标签
\[
i d f(\text { term })=\ln \left(\frac{n_{\text {documents }}}{n_{\text {documents containing term }}}\right)
\]
\[
\text { perplexity(test set } \boldsymbol{w})=\exp \left\{-\frac{\mathcal{L}(\boldsymbol{w})}{\text { count of tokens }}\right\}
\]
\[
J(A, B)=\frac{|A \cap B|}{|A \cup B|}=\frac{|A \cap B|}{|A|+|B|-|A \cap B|}
\]本渣看不懂

418

Threads

1627

Posts

110K

Credits

Credits
11886

Show all posts

 Author| abababa Posted at 2025-3-26 12:11:42
hbghlyj 发表于 2025-3-26 05:15
在backup_monday.sql.gz可下载论坛数据库,帖文在pre_forum_post表中。

请问maven网友,如何基于论坛的帖 ...
他那里有说明,就是“读我.txt”那个文件,里面说了怎么操作。我觉得就是把论坛里那些有标签的主题和标签提出来吧,然后按train_data.csv那里的格式排一下,这个是能用程序做吧?把文本放第一列,文本要用双引号引起来,然后加一个tab,再把标签放第二列,所有标签作为一个整体,用双引号引起来,每两个标签用英文逗号分开,然后按“读我.txt”那里说的操作。

他那个原始的,我用pip安装了必要的库,然后能运行了,也确实得到了标签。我看那个index.html里写的文本,和在train_data.csv里的大致一样,但有所区别。

3148

Threads

8489

Posts

610K

Credits

Credits
66148
QQ

Show all posts

hbghlyj Posted at 2025-3-26 14:24:44
abababa 发表于 2025-3-26 04:11
我觉得就是把论坛里那些有标签的主题和标签提出来吧
结果是否只包含现有的标签?例如 1# 所说的“奇偶分析”标签在论坛上还没有。

418

Threads

1627

Posts

110K

Credits

Credits
11886

Show all posts

 Author| abababa Posted at 2025-3-26 15:28:39
hbghlyj 发表于 2025-3-26 14:24
结果是否只包含现有的标签?例如 1# 所说的“奇偶分析”标签在论坛上还没有。 ...
要是没有就不行了吧,得按他说的那个,在train_data.csv里提供那些标签才行,他原始的那些都是我从我自己做过的题目里加了标签再给他的,但是一个个加标签太麻烦了,我就加了几个,论坛里有现成的数据库,应该能自动做成他那种格式的吧。
maven的原话是:“这叫有监督学习,你得告诉程序它是什么,不知道是什么的就没办法参与学习,也不能被识别。”

418

Threads

1627

Posts

110K

Credits

Credits
11886

Show all posts

 Author| abababa Posted at 2025-3-26 21:05:38
Last edited by abababa at 2025-3-28 19:59:05
abababa 发表于 2025-3-26 15:28
要是没有就不行了吧,得按他说的那个,在train_data.csv里提供那些标签才行,他原始的那些都是我从我自己 ...
刚才把18楼的那个发给maven网友了,他说数据有点乱,要先清理一下,然后把清理过的数据发给我了,他说“去掉了一些bbcode标记,去掉了超过1500字符的文本。训练后的模型约 100 mb,太大了不发了,你自己训练吧,我把 train_data.csv 发给你。”

下面是他发来的train_data.csv文件:
(原文件删除了,和本主题下24楼里的一样。)

手机版Mobile version|Leisure Math Forum

2025-4-20 12:04 GMT+8

Powered by Discuz!

× Quick Reply To Top Return to the list