Skip to content
/ PaddleNLP Public
  • Notifications You must be signed in to change notification settings
  • Fork 2.9k
  • Star 12.1k
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

请问一下这里的use segment_box是什么意思?xfund有相应的实现么? #6262

Closed
aixuedegege opened this issue Jun 27, 2023 · 8 comments
Closed

请问一下这里的use segment_box是什么意思?xfund有相应的实现么? #6262

aixuedegege opened this issue Jun 27, 2023 · 8 comments
Assignees
@linjieccc

Comments

@aixuedegege
Copy link

aixuedegege commented Jun 27, 2023

PaddleNLP/model_zoo/ernie-layout/README_ch.md

Line 249 in fda38e4

--use_segment_box \

@github-actions github-actions bot added the triage label Jun 27, 2023
@aixuedegege aixuedegege changed the title 请问一下这里的use segments_box是什么意思?xfund有相应的实现么? 请问一下这里的use segment_box是什么意思?xfund有相应的实现么? Jun 27, 2023
@linjieccc
Copy link
Contributor

linjieccc commented Jun 28, 2023

数据集中包含两种bbox,一种是字符粒度的bbox,另外一种是片段粒度的bbox(segment_box)。segment粒度对NER效果提升大

@linjieccc linjieccc self-assigned this Jun 28, 2023
@linjieccc linjieccc removed the triage label Jun 28, 2023
@aixuedegege
Copy link
Author

aixuedegege commented Jun 28, 2023

谢谢您的回答,我可视化后看segment_box画出来的值对应不上相应的文字区域的segment,好像是硬用1000规范化后的box,但是我没有找到对应的代码能完整的将segment_box恢复到原有图片对应的文字块box,如图下面红色的bbox是一个segment_box的框,对应不到任何字块:
image

@aixuedegege
Copy link
Author

aixuedegege commented Jun 29, 2023

@linjieccc 可以帮我再看看是什么问题么

@linjieccc
Copy link
Contributor

linjieccc commented Jun 29, 2023

ernie-layout输入会按照1000,1000对原始bbox进行normalization,可以根据原始图片的宽高进行还原,参考这里 https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/utils/doc_parser.py#L272

@aixuedegege
Copy link
Author

aixuedegege commented Jun 29, 2023

那个是application中uie-x的数据处理逻辑,我看到了,您看一下这段ernielayout ner的处理代码 248-257行, 我的疑问是

1、 redame 中的XFUND-ZH训练下面use_segment_box是打开的,segment_box这里打开了,那取出来的应该是normalization后的segment bbox,为何下面又调用了_scale_same_as_image,这样不是做了两遍normalization了么?

2、你们处理xfund的segment bbox是有什么方法,是已经normalization的了吧,因为对应不上文字,如上面我提到的,这个处理过程可以开源么?

3、uie-x和ernielayout有什么具体区别啊,我的理解是uiex是再ernielayout上加了两个start end指针,ernielayout的问答也是这个原理么?

再次感谢您的抽空回答

@aixuedegege
Copy link
Author

aixuedegege commented Jul 3, 2023

@linjieccc 可以帮我解答一下么

@linjieccc
Copy link
Contributor

linjieccc commented Jul 3, 2023

@aixuedegege

  1. 主要是确保用户使用自己的数据(未进行normalization的)也可以兼容,如果数据集本身已经做了normalization,可以不用重复执行_scale_same_as_image
  2. 处理片段粒度的方法和_scale_same_as_image一致,可以参考下面的代码对bbox进行还原:
def _normalize_box(box, old_size, new_size):
    """normalize box"""
    return [
        int(box[0] * new_size[0] / old_size[0]),
        int(box[1] * new_size[1] / old_size[1]),
        int(box[2] * new_size[0] / old_size[0]),
        int(box[3] * new_size[1] / old_size[1]),
    ]

new_box = _normalize_box(old_box, [1000, 1000], [img_w, img_h])
  1. uie-x采用双指针解码的方式进行抽取,和ernie-layout在问答任务上的解码方式是相同的

@aixuedegege
Copy link
Author

aixuedegege commented Jul 4, 2023

thanks a lot!

@aixuedegege aixuedegege closed this as completed Jul 4, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants
@aixuedegege @linjieccc

Footer

© 2024 GitHub, Inc.

玻璃钢生产厂家张掖玻璃钢植物雕塑安装玻璃钢雕塑往哪里好销长方形玻璃钢花盆价格梅州玻璃钢仿铜人物雕塑出售玻璃钢海洋雕塑公司电话多少佛山玻璃钢花盆批发玻璃钢雕塑产品厂家广州房地产玻璃钢卡通熊猫雕塑广东仿铜玻璃钢雕塑制作革命主题玻璃钢雕塑产品介绍玻璃钢雕塑订做1 1动物商城艺术玻璃钢雕塑价格莆田玻璃钢卡通雕塑厂家直销阿坝佛像玻璃钢雕塑台州户外玻璃钢雕塑造型苏州商场春节美陈益丰玻璃钢雕塑江门玻璃钢透光雕塑厂家电话玻璃钢雕塑卡通哪个好新乡玻璃钢室内不锈钢雕塑小品广东多彩玻璃钢雕塑哪家便宜玻璃钢雕塑国际象棋贵州玻璃钢马雕塑制作厦门玻璃钢雕塑哪里有烟台梅州玻璃钢动物雕塑福建特色商场美陈生产公司宝安玻璃钢人物雕塑制品厂广州玻璃钢雕塑哪家好河南公园水景玻璃钢雕塑报价北京商场美陈生产公司香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化